このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230413となっている論文です。

PDF登録状況(公開日: 20230413)

TitleAuthorsAbstract論文公表日・翻訳日
# ChatGPTがSPADE(Sustainability, PrivAcy, Digital divide, Ethics)を必要としている: レビュー

ChatGPT Needs SPADE (Sustainability, PrivAcy, Digital divide, and Ethics) Evaluation: A Review ( http://arxiv.org/abs/2305.03123v1 )

ライセンス: Link先を確認
Sunder Ali Khowaja, Parus Khuwaja, Kapal Dev(参考訳) ChatGPTは別の大規模言語モデル(LLM)のインラインだが、その性能と効果的な会話能力のため、研究や産業コミュニティで大きな人気を得ている。 近年,チャットGPTや他のLLMの有効性,効率性,統合性,感情性を示す研究が数多く発表されている。 対照的に、本研究では、サステナビリティ、プライバシ、ディジタルディビジョン、倫理といった、主に見落とされがちな重要な側面に焦点を当て、チャットGPTだけでなく、会話ボットのカテゴリにおけるその後の全てのエントリは、サステナビリティ、プリヴエイシー、デジタルディビジョン、倫理(SPADE)の評価を受けるべきであることを示唆している。 本稿では、上記の特徴に則って、チャットGPTにまつわる問題や懸念について詳述する。 予備的なデータ収集と可視化と仮説の事実によって仮説を支持する。 また、各懸念事項に対する緩和や勧告も提案する。 さらに、政府によって設計された場合、AIポリシー法に関するポリシーや勧告も提案する。

ChatGPT is another large language model (LLM) inline but due to its performance and ability to converse effectively, it has gained a huge popularity amongst research as well as industrial community. Recently, many studies have been published to show the effectiveness, efficiency, integration, and sentiments of chatGPT and other LLMs. In contrast, this study focuses on the important aspects that are mostly overlooked, i.e. sustainability, privacy, digital divide, and ethics and suggests that not only chatGPT but every subsequent entry in the category of conversational bots should undergo Sustainability, PrivAcy, Digital divide, and Ethics (SPADE) evaluation. This paper discusses in detail about the issues and concerns raised over chatGPT in line with aforementioned characteristics. We support our hypothesis by some preliminary data collection and visualizations along with hypothesized facts. We also suggest mitigations and recommendations for each of the concerns. Furthermore, we also suggest some policies and recommendations for AI policy act, if designed by the governments.
翻訳日:2023-05-14 21:14:17 公開日:2023-04-13
# 説明可能な人間のポーズの表現、分析、生成のための深部状態空間モデリング

Deep state-space modeling for explainable representation, analysis, and generation of professional human poses ( http://arxiv.org/abs/2304.14502v1 )

ライセンス: Link先を確認
Brenda Elizabeth Olivas-Padilla and Sotiris Manitsaris(参考訳) 人間の運動の分析は、その多種多様な応用のために広く研究されている。 それでも、最先端技術は人間の動きをモデル化しながら科学的課題に直面している。 第一に,人体運動の確率性と身体の物理的構造を考慮した新しいモデルが,身体運動記述子の経時的変化を正確に予測するために求められている。 第2に、既存の深層学習アルゴリズムの身体姿勢予測に関する説明性は、人間の運動の理解可能な表現が欠如しているため、まだ改善される必要がある。 本稿では,人間の動作を説明可能な表現として3つの新しいアプローチを導入することで,これらの課題に対処する。 本研究では,深層学習と統計アルゴリズムを用いてパラメータを推定する動的システムの状態空間モデルとして,全身運動を定式化する。 これらの表現は、その空間的および時間的仮定による動きを記述するジェスチャー操作モデル(gom)の構造に準拠している。 2つのアプローチは、解釈可能な姿勢予測を提供するために非線形ネットワークパラメータ化を適用する深い状態空間モデルに対応する。 第3の方法はカルマンフィルタを用いたワンショットトレーニングを用いてGOM表現を訓練する。 このトレーニング戦略により、ユーザーは1つの動きをモデル化し、深層学習アルゴリズムよりも計算能力の少ない手順を用いて数学的表現を推定できる。 最終的に、生成された表現の2つの応用が提示される。 第1は人間の運動の正確な生成であり、第2は、身体関節と意味のある運動記述子の間の動的関連を識別する専門的な運動の身体のデキスタリティ分析である。

The analysis of human movements has been extensively studied due to its wide variety of practical applications. Nevertheless, the state-of-the-art still faces scientific challenges while modeling human movements. Firstly, new models that account for the stochasticity of human movement and the physical structure of the human body are required to accurately predict the evolution of full-body motion descriptors over time. Secondly, the explainability of existing deep learning algorithms regarding their body posture predictions while generating human movements still needs to be improved as they lack comprehensible representations of human movement. This paper addresses these challenges by introducing three novel approaches for creating explainable representations of human movement. In this work, full-body movement is formulated as a state-space model of a dynamic system whose parameters are estimated using deep learning and statistical algorithms. The representations adhere to the structure of the Gesture Operational Model (GOM), which describes movement through its spatial and temporal assumptions. Two approaches correspond to deep state-space models that apply nonlinear network parameterization to provide interpretable posture predictions. The third method trains GOM representations using one-shot training with Kalman Filters. This training strategy enables users to model single movements and estimate their mathematical representation using procedures that require less computational power than deep learning algorithms. Ultimately, two applications of the generated representations are presented. The first is for the accurate generation of human movements, and the second is for body dexterity analysis of professional movements, where dynamic associations between body joints and meaningful motion descriptors are identified.
翻訳日:2023-05-07 16:12:03 公開日:2023-04-13
# powergan:compute-in-memoryacceleratorのパワーサイドチャネル攻撃のための機械学習アプローチ

PowerGAN: A Machine Learning Approach for Power Side-Channel Attack on Compute-in-Memory Accelerators ( http://arxiv.org/abs/2304.11056v1 )

ライセンス: Link先を確認
Ziyu Wang, Yuting Wu, Yongmo Park, Sangmin Yoo, Xinxin Wang, Jason K. Eshraghian, and Wei D. Lu(参考訳) アナログ・コンピュート・イン・メモリ(cim)加速器は、エネルギー効率とその場ベクトル行列乗算(vmm)能力のため、ディープニューラルネットワーク(dnn)推論で人気が高まっている。 しかし、DNNの利用が拡大するにつれ、ユーザの入力プライバシー保護がますます重要になっている。 本稿では、DNNモデルの知識がなくても、適切なデータ取得と事前処理の下で、電力側チャネル攻撃からユーザのプライベート入力データを再構築できるセキュリティ脆弱性を特定する。 さらに,GAN(Generative Adversarial Network)を用いた機械学習による攻撃手法の実証を行った。 提案手法は,大規模な騒音レベルと対策を適用した場合でも,アナログCIM加速器の電力リークからユーザ入力を再構築するのに有効であることを示す。 具体的には,磁気共鳴画像(MRI)における脳腫瘍検出のためのU-Netへのアプローチの有効性を,最大出力信号値の20%の標準偏差で実証した。 本研究は、アナログCIMアクセラレーターにおける重大なセキュリティ脆弱性を強調し、ユーザプライバシを侵害するためのGANを用いた効果的な攻撃方法を提案する。

Analog compute-in-memory (CIM) accelerators are becoming increasingly popular for deep neural network (DNN) inference due to their energy efficiency and in-situ vector-matrix multiplication (VMM) capabilities. However, as the use of DNNs expands, protecting user input privacy has become increasingly important. In this paper, we identify a security vulnerability wherein an adversary can reconstruct the user's private input data from a power side-channel attack, under proper data acquisition and pre-processing, even without knowledge of the DNN model. We further demonstrate a machine learning-based attack approach using a generative adversarial network (GAN) to enhance the reconstruction. Our results show that the attack methodology is effective in reconstructing user inputs from analog CIM accelerator power leakage, even when at large noise levels and countermeasures are applied. Specifically, we demonstrate the efficacy of our approach on the U-Net for brain tumor detection in magnetic resonance imaging (MRI) medical images, with a noise-level of 20% standard deviation of the maximum power signal value. Our study highlights a significant security vulnerability in analog CIM accelerators and proposes an effective attack methodology using a GAN to breach user privacy.
翻訳日:2023-04-30 08:05:19 公開日:2023-04-13
# ChatGPT時代の責任AIに向けて:基礎モデルベースAIシステム設計のための参照アーキテクチャ

Towards Responsible AI in the Era of ChatGPT: A Reference Architecture for Designing Foundation Model-based AI Systems ( http://arxiv.org/abs/2304.11090v1 )

ライセンス: Link先を確認
Qinghua Lu, Liming Zhu, Xiwei Xu, Zhenchang Xing, Jon Whittle(参考訳) ChatGPT、Bard、およびその他のLLMベースのチャットボットのリリースは、世界中の基礎モデルに大きな注目を集めている。 ファウンデーションモデルが、将来のほとんどのaiシステムの基本的なビルディングブロックとして機能する傾向が強まっている。 しかし、基礎モデルをAIシステムに組み込むことは、ブラックボックスの性質と急速に進歩する超知能のため、責任あるAIに対して重大な懸念を提起する。 さらに、基盤モデルの能力拡大は、最終的にはaiシステムの他のコンポーネントを吸収し、アーキテクチャ設計における移動境界とインターフェース進化の課題を導入する。 これらの課題に対処するために,本研究では,基礎モデルに基づくAIシステムを設計するための,パターン指向のAI設計参照アーキテクチャを提案する。 具体的には,基礎モデル時代におけるAIシステムのアーキテクチャ進化を,"境界モデル・アズ・ア・コネクタ"から"境界モデル・ア・モノリシックアーキテクチャ"まで提示する。 そして、この論文は重要な設計決定ポイントを特定し、新しいアーキテクチャの進化とAIの課題に対処するために、再利用可能なAIバイデザインアーキテクチャソリューションを提供するパターン指向参照アーキテクチャを提案する。 これらのパターンは、ファンデーションモデルベースのAIシステムの製品機能として組み込むことができ、組織がファンデーションモデルの可能性に乗じながら、関連するリスクを最小限にすることができる。

The release of ChatGPT, Bard, and other large language model (LLM)-based chatbots has drawn huge attention on foundations models worldwide. There is a growing trend that foundation models will serve as the fundamental building blocks for most of the future AI systems. However, incorporating foundation models in AI systems raises significant concerns about responsible AI due to their black box nature and rapidly advancing super-intelligence. Additionally, the foundation model's growing capabilities can eventually absorb the other components of AI systems, introducing the moving boundary and interface evolution challenges in architecture design. To address these challenges, this paper proposes a pattern-oriented responsible-AI-by-design reference architecture for designing foundation model-based AI systems. Specially, the paper first presents an architecture evolution of AI systems in the era of foundation models, from "foundation-model-as-a-connector" to "foundation-model-as-a-monolithic architecture". The paper then identifies the key design decision points and proposes a pattern-oriented reference architecture to provide reusable responsible-AI-by-design architectural solutions to address the new architecture evolution and responsible AI challenges. The patterns can be embedded as product features of foundation model-based AI systems and can enable organisations to capitalise on the potential of foundation models while minimising associated risks.
翻訳日:2023-04-30 07:57:59 公開日:2023-04-13
# MITRE CWE弱さに対するCVE脆弱性記録の自動マッピング

Automated Mapping of CVE Vulnerability Records to MITRE CWE Weaknesses ( http://arxiv.org/abs/2304.11130v1 )

ライセンス: Link先を確認
Ashraf Haddad, Najwa Aaraj, Preslav Nakov, Septimiu Fabian Mare(参考訳) 近年、サイバーセキュリティの脅威と多様性が増加し、レポートや分析が増加している。 これに対抗するために、MITREやOSWAPのような多くの非営利団体がこの領域に現れ、脆弱性を積極的に追跡し、標準化されたフォーマットで防衛勧告を発行している。 このようなフォーマットでデータを生成するのは非常に時間がかかるため、プロセスを自動化するための提案がいくつかあった。 残念ながら、この問題に教師付き機械学習を採用する上での大きな障害は、公開可能な特別なデータセットがないことである。 ここではこのギャップを埋めることを目指しています。 特に,CVEレコードをMITRE CWE Weaknessesにマッピングすることに集中し,手動で注記した4,012レコードのデータセットを研究コミュニティにリリースする。 人為的なループ型フレームワークを念頭に置いて,課題をランキングタスクとしてアプローチし,今後の作業で人的フィードバックを活用するために強化学習を取り入れることを目指す。 Sentence-BERT や rankT5 といった微調整深層学習モデルを用いた実験結果から,BM25 や BERT ,RoBERTa よりも大きな性能向上を示した。

In recent years, a proliferation of cyber-security threats and diversity has been on the rise culminating in an increase in their reporting and analysis. To counter that, many non-profit organizations have emerged in this domain, such as MITRE and OSWAP, which have been actively tracking vulnerabilities, and publishing defense recommendations in standardized formats. As producing data in such formats manually is very time-consuming, there have been some proposals to automate the process. Unfortunately, a major obstacle to adopting supervised machine learning for this problem has been the lack of publicly available specialized datasets. Here, we aim to bridge this gap. In particular, we focus on mapping CVE records into MITRE CWE Weaknesses, and we release to the research community a manually annotated dataset of 4,012 records for this task. With a human-in-the-loop framework in mind, we approach the problem as a ranking task and aim to incorporate reinforced learning to make use of the human feedback in future work. Our experimental results using fine-tuned deep learning models, namely Sentence-BERT and rankT5, show sizable performance gains over BM25, BERT, and RoBERTa, which demonstrates the need for an architecture capable of good semantic understanding for this task.
翻訳日:2023-04-30 07:46:23 公開日:2023-04-13
# エネルギー効率の良い自動運転サービスのためのエッジAIに関する研究

A Survey on Approximate Edge AI for Energy Efficient Autonomous Driving Services ( http://arxiv.org/abs/2304.14271v1 )

ライセンス: Link先を確認
Dewant Katare, Diego Perino, Jari Nurmi, Martijn Warnier, Marijn Janssen, and Aaron Yi Ding(参考訳) 自律運転サービスはカメラ、LiDAR、レーダー、通信モジュールなどのセンサーに大きく依存している。 センシングされたデータを処理する一般的なプラクティスは、車両内に配置された高性能コンピューティングユニットを使用して、aiモデルとアルゴリズムをデプロイして、車両の脳または管理者として機能させる。 平均運転時間から生成された車両データは、センサーのデータレートと仕様に応じて最大20テラバイトまで得ることができる。 自動運転サービスの規模と急速な成長を考えると、特に車両の電気化(例えばバッテリー駆動)のトレンドにおいて、総合的なエネルギー効率と環境効率を向上させることが不可欠である。 センサー技術、無線通信、コンピューティング、AI/MLアルゴリズムなどの分野では大きな進歩があったが、エネルギー効率を達成するためにこれらの技術革新をどのように応用し、統合するかという点では、依然として課題が残っている。 この調査は、接続された車両アプリケーション、車両通信、近似、エッジAI技術についてレビューし、比較する。 新しく提案された近似と実現フレームワークをカバーすることで、エネルギー効率に重点が置かれている。 私たちの知る限りでは、この調査は、エネルギー効率の高い自動運転において、最新の近似エッジAIフレームワークと一般公開データセットを初めてレビューするものです。 この調査から得られた洞察とビジョンは、低消費電力・メモリ制約付きシステムにおける協調運転サービス開発や、自動運転車のエネルギー最適化に有益である。

Autonomous driving services rely heavily on sensors such as cameras, LiDAR, radar, and communication modules. A common practice of processing the sensed data is using a high-performance computing unit placed inside the vehicle, which deploys AI models and algorithms to act as the brain or administrator of the vehicle. The vehicular data generated from average hours of driving can be up to 20 Terabytes depending on the data rate and specification of the sensors. Given the scale and fast growth of services for autonomous driving, it is essential to improve the overall energy and environmental efficiency, especially in the trend towards vehicular electrification (e.g., battery-powered). Although the areas have seen significant advancements in sensor technologies, wireless communications, computing and AI/ML algorithms, the challenge still exists in how to apply and integrate those technology innovations to achieve energy efficiency. This survey reviews and compares the connected vehicular applications, vehicular communications, approximation and Edge AI techniques. The focus is on energy efficiency by covering newly proposed approximation and enabling frameworks. To the best of our knowledge, this survey is the first to review the latest approximate Edge AI frameworks and publicly available datasets in energy-efficient autonomous driving. The insights and vision from this survey can be beneficial for the collaborative driving service development on low-power and memory-constrained systems and also for the energy optimization of autonomous vehicles.
翻訳日:2023-04-30 07:11:06 公開日:2023-04-13
# PALF: 点雲の簡易アノテーションのためのプレアノテーションとカメラLiDARレイトフュージョン

PALF: Pre-Annotation and Camera-LiDAR Late Fusion for the Easy Annotation of Point Clouds ( http://arxiv.org/abs/2304.08591v1 )

ライセンス: Link先を確認
Yucheng Zhang, Masaki Fukuda, Yasunori Ishii, Kyoko Ohshima, and Takayoshi Yamashita(参考訳) 自動運転の分野では3d物体検出が不可欠となっている。 これまで、ディープラーニングによる3dオブジェクト検出研究で、感謝すべきブレークスルーが記録されてきた。 しかし、ディープラーニングアルゴリズムはデータ駆動であり、トレーニングと評価には大量のアノテートポイントクラウドデータが必要である。 2次元画像ラベルとは違って,手作業の手間や不規則性,低分解能の限界により,アノテーションの効率が2次元画像よりもはるかに低いため,ポイントクラウドデータのアノテートは困難であり,プリアノテーションとカメラライダAR遅延融合アルゴリズムのアノテーションアルゴリズムを提案して,容易に正確にアノテートする。 本研究の貢献は以下の通りである。 1) 点クラウドの簡単なアノテーションのために, 3次元オブジェクト検出と自動フィッティングを用いた事前アノテーションアルゴリズム, (2) 2次元および3次元結果を用いたカメラ・ライダー・レイトフュージョンアルゴリズムにより, エラーチェックが容易であり, アノテータが行方不明物体を容易に識別するのに役立つこと, 3) 実験を評価するためのポイントクラウドアノテーション評価パイプラインを提案する。 実験の結果, 提案手法では, 3次元交点を結合点上で6.5倍, アノテーション品質を8.2ポイント, 精度5.6ポイント改善し, また, ミスレートを31.9ポイント削減した。

3D object detection has become indispensable in the field of autonomous driving. To date, gratifying breakthroughs have been recorded in 3D object detection research, attributed to deep learning. However, deep learning algorithms are data-driven and require large amounts of annotated point cloud data for training and evaluation. Unlike 2D image labels, annotating point cloud data is difficult due to the limitations of sparsity, irregularity, and low resolution, which requires more manual work, and the annotation efficiency is much lower than 2D image.Therefore, we propose an annotation algorithm for point cloud data, which is pre-annotation and camera-LiDAR late fusion algorithm to easily and accurately annotate. The contributions of this study are as follows. We propose (1) a pre-annotation algorithm that employs 3D object detection and auto fitting for the easy annotation of point clouds, (2) a camera-LiDAR late fusion algorithm using 2D and 3D results for easily error checking, which helps annotators easily identify missing objects, and (3) a point cloud annotation evaluation pipeline to evaluate our experiments. The experimental results show that the proposed algorithm improves the annotating speed by 6.5 times and the annotation quality in terms of the 3D Intersection over Union and precision by 8.2 points and 5.6 points, respectively; additionally, the miss rate is reduced by 31.9 points.
翻訳日:2023-04-23 04:27:29 公開日:2023-04-13
# 関連判断のための大規模言語モデルへの展望

Perspectives on Large Language Models for Relevance Judgment ( http://arxiv.org/abs/2304.09161v1 )

ライセンス: Link先を確認
Guglielmo Faggioli, Laura Dietz, Charles Clarke, Gianluca Demartini, Matthias Hagen, Claudia Hauff, Noriko Kando, Evangelos Kanoulas, Martin Potthast, Benno Stein, Henning Wachsmuth(参考訳) ChatGPTのような現在の大規模言語モデル(LLM)は、関連する判断を支援することができると主張している。 多くの研究者は、これが信頼できる赤外線研究に繋がらないと考えている。 本稿では, LLMが人的専門家を支援できる可能性, 懸念事項, 課題について論じる。 我々は,人間がどの程度マシンに依存しているかに基づいて,異なる関連判断戦略を分類できる,人間と機械の協調スペクトルを考案する。 完全自動評価」の極端に、llmに基づく妥当性判断が訓練された人間評価者の判断と相関するかどうかのパイロット実験も実施する。 論文の結論は, 自動関連判断におけるLLMの使用と反対の2つの視点と, 文献の分析, 予備実験証拠, IR研究者としての経験から得られた妥協視点を提示することによって, 論文を締めくくった。 評価にllmを使用し、そうでなければ弱められる場合、作業は弱められ、レビューの間、停滞する仲間を避けるために、コミュニティ内で建設的な議論を始めることを願っています。

When asked, current large language models (LLMs) like ChatGPT claim that they can assist us with relevance judgments. Many researchers think this would not lead to credible IR research. In this perspective paper, we discuss possible ways for LLMs to assist human experts along with concerns and issues that arise. We devise a human-machine collaboration spectrum that allows categorizing different relevance judgment strategies, based on how much the human relies on the machine. For the extreme point of "fully automated assessment", we further include a pilot experiment on whether LLM-based relevance judgments correlate with judgments from trained human assessors. We conclude the paper by providing two opposing perspectives - for and against the use of LLMs for automatic relevance judgments - and a compromise perspective, informed by our analyses of the literature, our preliminary experimental evidence, and our experience as IR researchers. We hope to start a constructive discussion within the community to avoid a stale-mate during review, where work is dammed if is uses LLMs for evaluation and dammed if it doesn't.
翻訳日:2023-04-23 04:18:40 公開日:2023-04-13
# 非エルミートフェルミオン模型における例外的絡み合い

Exceptional entanglement in non-Hermitian fermionic models ( http://arxiv.org/abs/2304.08609v1 )

ライセンス: Link先を確認
Wei-Zhu Yi, Yong-Ju Hai, Rong Xiao and Wei-Qiang Chen(参考訳) 異種特異点(exotic singular objects)は、非エルミート物理学においてユビキタスである。 これらは異常な効果と欠陥を生み出すエネルギーバンドのスペクトル特異点かもしれない。 本稿では,2種類のスペクトル特異点(SEP)を持つ一般非エルミートモデルの量子絡み合いを系統的に検討する。 非単体共形場理論と$k$-線型型SEPの関係が発見されたが、これは典型的には$\mathcal{PT}$-symmetric や Pesdo-Hermicity 自然破砕と関連している。 複素スペクトルにおいて実(虚)ギャップを閉じて1次相転移臨界を模倣する$k$-2乗根型SEPと複素中心電荷の計算により複素共形場理論(cCFTs)との間の基礎的な関係が解決される。 絡み合いスペクトルから、ゼロエネルギーの例外モードは通常のゼロモードや位相境界モードとは異なることが分かる。 最後に、類似の非エルミート量子スピンモデルの簡単な議論と、様々なシナリオにおいてスピン図を通して例外点の直感的な理解を確立する試みを含む。

Exotic singular objects, known as exceptional points, are ubiquitous in non-Hermitian physics. They might be spectral singularities in energy bands that produce anomalous effects and defectiveness. The quantum entanglement of a generic non-Hermitian model with two different types of spectral exceptional points (SEPs) is systematically investigated in this paper. We discovered a relationship between non-unitary conformal field theories and the $k$-linear-type SEPs, which is typically associated with $\mathcal{PT}$-symmetry or pesdo-Hermicity spontaneous breaking. The underlying association between $k$-square-root-type SEPs, which arise concurrently with real (imaginary) gap closing in the complex spectrum, mimicking first-order-phase-transition criticalities, and complex conformal field theories (cCFTs) is addressed through the calculation of complex central charges. From the entanglement spectrum, zero-energy exceptional modes are found to be distinct from normal zero modes or topological boundary modes. Finally, we include a brief discussion of analogous non-Hermitian quantum spin models and endeavor to establish an intuitive understanding of exceptional points through the spin picture in various scenarios.
翻訳日:2023-04-23 04:16:07 公開日:2023-04-13
# ヘルメット換気検出のための遺伝的アルゴリズムを用いた細調整YOLOv5

Fine-Tuning YOLOv5 with Genetic Algorithm For Helmet Violation Detection ( http://arxiv.org/abs/2304.09248v1 )

ライセンス: Link先を確認
Elham Soltanikazemi, Armstrong Aboah, Elizabeth Arthur, Bijaya Kumar Hatuwal(参考訳) 本研究は、ヘルメット法に違反する問題と、オートバイ乗りと乗客の両方にとって潜在的危険について論じる。 ヘルメットの使用が確立された利点にもかかわらず、コンプライアンスは世界中の多くの地域で大きな課題であり、さまざまな要因がこの問題に寄与している。 この懸念を和らげるために、ヘルメット法をリアルタイムに監視し、施行することが妥当な解決策として提唱されている。 しかしながら、リアルタイムヘルメット違反検出の試みは、リアルタイムに動作できないため、制限されている。 この問題に対処するため,本稿では,ヨロフ5と呼ばれる単段物体検出モデルを用いたリアルタイムヘルメット違反検出システムを提案する。 このモデルは2023年のnvidia ai city challenge track 5データセットでトレーニングされ、モデルのトレーニングに最適なハイパーパラメータを選択するために遺伝的アルゴリズムを用いた。 さらに、モデル性能を向上させるために、フリップや回転などのデータ拡張技術を実装した。 モデルの有効性を平均平均精度(mAP)を用いて評価した。 開発したモデルでは, 実験データで0.5377点のマップスコアを達成し, トップボードで10位となった。 提案手法は、この分野における注目すべきブレークスルーであり、オートバイの安全性を著しく向上させる可能性を秘めている。

The present study addresses the issue of non-compliance with helmet laws and the potential danger to both motorcycle riders and passengers. Despite the well-established advantages of helmet usage, compliance remains a formidable challenge in many regions of the world, with various factors contributing to the issue. To mitigate this concern, real-time monitoring and enforcement of helmet laws have been advocated as a plausible solution. However, previous attempts at real-time helmet violation detection have been limited by their inability to operate in real-time. To remedy this issue, the current paper proposes a real-time helmet violation detection system utilizing a single-stage object detection model called YOLOv5. The model was trained on the 2023 NVIDIA AI City Challenge Track 5 dataset and employed genetic algorithms in selecting the optimal hyperparameters for training the model. Furthermore, data augmentation techniques such as flip, and rotation were implemented to improve model performance. The efficacy of the model was assessed using mean average precision (mAP). Our developed model achieved an mAP score of 0.5377 on the experimental test data which won 10th place on the public leaderboard. The proposed approach represents a noteworthy breakthrough in the field and holds the potential to significantly improve motorcycle safety.
翻訳日:2023-04-23 04:06:12 公開日:2023-04-13
# sigsegment:自然走行ビデオにおける異常運転行動同定のための信号に基づくセグメンテーションアルゴリズム

SigSegment: A Signal-Based Segmentation Algorithm for Identifying Anomalous Driving Behaviours in Naturalistic Driving Videos ( http://arxiv.org/abs/2304.09247v1 )

ライセンス: Link先を確認
Kelvin Kwakye, Younho Seong, Armstrong Aboah, Sun Yi(参考訳) 近年、道路の公共の安全に重大な脅威をもたらし続けているため、運転の邪魔がかなりの注目を集めている。 これにより、致命的な事故が発生する前に注意をそらした運転行動を識別し排除できる革新的なソリューションの必要性が高まっている。 本稿では,映像を深いCNN-LSTM分類器を用いて異常・非異常に分割し,異常運転イベントの開始時刻と終了時刻を正確に推定する信号ベース異常検出アルゴリズムを提案する。 異常検出・解析の段階では、運転者の背景推定、マスク抽出、信号活動スパイクを利用する。 最終異常の検出と分類には, 深層cnn-lstm分類器を適用した。 実験結果によると,提案手法は0.5424のオーバーラップスコアを達成し,AIシティチャレンジ2023で9位となった。

In recent years, distracted driving has garnered considerable attention as it continues to pose a significant threat to public safety on the roads. This has increased the need for innovative solutions that can identify and eliminate distracted driving behavior before it results in fatal accidents. In this paper, we propose a Signal-Based anomaly detection algorithm that segments videos into anomalies and non-anomalies using a deep CNN-LSTM classifier to precisely estimate the start and end times of an anomalous driving event. In the phase of anomaly detection and analysis, driver pose background estimation, mask extraction, and signal activity spikes are utilized. A Deep CNN-LSTM classifier was applied to candidate anomalies to detect and classify final anomalies. The proposed method achieved an overlap score of 0.5424 and ranked 9th on the public leader board in the AI City Challenge 2023, according to experimental validation results.
翻訳日:2023-04-23 04:05:55 公開日:2023-04-13
# 乳がんリスク因子分析と生存予測のための教師付き機械学習

Supervised Machine Learning for Breast Cancer Risk Factors Analysis and Survival Prediction ( http://arxiv.org/abs/2304.07299v1 )

ライセンス: Link先を確認
Khaoula Chtouki, Maryem Rhanoui, Mounia Mikram, Kamelia Amazian, Siham Yousfi(参考訳) 最も効果的な治療法の選択は、最終的に乳癌の生存予測に影響される可能性がある。 患者が生存する確率を予測するために、統計学、機械学習、ディープラーニングモデルなど様々な手法が採用された。 本研究は,METABRICデータセットから得られた1904年の患者記録を用いて,機械学習を用いた5年間の乳癌生存率の予測を行った。 本研究では、7つの分類モデルの結果を比較し、リコール、AUC、混乱行列、精度、精度、偽陽性率、真正率の指標を用いて、それらがどれだけうまく機能するかを評価する。 その結果,ロジスティック回帰 (LR), サポートベクターマシン (SVM), 決定木 (DT), ランダムフォレスト (RD), 極端ランダム化木 (ET), K-Nearest Neighbor (KNN), 適応ブースティング (AdaBoost), 適応ブースティング (AdaBoost) の分類器は, 試験試料の生存率を, 75,4\%, 74,7\%, 71,5\%, 75,5\%, 70,3\%, 78パーセントを正確に予測できることがわかった。

The choice of the most effective treatment may eventually be influenced by breast cancer survival prediction. To predict the chances of a patient surviving, a variety of techniques were employed, such as statistical, machine learning, and deep learning models. In the current study, 1904 patient records from the METABRIC dataset were utilized to predict a 5-year breast cancer survival using a machine learning approach. In this study, we compare the outcomes of seven classification models to evaluate how well they perform using the following metrics: recall, AUC, confusion matrix, accuracy, precision, false positive rate, and true positive rate. The findings demonstrate that the classifiers for Logistic Regression (LR), Support Vector Machines (SVM), Decision Tree (DT), Random Forest (RD), Extremely Randomized Trees (ET), K-Nearest Neighbor (KNN), and Adaptive Boosting (AdaBoost) can accurately predict the survival rate of the tested samples, which is 75,4\%, 74,7\%, 71,5\%, 75,5\%, 70,3\%, and 78 percent.
翻訳日:2023-04-18 19:49:55 公開日:2023-04-13
# 道路ネットワーク表現学習:デュアルグラフに基づくアプローチ

Road Network Representation Learning: A Dual Graph based Approach ( http://arxiv.org/abs/2304.07298v1 )

ライセンス: Link先を確認
Liang Zhang and Cheng Long(参考訳) 道路網は交通、移動、物流など多くのアプリケーションを支える重要なインフラである。 これらの異なるアプリケーションにまたがる道路網の入力を利用するには,ベクトルの形で道路の表現を学習する必要がある。 RNRLではいくつかのモデルが提案されているが、道路間の対関係(例えば単純なグラフ)を捉えるだけで、高次関係(例えば、地方を共同で形成する道路は、通常速度制限のような類似した特徴を持つ)と長距離関係(例えば、住宅地における道路のような、遠く離れた道路は、同様の意味を持つこともある)を道路間で捉えることができない。 そこで我々は,各ハイパーエッジが領域を形成する複数の道路の組に対応する, \emph{hypergraph} を構築することを提案する。 構築されたハイパーグラフは、ハイパーエッジを持つ道路間の高次関係を自然に捉える。 次に、単純なグラフのエッジとグラフニューラルネットワークコンテキストのハイパーグラフのハイパーエッジの両方を通して情報伝達を可能にする。 グラフ再構成およびハイパーグラフ再構築タスクは従来のタスクであり、構造情報をキャプチャすることができる。 ハイパーエッジ分類タスクは、同じラベルを持つハイパーエッジに属する道路のペア間の長距離関係をキャプチャすることができる。 結果のモデル \emph{HyperRoad} を呼び出します。 道路上で発生する道路属性や軌跡の追加入力が利用可能になった場合、HyperRoadをさらに問題設定に拡張する。

Road network is a critical infrastructure powering many applications including transportation, mobility and logistics in real life. To leverage the input of a road network across these different applications, it is necessary to learn the representations of the roads in the form of vectors, which is named \emph{road network representation learning} (RNRL). While several models have been proposed for RNRL, they capture the pairwise relationships/connections among roads only (i.e., as a simple graph), and fail to capture among roads the high-order relationships (e.g., those roads that jointly form a local region usually have similar features such as speed limit) and long-range relationships (e.g., some roads that are far apart may have similar semantics such as being roads in residential areas). Motivated by this, we propose to construct a \emph{hypergraph}, where each hyperedge corresponds to a set of multiple roads forming a region. The constructed hypergraph would naturally capture the high-order relationships among roads with hyperedges. We then allow information propagation via both the edges in the simple graph and the hyperedges in the hypergraph in a graph neural network context. The graph reconstruction and hypergraph reconstruction tasks are conventional ones and can capture structural information. The hyperedge classification task can capture long-range relationships between pairs of roads that belong to hyperedges with the same label. We call the resulting model \emph{HyperRoad}. We further extend HyperRoad to problem settings when additional inputs of road attributes and/or trajectories that are generated on the roads are available.
翻訳日:2023-04-18 19:49:29 公開日:2023-04-13
# 人間-AI協調のための言語指導強化学習

Language Instructed Reinforcement Learning for Human-AI Coordination ( http://arxiv.org/abs/2304.07297v1 )

ライセンス: Link先を確認
Hengyuan Hu, Dorsa Sadigh(参考訳) AIの基本的な課題の1つは、人間とうまく協調するエージェントを作ることである。 マルチエージェント強化学習(rl:multi-agent reinforcement learning)は、人間が好むものと異なる均衡に収束することが多いからだ。 自然言語による指示によって、aiパートナーにどのような戦略を期待できるかを人間が指定できる、新しいフレームワークinstructrlを提案する。 我々は、事前訓練された大規模言語モデルを用いて、人間の指示に基づく事前ポリシーを生成し、RLの目的を正規化するために事前ポリシーを使用する。 これにより、RLエージェントはヒトの嗜好に沿った平衡に収束する。 InstructRLは,概念実証環境において与えられた指示を満足する人間的なポリシーと,ハナビベンチマークに収束することを示す。 最後に,ハナビにおける人的評価において,言語指導の知識が人間とAIの協調性能を著しく向上させることを示す。

One of the fundamental quests of AI is to produce agents that coordinate well with humans. This problem is challenging, especially in domains that lack high quality human behavioral data, because multi-agent reinforcement learning (RL) often converges to different equilibria from the ones that humans prefer. We propose a novel framework, instructRL, that enables humans to specify what kind of strategies they expect from their AI partners through natural language instructions. We use pretrained large language models to generate a prior policy conditioned on the human instruction and use the prior to regularize the RL objective. This leads to the RL agent converging to equilibria that are aligned with human preferences. We show that instructRL converges to human-like policies that satisfy the given instructions in a proof-of-concept environment as well as the challenging Hanabi benchmark. Finally, we show that knowing the language instruction significantly boosts human-AI coordination performance in human evaluations in Hanabi.
翻訳日:2023-04-18 19:49:03 公開日:2023-04-13
# 機械学習のライフサイクル全体にわたるmlops:調査

MLOps Spanning Whole Machine Learning Life Cycle: A Survey ( http://arxiv.org/abs/2304.07296v1 )

ライセンス: Link先を確認
Fang Zhengxin, Yuan Yi, Zhang Jingyu, Liu Yue, Mu Yuechen, Lu Qinghua, Xu Xiwei, Wang Jeff, Wang Chen, Zhang Shuai and Chen Shiping(参考訳) Google AlphaGosの勝利は、機械学習(ML)の研究と開発を大いに動機付け、加速させ、MLの技術進歩とさまざまな領域(財務、健康、防衛、教育など)での広範な採用につながった。 これらの進歩により、多くの新しい概念や技術が生まれ、特にML分野への新規参入者にとって、人々が追いつき、混乱させるにはあまりにも多すぎる。 本稿では,既存のML技術の現状を包括的調査により明らかにすることを目的としている。 MLOps(ML Options)プロセスとしてMLを見て、この調査をレイアウトし、主要な概念と活動を収集し、代表的な作業や調査を精査する。 本論文は,mlの新参者(研究者,実践者など)を対象としたクイックリファレンスマニュアル(調査調査)として機能し,mlopsプロセスの概要や,mlプロセスの各ステップで使用される重要なテクノロジの理解を深めて,より詳細な情報を得るための場所を把握できることを願っている。

Google AlphaGos win has significantly motivated and sped up machine learning (ML) research and development, which led to tremendous ML technical advances and wider adoptions in various domains (e.g., Finance, Health, Defense, and Education). These advances have resulted in numerous new concepts and technologies, which are too many for people to catch up to and even make them confused, especially for newcomers to the ML area. This paper is aimed to present a clear picture of the state-of-the-art of the existing ML technologies with a comprehensive survey. We lay out this survey by viewing ML as a MLOps (ML Operations) process, where the key concepts and activities are collected and elaborated with representative works and surveys. We hope that this paper can serve as a quick reference manual (a survey of surveys) for newcomers (e.g., researchers, practitioners) of ML to get an overview of the MLOps process, as well as a good understanding of the key technologies used in each step of the ML process, and know where to find more details.
翻訳日:2023-04-18 19:48:46 公開日:2023-04-13
# 乳癌の残存腫瘍の正確な分画を学習する専門家の認知誘導型安全なノイズラベル

Experts' cognition-driven safe noisy labels learning for precise segmentation of residual tumor in breast cancer ( http://arxiv.org/abs/2304.07295v1 )

ライセンス: Link先を確認
Yongquan Yang, Jie Chen, Yani Wei, Mohammad Alobaidi and Hong Bu(参考訳) 新アジュバント化学療法後の乳癌遺残腫瘍(PSRTBC)の精密分節化は乳癌治療の根本的手法である。 しかし、PSRTBCの達成は、乳がん組織と腫瘍細胞がネオアジュバント化学療法後に複雑で変化した形態変化を持つのが一般的であるため、機械学習によりより一般化された予測モデルを作成するのが必然的に困難である。 この状況を緩和するため,本稿では,専門家の認識駆動型安全雑音ラベル学習(ecdsnll)手法を提案する。 安全な弱い教師付き学習の典型的なタイプである安全な雑音ラベル学習の概念において、ecdsnllは、乳がんの残存腫瘍の同定に関する病理学者の認識と、データベースでデータモデリングに関する人工知能の専門家の認識を統合して構成される。 提案するECDSNLLアプローチの利点とPSRTBCに対処する可能性を示す。 また、PSRTBCを実現するためのより良い予測モデルもリリースし、関連するアプリケーションソフトウェアの開発を促進するために利用することができる。

Precise segmentation of residual tumor in breast cancer (PSRTBC) after neoadjuvant chemotherapy is a fundamental key technique in the treatment process of breast cancer. However, achieving PSRTBC is still a challenge, since the breast cancer tissue and tumor cells commonly have complex and varied morphological changes after neoadjuvant chemotherapy, which inevitably increases the difficulty to produce a predictive model that has good generalization with machine learning. To alleviate this situation, in this paper, we propose an experts' cognition-driven safe noisy labels learning (ECDSNLL) approach. In the concept of safe noisy labels learning, which is a typical type of safe weakly supervised learning, ECDSNLL is constructed by integrating the pathology experts' cognition about identifying residual tumor in breast cancer and the artificial intelligence experts' cognition about data modeling with provided data basis. We show the advantages of the proposed ECDSNLL approach and its promising potentials in addressing PSRTBC. We also release a better predictive model for achieving PSRTBC, which can be leveraged to promote the development of related application software.
翻訳日:2023-04-18 19:48:27 公開日:2023-04-13
# 複数LSTMを考慮した時間区間・天気・乗り込み傾向を考慮したバス乗り込み予測

Bus Ridership Prediction with Time Section, Weather, and Ridership Trend Aware Multiple LSTM ( http://arxiv.org/abs/2304.08233v1 )

ライセンス: Link先を確認
Tatsuya Yamamura, Ismail Arai, Masatoshi Kakiuchi, Arata Endo, Kazutoshi Fujikawa(参考訳) 近年、公共交通機関は人々の生活に欠かせないものとなっている。 バス乗りは、バスに乗る人の選択の要因である。 したがって、サービス品質の向上の観点からは、バスに乗らない乗客に将来のバス乗り場を知らせることが重要である。 しかし、不正確な情報を提供することが否定的な経験を引き起こす恐れがある。 この背景に対して、まだ搭乗していないバスの乗客に高い精度の予測を提供する必要がある。 多くの研究者が研究に取り組んでいる。 しかし、2つの問題は関連する研究をまとめている。 1つ目は、連続する停留所間のバス乗り合いの相関を予測として考慮することである。 第2に、関連する研究で有用であることが示されているすべての特徴を用いて、予測がまだ行われていない。 本研究では,これらの問題に対処する予測手法を提案する。 バスストップ毎にLSTMアーキテクチャを設計し,バスストップ全体に対して単一モデルを設計することで,最初の問題を解決する。 第2の問題は,過去のバスの乗車状況,週の日,時間帯,天気,降水など,すべての有用なデータを特徴として入力することで解決する。 2021年10月1日から2022年9月30日まで兵庫県神戸市の港観光バス(神戸市)が運行するバスから収集した各停留所におけるバスの乗車状況を比較した。 提案手法はrmseを平均23%改善し,既存手法と比較して最大27%改善した。

Public transportation has been essential in people's lives in recent years. Bus ridership is a factor in people's choice to board the bus. Therefore, from the perspective of improving service quality, it is important to inform passengers who have not boarded the bus yet about future bus ridership. However, there is a concern that providing inaccurate information may cause a negative experience. Against this backdrop, there is a need to provide bus passengers who have not boarded yet with highly accurate predictions. Many researchers are working on studies on this. However, two issues summarize related studies. The first is that the correlation of bus ridership between consecutive bus stops should be considered for the prediction. The second is that the prediction has yet to be made using all of the features shown to be useful in each related study. This study proposes a prediction method that addresses both of these issues. We solve the first issue by designing an LSTM-based architecture for each bus stop and a single model for the entire bus stop. We solve the second issue by inputting all useful data, the past bus ridership, day of the week, time section, weather, and precipitation, as features. Bus ridership at each bus stop collected from buses operated by Minato Kanko Bus Inc, in Kobe city, Hyogo, Japan, from October 1, 2021, to September 30, 2022, were used to compare accuracy. The proposed method improved RMSE by 23% on average and up to 27% compared to existing methods.
翻訳日:2023-04-18 15:28:33 公開日:2023-04-13
# マイズショットデータサンプリング技術とyolov8を用いたリアルタイムマルチクラスヘルメット違反検出

Real-time Multi-Class Helmet Violation Detection Using Few-Shot Data Sampling Technique and YOLOv8 ( http://arxiv.org/abs/2304.08256v1 )

ライセンス: Link先を確認
Armstrong Aboah, Bin Wang, Ulas Bagci, Yaw Adu-Gyamfi(参考訳) 交通安全は世界の大きな関心事である。 ヘルメットの使用は、オートバイ事故による頭部の怪我や死亡を防ぐ重要な要因である。 しかし、ヘルメットの使用違反は引き続き重大な問題である。 このような違反を識別するために,コンピュータビジョン技術を用いて自動ヘルメット検出システムを提案し,実装した。 このようなシステムのリアルタイム実装は、交通監視や執行には不可欠であるが、ほとんどのシステムはリアルタイムではない。 本研究では,ロバストなリアルタイムヘルメット違反検出システムを提案する。 提案システムでは,少ないアノテーションでロバストなモデルを開発するために,マイナショットデータサンプリングと呼ばれるユニークなデータ処理戦略と,ビデオフレームからヘルメット違反をリアルタイムに検出する単一ステージオブジェクト検出モデルであるyolov8 (you only look once version 8) を使用している。 提案手法は2023年のai city challenge, track 5で7位となり,実験的検証データでは0.5861のマップスコアを得た。 実験結果は,提案システムの有効性,効率,堅牢性を示すものである。

Traffic safety is a major global concern. Helmet usage is a key factor in preventing head injuries and fatalities caused by motorcycle accidents. However, helmet usage violations continue to be a significant problem. To identify such violations, automatic helmet detection systems have been proposed and implemented using computer vision techniques. Real-time implementation of such systems is crucial for traffic surveillance and enforcement, however, most of these systems are not real-time. This study proposes a robust real-time helmet violation detection system. The proposed system utilizes a unique data processing strategy, referred to as few-shot data sampling, to develop a robust model with fewer annotations, and a single-stage object detection model, YOLOv8 (You Only Look Once Version 8), for detecting helmet violations in real-time from video frames. Our proposed method won 7th place in the 2023 AI City Challenge, Track 5, with an mAP score of 0.5861 on experimental validation data. The experimental results demonstrate the effectiveness, efficiency, and robustness of the proposed system.
翻訳日:2023-04-18 15:19:40 公開日:2023-04-13
# deepsegmenter:untrimmed naturalistic driving videoにおける異常検出のための時間的行動局在

DeepSegmenter: Temporal Action Localization for Detecting Anomalies in Untrimmed Naturalistic Driving Videos ( http://arxiv.org/abs/2304.08261v1 )

ライセンス: Link先を確認
Armstrong Aboah, Ulas Bagci, Abdul Rashid Mussah, Neema Jakisa Owor, Yaw Adu-Gyamfi(参考訳) 運転中に運転者が示す異常な運転行動を特定することは、運転者の行動とクラッシュの原因を理解する上で不可欠である。 これまでの研究では、自然主義的な運転ビデオが離散化されることを前提に、この問題を分類タスクとしてアプローチしてきた。 しかし,この課題には,自然主義的運転映像の連続性から,活動分節化と分類が求められる。 そこで本研究では,従来の手法から脱却し,単一の枠組みでアクティビティセグメンテーションと分類を同時に行う新しい手法であるdeepsegmenterを導入する。 提案されたフレームワークは、Data Module, Activity Segmentation Module, Classification Module, Postprocessing Moduleという4つの主要なモジュールで構成されている。 提案手法は2023年のai city challenge, track 3で8位となり,実験的な検証データでは0.5426であった。 実験結果は,提案システムの有効性,効率,堅牢性を示すものである。

Identifying unusual driving behaviors exhibited by drivers during driving is essential for understanding driver behavior and the underlying causes of crashes. Previous studies have primarily approached this problem as a classification task, assuming that naturalistic driving videos come discretized. However, both activity segmentation and classification are required for this task due to the continuous nature of naturalistic driving videos. The current study therefore departs from conventional approaches and introduces a novel methodological framework, DeepSegmenter, that simultaneously performs activity segmentation and classification in a single framework. The proposed framework consists of four major modules namely Data Module, Activity Segmentation Module, Classification Module and Postprocessing Module. Our proposed method won 8th place in the 2023 AI City Challenge, Track 3, with an activity overlap score of 0.5426 on experimental validation data. The experimental results demonstrate the effectiveness, efficiency, and robustness of the proposed system.
翻訳日:2023-04-18 15:07:39 公開日:2023-04-13
# 軽量同変グラフニューラルネットワークによる高精度かつ定値な変異効果予測

Accurate and Definite Mutational Effect Prediction with Lightweight Equivariant Graph Neural Networks ( http://arxiv.org/abs/2304.08299v1 )

ライセンス: Link先を確認
Bingxin Zhou, Outongyi Lv, Kai Yi, Xinye Xiong, Pan Tan, Liang Hong, Yu Guang Wang(参考訳) 広く使われているエンジニアリング戦略としての有向進化は、候補修正の膨大なサイズから望ましい変異体を見つける上での障害に直面している。 深層学習法はタンパク質のコンテクストを学習し、可能な検索空間を確立するが、既存のモデルの多くは計算上必要であり、タンパク質の配列や機能に特定の突然変異試験がどのように影響するかを予測できない。 本研究では,野生型タンパク質の微小環境を効率的に解析し,ユーザ特定タンパク質と興味のある機能に限定した実用的な高次変異を推奨する軽量グラフ表現学習手法を提案する。 提案手法は, 限られた計算資源と数百の突然変異訓練サンプルによる推論モデルの連続的改善を可能にし, その結果, 19タンパク質の深部突然変異走査法を用いて, 基底事実とほぼ完全な相関を示す変異効果の正確な予測を可能にした。 コンピュータ科学者と生化学研究室の両方に手頃な価格と適用性があり、このソリューションはコミュニティにとって理想的な選択肢となる幅広い利点を提供します。

Directed evolution as a widely-used engineering strategy faces obstacles in finding desired mutants from the massive size of candidate modifications. While deep learning methods learn protein contexts to establish feasible searching space, many existing models are computationally demanding and fail to predict how specific mutational tests will affect a protein's sequence or function. This research introduces a lightweight graph representation learning scheme that efficiently analyzes the microenvironment of wild-type proteins and recommends practical higher-order mutations exclusive to the user-specified protein and function of interest. Our method enables continuous improvement of the inference model by limited computational resources and a few hundred mutational training samples, resulting in accurate prediction of variant effects that exhibit near-perfect correlation with the ground truth across deep mutational scanning assays of 19 proteins. With its affordability and applicability to both computer scientists and biochemical laboratories, our solution offers a wide range of benefits that make it an ideal choice for the community.
翻訳日:2023-04-18 15:01:03 公開日:2023-04-13
# ノックしないで! DNNモデルのバックドアにおけるRowhammer

Don't Knock! Rowhammer at the Backdoor of DNN Models ( http://arxiv.org/abs/2110.07683v3 )

ライセンス: Link先を確認
M. Caner Tol, Saad Islam, Andrew J. Adiletta, Berk Sunar, Ziming Zhang(参考訳) 最先端のディープニューラルネットワーク(DNN)は、敵の操作やバックドア攻撃に弱いことが証明されている。 バックドアモデルは、クリーンデータのパフォーマンスを維持しながら、事前定義されたトリガーで入力の期待される振る舞いから逸脱する。 近年の研究では,ネットワーク重みの変更による推論フェーズにおけるバックドアインジェクションのソフトウェアシミュレーションに焦点が当てられている。 一方,本研究では,ローハンマーをフォールトインジェクション法として用いた分類器モデルにおいて,実ハードウェア上で実現されたエンドツーエンドのバックドアインジェクション攻撃を初めて提示する。 そこで本研究では,dnnのハードウェアへの実生活展開におけるバックドアインジェクション攻撃の有効性をまず調査し,新しい最適化の観点からハードウェア実装の実際的な課題に対処した。 私たちは、脆弱なメモリロケーションが非常に稀で、デバイス固有で、分散がほとんどないという事実に動機づけられています。 そこで本研究では,ハードウェアにおけるバックドアインジェクション攻撃を実現するために,制約付き最適化に基づく新しいネットワークトレーニングアルゴリズムを提案する。 畳み込み層と完全接続層を一様にパラメータを変更し、トリガパターンを最適化することで、ビットフリップを少なくして最先端のアタック性能を実現する。 例えば、CIFAR-10でトレーニングされたResNet-20モデル上での本手法は、テスト精度が89%以上、攻撃成功率は92%で、220万ビットのうち10ビットしか反転しない。

State-of-the-art deep neural networks (DNNs) have been proven to be vulnerable to adversarial manipulation and backdoor attacks. Backdoored models deviate from expected behavior on inputs with predefined triggers while retaining performance on clean data. Recent works focus on software simulation of backdoor injection during the inference phase by modifying network weights, which we find often unrealistic in practice due to restrictions in hardware. In contrast, in this work for the first time, we present an end-to-end backdoor injection attack realized on actual hardware on a classifier model using Rowhammer as the fault injection method. To this end, we first investigate the viability of backdoor injection attacks in real-life deployments of DNNs on hardware and address such practical issues in hardware implementation from a novel optimization perspective. We are motivated by the fact that vulnerable memory locations are very rare, device-specific, and sparsely distributed. Consequently, we propose a novel network training algorithm based on constrained optimization to achieve a realistic backdoor injection attack in hardware. By modifying parameters uniformly across the convolutional and fully-connected layers as well as optimizing the trigger pattern together, we achieve state-of-the-art attack performance with fewer bit flips. For instance, our method on a hardware-deployed ResNet-20 model trained on CIFAR-10 achieves over 89% test accuracy and 92% attack success rate by flipping only 10 out of 2.2 million bits.
翻訳日:2023-04-17 17:33:46 公開日:2023-04-13
# 強調重み付きオフポリシィアクター臨界

Off-Policy Actor-Critic with Emphatic Weightings ( http://arxiv.org/abs/2111.08172v3 )

ライセンス: Link先を確認
Eric Graves, Ehsan Imani, Raksha Kumaraswamy, Martha White(参考訳) 政策勾配定理(policy gradient theorem)により、オンポリシー設定のために様々な理論上音質の政策勾配アルゴリズムが存在する。 しかし、オフ・ポリシー・セッティングは、複数の目的の存在と明確なオフ・ポリシー・ポリシーの勾配定理の欠如により、明確ではない。 本研究では,これらの目的を一つのオフ・ポリシー目標に統一し,この統一目的に対して政策勾配定理を提供する。 導出には強調重み付けと関心関数が含まれる。 Actor Critic with Emphatic weightings (ACE) と呼ばれるアルゴリズムで、勾配を近似する複数の戦略を示す。 我々は,前回(半次)のオフ・ポリティカル・アクタ-クリティック手法-特にオフ・ポリティカル・アクタ-クリティック(オフパック)と決定論的ポリシー勾配(dpg)--が間違った解に収束し,aceが最適解を見つけることを反例で証明する。 これらの半次アプローチが実際にうまく機能する理由についても強調し,aceの分散削減戦略を提案する。 我々は,2つの古典的な制御環境と,各勾配近似によるトレードオフを説明するイメージベース環境において,aceのいくつかの変種を実験的に検討した。 強調重み付けを直接近似することにより、テストされたすべての設定において、ACEはOFPACと同等以上の性能を発揮する。

A variety of theoretically-sound policy gradient algorithms exist for the on-policy setting due to the policy gradient theorem, which provides a simplified form for the gradient. The off-policy setting, however, has been less clear due to the existence of multiple objectives and the lack of an explicit off-policy policy gradient theorem. In this work, we unify these objectives into one off-policy objective, and provide a policy gradient theorem for this unified objective. The derivation involves emphatic weightings and interest functions. We show multiple strategies to approximate the gradients, in an algorithm called Actor Critic with Emphatic weightings (ACE). We prove in a counterexample that previous (semi-gradient) off-policy actor-critic methods--particularly Off-Policy Actor-Critic (OffPAC) and Deterministic Policy Gradient (DPG)--converge to the wrong solution whereas ACE finds the optimal solution. We also highlight why these semi-gradient approaches can still perform well in practice, suggesting strategies for variance reduction in ACE. We empirically study several variants of ACE on two classic control environments and an image-based environment designed to illustrate the tradeoffs made by each gradient approximation. We find that by approximating the emphatic weightings directly, ACE performs as well as or better than OffPAC in all settings tested.
翻訳日:2023-04-17 17:21:01 公開日:2023-04-13
# SGDパラメータフリー化

Making SGD Parameter-Free ( http://arxiv.org/abs/2205.02160v2 )

ライセンス: Link先を確認
Yair Carmon and Oliver Hinder(参考訳) パラメータフリー確率凸最適化 (SCO) のアルゴリズムを開発し, 収束率は対応するパラメータ設定の最適値よりも大きい2対数係数である。 対照的に、パラメータフリーSCOの最もよく知られたレートは、オンラインパラメータフリーの後悔境界に基づいており、これは既知のパラメーターと比べ、避けられない過剰な対数項を含む。 このアルゴリズムは概念的に単純であり、高い確率保証を持ち、未知の勾配ノルム、滑らかさ、強い凸性にも部分的に適応している。 結果の核心は,SGDステップサイズ選択のための新しいパラメータフリー証明書と,SGDのa-プリオリ境界が反復しないと仮定する時間一様濃度の結果である。

We develop an algorithm for parameter-free stochastic convex optimization (SCO) whose rate of convergence is only a double-logarithmic factor larger than the optimal rate for the corresponding known-parameter setting. In contrast, the best previously known rates for parameter-free SCO are based on online parameter-free regret bounds, which contain unavoidable excess logarithmic terms compared to their known-parameter counterparts. Our algorithm is conceptually simple, has high-probability guarantees, and is also partially adaptive to unknown gradient norms, smoothness, and strong convexity. At the heart of our results is a novel parameter-free certificate for SGD step size choice, and a time-uniform concentration result that assumes no a-priori bounds on SGD iterates.
翻訳日:2023-04-17 17:12:16 公開日:2023-04-13
# NeuriCam:IoTカメラのためのキーフレームビデオスーパーリゾリューションとカラー化

NeuriCam: Key-Frame Video Super-Resolution and Colorization for IoT Cameras ( http://arxiv.org/abs/2207.12496v2 )

ライセンス: Link先を確認
Bandhav Veluri, Collin Pernu, Ali Saffari, Joshua Smith, Michael Taylor, Shyamnath Gollakota(参考訳) 我々は,低消費電力デュアルモードIoTカメラシステムによるビデオキャプチャを実現するための,新しいディープラーニングベースのシステムであるNeuriCamを提案する。 我々の考えでは、第1モードは低消費電力(1.1 mW)だが、グレースケール、低解像度、ノイズの多いビデオのみを出力し、第2モードはより高出力(100 mW)を消費するが、色と高解像度の画像を出力するデュアルモードカメラシステムを設計する。 総エネルギー消費量を減らすため、高電力モードを重くサイクルし、1秒間に1回だけ画像を出力します。 このカメラシステムのデータは、近くのプラグインゲートウェイにワイヤレスで送信され、リアルタイムニューラルネットワークデコーダを実行して高解像度のカラービデオを再構成します。 これを実現するために,各空間位置における特徴マップと入力フレームの内容との相関に基づいて,異なる特徴に異なる重みを割り当てる注目特徴フィルタ機構を導入する。 市販のカメラを用いた無線ハードウェアプロトタイプを設計し,パケットロスや視点ミスマッチといった現実的な問題に対処する。 提案手法は,既存システムに比べてエネルギー消費量を7倍に削減できることを示す。 さらに,本モデルでは,従来の単眼/双眼ビデオ超解像法よりも平均3.7dBのPSNRゲイン,および5.6dB RGBゲインを実現している。 オープンソースコード:https://github.com/vb000/NeuriCam。

We present NeuriCam, a novel deep learning-based system to achieve video capture from low-power dual-mode IoT camera systems. Our idea is to design a dual-mode camera system where the first mode is low-power (1.1 mW) but only outputs grey-scale, low resolution, and noisy video and the second mode consumes much higher power (100 mW) but outputs color and higher resolution images. To reduce total energy consumption, we heavily duty cycle the high power mode to output an image only once every second. The data for this camera system is then wirelessly sent to a nearby plugged-in gateway, where we run our real-time neural network decoder to reconstruct a higher-resolution color video. To achieve this, we introduce an attention feature filter mechanism that assigns different weights to different features, based on the correlation between the feature map and the contents of the input frame at each spatial location. We design a wireless hardware prototype using off-the-shelf cameras and address practical issues including packet loss and perspective mismatch. Our evaluations show that our dual-camera approach reduces energy consumption by 7x compared to existing systems. Further, our model achieves an average greyscale PSNR gain of 3.7 dB over prior single and dual-camera video super-resolution methods and 5.6 dB RGB gain over prior color propagation methods. Open-source code: https://github.com/vb000/NeuriCam.
翻訳日:2023-04-17 17:03:47 公開日:2023-04-13
# CPUおよびGPU上での動的グラフニューラルネットワーク推論のブートネック解析

Bottleneck Analysis of Dynamic Graph Neural Network Inference on CPU and GPU ( http://arxiv.org/abs/2210.03900v2 )

ライセンス: Link先を確認
Hanqiu Chen, Yahya Alhinai, Yihan Jiang, Eunjee Na, Cong Hao(参考訳) dynamic graph neural network (dgnn) は、現実世界の動的特徴のキャプチャに広く使われているため、ますます人気が高まっている。 アルゴリズムの観点から設計された様々な動的グラフニューラルネットワークは、時間情報をグラフ処理に組み込むことに成功した。 有望なアルゴリズム性能にもかかわらず、DGNNをハードウェアにデプロイすることは、モデルの複雑さ、多様性、時間依存性の性質など、さらなる課題をもたらす。 一方、DGNNと静的グラフニューラルネットワークの違いにより、静的グラフニューラルネットワークのハードウェア関連最適化はDGNNには適さない。 本稿では、異なる特性を持つ8種類のdgnnを選択し、cpuとgpuの両方でプロファイルする。 プロファイリングの結果を要約して分析し、ハードウェア上のDGNNのボトルネックを詳細に把握し、将来のDGNNアクセラレーションの潜在的な最適化機会を特定する。 次に,ハードウェアにおけるdgnnパフォーマンスのボトルネックについて,時間的データ依存性,ワークロードの不均衡,データ移動,gpuウォームアップなどの詳細な分析を行う。 我々はソフトウェアとハードウェアの両方の観点からいくつかの最適化を提案する。 本稿では,DGNN Codeのハードウェア性能に関する詳細な分析をhttps://github.com/sharc-lab/DGNN_analysisで公開する。

Dynamic graph neural network (DGNN) is becoming increasingly popular because of its widespread use in capturing dynamic features in the real world. A variety of dynamic graph neural networks designed from algorithmic perspectives have succeeded in incorporating temporal information into graph processing. Despite the promising algorithmic performance, deploying DGNNs on hardware presents additional challenges due to the model complexity, diversity, and the nature of the time dependency. Meanwhile, the differences between DGNNs and static graph neural networks make hardware-related optimizations for static graph neural networks unsuitable for DGNNs. In this paper, we select eight prevailing DGNNs with different characteristics and profile them on both CPU and GPU. The profiling results are summarized and analyzed, providing in-depth insights into the bottlenecks of DGNNs on hardware and identifying potential optimization opportunities for future DGNN acceleration. Followed by a comprehensive survey, we provide a detailed analysis of DGNN performance bottlenecks on hardware, including temporal data dependency, workload imbalance, data movement, and GPU warm-up. We suggest several optimizations from both software and hardware perspectives. This paper is the first to provide an in-depth analysis of the hardware performance of DGNN Code is available at https://github.com/sharc-lab/DGNN_analysis.
翻訳日:2023-04-17 16:54:32 公開日:2023-04-13
# TPGNN:時間伝搬による動的グラフの高次情報学習

TPGNN: Learning High-order Information in Dynamic Graphs via Temporal Propagation ( http://arxiv.org/abs/2210.01171v2 )

ライセンス: Link先を確認
Zehong Wang, Qi Li, Donghua Yu(参考訳) 時間グラフは、進化する相互作用要素からなる動的システムのモデリングのための抽象化である。 本稿では,時間グラフの高次隣人から情報を学ぶために,重要なが無視される問題を解くことを目的としている。 学習したノード表現に対する情報性と識別性を高める。 我々は,時間グラフから高次情報を学ぶ場合,従来の静的グラフに適用した手法では解決できない2つの課題,すなわち計算効率の非効率と過剰スムーシングに遭遇する。 これらの欠陥を解消するために,時間伝播に基づくグラフニューラルネットワーク,tpgnnを提案する。 具体的に言うと、モデルは2つの異なるコンポーネント、すなわちプロパゲータとノードワイドエンコーダから構成される。 プロパゲータは、アンカーノードからその時間的隣人へのメッセージを$k$-hop内で伝搬し、近隣の状態を同時に更新することで、特に深いモデルで効率的な計算を可能にする。 さらに、オーバースムーシングを防ぐため、モデルは$n$-hopの隣人からのメッセージを補完し、アンカーに保存された$n$-hopのメモリベクトルを更新する。 node-wiseエンコーダは、ノード自体に保存されているメモリベクトルの重要性を明示的に学習することで、ノード表現を学ぶためにtransformerアーキテクチャを採用している。 エンコーディングプロセスは時間的隣接をクエリしないので、推論の時間消費を劇的に削減できる。 時間的リンク予測とノード分類に関する広範囲な実験は、TPGNNが最先端のベースラインよりも効率と堅牢性に優れていることを示した。

Temporal graph is an abstraction for modeling dynamic systems that consist of evolving interaction elements. In this paper, we aim to solve an important yet neglected problem -- how to learn information from high-order neighbors in temporal graphs? -- to enhance the informativeness and discriminativeness for the learned node representations. We argue that when learning high-order information from temporal graphs, we encounter two challenges, i.e., computational inefficiency and over-smoothing, that cannot be solved by conventional techniques applied on static graphs. To remedy these deficiencies, we propose a temporal propagation-based graph neural network, namely TPGNN. To be specific, the model consists of two distinct components, i.e., propagator and node-wise encoder. The propagator is leveraged to propagate messages from the anchor node to its temporal neighbors within $k$-hop, and then simultaneously update the state of neighborhoods, which enables efficient computation, especially for a deep model. In addition, to prevent over-smoothing, the model compels the messages from $n$-hop neighbors to update the $n$-hop memory vector preserved on the anchor. The node-wise encoder adopts transformer architecture to learn node representations by explicitly learning the importance of memory vectors preserved on the node itself, that is, implicitly modeling the importance of messages from neighbors at different layers, thus mitigating the over-smoothing. Since the encoding process will not query temporal neighbors, we can dramatically save time consumption in inference. Extensive experiments on temporal link prediction and node classification demonstrate the superiority of TPGNN over state-of-the-art baselines in efficiency and robustness.
翻訳日:2023-04-17 16:53:56 公開日:2023-04-13
# CLIP-Sculptor: 自然言語からの高忠実度および多次元形状のゼロショット生成

CLIP-Sculptor: Zero-Shot Generation of High-Fidelity and Diverse Shapes from Natural Language ( http://arxiv.org/abs/2211.01427v3 )

ライセンス: Link先を確認
Aditya Sanghi, Rao Fu, Vivian Liu, Karl Willis, Hooman Shayani, Amir Hosein Khasahmadi, Srinath Sridhar, Daniel Ritchie(参考訳) 近年の研究では、自然言語が3d形状の生成と編集に利用できることが示されている。 しかし、これらの手法は、有限性と多様性に制限された形状を生成する。 トレーニング中に(テキスト,形状)ペアを必要とせずに,高忠実度で多様な3d形状を生成できる手法であるクリップ彫刻法を提案する。 CLIP-Sculptorは、まず低次元の潜在空間で生成し、次に高分解能にアップスケールすることで、形状の忠実度を向上させる。 形状の多様性を向上させるために、CLIPのイメージテキスト埋め込み空間に条件付きトランスフォーマーを用いてモデル化した離散潜在空間を用いる。 また,精度と多様性のトレードオフを改善する新しい分類器フリーガイダンスを提案する。 最後に,CLIP-Sculptorが最先端のベースラインより優れていることを示す広範な実験を行った。 コードはhttps://ivl.cs.brown.edu/#/projects/clip-sculptorで入手できる。

Recent works have demonstrated that natural language can be used to generate and edit 3D shapes. However, these methods generate shapes with limited fidelity and diversity. We introduce CLIP-Sculptor, a method to address these constraints by producing high-fidelity and diverse 3D shapes without the need for (text, shape) pairs during training. CLIP-Sculptor achieves this in a multi-resolution approach that first generates in a low-dimensional latent space and then upscales to a higher resolution for improved shape fidelity. For improved shape diversity, we use a discrete latent space which is modeled using a transformer conditioned on CLIP's image-text embedding space. We also present a novel variant of classifier-free guidance, which improves the accuracy-diversity trade-off. Finally, we perform extensive experiments demonstrating that CLIP-Sculptor outperforms state-of-the-art baselines. The code is available at https://ivl.cs.brown.edu/#/projects/clip-sculptor.
翻訳日:2023-04-17 16:44:52 公開日:2023-04-13
# 低リソースエンティティ認識のためのauc最大化

AUC Maximization for Low-Resource Named Entity Recognition ( http://arxiv.org/abs/2212.04800v3 )

ライセンス: Link先を確認
Ngoc Dang Nguyen, Wei Tan, Wray Buntine, Richard Beare, Changyou Chen and Lan Du(参考訳) 名前付きエンティティ認識 (NER) における現在の研究は、クロスエントロピー (CE) または条件付きランダムフィールド (CRF) を、基礎となるNERモデルの最適化に用いている。 NER問題に対するこれらの伝統的な目的関数は、データ分散のバランスが取れ、十分なアノテートトレーニング例が存在する場合、一般的に適切なパフォーマンスをもたらす。 しかし、NERは本質的に不均衡なタグ付け問題であるため、低リソース設定下でのモデル性能は、これらの標準目的関数を使用すると損なわれる可能性がある。 ROC曲線(AUC)の最大化による領域の最近の進歩に基づき,AUCスコアの最大化によるNERモデルの最適化を提案する。 AUCスコアを最大化する2つのバイナリ分類器を組み合わせることで、低リソースNER設定下で従来の損失関数に対する大幅な性能向上が達成されることを示す。 また,低リソースかつ高不均衡なデータ分散設定下で,本手法の利点を実証するための広範な実験を行った。 私たちの知る限りでは、これがNER設定にAUCの最大化をもたらす最初の仕事です。 さらに,本手法は異なる種類のNER埋め込み,モデル,ドメインに依存しないことを示す。 この作業を複製するコードは、リクエストに応じて提供される。

Current work in named entity recognition (NER) uses either cross entropy (CE) or conditional random fields (CRF) as the objective/loss functions to optimize the underlying NER model. Both of these traditional objective functions for the NER problem generally produce adequate performance when the data distribution is balanced and there are sufficient annotated training examples. But since NER is inherently an imbalanced tagging problem, the model performance under the low-resource settings could suffer using these standard objective functions. Based on recent advances in area under the ROC curve (AUC) maximization, we propose to optimize the NER model by maximizing the AUC score. We give evidence that by simply combining two binary-classifiers that maximize the AUC score, significant performance improvement over traditional loss functions is achieved under low-resource NER settings. We also conduct extensive experiments to demonstrate the advantages of our method under the low-resource and highly-imbalanced data distribution settings. To the best of our knowledge, this is the first work that brings AUC maximization to the NER setting. Furthermore, we show that our method is agnostic to different types of NER embeddings, models and domains. The code to replicate this work will be provided upon request.
翻訳日:2023-04-17 16:36:45 公開日:2023-04-13
# 国別重要度サンプリングによる低変数オフ政治評価

Low Variance Off-policy Evaluation with State-based Importance Sampling ( http://arxiv.org/abs/2212.03932v3 )

ライセンス: Link先を確認
David M. Bossens and Philip S. Thomas(参考訳) 政治外の強化学習において、行動政策は環境との探索的相互作用を行い、状態-行動-回帰サンプルを取得し、その結果、期待されるリターンを最適化するターゲットポリシーを学ぶのに使用される。 これは、しばしば無関係な行動ポリシーによって収集されたサンプルからターゲットポリシーを評価する必要がある、オフポリシー評価の問題につながる。 重要度サンプリングは伝統的統計手法であり、しばしば政治外評価に適用される。 重要度サンプリング推定器は偏りがないが、その分散は、行動確率比の積として重要度を計算し、長期計画を含む領域に対して低い精度で推定値を得るため、決定過程の水平線とともに指数関数的に増加する。 本稿では,重要度重みの計算から,選択された動作が回帰推定に影響を与えない「無視可能な状態」を持つサブトラジェクタの動作確率比を低下させる状態に基づく重要度サンプリング(sis)を提案する。 理論的結果は、分散上界に対するより小さな指数と低い平均二乗誤差を示す。 無視可能な状態を特定するために、共分散テストと状態動作値に基づく2つの探索アルゴリズムが提案されている。 SISの定式化を用いて、重み付けされた重要度サンプリング、決定単位の重要度サンプリング、および状態-作用値同定アルゴリズムに基づく漸進的な重要度サンプリングを類似的に定式化する。 さらに、二重頑健な推定器もSISの恩恵を受ける可能性があることに留意する。 2つのグリッドワールドドメインと1つのインベントリ管理ドメインの実験は、状態ベースの手法が分散の低減と精度の向上をもたらすことを示している。

In off-policy reinforcement learning, a behaviour policy performs exploratory interactions with the environment to obtain state-action-reward samples which are then used to learn a target policy that optimises the expected return. This leads to a problem of off-policy evaluation, where one needs to evaluate the target policy from samples collected by the often unrelated behaviour policy. Importance sampling is a traditional statistical technique that is often applied to off-policy evaluation. While importance sampling estimators are unbiased, their variance increases exponentially with the horizon of the decision process due to computing the importance weight as a product of action probability ratios, yielding estimates with low accuracy for domains involving long-term planning. This paper proposes state-based importance sampling (SIS), which drops the action probability ratios of sub-trajectories with "negligible states" -- roughly speaking, those for which the chosen actions have no impact on the return estimate -- from the computation of the importance weight. Theoretical results demonstrate a smaller exponent for the variance upper bound as well as a lower mean squared error. To identify negligible states, two search algorithms are proposed, one based on covariance testing and one based on state-action values. Using the formulation of SIS, we then analogously formulate state-based variants of weighted importance sampling, per-decision importance sampling, and incremental importance sampling based on the state-action value identification algorithm. Moreover, we note that doubly robust estimators may also benefit from SIS. Experiments in two gridworld domains and one inventory management domain show that state-based methods yield reduced variance and improved accuracy.
翻訳日:2023-04-17 16:36:24 公開日:2023-04-13
# 高スピンs$s$kitaev honeycombモデルにおける$\mathbb z_2$スピン液体--非可積分モデルにおける正確な$\mathbb z_2$ゲージ構造

$\mathbb Z_2$ spin liquids in the higher spin-$S$ Kitaev honeycomb model: An exact deconfined $\mathbb Z_2$ gauge structure in a non-integrable model ( http://arxiv.org/abs/2212.00053v2 )

ライセンス: Link先を確認
Han Ma(参考訳) より高いスピン・キタエフモデルは、スピン-1/2$・キタエフ・ハニカムモデルと同じ広範な局所保存量を特徴としているが、正確には解くことはできない。 より高いスピンモデルにおけるこれらの保存量の物理的意味について、未解決の疑問が残る。 このレターでは、一般スピン-S$に対するマヨアナパルトン構成を導入することにより、これらの保存量が、スピン-1/2$の場合を含む一般的なスピン-S$モデルのちょうど$\mathbb Z_2$ゲージ束であることを明らかにする。 特に、$\mathbb z_2$ゲージの電荷が半整数スピンモデルではフェルミオンであるが、整数スピンモデルではボソンであるような偶奇な効果が見いだされる。 さらに、フェルミオン$\mathbb Z_2$ゲージ電荷が常に分解されることを証明し、したがって半整数スピン・キタエフ模型はハミルトニアンの相互作用強度に関係なく非自明なスピン基底状態を持つ。 一方、整数スピンモデルのボソニック$\mathbb z_2$ゲージ電荷は凝縮し、自明な積状態となる可能性があり、これは確かにモデルの異方性極限の場合である。

The higher spin Kitaev model prominently features the extensive locally conserved quantities the same as the spin-$1/2$ Kitaev honeycomb model, although it is not exactly solvable. It remains an open question regarding the physical meaning of these conserved quantities in the higher spin model. In this Letter, by introducing a Majorana parton construction for a general spin-$S$ we uncover that these conserved quantities are exactly the $\mathbb Z_2$ gauge fluxes in the general spin-$S$ model, including the case of spin-$1/2$. Particularly, we find an even-odd effect that the $\mathbb Z_2$ gauge charges are fermions in the half integer spin model, but are bosons in the integer spin model. We further prove that the fermionic $\mathbb Z_2$ gauge charges are always deconfined; hence the half integer spin Kitaev model would have non-trivial spin liquid ground states regardless of interaction strengths in the Hamiltonian. The bosonic $\mathbb Z_2$ gauge charges of the integer spin model, on the other hand, could condense, leading to a trivial product state, and this is indeed the case at the anisotropic limit of the model.
翻訳日:2023-04-17 16:35:03 公開日:2023-04-13
# EXIF as Language: 画像とカメラメタデータの相互関連を学習する

EXIF as Language: Learning Cross-Modal Associations Between Images and Camera Metadata ( http://arxiv.org/abs/2301.04647v2 )

ライセンス: Link先を確認
Chenhao Zheng, Ayush Shrivastava, Andrew Owens(参考訳) 我々は、与えられた写真を記録するカメラに関する情報をキャプチャする視覚表現を学ぶ。 そこで我々は,画像パッチとEXIFメタデータのマルチモーダル埋め込みを訓練し,カメラが自動的に画像ファイルに挿入する。 私たちのモデルは、単にテキストに変換し、変換器で処理することで、このメタデータを表現します。 私たちが学んだ機能は、下流の画像検査や校正作業において、他の自己監督機能や監督機能よりも大幅に優れています。 特に,画像内のすべてのパッチに対して視覚的な埋め込みをクラスタリングすることにより,スプライシングされた画像領域を"ゼロショット"にローカライズすることに成功した。

We learn a visual representation that captures information about the camera that recorded a given photo. To do this, we train a multimodal embedding between image patches and the EXIF metadata that cameras automatically insert into image files. Our model represents this metadata by simply converting it to text and then processing it with a transformer. The features that we learn significantly outperform other self-supervised and supervised features on downstream image forensics and calibration tasks. In particular, we successfully localize spliced image regions "zero shot" by clustering the visual embeddings for all of the patches within an image.
翻訳日:2023-04-17 16:26:08 公開日:2023-04-13
# 自動スコアリングのためのエッセイを戦略的に選択するアクティブラーニング手法

Using Active Learning Methods to Strategically Select Essays for Automated Scoring ( http://arxiv.org/abs/2301.00628v2 )

ライセンス: Link先を確認
Tahereh Firoozi, Hamid Mohammadi, Mark J. Gierl(参考訳) 自動エッセイスコアリングに関する研究は,学生の書面応答を大規模に評価する手段として重要になっている。 学生がオンライン学習環境に移行する際には,書面応答の評価を行うためのスケーラブルな手法が必要である。 本研究の目的は,近代的な自動エッセイ評価システムの訓練に必要なデータを提供しながら,人間による評価が必要なエッセイの数を最小限に抑えるために利用可能な3つのアクティブラーニング手法を記述し,評価することである。 3つのアクティブな学習方法は不確実性に基づく、トポロジに基づく、ハイブリッドな方法である。 これらの3つの手法は, トランスフォーマー言語モデルから双方向エンコーダ表現を訓練したスコアリングモデルを用いて分類された自動学生評価コンテストに含まれるエッセイを選択するために用いられた。 3つのアクティブラーニング手法はいずれも強い結果を示し、トポロジカルベース法が最も効率的な分類を生み出した。 成長率も評価された。 能動的学習法は, 異なるサンプルサイズ割り当ての下で異なるレベルの効率を創出するが, 全体としては3つの手法は極めて効率的であり, 互いに類似した分類が得られた。

Research on automated essay scoring has become increasing important because it serves as a method for evaluating students' written-responses at scale. Scalable methods for scoring written responses are needed as students migrate to online learning environments resulting in the need to evaluate large numbers of written-response assessments. The purpose of this study is to describe and evaluate three active learning methods than can be used to minimize the number of essays that must be scored by human raters while still providing the data needed to train a modern automated essay scoring system. The three active learning methods are the uncertainty-based, the topological-based, and the hybrid method. These three methods were used to select essays included as part of the Automated Student Assessment Prize competition that were then classified using a scoring model that was training with the bidirectional encoder representations from transformer language model. All three active learning methods produced strong results, with the topological-based method producing the most efficient classification. Growth rate accuracy was also evaluated. The active learning methods produced different levels of efficiency under different sample size allocations but, overall, all three methods were highly efficient and produced classifications that were similar to one another.
翻訳日:2023-04-17 16:24:48 公開日:2023-04-13
# バックドアフェデレーション学習への学習

Learning to Backdoor Federated Learning ( http://arxiv.org/abs/2303.03320v2 )

ライセンス: Link先を確認
Henger Li, Chen Wu, Senchun Zhu, Zizhan Zheng(参考訳) フェデレーション学習(fl)システムでは、悪意のある参加者は、モデルのメインタスクのパフォーマンスを維持しながら、簡単にバックドアを集約モデルに埋め込むことができる。 近年,訓練段階の集約型防御や訓練後の緩和防衛など,様々な防御が提案されている。 これらの防御は、主にヒューリスティックスに基づく既存のバックドア攻撃に対して合理的な性能を得るが、より先進的な攻撃に直面すると不十分であることを示す。 特に,攻撃者がまずローカルデータとFLシステムの共通知識をベースとしたシミュレータを用いて(非明視的)攻撃ポリシーを訓練し,実際のFL訓練中に適用できる汎用強化学習ベースのバックドア攻撃フレームワークを提案する。 我々の攻撃フレームワークは適応的かつ柔軟であり、最先端の防御の下でも強力な攻撃性能と耐久性を実現する。

In a federated learning (FL) system, malicious participants can easily embed backdoors into the aggregated model while maintaining the model's performance on the main task. To this end, various defenses, including training stage aggregation-based defenses and post-training mitigation defenses, have been proposed recently. While these defenses obtain reasonable performance against existing backdoor attacks, which are mainly heuristics based, we show that they are insufficient in the face of more advanced attacks. In particular, we propose a general reinforcement learning-based backdoor attack framework where the attacker first trains a (non-myopic) attack policy using a simulator built upon its local data and common knowledge on the FL system, which is then applied during actual FL training. Our attack framework is both adaptive and flexible and achieves strong attack performance and durability even under state-of-the-art defenses.
翻訳日:2023-04-17 16:18:54 公開日:2023-04-13
# 胸部に近いAIモデル:マルチサイトCTのためのロバストなフェデレーション学習戦略

AI Models Close to your Chest: Robust Federated Learning Strategies for Multi-site CT ( http://arxiv.org/abs/2303.13567v2 )

ライセンス: Link先を確認
Edward H. Lee, Brendan Kelly, Emre Altinmakas, Hakan Dogan, Maryam Mohammadzadeh, Errol Colak, Steve Fu, Olivia Choudhury, Ujjwal Ratan, Felipe Kitamura, Hernan Chaves, Jimmy Zheng, Mourad Said, Eduardo Reis, Jaekwang Lim, Patricia Yokoo, Courtney Mitchell, Golnaz Houshmand, Marzyeh Ghassemi, Ronan Killeen, Wendy Qiu, Joel Hayden, Farnaz Rafiee, Chad Klochko, Nicholas Bevins, Faeze Sazgara, S. Simon Wong, Michael Moseley, Safwan Halabi, Kristen W. Yeom(参考訳) 遺伝学、性、人種、環境要因との人口差が病気に寄与していることはよく知られているが、医学におけるai研究は主に、より多様なデータソースを持つ地域患者のコホートに焦点を当てている。 このような制限は、大規模データ共有とデータプライバシに関する倫理的懸念の障壁に起因する。 フェデレーション・ラーニング(FL)は、データ共有なしに病院間での学習を可能にするAI開発のための潜在的経路の1つである。 本研究は,5大陸にまたがる21の参加病院において,100万枚以上の画像を持つ1万枚以上の患者を対象とするFL戦略について検討した。 また,クラスとサイズの不均衡を克服するために合成データを活用するFL戦略を提案する。 また,flの文脈におけるデータ不均質性の発生源を記述し,その偏りによって,適切にラベルづけされた個体群の中でも格差がいかに発生するかを示す。

While it is well known that population differences from genetics, sex, race, and environmental factors contribute to disease, AI studies in medicine have largely focused on locoregional patient cohorts with less diverse data sources. Such limitation stems from barriers to large-scale data share and ethical concerns over data privacy. Federated learning (FL) is one potential pathway for AI development that enables learning across hospitals without data share. In this study, we show the results of various FL strategies on one of the largest and most diverse COVID-19 chest CT datasets: 21 participating hospitals across five continents that comprise >10,000 patients with >1 million images. We also propose an FL strategy that leverages synthetically generated data to overcome class and size imbalances. We also describe the sources of data heterogeneity in the context of FL, and show how even among the correctly labeled populations, disparities can arise due to these biases.
翻訳日:2023-04-17 16:07:01 公開日:2023-04-13
# Promptは必要なものすべて? いいえ。 包括的かつ広範な授業学習の視点

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning ( http://arxiv.org/abs/2303.10475v3 )

ライセンス: Link先を確認
Renze Lou, Kai Zhang, Wenpeng Yin(参考訳) タスクのセマンティクスは入力から出力までの例のセットやテキストによる命令で表現できる。 自然言語処理(NLP)に対する従来の機械学習アプローチは主に、タスク固有の大規模データセットの可用性に依存している。 まず、タスク固有のラベル付き例の収集は、タスクが複雑すぎるか、アノテートにコストがかかりすぎるか、あるいはシステムが新しいタスクを即座に処理する必要があるシナリオには適用されない。 そのため、NLPの新しい監督・探索パラダイムであるタスク命令からの学習への関心が高まっている。 その目覚ましい進歩にもかかわらず、コミュニティが抱える共通の問題はいくつかある。 本研究は,現状の授業学習研究,特に以下の質問に答えて要約しようとするものである。 (i)タスク命令とは何か、どの命令型が存在するのか? (ii)指示のモデル化方法? (三)指示のパフォーマンスに影響を及ぼし、説明する要因は何か。 (iv) 指導学習に残る課題は何か? 私たちの知る限りでは、これはテキストによるインストラクションに関する最初の包括的な調査です。

Task semantics can be expressed by a set of input-to-output examples or a piece of textual instruction. Conventional machine learning approaches for natural language processing (NLP) mainly rely on the availability of large-scale sets of task-specific examples. Two issues arise: first, collecting task-specific labeled examples does not apply to scenarios where tasks may be too complicated or costly to annotate, or the system is required to handle a new task immediately; second, this is not user-friendly since end-users are probably more willing to provide task description rather than a set of examples before using the system. Therefore, the community is paying increasing interest in a new supervision-seeking paradigm for NLP: learning from task instructions. Despite its impressive progress, there are some common issues that the community struggles with. This survey paper tries to summarize the current research on instruction learning, particularly, by answering the following questions: (i) what is task instruction, and what instruction types exist? (ii) how to model instructions? (iii) what factors influence and explain the instructions' performance? (iv) what challenges remain in instruction learning? To our knowledge, this is the first comprehensive survey about textual instructions.
翻訳日:2023-04-17 16:06:42 公開日:2023-04-13
# ベイズネットの至近度試験

Near-Optimal Degree Testing for Bayes Nets ( http://arxiv.org/abs/2304.06733v1 )

ライセンス: Link先を確認
Vipul Arora, Arnab Bhattacharyya, Cl\'ement L. Canonne, Joy Qiping Yang(参考訳) 本稿では、サンプルアクセスが $p$ であることから、未知の確率分布が $p$ over $\{0,1\}^n$ となるベイズネットの最大内度をテストする問題を考察する。 問題のサンプル複雑性は$\tilde{\Theta}(2^{n/2}/\varepsilon^2)$であることを示す。 このフレームワークを適用するために,ベイズネットの'near-proper'学習のための新しいアルゴリズムを開発し,独立した関心を持つ$\chi^2$ divergence の下で高確率学習を行う。

This paper considers the problem of testing the maximum in-degree of the Bayes net underlying an unknown probability distribution $P$ over $\{0,1\}^n$, given sample access to $P$. We show that the sample complexity of the problem is $\tilde{\Theta}(2^{n/2}/\varepsilon^2)$. Our algorithm relies on a testing-by-learning framework, previously used to obtain sample-optimal testers; in order to apply this framework, we develop new algorithms for ``near-proper'' learning of Bayes nets, and high-probability learning under $\chi^2$ divergence, which are of independent interest.
翻訳日:2023-04-17 15:49:47 公開日:2023-04-13
# PCD2Vec:ウイルス宿主分類のためのポアソン補正距離に基づくアプローチ

PCD2Vec: A Poisson Correction Distance-Based Approach for Viral Host Classification ( http://arxiv.org/abs/2304.06731v1 )

ライセンス: Link先を確認
Sarwan Ali, Taslim Murad, Murray Patterson(参考訳) ウイルスは膜を包み込み、コロナウイルス科に属する正のストランドrnaウイルスである。 様々な動物種(主に哺乳類と鳥類)が、さまざまなウイルスに感染し、最近のパンデミック(COVID-19)のような深刻な懸念を引き起こしている。 したがって、これらのウイルスをより深く理解することは、予防と緩和のメカニズムを考案するのに不可欠である。 コロナウイルスゲノムにおいて、重要な構造領域はスパイク領域であり、宿主の細胞膜にウイルスを付着させる責任がある。 したがって、全ゲノムの代わりにスパイクタンパク質のみを使用することは、宿主分類のような分析を行うための重要な情報の大部分を提供する。 本稿では、異なるウイルス亜属および種からのスパイクタンパク質配列を解析し、ウイルスの宿主特異性を予測する新しい方法を提案する。 提案手法では,ポアソン補正距離を用いて距離行列を生成し,次いでラジアル基底関数(RBF)カーネルとカーネル主成分分析(PCA)を用いて低次元埋め込みを生成する。 最後に,ウイルスの宿主特異性の予測結果を生成するために,低次元埋め込みに分類アルゴリズムを適用した。 本研究では,ポアソン補正距離計量の非ネガティビティ性,対称性,三角不等式の性質を理論的に証明する。 この包括的アプローチを用いてスパイクタンパク質の構造と配列をコードすることにより、生物配列の隠れたパターンを解明し、宿主特異性を正確に予測することを目指している。 最後に,本手法によって予測精度が向上し,既存のベースラインよりも性能が向上することを示す。

Coronaviruses are membrane-enveloped, non-segmented positive-strand RNA viruses belonging to the Coronaviridae family. Various animal species, mainly mammalian and avian, are severely infected by various coronaviruses, causing serious concerns like the recent pandemic (COVID-19). Therefore, building a deeper understanding of these viruses is essential to devise prevention and mitigation mechanisms. In the Coronavirus genome, an essential structural region is the spike region, and it's responsible for attaching the virus to the host cell membrane. Therefore, the usage of only the spike protein, instead of the full genome, provides most of the essential information for performing analyses such as host classification. In this paper, we propose a novel method for predicting the host specificity of coronaviruses by analyzing spike protein sequences from different viral subgenera and species. Our method involves using the Poisson correction distance to generate a distance matrix, followed by using a radial basis function (RBF) kernel and kernel principal component analysis (PCA) to generate a low-dimensional embedding. Finally, we apply classification algorithms to the low-dimensional embedding to generate the resulting predictions of the host specificity of coronaviruses. We provide theoretical proofs for the non-negativity, symmetry, and triangle inequality properties of the Poisson correction distance metric, which are important properties in a machine-learning setting. By encoding the spike protein structure and sequences using this comprehensive approach, we aim to uncover hidden patterns in the biological sequences to make accurate predictions about host specificity. Finally, our classification results illustrate that our method can achieve higher predictive accuracy and improve performance over existing baselines.
翻訳日:2023-04-17 15:49:35 公開日:2023-04-13
# 現在のNISTライトウェイト暗号標準の実装・攻撃・対策に関する包括的調査

A Comprehensive Survey on the Implementations, Attacks, and Countermeasures of the Current NIST Lightweight Cryptography Standard ( http://arxiv.org/abs/2304.06222v1 )

ライセンス: Link先を確認
Jasmin Kaur, Alvaro Cintas Canto, Mehran Mozaffari Kermani, Reza Azarderakhsh(参考訳) この調査は、2023年に標準化された現在の軽量暗号標準に関する最初の調査である。 軽量暗号は、深く埋め込まれたシステム(実装可能でウェアラブルな医療機器、スマートファブリック、スマートホームなど)、無線周波数識別(RFID)タグ、センサーネットワーク、プライバシーに制約のある利用モデルなど、リソースに制約のある組み込みシステムを保護する上で重要な役割を果たす。 NIST(National Institute of Standards and Technology)は、軽量暗号の標準化プロセスを開始し、比較的長期にわたる複数年の努力を経て、2023年2月にASCONが勝者となった。 この軽量暗号規格は、秘密性と整合性/認証(秘密鍵暗号のNIST規格であるAES-GCMブロック暗号の2倍)を通じてセキュリティを提供するために、深く埋め込まれたアーキテクチャで使用される。 ASCONの軽量な設計では、320ビットの置換を5つの64ビットレジスタワードにビットスライスし、128ビットレベルのセキュリティを提供する。 この研究は、フィールドプログラマブルゲートアレイ(FPGA)とASICハードウェアプラットフォームにおけるASCONの異なる実装を、面積、電力、スループット、エネルギー、効率のオーバーヘッドに基づいてまとめたものである。 また,ascon暗号スイートの変形に対して,代数的,立方体的/キューブ的,偽造的,フォールトインジェクション,電力解析攻撃,およびこれらの攻撃対策について,各種の差分およびサイドチャネル解析攻撃(scas)について検討した。 調査全体を通じて洞察とビジョンを提供し、さまざまな領域で新たな方向性を提供しています。 この調査は、2023年に導入されたNISTライトウェイト暗号標準の利点と今後の方向性を精査する第一歩となる。

This survey is the first work on the current standard for lightweight cryptography, standardized in 2023. Lightweight cryptography plays a vital role in securing resource-constrained embedded systems such as deeply-embedded systems (implantable and wearable medical devices, smart fabrics, smart homes, and the like), radio frequency identification (RFID) tags, sensor networks, and privacy-constrained usage models. National Institute of Standards and Technology (NIST) initiated a standardization process for lightweight cryptography and after a relatively-long multi-year effort, eventually, in Feb. 2023, the competition ended with ASCON as the winner. This lightweight cryptographic standard will be used in deeply-embedded architectures to provide security through confidentiality and integrity/authentication (the dual of the legacy AES-GCM block cipher which is the NIST standard for symmetric key cryptography). ASCON's lightweight design utilizes a 320-bit permutation which is bit-sliced into five 64-bit register words, providing 128-bit level security. This work summarizes the different implementations of ASCON on field-programmable gate array (FPGA) and ASIC hardware platforms on the basis of area, power, throughput, energy, and efficiency overheads. The presented work also reviews various differential and side-channel analysis attacks (SCAs) performed across variants of ASCON cipher suite in terms of algebraic, cube/cube-like, forgery, fault injection, and power analysis attacks as well as the countermeasures for these attacks. We also provide our insights and visions throughout this survey to provide new future directions in different domains. This survey is the first one in its kind and a step forward towards scrutinizing the advantages and future directions of the NIST lightweight cryptography standard introduced in 2023.
翻訳日:2023-04-17 15:48:31 公開日:2023-04-13
# 強化学習指導員が算数課題で低学力者を支援する

Reinforcement Learning Tutor Better Supported Lower Performers in a Math Task ( http://arxiv.org/abs/2304.04933v2 )

ライセンス: Link先を確認
Sherry Ruan, Allen Nie, William Steenbergen, Jiayu He, JQ Zhang, Meng Guo, Yao Liu, Kyle Dang Nguyen, Catherine Y Wang, Rui Ying, James A Landay, Emma Brunskill(参考訳) リソース制限は、すべての学生に最も効果的な教育介入の1つ、パーソナライズドインストラクションを提供することを困難にしている。 強化学習は、学生に適切なサポートを提供することを目的として、開発コストを削減し、インテリジェントな学習ソフトウェアの有効性を向上させるための重要なツールとなり得る。 本稿では,物語ストーリーラインソフトウェアにおけるボリュームの概念を学習する学生に適応的な教育支援を提供するために,深層強化学習が利用できることを示す。 説明可能な人工知能ツールを用いて、学習した教育政策に関する解釈可能な洞察を抽出し、その結果、異なる学生群で同様の性能を示した。 最も重要なことは、両方の研究において、強化学習の物語システムは、最下位の事前試験スコアを持つ学生にとって最大の利益をもたらし、AIが最も必要な学生に適応し支援する機会を示唆したことである。

Resource limitations make it hard to provide all students with one of the most effective educational interventions: personalized instruction. Reinforcement learning could be a key tool to reduce the development cost and improve the effectiveness of intelligent tutoring software that aims to provide the right support, at the right time, to a student. Here we illustrate that deep reinforcement learning can be used to provide adaptive pedagogical support to students learning about the concept of volume in a narrative storyline software. Using explainable artificial intelligence tools, we extracted interpretable insights about the pedagogical policy learned and demonstrated that the resulting policy had similar performance in a different student population. Most importantly, in both studies, the reinforcement-learning narrative system had the largest benefit for those students with the lowest initial pretest scores, suggesting the opportunity for AI to adapt and provide support for those most in need.
翻訳日:2023-04-17 15:46:50 公開日:2023-04-13
# 座標変換による勾配法の改善:量子機械学習への応用

Improving Gradient Methods via Coordinate Transformations: Applications to Quantum Machine Learning ( http://arxiv.org/abs/2304.06768v1 )

ライセンス: Link先を確認
Pablo Bermejo, Borja Aizpurua, Roman Orus(参考訳) 機械学習アルゴリズムは、古典バージョンと量子バージョンの両方において、勾配降下などの勾配に基づく最適化アルゴリズムに大きく依存している。 全体的なパフォーマンスは、局所的なミニマ台地と不毛高原の出現に依存するため、計算が遅く、非最適解に繋がる。 実際には、これはAIアプリケーションに対する劇的な計算とエネルギーコストをもたらす。 本稿では,このような手法の全体的な性能を加速・向上させる汎用的な戦略を提案し,不毛高原と局所ミニマの効果を緩和する。 提案手法は,変動回転に類似した座標変換を基本とし,コスト関数自体に依存するパラメータ空間に余分な方向を付加することで,構成景観をより効率的に探索できる。 提案手法の有効性は,多数の量子機械学習アルゴリズムの高速化によって評価され,性能が大幅に向上した。

Machine learning algorithms, both in their classical and quantum versions, heavily rely on optimization algorithms based on gradients, such as gradient descent and alike. The overall performance is dependent on the appearance of local minima and barren plateaus, which slow-down calculations and lead to non-optimal solutions. In practice, this results in dramatic computational and energy costs for AI applications. In this paper we introduce a generic strategy to accelerate and improve the overall performance of such methods, allowing to alleviate the effect of barren plateaus and local minima. Our method is based on coordinate transformations, somehow similar to variational rotations, adding extra directions in parameter space that depend on the cost function itself, and which allow to explore the configuration landscape more efficiently. The validity of our method is benchmarked by boosting a number of quantum machine learning algorithms, getting a very significant improvement in their performance.
翻訳日:2023-04-17 15:41:16 公開日:2023-04-13
# raft: 生成的ファンデーションモデルアライメントに対する報酬ランクの微調整

RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment ( http://arxiv.org/abs/2304.06767v1 )

ライセンス: Link先を確認
Hanze Dong, Wei Xiong, Deepanshu Goyal, Rui Pan, Shizhe Diao, Jipeng Zhang, Kashun Shum, Tong Zhang(参考訳) 生成基盤モデルは、広範な教師なしのトレーニングデータから生じる暗黙のバイアスに影響を受けやすい。 このようなバイアスは、最適でないサンプル、歪んだ結果、不公平を生じさせ、潜在的に重大な影響をもたらす可能性がある。 したがって、これらのモデルを人間の倫理や嗜好と整合させることは、現実世界のアプリケーションに責任と効果的なデプロイを確実にするための重要なステップである。 従来の研究では、人間フィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)がこの問題に対処する方法として用いられており、生成モデルは人間フィードバックインフォームド報酬モデルによって導かれるRLアルゴリズムを用いて微調整される。 しかしながら、RLアルゴリズムに関連する非効率性と不安定性は、しばしば生成モデルのアライメントの成功に重大な障害をもたらし、より堅牢で合理化されたアプローチの開発を必要とする。 この目的のために、生成モデルをより効率的に整合させるように設計された新しいフレームワーク、Reward rAnked FineTuning (RAFT)を導入する。 報奨モデルと十分な数のサンプルを利用することで、高品質なサンプルを選択し、望ましくない振る舞いを示すサンプルを破棄し、ストリーミングデータセットを組み立てる。 このデータセットは生成モデルを調整する基盤となり、オフラインでもオンラインでも利用できる。 特にRAFT内のサンプル生成プロセスは勾配なしであり、ブラックボックスジェネレータと互換性がある。 本研究では,大規模言語モデルと拡散モデルの両方の文脈において,提案アルゴリズムが強い性能を示すことを示す。

Generative foundation models are susceptible to implicit biases that can arise from extensive unsupervised training data. Such biases can produce suboptimal samples, skewed outcomes, and unfairness, with potentially significant repercussions. Consequently, aligning these models with human ethics and preferences is an essential step toward ensuring their responsible and effective deployment in real-world applications. Prior research has primarily employed Reinforcement Learning from Human Feedback (RLHF) as a means of addressing this problem, wherein generative models are fine-tuned using RL algorithms guided by a human-feedback-informed reward model. However, the inefficiencies and instabilities associated with RL algorithms frequently present substantial obstacles to the successful alignment of generative models, necessitating the development of a more robust and streamlined approach. To this end, we introduce a new framework, Reward rAnked FineTuning (RAFT), designed to align generative models more effectively. Utilizing a reward model and a sufficient number of samples, our approach selects the high-quality samples, discarding those that exhibit undesired behavior, and subsequently assembles a streaming dataset. This dataset serves as the basis for aligning the generative model and can be employed under both offline and online settings. Notably, the sample generation process within RAFT is gradient-free, rendering it compatible with black-box generators. Through extensive experiments, we demonstrate that our proposed algorithm exhibits strong performance in the context of both large language models and diffusion models.
翻訳日:2023-04-17 15:41:01 公開日:2023-04-13
# 検索による自己回帰型言語モデルの事前学習は可能か? 総合的研究

Shall We Pretrain Autoregressive Language Models with Retrieval? A Comprehensive Study ( http://arxiv.org/abs/2304.06762v1 )

ライセンス: Link先を確認
Boxin Wang, Wei Ping, Peng Xu, Lawrence McAfee, Zihan Liu, Mohammad Shoeybi, Yi Dong, Oleksii Kuchaiev, Bo Li, Chaowei Xiao, Anima Anandkumar, Bryan Catanzaro(参考訳) 大規模なデコーダのみの言語モデル(LM)は、検索による難易度(例えばRETRO)の観点から大きく改善されるが、テキスト生成の品質とダウンストリームタスクの精度への影響は不明確である。 したがって、まだ未解決の問題であり、大規模な自己回帰型LMを検索で事前訓練すべきだろうか? そこで我々は,拡張性のある事前学習型検索拡張LM(RETRO)について,通常のGPTおよび検索強化型GPTと比較して総合的な研究を行った。 まず、RETROを最大9.5Bパラメータまで再現するレシピを提供し、330Bトークンでテキストコーパスを検索する。 それに基づいて、以下の新たな発見がある。 一 テキスト生成におけるgptをはるかに少ない変性(反復)、適度に高い事実的正確性、無害な検索データベースによる毒性の低下で上回っていること。 二 LMアセスメント・ハーネスのベンチマークにおいて、RETROは知識集約的なタスクにおいてGPTを上回っているが、他のタスクではGPTと同等である。 さらに、retro++という単純なバージョンを導入し、オリジナルのretroのオープンドメインqa結果(自然問題ではemスコア+8.6)を大きく改善し、さまざまなモデルサイズで検索可能なgptを大幅に上回っている。 本研究は,将来の基礎モデルとして,自己回帰型lmsの事前学習の方向性を浮き彫りにする。 実装はhttps://github.com/nvidia/megatron-lm#retroでリリースします。

Large decoder-only language models (LMs) can be largely improved in terms of perplexity by retrieval (e.g., RETRO), but its impact on text generation quality and downstream task accuracy is unclear. Thus, it is still an open question: shall we pretrain large autoregressive LMs with retrieval? To answer it, we perform a comprehensive study on a scalable pre-trained retrieval-augmented LM (i.e., RETRO) compared with standard GPT and retrieval-augmented GPT incorporated at fine-tuning or inference stages. We first provide the recipe to reproduce RETRO up to 9.5B parameters while retrieving a text corpus with 330B tokens. Based on that, we have the following novel findings: i) RETRO outperforms GPT on text generation with much less degeneration (i.e., repetition), moderately higher factual accuracy, and slightly lower toxicity with a nontoxic retrieval database. ii) On the LM Evaluation Harness benchmark, RETRO largely outperforms GPT on knowledge-intensive tasks, but is on par with GPT on other tasks. Furthermore, we introduce a simple variant of the model, RETRO++, which largely improves open-domain QA results of original RETRO (e.g., EM score +8.6 on Natural Question) and significantly outperforms retrieval-augmented GPT across different model sizes. Our findings highlight the promising direction of pretraining autoregressive LMs with retrieval as future foundation models. We release our implementation at: https://github.com/NVIDIA/Megatron-LM#retro
翻訳日:2023-04-17 15:40:35 公開日:2023-04-13
# W状態に対する量子リピータ

Quantum Repeater for W states ( http://arxiv.org/abs/2304.06757v1 )

ライセンス: Link先を確認
Jorge Miguel-Ramiro, Ferran Riera-S\`abat, Wolfgang D\"ur(参考訳) W状態は様々な量子情報処理のための貴重な資源であり、それを生成するプロトコルが提案され実装されている。 本稿では,多対数オーバーヘッドを持つ2次元三角量子ネットワークにおいて,任意の距離にわたって3量子ビットw状態を効率的に分散する量子リピータプロトコルを提案する。 リピータプロトコルは、確率的絡み合いを3ビットW状態の3つのコピーと1つの長距離3ビットW状態に置き換えることと、改良された絡み合い浄化プロトコルを組み合わせる。 後者の方が性能が向上するだけでなく、従来のアプローチに比べて浄化体制が拡大していることを示している。 リピータプロトコルでは,不完全なチャネルや状態準備,ノイズの多い操作によるエラーを処理できることを示し,エラーしきい値,実現可能な忠実度,オーバーヘッドを解析する。

W states are a valuable resource for various quantum information tasks, and several protocols to generate them have been proposed and implemented. We introduce a quantum repeater protocol to efficiently distribute three-qubit W states over arbitrary distances in a 2D triangular quantum network with polylogarithmic overhead, thereby enabling these applications between remote parties. The repeater protocol combines two ingredients that we establish: probabilistic entanglement swapping with three copies of three-qubit W states to a single long-distance three-qubit W state, and an improved entanglement purification protocol. The latter not only shows a better performance, but also an enlarged purification regime as compared to previous approaches. We show that the repeater protocol allows one to deal with errors resulting from imperfect channels or state preparation, and noisy operations, and we analyze error thresholds, achievable fidelities and overheads.
翻訳日:2023-04-17 15:40:05 公開日:2023-04-13
# FPGAとASICのためのヘッセン対応量子化ニューラルネットワークのエンドツーエンド符号

End-to-end codesign of Hessian-aware quantized neural networks for FPGAs and ASICs ( http://arxiv.org/abs/2304.06745v1 )

ライセンス: Link先を確認
Javier Campos, Zhen Dong, Javier Duarte, Amir Gholami, Michael W. Mahoney, Jovan Mitrevski, Nhan Tran(参考訳) 本研究では、FPGA(フィールドプログラマブルゲートアレイ)とASIC(アプリケーション固有集積回路)ハードウェアのための、共設計ニューラルネットワーク(NN)のトレーニングと実装のためのエンドツーエンドワークフローを開発する。 提案手法は,NNのヘッセン対応量子化(HAWQ),量子化されたオープンニューラルネットワーク交換(QONNX)中間表現,およびNNをFPGAおよびASICファームウェアに変換するためのhls4mlツールフローを活用する。 これにより、非専門家が利用できるハードウェアの効率的なnn実装が、1つのオープンソースワークフローで実現され、幅広い科学的および工業的な環境でリアルタイム機械学習アプリケーション向けにデプロイできる。 CERN大型ハドロン衝突型加速器(LHC)の40MHz衝突速度で動作しなければならないトリガー決定を含む粒子物理学アプリケーションにおけるワークフローを実演する。 衝突率が高いため、すべてのデータ処理は、厳格な領域とレイテンシで、カスタムASICおよびFPGAハードウェア上で実装されなければならない。 これらの制約に基づき、シミュレーションLHC陽子-陽子衝突における高分子粒子ジェットに対する最適化された混合精度NN分類器を実装した。

We develop an end-to-end workflow for the training and implementation of co-designed neural networks (NNs) for efficient field-programmable gate array (FPGA) and application-specific integrated circuit (ASIC) hardware. Our approach leverages Hessian-aware quantization (HAWQ) of NNs, the Quantized Open Neural Network Exchange (QONNX) intermediate representation, and the hls4ml tool flow for transpiling NNs into FPGA and ASIC firmware. This makes efficient NN implementations in hardware accessible to nonexperts, in a single open-sourced workflow that can be deployed for real-time machine learning applications in a wide range of scientific and industrial settings. We demonstrate the workflow in a particle physics application involving trigger decisions that must operate at the 40 MHz collision rate of the CERN Large Hadron Collider (LHC). Given the high collision rate, all data processing must be implemented on custom ASIC and FPGA hardware within a strict area and latency. Based on these constraints, we implement an optimized mixed-precision NN classifier for high-momentum particle jets in simulated LHC proton-proton collisions.
翻訳日:2023-04-17 15:39:48 公開日:2023-04-13
# 3+1d$のフェルミオンガウスペップ : 回転と相対論的極限

Fermionic Gaussian PEPS in $3+1d$: Rotations and Relativistic Limits ( http://arxiv.org/abs/2304.06744v1 )

ライセンス: Link先を確認
Patrick Emonts, Erez Zohar(参考訳) フェルミオンガウス射影アンタングルペア状態(Fermionic Gaussian Projected Entangled Pair States)は、非相互作用性フェルミオンハミルトニアンの基底状態の物理を記述するフェルミオンテンソルネットワーク状態構造である。 非相互作用状態として、解析的および数値的な方法で、それらを非常に効率的に研究し分析することができる。 近年,格子ゲージ理論の変分研究において,いわゆるPEPSゲージ機構を適用した上での出発点として用いられることが示されている。 これは符号プロブレム自由変分モンテカルロを用いて行われる。 本研究では、スピン表現と格子回転の要求に焦点をあてて、2次元から3次元に一般化する方法を示す。 2+1$-dおよび3+1$-dモデルにおいて、フェルミオン物質を用いた非摂動性格子ゲージ理論物理学を研究するために、上記の変分モンテカルロ法の適用に不可欠な構成を示す。 したがって、ここで提示される構成はフェルミオンテンソルネットワーク状態を持つ非自明な格子ゲージ理論の研究に不可欠である。

Fermionic Gaussian Projected Entangled Pair States are fermionic tensor network state constructions which describe the physics of ground states of non-interacting fermionic Hamiltonians. As non-interacting states, one may study and analyze them very efficiently, in both analytical and numerical means. Recently it was shown that they may be used as the starting point - after applying so-called PEPS gauging mechanisms - for variational study of lattice gauge theories. This is done using sign-problem free variational Monte-Carlo. In this work we show how to generalize such states from two to three spatial dimensions, focusing on spin representations and requirements of lattice rotations. We present constructions which are crucial for the application of the above mentioned variational Monte-Carlo techniques for studying non-perturbative lattice gauge theory physics, with fermionic matter, in $2+1$-d and $3+1$-d models. Thus, the constructions presented here are crucial for the study of non-trivial lattice gauge theories with fermionic tensor network states.
翻訳日:2023-04-17 15:39:28 公開日:2023-04-13
# CFT熱場ダブルスのホログラフィー計測

Holographic measurement in CFT thermofield doubles ( http://arxiv.org/abs/2304.06743v1 )

ライセンス: Link先を確認
Stefano Antonini, Brianna Grado-White, Shao-Kai Jian, Brian Swingle(参考訳) arxiv:2209.12903の結果は、熱磁場二重状態のcft${}_2$の2つのコピーのサブ領域で行った局所射影測定と、バルクの2面ブラックホールホログラフィック双対に対するそれらの影響を調査して拡張する。 無限直線上で定義された CFT に着目し、有限および半無限部分領域の測定を検討する。 前者の場合、測定後のバルク時空の接続性は維持される。 後者の場合、1つのCFTにおける2つの半無限区間または各CFTにおける1つの半無限区間の測定は、アインシュタイン・ローゼン橋を破壊し、バルク双対時空を切断することができる。 特に, 接続相と非接続相の遷移は, 測定されたサブリージョンと測定されていないサブリージョンの相対的な大きさに依存し, 測定されたサブリージョンの特定のカーディ状態に投射される。 両CFT間のホログラフィックエンタングルメントエントロピーを計算し、この位相遷移を二重CFT系の絡み合い/離絡相転移とみなす。 また,測定をしていない場合,あるCFTに符号化されたバルク情報を,測定を行う際に他のCFTから再構成することも,測定によって消去することもできる。 最後に、レプリカトリックを用いた純粋にCFTによるレニイエントロピーの計算により、バルク解析で得られたものと互換性のある結果が得られることを示す。

We extend the results of arXiv:2209.12903 by studying local projective measurements performed on subregions of two copies of a CFT${}_2$ in the thermofield double state and investigating their consequences on the bulk double-sided black hole holographic dual. We focus on CFTs defined on an infinite line and consider measurements of both finite and semi-infinite subregions. In the former case, the connectivity of the bulk spacetime is preserved after the measurement. In the latter case, the measurement of two semi-infinite intervals in one CFT or of one semi-infinite interval in each CFT can destroy the Einstein-Rosen bridge and disconnect the bulk dual spacetime. In particular, we find that a transition between a connected and disconnected phase occurs depending on the relative size of the measured and unmeasured subregions and on the specific Cardy state the measured subregions are projected on. We identify this phase transition as an entangled/disentangled phase transition of the dual CFT system by computing the post-measurement holographic entanglement entropy between the two CFTs. We also find that bulk information encoded in one CFT in the absence of measurement can sometimes be reconstructed from the other CFT when a measurement is performed, or can be erased by the measurement. Finally, we show that a purely CFT calculation of the Renyi entropy using the replica trick yields results compatible with those obtained in our bulk analysis.
翻訳日:2023-04-17 15:39:07 公開日:2023-04-13
# 生体可塑性ニューラルネットワークの研究:連続学習における脳誘発メカニズムの役割と相互作用

A Study of Biologically Plausible Neural Network: The Role and Interactions of Brain-Inspired Mechanisms in Continual Learning ( http://arxiv.org/abs/2304.06738v1 )

ライセンス: Link先を確認
Fahad Sarfraz, Elahe Arani, Bahram Zonooz(参考訳) 人間は絶えず変化する環境から情報を取得し、統合し、保持するのに優れていますが、人工ニューラルネットワーク(ANN)は破滅的な忘れ物を示します。 シナプスの複雑さ、情報の処理、生物学的ニューラルネットワークとその人工ニューラルネットワークにおける学習メカニズムにはかなりの違いがあり、性能のミスマッチを説明できるかもしれない。 我々は、デイルの原理に従う排他的および抑制的ニューロンの集団を構成する生物学的に妥当な枠組みを検討し、興奮性錐体ニューロンは、刺激の文脈依存的な処理のために樹状構造によって増強される。 次に,脳にインスパイアされた様々なメカニズムの役割と相互作用について包括的研究を行い,その内容は,疎密な非重複表現,ヘビアン学習,シナプス統合,学習イベントに伴う過去の活性化の再現などである。 本研究は, 生物学的に妥当なアーキテクチャにおける複数の相補的機構の活用が, 脳の連続学習に有効である可能性が示唆された。

Humans excel at continually acquiring, consolidating, and retaining information from an ever-changing environment, whereas artificial neural networks (ANNs) exhibit catastrophic forgetting. There are considerable differences in the complexity of synapses, the processing of information, and the learning mechanisms in biological neural networks and their artificial counterparts, which may explain the mismatch in performance. We consider a biologically plausible framework that constitutes separate populations of exclusively excitatory and inhibitory neurons that adhere to Dale's principle, and the excitatory pyramidal neurons are augmented with dendritic-like structures for context-dependent processing of stimuli. We then conduct a comprehensive study on the role and interactions of different mechanisms inspired by the brain, including sparse non-overlapping representations, Hebbian learning, synaptic consolidation, and replay of past activations that accompanied the learning event. Our study suggests that the employing of multiple complementary mechanisms in a biologically plausible architecture, similar to the brain, may be effective in enabling continual learning in ANNs.
翻訳日:2023-04-17 15:38:41 公開日:2023-04-13
# 短いベースラインニュートリノ実験における古典的禁止領域の意義

Significance of classically forbidden regions for short baseline neutrino experiments ( http://arxiv.org/abs/2304.06736v1 )

ライセンス: Link先を確認
Dharam Vir Ahluwalia(参考訳) 古典的に禁止された領域 (\mathtt{CFRs}$) は非相対論的量子力学と相対論的量子場理論の両方に共通である。 2001年以降、$\mathtt{CFR}$は単純な調和振動子の基底状態(Adunas G. Z. et al., Gen. Relativ)に約16パーセントのエネルギーを寄与することが知られている。 Gravit , 33 (2001) 183). 同様に、場の量子論的な議論は、質量粒子が光円錐を横断する(すなわち、$\mathtt{cfr}$)ために非零振幅を与える。 これらの振幅の符号はフェルミオンと反フェルミオンの反対である。 これにより、光円錐を横切る振幅はゼロであるという誤った結論が導かれる。 これは、測定対象が粒子または反粒子であると考えられることを示さない限り、事実である。 しかし、ニュートリノ振動実験はニュートリノ $\nu$ またはアンティニュートリノ $\bar\nu$ を測定する。 ここで、ニュートリノ振動の文脈において、これらの観測は十分軽い質量固有状態に対して様々な短い基底異常を解決できる可能性を持っていることを示す。 さらに、今年の後半にjsns$^2$で発表される予定の結果について具体的な予測を行う。

Classically forbidden regions ($\mathtt{CFRs}$) are common to both non-relativistic quantum mechanics, and to relativistic quantum field theory. It is known since 2001 that $\mathtt{CFR}$ contributes roughly sixteen percent of energy to the ground state of a simple harmonic oscillator (Adunas G. Z. et al., Gen. Relativ. Gravit., 33 (2001) 183). Similarly, quantum field theoretic arguments yield a non-zero amplitude for a massive particle to cross the light cone (that is, into the $\mathtt{CFR}$). The signs of these amplitudes are opposite for fermions and antifermions. This has given rise to an erroneous conclusion that amplitude to cross the lightcone is identically zero. This is true as long as a measurement does not reveal the considered object to be a particle or antiparticle. However, neutrino oscillation experiments do measure a neutrino $\nu$, or an antineutrino $\bar\nu$. Here we show that in the context of neutrino oscillations these observations have the potential to resolve various short baseline anomalies for a sufficiently light lowest mass eigenstate. In addition, we make a concrete prediction for the upcoming results to be announced later this year by JSNS$^2$.
翻訳日:2023-04-17 15:38:20 公開日:2023-04-13
# 時空における不定因果秩序過程と構成可能な量子プロトコルの接続

Connecting indefinite causal order processes to composable quantum protocols in a spacetime ( http://arxiv.org/abs/2304.06735v1 )

ライセンス: Link先を確認
Matthias Salzger(参考訳) プロセス行列は、明確に定義された非循環因果順序のない因果関係をモデル化する枠組みである。 このフレームワークは非常に一般的で、バックグラウンド時空の存在すら想定していない。 結果として、どのようにフレームワークを物理的に解釈すべきか、どのようにして構成が定義できるのか、という自由な疑問である。 一方、いわゆる因果ボックスは、任意の構成を可能にするフレームワークを定義する。 本研究では、プロセス行列のサブセットである因果次数(qc-qc)の量子制御を量子回路で処理し、一般化量子回路として解釈し、因果ボックスのサブセットであるプロセスボックスをプロセスとして解釈する。 状態空間を解析し、この分析に基づいてQC-QCとプロセスボックス間の運用等価性の概念を定義する。 次に、各QC-QCに対して運用上等価なプロセスボックスを明示的に構築する。 これにより、よく定義された因果ボックスの合成の観点から、qc-qcsの構成を定義できる。 さらに,プロセスボックスがユニタリ拡大を認め,背景時空が特定の単純形式を持つと仮定できることを示す。 この予想に基づき、各プロセスボックスに対して運用的に等価なQC-QCを構築する。 この結果から,固定された背景時空で物理的に実装できるプロセスのクラスは,順序の量子制御重ね合わせを持つ量子回路として解釈できるプロセスのみであることが示唆された。 さらに、時空構造にプロセスを埋め込むことで、コンポーザビリティの問題も解決できることを明らかにした。 これは、時空における物理的実現可能性と構成可能性の間の接続に光を放つ。

Process matrices are a framework to model causal relations in the absence of a well-defined acyclic causal order. The framework is very general and does not even assume the existence of a background spacetime. As a result, it is an open question how the framework should be interpreted physically and how and even if composition can be defined. On the other hand, so-called causal boxes define a framework that allows for arbitrary composition. In this work, we treat quantum circuits with quantum control of causal order (QC-QC), a subset of process matrices, which can be interpreted as generalized quantum circuits, and process box, a subset of causal boxes, which can be interpreted as processes. We analyze their state spaces and define a notion of operational equivalence between QC-QCs and process boxes based on this analysis. We then explicitly construct for each QC-QC an operationally equivalent process box. This allows us to define composition of QC-QCs in terms of composition of causal boxes which is well-defined. We further show that process boxes admit a unitary extension and conjecture that the background spacetime can be assumed to have a specific simple form. Based on this conjecture, we construct an operationally equivalent QC-QC for each process box. Our results indicate that the only class of processes that can be physically implemented in a fixed background spacetime are those that can be interpreted as quantum circuits with quantum controlled superpositions of orders. Further, they also reveal that the composability issue can be resolved by embedding processes in a spacetime structure. This in turn sheds light on the connection between physical realizability in a spacetime and composability.
翻訳日:2023-04-17 15:38:00 公開日:2023-04-13
# トークンと期間の同時予測による効率の良いシーケンス変換

Efficient Sequence Transduction by Jointly Predicting Tokens and Durations ( http://arxiv.org/abs/2304.06795v1 )

ライセンス: Link先を確認
Hainan Xu, Fei Jia, Somshubra Majumdar, He Huang, Shinji Watanabe, Boris Ginsburg(参考訳) 本稿では,シーケンス・ツー・シーケンスタスクのための新しいToken-and-Duration Transducer (TDT)アーキテクチャを提案する。 TDTは従来のRNN-Transducerアーキテクチャを拡張し、トークンとその期間、すなわち出力されたトークンでカバーされる入力フレームの数の両方を共同で予測する。 これは、2つの出力を独立に正規化してトークンと期間の分布を生成するジョイントネットワークを使用することで達成される。 推論中、TDTモデルは予測期間出力によって導かれる入力フレームをスキップすることができるため、エンコーダ出力フレームをフレーム単位で処理する従来のトランスデューサよりも大幅に高速である。 TDTモデルは、従来のトランスデューサよりも精度が高く、推論もかなり高速である。 音声認識のためのTDTモデルは、RNNトランスデューサよりも2.82倍高速な推論を実現する。 TDTモデルは、従来のトランスデューサと比較してMUST-Cテストで1 BLEU以上の絶対ゲインを達成し、推論は2.27倍高速である。 Speech Intent ClassificationとSlot Fillingタスクでは、TDTモデルは従来のTransducerよりも1%以上(絶対)の精度を向上し、最大1.28倍高速に動作している。

This paper introduces a novel Token-and-Duration Transducer (TDT) architecture for sequence-to-sequence tasks. TDT extends conventional RNN-Transducer architectures by jointly predicting both a token and its duration, i.e. the number of input frames covered by the emitted token. This is achieved by using a joint network with two outputs which are independently normalized to generate distributions over tokens and durations. During inference, TDT models can skip input frames guided by the predicted duration output, which makes them significantly faster than conventional Transducers which process the encoder output frame by frame. TDT models achieve both better accuracy and significantly faster inference than conventional Transducers on different sequence transduction tasks. TDT models for Speech Recognition achieve better accuracy and up to 2.82X faster inference than RNN-Transducers. TDT models for Speech Translation achieve an absolute gain of over 1 BLEU on the MUST-C test compared with conventional Transducers, and its inference is 2.27X faster. In Speech Intent Classification and Slot Filling tasks, TDT models improve the intent accuracy up to over 1% (absolute) over conventional Transducers, while running up to 1.28X faster.
翻訳日:2023-04-17 15:30:57 公開日:2023-04-13
# ChatGPTは最も興奮した記事や雑誌を引用し、Google Scholarの引用数だけに依存している。 その結果、AIは環境科学におけるマシュー効果を増幅するかもしれない

ChatGPT cites the most-cited articles and journals, relying solely on Google Scholar's citation counts. As a result, AI may amplify the Matthew Effect in environmental science ( http://arxiv.org/abs/2304.06794v1 )

ライセンス: Link先を確認
Eduard Petiska(参考訳) 近年、ChatGPT(GPT)は世界1億人以上のユーザーを抱え、最も話題になっているイノベーションの1つとなっている。 しかし、GPTが利用する情報ソースに関する知識は依然として限られている。 その結果,環境科学の分野における情報源に着目した研究を行った。 本研究では,GPTに,環境科学の分野で最も重要な10分野を特定するよう依頼した。 次に、25の参照を含む各サブディシプリンの科学的レビュー記事の作成を依頼した。 本研究は,引用数,出版日数,出版日数,出版日数などの要因に着目して,これらの参考文献の分析を進めた。 以上の結果から,GPTは環境科学において高い刺激を受けた出版物を引用する傾向があり,中央値は1184.5。 また、2010年の中央集権出版年(英語版)とともに古い出版物が好まれており、主にこの分野の優れた学術雑誌を参照しており、自然誌はgptによって最も引用された雑誌である。 興味深いことに、GPTは、Web of ScienceやScopusなどの他の科学データベースからの引用情報を活用するのではなく、Google Scholarの引用数データにのみ依存しているようだ。 その結果,Google Scholar citations は GPT 生成コンテンツの研究に言及するための予測因子として重要な役割を担っていることが示唆された。 この発見は、科学データベースにおけるGoogle Scholarの優位性を強化し、科学におけるMatthewエフェクトを永続させる。 文献レビューのために既に多くの学者がGPTを利用しており、我々はさらなる格差と、より暗黙の少ない出版物と高い暗黙の出版物の間のギャップを期待することができる。

ChatGPT (GPT) has become one of the most talked-about innovations in recent years, with over 100 million users worldwide. However, there is still limited knowledge about the sources of information GPT utilizes. As a result, we carried out a study focusing on the sources of information within the field of environmental science. In our study, we asked GPT to identify the ten most significant subdisciplines within the field of environmental science. We then asked it to compose a scientific review article on each subdiscipline, including 25 references. We proceeded to analyze these references, focusing on factors such as the number of citations, publication date, and the journal in which the work was published. Our findings indicate that GPT tends to cite highly-cited publications in environmental science, with a median citation count of 1184.5. It also exhibits a preference for older publications, with a median publication year of 2010, and predominantly refers to well-respected journals in the field, with Nature being the most cited journal by GPT. Interestingly, our findings suggest that GPT seems to exclusively rely on citation count data from Google Scholar for the works it cites, rather than utilizing citation information from other scientific databases such as Web of Science or Scopus. In conclusion, our study suggests that Google Scholar citations play a significant role as a predictor for mentioning a study in GPT-generated content. This finding reinforces the dominance of Google Scholar among scientific databases and perpetuates the Matthew Effect in science, where the rich get richer in terms of citations. With many scholars already utilizing GPT for literature review purposes, we can anticipate further disparities and an expanding gap between lesser-cited and highly-cited publications.
翻訳日:2023-04-17 15:30:36 公開日:2023-04-13
# Speck:低レイテンシ327Kニューロン畳み込みニューラルネットワーク処理パイプラインを備えたスマートイベントベース視覚センサ

Speck: A Smart event-based Vision Sensor with a low latency 327K Neuron Convolutional Neuronal Network Processing Pipeline ( http://arxiv.org/abs/2304.06793v1 )

ライセンス: Link先を確認
Ole Richter (1,3,4), Yannan Xing (2), Michele De Marchi (1), Carsten Nielsen (1), Merkourios Katsimpris (1), Roberto Cattaneo (1), Yudi Ren (2), Qian Liu (1), Sadique Sheik (1), Tugba Demirci (1,2), Ning Qiao (1,2) ((1) SynSense AG, Swizerland, (2) SynSense, PR China, (3) Bio-Inspired Circuits and Systems (BICS) Lab, Zernike Institute for Advanced Materials, University of Groningen, Netherlands, (4) Groningen Cognitive Systems and Materials Center (CogniGron), University of Groningen, Netherlands.)(参考訳) さまざまなセンサからハイレベルな情報を抽出できるエッジコンピューティングソリューションは、ますます需要が高まっている。 これは、エッジ上のアプリケーションに対して感覚処理を必要とするスマートデバイスが増えているためである。 そこで本研究では,イベントベースのカメラと低消費電力の非同期スパイキング畳み込みニューラルネットワーク (scnn) コンピューティングアーキテクチャを1つのチップに組み込んだsoc(smart vision sensor system on chip)を提案する。 センサと処理を1つのダイに組み合わせることで、ユニット生産コストを大幅に削減できる。 さらに、SoCの単純なエンドツーエンドの性質は、より大規模なシステムにおいてエッジノードとして機能するだけでなく、小さなスタンドアロンアプリケーションを容易にする。 視覚センサのイベント駆動特性は、スパースデータストリームで高速な信号を提供する。 これは処理パイプラインに反映されており、高いスパース計算の最適化と9sCNN層のレイテンシの最小化に焦点を当てている。 これにより、低エネルギーの予算とセンサーコストで小さなフォームファクタ上に展開される非常に低レイテンシなビジュアル処理パイプラインが実現される。 非同期アーキテクチャ、個々のブロック、sCNN処理原理、および他のsCNN対応プロセッサに対するベンチマークを示す。

Edge computing solutions that enable the extraction of high level information from a variety of sensors is in increasingly high demand. This is due to the increasing number of smart devices that require sensory processing for their application on the edge. To tackle this problem, we present a smart vision sensor System on Chip (Soc), featuring an event-based camera and a low power asynchronous spiking Convolutional Neuronal Network (sCNN) computing architecture embedded on a single chip. By combining both sensor and processing on a single die, we can lower unit production costs significantly. Moreover, the simple end-to-end nature of the SoC facilitates small stand-alone applications as well as functioning as an edge node in a larger systems. The event-driven nature of the vision sensor delivers high-speed signals in a sparse data stream. This is reflected in the processing pipeline, focuses on optimising highly sparse computation and minimising latency for 9 sCNN layers to $3.36\mu s$. Overall, this results in an extremely low-latency visual processing pipeline deployed on a small form factor with a low energy budget and sensor cost. We present the asynchronous architecture, the individual blocks, the sCNN processing principle and benchmark against other sCNN capable processors.
翻訳日:2023-04-17 15:30:04 公開日:2023-04-13
# Inpaint Anything:Segment Anythingが画像のインペイントに挑戦

Inpaint Anything: Segment Anything Meets Image Inpainting ( http://arxiv.org/abs/2304.06790v1 )

ライセンス: Link先を確認
Tao Yu, Runseng Feng, Ruoyu Feng, Jinming Liu, Xin Jin, Wenjun Zeng, Zhibo Chen(参考訳) 現代の画像塗装システムは、大きな進歩にもかかわらず、しばしばマスクの選択と穴埋めに苦しむ。 SAM(Segment-Anything Model)に基づいて,マスクレス画像のインペイントを初めて試み,「クリック&フィリング」という新しいパラダイムを提案し,これをInpaint Anything(IA)と呼ぶ。 iaの中核となるアイデアは、異なるモデルの強みを組み合わせることで、インペインティング関連の問題を解決するための非常に強力でユーザフレンドリーなパイプラインを構築することです。 IAは3つの主要な特徴をサポートしている。 i) 削除: ユーザはオブジェクトをクリックすることができ、IAはそれを削除し、コンテキストで ``hole'' を滑らかにする。 (ii)対象物を取り除いた後、ユーザはIAにテキストベースのプロンプトを提供し、安定拡散のようなAIGCモデルを駆動することで、対応する生成コンテンツで穴を埋めることができる。 (iii) iaでは、クリック選択されたオブジェクトを保持し、残りの背景を新たに生成されたシーンに置き換えるオプションがある。 また、私たちのInpaint Anything(IA)に基づいて、誰もが新しいプロジェクトを共有し、推進するのを積極的に支援しています。 私たちのコードはhttps://github.com/geekyutao/inpaint-anything.comで利用可能です。

Modern image inpainting systems, despite the significant progress, often struggle with mask selection and holes filling. Based on Segment-Anything Model (SAM), we make the first attempt to the mask-free image inpainting and propose a new paradigm of ``clicking and filling'', which is named as Inpaint Anything (IA). The core idea behind IA is to combine the strengths of different models in order to build a very powerful and user-friendly pipeline for solving inpainting-related problems. IA supports three main features: (i) Remove Anything: users could click on an object and IA will remove it and smooth the ``hole'' with the context; (ii) Fill Anything: after certain objects removal, users could provide text-based prompts to IA, and then it will fill the hole with the corresponding generative content via driving AIGC models like Stable Diffusion; (iii) Replace Anything: with IA, users have another option to retain the click-selected object and replace the remaining background with the newly generated scenes. We are also very willing to help everyone share and promote new projects based on our Inpaint Anything (IA). Our codes are available at https://github.com/geekyutao/Inpaint-Anything.
翻訳日:2023-04-17 15:29:41 公開日:2023-04-13
# 不均質な斜め二重ランダム林

Heterogeneous Oblique Double Random Forest ( http://arxiv.org/abs/2304.06788v1 )

ライセンス: Link先を確認
M.A. Ganaie and M. Tanveer and I. Beheshti and N. Ahmad and P.N. Suganthan(参考訳) 決定木アンサンブルは、データを分割するために各ノードで単一のデータ特徴を使用する。 しかし、この方法での分割はデータの幾何学的性質を捉えるのに失敗する。 したがって、斜め決定木は、各非リーフノードでデータを分割する斜め超平面を生成する。 斜め決定木はデータの幾何学的性質を捉え、より良い一般化を示す。 斜め決定木の性能は、斜め超平面の生成方法とそれらの超平面の生成に使用されるデータに依存する。 近年,不均質なランダムフォレスト (raf) 分類器において,複数の分類器が使用されているが,適切な深さの樹木を発生できない。 さらに、二重RaF研究は、各非リーフノードでデータをブートストラップし、ブートストラップされたデータの代わりに元のデータを分割することで、より大きなツリーを生成することができることを強調した。 ヘテロジニアスRaFの研究は、二重RaFモデルがデータの幾何学的特性を引き継ぐのに失敗する一方で、大きな木の生成を欠いている。 これらの欠点に対処するために、異種斜め複層RaFを提案する。 提案モデルでは, ブートストラップデータの各非リーフノードに線形分類器を複数使用し, 最適線形分類器に基づいて元のデータを分割する。 最適超平面は、最適化された不純物基準に基づくモデルに対応する。 実験により,導入した異質な二重ランダム林の性能はベースラインモデルよりも比較的良好であることが示唆された。 提案する不均質な二重ランダム林の有効性を実証するために,統合失調症の診断に用いた。 提案モデルは,本疾患をベースラインモデルよりも正確に予測した。

The decision tree ensembles use a single data feature at each node for splitting the data. However, splitting in this manner may fail to capture the geometric properties of the data. Thus, oblique decision trees generate the oblique hyperplane for splitting the data at each non-leaf node. Oblique decision trees capture the geometric properties of the data and hence, show better generalization. The performance of the oblique decision trees depends on the way oblique hyperplanes are generate and the data used for the generation of those hyperplanes. Recently, multiple classifiers have been used in a heterogeneous random forest (RaF) classifier, however, it fails to generate the trees of proper depth. Moreover, double RaF studies highlighted that larger trees can be generated via bootstrapping the data at each non-leaf node and splitting the original data instead of the bootstrapped data recently. The study of heterogeneous RaF lacks the generation of larger trees while as the double RaF based model fails to take over the geometric characteristics of the data. To address these shortcomings, we propose heterogeneous oblique double RaF. The proposed model employs several linear classifiers at each non-leaf node on the bootstrapped data and splits the original data based on the optimal linear classifier. The optimal hyperplane corresponds to the models based on the optimized impurity criterion. The experimental analysis indicates that the performance of the introduced heterogeneous double random forest is comparatively better than the baseline models. To demonstrate the effectiveness of the proposed heterogeneous double random forest, we used it for the diagnosis of Schizophrenia disease. The proposed model predicted the disease more accurately compared to the baseline models.
翻訳日:2023-04-17 15:29:18 公開日:2023-04-13
# 二元積分布に対する多項式時間、純粋微分プライベート推定器

A Polynomial Time, Pure Differentially Private Estimator for Binary Product Distributions ( http://arxiv.org/abs/2304.06787v1 )

ライセンス: Link先を確認
Vikrant Singhal(参考訳) 我々は,全変数距離で正確に$\{0,1\}^d$ の積分布平均を推定する最初の$\varepsilon$-differentially private, computationally efficientアルゴリズムを提案する。 以前の作業では、この問題をより弱いプライバシー概念の下で効率的かつ最適に解決するか、指数的な実行時間を持ちながら最適に解決していた。

We present the first $\varepsilon$-differentially private, computationally efficient algorithm that estimates the means of product distributions over $\{0,1\}^d$ accurately in total-variation distance, whilst attaining the optimal sample complexity to within polylogarithmic factors. The prior work had either solved this problem efficiently and optimally under weaker notions of privacy, or had solved it optimally while having exponential running times.
翻訳日:2023-04-17 15:28:51 公開日:2023-04-13
# 分布的ロバストによるwasserstein距離を用いた後悔の最適制御

A Distributionally Robust Approach to Regret Optimal Control using the Wasserstein Distance ( http://arxiv.org/abs/2304.06783v1 )

ライセンス: Link先を確認
Shuhao Yan, Feras Al Taha, Eilyan Bitar(参考訳) 本稿では,2次コストの離散時間線形力学系の状態過程における確率的加法的乱れを考慮した最適制御に対する分布的ロバストなアプローチを提案する。 乱れ過程の基本的な確率分布は分かっていないが、2型ワッサーシュタイン距離で定義された分布の球にあると仮定される。 このフレームワークでは、厳密な因果的線形外乱フィードバックコントローラは、最悪の場合に期待される後悔を最小限に抑えるように設計されている。 コントローラが生み出した後悔は、外乱プロセスの実現に応答して発生したコストと、外乱プロセス実現の完全な知識を有する最適非外乱コントローラが発生したコストとの差として定義される。 最適輸送問題に対するよく確立された双対性理論に基づいて、このミニマックス後悔最適制御問題をトラクタブル半定プログラムとして等価に再構成する方法を示す。 等価な双対的再構成は、ワッサースタイン球の中心の分布と関連する最悪の場合の後悔を達成する最悪のケース分布を特徴付けることもできる。

This paper proposes a distributionally robust approach to regret optimal control of discrete-time linear dynamical systems with quadratic costs subject to stochastic additive disturbance on the state process. The underlying probability distribution of the disturbance process is unknown, but assumed to lie in a given ball of distributions defined in terms of the type-2 Wasserstein distance. In this framework, strictly causal linear disturbance feedback controllers are designed to minimize the worst-case expected regret. The regret incurred by a controller is defined as the difference between the cost it incurs in response to a realization of the disturbance process and the cost incurred by the optimal noncausal controller which has perfect knowledge of the disturbance process realization at the outset. Building on a well-established duality theory for optimal transport problems, we show how to equivalently reformulate this minimax regret optimal control problem as a tractable semidefinite program. The equivalent dual reformulation also allows us to characterize a worst-case distribution achieving the worst-case expected regret in relation to the distribution at the center of the Wasserstein ball.
翻訳日:2023-04-17 15:28:42 公開日:2023-04-13
# 半不変条件正規化流れ

Semi-Equivariant Conditional Normalizing Flows ( http://arxiv.org/abs/2304.06779v1 )

ライセンス: Link先を確認
Eyal Rozenberg and Daniel Freedman(参考訳) ここでは、連続正規化フローを用いて、$G$と$\hat G$を2つの3次元グラフとする、$p(G | \hat G)$という形の条件分布の学習問題を考察する。 剛体運動に対する条件的不変性が保持されることを保証するフロー上の半等分散条件を導出する。 本手法は受容体認識リガンド生成の分子配置における効果を示す。

We study the problem of learning conditional distributions of the form $p(G | \hat G)$, where $G$ and $\hat G$ are two 3D graphs, using continuous normalizing flows. We derive a semi-equivariance condition on the flow which ensures that conditional invariance to rigid motions holds. We demonstrate the effectiveness of the technique in the molecular setting of receptor-aware ligand generation.
翻訳日:2023-04-17 15:28:26 公開日:2023-04-13
# インタフェース協調ロボットにおける不完全ジェスチャーデータのオンライン認識

Online Recognition of Incomplete Gesture Data to Interface Collaborative Robots ( http://arxiv.org/abs/2304.06777v1 )

ライセンス: Link先を確認
M. A. Sim\~ao, O. Gibaru, P. Neto(参考訳) ジェスチャーのオンライン認識は、直感的な人間とロボットのインタラクション(HRI)や、コラボレーションロボットの市場への進出に不可欠だ。 問題は、しばしば歪んだ、不完全な多重感覚データを用いて、実際の非構造化環境で正確なジェスチャー認識を実現することは困難である。 本稿では,ウェアラブルセンサで捉えた静的ジェスチャー(SG)と動的ジェスチャー(DG)の大きな語彙を分類するためのHRIフレームワークを提案する。 センサからの生データ(立方体補間および主成分分析による例)にデータ次元の縮小を適用してdg特性を得る。 8つの被験者のサンプルを用いてUC2017ハンドジェスチャデータセットを用いて実験を行った。 分類モデルは、ランダムな森林を持つ24のSGライブラリで95.6%、人工ニューラルネットワークで10のDGで99.3%の精度を示している。 これらの結果は、異なる一般的な分類器と等しく好ましく比較される。 長期記憶深層ネットワークは、生の不完全データを用いたオンラインフレーム・バイ・フレーム分類において同様の性能を達成し、特別に製作された特徴を持つ静的モデルよりも精度が良いが、トレーニングや推論時間では悪い。 認識されたジェスチャーは、朝食の食事を準備する協調プロセスでロボットを遠隔操作するために使用される。

Online recognition of gestures is critical for intuitive human-robot interaction (HRI) and further push collaborative robotics into the market, making robots accessible to more people. The problem is that it is difficult to achieve accurate gesture recognition in real unstructured environments, often using distorted and incomplete multisensory data. This paper introduces an HRI framework to classify large vocabularies of interwoven static gestures (SGs) and dynamic gestures (DGs) captured with wearable sensors. DG features are obtained by applying data dimensionality reduction to raw data from sensors (resampling with cubic interpolation and principal component analysis). Experimental tests were conducted using the UC2017 hand gesture dataset with samples from eight different subjects. The classification models show an accuracy of 95.6% for a library of 24 SGs with a random forest and 99.3% for 10 DGs using artificial neural networks. These results compare equally or favorably with different commonly used classifiers. Long short-term memory deep networks achieved similar performance in online frame-by-frame classification using raw incomplete data, performing better in terms of accuracy than static models with specially crafted features, but worse in training and inference time. The recognized gestures are used to teleoperate a robot in a collaborative process that consists in preparing a breakfast meal.
翻訳日:2023-04-17 15:28:19 公開日:2023-04-13
# pointclimb:exemplar-free point cloudクラスインクリメンタルベンチマーク

PointCLIMB: An Exemplar-Free Point Cloud Class Incremental Benchmark ( http://arxiv.org/abs/2304.06775v1 )

ライセンス: Link先を確認
Shivanand Kundargi, Tejas Anvekar, Ramesh Ashok Tabib, Uma Mudenagudi(参考訳) ポイントクラウドは、オブジェクトの輪郭と構成に関する包括的で正確なデータを提供する。 このような幾何学的およびトポロジカルな3d情報をクラスインクリメンタル学習で活用することは、3dコンピュータビジョンにおける無限の応用に役立つ。 有名な3dポイントクラウドクラスインクリメンタルな学習手法は、大惨事に直面するデータの使用が一般的に伴うため、メモリに制限がある場合やデータの合法性に関する懸念がある場合に問題が発生する可能性がある。 これに向けて私たちは、ポイントクラウド上でのexemplarフリークラスインクリメンタル学習を活用する先駆者です。 本稿では,pointclimb:exemplar free class incremental learning benchmarkを提案する。 3dポイントクラウド上での授業インクリメンタル学習のための新しいクラスを考えるために,実用的視点に注目する。 3D Exemplar自由クラスインクリメンタルラーニングのためのベンチマークをセットアップする。 3D-Exemplar Free Class Incremental Learning フレームワーク上での各種バックボーンの性能について検討する。 ModelNet40データセットで結果を示す。

Point clouds offer comprehensive and precise data regarding the contour and configuration of objects. Employing such geometric and topological 3D information of objects in class incremental learning can aid endless application in 3D-computer vision. Well known 3D-point cloud class incremental learning methods for addressing catastrophic forgetting generally entail the usage of previously encountered data, which can present difficulties in situations where there are restrictions on memory or when there are concerns about the legality of the data. Towards this we pioneer to leverage exemplar free class incremental learning on Point Clouds. In this paper we propose PointCLIMB: An exemplar Free Class Incremental Learning Benchmark. We focus on a pragmatic perspective to consider novel classes for class incremental learning on 3D point clouds. We setup a benchmark for 3D Exemplar free class incremental learning. We investigate performance of various backbones on 3D-Exemplar Free Class Incremental Learning framework. We demonstrate our results on ModelNet40 dataset.
翻訳日:2023-04-17 15:27:54 公開日:2023-04-13
# 生存予測のための生体経路と組織との高密度マルチモーダル相互作用のモデリング

Modeling Dense Multimodal Interactions Between Biological Pathways and Histology for Survival Prediction ( http://arxiv.org/abs/2304.06819v1 )

ライセンス: Link先を確認
Guillaume Jaume, Anurag Vaidya, Richard Chen, Drew Williamson, Paul Liang, Faisal Mahmood(参考訳) 患者生存予測のための全スライディング画像(WSI)とバルク転写学の統合により,患者の予後の理解が向上する。 しかし、このマルチモーダルタスクは、これらのデータの性質が異なるため特に困難である: WSIは、腫瘍の非常に高次元的な空間的記述を表現し、バルク転写学は、腫瘍内の遺伝子発現レベルのグローバルな記述を表現している。 この文脈において、本研究は、(1)意味論的かつ解釈可能な方法で転写学をトークン化する方法の2つの主要な課題に対処することを目的としている。 これら2つのモード間の密接なマルチモーダル相互作用をどのように捉えることができるのか? 具体的には、特定の細胞機能をコードできる転写学から生物学的経路トークンを学ぶことを提案する。 WSIの様々な形態パターンを符号化する組織学的パッチトークンとともに、下流の解釈可能性分析のための適切な推論単位を形成する。 本稿では,メモリ効率の高いマルチモーダルトランスを用いて,経路と組織学的パッチトークン間の相互作用をモデル化する手法を提案する。 提案モデルであるSURVPATHは,The Cancer Genome Atlasの5つのデータセットに対して,一様および多モードのベースラインの評価を行った。 我々の解釈可能性フレームワークは、重要なマルチモーダルな予後因子を識別し、遺伝子型と表現型との相互作用に関する貴重な洞察を与え、基礎となる生物学的メカニズムのより深い理解を可能にする。 コードを公開します。 https://github.com/ajv012/SurvPath。

Integrating whole-slide images (WSIs) and bulk transcriptomics for predicting patient survival can improve our understanding of patient prognosis. However, this multimodal task is particularly challenging due to the different nature of these data: WSIs represent a very high-dimensional spatial description of a tumor, while bulk transcriptomics represent a global description of gene expression levels within that tumor. In this context, our work aims to address two key challenges: (1) how can we tokenize transcriptomics in a semantically meaningful and interpretable way?, and (2) how can we capture dense multimodal interactions between these two modalities? Specifically, we propose to learn biological pathway tokens from transcriptomics that can encode specific cellular functions. Together with histology patch tokens that encode the different morphological patterns in the WSI, we argue that they form appropriate reasoning units for downstream interpretability analyses. We propose fusing both modalities using a memory-efficient multimodal Transformer that can model interactions between pathway and histology patch tokens. Our proposed model, SURVPATH, achieves state-of-the-art performance when evaluated against both unimodal and multimodal baselines on five datasets from The Cancer Genome Atlas. Our interpretability framework identifies key multimodal prognostic factors, and, as such, can provide valuable insights into the interaction between genotype and phenotype, enabling a deeper understanding of the underlying biological mechanisms at play. We make our code public at: https://github.com/ajv012/SurvPath.
翻訳日:2023-04-17 15:22:42 公開日:2023-04-13
# soundini:自然映像編集のための音声誘導拡散

Soundini: Sound-Guided Diffusion for Natural Video Editing ( http://arxiv.org/abs/2304.06818v1 )

ライセンス: Link先を確認
Seung Hyun Lee, Sieun Kim, Innfarn Yoo, Feng Yang, Donghyeon Cho, Youngseo Kim, Huiwen Chang, Jinkyu Kim, Sangpil Kim(参考訳) ゼロショット設定で映像の特定の領域に音声誘導視覚効果を加える手法を提案する。 編集されたビデオの各フレームは、時間的一貫性を維持しながら視覚的変化を持つ必要があるため、視覚効果の出現をアニメーションすることは困難である。 さらに、既存のビデオ編集ソリューションはフレーム間の時間的一貫性に重点を置いており、例えば雷雨、波、き裂などの視覚的スタイルの変化を無視している。 この制限を克服するために、動的スタイルの時間音特徴を利用する。 具体的には,聴覚・視覚潜在空間における音響潜在表現を用いた拡散確率モデルについて解説する。 我々の知る限り、我々の研究は、音強度、音色、音量などの音質特性を持つ様々な音源からの音声誘導自然な映像編集を初めて探求するものである。 また,隣接フレーム間の画素間関係をキャプチャし,時間的に一貫性のある映像フレームを生成するために,光フローに基づくガイダンスを設計する。 実験の結果,提案手法は既存の映像編集技術よりも優れており,音の特性を反映したよりリアルな視覚効果が得られた。 ご覧ください。https://kuai-lab.github.io/soundini-gallery/。

We propose a method for adding sound-guided visual effects to specific regions of videos with a zero-shot setting. Animating the appearance of the visual effect is challenging because each frame of the edited video should have visual changes while maintaining temporal consistency. Moreover, existing video editing solutions focus on temporal consistency across frames, ignoring the visual style variations over time, e.g., thunderstorm, wave, fire crackling. To overcome this limitation, we utilize temporal sound features for the dynamic style. Specifically, we guide denoising diffusion probabilistic models with an audio latent representation in the audio-visual latent space. To the best of our knowledge, our work is the first to explore sound-guided natural video editing from various sound sources with sound-specialized properties, such as intensity, timbre, and volume. Additionally, we design optical flow-based guidance to generate temporally consistent video frames, capturing the pixel-wise relationship between adjacent frames. Experimental results show that our method outperforms existing video editing techniques, producing more realistic visual effects that reflect the properties of sound. Please visit our page: https://kuai-lab.github.io/soundini-gallery/.
翻訳日:2023-04-17 15:22:16 公開日:2023-04-13
# 関連する静的解析製品によるマイナショットプロンプトの改善

Improving Few-Shot Prompts with Relevant Static Analysis Products ( http://arxiv.org/abs/2304.06815v1 )

ライセンス: Link先を確認
Toufique Ahmed, Kunal Suresh Pai, Premkumar Devanbu, Earl T. Barr(参考訳) LLM(Large Language Models)は、プロンプトエンジニアリングによって「プログラムされた」新しい計算エンジンのクラスである。 私たちはまだ、開発者を支援するためにこれらのLLMを"プログラム"する方法を学んでいます。 私たちは、開発者がコーディングタスクに取り組む際に、意識的に無意識に意味的な事実を念頭に置いている傾向があるという直感から始めます。 たいていの場合、クイックリードから生じる浅く単純な事実です。 関数の場合、ファクトの例にはパラメータとローカル変数名、戻り式、単純な事前条件と後条件、基本的な制御とデータフローなどが含まれる。 トランスフォーマースタイルのLLMの強力な多層アーキテクチャは、本質的にこのような単純なレベルの「コード解析」を行い、コード処理中に暗黙的にそのような情報を抽出することができると仮定するかもしれない。 もしそうでなければ、明示的にこの情報を追加することは有効だろうか? ここでのゴールは、コード要約タスクを使用して、意味的事実を明確化してLLMのプロンプトを自動的に増強するかどうかを評価することである。 以前の研究によると、コード要約におけるllmのパフォーマンスは、同一プロジェクトか、情報検索手法(bm25など)によって得られたサンプルのサンプルから得られる。 コード要約におけるLLMパフォーマンスは、翻訳やテキスト要約といった自然言語タスクではまだパフォーマンスが遅れています。 意味的な事実を追加することは実際に役立ちます。 このアプローチは、2つの異なる大きな言語モデルを含む、事前作業によって提案されるいくつかの異なる設定のパフォーマンスを改善する。 ほとんどの場合、改善は2 bleuに近づいたり、2 bleuを超えている。 挑戦的なcodesearchnetデータセットのphp言語では、この拡張によって、実際には 30 bleu を超えるパフォーマンスが得られる。

Large Language Models (LLM) are a new class of computation engines, "programmed" via prompt engineering. We are still learning how to best "program" these LLMs to help developers. We start with the intuition that developers tend to consciously and unconsciously have a collection of semantics facts in mind when working on coding tasks. Mostly these are shallow, simple facts arising from a quick read. For a function, examples of facts might include parameter and local variable names, return expressions, simple pre- and post-conditions, and basic control and data flow, etc. One might assume that the powerful multi-layer architecture of transformer-style LLMs makes them inherently capable of doing this simple level of "code analysis" and extracting such information, implicitly, while processing code: but are they, really? If they aren't, could explicitly adding this information help? Our goal here is to investigate this question, using the code summarization task and evaluate whether automatically augmenting an LLM's prompt with semantic facts explicitly, actually helps. Prior work shows that LLM performance on code summarization benefits from few-shot samples drawn either from the same-project or from examples found via information retrieval methods (such as BM25). While summarization performance has steadily increased since the early days, there is still room for improvement: LLM performance on code summarization still lags its performance on natural-language tasks like translation and text summarization. We find that adding semantic facts actually does help! This approach improves performance in several different settings suggested by prior work, including for two different Large Language Models. In most cases, improvement nears or exceeds 2 BLEU; for the PHP language in the challenging CodeSearchNet dataset, this augmentation actually yields performance surpassing 30 BLEU.
翻訳日:2023-04-17 15:21:55 公開日:2023-04-13
# Unified Out-Of-Distribution Detection: A Model-Specific Perspective

Unified Out-Of-Distribution Detection: A Model-Specific Perspective ( http://arxiv.org/abs/2304.06813v1 )

ライセンス: Link先を確認
Reza Averly, Wei-Lun Chao(参考訳) out-of-distribution (ood)検出は、トレーニング分布に属さず、確実に予測できないテスト例を特定することを目的としている。 既存の研究の多さにもかかわらず、そのほとんどは、OODの例が意味的シフト(例:見えないカテゴリー)から来るシナリオにのみ焦点を合わせ、他の可能な原因(例:共変量シフト)を無視した。 本稿では,より広い範囲でood検出を研究するための新しい統一フレームワークを提案する。 特定の原因からOODの例を検出する代わりに、デプロイされた機械学習モデル(例えば、画像分類器)が正しく予測できない例を検出することを提案する。 つまり、テスト例を検出して拒否すべきかどうかが ``model-specific'' である。 このフレームワークは,意味的シフトと共変量シフトによって生じるoodサンプルの検出を統一し,非制御環境に機械学習モデルを適用することの懸念に密着している。 我々は、様々なモデル(例えば、異なるアーキテクチャやトレーニング戦略)、OODサンプルのソース、OOD検出アプローチを含む広範な分析を行い、制御されていない環境でのOOD検出の改善と理解に関する洞察を明らかにする。

Out-of-distribution (OOD) detection aims to identify test examples that do not belong to the training distribution and are thus unlikely to be predicted reliably. Despite a plethora of existing works, most of them focused only on the scenario where OOD examples come from semantic shift (e.g., unseen categories), ignoring other possible causes (e.g., covariate shift). In this paper, we present a novel, unifying framework to study OOD detection in a broader scope. Instead of detecting OOD examples from a particular cause, we propose to detect examples that a deployed machine learning model (e.g., an image classifier) is unable to predict correctly. That is, whether a test example should be detected and rejected or not is ``model-specific''. We show that this framework unifies the detection of OOD examples caused by semantic shift and covariate shift, and closely addresses the concern of applying a machine learning model to uncontrolled environments. We provide an extensive analysis that involves a variety of models (e.g., different architectures and training strategies), sources of OOD examples, and OOD detection approaches, and reveal several insights into improving and understanding OOD detection in uncontrolled environments.
翻訳日:2023-04-17 15:21:24 公開日:2023-04-13
# 高次元量子状態工学のための非線形フォトニック結晶の設計

Designing Nonlinear Photonic Crystals for High-Dimensional Quantum State Engineering ( http://arxiv.org/abs/2304.06810v1 )

ライセンス: Link先を確認
Eyal Rozenberg, Aviv Karnieli, Ofir Yesharim, Joshua Foley-Comer, Sivan Trajtenberg-Mills, Sarika Mishra, Shashi Prabhakar, Ravindra Pratap, Daniel Freedman, Alex M. Bronstein and Ady Arie(参考訳) 本稿では、量子光学における自然パラメトリックダウンコンバージョン(SPDC)によるD次元キューディット状態の生成のための、新しい、物理的に制約された微分可能なアプローチを提案する。 物理過程の本質的に確率的な性質によって課される制限を回避し、SPDCハミルトニアンの下でその進化を管理する確率的力学方程式の集合を組み込む。 構造付き非線形フォトニック結晶 (NLPC) と形状のポンプビームの設計により, 本モデルの有効性を実証し, 理論的, 実験的に, 空間的自由度で最大絡み合った状態を生成する方法を示す。 nlpc構造の学習は任意の量子状態を作り制御するための有望な新しい方法を提供し、生成された状態の全光コヒーレント制御を可能にする。 このアプローチはバルク結晶から薄い準曲面へ容易に拡張でき、スーパー流体や超伝導体のような同様のハミルトン構造を持つ他の量子系にも適用できると考えている。

We propose a novel, physically-constrained and differentiable approach for the generation of D-dimensional qudit states via spontaneous parametric down-conversion (SPDC) in quantum optics. We circumvent any limitations imposed by the inherently stochastic nature of the physical process and incorporate a set of stochastic dynamical equations governing its evolution under the SPDC Hamiltonian. We demonstrate the effectiveness of our model through the design of structured nonlinear photonic crystals (NLPCs) and shaped pump beams; and show, theoretically and experimentally, how to generate maximally entangled states in the spatial degree of freedom. The learning of NLPC structures offers a promising new avenue for shaping and controlling arbitrary quantum states and enables all-optical coherent control of the generated states. We believe that this approach can readily be extended from bulky crystals to thin Metasurfaces and potentially applied to other quantum systems sharing a similar Hamiltonian structures, such as superfluids and superconductors.
翻訳日:2023-04-17 15:21:01 公開日:2023-04-13
# リズムvrゲームのためのレベル生成

Level generation for rhythm VR games ( http://arxiv.org/abs/2304.06809v1 )

ライセンス: Link先を確認
Mariia Rizhko(参考訳) ラグナロック(Ragnarock)は、仮想現実(VR)のリズムゲームで、ロングシップレースに出場するバイキングのキャプテンをプレイする。 2つのハンマーで、入ってくるランを壊し、エピックヴァイキング音楽と同期させる。 ランはプレイヤーが手動で作成できるビートマップによって定義される。 beatマップの作成には数時間かかる。 この研究は、振り付け学習のタスクとしても知られるビートマップ作成のプロセスを自動化することを目的としている。 割り当ては、ビート(動作配置)のタイミングを決定する、選択したビートに接続されたランがどこに置かれるべきかを決定する(動作選択)、ウェブアプリケーション作成の3つの部分に分けられる。 動作配置の最初のタスクでは、音楽記録から支配的な局所パルス(PLP)情報を抽出する。 このアプローチでは、どことどのビートを置くべきかを学ぶことができる。 アクション選択の第2のタスクでは、リカレントニューラルネットワーク(RNN)、特にGRU(Gated Recurrent Unit)を使用してビート列とパターンを学習し、それらのルールを再現し、完全に新しいレベルを受け取ることができる。 最後のタスクは、非技術プレイヤー向けのソリューションを構築することであり、そのタスクは、第1と第2のパーツの結果をWebアプリケーションに簡単に組み合わせることであった。 このタスクのためにフロントエンドはJavaScriptとReactとバックエンド、pythonとFastAPIを使って構築された。

Ragnarock is a virtual reality (VR) rhythm game in which you play a Viking captain competing in a longship race. With two hammers, the task is to crush the incoming runes in sync with epic Viking music. The runes are defined by a beat map which the player can manually create. The creation of beat maps takes hours. This work aims to automate the process of beat map creation, also known as the task of learning to choreograph. The assignment is broken down into three parts: determining the timing of the beats (action placement), determining where in space the runes connected with the chosen beats should be placed (action selection) and web-application creation. For the first task of action placement, extraction of predominant local pulse (PLP) information from music recordings is used. This approach allows to learn where and how many beats are supposed to be placed. For the second task of action selection, Recurrent Neural Networks (RNN) are used, specifically Gated recurrent unit (GRU) to learn sequences of beats, and their patterns to be able to recreate those rules and receive completely new levels. Then the last task was to build a solution for non-technical players, the task was to combine the results of the first and the second parts into a web application for easy use. For this task the frontend was built using JavaScript and React and the backend - python and FastAPI.
翻訳日:2023-04-17 15:20:45 公開日:2023-04-13
# ストリーミングデータのアクティブコストアウェアラベリング

Active Cost-aware Labeling of Streaming Data ( http://arxiv.org/abs/2304.06808v1 )

ライセンス: Link先を確認
Ting Cai, Kirthevasan Kandasamy(参考訳) アクティブな学習者がデータポイントのストリームに直面するストリーミングデータのラベル付けを積極的に研究し、高価な実験によってラベル付けするポイントを慎重に選択する必要がある。 このような問題は医療や天文学などの応用でしばしば発生する。 最初に、データの入力が$k$離散分布の1つに属する場合の設定を研究し、ラベリングコストと予測エラーをキャプチャするロスによってこの問題を形式化する。 ラベル付けコストがb$の場合、不確かさが時間とコスト依存のしきい値より大きい場合は点をラベル付けするアルゴリズムは、$t$ ラウンド後の損失に対して$o(b^{\frac{1}{3}} k^{\frac{1}{3}} t^{\frac{2}{3}})の最悪の上限を達成する。 また、よりニュアンスの高い上界を提供し、アルゴリズムが到着パターンに適応できることを示し、到着パターンがより有利な場合により良い性能を実現する。 両方の上界と一致する下界を補完する。 次に、入力が連続領域に属し、実験の出力が有界なRKHSノルムを持つ滑らかな関数である場合、この問題を研究する。 $d$次元での$T$ラウンドの後、損失は$O(B^{\frac{1}{d+3}} T^{\frac{d+2}{d+3}})$と$O(B^{\frac{1}{2d+3}} T^{\frac{2d+2}{2d+3}})$で、Mat\'ernカーネルを持つRKHSで束縛されることを示す。 本手法は,いくつかの合成実験および医学および天文学における2つの実実験において,他のベースラインよりも優れることを示す。

We study actively labeling streaming data, where an active learner is faced with a stream of data points and must carefully choose which of these points to label via an expensive experiment. Such problems frequently arise in applications such as healthcare and astronomy. We first study a setting when the data's inputs belong to one of $K$ discrete distributions and formalize this problem via a loss that captures the labeling cost and the prediction error. When the labeling cost is $B$, our algorithm, which chooses to label a point if the uncertainty is larger than a time and cost dependent threshold, achieves a worst-case upper bound of $O(B^{\frac{1}{3}} K^{\frac{1}{3}} T^{\frac{2}{3}})$ on the loss after $T$ rounds. We also provide a more nuanced upper bound which demonstrates that the algorithm can adapt to the arrival pattern, and achieves better performance when the arrival pattern is more favorable. We complement both upper bounds with matching lower bounds. We next study this problem when the inputs belong to a continuous domain and the output of the experiment is a smooth function with bounded RKHS norm. After $T$ rounds in $d$ dimensions, we show that the loss is bounded by $O(B^{\frac{1}{d+3}} T^{\frac{d+2}{d+3}})$ in an RKHS with a squared exponential kernel and by $O(B^{\frac{1}{2d+3}} T^{\frac{2d+2}{2d+3}})$ in an RKHS with a Mat\'ern kernel. Our empirical evaluation demonstrates that our method outperforms other baselines in several synthetic experiments and two real experiments in medicine and astronomy.
翻訳日:2023-04-17 15:20:20 公開日:2023-04-13
# Heisenberg-Langevin 法による駆動超放射光の研究

Heisenberg-Langevin approach to driven superradiance ( http://arxiv.org/abs/2304.06807v1 )

ライセンス: Link先を確認
Ori Somech, Yoav Shimshi, and Ephraim Shahmoon(参考訳) Heisenberg-Langevin の定式化に基づくDicke超放射能の研究のための解析的アプローチを提案する。 我々は、原子スピンと光場作用素の定常変動を計算する。 原子は臨界駆動下で絡み合い、スピンスクイーズを示す一方で、放射光は入力駆動場と振幅とスペクトルが同一の古典的なコヒーレント状態にあることを示す。 したがって、非線形原子系は線形古典散乱体として光を散乱する。 我々の結果は、最近のコヒーレントに放射されるスピン状態の理論と一致している。 提示されたハイゼンベルク-ランゲバンアプローチは、置換対称ディッケモデルを超えて超ラディアンを扱うための一般化が容易であるべきである。

We present an analytical approach for the study of driven Dicke superradiance based on a Heisenberg-Langevin formulation. We calculate the steady-state fluctuations of both the atomic-spin and the light-field operators. While the atoms become entangled below a critical drive, exhibiting spin squeezing, we show that the radiated light is in a classical-like coherent state whose amplitude and spectrum are identical to those of the incident driving field. Therefore, the nonlinear atomic system scatters light as a linear classical scatterer. Our results are consistent with the recent theory of coherently radiating spin states. The presented Heisenberg-Langevin approach should be simple to generalize for treating superradiance beyond the permutation-symmetric Dicke model.
翻訳日:2023-04-17 15:19:38 公開日:2023-04-13
# ブラックボックスVIのサンプル平均近似

Sample Average Approximation for Black-Box VI ( http://arxiv.org/abs/2304.06803v1 )

ライセンス: Link先を確認
Javier Burroni, Justin Domke, Daniel Sheldon(参考訳) ステップサイズを選択するタスクを含む,確率勾配上昇の困難を回避したブラックボックスVIに対する新しいアプローチを提案する。 提案手法では,サンプル平均近似 (saa) 問題の列を用いる。 SAAはそれらを決定論的に変換することで確率最適化問題の解を近似する。 準ニュートン法と線探索を用いて各決定論的最適化問題を解き,超パラメータ選択を自動化するヒューリスティックポリシーを提案する。 実験の結果,本手法はVI問題を単純化し,既存手法よりも高速な性能を実現することがわかった。

We present a novel approach for black-box VI that bypasses the difficulties of stochastic gradient ascent, including the task of selecting step-sizes. Our approach involves using a sequence of sample average approximation (SAA) problems. SAA approximates the solution of stochastic optimization problems by transforming them into deterministic ones. We use quasi-Newton methods and line search to solve each deterministic optimization problem and present a heuristic policy to automate hyperparameter selection. Our experiments show that our method simplifies the VI problem and achieves faster performance than existing methods.
翻訳日:2023-04-17 15:19:28 公開日:2023-04-13
# 地理空間型人工知能の基礎モデルの機会と課題

On the Opportunities and Challenges of Foundation Models for Geospatial Artificial Intelligence ( http://arxiv.org/abs/2304.06798v1 )

ライセンス: Link先を確認
Gengchen Mai, Weiming Huang, Jin Sun, Suhang Song, Deepak Mishra, Ninghao Liu, Song Gao, Tianming Liu, Gao Cong, Yingjie Hu, Chris Cundy, Ziyuan Li, Rui Zhu, Ni Lao(参考訳) ファンデーションモデル(FM)としても知られる大規模な事前学習モデルは、大規模データに対してタスクに依存しない方法で訓練されており、微調整、少数ショット、あるいはゼロショット学習によって幅広い下流タスクに適応することができる。 言語や視覚タスクの成功にもかかわらず、地理空間人工知能(GeoAI)の基礎モデルを開発する試みはまだ見受けられていない。 本研究では,GeoAIのマルチモーダル基盤モデル開発における課題と課題について考察する。 まず,地球空間セマンティックス,健康地理学,都市地理学,リモートセンシングなど,複数の地空間セマンティックス領域にまたがる7つのタスクで実測を行い,既存のFMの可能性を検証した。 以上の結果から,テキストモダリティのみを含む複数の地理空間的タスク(トポニム認識,位置記述認識,米国国家レベルの認知症時系列予測など)において,これらのタスク非依存のLSMは,ゼロショットや少数ショットの学習環境でタスク固有の完全教師付きモデルより優れていることが示唆された。 しかし、他の地理空間的タスク、特にPOIに基づく都市機能分類、ストリートビューに基づく都市騒音強度分類、リモートセンシング画像シーン分類などの複数のデータモダリティを含むタスクでは、既存の基礎モデルは依然としてタスク固有のモデルに劣る。 これらの観測に基づいて,GeoAIのためのFMを開発する上での大きな課題の1つは,地理空間的タスクのマルチモーダル性に対処することである。 各地理空間データモダリティの異なる課題について論じた後、地理空間アライメントを通じて様々な種類の地理空間データを推論できるマルチモーダル基礎モデルの可能性を提案する。 本稿は、GeoAIのこのようなモデルを開発するためのユニークなリスクと課題について論じる。

Large pre-trained models, also known as foundation models (FMs), are trained in a task-agnostic manner on large-scale data and can be adapted to a wide range of downstream tasks by fine-tuning, few-shot, or even zero-shot learning. Despite their successes in language and vision tasks, we have yet seen an attempt to develop foundation models for geospatial artificial intelligence (GeoAI). In this work, we explore the promises and challenges of developing multimodal foundation models for GeoAI. We first investigate the potential of many existing FMs by testing their performances on seven tasks across multiple geospatial subdomains including Geospatial Semantics, Health Geography, Urban Geography, and Remote Sensing. Our results indicate that on several geospatial tasks that only involve text modality such as toponym recognition, location description recognition, and US state-level/county-level dementia time series forecasting, these task-agnostic LLMs can outperform task-specific fully-supervised models in a zero-shot or few-shot learning setting. However, on other geospatial tasks, especially tasks that involve multiple data modalities (e.g., POI-based urban function classification, street view image-based urban noise intensity classification, and remote sensing image scene classification), existing foundation models still underperform task-specific models. Based on these observations, we propose that one of the major challenges of developing a FM for GeoAI is to address the multimodality nature of geospatial tasks. After discussing the distinct challenges of each geospatial data modality, we suggest the possibility of a multimodal foundation model which can reason over various types of geospatial data through geospatial alignments. We conclude this paper by discussing the unique risks and challenges to develop such a model for GeoAI.
翻訳日:2023-04-17 15:19:20 公開日:2023-04-13
# semeval-2023タスク12:アフリカ語感情分析(アフィリエンス・セメヴァル)

SemEval-2023 Task 12: Sentiment Analysis for African Languages (AfriSenti-SemEval) ( http://arxiv.org/abs/2304.06845v1 )

ライセンス: Link先を確認
Shamsuddeen Hassan Muhammad, Idris Abdulmumin, Seid Muhie Yimam, David Ifeoluwa Adelani, Ibrahim Sa'id Ahmad, Nedjma Ousidhoum, Abinew Ayele, Saif M. Mohammad, Meriem Beloucif(参考訳) Africentric SemEval Shared Task, Sentiment Analysis for African Languages (AfriSenti-SemEval) - このデータセットはhttps://github.com/afrisenti-semeval/afrisent-semeval-2023で公開されている。 アムハラ語、アルジェリア語、ハウサ語、イグボ語、キニアルワンダ語、モロッコ語、モザンビーク語、ナイジェリア語、オロモ語、スワヒリ語、ティグリニャ語、twi、xitsonga、yor\`ub\'a(muhammad et al., 2023)の3種類のラベル付きデータを用いて、14のアフリカの言語における感情分類課題である。 1)タスクA:単言語分類44件,(2)タスクB:多言語分類32件,(3)タスクC:ゼロショット分類34件のサブタスクを提示した。 タスクAとBの最良のシステムは、それぞれ71.31と75.06の重み付きF1を持つNLNDEチームによって達成された。 UCAS-IIE-NLPは58.15重み付きF1のタスクCで平均して最高のシステムを達成した。 トップ10システムで採用されている様々なアプローチとそのアプローチについて説明する。

We present the first Africentric SemEval Shared task, Sentiment Analysis for African Languages (AfriSenti-SemEval) - the dataset is available at https://github.com/afrisenti-semeval/afrisent-semeval-2023. AfriSenti-SemEval is a sentiment classification challenge in 14 African languages - Amharic, Algerian Arabic, Hausa, Igbo, Kinyarwanda, Moroccan Arabic, Mozambican Portuguese, Nigerian Pidgin, Oromo, Swahili, Tigrinya, Twi, Xitsonga, and Yor\`ub\'a (Muhammad et al., 2023), using a 3-class labeled data: positive, negative, and neutral. We present three subtasks: (1) Task A: monolingual classification, which received 44 submissions; (2) Task B: multilingual classification, which received 32 submissions; and (3) Task C: zero-shot classification, which received 34 submissions. The best system for tasks A and B was achieved by NLNDE team with 71.31 and 75.06 weighted F1, respectively. UCAS-IIE-NLP achieved the best system on average for task C with 58.15 weighted F1. We describe the various approaches adopted by the top 10 systems and their approaches.
翻訳日:2023-04-17 15:12:11 公開日:2023-04-13
# PIE:大規模レコメンダシステムのためのパーソナライズされた関心探索

PIE: Personalized Interest Exploration for Large-Scale Recommender Systems ( http://arxiv.org/abs/2304.06844v1 )

ライセンス: Link先を確認
Khushhall Chandra Mahajan, Amey Porobo Dharwadker, Romil Shah, Simeng Qu, Gaurav Bang, Brad Schumitsch(参考訳) レコメンダシステムは、ユーザにパーソナライズされたコンテンツを推薦することに成功した。 しかし、これらのシステムはしばしば人気コンテンツに乗じている。 ユーザ関心の継続的な進化は、キャプチャされる必要があるが、ユーザの関心を体系的に探索する直接的な方法はない。 これはまた、ユーザに提示された候補からトレーニングデータを生成するため、レコメンデーションパイプライン全体の品質に影響する傾向がある。 本稿では,このような課題に対処するために,大規模レコメンダシステムにおける探索フレームワークを提案する。 第一に、ユーザーが興味を持つ最高のクリエイターを特定することに焦点を当てたユーザー-クリエーター探索、第二にオンライン探索フレームワーク、第二に探索とエクスプロイトをバランスして探索ビデオの最適な普及を確保するフィード合成メカニズムである。 提案手法は,既存の大規模レコメンデーションシステムと最小限の変更で容易に統合できる。 また、ユーザ-クリエータ間の接続に関する関連するメトリクスを定義し、それが全体的なレコメンデーションパイプラインの創造性とエコシステム価値の強力な向上にどのように役立つかを理解することで、探索の価値を分析します。 調査中に一般的に見られるユーザのエンゲージメント指標の回帰とは対照的に、この方法は、強力なクリエーター接続の3.50%、新規クリエーター接続の0.85%という大幅な改善を達成できる。 さらに当社の作業は、数十億のユーザを対象とする人気のビデオ発見および共有プラットフォームであるFacebook Watch上で、実運用にデプロイされています。

Recommender systems are increasingly successful in recommending personalized content to users. However, these systems often capitalize on popular content. There is also a continuous evolution of user interests that need to be captured, but there is no direct way to systematically explore users' interests. This also tends to affect the overall quality of the recommendation pipeline as training data is generated from the candidates presented to the user. In this paper, we present a framework for exploration in large-scale recommender systems to address these challenges. It consists of three parts, first the user-creator exploration which focuses on identifying the best creators that users are interested in, second the online exploration framework and third a feed composition mechanism that balances explore and exploit to ensure optimal prevalence of exploratory videos. Our methodology can be easily integrated into an existing large-scale recommender system with minimal modifications. We also analyze the value of exploration by defining relevant metrics around user-creator connections and understanding how this helps the overall recommendation pipeline with strong online gains in creator and ecosystem value. In contrast to the regression on user engagement metrics generally seen while exploring, our method is able to achieve significant improvements of 3.50% in strong creator connections and 0.85% increase in novel creator connections. Moreover, our work has been deployed in production on Facebook Watch, a popular video discovery and sharing platform serving billions of users.
翻訳日:2023-04-17 15:11:44 公開日:2023-04-13
# 量子可能エコシステムの構築

Building a Quantum-ready Ecosystem ( http://arxiv.org/abs/2304.06843v1 )

ライセンス: Link先を確認
Abhishek Purohit, Maninder Kaur, Zeki Can Seskir, Matthew T. Posner, and Araceli Venegas-Gomez(参考訳) 量子テクノロジーの出現は、コンピューティング、センシング、セキュアな通信、そしてあらゆる産業分野における実用的な応用を伴う先端材料のシミュレーションにおける画期的な進歩をもたらした。 量子技術エコシステムの急速な発展は、これらの技術の成熟度とその商業的生存可能性への差し迫った加速を評価することが不可欠となった。 本稿では,量子技術の現状を述べるとともに,量子対応エコシステムの必要性を強調する。 標準量子技術即応レベル(qtrls)を革新的モデルとツールを用いて定式化し、特定の量子技術の即応性を正確に評価する。 我々はまた、政府、産業、アカデミアを含む主要な利害関係者に関する関連指標について議論し、倫理とプロトコルの含意を説明し、量子技術に対する準備の深化と、堅牢で効果的な量子エコシステムの開発を支援するためにも議論する。

The emergence of quantum technologies has led to groundbreaking advancements in computing, sensing, secure communications, and simulation of advanced materials with practical applications in every industry sector. The rapid advancement of the quantum technologies ecosystem has made it imperative to assess the maturity of these technologies and their imminent acceleration towards commercial viability. In this paper, we present the current status of quantum technologies and emphasise the need for a quantum-ready ecosystem. We formulate standard Quantum Technology Readiness Levels (QTRLs) using innovative models and tools to evaluate the readiness of specific quantum technology accurately. We also discuss relevant indicators concerning key stakeholders, including government, industry, and academia, and describe ethics and protocols implications, to deepen our understanding of the readiness for quantum technology and support the development of a robust and effective quantum ecosystem
翻訳日:2023-04-17 15:11:18 公開日:2023-04-13
# 局所的・大域的特徴の教師なし学習による映像アライメント

Video alignment using unsupervised learning of local and global features ( http://arxiv.org/abs/2304.06841v1 )

ライセンス: Link先を確認
Niloofar Fakhfour, Mohammad ShahverdiKondori, Hoda Mohammadzade(参考訳) 本稿では,ビデオアライメントの問題,類似したアクションを含む一対のビデオのフレームをマッチングするプロセスについて述べる。 ビデオアライメントの主な課題は、実行プロセスと2つのビデオ間の外観の違いにもかかわらず、正確な対応を確立することである。 本稿では,フレームのグローバルおよびローカルな特徴を用いたアライメントのための教師なし手法を提案する。 特に,人物検出,ポーズ推定,vggネットワークという3つのマシンビジョンツールを用いて,各映像フレームに有効な機能を導入する。 その後、これらの特徴を処理して合成し、ビデオを表す多次元時系列を構築する。 結果の時系列は、DDTW(Diagonalized Dynamic Time Warping)と呼ばれる動的時間ワープの新しいバージョンを使用して、同じアクションのビデオのアライメントに使用される。 このアプローチの主な利点は、トレーニングが不要であることです。これにより、トレーニングサンプルを収集する必要なしに、新たなタイプのアクションに適用することができます。 評価のために,Pennアクションデータセット上での映像同期と位相分類タスクを検討した。 また,ビデオ同期タスクを効果的に評価するために,Enclosed Area Error(EAE)と呼ばれる新しい指標を提案する。 以上の結果から,本手法はTCCなどの従来の最先端手法よりも優れていた。

In this paper, we tackle the problem of video alignment, the process of matching the frames of a pair of videos containing similar actions. The main challenge in video alignment is that accurate correspondence should be established despite the differences in the execution processes and appearances between the two videos. We introduce an unsupervised method for alignment that uses global and local features of the frames. In particular, we introduce effective features for each video frame by means of three machine vision tools: person detection, pose estimation, and VGG network. Then the features are processed and combined to construct a multidimensional time series that represent the video. The resulting time series are used to align videos of the same actions using a novel version of dynamic time warping named Diagonalized Dynamic Time Warping(DDTW). The main advantage of our approach is that no training is required, which makes it applicable for any new type of action without any need to collect training samples for it. For evaluation, we considered video synchronization and phase classification tasks on the Penn action dataset. Also, for an effective evaluation of the video synchronization task, we present a new metric called Enclosed Area Error(EAE). The results show that our method outperforms previous state-of-the-art methods, such as TCC and other self-supervised and supervised methods.
翻訳日:2023-04-17 15:11:03 公開日:2023-04-13
# マルチタスク深層ニューラルネットワークのための構造化プルーニング

Structured Pruning for Multi-Task Deep Neural Networks ( http://arxiv.org/abs/2304.06840v1 )

ライセンス: Link先を確認
Siddhant Garg, Lijun Zhang, Hui Guan(参考訳) マルチタスクディープニューラルネットワーク(DNN)モデルは、個々のシングルタスクDNNモデルよりも計算とストレージの利点があるが、モデル圧縮によってさらに最適化できる。 シングルタスクモデルで容易にスピードアップを実現する構造的プルーニング手法がすでに開発されているが、マルチタスクネットワークのプルーニングはまだ広く研究されていない。 本研究では,マルチタスクモデルにおける構造化プルーニングの有効性について検討する。 我々は、既存のシングルタスクフィルタプルーニング基準と、フィルタ重要度を推定するためのMTLベースのフィルタプルーニング基準を導入する。 両プルーニング手法を用いて反復的プルーニング戦略を用いてモデルを作成する。 注意深いハイパーパラメータチューニングでは、異なるプルーニング法から得られたアーキテクチャは、パラメータの数に類似したタスク間で性能に有意な差がないことが示される。 また,反復構造プルーニングは,高いプルーニングレベルではタスク全体のパフォーマンスが低下するので,優れたプルーニングモデルを実現するための最善の方法ではないことも示しています。 しかし、同じモデルがランダムに初期化され、再トレーニングされると、より良い結果が得られる。

Although multi-task deep neural network (DNN) models have computation and storage benefits over individual single-task DNN models, they can be further optimized via model compression. Numerous structured pruning methods are already developed that can readily achieve speedups in single-task models, but the pruning of multi-task networks has not yet been extensively studied. In this work, we investigate the effectiveness of structured pruning on multi-task models. We use an existing single-task filter pruning criterion and also introduce an MTL-based filter pruning criterion for estimating the filter importance scores. We prune the model using an iterative pruning strategy with both pruning methods. We show that, with careful hyper-parameter tuning, architectures obtained from different pruning methods do not have significant differences in their performances across tasks when the number of parameters is similar. We also show that iterative structure pruning may not be the best way to achieve a well-performing pruned model because, at extreme pruning levels, there is a high drop in performance across all tasks. But when the same models are randomly initialized and re-trained, they show better results.
翻訳日:2023-04-17 15:10:44 公開日:2023-04-13
# ディジタルサブキャリア多重システムにおける光チャネル非線形補償のためのニューラルネットワークアーキテクチャ

Neural Network Architectures for Optical Channel Nonlinear Compensation in Digital Subcarrier Multiplexing Systems ( http://arxiv.org/abs/2304.06836v1 )

ライセンス: Link先を確認
Ali Bakhshali, Hossein Najafi, Behnam Behinaein Hamgini, Zhuhong Zhang(参考訳) 本研究では,デジタルサブキャリア多重化(DSCM)光伝送システムにおけるサブキャリア内およびサブキャリア間非線形干渉のモデル化と補償に,様々なニューラルネットワーク(ANN)構造を用いることを提案する。 畳み込みニューラルネットワーク(CNN)や長寿命メモリ(LSTM)などの異なるANNコアを用いて非線形チャネル等化を行う。 我々は,DSCMシステムの繊維非線形歪みを,すべてのサブキャリアにまたがる完全連結ネットワークによって補償し始める。 その後のステップ、およびファイバー非線形性解析からの借用により、我々はより優れた性能・複雑さの利点を持つモジュラー構造への設計を徐々にアップグレードする。 DSCMシステムにおけるANN非線形等化器の設計に適切なマクロ構造を組み込むことは,次世代のコヒーレント光トランシーバの実用化に不可欠であることを示す。

In this work, we propose to use various artificial neural network (ANN) structures for modeling and compensation of intra- and inter-subcarrier fiber nonlinear interference in digital subcarrier multiplexing (DSCM) optical transmission systems. We perform nonlinear channel equalization by employing different ANN cores including convolutional neural networks (CNN) and long short-term memory (LSTM) layers. We start to compensate the fiber nonlinearity distortion in DSCM systems by a fully connected network across all subcarriers. In subsequent steps, and borrowing from fiber nonlinearity analysis, we gradually upgrade the designs towards modular structures with better performance-complexity advantages. Our study shows that putting proper macro structures in design of ANN nonlinear equalizers in DSCM systems can be crucial for practical solutions in future generations of coherent optical transceivers.
翻訳日:2023-04-17 15:10:28 公開日:2023-04-13
# Estimate-Then-Optimize Versus Integrated-Estimation-Optimization:確率的支配の観点から

Estimate-Then-Optimize Versus Integrated-Estimation-Optimization: A Stochastic Dominance Perspective ( http://arxiv.org/abs/2304.06833v1 )

ライセンス: Link先を確認
Adam N. Elmachtoub, Henry Lam, Haofeng Zhang, Yunfan Zhao(参考訳) データ駆動確率最適化では、最適化タスクに加えて、基盤となる分布のモデルパラメータをデータから推定する必要がある。 最近の文献では、最適な経験的客観的性能をもたらすモデルパラメータを選択することで、推定と最適化のプロセスの統合を示唆している。 Such an integrated approach can be readily shown to outperform simple ``estimate then optimize" when the model is misspecified. In this paper, we argue that when the model class is rich enough to cover the ground truth, the performance ordering between the two approaches is reversed for nonlinear problems in a strong sense. Simple ``estimate then optimize" outperforms the integrated approach in terms of stochastic dominance of the asymptotic optimality gap, i,e, the mean, all other moments, and the entire asymptotic distribution of the optimality gap is always better. アナロジーの結果は制約された設定とコンテキスト機能が利用可能になったときにも保持される。 また、我々の理論を支持する実験結果も提示する。

In data-driven stochastic optimization, model parameters of the underlying distribution need to be estimated from data in addition to the optimization task. Recent literature suggests the integration of the estimation and optimization processes, by selecting model parameters that lead to the best empirical objective performance. Such an integrated approach can be readily shown to outperform simple ``estimate then optimize" when the model is misspecified. In this paper, we argue that when the model class is rich enough to cover the ground truth, the performance ordering between the two approaches is reversed for nonlinear problems in a strong sense. Simple ``estimate then optimize" outperforms the integrated approach in terms of stochastic dominance of the asymptotic optimality gap, i,e, the mean, all other moments, and the entire asymptotic distribution of the optimality gap is always better. Analogous results also hold under constrained settings and when contextual features are available. We also provide experimental findings to support our theory.
翻訳日:2023-04-17 15:10:14 公開日:2023-04-13
# 単発学習のためのタスク適応型特徴変換

Task Adaptive Feature Transformation for One-Shot Learning ( http://arxiv.org/abs/2304.06832v1 )

ライセンス: Link先を確認
Imtiaz Masud Ziko, Freddy Lecue and Ismail Ben Ayed(参考訳) 単発タスクのための固定トレーニング済み機能の上に細調整された単純な非線形埋め込み適応層を導入し、低ショットレシエーションに対するトランスダクティブエントロピーベースの推論を大幅に改善する。 我々のノルム誘起変換は、タスク固有の方法で異なるクラスの表現をアンタングルする特徴空間の再パラメータ化として理解することができる。 関連する機能次元に注目しながら、ワンショット設定でオーバーフィットを引き起こす可能性のある非関連次元の影響を妨げている。 また,k-meansクラスタリングを用いたマイトショット推論の基本ケースでは,提案する特徴変換の解釈を行う。 さらに、K平均とエントロピー最小化の間の興味深い境界最適化リンクを与える。 これは、エントロピーの最小化という文脈で機能変換が有用である理由を強調します。 我々は,様々な単発ベンチマークに対して一貫した改善を示す包括的な実験を報告し,最新の最新手法を上回っている。

We introduce a simple non-linear embedding adaptation layer, which is fine-tuned on top of fixed pre-trained features for one-shot tasks, improving significantly transductive entropy-based inference for low-shot regimes. Our norm-induced transformation could be understood as a re-parametrization of the feature space to disentangle the representations of different classes in a task specific manner. It focuses on the relevant feature dimensions while hindering the effects of non-relevant dimensions that may cause overfitting in a one-shot setting. We also provide an interpretation of our proposed feature transformation in the basic case of few-shot inference with K-means clustering. Furthermore, we give an interesting bound-optimization link between K-means and entropy minimization. This emphasizes why our feature transformation is useful in the context of entropy minimization. We report comprehensive experiments, which show consistent improvements over a variety of one-shot benchmarks, outperforming recent state-of-the-art methods.
翻訳日:2023-04-17 15:10:01 公開日:2023-04-13
# DGNN-Booster:動的グラフニューラルネットワーク推論のための汎用FPGA加速器フレームワーク

DGNN-Booster: A Generic FPGA Accelerator Framework For Dynamic Graph Neural Network Inference ( http://arxiv.org/abs/2304.06831v1 )

ライセンス: Link先を確認
Hanqiu Chen and Cong Hao(参考訳) 動的グラフニューラルネットワーク(DGNN)は、複雑な相互接続グラフベースのシステムの進化を分析し予測する効果により、ますます人気が高まっている。 しかし、DGNNのハードウェア展開は依然として課題である。 まず、DGNNは時間的データ依存がハードウェアの並列性を低下させるため、ハードウェアリソースを十分に利用しない。 さらに、現時点では汎用的なDGNNハードウェアアクセラレータフレームワークが欠如しており、既存のGNNアクセラレータフレームワークはトポロジやノード機能を変更することで、動的グラフを処理する能力に制限がある。 上記の課題に対処するため,本稿では,高レベル合成(HLS)を用いたリアルタイムDGNN推論のための新しいFPGA(Field-Programmable Gate Array)アクセラレータフレームワークであるDGNN-Boosterを提案する。 これには、最も広く使用されているDGNNをサポートする、異なるデータフローを持つ2つのFPGAアクセラレータ設計が含まれている。 本稿では,ZCU102基板上に2つの代表的DGNNモデルを実装,評価し,エンド・ツー・エンドの性能を測定することで,設計の有効性を示す。 実験の結果,DGNN-BoosterはCPUベースライン(6226R)と比較して最大5.6倍,GPUベースライン(A6000)に比べて8.4倍,FPGAベースライン(2.1倍)の高速化を実現することができた。 さらに、dgnn-boosterはcpuとgpuのベースラインよりも100倍、1000倍以上のランタイムエネルギー効率を達成できる。 実装コードとオンボードの測定はhttps://github.com/sharc-lab/DGNN-Booster.comで公開されています。

Dynamic Graph Neural Networks (DGNNs) are becoming increasingly popular due to their effectiveness in analyzing and predicting the evolution of complex interconnected graph-based systems. However, hardware deployment of DGNNs still remains a challenge. First, DGNNs do not fully utilize hardware resources because temporal data dependencies cause low hardware parallelism. Additionally, there is currently a lack of generic DGNN hardware accelerator frameworks, and existing GNN accelerator frameworks have limited ability to handle dynamic graphs with changing topologies and node features. To address the aforementioned challenges, in this paper, we propose DGNN-Booster, which is a novel Field-Programmable Gate Array (FPGA) accelerator framework for real-time DGNN inference using High-Level Synthesis (HLS). It includes two different FPGA accelerator designs with different dataflows that can support the most widely used DGNNs. We showcase the effectiveness of our designs by implementing and evaluating two representative DGNN models on ZCU102 board and measuring the end-to-end performance. The experiment results demonstrate that DGNN-Booster can achieve a speedup of up to 5.6x compared to the CPU baseline (6226R), 8.4x compared to the GPU baseline (A6000) and 2.1x compared to the FPGA baseline without applying optimizations proposed in this paper. Moreover, DGNN-Booster can achieve over 100x and over 1000x runtime energy efficiency than the CPU and GPU baseline respectively. Our implementation code and on-board measurements are publicly available at https://github.com/sharc-lab/DGNN-Booster.
翻訳日:2023-04-17 15:09:46 公開日:2023-04-13
# 一般グラフと局所性グラフの対関係比較によるランク付け

Ranking from Pairwise Comparisons in General Graphs and Graphs with Locality ( http://arxiv.org/abs/2304.06821v1 )

ライセンス: Link先を確認
Yanxi Chen(参考訳) 本稿では,古典的Bradley-Terry-Luceモデル(BTL)のペア比較による順位付けの問題について,スコア推定に焦点をあてる。 一般グラフでは, 十分なサンプル数で最大確率推定 (mle) が, 実効的抵抗の観点で述べることのできる, cram\'er-rao 下界に適合する入射的推定誤差を達成することを示し, この解析の鍵となるのは, 統計的推定と事前条件付き勾配降下による反復最適化との相関性である。 また、局所性のあるグラフにも特に関心があり、近傍の項目のみをエッジで繋げることができる。この分析では、局所性が傷つくことのない条件、すなわち、グラフ内で遠く離れた項目のペアを比較することは、近傍の項目を比較するのと同じくらい簡単である。 我々はさらに,計算の利点を享受しながら,最もスパースなサンプルでも同様の保証を実現できる分割・探索アルゴリズムについて検討する。 この理論を検証し,提案アルゴリズムの有効性を検証した。

This technical report studies the problem of ranking from pairwise comparisons in the classical Bradley-Terry-Luce (BTL) model, with a focus on score estimation. For general graphs, we show that, with sufficiently many samples, maximum likelihood estimation (MLE) achieves an entrywise estimation error matching the Cram\'er-Rao lower bound, which can be stated in terms of effective resistances; the key to our analysis is a connection between statistical estimation and iterative optimization by preconditioned gradient descent. We are also particularly interested in graphs with locality, where only nearby items can be connected by edges; our analysis identifies conditions under which locality does not hurt, i.e. comparing the scores between a pair of items that are far apart in the graph is nearly as easy as comparing a pair of nearby items. We further explore divide-and-conquer algorithms that can provably achieve similar guarantees even in the regime with the sparsest samples, while enjoying certain computational advantages. Numerical results validate our theory and confirm the efficacy of the proposed algorithms.
翻訳日:2023-04-17 15:09:18 公開日:2023-04-13
# 最近の大規模事前学習モデルにおける社会的バイアスの評価

Evaluation of Social Biases in Recent Large Pre-Trained Models ( http://arxiv.org/abs/2304.06861v1 )

ライセンス: Link先を確認
Swapnil Sharma, Nikita Anand, Kranthi Kiran G.V., Alind Jain(参考訳) 大規模な事前訓練された言語モデルはコミュニティで広く使われている。 これらのモデルは、通常、インターネットのようなオープンソースからの非モデレーションおよび非フィルタリングデータに基づいて訓練される。 このため、オンラインのプラットフォームで見られる偏見は、社会の傾向を反映し、これらのモデルによって獲得され、学習される。 これらのモデルは何百万人もの人々に影響を及ぼすアプリケーションにデプロイされ、その固有のバイアスはターゲットとする社会グループに有害である。 本研究では,新しい事前学習モデルがリリースされ,バイアス低減の一般的な傾向について検討する。 最近の3つのモデル(ELECTRA、DeBERTa、DistilBERT)が選択され、StereoSetとCrowS-Pairsの2つのバイアスベンチマークに対して評価される。 これらは、関連するメトリクスを使用してBERTのベースラインと比較される。 進歩が進むにつれて、より速く、より軽量なモデルがリリースされるのかを探求する。彼らは、古いモデルと比べて社会的バイアスが減少するように、責任を持って開発されているのか? その結果,すべてのモデルが偏りを示すが,BERTと比較して概して改善されていることがわかった。

Large pre-trained language models are widely used in the community. These models are usually trained on unmoderated and unfiltered data from open sources like the Internet. Due to this, biases that we see in platforms online which are a reflection of those in society are in turn captured and learned by these models. These models are deployed in applications that affect millions of people and their inherent biases are harmful to the targeted social groups. In this work, we study the general trend in bias reduction as newer pre-trained models are released. Three recent models ( ELECTRA, DeBERTa, and DistilBERT) are chosen and evaluated against two bias benchmarks, StereoSet and CrowS-Pairs. They are compared to the baseline of BERT using the associated metrics. We explore whether as advancements are made and newer, faster, lighter models are released: are they being developed responsibly such that their inherent social biases have been reduced compared to their older counterparts? The results are compiled and we find that all the models under study do exhibit biases but have generally improved as compared to BERT.
翻訳日:2023-04-17 15:01:42 公開日:2023-04-13
# Vax-Culture:Twitterでワクチンの談話を学ぶためのデータセット

Vax-Culture: A Dataset for Studying Vaccine Discourse on Twitter ( http://arxiv.org/abs/2304.06858v1 )

ライセンス: Link先を確認
Mohammad Reza Zarei, Michael Christensen, Sarah Everts and Majid Komeili(参考訳) 新型コロナウイルス感染症(COVID-19)の感染拡大に伴い、ワクチン中毒は公衆衛生当局にとって大きな課題となっている。 このため、多くの研究者がワクチンキャンペーンの根本原因を特定し、ソーシャルメディアプラットフォーム上での抗ワクチンの誤情報の増加がこの問題の重要な要素であることを発見した。 われわれはTwitterを誤解を招くコンテンツ源として探求し、ワクチンの誤情報を広める動機となる文化的・政治的信念の重複を抽出した。 そのために、私たちはワクチン関連のツイートのデータセットを収集し、コミュニケーションとジャーナリズムのバックグラウンドを持つアノテータチームの助けを借りて注釈付けしました。 最終的には、これが反ワクチンの信念を持つ個人にリーチするための効果的な公衆衛生コミュニケーション戦略につながることを願っている。 さらに、この情報は、ワクチンの誤情報を自動検出し、悪影響に対処する機械学習モデルの開発に役立つ。 本稿では,ワクチン・ヘシタンシースタンス,ツイート中の誤情報の表示,各ツイートに対する批判とサポート,各ツイートのコミュニケーションメッセージなど,多種多様なアノテーションを伴って,6373個のワクチン関連ツイートからなる,新しいtwitter covid-19データセットであるvax-cultureを提案する。 さらに,4つの分類と1つのシーケンス生成タスクを含む5つの基本タスクを定義し,それらに対する最近のトランスフォーマーモデルの結果を報告する。 データセットとコードはhttps://github.com/mrzarei5/vax-cultureで公開されている。

Vaccine hesitancy continues to be a main challenge for public health officials during the COVID-19 pandemic. As this hesitancy undermines vaccine campaigns, many researchers have sought to identify its root causes, finding that the increasing volume of anti-vaccine misinformation on social media platforms is a key element of this problem. We explored Twitter as a source of misleading content with the goal of extracting overlapping cultural and political beliefs that motivate the spread of vaccine misinformation. To do this, we have collected a data set of vaccine-related Tweets and annotated them with the help of a team of annotators with a background in communications and journalism. Ultimately we hope this can lead to effective and targeted public health communication strategies for reaching individuals with anti-vaccine beliefs. Moreover, this information helps with developing Machine Learning models to automatically detect vaccine misinformation posts and combat their negative impacts. In this paper, we present Vax-Culture, a novel Twitter COVID-19 dataset consisting of 6373 vaccine-related tweets accompanied by an extensive set of human-provided annotations including vaccine-hesitancy stance, indication of any misinformation in tweets, the entities criticized and supported in each tweet and the communicated message of each tweet. Moreover, we define five baseline tasks including four classification and one sequence generation tasks, and report the results of a set of recent transformer-based models for them. The dataset and code are publicly available at https://github.com/mrzarei5/Vax-Culture.
翻訳日:2023-04-17 15:01:24 公開日:2023-04-13
# 低レベル・高レベル意味ラベルを用いたリモートセンシングのための標高データに基づく対比法

A contrastive method based on elevation data for remote sensing with scarce and high level semantic labels ( http://arxiv.org/abs/2304.06857v1 )

ライセンス: Link先を確認
Omar A. Casta\~no-Idarraga, Raul Ramos-Poll\'an, Freddie Kalaitzis(参考訳) 本研究は,地球観測のダウンストリームタスクに適用されるモデルを事前学習するための教師なし・教師なしのハイブリッド学習手法を提案する。 先行学習モデルとプレテキストタスクとの対比的アプローチを組み合わせることで,全世界で一般的に利用可能な空間的に粗い標高マップを予測できる。 背景にある直感は、多くのリモートセンシングタスクの高度と目標の間には概してある程度の相関関係があり、モデルが有用な表現を事前に学習できるということである。 コロンビア北東部のデータセットを用いて,多くの可能性のあるサブクラス(農地と他地のピクセルレベル分類)と,前者から派生したイメージバイナリ分類タスクを収集するラベルを用いたセグメンテーション下流タスクの性能を評価する。 どちらの場合も、39Kのラベル付き画像でモデルを事前訓練し、80のラベル付き画像でダウンストリームタスクを微調整し、2944のラベル付き画像でテストします。 提案手法である glcnet+elevation for segmentation と simclr+elevation for classification は精度とマクロ平均値 f1 の面では、上位のタスクでターゲットに関連付けられた追加情報を含むことによってパフォーマンスが向上するという考えを支持している。

This work proposes a hybrid unsupervised/supervised learning method to pretrain models applied in earth observation downstream tasks where only a handful of labels denoting very general semantic concepts are available. We combine a contrastive approach to pretrain models with a pretext task to predict spatially coarse elevation maps which are commonly available worldwide. The intuition behind is that there is generally some correlation between the elevation and targets in many remote sensing tasks, allowing the model to pre-learn useful representations. We assess the performance of our approach on a segmentation downstream task on labels gathering many possible subclasses (pixel level classification of farmlands vs. other) and an image binary classification task derived from the former, on a dataset on the north-east of Colombia. On both cases we pretrain our models with 39K unlabeled images, fine tune the downstream task only with 80 labeled images and test it with 2944 labeled images. Our experiments show that our methods, GLCNet+Elevation for segmentation and SimCLR+Elevation for classification, outperform their counterparts without the elevation pretext task in terms of accuracy and macro-average F1, which supports the notion that including additional information correlated to targets in downstream tasks can lead to improved performance.
翻訳日:2023-04-17 15:00:58 公開日:2023-04-13
# CAR-DESPOT:共生環境におけるロボットのための因果形オンラインPOMDP計画

CAR-DESPOT: Causally-Informed Online POMDP Planning for Robots in Confounded Environments ( http://arxiv.org/abs/2304.06848v1 )

ライセンス: Link先を確認
Ricardo Cannizzaro, Lars Kunze(参考訳) 現実の環境で動くロボットは、確率的な行動の結果を推論し、真の世界状態の部分的な観察に基づく決定をしなければならない。 正確でロバストな行動予測を行う上での大きな課題は、統合の問題であり、もし未処理のままにしておくと予測エラーにつながる可能性がある。 部分的に観測可能なマルコフ決定プロセス(POMDP)は、これらの確率的かつ部分的に観測可能な意思決定問題をモデル化するための広く使われているフレームワークである。 しかしながら、明示的な因果意味論の欠如により、pomdpの計画手法はバイアスを和らげる傾向にあり、従って、観察されていない共同創設者の存在下では、低パフォーマンスなポリシーを生み出す可能性がある。 本稿では,現代オンラインPOMDPプランナであるAR-DESPOTの因果的インフォームド拡張について,因果的モデリングと推論を用いて,不測の共起変数によるエラーを除去する手法を提案する。 さらに,提案手法は,基礎的真理モデルデータから因果モデルの部分パラメータ化をオフラインで学習する手法を提案する。 我々は,未観測の共同創設者による玩具問題に対する手法の評価を行い,学習した因果モデルが非常に正確であることを示し,また,提案手法はAR-DESPOTよりも総合的に高い性能の政策を立案し,より堅牢であることを示す。

Robots operating in real-world environments must reason about possible outcomes of stochastic actions and make decisions based on partial observations of the true world state. A major challenge for making accurate and robust action predictions is the problem of confounding, which if left untreated can lead to prediction errors. The partially observable Markov decision process (POMDP) is a widely-used framework to model these stochastic and partially-observable decision-making problems. However, due to a lack of explicit causal semantics, POMDP planning methods are prone to confounding bias and thus in the presence of unobserved confounders may produce underperforming policies. This paper presents a novel causally-informed extension of "anytime regularized determinized sparse partially observable tree" (AR-DESPOT), a modern anytime online POMDP planner, using causal modelling and inference to eliminate errors caused by unmeasured confounder variables. We further propose a method to learn offline the partial parameterisation of the causal model for planning, from ground truth model data. We evaluate our methods on a toy problem with an unobserved confounder and show that the learned causal model is highly accurate, while our planning method is more robust to confounding and produces overall higher performing policies than AR-DESPOT.
翻訳日:2023-04-17 15:00:33 公開日:2023-04-13
# Dynamic Mobile-Former:カーネル空間における注意と残留接続による動的畳み込みの強化

Dynamic Mobile-Former: Strengthening Dynamic Convolution with Attention and Residual Connection in Kernel Space ( http://arxiv.org/abs/2304.07254v1 )

ライセンス: Link先を確認
Seokju Yun, Youngmin Ro(参考訳) We introduce Dynamic Mobile-Former(DMF), maximizes the capabilities of dynamic convolution by harmonizing it with efficient operators.Our Dynamic MobileFormer effectively utilizes the advantages of Dynamic MobileNet (MobileNet equipped with dynamic convolution) using global information from light-weight attention.A Transformer in Dynamic Mobile-Former only requires a few randomly initialized tokens to calculate global features, making it computationally efficient.And a bridge between Dynamic MobileNet and Transformer allows for bidirectional integration of local and global features.We also simplify the optimization process of vanilla dynamic convolution by splitting the convolution kernel into an input-agnostic kernel and an input-dependent kernel.This allows for optimization in a wider kernel space, resulting in enhanced capacity.By integrating lightweight attention and enhanced dynamic convolution, our Dynamic Mobile-Former achieves not only high efficiency, but also strong performance.We benchmark the Dynamic Mobile-Former on a series of vision tasks, and showcase that it achieves impressive performance on image classification, COCO detection, and instanace segmentation.For example, our DMF hits the top-1 accuracy of 79.4% on ImageNet-1K, much higher than PVT-Tiny by 4.3% with only 1/4 FLOPs.Additionally,our proposed DMF-S model performed well on challenging vision datasets such as COCO, achieving a 39.0% mAP,which is 1% higher than that of the Mobile-Former 508M model, despite using 3 GFLOPs less computations.Code and models are available at https://github.com/ysj9909/DMF

We introduce Dynamic Mobile-Former(DMF), maximizes the capabilities of dynamic convolution by harmonizing it with efficient operators.Our Dynamic MobileFormer effectively utilizes the advantages of Dynamic MobileNet (MobileNet equipped with dynamic convolution) using global information from light-weight attention.A Transformer in Dynamic Mobile-Former only requires a few randomly initialized tokens to calculate global features, making it computationally efficient.And a bridge between Dynamic MobileNet and Transformer allows for bidirectional integration of local and global features.We also simplify the optimization process of vanilla dynamic convolution by splitting the convolution kernel into an input-agnostic kernel and an input-dependent kernel.This allows for optimization in a wider kernel space, resulting in enhanced capacity.By integrating lightweight attention and enhanced dynamic convolution, our Dynamic Mobile-Former achieves not only high efficiency, but also strong performance.We benchmark the Dynamic Mobile-Former on a series of vision tasks, and showcase that it achieves impressive performance on image classification, COCO detection, and instanace segmentation.For example, our DMF hits the top-1 accuracy of 79.4% on ImageNet-1K, much higher than PVT-Tiny by 4.3% with only 1/4 FLOPs.Additionally,our proposed DMF-S model performed well on challenging vision datasets such as COCO, achieving a 39.0% mAP,which is 1% higher than that of the Mobile-Former 508M model, despite using 3 GFLOPs less computations.Code and models are available at https://github.com/ysj9909/DMF
翻訳日:2023-04-17 13:01:26 公開日:2023-04-13
# 人工知能の火花:GPT-4による初期の実験

Sparks of Artificial General Intelligence: Early experiments with GPT-4 ( http://arxiv.org/abs/2303.12712v5 )

ライセンス: Link先を確認
S\'ebastien Bubeck, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric Horvitz, Ece Kamar, Peter Lee, Yin Tat Lee, Yuanzhi Li, Scott Lundberg, Harsha Nori, Hamid Palangi, Marco Tulio Ribeiro, Yi Zhang(参考訳) 人工知能(AI)の研究者たちは、さまざまなドメインやタスクにまたがる優れた能力を示す大規模な言語モデル(LLM)を開発し、洗練し、学習と認知の理解に挑戦しています。 OpenAIが開発した最新のモデルであるGPT-4は、前例のない規模の計算とデータを使って訓練された。 本稿では,openaiによる開発が盛んであったgpt-4の初期バージョンについて報告する。 GPT-4は(例えばChatGPTやGoogleのPaLMとともに)従来のAIモデルよりも汎用的なインテリジェンスを示すLLMの新たなコホートの一部である、と私たちは主張する。 我々は、これらのモデルの能力と影響について論じる。 GPT-4は、言語習得以外にも、数学、コーディング、ビジョン、医学、法、心理学など、特別なプロンプトを必要とせずに、新しくて困難なタスクを解くことができる。 さらに、これらすべてのタスクにおいて、GPT-4のパフォーマンスは人間レベルのパフォーマンスに非常に近く、しばしばChatGPTのような以前のモデルを大きく上回っている。 GPT-4の能力の広さと深さを考えると、人工知能(AGI)システムの早期(まだ未完成)バージョンと見なすことができると信じている。 我々は, GPT-4の探索において, 限界の発見に特に重点を置いており, 次世代の予測を超えて新たなパラダイムを追求する必要性を含む, より深く包括的なAGIバージョンに向けて進む上での課題について論じている。 我々は,最近の技術的飛躍と今後の研究方向の社会的な影響を振り返って結論づける。

Artificial intelligence (AI) researchers have been developing and refining large language models (LLMs) that exhibit remarkable capabilities across a variety of domains and tasks, challenging our understanding of learning and cognition. The latest model developed by OpenAI, GPT-4, was trained using an unprecedented scale of compute and data. In this paper, we report on our investigation of an early version of GPT-4, when it was still in active development by OpenAI. We contend that (this early version of) GPT-4 is part of a new cohort of LLMs (along with ChatGPT and Google's PaLM for example) that exhibit more general intelligence than previous AI models. We discuss the rising capabilities and implications of these models. We demonstrate that, beyond its mastery of language, GPT-4 can solve novel and difficult tasks that span mathematics, coding, vision, medicine, law, psychology and more, without needing any special prompting. Moreover, in all of these tasks, GPT-4's performance is strikingly close to human-level performance, and often vastly surpasses prior models such as ChatGPT. Given the breadth and depth of GPT-4's capabilities, we believe that it could reasonably be viewed as an early (yet still incomplete) version of an artificial general intelligence (AGI) system. In our exploration of GPT-4, we put special emphasis on discovering its limitations, and we discuss the challenges ahead for advancing towards deeper and more comprehensive versions of AGI, including the possible need for pursuing a new paradigm that moves beyond next-word prediction. We conclude with reflections on societal influences of the recent technological leap and future research directions.
翻訳日:2023-04-17 10:40:06 公開日:2023-04-13
# NISQ量子コンピュータにおける波動関数位相のロバスト測定

Robust measurement of wave function topology on NISQ quantum computers ( http://arxiv.org/abs/2101.07283v5 )

ライセンス: Link先を確認
Xiao Xiao, J. K. Freericks and A. F. Kemper(参考訳) 量子材料のトポロジカル量子相は、そのトポロジカル不変量によって定義される。 これらの位相不変量は、量子波動関数の大域的幾何学的性質を特徴づける量であり、したがって局所雑音に免疫する。 ここでは、量子コンピュータ上の位相不変量を測定するための戦略を示す。 我々の戦略は変分量子固有解器(VQE)と容易に統合でき、現在の量子ハードウェア上での汎用量子多体状態の位相特性を特徴付けることができる。 非相互作用モデルと相互作用モデルの両方のトポロジ的不変量を測定し、量子シミュレータとIBM量子ハードウェア上で相互作用する量子位相図をマップアウトすることで、この手法の堅牢性を示す。

Topological quantum phases of quantum materials are defined through their topological invariants. These topological invariants are quantities that characterize the global geometrical properties of the quantum wave functions and thus are immune to local noise. Here, we present a strategy to measure topological invariants on quantum computers. We show that our strategy can be easily integrated with the variational quantum eigensolver (VQE) so that the topological properties of generic quantum many-body states can be characterized on current quantum hardware. We demonstrate the robust nature of the method by measuring topological invariants for both non-interacting and interacting models, and map out interacting quantum phase diagrams on quantum simulators and IBM quantum hardware.
翻訳日:2023-04-14 21:11:21 公開日:2023-04-13
# ボソンサンプリング実験のための再構成可能な連続結合型3dフォトニック回路

Reconfigurable continuously-coupled 3D photonic circuit for Boson Sampling experiments ( http://arxiv.org/abs/2106.08260v2 )

ライセンス: Link先を確認
Francesco Hoch, Simone Piacentini, Taira Giordani, Zhen-Nan Tian, Mariagrazia Iuliano, Chiara Esposito, Anita Camillini, Gonzalo Carvacho, Francesco Ceccarelli, Nicol\`o Spagnolo, Andrea Crespi, Fabio Sciarrino and Roberto Osellame(参考訳) ボソンサンプリング(英: Boson Sampling)は、量子優位の状況を示す最も実用的で追求された手法の1つである計算パラダイムである。 近年の研究では、単一光子生成と検出における技術的飛躍が示され、様々なフォトニックシステムにおけるボーソンサンプリング実験の段階的に大きな実験例が導かれている。 しかし、この問題を解決するための完全なプラットフォームにとって重要な要件は、低損失、高い再構成可能性、任意の変換の実現を同時に行わなければならない大規模な干渉計を実装する能力である。 本研究では,フォトニックボソンサンプリングのためのコンパクトで再構成可能な3d統合プラットフォームの採用を実証し,この方向への一歩を踏み出した。 このようなプラットフォームを用いて3光および4光子実験を行い、多数のユニタリ変換を実装するための回路プログラミングの可能性を示す。 これらの結果から、このようなコンパクトで高構成可能なレイアウトは、より多くの光子やモードを持つ実験にスケールアップでき、フォトニックプロセッサを用いたハイブリッドコンピューティングの方向性を提供することができる。

Boson Sampling is a computational paradigm representing one of the most viable and pursued approaches to demonstrate the regime of quantum advantage. Recent results have demonstrated significant technological leaps in single-photon generation and detection, leading to progressively larger experimental instances of Boson Sampling experiments in different photonic systems. However, a crucial requirement for a fully-fledged platform solving this problem is the capability of implementing large-scale interferometers, that must simultaneously exhibit low losses, high degree of reconfigurability and the realization of arbitrary transformations. In this work, we move a step forward in this direction by demonstrating the adoption of a compact and reconfigurable 3D-integrated platform for photonic Boson Sampling. We perform 3- and 4-photon experiments by using such platform, showing the possibility of programming the circuit to implement a large number of unitary transformations. These results show that such compact and highly-reconfigurable layout can be scaled up to experiments with larger number of photons and modes, and can provide a viable direction for hybrid computing with photonic processors.
翻訳日:2023-04-14 21:03:58 公開日:2023-04-13
# regret-optimal lqr制御

Regret-Optimal LQR Control ( http://arxiv.org/abs/2105.01244v2 )

ライセンス: Link先を確認
Oron Sabag and Gautam Goel and Sahin Lale and Babak Hassibi(参考訳) 無限ホリゾンのlqr制御問題を考える。 オンライン学習における競争分析に動機づけられて,制御設計の基準として,因果コントローラのlqrコスト(過去の障害にのみアクセス可能)と,他のすべてのコントローラを支配下に置くことで知られる \emph{unique} clairvoyant のlqrコスト(将来の障害にもアクセス可能)との差として定義される動的後悔を紹介する。 後悔そのものは障害の関数であり,全てのエネルギー障害に対する最悪の後悔を最小限に抑える因果制御器を提案する。 結果として生じるコントローラは、未来を見ることができる最高の非因果的コントローラと比較して最小の後悔を保証するという解釈を持つ。 我々は、最適後悔と状態空間設定に対する後悔最適制御のために明確な公式を導出する。 これらの明示解は、後悔-最適制御問題は明示的に解くことができるnehari拡張問題に還元できることを示すことによって得られる。 後悔最適制御器は線型であることが示され、古典的な$H_2$状態フィードバック法則と$n$-次制御器(n$は状態次元)の和として表すことができ、その構成は単に標準的な LQR Riccati 方程式と 2つのリアプノフ方程式の解を必要とする。 プラントのシミュレーションでは、後悔最適コントローラが$H_2$と$H_\infty$の最適コントローラをうまく補間し、一般的には$H_2$と$H_\infty$のコストがそれらの最適値に同時に近いことを示す。 従って、後悔のオプションコントローラは、自身を制御システム設計の実行可能な選択肢として提示する。

We consider the infinite-horizon LQR control problem. Motivated by competitive analysis in online learning, as a criterion for controller design we introduce the dynamic regret, defined as the difference between the LQR cost of a causal controller (that has only access to past disturbances) and the LQR cost of the \emph{unique} clairvoyant one (that has also access to future disturbances) that is known to dominate all other controllers. The regret itself is a function of the disturbances, and we propose to find a causal controller that minimizes the worst-case regret over all bounded energy disturbances. The resulting controller has the interpretation of guaranteeing the smallest regret compared to the best non-causal controller that can see the future. We derive explicit formulas for the optimal regret and for the regret-optimal controller for the state-space setting. These explicit solutions are obtained by showing that the regret-optimal control problem can be reduced to a Nehari extension problem that can be solved explicitly. The regret-optimal controller is shown to be linear and can be expressed as the sum of the classical $H_2$ state-feedback law and an $n$-th order controller ($n$ is the state dimension), and its construction simply requires a solution to the standard LQR Riccati equation and two Lyapunov equations. Simulations over a range of plants demonstrate that the regret-optimal controller interpolates nicely between the $H_2$ and the $H_\infty$ optimal controllers, and generally has $H_2$ and $H_\infty$ costs that are simultaneously close to their optimal values. The regret-optimal controller thus presents itself as a viable option for control systems design.
翻訳日:2023-04-14 21:03:41 公開日:2023-04-13
# 模倣学習の分割と克服

Divide & Conquer Imitation Learning ( http://arxiv.org/abs/2204.07404v2 )

ライセンス: Link先を確認
Alexandre Chenu, Nicolas Perrin-Gilbert and Olivier Sigaud(参考訳) 深層強化学習フレームワークに投入すると、多くのロボット工学タスクは、学習アルゴリズムが苦労する長い地平線とまばらな報酬問題を解決する必要がある。 このような文脈では、模倣学習(il)は学習プロセスをブートストラップする強力なアプローチになり得る。 しかし、ほとんどのilメソッドはいくつかの専門家によるデモンストレーションを必要とするため、入手は極めて困難である。 1つの専門家のデモンストレーションが利用可能な極めて低い専門家データ体制の文脈で効率を示すのは、少数のILアルゴリズムのみである。 本稿では,専門家軌道の状態から複雑なロボットタスクを模倣する新しいアルゴリズムを提案する。 逐次帰納的バイアスに基づいて,複雑なタスクをより小さなスキルに分割する。 スキルは、個々のスキルを個別に解決し、タスク全体をチェーンして解決できる目標条件のポリシーに学習される。 本手法は,非ホロノミックナビゲーションタスクを模倣し,非常に高いサンプル効率で複雑なシミュレーションロボット操作タスクにスケールすることを示す。

When cast into the Deep Reinforcement Learning framework, many robotics tasks require solving a long horizon and sparse reward problem, where learning algorithms struggle. In such context, Imitation Learning (IL) can be a powerful approach to bootstrap the learning process. However, most IL methods require several expert demonstrations which can be prohibitively difficult to acquire. Only a handful of IL algorithms have shown efficiency in the context of an extreme low expert data regime where a single expert demonstration is available. In this paper, we present a novel algorithm designed to imitate complex robotic tasks from the states of an expert trajectory. Based on a sequential inductive bias, our method divides the complex task into smaller skills. The skills are learned into a goal-conditioned policy that is able to solve each skill individually and chain skills to solve the entire task. We show that our method imitates a non-holonomic navigation task and scales to a complex simulated robotic manipulation task with very high sample efficiency.
翻訳日:2023-04-14 20:53:55 公開日:2023-04-13
# フォールトトレラントトポロジカル量子計算のための論理ブロック

Logical blocks for fault-tolerant topological quantum computation ( http://arxiv.org/abs/2112.12160v2 )

ライセンス: Link先を確認
Hector Bombin, Chris Dawson, Ryan V. Mishmash, Naomi Nickerson, Fernando Pastawski, Sam Roberts(参考訳) 論理ゲートはフォールトトレラント量子計算の構成要素を構成する。 量子誤り訂正メモリは文献で広く研究されているが、普遍論理ゲート集合のしきい値とリソースオーバーヘッドの明確な構成と詳細な分析は、これまで限られてきた。 本稿では,プラットフォームに依存しない論理ゲート定義,フレキシブルでスケーラブルな数値解析ツール,リソースオーバーヘッドを改善するユニバーサルロジックの新しいスキームの探索など,汎用的なフォールトトレラント論理のための包括的なフレームワークを提案する。 我々の枠組みの中心は、同様の足場における空間と時間を扱う方法で論理ゲートを記述することである。 表面符号に基づくスキームに着目し,論理ブロックと呼ばれるトポロジカル論理ゲートの明示的かつプラットフォームに依存しない表現を導入し,汎用量子計算のための新しいオーバーヘッド効率の高い手法を生成する。 具体例として、より一般的な低密度パリティチェック(LDPC)コードと結合した表面符号に基づく耐故障性スキームを提案する。 論理ブロックフレームワークは、論理ゲートの抽象的な記述から、回路ベースおよび融合ベース量子計算(FBQC)の正確な物理命令セットへの便利なマッピングを可能にする。 これを用いて,fbqcで実装した表層コードに基づくユニバーサルゲートセットを数値シミュレーションし,そのしきい値がバルクメモリ閾値と一致していることを検証する。 境界、欠陥、ねじれは論理的エラー率のスケーリングに大きな影響を与え、周期的な境界条件はリソースの要求を半減させる可能性がある。 境界のない計算に好適な論理誤差率に動機づけられ,さらなる資源削減を提供するツイストのテレポーテーションに基づく新しい計算スキームを導入する。

Logical gates constitute the building blocks of fault-tolerant quantum computation. While quantum error-corrected memories have been extensively studied in the literature, explicit constructions and detailed analyses of thresholds and resource overheads of universal logical gate sets have so far been limited. In this paper, we present a comprehensive framework for universal fault-tolerant logic motivated by the combined need for platform-independent logical gate definitions, flexible and scalable tools for numerical analysis, and exploration of novel schemes for universal logic that improve resource overheads. Central to our framework is the description of logical gates holistically in a way which treats space and time on a similar footing. Focusing on schemes based on surface codes, we introduce explicit, but platform-independent representations of topological logic gates -- called logical blocks -- and generate new, overhead-efficient methods for universal quantum computation. As a specific example, we propose fault-tolerant schemes based on surface codes concatenated with more general low-density parity check (LDPC) codes. The logical blocks framework enables a convenient mapping from an abstract description of the logical gate to a precise set of physical instructions for both circuit-based and fusion-based quantum computation (FBQC). Using this, we numerically simulate a surface-code-based universal gate set implemented with FBQC, and verify that their thresholds are consistent with the bulk memory threshold. We find that boundaries, defects, and twists can significantly impact the logical error rate scaling, with periodic boundary conditions potentially halving the resource requirements. Motivated by the favorable logical error rates for boundaryless computation, we introduce a novel computational scheme based on the teleportation of twists that may offer further resource reductions.
翻訳日:2023-04-14 20:52:25 公開日:2023-04-13
# ランダム時間量子測定

Random-time quantum measurements ( http://arxiv.org/abs/2109.05862v4 )

ライセンス: Link先を確認
Markus Sifft, Daniel H\"agele(参考訳) 連続測定レコード $z(t)$ の解析は、量子測定理論における根本的な挑戦である。 例えば、記録は主としてガウスノイズ、電信ノイズ、あるいはランダムな時間にクリックできるため、過去には異なるアプローチが用いられてきた。 最後のケースは、非常に低いプローブレーザーパワーでの光スピンノイズ測定における光子クリックとして現れる。 ここでは、そのようなランダム時間量子測定は、検出器出力$z(t)$の高次時間相関の観点から、最初の2つのケースと同様に分析でき、測定された量子系のリウビリアンと関連することを示す。 最大4次スペクトル (quantum polyspectra) を用いて分析したところ、この新しいタイプのスペクトルは、通常の連続量子計測の場合、従来研究されていた高次スペクトルと同じ貴重な情報を示す。 驚くべきことに、故意に平均測定レートが低い場合でも、広帯域システムのダイナミクスが明らかにされる。 多くの応用が高分解能分光法、単一光子顕微鏡、回路量子力学、量子センシング、一般の量子測定で想定されている。

The analysis of a continuous measurement record $z(t)$ poses a fundamental challenge in quantum measurement theory. Different approaches have been used in the past as records can, e.g., exhibit predominantly Gaussian noise, telegraph noise, or clicks at random times. The last case may appear as photon clicks in an optical spin noise measurement at very low probe laser power. Here we show that such random-time quantum measurements can similarly to the first two cases be analyzed in terms of higher-order temporal correlations of the detector output $z(t)$ and be related to the Liouvillian of the measured quantum system. Our analysis in terms of up to fourth-order spectra (quantum polyspectra) shows that this new type of spectra reveals the same valuable information as previously studied higher-order spectra in case of usual continuous quantum measurements. Surprisingly, broad-band system dynamics is revealed even for deliberately low average measurement rates. Many applications are envisioned in high-resolution spectroscopy, single-photon microscopy, circuit quantum electrodynamics, quantum sensing, and quantum measurements in general.
翻訳日:2023-04-14 20:50:55 公開日:2023-04-13
# 高次分解による影響最大化の理解

Understanding Influence Maximization via Higher-Order Decomposition ( http://arxiv.org/abs/2207.07833v4 )

ライセンス: Link先を確認
Zonghan Zhang and Zhiqian Chen(参考訳) オンラインソーシャルネットワークへの大きな応用を考えると、インフルエンス・最大化(IM)はここ数十年でかなりの注目を集めている。 IMの複雑さのため、現在のほとんどの研究は、異なる種子間の高次相互作用を無視して、シードセットを選択するノードの1次寄与を推定することに集中している。 その結果、実際の影響は期待からしばしば逸脱し、種子セットがこのずれにどのように定量的に寄与するかは不明である。 この不足に対処するために、本研究は分散に基づく感度解析であるsobol indexを利用した個々の種子およびそれらの高次相互作用に対する影響を解析する。 IMコンテキストに適応するために、シード選択はバイナリ変数として表現され、さまざまな順序の分布に分割される。 様々なSobol指標を用いて解析した結果,SIMと呼ばれるIMアルゴリズムが提案され,過剰選択ノードと戦略的プルーニングによる現行のIMアルゴリズムの性能向上が図られた。 本研究は, 衝撃効果の説明が, 種子間の重要な高次相互作用を適切に識別できることを実証するものである。 SIMは、人工グラフと実世界のグラフの実験により、有効性と競争性に優れていることが実証的に証明されている。

Given its vast application on online social networks, Influence Maximization (IM) has garnered considerable attention over the last couple of decades. Due to the intricacy of IM, most current research concentrates on estimating the first-order contribution of the nodes to select a seed set, disregarding the higher-order interplay between different seeds. Consequently, the actual influence spread frequently deviates from expectations, and it remains unclear how the seed set quantitatively contributes to this deviation. To address this deficiency, this work dissects the influence exerted on individual seeds and their higher-order interactions utilizing the Sobol index, a variance-based sensitivity analysis. To adapt to IM contexts, seed selection is phrased as binary variables and split into distributions of varying orders. Based on our analysis with various Sobol indices, an IM algorithm dubbed SIM is proposed to improve the performance of current IM algorithms by over-selecting nodes followed by strategic pruning. A case study is carried out to demonstrate that the explanation of the impact effect can dependably identify the key higher-order interactions among seeds. SIM is empirically proved to be superior in effectiveness and competitive in efficiency by experiments on synthetic and real-world graphs.
翻訳日:2023-04-14 20:44:34 公開日:2023-04-13
# 地上および宇宙ベースの量子ネットワークのためのゼロアドデンドロスアンタングル光子多重化

Zero-Added-Loss Entangled Photon Multiplexing for Ground- and Space-Based Quantum Networks ( http://arxiv.org/abs/2206.03670v3 )

ライセンス: Link先を確認
Kevin C. Chen, Prajit Dhara, Mikkel Heuck, Yuan Lee, Wenhan Dai, Saikat Guha, Dirk Englund(参考訳) 準決定論的光子対源に基づく量子ネットワークにおける光絡み分布の計算法を提案する。 階層化されたフォトニックベル対生成とスペクトルモード変換を量子メモリと組み合わせることで、多重化によるスイッチング損失を解消する。 我々は、このZALM(Zero-added-loss multiplexing) Bellペアソースを分析し、衛星と地上記憶による長いベースラインの絡み合い分布の特に困難な問題について分析し、さらなる利点を開拓する。 (i)$\eta$ of \textit{downlinks} vs. 現実的な適応光学系を持つ \\textit{uplinks} と (ii) 量子メモリとの相互作用が発生する光子損失(つまり、伝送ではなくアリスとボブの受信)は、$\mathcal{O}(\sqrt{\eta})$ による絡み合い生成率のスケーリングを改善する。 数値解析により、スピンスピンベル状態の忠実度が99$0%以上である地上距離で10^2$ spin qubitsのメモリ多重化で10$〜$ebits/sを達成するように提案プロトコルを推定した。 我々のアーキテクチャは、近い将来、グローバルスケールの量子ネットワークを実現するための青写真を提供する。

We propose a scheme for optical entanglement distribution in quantum networks based on a quasi-deterministic entangled photon pair source. By combining heralded photonic Bell pair generation with spectral mode conversion to interface with quantum memories, the scheme eliminates switching losses due to multiplexing. We analyze this `zero-added-loss multiplexing' (ZALM) Bell pair source for the particularly challenging problem of long-baseline entanglement distribution via satellites and ground-based memories, where it unlocks additional advantages: (i) the substantially higher channel efficiency $\eta$ of \textit{downlinks} vs.\ \textit{uplinks} with realistic adaptive optics, and (ii) photon loss occurring \textit{before} interaction with the quantum memory -- i.e., Alice and Bob receiving rather than transmitting -- improve entanglement generation rate scaling by $\mathcal{O}(\sqrt{\eta})$. Based on numerical analyses, we estimate our protocol to achieve $>$10$~$ebits/s at memory multiplexing of $10^2$ spin qubits for ground distance $>$10$^2~$km, with the spin-spin Bell state fidelity exceeding 99$\%$. Our architecture presents a blueprint for realizing global-scale quantum networks in the near-term.
翻訳日:2023-04-14 20:42:58 公開日:2023-04-13
# 量子ニューラルネットワークにおけるエンタングルメントエントロピー生成

Entanglement entropy production in Quantum Neural Networks ( http://arxiv.org/abs/2206.02474v2 )

ライセンス: Link先を確認
Marco Ballarin, Stefano Mangini, Simone Montangero, Chiara Macchiavello and Riccardo Mengoni(参考訳) 量子ニューラルネットワーク(QNN)は、ノイズ中間スケール量子コンピュータ(NISQ)時代において量子優位性を達成するための候補と考えられている。 いくつかのQNNアーキテクチャが提案され、機械学習のベンチマークデータセットで成功した。 しかし、QNN生成エンタングルメントの定量的研究は、最大数量子ビットでしか研究されていない。 テンソルネットワーク法では、様々なシナリオで多数の量子ビットを持つ量子回路をエミュレートすることができる。 本稿では,最近研究されているQNNアーキテクチャを,最大50キュービットのランダムパラメータで特徴付けるために,行列積状態を用いて,量子ビット間の絡み合いのエントロピーで測定されたその絡み合いが,QNNの深さが増加するにつれて,Haar分散ランダム状態の傾向を示す。 我々は、回路の表現可能性を測定するとともに、ランダム行列理論のツールを用いて、量子状態のランダム性を検証する。 我々は,任意のQNNアーキテクチャにおいて絡み合いが生成される速度に対する普遍的挙動を示し,その結果として,絡み合いの速度という,QNNにおける絡み合いの生成を特徴付けるための新しい尺度を導入する。 本研究は,量子ニューラルネットワークの絡み合い特性を特徴とし,これら近似ランダムユニタリの速度の新たな証拠を提供する。

Quantum Neural Networks (QNN) are considered a candidate for achieving quantum advantage in the Noisy Intermediate Scale Quantum computer (NISQ) era. Several QNN architectures have been proposed and successfully tested on benchmark datasets for machine learning. However, quantitative studies of the QNN-generated entanglement have been investigated only for up to few qubits. Tensor network methods allow to emulate quantum circuits with a large number of qubits in a wide variety of scenarios. Here, we employ matrix product states to characterize recently studied QNN architectures with random parameters up to fifty qubits showing that their entanglement, measured in terms of entanglement entropy between qubits, tends to that of Haar distributed random states as the depth of the QNN is increased. We certify the randomness of the quantum states also by measuring the expressibility of the circuits, as well as using tools from random matrix theory. We show a universal behavior for the rate at which entanglement is created in any given QNN architecture, and consequently introduce a new measure to characterize the entanglement production in QNNs: the entangling speed. Our results characterise the entanglement properties of quantum neural networks, and provides new evidence of the rate at which these approximate random unitaries.
翻訳日:2023-04-14 20:42:31 公開日:2023-04-13
# ソフト量子層における境界状態

Bound states in soft quantum layers ( http://arxiv.org/abs/2205.04919v2 )

ライセンス: Link先を確認
David Krejcirik and Jan Kriz(参考訳) 我々は三次元シュレーディンガー作用素を表面からの距離に応じて収束ポテンシャルで研究する一般手法を開発する。 主な考え方は、表面に基づいて平行座標を適用することであり、ユークリッド空間のカット軌跡の外にある。 曲面が適当な意味で漸近的に平面であれば、シュレーディンガー作用素の本質スペクトルの位置を推定する。 さらに、曲面が厳密に正のトータルガウス曲率を持つ回転曲面を持つコンパクト部分集合に一致する場合、シュレーディンガー作用素が無限個の離散固有値を持つことが示される。

We develop a general approach to study three-dimensional Schroedinger operators with confining potentials depending on the distance to a surface. The main idea is to apply parallel coordinates based on the surface but outside its cut locus in the Euclidean space. If the surface is asymptotically planar in a suitable sense, we give an estimate on the location of the essential spectrum of the Schroedinger operator. Moreover, if the surface coincides up to a compact subset with a surface of revolution with strictly positive total Gauss curvature, it is shown that the Schroedinger operator possesses an infinite number of discrete eigenvalues.
翻訳日:2023-04-14 20:41:54 公開日:2023-04-13
# マルチモーダル融合を用いた自己教師付き予測符号化による細粒度時間分解能劣化予測

Self-Supervised Predictive Coding with Multimodal Fusion for Patient Deterioration Prediction in Fine-grained Time Resolution ( http://arxiv.org/abs/2210.16598v2 )

ライセンス: Link先を確認
Kwanhyung Lee, John Won, Heejung Hyun, Sangchul Hahn, Edward Choi, Joohyung Lee(参考訳) 患者のクリティカルイベントの正確な時刻予測は、タイムリーな意思決定が重要な緊急シナリオにおいて不可欠である。 多くの研究が電子健康記録(EHR)を用いた自動予測手法を提案しているが、その粗い時間分解能は救急部門(ED)や集中治療室(ICU)などの緊急環境における実用的利用を制限する。 そこで本研究では,自己教師付き予測符号化とマルチモーダル融合に基づく1時間当たりの予測手法を提案する。 広範な実験を通じて,マルチモーダル融合と自己教師あり予測の正規化,特に遠未来予測の両方から有意な性能向上が証明された。 両モード/両モード/0.877/0.897 (0.824/0.855/0.886) と 0.817/0.820/0.858 (0.807/0.81/0.855) をそれぞれAUROC で評価した。

Accurate time prediction of patients' critical events is crucial in urgent scenarios where timely decision-making is important. Though many studies have proposed automatic prediction methods using Electronic Health Records (EHR), their coarse-grained time resolutions limit their practical usage in urgent environments such as the emergency department (ED) and intensive care unit (ICU). Therefore, in this study, we propose an hourly prediction method based on self-supervised predictive coding and multi-modal fusion for two critical tasks: mortality and vasopressor need prediction. Through extensive experiments, we prove significant performance gains from both multi-modal fusion and self-supervised predictive regularization, most notably in far-future prediction, which becomes especially important in practice. Our uni-modal/bi-modal/bi-modal self-supervision scored 0.846/0.877/0.897 (0.824/0.855/0.886) and 0.817/0.820/0.858 (0.807/0.81/0.855) with mortality (far-future mortality) and with vasopressor need (far-future vasopressor need) prediction data in AUROC, respectively.
翻訳日:2023-04-14 20:34:54 公開日:2023-04-13
# サイクルグラフ上の量子ウォークによる任意の量子演算の実装

Implementing arbitrary quantum operations via quantum walks on a cycle graph ( http://arxiv.org/abs/2210.14450v2 )

ライセンス: Link先を確認
Jia-Yi Lin, Xin-Yu Li, Yu-Hao Shao, Wei Wang, and Shengjun Wu(参考訳) 量子回路モデル(quantum circuit model)は、量子コンピュータや量子ニューラルネットワークを実装する上で最も一般的に用いられるモデルである。 ここでは、周期グラフ上の単純な離散時間量子ウォーク(dtqw)を用いて任意のユニタリ演算 $u(n)$ をモデル化する手法を提案する。 我々のモデルは基本的にDTQWに基づく量子ニューラルネットワークである。 第一に、任意のユニタリ演算 $U(N)$ がコイン作用素の適切な選択によって実現可能であることを示すことは普遍的である。 第2に、私たちのDTQWベースのニューラルネットワークは、学習アルゴリズム、すなわち、我々のネットワークに適応した修正確率勾配勾配アルゴリズムを介して効率的に更新することができる。 このネットワークを訓練することで、任意の所望のユニタリ操作に対する近似を見つけることができる。 出力のさらなる測定により、DTQWベースのニューラルネットワークは、正の演算値測定(POVM)によって説明される一般的な測定を実装できる。 数値シミュレーションによる任意の2アウトカムPOVM測定の実装能力を示す。 さらに,ネットワークを単純化し,トレーニング中にデバイスノイズを克服し,実験実装に親しみやすくすることの実証を行った。 本研究は、量子計算におけるDTQWベースのニューラルネットワークの機能とその実験室実装における可能性を示す。

The quantum circuit model is the most commonly used model for implementing quantum computers and quantum neural networks whose essential tasks are to realize certain unitary operations. Here we propose an alternative approach; we use a simple discrete-time quantum walk (DTQW) on a cycle graph to model an arbitrary unitary operation $U(N)$ without the need to decompose it into a sequence of gates of smaller sizes. Our model is essentially a quantum neural network based on DTQW. Firstly, it is universal as we show that any unitary operation $U(N)$ can be realized via an appropriate choice of coin operators. Secondly, our DTQW-based neural network can be updated efficiently via a learning algorithm, i.e., a modified stochastic gradient descent algorithm adapted to our network. By training this network, one can promisingly find approximations to arbitrary desired unitary operations. With an additional measurement on the output, the DTQW-based neural network can also implement general measurements described by positive-operator-valued measures (POVMs). We show its capacity in implementing arbitrary 2-outcome POVM measurements via numeric simulation. We further demonstrate that the network can be simplified and can overcome device noises during the training so that it becomes more friendly for laboratory implementations. Our work shows the capability of the DTQW-based neural network in quantum computation and its potential in laboratory implementations.
翻訳日:2023-04-14 20:34:29 公開日:2023-04-13
# ロボットの事前訓練:オフラインRLで試行錯誤から新しいタスクを学習できる

Pre-Training for Robots: Offline RL Enables Learning New Tasks from a Handful of Trials ( http://arxiv.org/abs/2210.05178v2 )

ライセンス: Link先を確認
Aviral Kumar, Anikait Singh, Frederik Ebert, Mitsuhiko Nakamoto, Yanlai Yang, Chelsea Finn, Sergey Levine(参考訳) 深層学習の進歩は、効果的な一般化を達成するために多様なロボットデータセットを利用するという驚くべき可能性を浮き彫りにしている。 しかし、実際には、私たちは多くの場合、以前のデータに含まれない新しい環境で新しいスキルを学びたいと思っています。 そこで、我々はどのようにして既存の多様なオフラインデータセットを、少数のタスク固有のデータと組み合わせて新しいタスクを解決し、大量のデータに対するトレーニングの一般化の利点を享受できるか? 本稿では,表現学習や視覚に基づく事前学習を必要とせずに,エンドツーエンドのオフラインRLが効果的に実現可能であることを示す。 我々は、既存のロボットデータセットの事前学習と新しいタスクの迅速な微調整を組み合わせることで、新しいタスクを効果的に学習するオフラインRLに基づくフレームワークであるPTR(Pre-training for Robot)を提案する。 PTRは、既存のオフラインのRLメソッド、保守的Qラーニング(CQL)を使用しているが、PTRが実際に動作し、さまざまな先行メソッドを上回る性能を発揮するための重要な設計決定を含むように拡張されている。 我々の知る限り、PTRは、さまざまなおもちゃのキッチンで収集された多様なマルチタスクロボットデータのデータセットを効果的に活用することで、実際のWidowXロボットの新しいドメインで10個のタスクデモを行うのに成功する最初のRL手法である。 我々はまた、PTRがデモを必要とせずに、少数の試験において効果的な自律的な微調整と改善を可能にすることを実証した。 付随する概要ビデオは補足資料とこの匿名urlで見ることができる。 https://sites.google.com/view/ptr-rss。

Progress in deep learning highlights the tremendous potential of utilizing diverse robotic datasets for attaining effective generalization and makes it enticing to consider leveraging broad datasets for attaining robust generalization in robotic learning as well. However, in practice, we often want to learn a new skill in a new environment that is unlikely to be contained in the prior data. Therefore we ask: how can we leverage existing diverse offline datasets in combination with small amounts of task-specific data to solve new tasks, while still enjoying the generalization benefits of training on large amounts of data? In this paper, we demonstrate that end-to-end offline RL can be an effective approach for doing this, without the need for any representation learning or vision-based pre-training. We present pre-training for robots (PTR), a framework based on offline RL that attempts to effectively learn new tasks by combining pre-training on existing robotic datasets with rapid fine-tuning on a new task, with as few as 10 demonstrations. PTR utilizes an existing offline RL method, conservative Q-learning (CQL), but extends it to include several crucial design decisions that enable PTR to actually work and outperform a variety of prior methods. To our knowledge, PTR is the first RL method that succeeds at learning new tasks in a new domain on a real WidowX robot with as few as 10 task demonstrations, by effectively leveraging an existing dataset of diverse multi-task robot data collected in a variety of toy kitchens. We also demonstrate that PTR can enable effective autonomous fine-tuning and improvement in a handful of trials, without needing any demonstrations. An accompanying overview video can be found in the supplementary material and at this anonymous URL: https://sites.google.com/view/ptr-rss
翻訳日:2023-04-14 20:34:09 公開日:2023-04-13
# カーネル距離保存のためのランダムフーリエ特徴の相対誤差について

On The Relative Error of Random Fourier Features for Preserving Kernel Distance ( http://arxiv.org/abs/2210.00244v2 )

ライセンス: Link先を確認
Kuan Cheng, Shaofeng H.-C. Jiang, Luojian Wei, Zhide Wei(参考訳) Rahimi and Recht (NIPS'07) によるセミナー論文で提案されたランダムフーリエ特徴法(RFF)は、シフト不変カーネルに対して、(高次元)カーネル空間における点の近似低次元表現を求める強力な手法である。 RFFは様々なエラー保証の概念で分析されているが、\emph{relative} エラーでカーネル距離を保存する能力は理解されていない。 有名なラプラシアカーネルを含むかなりの範囲のカーネルに対して、RFFは低次元を用いて小さな相対誤差でカーネル距離を近似することはできないことを示す。 我々は、シフト不変なカーネルが解析的である限り、rff と $\mathrm{poly}(\epsilon^{-1} \log n)$次元が 1 対のカーネル距離が $n$ である場合の $\epsilon$-relative error を達成し、その次元境界が $\mathrm{poly}(\epsilon^{-1}\log k)$ に改善されることを示した。 最後に、rff を越え、一般シフト不変核のデータ-oblivious dimension-reduction への第一歩を踏み出し、ラプラシアン核に対して同様の $\mathrm{poly}(\epsilon^{-1} \log n)$ 次元を得る。 また,シミュレーションデータセット上での手法の次元誤差トレードオフを検証し,ランダム投影法やnystr\"{o}m法など他の一般的な手法と比較して優れた性能を示す。

The method of random Fourier features (RFF), proposed in a seminal paper by Rahimi and Recht (NIPS'07), is a powerful technique to find approximate low-dimensional representations of points in (high-dimensional) kernel space, for shift-invariant kernels. While RFF has been analyzed under various notions of error guarantee, the ability to preserve the kernel distance with \emph{relative} error is less understood. We show that for a significant range of kernels, including the well-known Laplacian kernels, RFF cannot approximate the kernel distance with small relative error using low dimensions. We complement this by showing as long as the shift-invariant kernel is analytic, RFF with $\mathrm{poly}(\epsilon^{-1} \log n)$ dimensions achieves $\epsilon$-relative error for pairwise kernel distance of $n$ points, and the dimension bound is improved to $\mathrm{poly}(\epsilon^{-1}\log k)$ for the specific application of kernel $k$-means. Finally, going beyond RFF, we make the first step towards data-oblivious dimension-reduction for general shift-invariant kernels, and we obtain a similar $\mathrm{poly}(\epsilon^{-1} \log n)$ dimension bound for Laplacian kernels. We also validate the dimension-error tradeoff of our methods on simulated datasets, and they demonstrate superior performance compared with other popular methods including random-projection and Nystr\"{o}m methods.
翻訳日:2023-04-14 20:33:34 公開日:2023-04-13
# 球誘導型ニューラルインシシット表面の訓練

Sphere-Guided Training of Neural Implicit Surfaces ( http://arxiv.org/abs/2209.15511v2 )

ライセンス: Link先を確認
Andreea Dogaru, Andrei Timotei Ardelean, Savva Ignatyev, Egor Zakharov, Evgeny Burnaev(参考訳) 近年,多視点3次元再構成にボリュームレイマーチングを応用したニューラル距離関数が広く採用されている。 しかし, これらの手法は, シーン全容に対してレイマーチング法を適用し, サンプリング効率を低下させ, その結果, 高周波領域の再現品質を低下させる結果となった。 本研究では,暗黙の関数と新しい粗い球面をベースとした表面再構成を共同で行うことでこの問題に対処する。 我々は粗い表現を用いて、ニューラルネットワークの前方通過を伴わずに、体積線マーチング手順からシーンの空の体積を効率よく排除し、ベースシステムと比較して再構成の忠実度を増大させる。 本手法は,いくつかの暗黙的表面モデリング手法のトレーニング手順に組み込むことで評価し,合成データと実世界データの両方において一様改善を観測する。 私たちのコードベースはプロジェクトのページからアクセスできます。

In recent years, neural distance functions trained via volumetric ray marching have been widely adopted for multi-view 3D reconstruction. These methods, however, apply the ray marching procedure for the entire scene volume, leading to reduced sampling efficiency and, as a result, lower reconstruction quality in the areas of high-frequency details. In this work, we address this problem via joint training of the implicit function and our new coarse sphere-based surface reconstruction. We use the coarse representation to efficiently exclude the empty volume of the scene from the volumetric ray marching procedure without additional forward passes of the neural surface network, which leads to an increased fidelity of the reconstructions compared to the base systems. We evaluate our approach by incorporating it into the training procedures of several implicit surface modeling methods and observe uniform improvements across both synthetic and real-world datasets. Our codebase can be accessed via the project page: https://andreeadogaru.github.io/SphereGuided
翻訳日:2023-04-14 20:32:57 公開日:2023-04-13
# 将来の量子労働力:能力、要件、予測

The Future Quantum Workforce: Competences, Requirements and Forecasts ( http://arxiv.org/abs/2208.08249v2 )

ライセンス: Link先を確認
Franziska Greinert, Rainer M\"uller, Philipp Bitzenbauer, Malte S. Ubben, Kim-Alessandro Weber(参考訳) 新しい量子技術の産業的関係が増すにつれ、量子労働者の教育はますます重要になっている。 労働力不足は重要な疑問を提起する。 第2世代の量子技術の将来への期待はどのようなものか? 今後の量子産業における労働力の要件は何か? 将来の従業員が持つ能力、知識、スキルは何か? 本稿では、将来の量子労働力に対する要求と予測をマッピングすることを目的とした研究結果について報告する。 私たちの研究は3回の連続的な調査ラウンドから成っている。 合計で、ヨーロッパ中の業界や学術の専門家から188ドルの回答を集めた。 本研究は,QTEdu CSA for the European Quantum FlagshipのプロジェクトであるEuropean Competence Framework for Quantum Technologiesの開発のインプットとなった。 さらに、量子技術の主要分野の産業的関連性、教育的努力の必要性、量子技術が日常生活に与える影響など、将来の量子労働力に関する専門家からの予測についても論じる。

With the increasing industrial relevance of new quantum technologies, a well educated quantum workforce becomes increasingly crucial. The foreseeable lack of workforce raises important questions. What are the expectations regarding the future relevance of second generation quantum technologies? What are the requirements for the workforce in the coming quantum industry? Which competences, knowledge and skills should the future employees have? In this paper, we report the results of our study that was aimed at mapping requirements and forecasts for the future quantum workforce. Our study consisted of three consecutive survey rounds. In total, we gathered $188$ responses from industry and academic experts across Europe. Our study results served as an input for the development of the European Competence Framework for Quantum Technologies, delivered by the project QTEdu CSA for the European Quantum Flagship. In addition, we will discuss predictions from experts related to the future quantum workforce, including the expected industrial relevance of the main areas of quantum technologies, the need for educational efforts, and the expected influence of quantum technologies on everyday life.
翻訳日:2023-04-14 20:32:05 公開日:2023-04-13
# LYSTO: リンパ球アセスメントハッカソンとベンチマークデータセット

LYSTO: The Lymphocyte Assessment Hackathon and Benchmark Dataset ( http://arxiv.org/abs/2301.06304v2 )

ライセンス: Link先を確認
Yiping Jiao, Jeroen van der Laak, Shadi Albarqouni, Zhang Li, Tao Tan, Abhir Bhalerao, Jiabo Ma, Jiamei Sun, Johnathan Pocock, Josien P.W. Pluim, Navid Alemi Koohbanani, Raja Muhammad Saad Bashir, Shan E Ahmed Raza, Sibo Liu, Simon Graham, Suzanne Wetstein, Syed Ali Khurram, Thomas Watson, Nasir Rajpoot, Mitko Veta, Francesco Ciompi(参考訳) シェンゼンで開催されたMICCAI 2019 Conferenceと共同で開催したLYSTO, Lymphocyte Assessment Hackathonを紹介する。 このコンペでは、cd3およびcd8免疫組織化学で染色された大腸癌、乳がん、前立腺の病理組織像において、リンパ球、特にt細胞数を自動的に評価する必要があった。 医療画像解析における他の課題とは異なり、LYSTOの参加者はこの問題に対処するために数時間しか与えられなかった。 本稿では,ハッカソンの目的と多段階の組織について述べ,提案手法と現場結果について述べる。 また, 本研究は, 肺がんスライドの独立群において, 初期競合に含まれない手法がどのように機能するか, ならびに, 提示方法と病理組織学的パネルとのリンパ球アセスメントの比較を行った後, 比較検討結果を示す。 リンパ球評価において病理学レベルを達成できた参加者もいた。 ハッカソンの後、LYSTOは軽量なプラグイン・アンド・プレイベンチマークデータセットとして、自動評価プラットフォームとともにグランドチャレンゲのウェブサイトに残された。 LYSTOは、腫瘍学におけるリンパ球評価に関する多くの研究を支持している。 lystoはディープラーニングとデジタル病理学の長年にわたる教育課題であり、https://lysto.grand-challenge.org/で入手できる。

We introduce LYSTO, the Lymphocyte Assessment Hackathon, which was held in conjunction with the MICCAI 2019 Conference in Shenzen (China). The competition required participants to automatically assess the number of lymphocytes, in particular T-cells, in histopathological images of colon, breast, and prostate cancer stained with CD3 and CD8 immunohistochemistry. Differently from other challenges setup in medical image analysis, LYSTO participants were solely given a few hours to address this problem. In this paper, we describe the goal and the multi-phase organization of the hackathon; we describe the proposed methods and the on-site results. Additionally, we present post-competition results where we show how the presented methods perform on an independent set of lung cancer slides, which was not part of the initial competition, as well as a comparison on lymphocyte assessment between presented methods and a panel of pathologists. We show that some of the participants were capable to achieve pathologist-level performance at lymphocyte assessment. After the hackathon, LYSTO was left as a lightweight plug-and-play benchmark dataset on grand-challenge website, together with an automatic evaluation platform. LYSTO has supported a number of research in lymphocyte assessment in oncology. LYSTO will be a long-lasting educational challenge for deep learning and digital pathology, it is available at https://lysto.grand-challenge.org/.
翻訳日:2023-04-14 20:25:21 公開日:2023-04-13
# 評価対象は誰か? AIに基づく攻撃コードジェネレータの自動評価基準について

Who Evaluates the Evaluators? On Automatic Metrics for Assessing AI-based Offensive Code Generators ( http://arxiv.org/abs/2212.06008v3 )

ライセンス: Link先を確認
Pietro Liguori, Cristina Improta, Roberto Natella, Bojan Cukic, and Domenico Cotroneo(参考訳) AIベースのコードジェネレータは、ディープニューラルネットワーク(Neural Machine Translation, NMT)を使用して、自然言語による記述から始まるプログラムを自動記述する新しいソリューションである。 特にコードジェネレータは、概念実証攻撃を生成することによって倫理的ハッキングや攻撃的なセキュリティテストに使用されている。 残念ながら、コードジェネレータの評価にはいくつかの問題がある。 現在のプラクティスでは、出力の類似度メトリクス、すなわち生成されたコードのテキストの類似度を計算する自動メトリクスを使用しています。 しかし、どのメトリクスを使うべきか、どのメトリクスが特定のコンテキストに最も適しているかは明らかではない。 この研究は、攻撃的なコードジェネレータの出力類似度を大量に分析する。 攻撃的アセンブリとPythonコードを含む2つのデータセットを英語で記述した2つのNMTモデルに適用した。 自動測定値からの見積もりを人的評価と比較し,その強みと限界に関する実践的洞察を提供する。

AI-based code generators are an emerging solution for automatically writing programs starting from descriptions in natural language, by using deep neural networks (Neural Machine Translation, NMT). In particular, code generators have been used for ethical hacking and offensive security testing by generating proof-of-concept attacks. Unfortunately, the evaluation of code generators still faces several issues. The current practice uses output similarity metrics, i.e., automatic metrics that compute the textual similarity of generated code with ground-truth references. However, it is not clear what metric to use, and which metric is most suitable for specific contexts. This work analyzes a large set of output similarity metrics on offensive code generators. We apply the metrics on two state-of-the-art NMT models using two datasets containing offensive assembly and Python code with their descriptions in the English language. We compare the estimates from the automatic metrics with human evaluation and provide practical insights into their strengths and limitations.
翻訳日:2023-04-14 20:24:13 公開日:2023-04-13
# 作用素分布の長期特性からのスクランブルと量子カオス指標

Scrambling and quantum chaos indicators from long-time properties of operator distributions ( http://arxiv.org/abs/2211.15872v2 )

ライセンス: Link先を確認
Sivaprasad Omanakuttan, Karthik Chinni, Philip Daniel Blocher, Pablo M. Poggi(参考訳) スクランブルは、量子多体系の非平衡特性の解析において重要な概念である。 ほとんどの研究は、時間外順序相関関数(OTOC)、特にOTOCの早期崩壊による特徴付けに焦点を当てている。 しかし、スクランブルは演算子の拡散と演算子の絡み合いを伴う複雑なプロセスであり、完全な特徴付けでは演算子のダイナミクスに関するより洗練された情報に複数の時間スケールでアクセスする必要がある。 本研究では,対象演算子を完全に拡張し,演算子の空間における粗粒度確率分布として扱われる拡張係数の構造を解析する。 縦・横方向のフィールドを持つイジングモデル,キックされた集合スピンモデル,ランダム回路モデルについて,その平均, 分散, 参加率など, この分布の異なる特徴について検討した。 演算子分布の長期特性は、これらのケースに共通する特徴を示し、これらの特性が量子カオスの開始のプロキシとしてどのように使用できるかについて議論する。 最後に,これらの相関関数を用いて演算子分布を実験的に探索するコストを分析する。

Scrambling is a key concept in the analysis of nonequilibrium properties of quantum many-body systems. Most studies focus on its characterization via out-of-time-ordered correlation functions (OTOCs), particularly through the early-time decay of the OTOC. However, scrambling is a complex process which involves operator spreading and operator entanglement, and a full characterization requires one to access more refined information on the operator dynamics at several timescales. In this work we analyze operator scrambling by expanding the target operator in a complete basis and studying the structure of the expansion coefficients treated as a coarse-grained probability distribution in the space of operators. We study different features of this distribution, such as its mean, variance, and participation ratio, for the Ising model with longitudinal and transverse fields, kicked collective spin models, and random circuit models. We show that the long-time properties of the operator distribution display common features across these cases, and discuss how these properties can be used as a proxy for the onset of quantum chaos. Finally, we discuss the connection with OTOCs and analyze the cost of probing the operator distribution experimentally using these correlation functions.
翻訳日:2023-04-14 20:23:59 公開日:2023-04-13
# ノードインタラクションからホップインタラクションへ - 新しい効果的でスケーラブルなグラフ学習パラダイム

From Node Interaction to Hop Interaction: New Effective and Scalable Graph Learning Paradigm ( http://arxiv.org/abs/2211.11761v3 )

ライセンス: Link先を確認
Jie Chen, Zilong Li, Yin Zhu, Junping Zhang, Jian Pu(参考訳) 既存のグラフニューラルネットワーク(GNN)は、ノード間の情報インタラクションを反復的に行うメッセージパッシングメカニズムに従う。 かなりの進歩がなされているが、ノード間相互作用のパラダイムには以下の制限がある。 まず, 大規模産業環境でのGNNの広範な適用は, 急速に拡大する隣国間のノード間相互作用が, 高い計算とメモリコストを引き起こすため, スケーラビリティの制限によって妨げられる。 第二に、オーバースムーシング問題はノードの識別能力を制限し、つまり、異なるクラスのノード表現は、繰り返しノード間相互作用の後、識別不能に収束する。 本研究では,これらの制約に同時に対処する新しいホップ相互作用パラダイムを提案する。 中心となるアイデアは、ノード間のインタラクションターゲットを、各ノード内の事前処理されたマルチホップ機能に変換することだ。 ホップインタラクションを実現するために既存のGNNを簡単に利用できる,シンプルで効果的なHopGNNフレームワークを設計する。 さらに,hopgnnを強化するために,自己教師付き学習目標を持つマルチタスク学習戦略を提案する。 グラフの幅広い領域、スケール、滑らかさにおいて、12のベンチマークデータセットに対して広範な実験を行う。 実験結果から,本手法は高いスケーラビリティと効率を保ちながら優れた性能を発揮することが示された。 コードはhttps://github.com/JC-202/HopGNNにある。

Existing Graph Neural Networks (GNNs) follow the message-passing mechanism that conducts information interaction among nodes iteratively. While considerable progress has been made, such node interaction paradigms still have the following limitation. First, the scalability limitation precludes the broad application of GNNs in large-scale industrial settings since the node interaction among rapidly expanding neighbors incurs high computation and memory costs. Second, the over-smoothing problem restricts the discrimination ability of nodes, i.e., node representations of different classes will converge to indistinguishable after repeated node interactions. In this work, we propose a novel hop interaction paradigm to address these limitations simultaneously. The core idea is to convert the interaction target among nodes to pre-processed multi-hop features inside each node. We design a simple yet effective HopGNN framework that can easily utilize existing GNNs to achieve hop interaction. Furthermore, we propose a multi-task learning strategy with a self-supervised learning objective to enhance HopGNN. We conduct extensive experiments on 12 benchmark datasets in a wide range of domains, scales, and smoothness of graphs. Experimental results show that our methods achieve superior performance while maintaining high scalability and efficiency. The code is at https://github.com/JC-202/HopGNN.
翻訳日:2023-04-14 20:23:38 公開日:2023-04-13
# 乱流速度統計を用いた1次元確率場のニューラルネットワークによる生成

Neural network based generation of 1-dimensional stochastic fields with turbulent velocity statistics ( http://arxiv.org/abs/2211.11580v2 )

ライセンス: Link先を確認
Carlos Granero-Belinchon (ODYSSEY, IMT Atlantique - MEE, Lab-STICC_OSE)(参考訳) 我々は,乱流速度統計量を持つ1次元場を生成する,完全畳み込みニューラルネットワーク確率モデルNN-Turbを定義し,研究する。 したがって、生成過程は2階構造関数に対するコルモゴロフ 2/3 則を満たす。 また、スケール(コルモゴロフ 4/5 法則)にまたがる負の傾きを示し、間欠性を示す。 さらに,モデルが乱流データと接触することはないため,学習のためのスケールにまたがる構造関数の所望の統計挙動のみが必要となる。

We define and study a fully-convolutional neural network stochastic model, NN-Turb, which generates 1-dimensional fields with turbulent velocity statistics. Thus, the generated process satisfies the Kolmogorov 2/3 law for second order structure function. It also presents negative skewness across scales (i.e. Kolmogorov 4/5 law) and exhibits intermittency. Furthermore, our model is never in contact with turbulent data and only needs the desired statistical behavior of the structure functions across scales for training.
翻訳日:2023-04-14 20:23:19 公開日:2023-04-13
# 量子チャネルとしてのウィルソン再正規化と固定点の分離性

Wilsonian Renormalization as a Quantum Channel and the Separability of Fixed Points ( http://arxiv.org/abs/2211.10238v2 )

ライセンス: Link先を確認
Matheus H. Martins Costa, Jeroen van den Brink, Flavio S. Nogueira, Gast\~ao I. Krein(参考訳) 我々は、再正規化群(RG)のウィルソン的定式化が、量子場理論の運動量空間密度行列に作用する量子チャネルを定義することを示す。 RG のこの情報理論的性質は、運動量スケール間の絡み合いがないという固定点における理論の真空に対する顕著な結果をもたらすことができる。 この結果は、そのような理論のスケール対称性から導かれ、基底状態の形式や運動量空間作用素の期待値に制約をもたらすと理解することができる。

We show that the Wilsonian formulation of the renormalization group (RG) defines a quantum channel acting on the momentum-space density matrices of a quantum field theory. This information theoretical property of the RG allows us to derive a remarkable consequence for the vacuum of theories at a fixed point: they have no entanglement between momentum scales. Our result can be understood as deriving from the scale symmetry of such theories and leads to constraints on the form of the ground state and on expectation values of momentum space operators.
翻訳日:2023-04-14 20:23:11 公開日:2023-04-13
# 連続競技の混合ナッシュ平衡に対する指数収束粒子法

An Exponentially Converging Particle Method for the Mixed Nash Equilibrium of Continuous Games ( http://arxiv.org/abs/2211.01280v3 )

ライセンス: Link先を確認
Guillaume Wang and L\'ena\"ic Chizat(参考訳) 純粋戦略の連続的な集合とペイオフ関数への一階アクセスを伴う2人のプレイヤーゼロサムゲームの混合ナッシュ均衡の計算の問題を考える。 この問題は例えば、分散ロバスト学習のようなゲーム理論にインスパイアされた機械学習アプリケーションで発生する。 これらの応用では、戦略集合は高次元であり、離散化に基づく手法は高い精度の解を抽出できない。 本稿では,この問題に対して局所収束を保証できる粒子ベースの手法を提案し,解析する。 この方法は、混合戦略を原子測度としてパラメータ化し、原子の重みと位置の両方に近点更新を適用する。 これは「相互作用する」ワッサーシュタイン-フィッシャー-ラオ勾配流の時間単純離散化と解釈できる。 非退化仮定の下では、この方法は指数速度で、任意の初期化から最適性への自然な近さの概念を満たす正確な混合ナッシュ平衡に収束する。 本手法は,ネットワークの重みと逆分布の同時学習として自然な解釈を持つ2層ニューラルネットワークを用いて,数値実験を行い,max-marginおよびdistributionally-robust分類への応用について考察する。

We consider the problem of computing mixed Nash equilibria of two-player zero-sum games with continuous sets of pure strategies and with first-order access to the payoff function. This problem arises for example in game-theory-inspired machine learning applications, such as distributionally-robust learning. In those applications, the strategy sets are high-dimensional and thus methods based on discretisation cannot tractably return high-accuracy solutions. In this paper, we introduce and analyze a particle-based method that enjoys guaranteed local convergence for this problem. This method consists in parametrizing the mixed strategies as atomic measures and applying proximal point updates to both the atoms' weights and positions. It can be interpreted as a time-implicit discretization of the "interacting" Wasserstein-Fisher-Rao gradient flow. We prove that, under non-degeneracy assumptions, this method converges at an exponential rate to the exact mixed Nash equilibrium from any initialization satisfying a natural notion of closeness to optimality. We illustrate our results with numerical experiments and discuss applications to max-margin and distributionally-robust classification using two-layer neural networks, where our method has a natural interpretation as a simultaneous training of the network's weights and of the adversarial distribution.
翻訳日:2023-04-14 20:22:44 公開日:2023-04-13
# 個々のFe-トリアゾールスピンクロスオーバーナノロッドの窒素空孔磁気測定

Nitrogen-vacancy magnetometry of individual Fe-triazole spin crossover nanorods ( http://arxiv.org/abs/2303.09636v2 )

ライセンス: Link先を確認
Suvechhya Lamichhane, Kayleigh A McElveen, Adam Erickson, Ilja Fescenko, Shuo Sun, Rupak Timalsina, Yinsheng Guo, Sy-Hwang Liou, Rebecca Y. Lai, Abdelghani Laraoui(参考訳) [Fe(Htrz)2(trz)](BF4)(Fe-トリアゾール)スピンクロスオーバー分子は、高スピン(HS)状態と低スピン(LS)状態の間の熱的、電気的、光学的スイッチングを示し、分子スピントロニクスの候補となる。 LSおよびHS遷移は、Fe(II)の電子配置に由来するものであり、それぞれ反磁性および常磁性であると考えられている。 fe(ii) ls状態は基底状態において6対の電子を持ち、磁場と相互作用せず、反磁性挙動が観察される。 fe-トリアゾール化合物のバルク磁気特性は標準磁気測定法によって広く研究されているが、個々のレベルの特性は失われている。 ナノ粒子クラスターのFe-トリアゾールLS状態と20nmから1000nmの個々のナノロッドの磁気特性を調べるために,窒素空孔(NV)を用いた磁気測定を行った。 走査型電子顕微鏡(SEM)とラマン分光法(Raman spectroscopy)は、ナノ粒子/ナノロドのサイズを決定し、それぞれのスピン状態を確認する。 ナノ粒子/ナノロッドが生成する磁場パターンは、印加磁場(最大350mT)の関数としてNV磁気顕微鏡により撮像され、SEMおよびRamanと相関する。 ナノロッドのほとんどの場合、LS状態はわずかに常磁性であり、表面酸化および/またはナノロッドエッジに沿ったFe(III)の存在から生じる可能性がある。 Fe-トリアゾールLS状態ナノ粒子クラスターのNV測定により、反磁性と常磁性の両方の挙動が明らかになった。 我々は,スピンクロスオーバー分子と分子磁石の磁気特性を研究するために,NV量子センサの可能性を強調した。

[Fe(Htrz)2(trz)](BF4) (Fe-triazole) spin crossover molecules show thermal, electrical, and optical switching between high spin (HS) and low spin (LS) states, making them promising candidates for molecular spintronics. The LS and HS transitions originate from the electronic configurations of Fe(II), and are considered to be diamagnetic and paramagnetic respectively. The Fe(II) LS state has six paired electrons in the ground states with no interaction with the magnetic field and a diamagnetic behavior is usually observed. While the bulk magnetic properties of Fe-triazole compounds are widely studied by standard magnetometry techniques their properties at the individual level are missing. Here we use nitrogen vacancy (NV) based magnetometry to study the magnetic properties of the Fe-triazole LS state of nanoparticle clusters and individual nanorods of size varying from 20 to 1000 nm. Scanning electron microscopy (SEM) and Raman spectroscopy are performed to determine the size of the nanoparticles/nanorods and to confirm their respective spin state. The magnetic field patterns produced by the nanoparticles/nanorods are imaged by NV magnetic microscopy as a function of applied magnetic field (up to 350 mT) and correlated with SEM and Raman. We found that in most of the nanorods the LS state is slightly paramagnetic, possibly originating from the surface oxidation and/or the greater Fe(III) presence along the nanorod edges. NV measurements on the Fe-triazole LS state nanoparticle clusters revealed both diamagnetic and paramagnetic behavior. Our results highlight the potential of NV quantum sensors to study the magnetic properties of spin crossover molecules and molecular magnets.
翻訳日:2023-04-14 20:16:34 公開日:2023-04-13
# 熱検出器を用いた超電導量子ビットの単発再生

Single-Shot Readout of a Superconducting Qubit Using a Thermal Detector ( http://arxiv.org/abs/2303.03668v2 )

ライセンス: Link先を確認
Andr\'as M. Gunyh\'o, Suman Kundu, Jian Ma, Wei Liu, Sakari Niemel\"a, Giacomo Catto, Vasilii Vadimov, Visa Vesterinen, Priyank Singh, Qiming Chen, Mikko M\"ott\"onen(参考訳) 量子ビットの状態を測定することは量子コンピュータの基本的な操作の1つである。 現在、超伝導量子ビットの最先端の高忠実度シングルショット再生はミリケルビン段階のパラメトリック増幅器に依存している。 しかし、パラメトリック増幅器は、実用的なサイズと電力制限のために数百キュービットを超えるスケールが難しい。 ナノボロメーターはスケーラビリティに有利な多数の特性を持ち、最近qubit読み出しに有望な感度と速度を示しているが、このような熱検出器はこの目的のために実証されていない。 本研究では,パラメトリック増幅器の代わりに超感度ボルメータを用い,単発キュービット読み出し実験を行った。 読み出し時間は 13.9~\mu\mathrm{s}$ であり、シングルショット忠実度は 0.618 であり、これは主に qubit のエネルギー緩和時間 $t_1 = 28~\mu\mathrm{s}$ によって制限される。 T_1$エラーがなければ、忠実度は0.927となる。 将来的には、チップの設計と実験的なセットアップが簡単に改善され、ボロメーター吸収材が変更され、読み出し時間が100ナノ秒以上になったことで、高精細なシングルショット読み出しが達成されるかもしれない。

Measuring the state of qubits is one of the fundamental operations of a quantum computer. Currently, state-of-the-art high-fidelity single-shot readout of superconducting qubits relies on parametric amplifiers at the millikelvin stage. However, parametric amplifiers are challenging to scale beyond hundreds of qubits owing to practical size and power limitations. Nanobolometers have a multitude of properties that are advantageous for scalability and have recently shown sensitivity and speed promising for qubit readout, but such thermal detectors have not been demonstrated for this purpose. In this work, we utilize an ultrasensitive bolometer in place of a parametric amplifier to experimentally demonstrate single-shot qubit readout. With a readout duration of $13.9~\mu\mathrm{s}$, we achieve a single-shot fidelity of 0.618 which is mainly limited by the energy relaxation time of the qubit, $T_1 = 28~\mu\mathrm{s}$. Without the $T_1$ errors, we find the fidelity to be 0.927. In the future, high-fidelity single-shot readout may be achieved by straightforward improvements to the chip design and experimental setup, and perhaps most interestingly by the change of the bolometer absorber material to reduce the readout time to the hundred-nanosecond level and beyond.
翻訳日:2023-04-14 20:16:00 公開日:2023-04-13
# 2次元Bose-Hubbardモデルにおけるモットから超流動相への量子キブル・ズレーククレンチのテンソルネットワークシミュレーション

Tensor network simulation of the quantum Kibble-Zurek quench from the Mott to superfluid phase in the two-dimensional Bose-Hubbard model ( http://arxiv.org/abs/2302.13347v2 )

ライセンス: Link先を確認
Jacek Dziarmaga and Jakub M. Mazur(参考訳) コンメンシュレート充填時のボース・ハッバードモデル (BHM) の量子シミュレーションは, 急激なクエンチの後, それらの伝播速度を推定するのに十分な時間にわたって, 相関の拡散に従うことができる。 本研究では,モットから超流動相への量子kibble-zurek(kz)ランプのテンソルネットワークシミュレーションを行い,相対的に短いランプ・クエンチ時間でもkz機構(kzm)によって予測される動力法則を検証できることを実証する。 これらは相関長と励起エネルギーについて検証できるが、最も信頼性の高いテストは、単一粒子相関関数のkzmスケーリング仮説に基づく:同じスケールされた時間崩壊で評価された異なるクエンチ時間に対する相関関数と、スケールされた距離の同じスケーリング関数との相関関数である。 空間と時間変数のスケーリングは、KZ電力法則に従って行われる。

Quantum simulations of the Bose-Hubbard model (BHM) at commensurate filling can follow spreading of correlations after a sudden quench for times long enough to estimate their propagation velocities. In this work we perform tensor network simulation of the quantum Kibble-Zurek (KZ) ramp from the Mott towards the superfluid phase in the square lattice BHM and demonstrate that even relatively short ramp/quench times allow one to test the power laws predicted by the KZ mechanism (KZM). They can be verified for the correlation length and the excitation energy but the most reliable test is based on the KZM scaling hypothesis for the single particle correlation function: the correlation functions for different quench times evaluated at the same scaled time collapse to the same scaling function of the scaled distance. The scaling of the space and time variables is done according to the KZ power laws.
翻訳日:2023-04-14 20:15:35 公開日:2023-04-13
# ゲーム業界の専門家によるテキスト・画像生成AIの認識・採用・利用

"An Adapt-or-Die Type of Situation": Perception, Adoption, and Use of Text-To-Image-Generation AI by Game Industry Professionals ( http://arxiv.org/abs/2302.12601v3 )

ライセンス: Link先を確認
Veera Vimpari, Annakaisa Kultima, Perttu H\"am\"al\"ainen, Christian Guckelsberger(参考訳) クリエイティブAIに最近追加されたTTIG(Text-to-image Generation)モデルは、テキスト記述に基づいて画像を生成することができる。 これらのモデルは、プロのクリエイティブな作品に匹敵し始め、創造的な仕事の未来、失業、著作権問題など、重要な意味を持つ議論を巻き起こした。 TTIGの持続可能な採用を支援するためには、専門家がTTIGをどのように認識し、採用し、利用しているかについて、豊かで信頼性が高く透明な洞察を提供する必要がある。 しかし、公共の議論は浅く、狭く、透明性を欠いている一方で、学術的な研究は一般の芸術家におけるティグの使用についての研究に焦点をあてているが、特定の産業における専門家の認識や態度には焦点を当てていない。 本稿では,フィンランドのビデオゲーム産業におけるTTIGに関する質的,探索的なインタビュー研究に貢献する。 14人のゲーム専門家による半構造化インタビューのテンプレート分析により,専門家の認識,ttigシステムの採用,利用に関する49のサブテーマからなる12のオーバーアーキシングテーマが明らかにされた。 役割や創造的プロセスの変化を経験して、私たちの参加者のリフレクションは、業界内での議論を伝え、政策立案者によって緊急に必要な法律を通知し、ゲームやHCI、AIの研究者を支援し、TTIGの持続可能なプロフェッショナルな使用を支援し、文化的な成果物として人々やゲームに恩恵を与えることができます。

Text-to-image generation (TTIG) models, a recent addition to creative AI, can generate images based on a text description. These models have begun to rival the work of professional creatives, and sparked discussions on the future of creative work, loss of jobs, and copyright issues, amongst other important implications. To support the sustainable adoption of TTIG, we must provide rich, reliable and transparent insights into how professionals perceive, adopt and use TTIG. Crucially though, the public debate is shallow, narrow and lacking transparency, while academic work has focused on studying the use of TTIG in a general artist population, but not on the perceptions and attitudes of professionals in a specific industry. In this paper, we contribute a qualitative, exploratory interview study on TTIG in the Finnish videogame industry. Through a Template Analysis on semi-structured interviews with 14 game professionals, we reveal 12 overarching themes, structured into 49 sub-themes on professionals' perception, adoption and use of TTIG systems in games industry practice. Experiencing (yet another) change of roles and creative processes, our participants' reflections can inform discussions within the industry, be used by policymakers to inform urgently needed legislation, and support researchers in games, HCI and AI to support the sustainable, professional use of TTIG to benefit people and games as cultural artefacts.
翻訳日:2023-04-14 20:15:17 公開日:2023-04-13
# ディープメトリック学習による身体的ロボットコラボレーションの安全性向上

Improving safety in physical human-robot collaboration via deep metric learning ( http://arxiv.org/abs/2302.11933v2 )

ライセンス: Link先を確認
Maryam Rezayati, Grammatiki Zanni, Ying Zaoshi, Davide Scaramuzza, Hans Wernher van de Venn(参考訳) ロボットとの直接の物理的相互作用は、フレキシブルな生産シナリオではますます重要になっているが、保護フェンスのないロボットもまた、オペレーターにとって大きなリスクをもたらす。 リスク電位を低く抑えるために、物理的な接触があった場合や安全距離に違反した場合など、比較的簡単な操作方法が定められている。 人間のケガは概ね避けられるが、人間とロボットの真の協力は不可能であり、このようなシステムで作業する利点は、その可能性を最大限に発揮できないという共通点がある。 ヒトとロボットの協調シナリオでは、ロボットの動作をオペレーターや現在の状況に適応させる、より洗練されたソリューションが必要である。 最も重要なことは、自由ロボット運動の間、物理的接触は意味のある相互作用を許容し、衝突として認識されないことである。 しかし、今後のシステムにとって重要な課題は、ロボットのプロプリセプションと機械学習アルゴリズムを使って人間の接触を検出することだ。 この研究はDeep Metric Learning(DML)アプローチを用いて、非接触ロボットの動き、物理的人間とロボットの相互作用を目的とした意図的な接触、衝突状況の区別を行う。 得られた結果は有望であり、DMLが98.6\%の精度を達成していることを示し、これは既存の標準(DMLなしで訓練されたディープラーニングネットワーク)よりも4\%高い。 また、対象ロボットデータでモデルを再訓練することなく接触(非接触・意図的・偶発的接触の識別)を検出することにより、他のロボット(ターゲットロボット)に容易に移植できる有望な一般化能力を示す。

Direct physical interaction with robots is becoming increasingly important in flexible production scenarios, but robots without protective fences also pose a greater risk to the operator. In order to keep the risk potential low, relatively simple measures are prescribed for operation, such as stopping the robot if there is physical contact or if a safety distance is violated. Although human injuries can be largely avoided in this way, all such solutions have in common that real cooperation between humans and robots is hardly possible and therefore the advantages of working with such systems cannot develop its full potential. In human-robot collaboration scenarios, more sophisticated solutions are required that make it possible to adapt the robot's behavior to the operator and/or the current situation. Most importantly, during free robot movement, physical contact must be allowed for meaningful interaction and not recognized as a collision. However, here lies a key challenge for future systems: detecting human contact by using robot proprioception and machine learning algorithms. This work uses the Deep Metric Learning (DML) approach to distinguish between non-contact robot movement, intentional contact aimed at physical human-robot interaction, and collision situations. The achieved results are promising and show show that DML achieves 98.6\% accuracy, which is 4\% higher than the existing standards (i.e. a deep learning network trained without DML). It also indicates a promising generalization capability for easy portability to other robots (target robots) by detecting contact (distinguishing between contactless and intentional or accidental contact) without having to retrain the model with target robot data.
翻訳日:2023-04-14 20:14:46 公開日:2023-04-13
# 表面スペクトル特性に対する放射光伝達の近似

Approximation of radiative transfer for surface spectral features ( http://arxiv.org/abs/2302.02641v2 )

ライセンス: Link先を確認
Fr\'ed\'eric Schmidt(参考訳) リモートセンシングハイパースペクトルおよびより一般的なスペクトル計は、地球と惑星科学における表面特徴を解読するための一般的なツールである。 線形混合は化合物の検出(ミネラル、水、氷など)において最も一般的な近似法であるが、表面および媒体中の光の移動は非線形である。 非線型性の正確なシミュレーションは非常に高い数値コストで推定できる。 ここでは、放射移動から近似表面スペクトル特性への非常に単純な非線形形式(正則線形領域混合を含む)を提案する。 この解析形式は, 表面特性の粒径と親密な混合依存性を近似することができることを示す。 加えて、同じ分析形式は火星の鉱物エアロゾルの影響を近似することができる。 残念ながら、地球エアロゾルはより複雑(水滴、氷、すす、...)で、同じ傾向を辿ることは期待されていない。

Remote sensing hyperspectral and more generally spectral instruments are common tools to decipher surface features in Earth and Planetary science. While linear mixture is the most common approximation for compounds detection (mineral, water, ice, etc...), the transfer of light in surface and atmospheric medium are highly non-linear. The exact simulation of non-linearities can be estimated at very high numerical cost. Here I propose a very simple non-linear form (that includes the regular linear area mixture) of radiative transfer to approximate surface spectral feature. I demonstrate that this analytical form is able to approximate the grain size and intimate mixture dependence of surface features. In addition, the same analytical form can approximate the effect of Martian mineral aerosols. Unfortunately, Earth aerosols are more complex (water droplet, water ice, soot,...) and are not expected to follow the same trend.
翻訳日:2023-04-14 20:13:50 公開日:2023-04-13
# AIアドバイスに対する適切な信頼:概念化と説明の効果

Appropriate Reliance on AI Advice: Conceptualization and the Effect of Explanations ( http://arxiv.org/abs/2302.02187v3 )

ライセンス: Link先を確認
Max Schemmer, Niklas K\"uhl, Carina Benz, Andrea Bartos, Gerhard Satzger(参考訳) AIアドバイスは、例えば投資や治療決定において、ますます人気が高まっている。 このアドバイスは一般的に不完全であるため、意思決定者は、実際にそのアドバイスに従うかどうかを判断しなければならない。 しかし、現在の適切な信頼に関する研究には、まだ共通の定義と運用上の測定概念が欠けている。 さらに、この行動に影響を及ぼす要因を理解するのに役立つ深い行動実験は行われていない。 本稿では,AoR(Adropriateness of Reliance)を基礎となる,定量的な2次元計測概念として提案する。 我々は、aiアドバイスに説明を提供する効果を分析する研究モデルを開発した。 200人の参加者による実験では、これらの説明がAoRにどのように影響し、AIアドバイスの有効性を示す。 我々の研究は、依存行動の分析とAIアドバイザの目的設計のための基本的な概念に貢献する。

AI advice is becoming increasingly popular, e.g., in investment and medical treatment decisions. As this advice is typically imperfect, decision-makers have to exert discretion as to whether actually follow that advice: they have to "appropriately" rely on correct and turn down incorrect advice. However, current research on appropriate reliance still lacks a common definition as well as an operational measurement concept. Additionally, no in-depth behavioral experiments have been conducted that help understand the factors influencing this behavior. In this paper, we propose Appropriateness of Reliance (AoR) as an underlying, quantifiable two-dimensional measurement concept. We develop a research model that analyzes the effect of providing explanations for AI advice. In an experiment with 200 participants, we demonstrate how these explanations influence the AoR, and, thus, the effectiveness of AI advice. Our work contributes fundamental concepts for the analysis of reliance behavior and the purposeful design of AI advisors.
翻訳日:2023-04-14 20:13:38 公開日:2023-04-13
# ニューラルネットワーク生成応答曲線の反事実的説明

Counterfactual Explanations of Neural Network-Generated Response Curves ( http://arxiv.org/abs/2304.04063v2 )

ライセンス: Link先を確認
Giorgio Morales and John Sheppard(参考訳) 反応曲線は、様々な刺激に対する感度システムの応答の大きさを示す。 しかし、そのようなシステムの応答は必ずしも独立ではない複数の刺激(すなわち入力特徴)に敏感である。 その結果、選択された入力特徴(「アクティブ特徴」と呼ばれる)に対して生成された応答曲線の形状は、他の入力特徴(「パッシブ特徴」と呼ばれる)の値に依存する可能性がある。 本研究では,回帰ニューラルネットワークを用いて応答を近似するシステムについて考察する。 本稿では,ニューラルネットワークブラックボックスが生成する応答曲線の形状に最も関連性が高い特徴の同定に,CFE(反実的説明)を用いることを提案する。 cfeは多目的最適化問題を解決する遺伝的アルゴリズムに基づくアプローチによって生成される。 特に、アクティブな特徴に対して生成された応答曲線を考えると、CFEは応答曲線の形状を変えるために修正される必要のある受動的特徴の最小の組み合わせを見つける。 我々は,1次元入力と2次元入力を用いた2つの収量予測データセットを用いた合成データセット上で実験を行った。 合成データセットで得られた特徴量と特徴の組み合わせの関連性ランキングは,問題発生に用いた方程式の解析と一致した。 収量予測データセットで得られた結果から, 受動特性の肥料応答性への影響は各分野の地形特性に依存することがわかった。

Response curves exhibit the magnitude of the response of a sensitive system to a varying stimulus. However, response of such systems may be sensitive to multiple stimuli (i.e., input features) that are not necessarily independent. As a consequence, the shape of response curves generated for a selected input feature (referred to as "active feature") might depend on the values of the other input features (referred to as "passive features"). In this work, we consider the case of systems whose response is approximated using regression neural networks. We propose to use counterfactual explanations (CFEs) for the identification of the features with the highest relevance on the shape of response curves generated by neural network black boxes. CFEs are generated by a genetic algorithm-based approach that solves a multi-objective optimization problem. In particular, given a response curve generated for an active feature, a CFE finds the minimum combination of passive features that need to be modified to alter the shape of the response curve. We tested our method on a synthetic dataset with 1-D inputs and two crop yield prediction datasets with 2-D inputs. The relevance ranking of features and feature combinations obtained on the synthetic dataset coincided with the analysis of the equation that was used to generate the problem. Results obtained on the yield prediction datasets revealed that the impact on fertilizer responsivity of passive features depends on the terrain characteristics of each field.
翻訳日:2023-04-14 20:07:05 公開日:2023-04-13
# 非線形冬モデルにおける量子共鳴と生存振幅の解析

Quantum resonances and analysis of the survival amplitude in the nonlinear Winter's model ( http://arxiv.org/abs/2304.03083v2 )

ライセンス: Link先を確認
Andrea Sacchetti(参考訳) 本稿では,非線形摂動項を時間依存シュレーディンガー方程式に付加した場合でも,量子共鳴の典型的な効果,すなわち生存振幅の指数型減衰が継続することを示す。 線形方程式に既に使われている概念を用いて、厳密かつ適切な量子共鳴の定義を与えるのも困難である。

In this paper we show that the typical effects of quantum resonances, namely, the exponential-type decay of the survival amplitude, continue to exist even when a nonlinear perturbative term is added to the time-dependent Schroedinger equation. The difficulty in giving a rigorous and appropriate definition of quantum resonances by means of the notions already used for linear equations is also highlighted.
翻訳日:2023-04-14 20:06:45 公開日:2023-04-13
# ユニタリランダム操作下での量子ビットネットワークから時間結晶相が出現する

The time crystal phase emerges from the qubit network under unitary random operations ( http://arxiv.org/abs/2304.02884v2 )

ライセンス: Link先を確認
He Wang and Jin Wang(参考訳) 本稿では,オープン量子システム理論におけるランダムユニタリ進化モデルを用いて,完全連結量子ビットネットワークで観測される非定常挙動について報告する。 環境効果は、ある確率で1組の量子ビット間の部分スワップ(PSW)相互作用に反映される。 我々の研究は単純なイジング型ハミルトニアンから始まり、ランダムユニタリ進化の多くの反復を通じて、初期状態の特定の記憶を符号化する非定常振動状態が発生するかもしれない。 いくつかの局所観測対象の非自明な周期運動は、連続時間結晶相を示す。 また,本研究の他のタイプのハミルトニアンへの拡張についても検討し,この非定常挙動が一般化された力学対称性によりモデルに広く分布することを示した。 本研究は,オープンシステムモデルにおける時間結晶相構築のための新たな展望を提供する。

In this paper, we report findings of non-stationary behavior observed in a fully connected qubit network, utilizing a random unitary evolution model in open quantum system theory. The environmental effect is reflected in the partial swap (PSW) interaction between pairs of qubits with a certain probability. Our study begins with a simple Ising-type Hamiltonian and through many iterations of random unitary evolution, a non-stationary oscillatory state may arise, which encodes certain memory of the initial state. The non-trivial periodic motion of some local observables is indicative of a continuous time crystal phase. We also explore the extension of our study to other types of Hamiltonians and demonstrate that this non-stationary behavior is widespread in our model due to the generalized dynamical symmetry. Our research provides a new perspective for constructing the time crystal phase in an open system model.
翻訳日:2023-04-14 20:06:38 公開日:2023-04-13
# 一致波面センシングによる多光子空間波動関数の再構成

Reconstructing the multiphoton spatial wave function with coincidence wavefront sensing ( http://arxiv.org/abs/2304.00236v2 )

ライセンス: Link先を確認
Yi Zheng, Mu Yang, Yu-Wei Liao, Jin-Shi Xu, Chuan-Feng Li, Guang-Can Guo(参考訳) 複数の粒子の量子波関数は、単独で働く検出器にはアクセスできない追加情報を提供する。 本稿では,多光子横空間波動関数の位相を再構成するための偶然波面センシング(CWS)手法を提案する。 空間的に解決された偶然光子計数が関与する。 弱測定波面センサを用いた2光子ケースの数値シミュレーションを行い、その正しさを検証し、相関に隠された位相情報を明らかにする。 我々の研究は、多部量子システムを特徴づける直接的な空間的方法を提供し、実験的なボヘミア力学や量子光学技術への応用のような基礎研究につながる。

The quantum wave function of multiple particles provides additional information which is inaccessible to detectors working alone. Here, we introduce the coincidence wavefront sensing (CWS) method to reconstruct the phase of the multiphoton transverse spatial wave function. The spatially resolved coincidence photon counting is involved. Numerical simulations of two-photon cases using the weak measurement wavefront sensor are performed to test its correctness, and the phase information hidden in the correlation are revealed. Our work provides a direct spatial way to characterize multipartite quantum systems, and leads to fundamental studies like experimental Bohmian mechanics and applications in quantum optical technologies.
翻訳日:2023-04-14 20:06:00 公開日:2023-04-13
# Robo3D: 破壊に対するロバストで信頼性の高い3D認識を目指す

Robo3D: Towards Robust and Reliable 3D Perception against Corruptions ( http://arxiv.org/abs/2303.17597v3 )

ライセンス: Link先を確認
Lingdong Kong and Youquan Liu and Xin Li and Runnan Chen and Wenwei Zhang and Jiawei Ren and Liang Pan and Kai Chen and Ziwei Liu(参考訳) 環境やセンサーからの自然汚染下での3D認識システムの堅牢性は、安全に重要な応用にとって重要な要素である。 既存の大規模3D認識データセットは、しばしば注意深く掃除されたデータを含んでいる。 しかし、そのような構成は、デプロイメント段階での知覚モデルの信頼性を反映することはできない。 本研究では,実環境において発生する自然腐敗に対して,分散シナリオ下で3次元検出器とセグメンタのロバスト性を調べる最初の総合ベンチマークであるrobo3dを提案する。 具体的には,敵対的な気象条件,外乱,内部センサーの故障から生じる8種類の汚職について考察する。 有望な結果は標準ベンチマークで徐々に達成されているが、最先端の3D認識モデルは腐敗に弱いリスクがある。 モデルの性能に重大な影響を及ぼす可能性のあるデータ表現、拡張スキーム、トレーニング戦略の使用に関する重要な観察を行う。 頑健性を高めるために,モデルレジリエンスを高めるための単純な柔軟なボクセル化戦略とともに,密度非感受性トレーニングフレームワークを提案する。 われわれのベンチマークとアプローチが、より堅牢で信頼性の高い3D知覚モデルの設計に将来の研究を刺激することを期待している。 私たちの堅牢性ベンチマークスイートが公開されています。

The robustness of 3D perception systems under natural corruptions from environments and sensors is pivotal for safety-critical applications. Existing large-scale 3D perception datasets often contain data that are meticulously cleaned. Such configurations, however, cannot reflect the reliability of perception models during the deployment stage. In this work, we present Robo3D, the first comprehensive benchmark heading toward probing the robustness of 3D detectors and segmentors under out-of-distribution scenarios against natural corruptions that occur in real-world environments. Specifically, we consider eight corruption types stemming from adversarial weather conditions, external disturbances, and internal sensor failure. We uncover that, although promising results have been progressively achieved on standard benchmarks, state-of-the-art 3D perception models are at risk of being vulnerable to corruptions. We draw key observations on the use of data representations, augmentation schemes, and training strategies, that could severely affect the model's performance. To pursue better robustness, we propose a density-insensitive training framework along with a simple flexible voxelization strategy to enhance the model resiliency. We hope our benchmark and approach could inspire future research in designing more robust and reliable 3D perception models. Our robustness benchmark suite is publicly available.
翻訳日:2023-04-14 20:05:50 公開日:2023-04-13
# ランダムハミルトニアンによるユニタリ進化の回路複雑性の極端ジャンプ

Extremal jumps of circuit complexity of unitary evolutions generated by random Hamiltonians ( http://arxiv.org/abs/2303.17538v2 )

ライセンス: Link先を確認
Marcin Kotowski, Micha{\l} Oszmaniec, Micha{\l} Horodecki(参考訳) 有限次元ヒルベルト空間におけるランダムに選択された強い相互作用を持つハミルトニアンの時間発展によって生じるユニタリの回路複雑性について検討する。 具体的には、ランダム生成器の2つのアンサンブル、いわゆるガウスユニタリアンサンブル(gue)と、ハールランダムユニタリ変換によって共役される対角ガウス行列のアンサンブルに焦点を当てる。 どちらのシナリオにおいても、$\exp(-it h)$の複雑さは驚くべき振る舞いを示し、高い確率で、自明な(ゼロ)複雑さを持つユニタリからなるアイデンティティの近傍から逃れるために必要となるのと同じ時間スケールで最大許容値に達する。 さらに、上記のアンサンブルから生じる時間進化に由来する量子状態や、対角ガウス・ハミルトニアンのアンサンブルから生成される対角ユニタリについても、同様の挙動を観察する。 これらの結果を確立するためには、上記のアンサンブルの構造的特性(ユニタリ不変性など)と測定手法の集中に大きく依存する。 これにより、以前この文脈で用いられたテクニック、すなわち高次モーメントやフレームポテンシャルよりも、複雑性の時間的進化をより細かく制御できます。

We investigate circuit complexity of unitaries generated by time evolution of randomly chosen strongly interacting Hamiltonians in finite dimensional Hilbert spaces. Specifically, we focus on two ensembles of random generators -- the so called Gaussian Unitary Ensemble (GUE) and the ensemble of diagonal Gaussian matrices conjugated by Haar random unitary transformations. In both scenarios we prove that the complexity of $\exp(-it H)$ exhibits a surprising behaviour -- with high probability it reaches the maximal allowed value on the same time scale as needed to escape the neighborhood of the identity consisting of unitaries with trivial (zero) complexity. We furthermore observe similar behaviour for quantum states originating from time evolutions generated by above ensembles and for diagonal unitaries generated from the ensemble of diagonal Gaussian Hamiltonians. To establish these results we rely heavily on structural properties of the above ensembles (such as unitary invariance) and concentration of measure techniques. This gives us a much finer control over the time evolution of complexity compared to techniques previously employed in this context: high-degree moments and frame potentials.
翻訳日:2023-04-14 20:05:32 公開日:2023-04-13
# エッジコンピューティングプラットフォームのためのハードウェア対応グラフニューラルネットワークの自動設計

Hardware-Aware Graph Neural Network Automated Design for Edge Computing Platforms ( http://arxiv.org/abs/2303.10875v2 )

ライセンス: Link先を確認
Ao Zhou, Jianlei Yang, Yingjie Qi, Yumeng Shi, Tong Qiao, Weisheng Zhao, Chunming Hu(参考訳) グラフニューラルネットワーク(gnns)は、非ユークリッドデータを扱うための一般的な戦略として登場した。 しかしながら、現在のGNNモデルは、ハードウェアリソースの制限やエッジアプリケーションシナリオのリアルタイム要件を考慮していないため、主にタスクの正確性に重点を置いている。 典型的なGNNモデルの包括的なプロファイリングは、その実行特性が様々なコンピューティングプラットフォームに大きく影響していることを示し、効率的なGNN設計のためにハードウェアの認識を要求する。 本研究では,リソース制約エッジデバイスを対象としたハードウェア対応グラフニューラルネットワーク検索フレームワークとして,HGNASを提案する。 GNNパラダイムを分離することで、HGNASはきめ細かい設計空間を構築し、効率的な多段階探索戦略を活用して、数時間以内に最適なアーキテクチャを探索する。 さらに、HGNASは、ハードウェア性能予測器を利用して、ターゲットデバイスの特性に応じたGNNモデルの精度と効率のバランスをとることにより、GNNアーキテクチャ設計時のハードウェア認識を実現する。 実験の結果、hgnasはnvidia rtx3080、jetson tx2、intel i7-8700k、raspberry pi 3b+を含む様々なエッジデバイスでのdgcnnと比較して、約10.6\times$ speedupと8.2\%$ peak memory reductionを達成した。

Graph neural networks (GNNs) have emerged as a popular strategy for handling non-Euclidean data due to their state-of-the-art performance. However, most of the current GNN model designs mainly focus on task accuracy, lacking in considering hardware resources limitation and real-time requirements of edge application scenarios. Comprehensive profiling of typical GNN models indicates that their execution characteristics are significantly affected across different computing platforms, which demands hardware awareness for efficient GNN designs. In this work, HGNAS is proposed as the first Hardware-aware Graph Neural Architecture Search framework targeting resource constraint edge devices. By decoupling the GNN paradigm, HGNAS constructs a fine-grained design space and leverages an efficient multi-stage search strategy to explore optimal architectures within a few GPU hours. Moreover, HGNAS achieves hardware awareness during the GNN architecture design by leveraging a hardware performance predictor, which could balance the GNN model accuracy and efficiency corresponding to the characteristics of targeted devices. Experimental results show that HGNAS can achieve about $10.6\times$ speedup and $88.2\%$ peak memory reduction with a negligible accuracy loss compared to DGCNN on various edge devices, including Nvidia RTX3080, Jetson TX2, Intel i7-8700K and Raspberry Pi 3B+.
翻訳日:2023-04-14 20:04:15 公開日:2023-04-13
# 正規分布の統合と分類法

A method to integrate and classify normal distributions ( http://arxiv.org/abs/2012.14331v8 )

ライセンス: Link先を確認
Abhranil Das and Wilson S Geisler(参考訳) 単変量および多変量正規確率分布は不確実性のある決定をモデル化する際に広く用いられる。 このようなモデルの性能を計算するには、特定のドメインにまたがってこれらの分布を統合する必要がある。 特別な場合の他に、一般的な解析式、標準数値法、これらの積分のソフトウェアは存在しない。 ここでは数学的結果とオープンソースソフトウェアについて述べる。 (i)任意のパラメータを持つ任意の次元における正規の任意の領域の確率 (ii) 正規ベクトルの任意の関数の確率密度、累積分布、および逆累積分布。 (iii)正規分布の任意の数の分類誤差、ベイズ-最適判別可能性指数及び運転特性との関係 (iv)このような問題に対する次元縮小と可視化 (v)与えられたデータに対して、これらのメソッドがどの程度確実に使用されるかのテスト。 自然界における物体の隠蔽やカモフラージュの検出といった視覚研究の応用を実演する。

Univariate and multivariate normal probability distributions are widely used when modeling decisions under uncertainty. Computing the performance of such models requires integrating these distributions over specific domains, which can vary widely across models. Besides some special cases, there exist no general analytical expressions, standard numerical methods or software for these integrals. Here we present mathematical results and open-source software that provide (i) the probability in any domain of a normal in any dimensions with any parameters, (ii) the probability density, cumulative distribution, and inverse cumulative distribution of any function of a normal vector, (iii) the classification errors among any number of normal distributions, the Bayes-optimal discriminability index and relation to the operating characteristic, (iv) dimension reduction and visualizations for such problems, and (v) tests for how reliably these methods may be used on given data. We demonstrate these tools with vision research applications of detecting occluding objects in natural scenes, and detecting camouflage.
翻訳日:2023-04-14 18:17:28 公開日:2023-04-13
# 変分分類器における相互情報の役割

The Role of Mutual Information in Variational Classifiers ( http://arxiv.org/abs/2010.11642v3 )

ライセンス: Link先を確認
Matias Vera, Leonardo Rey Vega and Pablo Piantanida(参考訳) データのオーバーフィッティング(Overfitting)は、データの特定のインスタンスをあまりに正確に模倣し、将来の観測を確実に予測できないモデルの生成に関連するよく知られた現象である。 実際には、この振る舞いは、一般化誤差の上限を発達させることによって動機付けられた様々なヒューリスティック・レギュライゼーション技術によって制御される。 本研究では,クロスエントロピー損失を学習した確率的符号化に基づく分類器の一般化誤差について検討する。 符号化分布に応じてランダムに生成される潜在空間における入力特徴と対応する表現の相互情報によって一般化誤差が境界付けられた状態が存在することを示す一般化誤差に境界を導出する。 我々の境界は、kullback-leibler(kl)分岐項によって正規化されるいわゆる変分分類器のクラスにおける一般化に関する情報理論的な理解を提供する。 これらの結果は、既に正則化ペナルティとして効果的に作用することが認められた変分推論法において、非常に人気のあるKL項の理論的根拠を与える。 さらに,変分オートエンコーダや情報ドロップアウト,情報ボトルネック,ボルツマンマシンなど,よく研究された概念との関係を観察する。 最後に,mnist と cifar データセットの数値実験を行い,相互情報が一般化誤差の挙動を極めてよく表していることを示す。

Overfitting data is a well-known phenomenon related with the generation of a model that mimics too closely (or exactly) a particular instance of data, and may therefore fail to predict future observations reliably. In practice, this behaviour is controlled by various--sometimes heuristics--regularization techniques, which are motivated by developing upper bounds to the generalization error. In this work, we study the generalization error of classifiers relying on stochastic encodings trained on the cross-entropy loss, which is often used in deep learning for classification problems. We derive bounds to the generalization error showing that there exists a regime where the generalization error is bounded by the mutual information between input features and the corresponding representations in the latent space, which are randomly generated according to the encoding distribution. Our bounds provide an information-theoretic understanding of generalization in the so-called class of variational classifiers, which are regularized by a Kullback-Leibler (KL) divergence term. These results give theoretical grounds for the highly popular KL term in variational inference methods that was already recognized to act effectively as a regularization penalty. We further observe connections with well studied notions such as Variational Autoencoders, Information Dropout, Information Bottleneck and Boltzmann Machines. Finally, we perform numerical experiments on MNIST and CIFAR datasets and show that mutual information is indeed highly representative of the behaviour of the generalization error.
翻訳日:2023-04-14 18:17:16 公開日:2023-04-13
# ハイパーグラフ線拡大に基づく半教師付きハイパーグラフノード分類

Semi-supervised Hypergraph Node Classification on Hypergraph Line Expansion ( http://arxiv.org/abs/2005.04843v6 )

ライセンス: Link先を確認
Chaoqi Yang, Ruijie Wang, Shuochao Yao, Tarek Abdelzaher(参考訳) 従来のハイパーグラフ展開は頂点レベルまたはハイパーエッジレベルでのみ実行されるため、データ共起の対称性が欠如し、情報損失が生じる。 この問題に対処するため,本論文は頂点とハイパーエッジを等しく扱い,ハイパーグラフ学習のための新しいハイパーグラフ定式化である \emph{line expansion (le)" を提案する。 新しい展開は、頂点-ハイパーエッジ対を「ラインノード」として扱うことにより、ハイパーグラフから均質構造を誘導する。 ハイパーグラフを単純なグラフに縮小することによって、提案された \emph{line expansion} は既存のグラフ学習アルゴリズムを高階構造と互換性を持たせ、様々なハイパーグラフ展開の統一フレームワークとして証明されている。 提案手法は,5つのハイパーグラフデータセットのライン拡張を評価した結果,somaベースラインを有意なマージンで上回った。

Previous hypergraph expansions are solely carried out on either vertex level or hyperedge level, thereby missing the symmetric nature of data co-occurrence, and resulting in information loss. To address the problem, this paper treats vertices and hyperedges equally and proposes a new hypergraph formulation named the \emph{line expansion (LE)} for hypergraphs learning. The new expansion bijectively induces a homogeneous structure from the hypergraph by treating vertex-hyperedge pairs as "line nodes". By reducing the hypergraph to a simple graph, the proposed \emph{line expansion} makes existing graph learning algorithms compatible with the higher-order structure and has been proven as a unifying framework for various hypergraph expansions. We evaluate the proposed line expansion on five hypergraph datasets, the results show that our method beats SOTA baselines by a significant margin.
翻訳日:2023-04-14 18:16:52 公開日:2023-04-13
# AI計画と自然言語処理の統合:明示的知識と暗黙的知識の組み合わせ

Integrating AI Planning with Natural Language Processing: A Combination of Explicit and Tacit Knowledge ( http://arxiv.org/abs/2202.07138v2 )

ライセンス: Link先を確認
Kebing Jin, Hankz Hankui Zhuo(参考訳) 自然言語処理(NLP)は、エージェントと人間の相互作用を調査し、大量の自然言語データを処理し分析することを目的としている。 現在の自然言語処理において,大規模言語モデルが重要な役割を果たす。 しかし、説明可能性と複雑さの課題は、言語モデルの発展とともに生じる。 1つの方法は、自動計画法などの自然言語処理モデルに論理関係とルールを導入することである。 自動計画(AI planning)は、象徴的なドメインモデルの構築と、ドメインモデルに基づいた目標への初期状態の移行計画の合成に焦点を当てている。 近年、これらの2つの分野に関して、例えば、行動モデルの前提条件や効果など、明示的な知識を発生させ、それぞれ、神経モデルのような暗黙の知識から学ぶ能力を持つ、多くの研究がなされている。 AI計画と自然言語処理の統合は、人間と知的エージェント間のコミュニケーションを効果的に改善する。 本稿では,ai計画と自然言語処理の共通点と関係を概説し,(1)計画に基づくテキスト理解,(2)計画に基づく自然言語処理,(3)計画に基づく説明可能性,(4)テキストに基づく人間とロボットのインタラクション,(5)アプリケーション,の5つの分野に効果的に影響を与えることができると主張する。 また、AI計画と自然言語処理の間の潜在的な問題についても検討する。 私たちの知る限りでは、この調査はAI計画と自然言語処理の深い関係に対処する最初の研究である。

Natural language processing (NLP) aims at investigating the interactions between agents and humans, processing and analyzing large amounts of natural language data. Large-scale language models play an important role in current natural language processing. However, the challenges of explainability and complexity come along with the developments of language models. One way is to introduce logical relations and rules into natural language processing models, such as making use of Automated Planning. Automated planning (AI planning) focuses on building symbolic domain models and synthesizing plans to transit initial states to goals based on domain models. Recently, there have been plenty of works related to these two fields, which have the abilities to generate explicit knowledge, e.g., preconditions and effects of action models, and learn from tacit knowledge, e.g., neural models, respectively. Integrating AI planning and natural language processing effectively improves the communication between human and intelligent agents. This paper outlines the commons and relations between AI planning and natural language processing, argues that each of them can effectively impact on the other one by five areas: (1) planning-based text understanding, (2) planning-based natural language processing, (3) planning-based explainability, (4) text-based human-robot interaction, and (5) applications. We also explore some potential future issues between AI planning and natural language processing. To the best of our knowledge, this survey is the first work that addresses the deep connections between AI planning and Natural language processing.
翻訳日:2023-04-14 17:44:34 公開日:2023-04-13
# ディープバーサタイル記述子を用いたセルフスーパービジョンポイントクラウド登録

Self-Supervised Point Cloud Registration with Deep Versatile Descriptors ( http://arxiv.org/abs/2201.10034v2 )

ライセンス: Link先を確認
Dongrui Liu, Chuanchuan Chen, Changqing Xu, Robert Qiu, and Lei Chu(参考訳) インテリジェントな輸送システムにおける根本的な問題として、ポイントクラウド登録は大きな注目を集め、さまざまなディープラーニングベースのアルゴリズムによって達成されている。 教師なし登録アルゴリズムは、人間のアノテーションを必要とせず、ディープニューラルネットワークで可能な斬新な表現学習を生かし、産業アプリケーションに適用できる。 しかし、教師なしの手法は主に局所幾何学の高レベルな表現を無視したグローバルな記述子に依存している。 本稿では,グローバルデクリプタとローカルデクリプタを併用して,ポイント雲を自己管理的に登録する手法を提案する。 したがって、特徴抽出モジュールの表現能力を高めるために局所的なジオメトリを用いることができる。 さらに、提案するローカルディスクリプタは柔軟であり、既存のほとんどの登録方法に統合して性能を向上させることができる。 さらに,ポイントクラウド再構成と正規推定を用いて,グローバルおよびローカルディスクリプタのトランスフォーメーション意識を高める。 最後に、1つの合成データと3つの実世界のデータセットの広範な実験結果から、本手法が既存の最先端の教師なし登録手法を上回っており、場合によっては教師なしデータを上回る場合もあることが分かる。 また,ロバスト性と計算効率の評価は,提案手法が知的車両に適用できることを示す。

As a fundamental yet challenging problem in intelligent transportation systems, point cloud registration attracts vast attention and has been attained with various deep learning-based algorithms. The unsupervised registration algorithms take advantage of deep neural network-enabled novel representation learning while requiring no human annotations, making them applicable to industrial applications. However, unsupervised methods mainly depend on global descriptors, which ignore the high-level representations of local geometries. In this paper, we propose to jointly use both global and local descriptors to register point clouds in a self-supervised manner, which is motivated by a critical observation that all local geometries of point clouds are transformed consistently under the same transformation. Therefore, local geometries can be employed to enhance the representation ability of the feature extraction module. Moreover, the proposed local descriptor is flexible and can be integrated into most existing registration methods and improve their performance. Besides, we also utilize point cloud reconstruction and normal estimation to enhance the transformation awareness of global and local descriptors. Lastly, extensive experimental results on one synthetic and three real-world datasets demonstrate that our method outperforms existing state-of-art unsupervised registration methods and even surpasses supervised ones in some cases. Robustness and computational efficiency evaluations also indicate that the proposed method applies to intelligent vehicles.
翻訳日:2023-04-14 17:44:08 公開日:2023-04-13
# AI倫理の実践原則:デザイナと開発者の視点

AI Ethics Principles in Practice: Perspectives of Designers and Developers ( http://arxiv.org/abs/2112.07467v6 )

ライセンス: Link先を確認
Conrad Sanderson, David Douglas, Qinghua Lu, Emma Schleiger, Jon Whittle, Justine Lacey, Glenn Newnham, Stefan Hajkowicz, Cathy Robinson, David Hansen(参考訳) さまざまな公表されたAI倫理原則のコンセンサスがアプローチされているため、責任あるAIシステムの設計と開発に容易に適用可能な、ハイレベルな原則と実践的なテクニックのギャップは依然として残っている。 オーストラリア国立科学研究機関(CSIRO)の研究者や技術者の実践と経験について検討し,多くの応用分野においてAIシステムの設計・開発に携わっている。 半構造化されたインタビューは、参加者の実践がオーストラリア政府によって提案された高レベルのAI倫理原則とどのように関連し、整合しているかを調べるために使用された。 原則は,(1)プライバシ保護とセキュリティ,(2)信頼性と安全性,(3)透明性と説明可能性,(4)公正性,(5)競争性,(6)説明責任,(7)人間中心の価値,(8)人間,社会,環境の健全性である。 インタビューから得られた洞察に関する議論には、さまざまな緊張や原則間のトレードオフが含まれ、それぞれのハイレベルな原則を実装するための提案を提供する。 また,関連する支援機構の強化をめざして提案する。

As consensus across the various published AI ethics principles is approached, a gap remains between high-level principles and practical techniques that can be readily adopted to design and develop responsible AI systems. We examine the practices and experiences of researchers and engineers from Australia's national scientific research agency (CSIRO), who are involved in designing and developing AI systems for many application areas. Semi-structured interviews were used to examine how the practices of the participants relate to and align with a set of high-level AI ethics principles proposed by the Australian Government. The principles comprise: (1) privacy protection and security, (2) reliability and safety, (3) transparency and explainability, (4) fairness, (5) contestability, (6) accountability, (7) human-centred values, (8) human, social and environmental wellbeing. Discussions on the gained insights from the interviews include various tensions and trade-offs between the principles, and provide suggestions for implementing each high-level principle. We also present suggestions aiming to enhance associated support mechanisms.
翻訳日:2023-04-14 17:43:44 公開日:2023-04-13
# PePe: ユーザ生成後編集モデル

PePe: Personalized Post-editing Model utilizing User-generated Post-edits ( http://arxiv.org/abs/2209.10139v2 )

ライセンス: Link先を確認
Jihyeon Lee, Taehee Kim, Yunwon Tae, Cheonbok Park, Jaegul Choo(参考訳) 高度な機械翻訳タスクには、個人の好みを取り入れることが不可欠である。 近年の機械翻訳の進歩にもかかわらず、個人的スタイルを適切に反映する必要がある。 本稿では、この課題に対処するパーソナライズされた自動後編集フレームワークを導入し、個別の個人行動を考慮した文を効果的に生成する。 このフレームワークを構築するために、まず、ライブ機械翻訳システムからユーザの好みを示す後編集データを収集する。 具体的には、実世界のユーザが翻訳のための原文を入力し、ユーザの好みのスタイルに従って機械翻訳出力を編集する。 次に, apeフレームワーク上で識別モジュールとユーザ固有のパラメータを組み合わせたモデルを提案する。 実験の結果,提案手法は4つの指標 (bleu, ter, yisi-1, human evaluation) において,他のベースラインモデルよりも優れていた。

Incorporating personal preference is crucial in advanced machine translation tasks. Despite the recent advancement of machine translation, it remains a demanding task to properly reflect personal style. In this paper, we introduce a personalized automatic post-editing framework to address this challenge, which effectively generates sentences considering distinct personal behaviors. To build this framework, we first collect post-editing data that connotes the user preference from a live machine translation system. Specifically, real-world users enter source sentences for translation and edit the machine-translated outputs according to the user's preferred style. We then propose a model that combines a discriminator module and user-specific parameters on the APE framework. Experimental results show that the proposed method outperforms other baseline models on four different metrics (i.e., BLEU, TER, YiSi-1, and human evaluation).
翻訳日:2023-04-14 17:35:44 公開日:2023-04-13
# PointMCD:3次元形状認識のための多視点クロスモーダル蒸留によるディープポイントクラウドエンコーダの強化

PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal Distillation for 3D Shape Recognition ( http://arxiv.org/abs/2207.03128v3 )

ライセンス: Link先を確認
Qijian Zhang, Junhui Hou, Yue Qian(参考訳) 3次元オブジェクトの2つの基本的な表現として、3次元点雲と多視点2次元画像は、幾何学的構造と視覚的外観の異なる領域の形状情報を記録する。 現在のディープラーニング時代には、互換性のある3dネットワークアーキテクチャと2dネットワークアーキテクチャをそれぞれカスタマイズすることで、2つのデータモダリティの処理が著しく進歩している。 しかし、複数の一般的な3次元形状認識ベンチマークにおいて主要な性能を示すマルチビュー画像ベース2次元視覚モデリングパラダイムとは異なり、ポイントクラウドベースの幾何学的モデリングパラダイムは、不規則な幾何学的信号から識別的特徴を抽出することが困難であるため、学習能力の不足により依然として非常に制限されている。 本稿では,深部2d画像エンコーダから抽出した視覚知識を標準の教師・学生蒸留ワークフローで伝達することにより,深部3dポイントクラウドエンコーダの促進の可能性を検討する。 一般に,教師として事前訓練された深度画像エンコーダ,学生として深度画像エンコーダを含む多視点クロスモーダル蒸留アーキテクチャであるPointMCDを提案する。 2次元の視覚的領域と3次元の幾何学的領域の間に不均一な特徴アライメントを行うために、視覚的特徴投影(VAFP)について検討する。 多視点の視覚と幾何学的ディスクリプタをペアで整列させることで、より強力なディープポイントエンコーダを得ることができる。 3次元形状分類,部分分割,教師なし学習の実験は,本手法の有効性を強く検証した。 コードとデータはhttps://github.com/keeganhk/PointMCDで公開されている。

As two fundamental representation modalities of 3D objects, 3D point clouds and multi-view 2D images record shape information from different domains of geometric structures and visual appearances. In the current deep learning era, remarkable progress in processing such two data modalities has been achieved through respectively customizing compatible 3D and 2D network architectures. However, unlike multi-view image-based 2D visual modeling paradigms, which have shown leading performance in several common 3D shape recognition benchmarks, point cloud-based 3D geometric modeling paradigms are still highly limited by insufficient learning capacity, due to the difficulty of extracting discriminative features from irregular geometric signals. In this paper, we explore the possibility of boosting deep 3D point cloud encoders by transferring visual knowledge extracted from deep 2D image encoders under a standard teacher-student distillation workflow. Generally, we propose PointMCD, a unified multi-view cross-modal distillation architecture, including a pretrained deep image encoder as the teacher and a deep point encoder as the student. To perform heterogeneous feature alignment between 2D visual and 3D geometric domains, we further investigate visibility-aware feature projection (VAFP), by which point-wise embeddings are reasonably aggregated into view-specific geometric descriptors. By pair-wisely aligning multi-view visual and geometric descriptors, we can obtain more powerful deep point encoders without exhausting and complicated network modification. Experiments on 3D shape classification, part segmentation, and unsupervised learning strongly validate the effectiveness of our method. The code and data will be publicly available at https://github.com/keeganhk/PointMCD.
翻訳日:2023-04-14 17:34:54 公開日:2023-04-13
# 半教師付きlidarセマンティクスセグメンテーションのためのlasermix

LaserMix for Semi-Supervised LiDAR Semantic Segmentation ( http://arxiv.org/abs/2207.00026v3 )

ライセンス: Link先を確認
Lingdong Kong and Jiawei Ren and Liang Pan and Ziwei Liu(参考訳) 厳密な注釈付きLiDARポイントクラウドはコストがかかり、完全に教師付き学習手法のスケーラビリティを抑える。 本研究では,LiDARセグメンテーションにおける未探索半教師付き学習(SSL)について検討する。 当社の中核となる考え方は、LiDAR点雲の強い空間的手がかりを活用して、ラベルのないデータをうまく活用することだ。 我々は、異なるLiDARスキャンからレーザービームを混合し、混合前後に一貫した確実な予測を行うことを推奨するLaserMixを提案する。 私たちのフレームワークには3つの魅力があります。 1)ジェネリック: LaserMixはLiDAR表現(例えば、レンジビューとボクセル)に依存しないので、SSLフレームワークを普遍的に適用できます。 2) 統計的根拠: 提案手法の適用性を理論的に説明するための詳細な分析を行う。 3) 有効性: 一般的なLiDARセグメンテーションデータセット(nuScenes, SemanticKITTI, ScribbleKITTI)の総合的な実験分析により, 有効性と優位性を示す。 特に、2倍から5倍のラベルを持つ完全教師付きラベルよりも競争力があり、教師のみのベースラインを平均で10.8%向上させる。 この簡潔かつ高性能なフレームワークが,半教師付きLiDARセグメンテーションの今後の研究を促進することを願っている。 コードは公開されている。

Densely annotating LiDAR point clouds is costly, which restrains the scalability of fully-supervised learning methods. In this work, we study the underexplored semi-supervised learning (SSL) in LiDAR segmentation. Our core idea is to leverage the strong spatial cues of LiDAR point clouds to better exploit unlabeled data. We propose LaserMix to mix laser beams from different LiDAR scans, and then encourage the model to make consistent and confident predictions before and after mixing. Our framework has three appealing properties: 1) Generic: LaserMix is agnostic to LiDAR representations (e.g., range view and voxel), and hence our SSL framework can be universally applied. 2) Statistically grounded: We provide a detailed analysis to theoretically explain the applicability of the proposed framework. 3) Effective: Comprehensive experimental analysis on popular LiDAR segmentation datasets (nuScenes, SemanticKITTI, and ScribbleKITTI) demonstrates our effectiveness and superiority. Notably, we achieve competitive results over fully-supervised counterparts with 2x to 5x fewer labels and improve the supervised-only baseline significantly by 10.8% on average. We hope this concise yet high-performing framework could facilitate future research in semi-supervised LiDAR segmentation. Code is publicly available.
翻訳日:2023-04-14 17:34:22 公開日:2023-04-13
# 不可能なデータのない可変的重要性

Variable importance without impossible data ( http://arxiv.org/abs/2205.15750v3 )

ライセンス: Link先を確認
Masayoshi Mase, Art B. Owen, Benjamin B. Seiler(参考訳) ブラックボックス予測アルゴリズムにおける変数の重要性を測定する最も一般的な方法は、複数の被験者からの予測変数を結合する合成入力を用いる。 これらの入力は、不可能、物理的に不可能、あるいは論理的に不可能である。 その結果、このようなケースの予測は、トレーニングされたブラックボックスと非常に異なるデータに基づいて行うことができる。 このような値を用いた場合,ユーザは予測アルゴリズムの決定について,その説明を信頼できないと考える。 代わりに、経済ゲーム理論の基礎となるCohort Shapleyと呼ばれる手法を提唱し、他のゲーム理論とは異なり、実際に観測されたデータのみを用いて変数の重要性を定量化する。 コホート・シャプリー(Cohort Shapley)は、1つ以上の特徴において対象と類似していると判断された被験者のコホートを狭めることで機能する。 モデルが訓練されていない保護変数に重要な属性を割り当てることが不可欠であるアルゴリズムフェアネス問題について説明する。

The most popular methods for measuring importance of the variables in a black box prediction algorithm make use of synthetic inputs that combine predictor variables from multiple subjects. These inputs can be unlikely, physically impossible, or even logically impossible. As a result, the predictions for such cases can be based on data very unlike any the black box was trained on. We think that users cannot trust an explanation of the decision of a prediction algorithm when the explanation uses such values. Instead we advocate a method called Cohort Shapley that is grounded in economic game theory and unlike most other game theoretic methods, it uses only actually observed data to quantify variable importance. Cohort Shapley works by narrowing the cohort of subjects judged to be similar to a target subject on one or more features. We illustrate it on an algorithmic fairness problem where it is essential to attribute importance to protected variables that the model was not trained on.
翻訳日:2023-04-14 17:33:44 公開日:2023-04-13
# Bongard-HOI:人間と物体のインタラクションのためのFew-Shot Visual Reasoningのベンチマーク

Bongard-HOI: Benchmarking Few-Shot Visual Reasoning for Human-Object Interactions ( http://arxiv.org/abs/2205.13803v2 )

ライセンス: Link先を確認
Huaizu Jiang, Xiaojian Ma, Weili Nie, Zhiding Yu, Yuke Zhu, Song-Chun Zhu, Anima Anandkumar(参考訳) 現代の視覚パターン認識モデルと人間レベルの視覚認知の間には、特に少数ショットの学習や新しい概念の構成的推論に関して、大きなギャップが残っている。 自然画像からの人-物間相互作用(HOI)の合成学習に焦点を当てた新しい視覚推論ベンチマークであるBongard-HOIを紹介する。 古典的ボナード問題(BP)の2つの望ましい特徴に着想を得たものである。 1)数発のコンセプト学習,そして 2)文脈依存推論。 正負のイメージと負のイメージはアクションラベルにのみ一致しないため、ベンチマークを完了させるにはオブジェクトカテゴリの認識が不十分である。 また、複数のテストセットを設計して、視覚学習モデルの一般化を体系的に研究し、少数ショットインスタンスのトレーニングとテストセット間のHOI概念の重複を、部分的なオーバーラップから非重複に変化させる。 Bongard-HOIは、今日の視覚認識モデルに重大な課題を提示している。 最先端のhoi検出モデルは、わずかな二分予測では62%の精度しか得られないが、mturkのアマチュア人間テスターでさえ91%の精度を持つ。 Bongard-HOIベンチマークでは、視覚的推論、特に総合的な知覚推論システムとより良い表現学習における研究のさらなる進歩を期待する。

A significant gap remains between today's visual pattern recognition models and human-level visual cognition especially when it comes to few-shot learning and compositional reasoning of novel concepts. We introduce Bongard-HOI, a new visual reasoning benchmark that focuses on compositional learning of human-object interactions (HOIs) from natural images. It is inspired by two desirable characteristics from the classical Bongard problems (BPs): 1) few-shot concept learning, and 2) context-dependent reasoning. We carefully curate the few-shot instances with hard negatives, where positive and negative images only disagree on action labels, making mere recognition of object categories insufficient to complete our benchmarks. We also design multiple test sets to systematically study the generalization of visual learning models, where we vary the overlap of the HOI concepts between the training and test sets of few-shot instances, from partial to no overlaps. Bongard-HOI presents a substantial challenge to today's visual recognition models. The state-of-the-art HOI detection model achieves only 62% accuracy on few-shot binary prediction while even amateur human testers on MTurk have 91% accuracy. With the Bongard-HOI benchmark, we hope to further advance research efforts in visual reasoning, especially in holistic perception-reasoning systems and better representation learning.
翻訳日:2023-04-14 17:33:29 公開日:2023-04-13
# Insider Stories: 大手アメリカの企業の内部持続可能性に関するオンラインレビューからの分析

Insider Stories: Analyzing Internal Sustainability Efforts of Major US Companies from Online Reviews ( http://arxiv.org/abs/2205.01217v2 )

ライセンス: Link先を確認
Indira Sen, Daniele Quercia, Licia Capra, Matteo Montecchi, Sanja \v{S}\'cepanovi\'c(参考訳) 企業が男女平等、多様性、一般職員福祉といった内的持続可能性努力(ISE)を支えているかどうかは、特に内部的持続可能性慣行を運用する方法論の欠如や、そうした取り組みを誠実に文書化しているデータの欠如から確認することは困難である。 我々は、内部持続可能性(ISEs)を反映した6次元の枠組みを開発し、2008-2020年の間、米国全体で104の大企業の350万以上の従業員レビューを集め、これらの評価を6つのISEの観点で評価するディープラーニングフレームワークを開発した。 ISEの高評価を受けた企業は株価の上昇を享受した。 ISEのこの新しい概念化は、企業持続可能性の文献に理論的に意味を持ち、企業や政策立案者には実践的な意味がある。 これらの影響をさらに探求するために、研究者は、より多くの企業のために、潜在的に欠落しているISEを追加し、会社の成功とISEの因果関係を確立する必要がある。

It is hard to establish whether a company supports internal sustainability efforts (ISEs) like gender equality, diversity, and general staff welfare, not least because of lack of methodologies operationalizing these internal sustainability practices, and of data honestly documenting such efforts. We developed and validated a six-dimension framework reflecting Internal Sustainability Efforts (ISEs), gathered more than 350K employee reviews of 104 major companies across the whole US for the (2008-2020) years, and developed a deep-learning framework scoring these reviews in terms of the six ISEs. Commitment to ISEs manifested itself at micro-level -- companies scoring high in ISEs enjoyed high stock growth. This new conceptualization of ISEs offers both theoretical implications for the literature in corporate sustainability, and practical implications for companies and policymakers. To further explore these implications, researchers need to add potentially missing ISEs, to do so for more companies, and establish the causal relationship between company success and ISEs.
翻訳日:2023-04-14 17:33:05 公開日:2023-04-13
# 映像行動認識のためのゲートシフトファウズ

Gate-Shift-Fuse for Video Action Recognition ( http://arxiv.org/abs/2203.08897v2 )

ライセンス: Link先を確認
Swathikiran Sudhakaran, Sergio Escalera, Oswald Lanz(参考訳) 畳み込みニューラルネットワークは、画像認識のためのデファクトモデルである。 しかし、ビデオ認識のための2D CNNのストレートな拡張である3D CNNは、標準アクション認識ベンチマークでは同様の成功を収めていない。 この3d cnnの性能低下の主な理由の1つは、大規模な注釈付きデータセットを大規模に訓練する必要のある計算量の増加である。 3dカーネル因子化アプローチは、3d cnnの複雑さを減らすために提案されている。 既存のカーネルファクタライゼーションアプローチは、ハンドデザインとハードワイヤ技術に従っている。 本稿では、時空間分解における相互作用を制御し、時間を通して特徴を適応的にルーティングし、データ依存的に組み合わせる新しい時空間特徴抽出モジュールであるGSFを提案する。 gsfは群空間ゲーティングを利用して入力テンソルとチャネル重み付けを分解し、分解テンソルを融合させる。 GSFは既存の2D CNNに挿入して、パラメータと計算オーバーヘッドを無視して、効率よく高性能な時空間特徴抽出器に変換することができる。 2d cnnファミリを用いてgsfを広範囲に解析し,5つの標準行動認識ベンチマークを用いて,最先端または競争性能を達成する。 コードとモデルはhttps://github.com/swathikirans/GSF.comで公開される。

Convolutional Neural Networks are the de facto models for image recognition. However 3D CNNs, the straight forward extension of 2D CNNs for video recognition, have not achieved the same success on standard action recognition benchmarks. One of the main reasons for this reduced performance of 3D CNNs is the increased computational complexity requiring large scale annotated datasets to train them in scale. 3D kernel factorization approaches have been proposed to reduce the complexity of 3D CNNs. Existing kernel factorization approaches follow hand-designed and hard-wired techniques. In this paper we propose Gate-Shift-Fuse (GSF), a novel spatio-temporal feature extraction module which controls interactions in spatio-temporal decomposition and learns to adaptively route features through time and combine them in a data dependent manner. GSF leverages grouped spatial gating to decompose input tensor and channel weighting to fuse the decomposed tensors. GSF can be inserted into existing 2D CNNs to convert them into an efficient and high performing spatio-temporal feature extractor, with negligible parameter and compute overhead. We perform an extensive analysis of GSF using two popular 2D CNN families and achieve state-of-the-art or competitive performance on five standard action recognition benchmarks. Code and models will be made publicly available at https://github.com/swathikirans/GSF.
翻訳日:2023-04-14 17:32:45 公開日:2023-04-13
# NeighborTrack: 隣のトラックレットとのマッチングによる単一オブジェクト追跡の改善

NeighborTrack: Improving Single Object Tracking by Bipartite Matching with Neighbor Tracklets ( http://arxiv.org/abs/2211.06663v2 )

ライセンス: Link先を確認
Yu-Hsi Chen, Chien-Yao Wang, Cheng-Yun Yang, Hung-Shuo Chang, Youn-Long Lin, Yung-Yu Chuang, and Hong-Yuan Mark Liao(参考訳) 本研究では,追従対象の周辺情報を利用して単一対象追跡(SOT)結果の検証と改善を行う,NeighborTrackというポストプロセッサを提案する。 追加のデータやリトレーニングは不要だ。 代わりに、バックボーンSOTネットワークによって予測される信頼スコアを使用して、近隣情報を自動的に導き、この情報を使用して追跡結果を改善する。 隠されたターゲットを追跡する場合、その外観は信頼できない。 しかし,一般的なサイムズネットワークでは,高い信頼度を持つ隣人によって誤解される可能性があるため,信頼度を単独で読み取るだけで追跡対象が隠蔽されているかどうかを判断できないことが多い。 提案したNeighborTrackは、非閉鎖の隣人の情報を利用して、追跡対象を再確認し、対象が閉鎖された場合の偽追跡を低減する。 閉塞による影響を減少させるだけでなく、オブジェクトの出現変化によるトラッキング問題も修正する。 NeighborTrackは、SOTネットワークやポストプロセッシングメソッドに依存しない。 短期オブジェクト追跡で一般的に使用されるVOTチャレンジデータセットでは、Ocean、TransT、OSTrackの3つの有名なSOTネットワークを平均${1.92\%}$EAOと${2.11\%}$ロバストネスで改善する。 OSTrackをベースとした中長期追跡実験では、最先端の${72.25\%}$AUC on LaSOTと${75.7\%}$AO on GOT-10Kを実現している。 コードの重複はhttps://github.com/franktpmvu/neighbortrackにある。

We propose a post-processor, called NeighborTrack, that leverages neighbor information of the tracking target to validate and improve single-object tracking (SOT) results. It requires no additional data or retraining. Instead, it uses the confidence score predicted by the backbone SOT network to automatically derive neighbor information and then uses this information to improve the tracking results. When tracking an occluded target, its appearance features are untrustworthy. However, a general siamese network often cannot tell whether the tracked object is occluded by reading the confidence score alone, because it could be misled by neighbors with high confidence scores. Our proposed NeighborTrack takes advantage of unoccluded neighbors' information to reconfirm the tracking target and reduces false tracking when the target is occluded. It not only reduces the impact caused by occlusion, but also fixes tracking problems caused by object appearance changes. NeighborTrack is agnostic to SOT networks and post-processing methods. For the VOT challenge dataset commonly used in short-term object tracking, we improve three famous SOT networks, Ocean, TransT, and OSTrack, by an average of ${1.92\%}$ EAO and ${2.11\%}$ robustness. For the mid- and long-term tracking experiments based on OSTrack, we achieve state-of-the-art ${72.25\%}$ AUC on LaSOT and ${75.7\%}$ AO on GOT-10K. Code duplication can be found in https://github.com/franktpmvu/NeighborTrack.
翻訳日:2023-04-14 17:26:35 公開日:2023-04-13
# 畳み込みニューラルネットワークを用いた量子類似性テスト

Quantum Similarity Testing with Convolutional Neural Networks ( http://arxiv.org/abs/2211.01668v2 )

ライセンス: Link先を確認
Ya-Dong Wu, Yan Zhu, Ge Bai, Yuexuan Wang, Giulio Chiribella(参考訳) 2つの非文字化量子デバイスが同じように振る舞うかどうかをテストするタスクは、短期量子コンピュータと量子シミュレーターのベンチマークに不可欠だが、これまでは連続可変量子システムに対してオープンだった。 本稿では,制約データと雑音データを用いて未知の連続変数状態を比較する機械学習アルゴリズムを開発する。 このアルゴリズムは、以前の手法では類似性テストが達成できない非ガウス量子状態で動作する。 本手法は,計測データから構築した低次元状態表現に基づいて,量子状態の類似性を評価する畳み込みニューラルネットワークに基づいている。 ネットワークは、テスト対象の状態と構造的な類似性を共有する複数の状態の古典的なシミュレーションデータ、またはfiducial状態の測定によって生成された実験データ、またはシミュレーションデータと実験データの組み合わせでオフラインでトレーニングすることができる。 任意選択数依存性位相ゲートによって生成された雑音猫状態および状態におけるモデルの性能を検証した。 我々のネットワークは、異なる実験プラットフォーム間の連続変数状態と異なる達成可能な測定セットを比較する問題や、2つの状態がガウスユニタリ変換に等しいかどうかを実験的に検証する問題にも適用できる。

The task of testing whether two uncharacterized quantum devices behave in the same way is crucial for benchmarking near-term quantum computers and quantum simulators, but has so far remained open for continuous-variable quantum systems. In this Letter, we develop a machine learning algorithm for comparing unknown continuous variable states using limited and noisy data. The algorithm works on non-Gaussian quantum states for which similarity testing could not be achieved with previous techniques. Our approach is based on a convolutional neural network that assesses the similarity of quantum states based on a lower-dimensional state representation built from measurement data. The network can be trained offline with classically simulated data from a fiducial set of states sharing structural similarities with the states to be tested, or with experimental data generated by measurements on the fiducial states, or with a combination of simulated and experimental data. We test the performance of the model on noisy cat states and states generated by arbitrary selective number-dependent phase gates. Our network can also be applied to the problem of comparing continuous variable states across different experimental platforms, with different sets of achievable measurements, and to the problem of experimentally testing whether two states are equivalent up to Gaussian unitary transformations.
翻訳日:2023-04-14 17:26:05 公開日:2023-04-13
# アルゴリズム的(ミス)情報分類における緊急対応--責任ある機械学習の課題に向けて

Addressing contingency in algorithmic (mis)information classification: Toward a responsible machine learning agenda ( http://arxiv.org/abs/2210.09014v2 )

ライセンス: Link先を確認
Andr\'es Dom\'inguez Hern\'andez, Richard Owen, Dan Saattrup Nielsen, Ryan McConville(参考訳) 機械学習(ML)によって実現された分類モデルは、有害と認識できるオンライン誤情報やその他のコンテンツの量や速度に対処するために、ますます人気が高まっている。 これらのモデルを構築する際、データサイエンティストはモデルトレーニングとテストに使用される『真実』の情報源の正当性、信頼性、客観性にスタンスを取る必要がある。 これは政治的、倫理的、疫学的な意味を持ち、技術論文ではほとんど取り上げられない。 高い正確性とパフォーマンスが報告されているにもかかわらず、ml駆動のモデレーションシステムは、オンラインの公開議論を形作り、不適切な検閲や誤った信念の強化といった下流のネガティブな影響を生み出す可能性がある。 私たちは、(ミス)情報分類のためのmlモデルを構築する過程に関する批判的分析を提供する: 私たちは、モデル開発中の一連のアルゴリズム的偶発的瞬間を識別します。 我々は、誤情報などの有害コンテンツをオンラインで緩和するMLツールの、反射的かつ責任ある開発に向けた仮道を提供することで、結論付ける。

Machine learning (ML) enabled classification models are becoming increasingly popular for tackling the sheer volume and speed of online misinformation and other content that could be identified as harmful. In building these models, data scientists need to take a stance on the legitimacy, authoritativeness and objectivity of the sources of ``truth" used for model training and testing. This has political, ethical and epistemic implications which are rarely addressed in technical papers. Despite (and due to) their reported high accuracy and performance, ML-driven moderation systems have the potential to shape online public debate and create downstream negative impacts such as undue censorship and the reinforcing of false beliefs. Using collaborative ethnography and theoretical insights from social studies of science and expertise, we offer a critical analysis of the process of building ML models for (mis)information classification: we identify a series of algorithmic contingencies--key moments during model development that could lead to different future outcomes, uncertainty and harmful effects as these tools are deployed by social media platforms. We conclude by offering a tentative path toward reflexive and responsible development of ML tools for moderating misinformation and other harmful content online.
翻訳日:2023-04-14 17:25:30 公開日:2023-04-13
# 多言語BERTのアクセント:多言語モデルにおける英語の影響評価

Multilingual BERT has an accent: Evaluating English influences on fluency in multilingual models ( http://arxiv.org/abs/2210.05619v2 )

ライセンス: Link先を確認
Isabel Papadimitriou, Kezia Lopez, Dan Jurafsky(参考訳) 多言語言語モデルは、高リソース言語を利用することで低リソース言語でのnlpパフォーマンスを向上させることができるが、すべての言語('多言語性曲線')における平均パフォーマンスも低下する。 ここでは、多言語モデルにおける別の問題を示す: 高リソース言語における文法構造は、低リソース言語に肥大化した。 このバイアスを,多言語モデルのフラレンスと単言語スペイン語とギリシャ語のモデルのフラレンスを比較する新しい方法を用いて示し,その傾向を,二つの注意深い長文可変文法構造(スペイン語ではoptional pronoun-drop,ギリシア語ではoptional subject-verb order)の好みをテストした。 単言語制御言語モデルと比較して,多言語BERTは英語的な設定(特殊代名詞と主語-動詞-オブジェクト順序付け)に偏っていることがわかった。 私たちのケーススタディでは、多言語モデルにバイアスを課すためのきめ細かな方法を明確にし、より言語学的に認識できるフルエンシー評価を奨励したいと考えています。

While multilingual language models can improve NLP performance on low-resource languages by leveraging higher-resource languages, they also reduce average performance on all languages (the 'curse of multilinguality'). Here we show another problem with multilingual models: grammatical structures in higher-resource languages bleed into lower-resource languages, a phenomenon we call grammatical structure bias. We show this bias via a novel method for comparing the fluency of multilingual models to the fluency of monolingual Spanish and Greek models: testing their preference for two carefully-chosen variable grammatical structures (optional pronoun-drop in Spanish and optional Subject-Verb ordering in Greek). We find that multilingual BERT is biased toward the English-like setting (explicit pronouns and Subject-Verb-Object ordering) as compared to our monolingual control language model. With our case studies, we hope to bring to light the fine-grained ways in which multilingual models can be biased,and encourage more linguistically-aware fluency evaluation.
翻訳日:2023-04-14 17:24:18 公開日:2023-04-13
# アダプティブ・インパタンス・サンプリングによるニューラルネットワークの効率よいベイズ推定

Efficient Bayes Inference in Neural Networks through Adaptive Importance Sampling ( http://arxiv.org/abs/2210.00993v2 )

ライセンス: Link先を確認
Yunshi Huang and Emilie Chouzenoux and Victor Elvira and Jean-Christophe Pesquet(参考訳) ベイズニューラルネットワーク(BNN)はここ数年、関心が高まりつつある。 bnnでは、トレーニング段階でネットワークの未知の重みとバイアスパラメータの完全な後方分布が生成される。 この確率的推定は、ポイントワイズ推定、特に新しいデータを予測する際に不確かさを定量化する能力に関していくつかの利点をもたらす。 この機能はベイズパラダイムに固有のもので、無数の機械学習アプリケーションに有用である。 医療医療や自動運転など、意思決定に重大な影響を及ぼす分野において特に魅力的である。 BNNの主な課題は、ベイズ的手法がしばしば次元性の厳しい呪いに直面しているため、訓練手順の計算コストである。 適応的重要度サンプリング(adaptive importance sampling、ais)はモンテカルロで最も顕著な手法の一つである。 本研究の目的は,AISがBNNの設計に成功していることを示すことである。 より正確には、複雑な(しばしばマルチモーダルな)後続分布の幾何学的情報を利用する効率的な適応機構を含む新しいアルゴリズム PMCnet を提案する。 その結果,浅層ニューラルネットワークと深層ニューラルネットワークの両方において,提案手法の性能と探索性能が向上した。

Bayesian neural networks (BNNs) have received an increased interest in the last years. In BNNs, a complete posterior distribution of the unknown weight and bias parameters of the network is produced during the training stage. This probabilistic estimation offers several advantages with respect to point-wise estimates, in particular, the ability to provide uncertainty quantification when predicting new data. This feature inherent to the Bayesian paradigm, is useful in countless machine learning applications. It is particularly appealing in areas where decision-making has a crucial impact, such as medical healthcare or autonomous driving. The main challenge of BNNs is the computational cost of the training procedure since Bayesian techniques often face a severe curse of dimensionality. Adaptive importance sampling (AIS) is one of the most prominent Monte Carlo methodologies benefiting from sounded convergence guarantees and ease for adaptation. This work aims to show that AIS constitutes a successful approach for designing BNNs. More precisely, we propose a novel algorithm PMCnet that includes an efficient adaptation mechanism, exploiting geometric information on the complex (often multimodal) posterior distribution. Numerical results illustrate the excellent performance and the improved exploration capabilities of the proposed method for both shallow and deep neural networks.
翻訳日:2023-04-14 17:23:28 公開日:2023-04-13
# PiFold: 効率的かつ効率的なタンパク質逆フォールディングを目指して

PiFold: Toward effective and efficient protein inverse folding ( http://arxiv.org/abs/2209.12643v4 )

ライセンス: Link先を確認
Zhangyang Gao, Cheng Tan, Pablo Chac\'on, Stan Z. Li(参考訳) 所望の構造に折り畳まれたタンパク質配列を効果的に効率的に設計する方法 近年、構造に基づくタンパク質設計のためのAI手法が注目されているが、表現的特徴の欠如や自己回帰的配列デコーダの欠如により、精度と効率を同時に向上できる手法はほとんどない。 これらの問題に対処するため,我々はpifoldを提案する。pifoldは新規な残基フェタタイザ層とpinn層を含み,タンパク質配列をワンショットで生成し,回復性が向上する。 実験により、ピフォールドはcath 4.2で51.66\%回復し、推論速度は自己回帰の競合相手の70倍速くなることが示された。 さらに、PiFoldはTS50とTS500でそれぞれ58.72\%と60.42\%のリカバリスコアを達成した。 種々のタンパク質の特徴とモデル設計の役割を明らかにするため、包括的アブレーション研究を行い、さらなる単純化と改善を促した。 PyTorch のコードは \href{https://github.com/A4Bio/PiFold}{GitHub} で公開されている。

How can we design protein sequences folding into the desired structures effectively and efficiently? AI methods for structure-based protein design have attracted increasing attention in recent years; however, few methods can simultaneously improve the accuracy and efficiency due to the lack of expressive features and autoregressive sequence decoder. To address these issues, we propose PiFold, which contains a novel residue featurizer and PiGNN layers to generate protein sequences in a one-shot way with improved recovery. Experiments show that PiFold could achieve 51.66\% recovery on CATH 4.2, while the inference speed is 70 times faster than the autoregressive competitors. In addition, PiFold achieves 58.72\% and 60.42\% recovery scores on TS50 and TS500, respectively. We conduct comprehensive ablation studies to reveal the role of different types of protein features and model designs, inspiring further simplification and improvement. The PyTorch code is available at \href{https://github.com/A4Bio/PiFold}{GitHub}.
翻訳日:2023-04-14 17:23:09 公開日:2023-04-13
# 統合埋め込み予測アーキテクチャを用いた画像からの自己教師付き学習

Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture ( http://arxiv.org/abs/2301.08243v3 )

ライセンス: Link先を確認
Mahmoud Assran, Quentin Duval, Ishan Misra, Piotr Bojanowski, Pascal Vincent, Michael Rabbat, Yann LeCun, Nicolas Ballas(参考訳) 本稿では,手作りデータに頼らずに,高度に意味のある画像表現を学習するためのアプローチを示す。 本稿では,画像からの自己教師型学習のための非生成的アプローチであるイメージベースジョイントエンベッドディング予測アーキテクチャ(I-JEPA)を紹介する。 I-JEPAの背景にあるアイデアは単純で、単一のコンテキストブロックから、同じイメージ内の様々なターゲットブロックの表現を予測する。 I-JEPAを意味表現に導くための中核的な設計選択はマスキング戦略である。 (a)十分な規模(意味)のターゲットブロックのサンプル、及び (b)十分な情報(便宜的分散)コンテキストブロックを使用する。 実証的には、Vision Transformersと組み合わせると、I-JEPAは高度にスケーラブルである。 例えば、イメージネット上で16のA100 GPUを使用してVT-Huge/14を72時間以内にトレーニングし、線形分類からオブジェクトカウント、深さ予測まで幅広いタスクで強力なダウンストリーム性能を実現する。

This paper demonstrates an approach for learning highly semantic image representations without relying on hand-crafted data-augmentations. We introduce the Image-based Joint-Embedding Predictive Architecture (I-JEPA), a non-generative approach for self-supervised learning from images. The idea behind I-JEPA is simple: from a single context block, predict the representations of various target blocks in the same image. A core design choice to guide I-JEPA towards producing semantic representations is the masking strategy; specifically, it is crucial to (a) sample target blocks with sufficiently large scale (semantic), and to (b) use a sufficiently informative (spatially distributed) context block. Empirically, when combined with Vision Transformers, we find I-JEPA to be highly scalable. For instance, we train a ViT-Huge/14 on ImageNet using 16 A100 GPUs in under 72 hours to achieve strong downstream performance across a wide range of tasks, from linear classification to object counting and depth prediction.
翻訳日:2023-04-14 17:17:10 公開日:2023-04-13
# styleganによる顔生成と編集:調査

Face Generation and Editing with StyleGAN: A Survey ( http://arxiv.org/abs/2212.09102v2 )

ライセンス: Link先を確認
Andrew Melnik, Maksim Miasayedzenkau, Dzianis Makarovets, Dzianis Pirshtuk, Eren Akbulut, Dennis Holzmann, Tarek Renusch, Gustav Reichert, Helge Ritter(参考訳) 本調査の目的は,顔生成と編集のための深層学習技術の現状を概観することである。 人気の高い最新のアーキテクチャを取り上げ、インバージョン、潜在表現、損失関数、トレーニング手順、編集方法、クロスドメインスタイルの転送など、それらを機能させる重要なアイデアについて議論する。 特に,高品質な顔画像の生成を可能にし,セマンティクスの編集や写真品質の保存のためのリッチなインターフェースを提供する,StyleGANアプローチで頂点に達したGANベースのアーキテクチャに注目している。 我々は,ディープラーニングの分野に関する基本的な知識を持ち,アクセス可能な紹介や概要を求めている読者に,この分野へのエントリポイントを提供することを目指している。

Our goal with this survey is to provide an overview of the state of the art deep learning technologies for face generation and editing. We will cover popular latest architectures and discuss key ideas that make them work, such as inversion, latent representation, loss functions, training procedures, editing methods, and cross domain style transfer. We particularly focus on GAN-based architectures that have culminated in the StyleGAN approaches, which allow generation of high-quality face images and offer rich interfaces for controllable semantics editing and preserving photo quality. We aim to provide an entry point into the field for readers that have basic knowledge about the field of deep learning and are looking for an accessible introduction and overview.
翻訳日:2023-04-14 17:16:20 公開日:2023-04-13
# rpn: 言語理解のためのディープラーニングにおける単語ベクトルレベルデータ拡張アルゴリズム

RPN: A Word Vector Level Data Augmentation Algorithm in Deep Learning for Language Understanding ( http://arxiv.org/abs/2212.05961v2 )

ライセンス: Link先を確認
Zhengqing Yuan, Zhuanzhe Zhao, Yongming Liu, Xiaolong Zhang, Xuecong Hou, Yue Wang and Huiwen Xue(参考訳) データ拡張は、モデルパフォーマンスを改善するために機械学習で広く使われているテクニックである。 しかし、自然言語理解(NLU)における既存のデータ拡張技術は、自然言語のバリエーションの複雑さを完全にとらえるには至らず、大規模なデータセットに適用することは困難である。 本稿では,単語ベクトルレベルで動作させる新しいデータ拡張手法であるRandom Position Noise (RPN)アルゴリズムを提案する。 rpnは、選択された単語ベクトルの既存の値に基づいてノイズを導入することで、元のテキストの単語埋め込みを修正し、よりきめ細かい修正を可能にし、自然言語のバリエーションをよりよく捉えることができる。 従来のデータ拡張方法とは異なり、RPNは仮想サンプル更新中に計算グラフの勾配を必要としないため、大規模なデータセットに適用しやすくなる。 実験の結果、RPNは感情分析、自然言語推論、パラフレーズ検出など、様々なNLUタスクにおいて、既存のデータ拡張技術よりも一貫して優れていることが示された。 さらに、RPNは低リソース環境では良好に動作し、ワード埋め込み層を備えたモデルにも適用できる。 提案したRPNアルゴリズムは,NLUの性能向上と,大規模NLUタスクにおける従来のデータ拡張技術に関連する課題に対処するための有望な手法である。 実験の結果、RPNアルゴリズムは7つのNLUタスクすべてにおいて最先端の性能を達成し、実世界のNLUアプリケーションの有効性と可能性を強調した。

Data augmentation is a widely used technique in machine learning to improve model performance. However, existing data augmentation techniques in natural language understanding (NLU) may not fully capture the complexity of natural language variations, and they can be challenging to apply to large datasets. This paper proposes the Random Position Noise (RPN) algorithm, a novel data augmentation technique that operates at the word vector level. RPN modifies the word embeddings of the original text by introducing noise based on the existing values of selected word vectors, allowing for more fine-grained modifications and better capturing natural language variations. Unlike traditional data augmentation methods, RPN does not require gradients in the computational graph during virtual sample updates, making it simpler to apply to large datasets. Experimental results demonstrate that RPN consistently outperforms existing data augmentation techniques across various NLU tasks, including sentiment analysis, natural language inference, and paraphrase detection. Moreover, RPN performs well in low-resource settings and is applicable to any model featuring a word embeddings layer. The proposed RPN algorithm is a promising approach for enhancing NLU performance and addressing the challenges associated with traditional data augmentation techniques in large-scale NLU tasks. Our experimental results demonstrated that the RPN algorithm achieved state-of-the-art performance in all seven NLU tasks, thereby highlighting its effectiveness and potential for real-world NLU applications.
翻訳日:2023-04-14 17:15:40 公開日:2023-04-13
# CiaoSR: 任意スケール画像超解像のための連続入射注意ネットワーク

CiaoSR: Continuous Implicit Attention-in-Attention Network for Arbitrary-Scale Image Super-Resolution ( http://arxiv.org/abs/2212.04362v3 )

ライセンス: Link先を確認
Jiezhang Cao, Qin Wang, Yongqin Xian, Yawei Li, Bingbing Ni, Zhiming Pi, Kai Zhang, Yulun Zhang, Radu Timofte, Luc Van Gool(参考訳) 連続画像表現の学習は、低解像度入力から任意のスケールで高解像度画像を再構成できるため、画像超解像(SR)として最近人気が高まっている。 既存の手法のほとんどは、SR画像内の任意のクエリされた座標で新しいピクセルを予測するために、近くの特徴をまとめる。 このようなローカルアンサンブルにはいくつかの制限がある。 一 学習可能なパラメータがなく、視覚的特徴の類似性を無視していること。 二 受容体が限られており、画像において重要な大きなフィールドにおいて関連した特徴を合理化できないこと。 この問題に対処するため,本論文ではciaosrと呼ばれる暗黙の注意のネットワークを提案する。 暗黙の注意ネットワークを明示的に設計し,近傍の局所特徴のアンサンブル重みを学習する。 さらに,この暗黙の注意ネットワークにスケールアウェアの注意を埋め込み,追加の非ローカル情報を活用する。 ベンチマークデータセットに対する大規模な実験は、CiaoSRが既存の単一画像SRメソッドを同じバックボーンで大幅に上回っていることを示している。 さらに、CiaoSRは任意のスケールのSRタスクで最先端のパフォーマンスを達成する。 本手法の有効性は実世界のsr設定にも示される。 さらに重要なことに、ciaosrはsrのパフォーマンスを改善するために任意のバックボーンに柔軟に統合できる。

Learning continuous image representations is recently gaining popularity for image super-resolution (SR) because of its ability to reconstruct high-resolution images with arbitrary scales from low-resolution inputs. Existing methods mostly ensemble nearby features to predict the new pixel at any queried coordinate in the SR image. Such a local ensemble suffers from some limitations: i) it has no learnable parameters and it neglects the similarity of the visual features; ii) it has a limited receptive field and cannot ensemble relevant features in a large field which are important in an image. To address these issues, this paper proposes a continuous implicit attention-in-attention network, called CiaoSR. We explicitly design an implicit attention network to learn the ensemble weights for the nearby local features. Furthermore, we embed a scale-aware attention in this implicit attention network to exploit additional non-local information. Extensive experiments on benchmark datasets demonstrate CiaoSR significantly outperforms the existing single image SR methods with the same backbone. In addition, CiaoSR also achieves the state-of-the-art performance on the arbitrary-scale SR task. The effectiveness of the method is also demonstrated on the real-world SR setting. More importantly, CiaoSR can be flexibly integrated into any backbone to improve the SR performance.
翻訳日:2023-04-14 17:15:17 公開日:2023-04-13
# 非一様ラベルを用いた医用人工知能モデルの協調学習

Collaborative Training of Medical Artificial Intelligence Models with non-uniform Labels ( http://arxiv.org/abs/2211.13606v2 )

ライセンス: Link先を確認
Soroosh Tayebi Arasteh, Peter Isfort, Marwin Saehn, Gustav Mueller-Franzes, Firas Khader, Jakob Nikolas Kather, Christiane Kuhl, Sven Nebelung, Daniel Truhn(参考訳) 近年の急速な進歩により、医学画像解析は主にディープラーニング(dl)が中心となっている。 しかし、強力で堅牢なDLモデルを構築するには、大規模なマルチパーティデータセットによるトレーニングが必要である。 複数のステークホルダが公開データセットを提供しているが、これらのデータのラベル付け方法は大きく異なる。 例えば、ある機関は肺炎の存在を示すラベルを含む胸部X線写真データセットを提供し、別の機関は肺転移の有無を決定することに焦点を当てるかもしれない。 これらのデータを利用する単一のAIモデルをトレーニングすることは、従来の連邦学習(FL)では実現不可能である。 これにより、これらのデータに対する協調学習のためのフレキシブル・フェデレーション・ラーニング(FFL)という、広範なFLプロセスの拡張を提案する。 異なるラベルのラベルを持つ全5機関の695,000の胸部x線写真を用いて,fflベースのトレーニングでは,均一にアノテートされた画像のみを使用する従来のflトレーニングに比べて大きなパフォーマンス向上が期待できることを示した。 提案アルゴリズムは,研究段階からシミュレーション段階の協調トレーニング手法を,医療分野の現実的な応用に導入する過程を促進できると考えている。

Due to the rapid advancements in recent years, medical image analysis is largely dominated by deep learning (DL). However, building powerful and robust DL models requires training with large multi-party datasets. While multiple stakeholders have provided publicly available datasets, the ways in which these data are labeled vary widely. For Instance, an institution might provide a dataset of chest radiographs containing labels denoting the presence of pneumonia, while another institution might have a focus on determining the presence of metastases in the lung. Training a single AI model utilizing all these data is not feasible with conventional federated learning (FL). This prompts us to propose an extension to the widespread FL process, namely flexible federated learning (FFL) for collaborative training on such data. Using 695,000 chest radiographs from five institutions from across the globe - each with differing labels - we demonstrate that having heterogeneously labeled datasets, FFL-based training leads to significant performance increase compared to conventional FL training, where only the uniformly annotated images are utilized. We believe that our proposed algorithm could accelerate the process of bringing collaborative training methods from research and simulation phase to the real-world applications in healthcare.
翻訳日:2023-04-14 17:14:57 公開日:2023-04-13
# Tensor4D : 高忠実度動的再構成とレンダリングのための高効率ニューラルネットワーク4D分解

Tensor4D : Efficient Neural 4D Decomposition for High-fidelity Dynamic Reconstruction and Rendering ( http://arxiv.org/abs/2211.11610v2 )

ライセンス: Link先を確認
Ruizhi Shao, Zerong Zheng, Hanzhang Tu, Boning Liu, Hongwen Zhang, Yebin Liu(参考訳) 動的シーンモデリングの効率的かつ効果的なアプローチであるtensor4dを提案する。 提案手法の鍵は,動的シーンを4次元時空間テンソルとして直接表現できるように,効率的な4次元テンソル分解法である。 付随するメモリ問題に対処するため、4次元テンソルを階層的に分割し、まず3つの時間認識ボリュームと9つのコンパクト特徴面に投影する。 これにより、時空間情報をコンパクトかつメモリ効率のよい方法で同時にキャプチャすることができる。 動的シーン再構成とレンダリングにTensor4Dを適用する場合、構造運動と動的詳細変化が粗いものから細かいものへと学習できるという意味で、4Dフィールドを異なるスケールに分解する。 本手法の有効性は,合成シーンと実世界シーンの両方で検証できる。 広汎な実験により,スパースビューカメラリグや単眼カメラから高品質な動的再構成とレンダリングを実現することができた。 コードとデータセットはhttps://liuyebin.com/tensor4d/tensor4d.htmlでリリースされる。

We present Tensor4D, an efficient yet effective approach to dynamic scene modeling. The key of our solution is an efficient 4D tensor decomposition method so that the dynamic scene can be directly represented as a 4D spatio-temporal tensor. To tackle the accompanying memory issue, we decompose the 4D tensor hierarchically by projecting it first into three time-aware volumes and then nine compact feature planes. In this way, spatial information over time can be simultaneously captured in a compact and memory-efficient manner. When applying Tensor4D for dynamic scene reconstruction and rendering, we further factorize the 4D fields to different scales in the sense that structural motions and dynamic detailed changes can be learned from coarse to fine. The effectiveness of our method is validated on both synthetic and real-world scenes. Extensive experiments show that our method is able to achieve high-quality dynamic reconstruction and rendering from sparse-view camera rigs or even a monocular camera. The code and dataset will be released at https://liuyebin.com/tensor4d/tensor4d.html.
翻訳日:2023-04-14 17:14:39 公開日:2023-04-13
# トークンチューリング機

Token Turing Machines ( http://arxiv.org/abs/2211.09119v2 )

ライセンス: Link先を確認
Michael S. Ryoo, Keerthana Gopalakrishnan, Kumara Kahatapitiya, Ted Xiao, Kanishka Rao, Austin Stone, Yao Lu, Julian Ibarz, Anurag Arnab(参考訳) 本稿では,実世界のシーケンシャル視覚理解のためのメモリを有する逐次的自己回帰トランスフォーマーモデルであるtoken turing machines (ttm)を提案する。 私たちのモデルは、セナルニューラルチューリングマシンにインスパイアされ、前の履歴(つまりフレーム)を要約したトークンセットからなる外部メモリを持っています。 このメモリは、各ステップで処理ユニット/コントローラとしてTransformerを使用して、効率よくアドレス化され、読み書きされる。 モデルのメモリモジュールは、新しい観測がメモリの内容(履歴全体ではなく)でのみ処理されることを保証する。 TTMは、ビデオからのオンラインの時間的活動検出とビジョンベースのロボット行動ポリシー学習という、2つの現実の逐次的視覚理解タスクにおいて、長いシーケンスや繰り返しニューラルネットワーク用に設計された他のTransformerモデルよりも優れていることを示す。 コードは、https://github.com/google-research/scenic/tree/main/scenic/projects/token_turingで公開されている。

We propose Token Turing Machines (TTM), a sequential, autoregressive Transformer model with memory for real-world sequential visual understanding. Our model is inspired by the seminal Neural Turing Machine, and has an external memory consisting of a set of tokens which summarise the previous history (i.e., frames). This memory is efficiently addressed, read and written using a Transformer as the processing unit/controller at each step. The model's memory module ensures that a new observation will only be processed with the contents of the memory (and not the entire history), meaning that it can efficiently process long sequences with a bounded computational cost at each step. We show that TTM outperforms other alternatives, such as other Transformer models designed for long sequences and recurrent neural networks, on two real-world sequential visual understanding tasks: online temporal activity detection from videos and vision-based robot action policy learning. Code is publicly available at: https://github.com/google-research/scenic/tree/main/scenic/projects/token_turing
翻訳日:2023-04-14 17:14:21 公開日:2023-04-13
# テキスト要約のためのFactual Inconsistency EvaluatorとしてのChatGPT

ChatGPT as a Factual Inconsistency Evaluator for Text Summarization ( http://arxiv.org/abs/2303.15621v2 )

ライセンス: Link先を確認
Zheheng Luo, Qianqian Xie, Sophia Ananiadou(参考訳) テキスト要約の性能は、事前訓練された言語モデルによって大幅に向上した。 既存の方法の主な関心事は、ほとんどの生成したサマリーが実際にソースドキュメントと一貫性がないことである。 この問題を軽減するため,自然言語推論,質問応答,構文依存などに基づく効果的な事実性評価指標の開発に多くの取り組みが注がれている。 しかしながら、これらのアプローチは高い計算複雑性または多成分パイプラインによって導入された不確実性によって制限されており、結果として人間の判断と部分的に一致しているだけである。 近年,大規模言語モデル (LLM) はテキスト生成だけでなく言語理解にも優れた性能を示している。 本稿では,ChatGPTがゼロショット設定下で現実的不整合性を評価する能力について,二項関係推論,要約ランキング,整合性評価などの粗粒度およびきめ細かな評価タスクで検証することによって検討する。 実験結果から,ChatGPTは従来の3つのタスクにおける評価指標よりも優れており,現実的不整合評価の可能性が示唆された。 しかし、ChatGPTの出力を綿密に検査すると、より語彙的に類似した候補を好むこと、誤った推論、指示の不十分な理解など、一定の制限が示される。

The performance of text summarization has been greatly boosted by pre-trained language models. A main concern of existing methods is that most generated summaries are not factually inconsistent with their source documents. To alleviate the problem, many efforts have focused on developing effective factuality evaluation metrics based on natural language inference, question answering, and syntactic dependency et al. However, these approaches are limited by either their high computational complexity or the uncertainty introduced by multi-component pipelines, resulting in only partial agreement with human judgement. Most recently, large language models(LLMs) have shown excellent performance in not only text generation but also language comprehension. In this paper, we particularly explore ChatGPT's ability to evaluate factual inconsistency under a zero-shot setting by examining it on both coarse-grained and fine-grained evaluation tasks including binary entailment inference, summary ranking, and consistency rating. Experimental results indicate that ChatGPT generally outperforms previous evaluation metrics across the three tasks, indicating its great potential for factual inconsistency evaluation. However, a closer inspection of ChatGPT's output reveals certain limitations including its preference for more lexically similar candidates, false reasoning, and inadequate understanding of instructions.
翻訳日:2023-04-14 17:07:38 公開日:2023-04-13
# ハイブリッドCNN-RNNの重ね合わせを用いた構造振動信号復調

Structural Vibration Signal Denoising Using Stacking Ensemble of Hybrid CNN-RNN ( http://arxiv.org/abs/2303.11413v3 )

ライセンス: Link先を確認
Youzhi Liang, Wen Liang, Jianguo Jia(参考訳) 振動信号は, 構造的健康モニタリング, 故障診断, 損傷検出など, 様々な工学的目的に利用され, 構造物の状態や整合性に関する貴重な情報を提供するようになっている。 近年,生物工学の分野では振動信号の利用が増加している。 活動誘発構造振動、特にフットステップによる信号は、人体や動物などの生体系の運動を分析するのに役立ち、個人の歩行、体重、姿勢に関する貴重な情報を提供し、健康モニタリング、セキュリティ、人間とコンピュータの相互作用のための魅力的なツールとなる。 しかし、様々なノイズの存在は、フットステップによる信号解析の精度を損なう可能性がある。 本稿では、複数の信号のアンサンブルと、再帰的および畳み込み型ニューラルネットワークの予測の両方を利用する新しいアンサンブルモデルを提案する。 提案モデルは,前処理,ハイブリッドモデリング,アンサンブルの3段階からなる。 プリプロセッシング段階では、高速フーリエ変換とウェーブレット変換を用いて特徴を抽出し、系の物理に支配されたダイナミクスを捉え、空間的および時間的特徴を抽出する。 ハイブリッドモデリング段階では、fft結果と連結されたノイズ信号に双方向lstmを用い、cnnを用いて信号の凝縮特徴表現を得る。 アンサンブル段階では、完全に接続されたニューラルネットワークの3つの層を用いて最終識別信号を生成する。 提案モデルでは,PSNR,SNR,WMAPEを用いて,広帯域の雑音レベルのアルゴリズムよりも優れる構造振動信号に関する課題に対処する。

Vibration signals have been increasingly utilized in various engineering fields for analysis and monitoring purposes, including structural health monitoring, fault diagnosis and damage detection, where vibration signals can provide valuable information about the condition and integrity of structures. In recent years, there has been a growing trend towards the use of vibration signals in the field of bioengineering. Activity-induced structural vibrations, particularly footstep-induced signals, are useful for analyzing the movement of biological systems such as the human body and animals, providing valuable information regarding an individual's gait, body mass, and posture, making them an attractive tool for health monitoring, security, and human-computer interaction. However, the presence of various types of noise can compromise the accuracy of footstep-induced signal analysis. In this paper, we propose a novel ensemble model that leverages both the ensemble of multiple signals and of recurrent and convolutional neural network predictions. The proposed model consists of three stages: preprocessing, hybrid modeling, and ensemble. In the preprocessing stage, features are extracted using the Fast Fourier Transform and wavelet transform to capture the underlying physics-governed dynamics of the system and extract spatial and temporal features. In the hybrid modeling stage, a bi-directional LSTM is used to denoise the noisy signal concatenated with FFT results, and a CNN is used to obtain a condensed feature representation of the signal. In the ensemble stage, three layers of a fully-connected neural network are used to produce the final denoised signal. The proposed model addresses the challenges associated with structural vibration signals, which outperforms the prevailing algorithms for a wide range of noise levels, evaluated using PSNR, SNR, and WMAPE.
翻訳日:2023-04-14 17:07:01 公開日:2023-04-13
# オンラインインタラクティブゲーム設計のための進化エンジンとしてのchatgptや他の大規模言語モデル

ChatGPT and Other Large Language Models as Evolutionary Engines for Online Interactive Collaborative Game Design ( http://arxiv.org/abs/2303.02155v2 )

ライセンス: Link先を確認
Pier Luca Lanzi and Daniele Loiacono(参考訳) 大規模言語モデル(llm)は、自然言語処理と人間とコンピュータの相互作用の状況を変え、科学の世界を嵐にさらしている。 これらの強力なツールは複雑な質問に答えることができ、驚くべきことに、挑戦的な創造的なタスク(例えば、問題を解くコードやアプリケーションを生成する、ストーリーを書く、音楽の一部など)を行うことができます。 本稿では,対話型進化と大規模言語モデルを組み合わせて,人間の典型的なデザイン過程をシミュレートする協調型ゲーム設計フレームワークを提案する。 ユーザからのフィードバックを活用して,非常に複雑な創造的タスク – アイデアの再結合とバリエーション – に対して,最も有望なアイデアと大きな言語モデルを選択するのです。 私たちのフレームワークでは、プロセスは簡潔で一連の候補設計から始まり、言語モデルを使って生成されたり、ユーザが提案したりします。 次に、ユーザは最も有望なデザインを選択し、再結合し、変更するインタラクティブな遺伝的アルゴリズムにフィードバックを提供することで、デザインプロセスで協力します。 遠隔共同作業を行う人間設計者を対象に,3つのゲームデザインタスクの枠組みを評価した。

Large language models (LLMs) have taken the scientific world by storm, changing the landscape of natural language processing and human-computer interaction. These powerful tools can answer complex questions and, surprisingly, perform challenging creative tasks (e.g., generate code and applications to solve problems, write stories, pieces of music, etc.). In this paper, we present a collaborative game design framework that combines interactive evolution and large language models to simulate the typical human design process. We use the former to exploit users' feedback for selecting the most promising ideas and large language models for a very complex creative task - the recombination and variation of ideas. In our framework, the process starts with a brief and a set of candidate designs, either generated using a language model or proposed by the users. Next, users collaborate on the design process by providing feedback to an interactive genetic algorithm that selects, recombines, and mutates the most promising designs. We evaluated our framework on three game design tasks with human designers who collaborated remotely.
翻訳日:2023-04-14 17:06:23 公開日:2023-04-13
# アルツハイマー病に対するEvidence-empowered Transfer Learning

Evidence-empowered Transfer Learning for Alzheimer's Disease ( http://arxiv.org/abs/2303.01105v3 )

ライセンス: Link先を確認
Kai Tzu-iunn Ong, Hana Kim, Minjin Kim, Jinseong Jang, Beomseok Sohn, Yoon Seong Choi, Dosik Hwang, Seong Jae Hwang, Jinyoung Yeo(参考訳) 転送学習は、アルツハイマー病(AD)の分野でのデータ不足を緩和するために広く利用されている。 従来の転写学習は、自然画像分類のようなAD非関連タスクで訓練された再利用モデルに依存している。 しかし、非医療的源と対象の医療領域の相違により、しばしば負の移動を引き起こす。 そこで我々はAD診断にエビデンスを応用した転写学習を提案する。 従来の手法とは違って,付加的なMRIデータを必要としないAD関連補助タスク,すなわち形態変化予測を利用する。 この補助課題において、診断モデルはMRIスキャンにおける形態的特徴から明らかかつ伝達可能な知識を学習する。 実験の結果,モデルキャパシティによらず検出性能の向上に有効であるだけでなく,データ効率と信頼性も向上した。

Transfer learning has been widely utilized to mitigate the data scarcity problem in the field of Alzheimer's disease (AD). Conventional transfer learning relies on re-using models trained on AD-irrelevant tasks such as natural image classification. However, it often leads to negative transfer due to the discrepancy between the non-medical source and target medical domains. To address this, we present evidence-empowered transfer learning for AD diagnosis. Unlike conventional approaches, we leverage an AD-relevant auxiliary task, namely morphological change prediction, without requiring additional MRI data. In this auxiliary task, the diagnosis model learns the evidential and transferable knowledge from morphological features in MRI scans. Experimental results demonstrate that our framework is not only effective in improving detection performance regardless of model capacity, but also more data-efficient and faithful.
翻訳日:2023-04-14 17:06:06 公開日:2023-04-13
# hulk: 地域分散コンピューティングシステム最適化のためのグラフニューラルネットワーク

Hulk: Graph Neural Networks for Optimizing Regionally Distributed Computing Systems ( http://arxiv.org/abs/2302.13741v2 )

ライセンス: Link先を確認
Zhengqing Yuan, Huiwen Xue, Chao Zhang, Yongming Liu(参考訳) 大規模なディープラーニングモデルは、様々なアプリケーションで例外的な結果をもたらす大きな可能性を示している。 しかし、モデルの膨大なパラメータサイズのため、トレーニングプロセスは信じられないほど難しく、しばしば数十億のパラメータで構成される。 データ並列性、テンソル並列性、パイプライン並列性といった一般的な分散トレーニング手法は、プロセス全体を通して重要なデータ通信を必要としており、物理的に離れた分散システムにおける一部のマシンの待ち時間が長くなる。 この問題に対処するために,修正グラフニューラルネットワークを用いて分散コンピューティングシステムの最適化を行うHulkという新しいソリューションを提案する。 hulkは、異なる国や同じ都市内の異なる地域間でのデータ通信効率を最適化するだけでなく、並列にモデルの最適な分散配置を提供する。 例えば、特定の領域のマシンに特定のレイヤを配置したり、特定の場所のマシンにモデルの特定のパラメータを渡すことができる。 hulkを実験に使用することにより,大規模ディープラーニングモデルを分散システム上でトレーニングする時間効率を20%以上向上することができた。 ラベルなしデータのオープンソースコレクション:https://github.com/DLYuanGod/Hulk。

Large deep learning models have shown great potential for delivering exceptional results in various applications. However, the training process can be incredibly challenging due to the models' vast parameter sizes, often consisting of hundreds of billions of parameters. Common distributed training methods, such as data parallelism, tensor parallelism, and pipeline parallelism, demand significant data communication throughout the process, leading to prolonged wait times for some machines in physically distant distributed systems. To address this issue, we propose a novel solution called Hulk, which utilizes a modified graph neural network to optimize distributed computing systems. Hulk not only optimizes data communication efficiency between different countries or even different regions within the same city, but also provides optimal distributed deployment of models in parallel. For example, it can place certain layers on a machine in a specific region or pass specific parameters of a model to a machine in a particular location. By using Hulk in experiments, we were able to improve the time efficiency of training large deep learning models on distributed systems by more than 20\%. Our open source collection of unlabeled data:https://github.com/DLYuanGod/Hulk.
翻訳日:2023-04-14 17:05:54 公開日:2023-04-13
# K-SHAP:匿名状態対応ペアのためのポリシークラスタリングアルゴリズム

K-SHAP: Policy Clustering Algorithm for Anonymous State-Action Pairs ( http://arxiv.org/abs/2302.11996v2 )

ライセンス: Link先を確認
Andrea Coletta, Svitlana Vyetrenko, Tucker Balch(参考訳) 観察データからエージェントの行動を学ぶことで、意思決定プロセスの理解が向上し、環境や他のエージェントとの相互作用を説明する能力が向上した。 複数の学習手法が文献で提案されているが、まだ研究されていない特定の設定が一つある: エージェントのアイデンティティが匿名のままであるマルチエージェントシステム。 例えば、市場参加者戦略を特定するラベル付きデータは通常、プロプライエタリであり、複数の市場参加者のインタラクションから生じる匿名のステートアクションペアのみが公開されています。 その結果、エージェントアクションのシーケンスは観測不能となり、既存の作業の適用性が制限される。 本稿では、エージェントポリシーに従って匿名状態-アクションペアをグループ化するK-SHAPと呼ばれるポリシークラスタリングアルゴリズムを提案する。 我々は、問題を模倣学習(il)タスクとして捉え、異なる環境状態における全てのエージェントの振る舞いを模倣できる世界政治を学ぶ。 我々は,shap(shapley additive descriptions)と呼ばれる付加的特徴帰属法を用いて,各匿名観察を説明するために,世界政治を利用する。 最後に,これらの説明をクラスタリングすることで,異なるエージェントポリシーやグループ観察を識別できることを示す。 シミュレーションされた市場データと実世界の金融データセットに対するアプローチを評価した。 我々は,提案手法が既存の手法を著しくかつ一貫して上回り,異なるエージェント戦略を特定していることを示す。

Learning agent behaviors from observational data has shown to improve our understanding of their decision-making processes, advancing our ability to explain their interactions with the environment and other agents. While multiple learning techniques have been proposed in the literature, there is one particular setting that has not been explored yet: multi agent systems where agent identities remain anonymous. For instance, in financial markets labeled data that identifies market participant strategies is typically proprietary, and only the anonymous state-action pairs that result from the interaction of multiple market participants are publicly available. As a result, sequences of agent actions are not observable, restricting the applicability of existing work. In this paper, we propose a Policy Clustering algorithm, called K-SHAP, that learns to group anonymous state-action pairs according to the agent policies. We frame the problem as an Imitation Learning (IL) task, and we learn a world-policy able to mimic all the agent behaviors upon different environmental states. We leverage the world-policy to explain each anonymous observation through an additive feature attribution method called SHAP (SHapley Additive exPlanations). Finally, by clustering the explanations we show that we are able to identify different agent policies and group observations accordingly. We evaluate our approach on simulated synthetic market data and a real-world financial dataset. We show that our proposal significantly and consistently outperforms the existing methods, identifying different agent strategies.
翻訳日:2023-04-14 17:05:35 公開日:2023-04-13
# マイクロファンが共有する小さなシフトが長い道のりを歩む

With Shared Microexponents, A Little Shifting Goes a Long Way ( http://arxiv.org/abs/2302.08007v2 )

ライセンス: Link先を確認
Bita Rouhani, Ritchie Zhao, Venmugil Elango, Rasoul Shafipour, Mathew Hall, Maral Mesmakhosroshahi, Ankit More, Levi Melnick, Maximilian Golub, Girish Varatkar, Lei Shao, Gaurav Kolhe, Dimitry Melts, Jasmine Klar, Renee L'Heureux, Matt Perry, Doug Burger, Eric Chung, Zhaoxia Deng, Sam Naghshineh, Jongsoo Park, Maxim Naumov(参考訳) 本稿では,ブロックデータ表現(bdr, block data representations)について述べる。 一般的な量子化標準の比較が可能であり、bdrにより、狭い精度の浮動小数点やブロック浮動小数点など、最先端の量子化アプローチに勝る共有マイクロ指数(mx)に基づく新しいフォーマットが特定される。 mxは、ハードウェア内の共有マイクロエクスペンデントに基づく超微細なスケーリング係数と、複数のレベルの量子化スケーリングを利用する。 mxの有効性を実世界モデルで実証し, 大規模生成前訓練, 参照システム, 生産レコメンデーションシステムなどについて検討した。

This paper introduces Block Data Representations (BDR), a framework for exploring and evaluating a wide spectrum of narrow-precision formats for deep learning. It enables comparison of popular quantization standards, and through BDR, new formats based on shared microexponents (MX) are identified, which outperform other state-of-the-art quantization approaches, including narrow-precision floating-point and block floating-point. MX utilizes multiple levels of quantization scaling with ultra-fine scaling factors based on shared microexponents in the hardware. The effectiveness of MX is demonstrated on real-world models including large-scale generative pretraining and inferencing, and production-scale recommendation systems.
翻訳日:2023-04-14 17:05:13 公開日:2023-04-13
# 機械学習研究の推論可能性に向けて

Towards Inferential Reproducibility of Machine Learning Research ( http://arxiv.org/abs/2302.04054v5 )

ライセンス: Link先を確認
Michael Hagmann, Philipp Meier and Stefan Riezler(参考訳) 機械学習評価の信頼性 -- 再現されたモデルトレーニング実行における観察された評価スコアの一貫性 -- は、測定ノイズと見なされる複数の非決定性源に影響される。 研究結果の再現性を強制するためにノイズを除去する現在の傾向は、実装レベルで固有の非決定性を無視し、アルゴリズム的ノイズ要因とデータ特性の間の重要な相互作用効果を無視している。 これはそのような実験から引き出すことができる結論の範囲を制限する。 ノイズを除去する代わりに、学習モデルの特定のインスタンスを超えて推論を引き出すことを目的とした、機械学習評価の重要度と信頼性の分析に、データ特性との相互作用を含む複数のばらつき源を組み込むことを提案する。 本稿では,線形混合効果モデル (LMEM) を用いて評価スコアを解析し,一般確率比テスト (GLRT) を用いて統計的推論を行う方法を示す。 これにより、メタパラメータの変動のような任意のノイズ源を統計的に有意なテストに組み込むことができ、データ特性に基づく性能差を評価することができる。 さらに、分散成分分析(VCA)により、ノイズ源の総合的な分散への寄与の分析と、全分散に対する実質的な比による信頼性係数の計算が可能となる。

Reliability of machine learning evaluation -- the consistency of observed evaluation scores across replicated model training runs -- is affected by several sources of nondeterminism which can be regarded as measurement noise. Current tendencies to remove noise in order to enforce reproducibility of research results neglect inherent nondeterminism at the implementation level and disregard crucial interaction effects between algorithmic noise factors and data properties. This limits the scope of conclusions that can be drawn from such experiments. Instead of removing noise, we propose to incorporate several sources of variance, including their interaction with data properties, into an analysis of significance and reliability of machine learning evaluation, with the aim to draw inferences beyond particular instances of trained models. We show how to use linear mixed effects models (LMEMs) to analyze performance evaluation scores, and to conduct statistical inference with a generalized likelihood ratio test (GLRT). This allows us to incorporate arbitrary sources of noise like meta-parameter variations into statistical significance testing, and to assess performance differences conditional on data properties. Furthermore, a variance component analysis (VCA) enables the analysis of the contribution of noise sources to overall variance and the computation of a reliability coefficient by the ratio of substantial to total variance.
翻訳日:2023-04-14 17:05:00 公開日:2023-04-13
# EvoText: 最新の知識とパフォーマンス向上のための自己エスカレーション学習による自然言語生成モデルの強化

EvoText: Enhancing Natural Language Generation Models via Self-Escalation Learning for Up-to-Date Knowledge and Improved Performance ( http://arxiv.org/abs/2302.03896v3 )

ライセンス: Link先を確認
Zhengqing Yuan, Huiwen Xue, Chao Zhang and Yongming Liu(参考訳) 近年,自然言語理解,コンピュータビジョン,自然言語生成など様々な分野において,事前学習モデルが広く利用されている。 しかし,これらの言語生成モデルの性能は,モデルサイズとデータセットサイズに大きく依存している。 より大きなモデルはいくつかの面で優れているが、最新の知識を学べず、再学習が比較的難しい。 本稿では,学習過程全体において追加のデータセットを必要とすることなく,自然言語生成モデルの性能を向上させる新しいトレーニング手法であるEvoTextを紹介する(事前学習には事前データセットが必要であるが)。 evotextは、テキスト生成モデルである$g$と、$g$によって生成されたデータが正当であるかどうかを判断できる$d$という2つのモデルを採用している。 最初は、微調整された$d$モデルが知識ベースとして機能する。 すると$G$が生成したテキストが$D$に入力され、それが正当かどうかが決定される。 最後に$G$は$D$の出力に基づいて微調整される。 evotextは、事前知識に基づく自己エスカレーションプロセスを通じて、モデルが最新知識を学習することを可能にする。 EvoTextが何か新しいことを学ぶ必要があるとき、それは単に$D$モデルを微調整するだけだ。 我々のアプローチは、全てのトランスフォーマークラスの自己回帰言語モデリングに適用する。 EvoTextでは、モデル構造を変更することなく、7つの自然言語処理タスクを安定的に改善した。

In recent years, pretrained models have been widely used in various fields, including natural language understanding, computer vision, and natural language generation. However, the performance of these language generation models is highly dependent on the model size and the dataset size. While larger models excel in some aspects, they cannot learn up-to-date knowledge and are relatively difficult to relearn. In this paper, we introduce EvoText, a novel training method that enhances the performance of any natural language generation model without requiring additional datasets during the entire training process (although a prior dataset is necessary for pretraining). EvoText employs two models: $G$, a text generation model, and $D$, a model that can determine whether the data generated by $G$ is legitimate. Initially, the fine-tuned $D$ model serves as the knowledge base. The text generated by $G$ is then input to $D$ to determine whether it is legitimate. Finally, $G$ is fine-tuned based on $D$'s output. EvoText enables the model to learn up-to-date knowledge through a self-escalation process that builds on a priori knowledge. When EvoText needs to learn something new, it simply fine-tunes the $D$ model. Our approach applies to autoregressive language modeling for all Transformer classes. With EvoText, eight models achieved stable improvements in seven natural language processing tasks without any changes to the model structure.
翻訳日:2023-04-14 17:04:39 公開日:2023-04-13
# 多言語意味パーサのためのアクティブラーニング

Active Learning for Multilingual Semantic Parser ( http://arxiv.org/abs/2301.12920v3 )

ライセンス: Link先を確認
Zhuang Li, Gholamreza Haffari(参考訳) 現在のマルチ言語セマンティックパーシング(MSP)データセットは、既存のデータセットの発話をリソース豊富な言語からターゲット言語に翻訳することで、ほぼすべて収集される。 しかし、手作業による翻訳はコストがかかる。 そこで本研究では,MSP (AL-MSP) のための最初の能動的学習手法を提案する。 AL-MSPは翻訳対象の既存のデータセットからサブセットのみを選択する。 また,より語彙的な選択によって論理形式構造を多様化する例を優先する新しい選択法と,追加のアノテーションコストを必要としない新しいハイパーパラメータチューニング法を提案する。 実験の結果,AL-MSPは理想的な選択法で翻訳コストを大幅に削減できることがわかった。 提案手法は,2つの多言語データセットの他のベースラインよりも解析性能がよい。

Current multilingual semantic parsing (MSP) datasets are almost all collected by translating the utterances in the existing datasets from the resource-rich language to the target language. However, manual translation is costly. To reduce the translation effort, this paper proposes the first active learning procedure for MSP (AL-MSP). AL-MSP selects only a subset from the existing datasets to be translated. We also propose a novel selection method that prioritizes the examples diversifying the logical form structures with more lexical choices, and a novel hyperparameter tuning method that needs no extra annotation cost. Our experiments show that AL-MSP significantly reduces translation costs with ideal selection methods. Our selection method with proper hyperparameters yields better parsing performance than the other baselines on two multilingual datasets.
翻訳日:2023-04-14 17:04:22 公開日:2023-04-13
# 平均フィールドゲーム安定化のためのポリシー更新の規則化

Regularization of the policy updates for stabilizing Mean Field Games ( http://arxiv.org/abs/2304.01547v2 )

ライセンス: Link先を確認
Talal Algumaei, Ruben Solozabal, Reda Alami, Hakim Hacid, Merouane Debbah, Martin Takac(参考訳) 本研究は,複数エージェントが同一環境下で相互作用する非協調的マルチエージェント強化学習(MARL)について検討する。 多くのエージェントが導入する非定常性によってエージェント数をスケールアップする場合、課題が発生する。 この問題に対処するため、平均場ゲームズ(MFG)は対称性と均一性の仮定を非常に人口の多い近似ゲームに頼っている。 近年,MFGを多数の状態を持つゲームに拡張するために,深層強化学習が用いられている。 現在の方法は、q値の平均化や平均場分布の更新のような平滑化技術に依存している。 本研究は,平均場ポリシーの近位更新に基づく学習を安定化するための異なるアプローチを示す。 提案アルゴリズムは,MF-PPO (Mean Field Proximal Policy Optimization) と命名し,OpenSpielフレームワークにおける提案手法の有効性を実証的に示す。

This work studies non-cooperative Multi-Agent Reinforcement Learning (MARL) where multiple agents interact in the same environment and whose goal is to maximize the individual returns. Challenges arise when scaling up the number of agents due to the resultant non-stationarity that the many agents introduce. In order to address this issue, Mean Field Games (MFG) rely on the symmetry and homogeneity assumptions to approximate games with very large populations. Recently, deep Reinforcement Learning has been used to scale MFG to games with larger number of states. Current methods rely on smoothing techniques such as averaging the q-values or the updates on the mean-field distribution. This work presents a different approach to stabilize the learning based on proximal updates on the mean-field policy. We name our algorithm Mean Field Proximal Policy Optimization (MF-PPO), and we empirically show the effectiveness of our method in the OpenSpiel framework.
翻訳日:2023-04-14 16:57:06 公開日:2023-04-13
# フランクウルフ法による離散化誤差の低減

Reducing Discretization Error in the Frank-Wolfe Method ( http://arxiv.org/abs/2304.01432v2 )

ライセンス: Link先を確認
Zhaoyue Chen, Yifan Sun(参考訳) Frank-Wolfeアルゴリズムは、構造的に制約された機械学習アプリケーションで一般的な方法である。 しかし、この方法の1つの大きな制限は、解に漸近的に近づいたとしても、不安定なジグザグングステップの方向のために加速し難い収束速度である。 これは離散化の成果物であり、つまり、漸近的に小さなステップサイズでの軌道であるFrank-Wolfe \emph{flow} は zig-zag ではなく、離散化誤差を減らせばより安定な方法が生成され、より良い収束性を持つ。 最適化された高階離散化スキームを直接適用するマルチステップのFrank-Wolfe法と、離散化誤差を低減し、一般凸集合上の局所収束速度が$O(1/k)$から$O(1/k^{3/2})$まで加速するLMO拡張スキームを提案する。

The Frank-Wolfe algorithm is a popular method in structurally constrained machine learning applications, due to its fast per-iteration complexity. However, one major limitation of the method is a slow rate of convergence that is difficult to accelerate due to erratic, zig-zagging step directions, even asymptotically close to the solution. We view this as an artifact of discretization; that is to say, the Frank-Wolfe \emph{flow}, which is its trajectory at asymptotically small step sizes, does not zig-zag, and reducing discretization error will go hand-in-hand in producing a more stabilized method, with better convergence properties. We propose two improvements: a multistep Frank-Wolfe method that directly applies optimized higher-order discretization schemes; and an LMO-averaging scheme with reduced discretization error, and whose local convergence rate over general convex sets accelerates from a rate of $O(1/k)$ to up to $O(1/k^{3/2})$.
翻訳日:2023-04-14 16:56:49 公開日:2023-04-13
# オフザシェルフ画像拡散モデルを用いたゼロショット映像編集

Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models ( http://arxiv.org/abs/2303.17599v2 )

ライセンス: Link先を確認
Wen Wang, Kangyang Xie, Zide Liu, Hao Chen, Yue Cao, Xinlong Wang, Chunhua Shen(参考訳) 大規模テキスト・画像拡散モデルは画像生成と編集において前例のない成功を収めた。 しかし、このような成功をビデオ編集に拡張する方法は不明である。 ビデオ編集の初期の試みでは、大量のテキストからビデオへのデータと、訓練のための計算リソースが必要だった。 本研究では,ゼロショット映像編集のための簡易かつ効果的な手法であるvid2vid-zeroを提案する。 私たちのvid2vid-zeroは、既製の画像拡散モデルを活用しています。 提案手法の核心は,テキスト間アライメントのためのヌルテキストインバージョンモジュール,時間的一貫性のためのクロスフレームモデリングモジュール,オリジナルビデオへの忠実性のための空間正規化モジュールである。 トレーニングがなければ、アテンション機構の動的な性質を利用して、テスト時に双方向のテンポラリモデリングを可能にします。 実験と分析は、現実世界のビデオの属性、主題、場所などの編集において有望な結果を示す。 コードは \url{https://github.com/baaivision/vid2vid-zero} で利用可能である。

Large-scale text-to-image diffusion models achieve unprecedented success in image generation and editing. However, how to extend such success to video editing is unclear. Recent initial attempts at video editing require significant text-to-video data and computation resources for training, which is often not accessible. In this work, we propose vid2vid-zero, a simple yet effective method for zero-shot video editing. Our vid2vid-zero leverages off-the-shelf image diffusion models, and doesn't require training on any video. At the core of our method is a null-text inversion module for text-to-video alignment, a cross-frame modeling module for temporal consistency, and a spatial regularization module for fidelity to the original video. Without any training, we leverage the dynamic nature of the attention mechanism to enable bi-directional temporal modeling at test time. Experiments and analyses show promising results in editing attributes, subjects, places, etc., in real-world videos. Code is made available at \url{https://github.com/baaivision/vid2vid-zero}.
翻訳日:2023-04-14 16:56:24 公開日:2023-04-13
# AIを使って自宅でパーキンソン病の重症度を測定する

Using AI to Measure Parkinson's Disease Severity at Home ( http://arxiv.org/abs/2303.17573v3 )

ライセンス: Link先を確認
Md Saiful Islam, Wasifur Rahman, Abdelrahman Abdelkader, Phillip T. Yang, Sangwu Lee, Jamie L. Adams, Ruth B. Schneider, E. Ray Dorsey, Ehsan Hoque(参考訳) 本稿では,パーキンソン病(PD)患者の運動性能を遠隔から評価する人工知能システムを提案する。 参加者はwebカメラの前で運動タスク(つまり指をタップする)を行い、250人のグローバル参加者のデータを運動障害協会(move disorder society)の3人の専門家神経学者によって評価された。 神経学者の評価は信頼性が高く, クラス内相関係数(ICC)は0.88。 我々は,MDS-UPDRSガイドラインに適合し,神経学者の評価と強く相関する客観的な測定値を得るために,コンピュータアルゴリズムを開発した。 我々の機械学習モデルは,MDS-UPDRS認定レーダよりも優れており,平均絶対誤差は0.59であり,レーダのMAEは0.79であった。 しかし、このモデルは専門家神経学者 (0.53 MAE) よりわずかに悪化した。 この方法論は、同様の運動タスクのために複製することができ、pdや他の運動障害を持つ個人を遠隔、客観的、および神経学的ケアへのアクセスが制限された領域で評価することができる。

We present an artificial intelligence system to remotely assess the motor performance of individuals with Parkinson's disease (PD). Participants performed a motor task (i.e., tapping fingers) in front of a webcam, and data from 250 global participants were rated by three expert neurologists following the Movement Disorder Society Unified Parkinson's Disease Rating Scale (MDS-UPDRS). The neurologists' ratings were highly reliable, with an intra-class correlation coefficient (ICC) of 0.88. We developed computer algorithms to obtain objective measurements that align with the MDS-UPDRS guideline and are strongly correlated with the neurologists' ratings. Our machine learning model trained on these measures outperformed an MDS-UPDRS certified rater, with a mean absolute error (MAE) of 0.59 compared to the rater's MAE of 0.79. However, the model performed slightly worse than the expert neurologists (0.53 MAE). The methodology can be replicated for similar motor tasks, providing the possibility of evaluating individuals with PD and other movement disorders remotely, objectively, and in areas with limited access to neurological care.
翻訳日:2023-04-14 16:56:09 公開日:2023-04-13
# いつクリティカルになるの? ニューラルイジング剤の各種系における性能と進化性

When to be critical? Performance and evolvability in different regimes of neural Ising agents ( http://arxiv.org/abs/2303.16195v2 )

ライセンス: Link先を確認
Sina Khajehabdollahi, Jan Prosi, Georg Martius, Anna Levina(参考訳) 臨界状態に近い状態での運用は、自然、人工、進化システムにとって有益である、という仮説が長い間立てられてきた。 我々はこの仮説を、進化を通してエージェントの動的状態に適応できるニューラルネットワークによって制御される進化的捕食エージェントのシステムでテストする。 驚くべきことに、ソリューションを発見するすべての人口は、亜臨界状態へと進化する。 レジリエンス分析により、重要な体制で進化を始める利点がまだ残っていることが分かる。 すなわち、初期の臨界剤は環境の変化(例えば寿命)下での適合度を維持し、ゲノムが乱れたときに優雅に分解する。 同時に、初期の亜臨界物質は、同じ適合性へと進化しても、しばしば寿命の変化に耐えられず、遺伝的摂動によって破滅的に劣化する。 さらに、臨界度に対する最適距離は、タスクの複雑さに依存する。 ハードタスクの場合、エージェントは臨界に近い方向に進化しますが、単純なタスクにはもっとサブクリティカルなソリューションが見られます。 その結果, 遺伝的アルゴリズムと進化戦略の2つのアプローチを用いて, 選択した進化機構から独立していることを確認した。 結論として,単純なタスクにおける最適動作はサブクリティカルな方法では得られるが,未知の複雑性を持つ新しいタスクの最適解を見つける上では,臨界に近い初期化が効率的であることが示唆された。

It has long been hypothesized that operating close to the critical state is beneficial for natural, artificial and their evolutionary systems. We put this hypothesis to test in a system of evolving foraging agents controlled by neural networks that can adapt agents' dynamical regime throughout evolution. Surprisingly, we find that all populations that discover solutions, evolve to be subcritical. By a resilience analysis, we find that there are still benefits of starting the evolution in the critical regime. Namely, initially critical agents maintain their fitness level under environmental changes (for example, in the lifespan) and degrade gracefully when their genome is perturbed. At the same time, initially subcritical agents, even when evolved to the same fitness, are often inadequate to withstand the changes in the lifespan and degrade catastrophically with genetic perturbations. Furthermore, we find the optimal distance to criticality depends on the task complexity. To test it we introduce a hard and simple task: for the hard task, agents evolve closer to criticality whereas more subcritical solutions are found for the simple task. We verify that our results are independent of the selected evolutionary mechanisms by testing them on two principally different approaches: a genetic algorithm and an evolutionary strategy. In summary, our study suggests that although optimal behaviour in the simple task is obtained in a subcritical regime, initializing near criticality is important to be efficient at finding optimal solutions for new tasks of unknown complexity.
翻訳日:2023-04-14 16:55:48 公開日:2023-04-13
# ケースワイズとセンターオブインスタンスセグメンテーションロス関数を用いた生体画像における可変サイズ物体のセグメンテーションの改善

Improving Segmentation of Objects with Varying Sizes in Biomedical Images using Instance-wise and Center-of-Instance Segmentation Loss Function ( http://arxiv.org/abs/2304.06229v1 )

ライセンス: Link先を確認
Muhammad Febrian Rachmadi, Charissa Poon, Henrik Skibbe(参考訳) 本稿では,Dice ロスのような画素単位のロス関数を使用する場合に発生するインスタンス不均衡問題に対処する損失関数である Instance-wise and Center-of-Instance (ICI) loss と呼ばれる,バイオメディカルイメージセグメンテーションタスクの2成分損失を提案する。 インスタンスワイズコンポーネントは、大きなインスタンスと小さなインスタンスの両方を持つイメージデータセットの小さなインスタンスや‘blob’の検出を改善する。 Center-of-Instanceコンポーネントは全体的な検出精度を改善する。 MICCAI2022のATLAS R2.0チャレンジデータセットを用いた脳卒中病変のセグメンテーションにおけるICI損失とDice損失とBlob損失の2つの既存損失を比較した。 他の損失と比較すると、ici損失はバランスのとれたセグメント化を提供し、dice損失は1.7-3.7\%$、blob損失は検証とテストセットのdice類似度係数で0.6-5.0\%$となり、ici損失はインスタンス不均衡問題の潜在的な解決策であることが示唆された。

In this paper, we propose a novel two-component loss for biomedical image segmentation tasks called the Instance-wise and Center-of-Instance (ICI) loss, a loss function that addresses the instance imbalance problem commonly encountered when using pixel-wise loss functions such as the Dice loss. The Instance-wise component improves the detection of small instances or ``blobs" in image datasets with both large and small instances. The Center-of-Instance component improves the overall detection accuracy. We compared the ICI loss with two existing losses, the Dice loss and the blob loss, in the task of stroke lesion segmentation using the ATLAS R2.0 challenge dataset from MICCAI 2022. Compared to the other losses, the ICI loss provided a better balanced segmentation, and significantly outperformed the Dice loss with an improvement of $1.7-3.7\%$ and the blob loss by $0.6-5.0\%$ in terms of the Dice similarity coefficient on both validation and test set, suggesting that the ICI loss is a potential solution to the instance imbalance problem.
翻訳日:2023-04-14 16:01:17 公開日:2023-04-13
# [cls]トークンはゼロショットセマンティックセグメンテーションに必要なすべてです。

[CLS] Token is All You Need for Zero-Shot Semantic Segmentation ( http://arxiv.org/abs/2304.06212v1 )

ライセンス: Link先を確認
Letian Wu, Wenyao Zhang, Tengping Jiang, Wankou Yang, Xin Jin, Wenjun Zeng(参考訳) 本稿では,事前学習された視覚言語モデルCLIPに基づく,恥ずかしいほどシンプルで効果的なゼロショットセマンティックセマンティックセマンティクス(ZS3)法を提案する。 まず、私たちの研究はいくつかの重要な発見をもたらします。 (i)CLIPのテキストブランチのグローバルトークン(Transformerの[CLS]トークン)は意味情報の強力な表現を提供する。 (ii)これらのテキストサイド[CLS]トークンは、CLIPビジュアルエンコーダをガイドするカテゴリ先行と見なすことができ、対応する関心領域により注意を払うことができる。 それに基づいてクリップモデルをバックボーンとして構築し、テキストからビジュアルブランチへの一方向[cls]トークンナビゲーションで拡張し、ゼロショットの密集した予測を可能にします。 具体的には、テキストブランチから出力される[CLS]トークンを補助的なセマンティックプロンプトとして使用し、ViTベースのビジュアルエンコーダの浅い層における[CLS]トークンを置き換える。 この一方通行ナビゲーションは、先行してこのようなグローバルカテゴリーを埋め込み、意味セグメンテーションを促進する。 さらに、ZS3で小さなオブジェクトを分割するために、ローカルズームイン戦略によりClsCLIPをさらに強化し、領域提案前処理を採用し、ClsCLIP+を得る。 大規模な実験により,提案手法がSOTA性能を実現することを示すとともに,これらの数ショットセマンティックセマンティックセマンティクス法と同等であることを示す。

In this paper, we propose an embarrassingly simple yet highly effective zero-shot semantic segmentation (ZS3) method, based on the pre-trained vision-language model CLIP. First, our study provides a couple of key discoveries: (i) the global tokens (a.k.a [CLS] tokens in Transformer) of the text branch in CLIP provide a powerful representation of semantic information and (ii) these text-side [CLS] tokens can be regarded as category priors to guide CLIP visual encoder pay more attention on the corresponding region of interest. Based on that, we build upon the CLIP model as a backbone which we extend with a One-Way [CLS] token navigation from text to the visual branch that enables zero-shot dense prediction, dubbed \textbf{ClsCLIP}. Specifically, we use the [CLS] token output from the text branch, as an auxiliary semantic prompt, to replace the [CLS] token in shallow layers of the ViT-based visual encoder. This one-way navigation embeds such global category prior earlier and thus promotes semantic segmentation. Furthermore, to better segment tiny objects in ZS3, we further enhance ClsCLIP with a local zoom-in strategy, which employs a region proposal pre-processing and we get ClsCLIP+. Extensive experiments demonstrate that our proposed ZS3 method achieves a SOTA performance, and it is even comparable with those few-shot semantic segmentation methods.
翻訳日:2023-04-14 16:00:49 公開日:2023-04-13
# 時空間対応学習による映像オブジェクトセグメンテーションの促進

Boosting Video Object Segmentation via Space-time Correspondence Learning ( http://arxiv.org/abs/2304.06211v1 )

ライセンス: Link先を確認
Yurong Zhang, Liulei Li, Wenguan Wang, Rong Xie, Li Song, Wenjun Zhang(参考訳) ビデオオブジェクトセグメンテーション(VOS)の現在のトップリードソリューションは、通常、マッチングベースのレシエーションに従う: 各クエリフレームに対して、セグメンテーションマスクは、前処理と第1の注釈付きフレームとの対応に従って推論される。 彼らは単に地上のマスクからの監視信号をマスク予測の学習に利用し、時空対応マッチングに制約を課すことなく、マスク予測を学習するだけである。 この決定的かつ一般的に無視される問題を緩和するため,ネットワーク学習中の堅牢な対応マッチングを明示的に奨励することにより,マッチングベースのVOSソリューションを向上する対応対応型トレーニングフレームワークを考案した。 ピクセルレベルとオブジェクトレベルのビデオにおける内在的コヒーレンスを包括的に探索することで,ラベルなし,コントラスト対応学習によるマスクセグメンテーションの標準的教師付きトレーニングを強化する。 トレーニング中に追加のアノテーションコストを必要とせず、デプロイメントの速度遅延を引き起こしたり、アーキテクチャの変更を伴わないアルゴリズムは、有名なマッチングベースのvosソリューションに加えて、広く使用されている4つのベンチマーク、すなわちdavis2016&2017とyoutube-vos2018&2019のパフォーマンス向上を提供する。

Current top-leading solutions for video object segmentation (VOS) typically follow a matching-based regime: for each query frame, the segmentation mask is inferred according to its correspondence to previously processed and the first annotated frames. They simply exploit the supervisory signals from the groundtruth masks for learning mask prediction only, without posing any constraint on the space-time correspondence matching, which, however, is the fundamental building block of such regime. To alleviate this crucial yet commonly ignored issue, we devise a correspondence-aware training framework, which boosts matching-based VOS solutions by explicitly encouraging robust correspondence matching during network learning. Through comprehensively exploring the intrinsic coherence in videos on pixel and object levels, our algorithm reinforces the standard, fully supervised training of mask segmentation with label-free, contrastive correspondence learning. Without neither requiring extra annotation cost during training, nor causing speed delay during deployment, nor incurring architectural modification, our algorithm provides solid performance gains on four widely used benchmarks, i.e., DAVIS2016&2017, and YouTube-VOS2018&2019, on the top of famous matching-based VOS solutions.
翻訳日:2023-04-14 16:00:24 公開日:2023-04-13
# 非エルミタン系における幾何位相再構成による非断熱量子計算の実現

Realization of Nonadiabatic Quantum Computation via Reconstructing Geometric Phases in Non-Hermitian Systems ( http://arxiv.org/abs/2304.06209v1 )

ライセンス: Link先を確認
Tian-Xiang Hou and Wei Li(参考訳) 幾何学的位相に依存する非断熱的幾何量子計算(NGQC)は、制御誤差に対して高速で堅牢な量子制御のための優れた提案である。 しかし、従来のNGQCプロトコルは、非エルミート・ハミルトニアンによって等価に記述された現実的なシステムの素状態の崩壊によるノイズに対して強い耐性を持つことはできない。 本稿では,非エルミート量子系におけるNGQCの実現手法を提案する。 再構成された純粋な非断熱的幾何相は, 単一ループおよび非単体進化による複雑な固体角に対応する複素アハロノフ・アンダン相の実部として特定できることを示す。 この位相に基づいて、幾何ゲートの普遍的な集合を高い忠実度で実現することができる。 さらに, 非断熱過程が崩壊による忠実性の喪失に繋がらないことを示す。

Nonadiabatic geometric quantum computation (NGQC) depending on the geometric phases has been developed as one excellent proposal for quantum control for fast and robust against control errors. However, previous NGQC protocols could not be strongly resilient against the noise from decay of bare states of a realistic system equivalently described by a non-Hermitian Hamiltonian. Here we propose a scheme to realize NGQC in non-Hermitian quantum systems. We show that the reconstructed purely nonadiabatic geometric phase can be specified as the real part of complex Aharonov-Anandan phase which corresponds to the complex solid angle swept by single-loop and non-unitary evolution of the system. Based on the phase, a universal set of geometric gates can be realized with a high fidelity. Moreover, we demonstrate that nonadiabatic process does not lead to the loss of fidelity from decaying.
翻訳日:2023-04-14 15:59:58 公開日:2023-04-13
# ウィスコンシン公立学校における社会予測の難しさ

Difficult Lessons on Social Prediction from Wisconsin Public Schools ( http://arxiv.org/abs/2304.06205v1 )

ライセンス: Link先を確認
Juan C. Perdomo and Tolani Britton and Moritz Hardt and Rediet Abebe(参考訳) 早期警戒システム (EWS) は、最近、全米の公立学校での卒業率向上の取り組みにおいて中心的な役割を果たした予測アルゴリズムである。 これらのシステムは、学生が退学するリスクがあるかを予測することで、個々の学生の介入を標的にすることを支援する。 かなりの投資と採用にもかかわらず、EWSの有効性の理解には大きなギャップが残っています。 本研究では、ウィスコンシン州全体で使用されているシステムから10年近く分のデータを抽出し、EWSの長期的影響が卒業結果に与える影響を初めて大規模に評価する。 本稿では,予測システムによるリスクアセスメントが極めて正確であることを示す。 システムの精度と広く使われているにもかかわらず、卒業率が向上した証拠は見つからない。 我々は、これらの一見矛盾した洞察が持つ理由を説明するロバストな統計パターンを提示する。 すなわち、学校レベルで測定された環境特性は、ドロップアウトリスクに関する重要なシグナルを含んでいる。 しかし、各校の成績は基本的に生徒の成績とは独立している。 この経験的観察は、同じ学校内のすべての生徒に同じ卒業確率を割り当てることは、ほぼ最適の予測であることを示している。 我々の研究は、教育研究者や政策立案者の間で、下降が構造的に決定される堅牢で質的な理解のための実証的なバックボーンを提供する。 結果を改善するための大きな障壁は、特定の学校を中退するリスクのある生徒を特定することではなく、異なる学区にまたがる構造的な違いを克服することにある。 本研究は,早期警戒システムに資金を投入する決定を,構造的障壁に対処する介入に資源を投入することなく慎重に検討すべきであることを示す。

Early warning systems (EWS) are prediction algorithms that have recently taken a central role in efforts to improve graduation rates in public schools across the US. These systems assist in targeting interventions at individual students by predicting which students are at risk of dropping out. Despite significant investments and adoption, there remain significant gaps in our understanding of the efficacy of EWS. In this work, we draw on nearly a decade's worth of data from a system used throughout Wisconsin to provide the first large-scale evaluation of the long-term impact of EWS on graduation outcomes. We present evidence that risk assessments made by the prediction system are highly accurate, including for students from marginalized backgrounds. Despite the system's accuracy and widespread use, we find no evidence that it has led to improved graduation rates. We surface a robust statistical pattern that can explain why these seemingly contradictory insights hold. Namely, environmental features, measured at the level of schools, contain significant signal about dropout risk. Within each school, however, academic outcomes are essentially independent of individual student performance. This empirical observation indicates that assigning all students within the same school the same probability of graduation is a nearly optimal prediction. Our work provides an empirical backbone for the robust, qualitative understanding among education researchers and policy-makers that dropout is structurally determined. The primary barrier to improving outcomes lies not in identifying students at risk of dropping out within specific schools, but rather in overcoming structural differences across different school districts. Our findings indicate that we should carefully evaluate the decision to fund early warning systems without also devoting resources to interventions tackling structural barriers.
翻訳日:2023-04-14 15:59:44 公開日:2023-04-13
# LeafAI:人間のプログラマと競合する臨床コホート発見のためのクエリジェネレータ

LeafAI: query generator for clinical cohort discovery rivaling a human programmer ( http://arxiv.org/abs/2304.06203v1 )

ライセンス: Link先を確認
Nicholas J Dobbins, Bin Han, Weipeng Zhou, Kristine Lan, H. Nina Kim, Robert Harrington, Ozlem Uzuner, Meliha Yetisgen(参考訳) 目的:臨床データベースにおける研究対象の特定は臨床研究における重要なステップである。 しかしながら、正確なクエリ設計は通常、広範な技術的および生物医学的専門知識を必要とする。 そこで我々は,データモデルに依存しない問合せを生成できるシステムの構築と,複雑な臨床試験の資格基準に対する論理的推論機能の提供を試みた。 資料と方法: 適格性基準からのクエリ作成のタスクは、名前付きエンティティ認識と関係抽出、シーケンスからシーケンスへの変換、正規化、推論など、いくつかのテキスト処理問題を解決する必要がある。 これらには,統合医療言語システム(umls)とリンクオントロジーの知識ベースと同様に,ハイブリッドなディープラーニングとルールベースモジュールが組み込まれている。 データモデルに依存しないクエリ生成を可能にするために,umls概念を用いたデータベーススキーマ要素のタグ付け手法を提案する。 LeafAIと呼ばれるシステムを評価するために,本施設で実施した8つの臨床試験に登録された患者を特定するために,LeafAIを人間データベースプログラマと比較した。 実登録患者数を生成クエリで一致させた結果から評価した。 結果: LeafAIは8つの臨床試験で27,225人の登録患者の平均43%と一致した。 人間のプログラマは26時間、LeafAIの数分と比べてクエリを作成しました。 結論:我々の研究は,知識ベースを用いた条件付き推論が可能な最先端のデータモデル非依存クエリ生成システムに貢献している。 我々はLeafAIが人間プログラマーと競合して臨床試験を受けることができることを示した。

Objective: Identifying study-eligible patients within clinical databases is a critical step in clinical research. However, accurate query design typically requires extensive technical and biomedical expertise. We sought to create a system capable of generating data model-agnostic queries while also providing novel logical reasoning capabilities for complex clinical trial eligibility criteria. Materials and Methods: The task of query creation from eligibility criteria requires solving several text-processing problems, including named entity recognition and relation extraction, sequence-to-sequence transformation, normalization, and reasoning. We incorporated hybrid deep learning and rule-based modules for these, as well as a knowledge base of the Unified Medical Language System (UMLS) and linked ontologies. To enable data-model agnostic query creation, we introduce a novel method for tagging database schema elements using UMLS concepts. To evaluate our system, called LeafAI, we compared the capability of LeafAI to a human database programmer to identify patients who had been enrolled in 8 clinical trials conducted at our institution. We measured performance by the number of actual enrolled patients matched by generated queries. Results: LeafAI matched a mean 43% of enrolled patients with 27,225 eligible across 8 clinical trials, compared to 27% matched and 14,587 eligible in queries by a human database programmer. The human programmer spent 26 total hours crafting queries compared to several minutes by LeafAI. Conclusions: Our work contributes a state-of-the-art data model-agnostic query generation system capable of conditional reasoning using a knowledge base. We demonstrate that LeafAI can rival a human programmer in finding patients eligible for clinical trials.
翻訳日:2023-04-14 15:59:21 公開日:2023-04-13
# 大規模量子システムの最適制御:グレープのメモリと実行性能の評価

Optimal control of large quantum systems: assessing memory and runtime performance of GRAPE ( http://arxiv.org/abs/2304.06200v1 )

ライセンス: Link先を確認
Yunwei Lu, Sandeep Joshi, Vinh San Dinh and Jens Koch(参考訳) 勾配上昇パルス工学(grape:gradient ascent pulse engineering)は量子最適制御の一般的な技術であり、コスト関数勾配のオンザフライ評価を容易にするために自動微分法(ad)と組み合わせることができる。 我々は,多数の状態とプロパゲータの累積記憶が原因で,adの利便性は大きなメモリコストを伴っていることを示す。 ヒルベルト空間サイズが増加する量子系の場合、これは大きなボトルネックを課す。 我々は,プロパゲータストレージを完全に回避し,メモリ要求を大幅に削減する手法で,ハードコーディング勾配の戦略を再考する。 また,実行時性能を向上させるため,数値的状態伝搬の改善を提案する。 私たちはランタイムとメモリ使用量をベンチマークし、このアプローチをADベースの実装と比較します。 その結果、ad-freeアプローチは、取り組むのが難しい大きな量子システムに対する最適制御の適用を促進することが判明した。

Gradient Ascent Pulse Engineering (GRAPE) is a popular technique in quantum optimal control, and can be combined with automatic differentiation (AD) to facilitate on-the-fly evaluation of cost-function gradients. We illustrate that the convenience of AD comes at a significant memory cost due to the cumulative storage of a large number of states and propagators. For quantum systems of increasing Hilbert space size, this imposes a significant bottleneck. We revisit the strategy of hard-coding gradients in a scheme that fully avoids propagator storage and significantly reduces memory requirements. Separately, we present improvements to numerical state propagation to enhance runtime performance. We benchmark runtime and memory usage and compare this approach to AD-based implementations, with a focus on pushing towards larger Hilbert space sizes. The results confirm that the AD-free approach facilitates the application of optimal control for large quantum systems which would otherwise be difficult to tackle.
翻訳日:2023-04-14 15:58:54 公開日:2023-04-13
# SURFSUP:新しい表面の流体シミュレーションを学習する

SURFSUP: Learning Fluid Simulation for Novel Surfaces ( http://arxiv.org/abs/2304.06197v1 )

ライセンス: Link先を確認
Arjun Mani, Ishaan Preetam Chandratreya, Elliot Creager, Carl Vondrick, Richard Zemel(参考訳) 複雑なシーンにおける流体の力学のモデリングは、設計、グラフィックス、ロボット工学の応用に不可欠である。 学習に基づく手法は高速で微分可能な流体シミュレータを提供するが、ほとんどの先行研究では、訓練中に見えない真に新しい表面と流体がどのように相互作用するかを正確にモデル化できない。 我々は,メッシュや粒子の明示的な表現ではなく,符号付き距離関数(SDF)を用いて暗黙的にオブジェクトを表現するフレームワークであるSURFSUPを紹介する。 この連続的な幾何学表現により、流体-物体間相互作用のより正確なシミュレーションが可能となり、同時に計算の効率も向上する。 さらに、単純な形状のプリミティブで訓練されたSURFSUPは、複雑な現実世界のシーンやオブジェクトに対してさえ、かなりアウトオブディストリビューションを一般化する。 最後に, 流体の流れを制御できるシンプルな物体を設計するために, モデルに逆転できることを示す。

Modeling the mechanics of fluid in complex scenes is vital to applications in design, graphics, and robotics. Learning-based methods provide fast and differentiable fluid simulators, however most prior work is unable to accurately model how fluids interact with genuinely novel surfaces not seen during training. We introduce SURFSUP, a framework that represents objects implicitly using signed distance functions (SDFs), rather than an explicit representation of meshes or particles. This continuous representation of geometry enables more accurate simulation of fluid-object interactions over long time periods while simultaneously making computation more efficient. Moreover, SURFSUP trained on simple shape primitives generalizes considerably out-of-distribution, even to complex real-world scenes and objects. Finally, we show we can invert our model to design simple objects to manipulate fluid flow.
翻訳日:2023-04-14 15:58:40 公開日:2023-04-13
# rsirトランスフォーマー:ランダムサンプリングウィンドウと重要領域ウィンドウを用いた階層的視覚トランスフォーマー

RSIR Transformer: Hierarchical Vision Transformer using Random Sampling Windows and Important Region Windows ( http://arxiv.org/abs/2304.06250v1 )

ライセンス: Link先を確認
Zhemin Zhang, Xun Gong(参考訳) 近年、トランスフォーマーは様々な視覚タスクにおいて有望な性能を示している。 しかし、グローバル・セルフ・アテンションの高コストはトランスフォーマー、特に高解像度視覚タスクにとって依然として困難である。 局所的な自己注意は、効率性のために限られた領域内で注意計算を実行するため、受容場が小さいためコンテキストモデリングが不十分となる。 本研究では,階層型視覚変換器のグローバルなモデリング機能,すなわちランダムサンプリングウィンドウ(RS-Win)と重要な領域ウィンドウ(IR-Win)の2つの新しいアテンションモジュールを導入する。 特に、rs-winのサンプルランダムイメージパッチは、一様分布、すなわち、rs-winのパッチは、画像の任意の位置から来ることができる。 IR-Winは、アテンションマップ内の画像パッチの重みに応じてウィンドウを構成する。 特にRS-Winは、初期の高解像度の段階でも、モデル全体を通してグローバルな情報をキャプチャすることができる。 IR-Winは、自己認識モジュールが画像の重要な領域に集中し、より情報的な特徴をキャプチャすることを可能にする。 これらの設計を取り入れたRSIR-Win Transformerは、一般的な視覚タスクにおける競合性能を示す。

Recently, Transformers have shown promising performance in various vision tasks. However, the high costs of global self-attention remain challenging for Transformers, especially for high-resolution vision tasks. Local self-attention runs attention computation within a limited region for the sake of efficiency, resulting in insufficient context modeling as their receptive fields are small. In this work, we introduce two new attention modules to enhance the global modeling capability of the hierarchical vision transformer, namely, random sampling windows (RS-Win) and important region windows (IR-Win). Specifically, RS-Win sample random image patches to compose the window, following a uniform distribution, i.e., the patches in RS-Win can come from any position in the image. IR-Win composes the window according to the weights of the image patches in the attention map. Notably, RS-Win is able to capture global information throughout the entire model, even in earlier, high-resolution stages. IR-Win enables the self-attention module to focus on important regions of the image and capture more informative features. Incorporated with these designs, RSIR-Win Transformer demonstrates competitive performance on common vision tasks.
翻訳日:2023-04-14 15:51:46 公開日:2023-04-13
# 乱れを超えたセットベース顔認識:可変語彙による汚い抑制

Set-Based Face Recognition Beyond Disentanglement: Burstiness Suppression With Variance Vocabulary ( http://arxiv.org/abs/2304.06249v1 )

ライセンス: Link先を確認
Jiong Wang, Zhou Zhao, Fei Wu(参考訳) セットベース顔認識(SFR)は、制約のないシナリオにおける顔の集合を認識することを目的としており、同じアイデンティティの出現は、極端なばらつき(照明、ポーズ、表現など)で劇的に変化する可能性がある。 SFRにおける2つの重要な問題は、顔の品質とバーストネスであり、アイデンティティ非関連と分散関連の両方である。 品質とバーストネスの評価はアイデンティティの絡み合いによって妨げられ、顔認識はばらつきの絡み合いによって妨害される。 そこで,本論文では,軽度集合ベースゆがみフレームワークにおける分散特徴と同一性の特徴を分離することを提案する。 ゆがみの他に、分散特徴は訓練後に捨てられるのではなく、顔の品質とバーストネスを示すために完全に活用される。 そこで本研究では,セット内の顔のバースト性を抑制するために,参照語彙による顔の定量化を行う語彙ベースのバースト抑圧(vbs)法を提案する。 代入スコアのインターワードおよび単語内正規化操作により、顔のバーティネス度を適切に推定する。 広範な図面と実験により、SFRベンチマークに新たな最先端をもたらすVBSによるアンタングルメントフレームワークの効果が示されている。 コードはhttps://github.com/liubinggunzu/set_burstinessでリリースされる。

Set-based face recognition (SFR) aims to recognize the face sets in the unconstrained scenario, where the appearance of same identity may change dramatically with extreme variances (e.g., illumination, pose, expression). We argue that the two crucial issues in SFR, the face quality and burstiness, are both identity-irrelevant and variance-relevant. The quality and burstiness assessment are interfered with by the entanglement of identity, and the face recognition is interfered with by the entanglement of variance. Thus we propose to separate the identity features with the variance features in a light-weighted set-based disentanglement framework. Beyond disentanglement, the variance features are fully utilized to indicate face quality and burstiness in a set, rather than being discarded after training. To suppress face burstiness in the sets, we propose a vocabulary-based burst suppression (VBS) method which quantizes faces with a reference vocabulary. With interword and intra-word normalization operations on the assignment scores, the face burtisness degrees are appropriately estimated. The extensive illustrations and experiments demonstrate the effect of the disentanglement framework with VBS, which gets new state-of-the-art on the SFR benchmarks. The code will be released at https://github.com/Liubinggunzu/set_burstiness.
翻訳日:2023-04-14 15:51:27 公開日:2023-04-13
# LasUIE:潜在適応構造を考慮した生成言語モデルによる情報抽出

LasUIE: Unifying Information Extraction with Latent Adaptive Structure-aware Generative Language Model ( http://arxiv.org/abs/2304.06248v1 )

ライセンス: Link先を確認
Hao Fei, Shengqiong Wu, Jingye Li, Bobo Li, Fei Li, Libo Qin, Meishan Zhang, Min Zhang, Tat-Seng Chua(参考訳) すべての典型的情報抽出タスク (uie) を1つの生成言語モデル (glm) でモデリングした結果,様々なie予測がglm下で線形化された階層表現に統一されるという,最新の研究で大きな可能性を見出している。 ieコミュニティで広く利用されている効果的な機能である構文構造情報もuieにとって有益であるべきである。 そこで本研究では,UIEの構文知識のパワーを完全に解き放つ構造認識型GLMを提案する。 ヘテロジニアス構造インダクタは、既存のGLMのポストトレーニングにより、教師なしでリッチなヘテロジニアス構造表現を誘導する。 特に、構造放送機は、様々な潜木を明示的な高次森林にコンパクト化し、復号時により良い世代を導くのに役立つように考案されている。 最終的にタスク指向構造微調整機構を導入し、学習された構造をエンドタスクのニーズに最も合致するように調整する。 7つのタスクにまたがる12以上のieベンチマーク 私たちのシステムは、ベースラインのuieシステムよりも大幅に改善しています。 さらに詳細な分析の結果,GLMはUIEの欠陥,長距離依存問題,境界同定を著しく解決するリッチなタスク適応型構造バイアスを学習していることがわかった。 ソースコードはhttps://github.com/ChocoWu/LasUIEで公開されている。

Universally modeling all typical information extraction tasks (UIE) with one generative language model (GLM) has revealed great potential by the latest study, where various IE predictions are unified into a linearized hierarchical expression under a GLM. Syntactic structure information, a type of effective feature which has been extensively utilized in IE community, should also be beneficial to UIE. In this work, we propose a novel structure-aware GLM, fully unleashing the power of syntactic knowledge for UIE. A heterogeneous structure inductor is explored to unsupervisedly induce rich heterogeneous structural representations by post-training an existing GLM. In particular, a structural broadcaster is devised to compact various latent trees into explicit high-order forests, helping to guide a better generation during decoding. We finally introduce a task-oriented structure fine-tuning mechanism, further adjusting the learned structures to most coincide with the end-task's need. Over 12 IE benchmarks across 7 tasks our system shows significant improvements over the baseline UIE system. Further in-depth analyses show that our GLM learns rich task-adaptive structural bias that greatly resolves the UIE crux, the long-range dependence issue and boundary identifying. Source codes are open at https://github.com/ChocoWu/LasUIE.
翻訳日:2023-04-14 15:51:06 公開日:2023-04-13
# ShapeClipper: 幾何学的およびCLIPベースの一貫性による単一視点画像からのスケーラブルな3D形状学習

ShapeClipper: Scalable 3D Shape Learning from Single-View Images via Geometric and CLIP-based Consistency ( http://arxiv.org/abs/2304.06247v1 )

ライセンス: Link先を確認
Zixuan Huang, Varun Jampani, Anh Thai, Yuanzhen Li, Stefan Stojanov, James M. Rehg(参考訳) 実世界のRGB画像から3次元オブジェクト形状を再構成する新しい手法であるShapeClipperを提案する。 ShapeClipperは、面倒な3D、マルチビュー、カメラポーズアノテーションに頼るのではなく、単一のビューのセグメンテーション画像から形状再構成を学ぶ。 キーとなるアイデアは、CLIPベースの形状整合性による形状学習を促進することであり、同じような形状を共有するCLIPエンコーディングを持つオブジェクトを奨励する。 また,オフ・ザ・シェルフ・ノーマルを付加的な幾何学的制約として利用することで,詳細な表面幾何のボトムアップ推論を学習できる。 これら2つの新しい一貫性制約は、我々のモデルを正規化する際に、大域的な形状構造と局所幾何学的詳細の両方を学ぶ能力を向上させる。 提案手法はPix3D, Pascal3D+, OpenImagesの3つの挑戦的な実世界のデータセットに対して評価し, 最先端の手法よりも優れた性能を実現する。

We present ShapeClipper, a novel method that reconstructs 3D object shapes from real-world single-view RGB images. Instead of relying on laborious 3D, multi-view or camera pose annotation, ShapeClipper learns shape reconstruction from a set of single-view segmented images. The key idea is to facilitate shape learning via CLIP-based shape consistency, where we encourage objects with similar CLIP encodings to share similar shapes. We also leverage off-the-shelf normals as an additional geometric constraint so the model can learn better bottom-up reasoning of detailed surface geometry. These two novel consistency constraints, when used to regularize our model, improve its ability to learn both global shape structure and local geometric details. We evaluate our method over three challenging real-world datasets, Pix3D, Pascal3D+, and OpenImages, where we achieve superior performance over state-of-the-art methods.
翻訳日:2023-04-14 15:50:41 公開日:2023-04-13
# 浅層デコーダを用いた非対称駆動型ニューラルイメージ圧縮

Asymmetrically-powered Neural Image Compression with Shallow Decoders ( http://arxiv.org/abs/2304.06244v1 )

ライセンス: Link先を確認
Yibo Yang and Stephan Mandt(参考訳) 近年,ニューラル画像圧縮法の性能が向上している。 しかし、それらは従来のコーデックに比べて計算の複雑さが桁違いに高くなっています。 本稿では,浅いあるいは線形な復号変換を採用することで,復号化複雑性のこのギャップを解消する。 圧縮性能の低下を補うために、より強力なエンコーダネットワークと反復符号化を採用することにより、符号化と復号の間の非対称な計算予算を利用する。 我々は理論的にその背景にある直感を定式化し、実験結果からニューラル画像圧縮における速度歪みと復号化複雑性のトレードオフにおける新たなフロンティアを確立した。 具体的には、Mennen et al. (2018) の確立した平均規模ハイパープライアアーキテクチャと競合する速度歪み性能を実現し、全体の復号複雑性を80%、合成変換だけで90%以上削減する。 私たちのコードはhttps://github.com/mandt-lab/shallow-ntcにあります。

Neural image compression methods have seen increasingly strong performance in recent years. However, they suffer orders of magnitude higher computational complexity compared to traditional codecs, which stands in the way of real-world deployment. This paper takes a step forward in closing this gap in decoding complexity by adopting shallow or even linear decoding transforms. To compensate for the resulting drop in compression performance, we exploit the often asymmetrical computation budget between encoding and decoding, by adopting more powerful encoder networks and iterative encoding. We theoretically formalize the intuition behind, and our experimental results establish a new frontier in the trade-off between rate-distortion and decoding complexity for neural image compression. Specifically, we achieve rate-distortion performance competitive with the established mean-scale hyperprior architecture of Minnen et al. (2018), while reducing the overall decoding complexity by 80 %, or over 90 % for the synthesis transform alone. Our code can be found at https://github.com/mandt-lab/shallow-ntc.
翻訳日:2023-04-14 15:50:22 公開日:2023-04-13
# 心電図記述のための不整脈分類誘導セグメンテーションモデル

An Arrhythmia Classification-Guided Segmentation Model for Electrocardiogram Delineation ( http://arxiv.org/abs/2304.06237v1 )

ライセンス: Link先を確認
Chankyu Joung, Mijin Kim, Taejin Paik, Seong-Ho Kong, Seung-Young Oh, Won Kyeong Jeon, Jae-hu Jeon, Joong-Sik Hong, Wan-Joong Kim, Woong Kook, Myung-Jin Cha, Otto van Koert(参考訳) 心電図におけるキー波形の正確なデライン化は、心臓疾患の診断と治療を支援するために、関連する特徴を抽出するための重要な初期段階である。 P波,QRS波,T波の探索のためのセグメンテーションモデルを用いた深層学習手法は有望な結果を示したが,不整脈を示す信号を扱う能力は未だ不明である。 本研究では,深層学習モデルを用いて,幅広い不整脈で正確な信号のデライン化を行う手法を提案する。 提案手法では,セグメンテーションと不整脈分類の課題を組み合わせたハイブリッド損失関数を用いてセグメンテーションモデルを訓練する。 さらに,様々な不整脈型を含む多彩なトレーニングセットを用いて,モデルが幅広い難題を扱えるようにした。 実験結果から,本モデルでは異常リズムのタイプが広範囲に分布し,分類指導と組み合わせた訓練により,心房細動や心房粗動時の偽陽性p波の予測を効果的に軽減できることがわかった。 さらに, 提案手法は, Lobachevsky University Database (LUDB) 上の従来のデラインアルゴリズムと競合する性能を示す。

Accurate delineation of key waveforms in an ECG is a critical initial step in extracting relevant features to support the diagnosis and treatment of heart conditions. Although deep learning based methods using a segmentation model to locate P, QRS and T waves have shown promising results, their ability to handle signals exhibiting arrhythmia remains unclear. In this study, we propose a novel approach that leverages a deep learning model to accurately delineate signals with a wide range of arrhythmia. Our approach involves training a segmentation model using a hybrid loss function that combines segmentation with the task of arrhythmia classification. In addition, we use a diverse training set containing various arrhythmia types, enabling our model to handle a wide range of challenging cases. Experimental results show that our model accurately delineates signals with a broad range of abnormal rhythm types, and the combined training with classification guidance can effectively reduce false positive P wave predictions, particularly during atrial fibrillation and atrial flutter. Furthermore, our proposed method shows competitive performance with previous delineation algorithms on the Lobachevsky University Database (LUDB).
翻訳日:2023-04-14 15:50:03 公開日:2023-04-13
# ステレオ画像超解像のためのクロスビュー階層ネットワーク

Cross-View Hierarchy Network for Stereo Image Super-Resolution ( http://arxiv.org/abs/2304.06236v1 )

ライセンス: Link先を確認
Wenbin Zou, Hongxia Gao, Liang Chen, Yunchen Zhang, Mingchao Jiang, Zhongxin Yu, and Ming Tan(参考訳) ステレオ画像スーパーレゾリューションは、ビュー間の補完情報を活用し、高解像度ステレオ画像ペアの品質を向上させることを目的としている。 優れた性能を達成するために、多くの方法が複雑なモジュールの設計を優先し、ビューにまたがる類似の情報を融合させた。 また、復元された画像のテクスチャに問題があることも問題となる。 この問題に対処するため,我々はイントラビューから様々な階層間の相互依存性を調べ,ステレオ画像超解像のためのクロスビュー階層ネットワーク (cvhsr) という新しい手法を提案する。 具体的には,チャネル・アテンションとカーネル・コンボリューション・アテンションを利用した階層間情報マイニング・ブロック(CHIMB)を設計し,グローバル・ローカル両方の特徴をイントラビューから抽出し,正確なテクスチャ詳細を効率的に復元する。 さらに、クロスビューアテンション機構を利用し、双眼鏡シーンに効果的に適応することにより、異なるビューから類似した機能を融合するクロスビューインタラクションモジュール(cvim)を提案する。 広範な実験により本手法の有効性が実証された。 CVHSSRは、パラメータを減らしながら、他の最先端手法よりも最高のステレオ画像超解像性能を達成する。 ソースコードと事前訓練されたモデルはhttps://github.com/AlexZou14/CVHSSRで入手できる。

Stereo image super-resolution aims to improve the quality of high-resolution stereo image pairs by exploiting complementary information across views. To attain superior performance, many methods have prioritized designing complex modules to fuse similar information across views, yet overlooking the importance of intra-view information for high-resolution reconstruction. It also leads to problems of wrong texture in recovered images. To address this issue, we explore the interdependencies between various hierarchies from intra-view and propose a novel method, named Cross-View-Hierarchy Network for Stereo Image Super-Resolution (CVHSSR). Specifically, we design a cross-hierarchy information mining block (CHIMB) that leverages channel attention and large kernel convolution attention to extract both global and local features from the intra-view, enabling the efficient restoration of accurate texture details. Additionally, a cross-view interaction module (CVIM) is proposed to fuse similar features from different views by utilizing cross-view attention mechanisms, effectively adapting to the binocular scene. Extensive experiments demonstrate the effectiveness of our method. CVHSSR achieves the best stereo image super-resolution performance than other state-of-the-art methods while using fewer parameters. The source code and pre-trained models are available at https://github.com/AlexZou14/CVHSSR.
翻訳日:2023-04-14 15:49:42 公開日:2023-04-13
# 量子センシングのための材料統合による窒素空孔イオン化の低減

Mitigation of Nitrogen Vacancy Ionization from Material Integration for Quantum Sensing ( http://arxiv.org/abs/2304.06235v1 )

ライセンス: Link先を確認
Jacob Henshaw, Pauli Kehayias, Luca Basso, Michael Jaris, Rong Cong, Michael Titze, Tzu-Ming Lu, Michael P. Lilly, Andrew M. Mounce(参考訳) ダイヤモンド中の窒素空孔(NV)色中心は、幅広い量子センシングにおいて大きな可能性を証明している。 近年,ダイヤモンド表面近傍の量子物質のスピンノイズを検出するため,NV中心を用いた一連の提案や実験が行われている。 これは、新しいナノ磁性と電子的挙動を持つ複雑な研究領域であり、NV中心はセンシングに理想的である。 しかしながら、NV自体とそのホスト材料の電子的性質のため、そのようなシステムのナノメートル内で高品質なNV中心を得るのは難しい。 金属-半導体界面で形成される空間電荷によって生じるバンドの曲げは、NV中心を無感な電荷状態に強制する。 そこで本研究では, 金属薄膜と絶縁層を異なる深さのNVアンサンブル上に堆積させることにより, この界面を最適化し, 異なるアンサンブル深さに対する金属薄膜の影響を特徴づける。 我々は、他の常磁性欠陥のイオン化によるコヒーレンスとデファスメント時間の改善を見出した。 金属とダイヤモンドとのアルミナの絶縁層は、金属との直接接触に比べて感光性が向上し、全ての感光モードにおいて感度が向上し、感度が2倍になり、nv $t_1$の緩和測定で積分時間が4倍減少する。

The nitrogen-vacancy (NV) color center in diamond has demonstrated great promise in a wide range of quantum sensing. Recently, there have been a series of proposals and experiments using NV centers to detect spin noise of quantum materials near the diamond surface. This is a rich complex area of study with novel nano-magnetism and electronic behavior, that the NV center would be ideal for sensing. However, due to the electronic properties of the NV itself and its host material, getting high quality NV centers within nanometers of such systems is challenging. Band bending caused by space charges formed at the metal-semiconductor interface force the NV center into its insensitive charge states. Here, we investigate optimizing this interface by depositing thin metal films and thin insulating layers on a series of NV ensembles at different depths to characterize the impact of metal films on different ensemble depths. We find an improvement of coherence and dephasing times we attribute to ionization of other paramagnetic defects. The insulating layer of alumina between the metal and diamond provide improved photoluminescence and higher sensitivity in all modes of sensing as compared to direct contact with the metal, providing as much as a factor of 2 increase in sensitivity, decrease of integration time by a factor of 4, for NV $T_1$ relaxometry measurements.
翻訳日:2023-04-14 15:49:19 公開日:2023-04-13
# 物理インフォームドラジアル基底ネットワーク(pirbn) : 非線形pdes解のための局所近似ニューラルネットワーク

Physics-informed radial basis network (PIRBN): A local approximation neural network for solving nonlinear PDEs ( http://arxiv.org/abs/2304.06234v1 )

ライセンス: Link先を確認
Jinshuai Bai, Gui-Rong Liu, Ashish Gupta, Laith Alzubaidi, Xi-Qiao Feng, YuanTong Gu(参考訳) 最近の集中的な研究によると、物理インフォームドニューラルネットワーク(PINN)は訓練後に局所近似器となる傾向にある。 この観察により、この新しい物理インフォームドラジアルベースネットワーク(PIRBN)が、トレーニングプロセス全体を通して局所的な特性を維持することができる。 ディープニューラルネットワークと比較すると、PIRBNは1つの隠蔽層と放射ベース「活性化」機能のみから構成される。 適切な条件下では,勾配降下法を用いたpirbnの訓練がガウス過程に収束することを示した。 さらに、ニューラルタンジェントカーネル(NTK)理論を用いて、PIRBNのトレーニングダイナミクスについて検討した。 また, PIRBNの初期化戦略に関する包括的調査を行った。 数値的な例に基づき、pirbnはpdesを高周波特徴と不適切な計算領域で解く際、pinnよりも効率的で効率的なことが示されている。 さらに, 適応学習, 分解, 損失関数の種類など既存のpinn数値手法をpirbnに適用する。 すべての数値結果を再生できるプログラムはhttps://github.com/JinshuaiBai/PIRBNで見ることができる。

Our recent intensive study has found that physics-informed neural networks (PINN) tend to be local approximators after training. This observation leads to this novel physics-informed radial basis network (PIRBN), which can maintain the local property throughout the entire training process. Compared to deep neural networks, a PIRBN comprises of only one hidden layer and a radial basis "activation" function. Under appropriate conditions, we demonstrated that the training of PIRBNs using gradient descendent methods can converge to Gaussian processes. Besides, we studied the training dynamics of PIRBN via the neural tangent kernel (NTK) theory. In addition, comprehensive investigations regarding the initialisation strategies of PIRBN were conducted. Based on numerical examples, PIRBN has been demonstrated to be more effective and efficient than PINN in solving PDEs with high-frequency features and ill-posed computational domains. Moreover, the existing PINN numerical techniques, such as adaptive learning, decomposition and different types of loss functions, are applicable to PIRBN. The programs that can regenerate all numerical results can be found at https://github.com/JinshuaiBai/PIRBN.
翻訳日:2023-04-14 15:48:55 公開日:2023-04-13
# 森林火災時の旅行需要予測のための状況対応多グラフ畳み込みリカレントネットワーク(SA-MGCRN)

Situational-Aware Multi-Graph Convolutional Recurrent Network (SA-MGCRN) for Travel Demand Forecasting During Wildfires ( http://arxiv.org/abs/2304.06233v1 )

ライセンス: Link先を確認
Xiaojian Zhang, Xilei Zhao, Yiming Xu, Ruggiero Lovreglio, Daniel Nilsson(参考訳) 野火避難時の移動需要のリアルタイム予測は,緊急時の管理者や交通計画立案者にとって,タイムリーかつより良い意思決定を行う上で重要である。 しかし,大規模緊急避難時の正確な移動需要予測に焦点をあてた研究は少ない。 そこで本研究では,山火事避難時の旅行生成をモデル化するための新しい方法論の枠組みを開発し,検証した。 (a)モバイルデバイスが生成する大規模GPSデータ (b)最先端のAI技術。 提案手法は,避難旅行やその他の種類の旅行を予測することを目的としている。 GPSデータから推定される旅行需要に基づいて,山火事避難時の移動需要のリアルタイム予測を行うモデル更新とともに,状況対応型多グラフ畳み込みリカレントネットワーク(SA-MGCRN)という新たなディープラーニングモデルを開発した。 提案手法は, カリフォルニア州ソノマ郡の2019年キンケード火災を事例として, 本研究で検証した。 以上の結果から,SA-MGCRNは予測性能において,選択した最先端ベンチマークよりも有意に優れていた。 以上の結果から,SA-MGCRNの最も重要なモデル成分は,避難順・警戒情報,火災接近,人口変動であり,行動理論や経験的知見と一致することが示唆された。

Real-time forecasting of travel demand during wildfire evacuations is crucial for emergency managers and transportation planners to make timely and better-informed decisions. However, few studies focus on accurate travel demand forecasting in large-scale emergency evacuations. Therefore, this study develops and tests a new methodological framework for modeling trip generation in wildfire evacuations by using (a) large-scale GPS data generated by mobile devices and (b) state-of-the-art AI technologies. The proposed methodology aims at forecasting evacuation trips and other types of trips. Based on the travel demand inferred from the GPS data, we develop a new deep learning model, i.e., Situational-Aware Multi-Graph Convolutional Recurrent Network (SA-MGCRN), along with a model updating scheme to achieve real-time forecasting of travel demand during wildfire evacuations. The proposed methodological framework is tested in this study for a real-world case study: the 2019 Kincade Fire in Sonoma County, CA. The results show that SA-MGCRN significantly outperforms all the selected state-of-the-art benchmarks in terms of prediction performance. Our finding suggests that the most important model components of SA-MGCRN are evacuation order/warning information, proximity to fire, and population change, which are consistent with behavioral theories and empirical findings.
翻訳日:2023-04-14 15:48:36 公開日:2023-04-13
# EWT:シングルイメージデノーミングのための効率的なウェーブレット変換器

EWT: Efficient Wavelet-Transformer for Single Image Denoising ( http://arxiv.org/abs/2304.06274v1 )

ライセンス: Link先を確認
Juncheng Li, Bodong Cheng, Ying Chen, Guangwei Gao, Tieyong Zeng(参考訳) 変圧器を用いた画像デノイジング手法は,過去1年間で有望な成果を上げている。 しかし、長距離依存関係のモデル化には線形演算を使用する必要があり、モデル推論時間を大幅に増加させ、gpuストレージ空間を消費する。 畳み込みニューラルネットワークに基づく手法と比較すると、現在のトランスフォーマーベースの画像デノージング手法では、パフォーマンス改善とリソース消費のバランスが取れない。 本稿では,画像復調のための効率的なウェーブレット変換器(EWT)を提案する。 具体的には,ダウンサンプリングとアップサンプリングに離散ウェーブレット変換(dwt)と逆ウェーブレット変換(iwt)を用いる。 この方法は、画像解像度を小さくしながら画像特徴を完全に保存し、トランスフォーマーモデルのデバイスリソース消費を大幅に削減する。 さらに、異なるレベルの画像特徴を抽出し、モデル推論時間とGPUメモリ使用量をさらに削減できる新しいデュアルストリーム特徴抽出ブロック(DFEB)を提案する。 実験の結果,元のTransformerを80%以上高速化し,GPUメモリ使用量を60%以上削減し,優れた復調結果が得られることがわかった。 すべてのコードは公開されます。

Transformer-based image denoising methods have achieved encouraging results in the past year. However, it must uses linear operations to model long-range dependencies, which greatly increases model inference time and consumes GPU storage space. Compared with convolutional neural network-based methods, current Transformer-based image denoising methods cannot achieve a balance between performance improvement and resource consumption. In this paper, we propose an Efficient Wavelet Transformer (EWT) for image denoising. Specifically, we use Discrete Wavelet Transform (DWT) and Inverse Wavelet Transform (IWT) for downsampling and upsampling, respectively. This method can fully preserve the image features while reducing the image resolution, thereby greatly reducing the device resource consumption of the Transformer model. Furthermore, we propose a novel Dual-stream Feature Extraction Block (DFEB) to extract image features at different levels, which can further reduce model inference time and GPU memory usage. Experiments show that our method speeds up the original Transformer by more than 80%, reduces GPU memory usage by more than 60%, and achieves excellent denoising results. All code will be public.
翻訳日:2023-04-14 15:43:00 公開日:2023-04-13
# 物体検出を用いたゲーミフィケーション数学教育

Gamifying Math Education using Object Detection ( http://arxiv.org/abs/2304.06270v1 )

ライセンス: Link先を確認
Yueqiu Sun, Rohitkrishna Nambiar and Vivek Vidyasagaran(参考訳) 正しい方法で使われるマニピュレーションは、数学の概念を改善するのに役立ち、より良い学習結果をもたらす。 本稿では,5~8歳児を対象に,形状タイルマニピュレータを用いた幾何学学習のためのフィジタル(物理・デジタル)カリキュラムを提案する。 小さい形を組み合わせて大きな形を作ることは、子供たちが早期に学ぶ重要なスキルであり、遊び場では形状タイルを互いに近くに配置する必要がある。 これは任意の向きを持つ密集したオブジェクトに対する指向性オブジェクト検出の課題を導入する。 ニューラルネットワークトレーニングと軽量なモバイルアーキテクチャのためのシミュレーションデータを活用することで,ユーザのインタラクションを理解し,リアルタイムなオーディオ視覚フィードバックを提供する。 実験の結果,我々のネットワークはコンシューマデバイス上で高い精度でリアルタイムに動作し,一貫した学習体験を提供することがわかった。

Manipulatives used in the right way help improve mathematical concepts leading to better learning outcomes. In this paper, we present a phygital (physical + digital) curriculum inspired teaching system for kids aged 5-8 to learn geometry using shape tile manipulatives. Combining smaller shapes to form larger ones is an important skill kids learn early on which requires shape tiles to be placed close to each other in the play area. This introduces a challenge of oriented object detection for densely packed objects with arbitrary orientations. Leveraging simulated data for neural network training and light-weight mobile architectures, we enable our system to understand user interactions and provide real-time audiovisual feedback. Experimental results show that our network runs real-time with high precision/recall on consumer devices, thereby providing a consistent and enjoyable learning experience.
翻訳日:2023-04-14 15:42:42 公開日:2023-04-13
# パウリマニピュレーション検出符号と逆チャネル上の量子通信への応用

Pauli Manipulation Detection codes and Applications to Quantum Communication over Adversarial Channels ( http://arxiv.org/abs/2304.06269v1 )

ライセンス: Link先を確認
Thiago Bergamaschi(参考訳) 我々は、高い確率で全てのパウリエラーを検出する「パウリマニピュレーション検出」コード(PMD)を作成した量子コードを導入し、明示的に構築する。 逆チャネル上での量子通信における2つのタスクに対して,最初の準最適符号を構築する。 我々の主な応用は量子ビット上の近似量子コードであり、量子シングルトン境界に近づいた多くの(Worst-case)消去誤差から効率よく修正できる。 我々の構成は、消去からリストデコダブルな安定化符号を持つPMD符号の構成に基づいている。 第2のアプリケーションは、"量子ビット単位"チャネル用の量子認証コードで、秘密鍵は不要です。 注目すべきは、これは古典的に証明不可能な量子通信におけるタスクの例である。 我々の構成は、MD符号、安定化符号、古典的非可算符号(Dziembowski et al., 2009)の組み合わせに基づいており、「最小冗長性」($1-o(1)$)を達成する。

We introduce and explicitly construct a quantum code we coin a "Pauli Manipulation Detection" code (or PMD), which detects every Pauli error with high probability. We apply them to construct the first near-optimal codes for two tasks in quantum communication over adversarial channels. Our main application is an approximate quantum code over qubits which can efficiently correct from a number of (worst-case) erasure errors approaching the quantum Singleton bound. Our construction is based on the composition of a PMD code with a stabilizer code which is list-decodable from erasures. Our second application is a quantum authentication code for "qubit-wise" channels, which does not require a secret key. Remarkably, this gives an example of a task in quantum communication which is provably impossible classically. Our construction is based on a combination of PMD codes, stabilizer codes, and classical non-malleable codes (Dziembowski et al., 2009), and achieves "minimal redundancy" (rate $1-o(1)$).
翻訳日:2023-04-14 15:42:29 公開日:2023-04-13
# カノニカルおよび非カノニカルハミルトン作用素推論

Canonical and Noncanonical Hamiltonian Operator Inference ( http://arxiv.org/abs/2304.06262v1 )

ライセンス: Link先を確認
Anthony Gruber and Irina Tezaur(参考訳) 正準および非正準ハミルトニアン系の非インタラクティブおよび構造保存モデル還元法を提案する。 作用素推論の考え方に基づき、この手法は確実に収束し、与えられたスナップショットデータとハミルトニアン系のグレイボックス知識の単純線形解に還元される。 いくつかの双曲型偏微分方程式を含む例では、提案手法は、基礎モードの追加に関して正確かつ安定であると同時に、トレーニングデータの範囲外に保存された保存量を保持する還元モデルを生成する。

A method for the nonintrusive and structure-preserving model reduction of canonical and noncanonical Hamiltonian systems is presented. Based on the idea of operator inference, this technique is provably convergent and reduces to a straightforward linear solve given snapshot data and gray-box knowledge of the system Hamiltonian. Examples involving several hyperbolic partial differential equations show that the proposed method yields reduced models which, in addition to being accurate and stable with respect to the addition of basis modes, preserve conserved quantities well outside the range of their training data.
翻訳日:2023-04-14 15:42:12 公開日:2023-04-13
# マヨラナフェルミオンをブレイディングするトポロジカル量子ゲートとトポロジカルエンタングルド状態

Topological quantum gates and topological entangled states by braiding Majorana fermions ( http://arxiv.org/abs/2304.06260v1 )

ライセンス: Link先を確認
Motohiko Ezawa(参考訳) 一次元の鎖でマヨラナフェルミオンをブレイディングすることによって生じる様々な量子ゲートと絡み合った状態について検討する。 これらの量子ゲートと絡み合った状態の係数は、トポロジカル量子計算の性質から完全に固定されており、したがって位相的に保護されている。 cat状態とbell状態は、それぞれ$\left\vert 0\right\rangle $と$\left\vert 00\right\rangle $から構築することができる。 Deutschアルゴリズムは実行可能である。 ハダマール変換ゲートとパウリゲートは任意の数のキュービットに対して生成される。 等効率状態は任意の数の量子ビットに対して構成可能である。 さらに、任意の数の量子ビットに対して単純化されたDeutsch-Jozsaアルゴリズムを実行することもできる。 次に、ブレイディング作用素の行列式に基づく量子ゲートの構成に関するno-go定理を示す。 C$^{k}$Zゲート、C$^{k}$NOTゲートを$k\geq 2$、C$^{k}$SWAPゲートを$k\geq 1$で構築することは不可能であり、CCZゲート、トフォリゲート、フレドキンゲートを含む。 加えて、アダマール門を除いて量子フーリエ変換を構築することは不可能である。

We investigate various quantum gates and entangled states generated solely by bradings Majorana fermions in a one-dimensional chain. The coefficients of these quantum gates and entangled states are exactly fixed owing to the nature of topological quantum computation and hence they are topologically protected. The cat states and the Bell states can be constructed from the initial states $\left\vert 0\right\rangle $ and $\left\vert 00\right\rangle $, respectively. The Deutsch algorithm is executable. The Hadamard transformation gate as well as the Pauli gates are generated for an arbitrary number of qubits. The equal-coefficient states are constructible for an arbitrary number of qubits. Furthermore, it is possible to execute a simplified Deutsch-Jozsa algorithm for an arbitrary number of qubits. Then, we present a no-go theorem on the construction of the quantum gates based on the determinant of the braiding operators. It impossible to construct C$^{k}$ Z gates, C$^{k}$NOT gates for $k\geq 2$ and C$^{k}$SWAP gates for $k\geq 1$ including the CCZ gate, the Toffoli gate, the Fredkin gate. In addition, it is impossible to construct to construct quantum Fourier transformations except for the Hadamard gate.
翻訳日:2023-04-14 15:41:58 公開日:2023-04-13
# mprotonet : 3次元マルチパラメトリックmriを用いた脳腫瘍分類のためのケースベース解釈モデル

MProtoNet: A Case-Based Interpretable Model for Brain Tumor Classification with 3D Multi-parametric Magnetic Resonance Imaging ( http://arxiv.org/abs/2304.06258v1 )

ライセンス: Link先を確認
Yuanyuan Wei, Roger Tam, Xiaoying Tang(参考訳) 最近の深層畳み込みニューラルネットワークの医療画像への応用は、その解釈可能性に懸念を生じさせている。 ほとんどの説明可能なディープラーニングアプリケーションは、機能帰属マップを生成するためにpost hocメソッド(gradcamなど)を使用しているが、新しいタイプのケースベースの推論モデル、すなわちprotopnetとその変種があり、トレーニング中にプロトタイプを特定し、入力イメージパッチとそれらのプロトタイプを比較する。 3次元マルチパラメトリック磁気共鳴画像(mpmri)データを用いて,protopnetを脳腫瘍分類に拡張した最初の医療プロトタイプネットワーク(mprotonet)を提案する。 特に注意領域の局所化における2次元自然画像と3D mpMRIの異なる要件に対処するために,ソフトマスクとオンラインCAMロスを備えた新しい注意モジュールを導入した。 ソフトマスクはアテンションマップのシャープ化に役立ち、オンラインCAMロスはアテンションモジュールのトレーニングに画像レベルのラベルを直接活用する。 MProtoNetは、GradCAMやいくつかのProtoPNetの変種と比較して、トレーニング中に人間のアノテートラベルなしで、正確性とローカライズコヒーレンスの両方の解釈可能性指標(最高のアクティベーション精度が0.713\pm0.058$)を統計的に大幅に改善した。 ソースコードはhttps://github.com/aywi/mprotonet。

Recent applications of deep convolutional neural networks in medical imaging raise concerns about their interpretability. While most explainable deep learning applications use post hoc methods (such as GradCAM) to generate feature attribution maps, there is a new type of case-based reasoning models, namely ProtoPNet and its variants, which identify prototypes during training and compare input image patches with those prototypes. We propose the first medical prototype network (MProtoNet) to extend ProtoPNet to brain tumor classification with 3D multi-parametric magnetic resonance imaging (mpMRI) data. To address different requirements between 2D natural images and 3D mpMRIs especially in terms of localizing attention regions, a new attention module with soft masking and online-CAM loss is introduced. Soft masking helps sharpen attention maps, while online-CAM loss directly utilizes image-level labels when training the attention module. MProtoNet achieves statistically significant improvements in interpretability metrics of both correctness and localization coherence (with a best activation precision of $0.713\pm0.058$) without human-annotated labels during training, when compared with GradCAM and several ProtoPNet variants. The source code is available at https://github.com/aywi/mprotonet.
翻訳日:2023-04-14 15:41:34 公開日:2023-04-13
# spcolor:意味的事前ガイドに基づく画像カラー化

SPColor: Semantic Prior Guided Exemplar-based Image Colorization ( http://arxiv.org/abs/2304.06255v1 )

ライセンス: Link先を確認
Siqi Chen, Xueming Li, Xianlin Zhang, Mingdao Wang, Yu Zhang, Yue Zhang(参考訳) Exemplar-based image colorizationは、色基準画像に基づいて対象のグレースケール画像をカラー化することを目的としており、鍵となるのは、これらの2つの画像間の正確なピクセルレベルのセマンティック対応を確立することである。 以前の手法では、参照画像全体にわたって対応を検索しており、このタイプのグローバルマッチングはミスマッチが容易である。 1)基準画像が対象画像に関連するオブジェクトの一部のみを含む場合,不適切な対応が非関連領域に確立される。 2) 物体の形状やテクスチャが容易に混同される地域では, ミスマッチが生じやすい。 これらの課題を克服するために,先進的な先進的な画像カラー化フレームワークであるSPColorを提案する。 従来の手法と異なり、SPColorはまず、参照画像とターゲット画像の画素をセマンティック先行の指示の下で複数の擬似クラスに分類し、その後、新たに設計されたセマンティック先行対応ネットワークを介して、同一クラスの画素間でのみ対応性を確立する。 このように、異なる意味クラス間の不適切な対応は明示的に除外され、明らかにミスマッチは緩和される。 また、色を基準からよりよく保つために、知覚的損失を隠蔽する類似性を設計する。 慎重に設計されたSPColorは、教師なしセグメンテーションモデルによって提供されるセグメンテーションの事前設定を利用する。 実験により,我々のモデルは,公開データセット上で定量的かつ定性的に,最新の最先端手法よりも優れていることが証明された。

Exemplar-based image colorization aims to colorize a target grayscale image based on a color reference image, and the key is to establish accurate pixel-level semantic correspondence between these two images. Previous methods search for correspondence across the entire reference image, and this type of global matching is easy to get mismatch. We summarize the difficulties in two aspects: (1) When the reference image only contains a part of objects related to target image, improper correspondence will be established in unrelated regions. (2) It is prone to get mismatch in regions where the shape or texture of the object is easily confused. To overcome these issues, we propose SPColor, a semantic prior guided exemplar-based image colorization framework. Different from previous methods, SPColor first coarsely classifies pixels of the reference and target images to several pseudo-classes under the guidance of semantic prior, then the correspondences are only established locally between the pixels in the same class via the newly designed semantic prior guided correspondence network. In this way, improper correspondence between different semantic classes is explicitly excluded, and the mismatch is obviously alleviated. Besides, to better reserve the color from reference, a similarity masked perceptual loss is designed. Noting that the carefully designed SPColor utilizes the semantic prior provided by an unsupervised segmentation model, which is free for additional manual semantic annotations. Experiments demonstrate that our model outperforms recent state-of-the-art methods both quantitatively and qualitatively on public dataset.
翻訳日:2023-04-14 15:41:05 公開日:2023-04-13
# ランダムなエクストリームのためのフェアグレーディングアルゴリズム

Fair Grading Algorithms for Randomized Exams ( http://arxiv.org/abs/2304.06254v1 )

ライセンス: Link先を確認
Jiale Chen, Jason Hartline and Onno Zoeter(参考訳) 本稿では,ランダム化試験の採点アルゴリズムについて検討する。 ランダム化された試験では、各学生は大きな質問バンクから少数のランダムな質問を受ける。 主なグレーディングルールは、単純な評価であり、すなわち、各学生が質問される質問のスコアを平均化することで、ランダム化された質問に対して、ランダム化された質問に対して、不公平な元投稿に対して、スコアを平均化する。 公正グレーディング問題は、全質問銀行で各学生の平均グレードを推定することである。 両分数探索グラフ上のブラッドリー・テリー・リュックモデルに対する最大様相推定器は、各学生に質問された質問数が少なくとも学生数の立方数である場合、高い確率で一致する。 試験データおよびシミュレーションに関する実証研究において,最大類似度推定器を用いたアルゴリズムは,小クラスや試験サイズであっても,予測精度と前ポストフェアネスの単純な平均値を大幅に上回っている。

This paper studies grading algorithms for randomized exams. In a randomized exam, each student is asked a small number of random questions from a large question bank. The predominant grading rule is simple averaging, i.e., calculating grades by averaging scores on the questions each student is asked, which is fair ex-ante, over the randomized questions, but not fair ex-post, on the realized questions. The fair grading problem is to estimate the average grade of each student on the full question bank. The maximum-likelihood estimator for the Bradley-Terry-Luce model on the bipartite student-question graph is shown to be consistent with high probability when the number of questions asked to each student is at least the cubed-logarithm of the number of students. In an empirical study on exam data and in simulations, our algorithm based on the maximum-likelihood estimator significantly outperforms simple averaging in prediction accuracy and ex-post fairness even with a small class and exam size.
翻訳日:2023-04-14 15:40:34 公開日:2023-04-13
# 複合特性と活動予測のための多分子グラフ表現を用いたモデル学習と解釈の強化

Enhancing Model Learning and Interpretation Using Multiple Molecular Graph Representations for Compound Property and Activity Prediction ( http://arxiv.org/abs/2304.06253v1 )

ライセンス: Link先を確認
Apakorn Kengkanna, Masahito Ohue(参考訳) グラフニューラルネットワーク(GNN)は、複雑な分子グラフ構造を効率的に学習する能力により、複合特性と活動予測において優れた性能を示す。 しかしながら、複合表現とモデル解釈可能性を含む2つの主要な制限が持続する。 原子レベルの分子グラフ表現は、自然トポロジーを捉える能力があるため一般的に用いられるが、分子特性に大きな影響を与える重要な部分構造や機能群を完全に表現するものではない。 その結果,高次情報の統合とモデル学習における両表現の活用のために,削減手法を用いた代替表現を提案する。 しかし、モデル学習と解釈に関する異なる分子グラフ表現についての研究はいまだ残っていない。 化学的洞察と最適化へのインスピレーションを提供するため、薬物発見には解釈可能性も不可欠である。 多くの研究は予測の背後にある理論的根拠を説明するモデル解釈を含むことを試みているが、その多くは異なる分子グラフ表現の解釈をほとんど分析せずに個々の予測のみに焦点を当てている。 本研究は,高次情報を含む複数の分子グラフ表現を導入し,モデル学習と多様な視点からの解釈に与える影響について検討する。 その結果,原子グラフ表現と還元分子グラフ表現の組み合わせは有望なモデル性能をもたらすことが示唆された。 さらに、解釈結果は背景知識と一貫して整合する重要な特徴と潜在的な部分構造を提供することができる。 これらの複数の分子グラフ表現と解釈解析は、モデルの理解を促進し、薬物発見における関連する応用を促進する。

Graph neural networks (GNNs) demonstrate great performance in compound property and activity prediction due to their capability to efficiently learn complex molecular graph structures. However, two main limitations persist including compound representation and model interpretability. While atom-level molecular graph representations are commonly used because of their ability to capture natural topology, they may not fully express important substructures or functional groups which significantly influence molecular properties. Consequently, recent research proposes alternative representations employing reduction techniques to integrate higher-level information and leverages both representations for model learning. However, there is still a lack of study about different molecular graph representations on model learning and interpretation. Interpretability is also crucial for drug discovery as it can offer chemical insights and inspiration for optimization. Numerous studies attempt to include model interpretation to explain the rationale behind predictions, but most of them focus solely on individual prediction with little analysis of the interpretation on different molecular graph representations. This research introduces multiple molecular graph representations that incorporate higher-level information and investigates their effects on model learning and interpretation from diverse perspectives. The results indicate that combining atom graph representation with reduced molecular graph representation can yield promising model performance. Furthermore, the interpretation results can provide significant features and potential substructures consistently aligning with background knowledge. These multiple molecular graph representations and interpretation analysis can bolster model comprehension and facilitate relevant applications in drug discovery.
翻訳日:2023-04-14 15:40:18 公開日:2023-04-13
# 重要度:インフォームド・インフォームド・インフォームド・インフルエンス・テンパリング・メソッドのガイド

Importance is Important: A Guide to Informed Importance Tempering Methods ( http://arxiv.org/abs/2304.06251v1 )

ライセンス: Link先を確認
Guanxun Li, Aaron Smith, Quan Zhou(参考訳) Informed importance tempering (IIT) は、よく知られたMetropolis-Hastingsアルゴリズムの拡張と見なせる実装が容易なMCMCアルゴリズムである。 この研究は、多くの状況においてITIの使用に関する新しい包括的ガイドを開発する。 まず,既存の情報MCMC法よりも高速な2つのIIT方式を提案する。 第2に,従来メトロポリス・ハスティングス方式として実装され,受入率の低下に悩まされていた,模擬テンパリング,疑似マルジナル,マルチトライといった他のMCMC手法とIITを統合した。 IITを使うことで、常に提案を受け入れ、メトロポリス・ハスティングスフレームワークでは不可能なサンプルを最適化する新たな機会をもたらすことができます。 提案するアルゴリズムについて,本研究の数値的な例を示し,IIT法の複雑さに関する一般的な理論を考案した。

Informed importance tempering (IIT) is an easy-to-implement MCMC algorithm that can be seen as an extension of the familiar Metropolis-Hastings algorithm with the special feature that informed proposals are always accepted, and which was shown in Zhou and Smith (2022) to converge much more quickly in some common circumstances. This work develops a new, comprehensive guide to the use of IIT in many situations. First, we propose two IIT schemes that run faster than existing informed MCMC methods on discrete spaces by not requiring the posterior evaluation of all neighboring states. Second, we integrate IIT with other MCMC techniques, including simulated tempering, pseudo-marginal and multiple-try methods (on general state spaces), which have been conventionally implemented as Metropolis-Hastings schemes and can suffer from low acceptance rates. The use of IIT allows us to always accept proposals and brings about new opportunities for optimizing the sampler which are not possible under the Metropolis-Hastings framework. Numerical examples illustrating our findings are provided for each proposed algorithm, and a general theory on the complexity of IIT methods is developed.
翻訳日:2023-04-14 15:39:55 公開日:2023-04-13
# インタラクティブプロンプトによる効率的なマルチモーダル融合

Efficient Multimodal Fusion via Interactive Prompting ( http://arxiv.org/abs/2304.06306v1 )

ライセンス: Link先を確認
Yaowei Li, Ruijie Quan, Linchao Zhu, Yi Yang(参考訳) 大規模事前学習は、コンピュータビジョンや自然言語処理のような一助的な分野を新しい時代にもたらした。 この傾向に従い、マルチモーダル学習モデルのサイズは絶えず増大し、ダウンストリームタスクのためにこれらのモデルを微調整する膨大な計算コストを削減する必要がある。 本稿では,一様事前学習型変圧器の融合に適した効率的かつ柔軟な多モード融合法PMFを提案する。 具体的には、まず、高い柔軟性を示し、異なるモード間の相互相互作用を容易にするモジュラーマルチモーダル融合フレームワークを提案する。 さらに,バニラプロンプトを3つのタイプに切り離して,マルチモーダル学習のための最適化目的を学習する。 また, インモーダル変換器の深層層のみにプロンプトベクトルを追加することを提案することで, トレーニングメモリ使用量を大幅に削減できることも注目に値する。 実験の結果,提案手法はトレーニング可能なパラメータが3%未満で,最大66%のメモリ使用量の削減が可能な他のマルチモーダルファインタニング手法と同等の性能を達成できた。

Large-scale pre-training has brought unimodal fields such as computer vision and natural language processing to a new era. Following this trend, the size of multi-modal learning models constantly increases, leading to an urgent need to reduce the massive computational cost of finetuning these models for downstream tasks. In this paper, we propose an efficient and flexible multimodal fusion method, namely PMF, tailored for fusing unimodally pre-trained transformers. Specifically, we first present a modular multimodal fusion framework that exhibits high flexibility and facilitates mutual interactions among different modalities. In addition, we disentangle vanilla prompts into three types in order to learn different optimizing objectives for multimodal learning. It is also worth noting that we propose to add prompt vectors only on the deep layers of the unimodal transformers, thus significantly reducing the training memory usage. Experiment results show that our proposed method achieves comparable performance to several other multimodal finetuning methods with less than 3% trainable parameters and up to 66% saving of training memory usage.
翻訳日:2023-04-14 15:32:50 公開日:2023-04-13
# 中スペクトル群畳み込みによる畳み込みニューラルネットワークの高速化

Boosting Convolutional Neural Networks with Middle Spectrum Grouped Convolution ( http://arxiv.org/abs/2304.06305v1 )

ライセンス: Link先を確認
Zhuo Su, Jiehua Zhang, Tianpeng Liu, Zhen Liu, Shuanghui Zhang, Matti Pietik\"ainen, Li Liu(参考訳) 本稿では,より効率的な深部畳み込みニューラルネットワーク(DCNN)のための,中間スペクトル群畳み込み(MSGC)と呼ばれる新しいモジュールを提案する。 チャネルプルーニングと従来のグループ畳み込みの間の広い「中間スペクトル」領域を探索する。 チャネルプルーニングと比較して、MSGCはグループ機構によって入力特徴マップからの情報の大部分を保持することができ、グループ畳み込みと比較して、チャネルプルーニングのコアである学習性からMSGCが恩恵を受け、グループトポロジを構築することにより、チャネル分割が向上する。 中間スペクトル領域は、群、層、標本、注意の4次元に沿って展開され、より強力で解釈可能な構造を明らかにすることができる。 その結果、提案するモジュールは、予測精度が向上し、一般的な画像認識のためのホストバックボーンの計算コストを削減できるブースターとして機能する。 例えば、画像分類のためのImageNetデータセットの実験では、MSGCはResNet-18とResNet-50の乗算累積(MAC)を半減するが、Top-1の精度は1%以上向上する。 35%のMAC削減により、MSGCはMobileNetV2バックボーンのTop-1精度も向上する。 オブジェクト検出のためのMS COCOデータセットの結果も同様の観測結果を示した。 私たちのコードとトレーニングされたモデルはhttps://github.com/hellozhuo/msgcで利用可能です。

This paper proposes a novel module called middle spectrum grouped convolution (MSGC) for efficient deep convolutional neural networks (DCNNs) with the mechanism of grouped convolution. It explores the broad "middle spectrum" area between channel pruning and conventional grouped convolution. Compared with channel pruning, MSGC can retain most of the information from the input feature maps due to the group mechanism; compared with grouped convolution, MSGC benefits from the learnability, the core of channel pruning, for constructing its group topology, leading to better channel division. The middle spectrum area is unfolded along four dimensions: group-wise, layer-wise, sample-wise, and attention-wise, making it possible to reveal more powerful and interpretable structures. As a result, the proposed module acts as a booster that can reduce the computational cost of the host backbones for general image recognition with even improved predictive accuracy. For example, in the experiments on ImageNet dataset for image classification, MSGC can reduce the multiply-accumulates (MACs) of ResNet-18 and ResNet-50 by half but still increase the Top-1 accuracy by more than 1%. With 35% reduction of MACs, MSGC can also increase the Top-1 accuracy of the MobileNetV2 backbone. Results on MS COCO dataset for object detection show similar observations. Our code and trained models are available at https://github.com/hellozhuo/msgc.
翻訳日:2023-04-14 15:32:31 公開日:2023-04-13
# ALR-GAN:テキスト・画像合成のための適応レイアウトリファインメント

ALR-GAN: Adaptive Layout Refinement for Text-to-Image Synthesis ( http://arxiv.org/abs/2304.06297v1 )

ライセンス: Link先を確認
Hongchen Tan, Baocai Yin, Kun Wei, Xiuping Liu, Xin Li(参考訳) 本稿では,合成画像のレイアウトを補助情報なしで適応的に洗練するために,新しいテキスト対画像生成ネットワークである適応レイアウト改善生成逆ネットワーク(alr-gan)を提案する。 ALR-GANは、Adaptive Layout Refinement (ALR)モジュールとLayout Visual Refinement (LVR)損失を含む。 alrモジュールは、合成画像のレイアウト構造(オブジェクトと背景の位置を指す)と、対応する実画像のレイアウト構造とを整合させる。 ALRモジュールでは、より効率的なレイアウト構造マッチングのために、困難かつ容易な特徴のマッチングのバランスをとるために、適応レイアウトリファインメント(ALR)損失を提案する。 改良されたレイアウト構造に基づいて、LVR損失はレイアウト領域内の視覚的表現をさらに洗練する。 ALR-GANはテキスト・画像生成タスクにおいて競合的に動作することを示す。

We propose a novel Text-to-Image Generation Network, Adaptive Layout Refinement Generative Adversarial Network (ALR-GAN), to adaptively refine the layout of synthesized images without any auxiliary information. The ALR-GAN includes an Adaptive Layout Refinement (ALR) module and a Layout Visual Refinement (LVR) loss. The ALR module aligns the layout structure (which refers to locations of objects and background) of a synthesized image with that of its corresponding real image. In ALR module, we proposed an Adaptive Layout Refinement (ALR) loss to balance the matching of hard and easy features, for more efficient layout structure matching. Based on the refined layout structure, the LVR loss further refines the visual representation within the layout area. Experimental results on two widely-used datasets show that ALR-GAN performs competitively at the Text-to-Image generation task.
翻訳日:2023-04-14 15:32:06 公開日:2023-04-13
# リアルタイムフィードバックによるマルチトンマイクロ波ロック

Multi-Tone Microwave Locking via Real-Time Feedback ( http://arxiv.org/abs/2304.06296v1 )

ライセンス: Link先を確認
J.P. van Soest, C.A. Potts, S. Peiter, A. Sanz Mora, G.A. Steele(参考訳) 機械実験への環境ノイズカップリングは、しばしば低周波変動を導入し、測定にノイズを加え、ノイズに信号を減らす。 これらのゆらぎに対処するために,マイクロ波駆動を雑音共振器にロックすることで実装した動的フィードバックシステムを示す。 ホモダイン干渉計は、マイクロ波発生器の周波数変調(FM)により緩和される低周波雑音による共振変動を監視する。 フィードバックの帯域幅は400ドル Hz で、キャビティ変動を 84 % 削減し、帯域幅は 2 ドル kHz になる。 さらに、空洞共振周波数変動を7,3\%$に低減する。 このスキームは、同じフィードバック信号にロックされたマルチトーン実験を可能にするためにスケールできる。 実演として,オプトメカニカル実験にフィードバックを適用し,キャビティロック,マルチトンメカニカル測定を実装した。 多くの実験において、低周波共振器周波数ノイズが制限要因となりうるため、ここで紹介したマルチトンマイクロ波ロック技術は幅広い研究分野に関係することが期待される。

Environmental noise coupling to mechanical experiments often introduces low-frequency fluctuations to the resonators, adding noise to measurements and reducing signal to noise. To counter these fluctuations, we demonstrate a dynamic feedback system implemented by the locking of a microwave drive to the noisy cavity. A homodyne interferometer scheme monitors the cavity resonance fluctuations due to low-frequency noise, which is mitigated by frequency-modulating (FM) the microwave generator. The feedback has a bandwidth of $400$ Hz, with a reduction of cavity fluctuations by $84\%$ integrating up to a bandwidth of $2$ kHz. Moreover, the cavity resonance frequency fluctuations are reduced by $73\%$. This scheme can be scaled to enable multi-tone experiments locked to the same feedback signal. As a demonstration, we apply the feedback to an optomechanical experiment and implement a cavity-locked, multi-tone mechanical measurement. As low-frequency cavity frequency noise can be a limiting factor in many experiments, the multi-tone microwave locking technique presented here is expected to be relevant for a wide range of fields of research.
翻訳日:2023-04-14 15:31:46 公開日:2023-04-13
# ミスラベルデータによるナイーブベイの改善

Improved Naive Bayes with Mislabeled Data ( http://arxiv.org/abs/2304.06292v1 )

ライセンス: Link先を確認
Qianhan Zeng, Yingqiu Zhu, Xuening Zhu, Feifei Wang, Weichen Zhao, Shuning Sun, Meng Su, Hansheng Wang(参考訳) ラベル付けミスは現実世界のアプリケーションで頻繁に発生する。 うまく扱わなければ、ラベル付けミスはモデルの分類性能を著しく悪化させる可能性がある。 そこで本研究では,テキスト分類のためのナイーブベイズ法の改良を提案する。 分析的に単純で、正しいラベルや間違ったラベルに対する主観的な判断がない。 誤りラベルの生成機構を指定することで,emアルゴリズムを用いて対応するlog-likelihood関数を反復的に最適化する。 シミュレーションおよび実験により,改良されたナイーブベイズ法が,誤りラベルデータを用いたナイーブベイズ法の性能を大幅に改善することを示した。

Labeling mistakes are frequently encountered in real-world applications. If not treated well, the labeling mistakes can deteriorate the classification performances of a model seriously. To address this issue, we propose an improved Naive Bayes method for text classification. It is analytically simple and free of subjective judgements on the correct and incorrect labels. By specifying the generating mechanism of incorrect labels, we optimize the corresponding log-likelihood function iteratively by using an EM algorithm. Our simulation and experiment results show that the improved Naive Bayes method greatly improves the performances of the Naive Bayes method with mislabeled data.
翻訳日:2023-04-14 15:31:25 公開日:2023-04-13
# NeRFVS: 幾何学による自由視点合成のためのニューラルラジアンス場

NeRFVS: Neural Radiance Fields for Free View Synthesis via Geometry Scaffolds ( http://arxiv.org/abs/2304.06287v1 )

ライセンス: Link先を確認
Chen Yang, Peihao Li, Zanwei Zhou, Shanxin Yuan, Bingbing Liu, Xiaokang Yang, Weichao Qiu, Wei Shen(参考訳) 室内における自由ナビゲーションを可能にする新しいニューラル放射場(NeRF)法であるNeRFVSを提案する。 nerfは、トレーニングビューと大きく異なる新規ビューに苦しむ一方で、入力ビューに似た新規ビューのレンダリングで印象的なパフォーマンスを達成している。 この問題に対処するために,3次元屋内シーンの暗黙的ニューラルネットワーク表現の学習のガイドとして,ニューラルネットワーク再構成から疑似深度マップや視野カバレッジ情報を含む全体論的事前情報を利用する。 具体的には、既製のニューラル再構成法を利用して幾何学的足場を生成する。 そして、NeRFの学習を改善するために、全体論的事前に基づく2つの損失関数を提案する。 1)NeRFの幾何学的学習を導くために擬似深度マップの誤差を許容できる頑健な深度損失 2) 暗黙の神経表現の分散を規則化する分散損失は、学習手順の幾何学的・色彩的曖昧さを減少させる。 これらの2つの損失関数は、ビューカバレッジ情報に従ってNeRF最適化中に変調され、ビューカバレッジの不均衡による負の影響を低減する。 以上の結果から,NeRFVSは室内のシーンにおいて定量的かつ質的に最先端のビュー合成法より優れ,高忠実度なナビゲーション結果が得られることが示された。

We present NeRFVS, a novel neural radiance fields (NeRF) based method to enable free navigation in a room. NeRF achieves impressive performance in rendering images for novel views similar to the input views while suffering for novel views that are significantly different from the training views. To address this issue, we utilize the holistic priors, including pseudo depth maps and view coverage information, from neural reconstruction to guide the learning of implicit neural representations of 3D indoor scenes. Concretely, an off-the-shelf neural reconstruction method is leveraged to generate a geometry scaffold. Then, two loss functions based on the holistic priors are proposed to improve the learning of NeRF: 1) A robust depth loss that can tolerate the error of the pseudo depth map to guide the geometry learning of NeRF; 2) A variance loss to regularize the variance of implicit neural representations to reduce the geometry and color ambiguity in the learning procedure. These two loss functions are modulated during NeRF optimization according to the view coverage information to reduce the negative influence brought by the view coverage imbalance. Extensive results demonstrate that our NeRFVS outperforms state-of-the-art view synthesis methods quantitatively and qualitatively on indoor scenes, achieving high-fidelity free navigation results.
翻訳日:2023-04-14 15:31:18 公開日:2023-04-13
# 符号化による効率的な画像テキスト検索のための画像へのECG信号変換

Converting ECG Signals to Images for Efficient Image-text Retrieval via Encoding ( http://arxiv.org/abs/2304.06286v1 )

ライセンス: Link先を確認
Jielin Qiu, Jiacheng Zhu, Shiqi Liu, William Han, Jingqi Zhang, Chaojing Duan, Michael Rosenberg, Emerson Liu, Douglas Weber, Ding Zhao(参考訳) 心電図の自動解釈(ECG)は,機械学習手法の進歩とともに注目されている。 機械学習を用いた心電図の自動解釈への関心は高まっているが、現在の研究のほとんどは分類や退行のタスクのみに焦点を当てており、心電図診断の重要な側面である経験豊富なヒト臨床医による診断報告を見落としている。 本稿では,Large Language Models (LLM) と Vision-Transformer (ViT) モデルにおける最近のブレークスルーを活用し,ECGの解釈に新しいアプローチを導入する。 心電図診断を分類または回帰タスクとして扱うのではなく、入力された心電図データに基づいて最も類似した臨床症例を自動的に同定する別の方法を提案する。 また,ECGを画像として解釈しやすく,利用しやすいので,ECGを符号化画像として処理し,符号化されたECG画像とECG診断レポートの視覚言語アライメントを共同学習するための視覚言語学習パラダイムを採用する。 画像に心電図をエンコードすることで,効率的な心電図検索システムを実現することができる。 さらに重要なことは、過去の未開発のため、紙で印刷したECG画像のみにアクセス可能な地域において、診断サービスを提供するための重要なリソースとなる可能性がある。

Automated interpretation of electrocardiograms (ECG) has garnered significant attention with the advancements in machine learning methodologies. Despite the growing interest in automated ECG interpretation using machine learning, most current studies focus solely on classification or regression tasks and overlook a crucial aspect of clinical cardio-disease diagnosis: the diagnostic report generated by experienced human clinicians. In this paper, we introduce a novel approach to ECG interpretation, leveraging recent breakthroughs in Large Language Models (LLMs) and Vision-Transformer (ViT) models. Rather than treating ECG diagnosis as a classification or regression task, we propose an alternative method of automatically identifying the most similar clinical cases based on the input ECG data. Also, since interpreting ECG as images are more affordable and accessible, we process ECG as encoded images and adopt a vision-language learning paradigm to jointly learn vision-language alignment between encoded ECG images and ECG diagnosis reports. Encoding ECG into images can result in an efficient ECG retrieval system, which will be highly practical and useful in clinical applications. More importantly, our findings could serve as a crucial resource for providing diagnostic services in regions where only paper-printed ECG images are accessible due to past underdevelopment.
翻訳日:2023-04-14 15:30:54 公開日:2023-04-13
# 安全かつ効率的なマルチエージェント強化学習のためのモデルベース動的シールド

Model-based Dynamic Shielding for Safe and Efficient Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2304.06281v1 )

ライセンス: Link先を確認
Wenli Xiao, Yiwei Lyu, John Dolan(参考訳) MARL(Multi-Agent Reinforcement Learning)は、報酬を最大化するが、学習と展開フェーズにおいて安全保証を持たないポリシーを発見する。 線形時間論理(LTL)による遮蔽は、単一エージェント強化学習(RL)における安全性を確保するための有望な形式的手法であるが、マルチエージェントシナリオへのスケーリングにおいて保守的な振る舞いをもたらす。 さらに、複雑なマルチエージェント環境におけるシールドの合成に計算上の課題が生じる。 本研究はMARLアルゴリズム設計をサポートするモデルベース動的シールド(MBDS)を導入する。 本アルゴリズムは,各MARLエージェントと並列に動作する反応系である分散シールドを合成し,安全でない動作を監視し,修正する。 シールドはエージェントの状態に基づいて動的に分割、マージ、再計算できる。 この設計により、複雑な環境でエージェントを監視するためのシールドの効率的な合成が可能となる。 また,動的モデルの事前知識なくシールドを合成するアルゴリズムを提案する。 提案アルゴリズムは,探索の初期段階に環境と相互作用して近似的な世界モデルを求め,MBDSが正式な安全保証を高い確率で享受できるようにする。 我々は,安全保証と学習性能の観点から,既存のベースラインを超えることができることをシミュレーションで実証する。

Multi-Agent Reinforcement Learning (MARL) discovers policies that maximize reward but do not have safety guarantees during the learning and deployment phases. Although shielding with Linear Temporal Logic (LTL) is a promising formal method to ensure safety in single-agent Reinforcement Learning (RL), it results in conservative behaviors when scaling to multi-agent scenarios. Additionally, it poses computational challenges for synthesizing shields in complex multi-agent environments. This work introduces Model-based Dynamic Shielding (MBDS) to support MARL algorithm design. Our algorithm synthesizes distributive shields, which are reactive systems running in parallel with each MARL agent, to monitor and rectify unsafe behaviors. The shields can dynamically split, merge, and recompute based on agents' states. This design enables efficient synthesis of shields to monitor agents in complex environments without coordination overheads. We also propose an algorithm to synthesize shields without prior knowledge of the dynamics model. The proposed algorithm obtains an approximate world model by interacting with the environment during the early stage of exploration, making our MBDS enjoy formal safety guarantees with high probability. We demonstrate in simulations that our framework can surpass existing baselines in terms of safety guarantees and learning performance.
翻訳日:2023-04-14 15:30:28 公開日:2023-04-13
# アクティブラーニングに基づく改善戦略によるマルチドメインパフォーマンスの最適化

Optimizing Multi-Domain Performance with Active Learning-based Improvement Strategies ( http://arxiv.org/abs/2304.06277v1 )

ライセンス: Link先を確認
Anand Gokul Mahalingam, Aayush Shah, Akshay Gulati, Royston Mascarenhas, Rakshitha Panduranga(参考訳) 複数のドメインのパフォーマンス向上は難しい課題であり、モデルのトレーニングとテストには大量のデータが必要になることが多い。 アクティブラーニング技術は、モデルがラベル付けのための最も有益なサンプルを選択できるようにすることで、高いパフォーマンスを達成するのに必要なラベル付きデータの量を減らすことで、有望なソリューションを提供する。 本稿では,複数の領域にわたるパフォーマンス向上のための能動的学習基盤を提案する。 まず、ベースモデルをトレーニングするためにラベル付きデータの初期セットを使用し、次にラベル付けのための最も情報性の高いサンプルを反復的に選択し、モデルを洗練させます。 画像分類,感情分析,オブジェクト認識など,複数の多領域データセットに対するアプローチを評価した。 実験により,本手法はベースライン手法を一貫して上回り,複数のデータセット上で最先端の性能を達成することを示す。 また,本手法は高度に効率的であり,他のアクティブラーニングベース手法に比べてラベル付きサンプルが有意に少ないことを示す。 全体として、このアプローチは、アクティブな学習技術を使用して、複数のドメインにわたるパフォーマンスを改善するための実践的で効果的なソリューションを提供します。

Improving performance in multiple domains is a challenging task, and often requires significant amounts of data to train and test models. Active learning techniques provide a promising solution by enabling models to select the most informative samples for labeling, thus reducing the amount of labeled data required to achieve high performance. In this paper, we present an active learning-based framework for improving performance across multiple domains. Our approach consists of two stages: first, we use an initial set of labeled data to train a base model, and then we iteratively select the most informative samples for labeling to refine the model. We evaluate our approach on several multi-domain datasets, including image classification, sentiment analysis, and object recognition. Our experiments demonstrate that our approach consistently outperforms baseline methods and achieves state-of-the-art performance on several datasets. We also show that our method is highly efficient, requiring significantly fewer labeled samples than other active learning-based methods. Overall, our approach provides a practical and effective solution for improving performance across multiple domains using active learning techniques.
翻訳日:2023-04-14 15:30:07 公開日:2023-04-13
# メタ類似度補正による雑音対応学習

Noisy Correspondence Learning with Meta Similarity Correction ( http://arxiv.org/abs/2304.06275v1 )

ライセンス: Link先を確認
Haochen Han, Kaiyao Miao, Qinghua Zheng, Minnan Luo(参考訳) クロスモーダル検索タスクにおけるマルチモーダル学習の成功にもかかわらず,その顕著な進歩はマルチメディアデータ間の正しい対応に依存している。 しかし、このような理想的なデータ収集は高価で時間を要する。 実際、最も広く使われているデータセットはインターネットから収集され、必然的にミスマッチペアを含む。 このようなノイズの多い対応データセットのトレーニングは、クロスモーダル検索手法がミスマッチしたデータを間違った方法で強制できるため、性能劣化を引き起こす。 この問題に対処するため,我々はメタ類似度補正ネットワーク(mscn)を提案し,信頼性の高い類似度スコアを提供する。 我々は、二項分類タスクを、MSCNが正および負のメタデータから識別を学習することを奨励するメタプロセスと見なしている。 ノイズの影響をさらに緩和するため,メタデータを用いた効果的なデータ浄化戦略を事前知識として設計し,ノイズを除去する。 Flickr30K, MS-COCO, コンセプトキャプションなど, 合成ノイズと実世界の雑音の双方において, 本手法の強みを示すために, 大規模な実験を行った。

Despite the success of multimodal learning in cross-modal retrieval task, the remarkable progress relies on the correct correspondence among multimedia data. However, collecting such ideal data is expensive and time-consuming. In practice, most widely used datasets are harvested from the Internet and inevitably contain mismatched pairs. Training on such noisy correspondence datasets causes performance degradation because the cross-modal retrieval methods can wrongly enforce the mismatched data to be similar. To tackle this problem, we propose a Meta Similarity Correction Network (MSCN) to provide reliable similarity scores. We view a binary classification task as the meta-process that encourages the MSCN to learn discrimination from positive and negative meta-data. To further alleviate the influence of noise, we design an effective data purification strategy using meta-data as prior knowledge to remove the noisy samples. Extensive experiments are conducted to demonstrate the strengths of our method in both synthetic and real-world noises, including Flickr30K, MS-COCO, and Conceptual Captions.
翻訳日:2023-04-14 15:29:47 公開日:2023-04-13
# 粗大CNNとGRUネットワークのアンサンブルモデルを用いたディープラーニングによるフォール検出アルゴリズム

Deep Learning-based Fall Detection Algorithm Using Ensemble Model of Coarse-fine CNN and GRU Networks ( http://arxiv.org/abs/2304.06335v1 )

ライセンス: Link先を確認
Chien-Pin Liu, Ju-Hsuan Li, En-Ping Chu, Chia-Yeh Hsieh, Kai-Chun Liu, Chia-Tai Chan, Yu Tsao(参考訳) 転倒によって引き起こされたケガは、医療費の多さと関連しているため、世界中の高齢者にとって、転倒は公衆衛生上の問題となっている。 転倒は重傷を負い、高齢者が「長い道」に苦しむ場合でさえも重傷を負う。 そのため、緊急警報を救急に提供するために、信頼性の高い転倒検知(fd)システムが必要となる。 ウェアラブルデバイス技術や人工知能の進歩により、加速度計やジャイロスコープから収集した信号を機械学習やディープラーニングを用いて分析するシステムも開発されている。 本研究では,より優れた転倒検出性能を実現するために,粗大な畳み込みニューラルネットワークとゲート再帰ユニットを組み合わせたアンサンブルモデルを提案する。 このモデルで使用される並列構造設計は、異なる空間特性の粒を復元し、特徴表現のための時間依存性をキャプチャする。 本研究は,提案モデルの信頼性を検証するためにfallalld public datasetを適用し,それぞれ92.54%,96.13%,94.26%のリコール,精度,f-scoreを実現する。 その結果,FD用畳み込みニューラルネットワーク(CNN-LSTM)と比較して,日々の生活活動から転倒を識別する際のアンサンブルモデルの信頼性と優れた性能が示された。

Falls are the public health issue for the elderly all over the world since the fall-induced injuries are associated with a large amount of healthcare cost. Falls can cause serious injuries, even leading to death if the elderly suffers a "long-lie". Hence, a reliable fall detection (FD) system is required to provide an emergency alarm for first aid. Due to the advances in wearable device technology and artificial intelligence, some fall detection systems have been developed using machine learning and deep learning methods to analyze the signal collected from accelerometer and gyroscopes. In order to achieve better fall detection performance, an ensemble model that combines a coarse-fine convolutional neural network and gated recurrent unit is proposed in this study. The parallel structure design used in this model restores the different grains of spatial characteristics and capture temporal dependencies for feature representation. This study applies the FallAllD public dataset to validate the reliability of the proposed model, which achieves a recall, precision, and F-score of 92.54%, 96.13%, and 94.26%, respectively. The results demonstrate the reliability of the proposed ensemble model in discriminating falls from daily living activities and its superior performance compared to the state-of-the-art convolutional neural network long short-term memory (CNN-LSTM) for FD.
翻訳日:2023-04-14 15:23:46 公開日:2023-04-13
# idisc: 単眼深度推定のための内部離散化

iDisc: Internal Discretization for Monocular Depth Estimation ( http://arxiv.org/abs/2304.06334v1 )

ライセンス: Link先を確認
Luigi Piccinelli, Christos Sakaridis, Fisher Yu(参考訳) 単眼深度推定は3次元シーン理解および下流アプリケーションに基本となる。 しかしながら、監督された設定の下でも、完全な幾何学的制約がないため、まだ困難かつ不適切である。 シーンは数百万ピクセルで構成されることができるが、高レベルのパターンは少ない。 これらのパターンを内部離散表現で学習するためにidiscを提案する。 このメソッドは暗黙的にシーンを高レベルのパターンの集合に分割する。 特に、我々の新しいモジュールである内部離散化(ID)は、監督なしにこれらの概念を学ぶために、連続的な離散連続的なボトルネックを実装します。 最先端の手法とは対照的に、提案モデルでは、深度出力に明確な制約や事前を課していない。 IDモジュールによるネットワーク全体は、注意に基づくボトルネックモジュールのおかげで、エンドツーエンドでトレーニングすることができる。 提案手法は,NYU-Depth v2 と KITTI を改良し,公式な KITTI ベンチマークで公表されたすべての手法より優れていた。 iDiscは、表面正規推定における最先端の結果も達成できる。 さらに,ゼロショットテストによるモデル一般化機能について検討する。 屋外シナリオにおける多様化を促進するための説得力のあるニーズを観察する。 したがって、DDADとArgoverseの2つの自律走行データセットの分割を導入する。 コードはhttp://vis.xyz/pub/idisc で入手できる。

Monocular depth estimation is fundamental for 3D scene understanding and downstream applications. However, even under the supervised setup, it is still challenging and ill-posed due to the lack of full geometric constraints. Although a scene can consist of millions of pixels, there are fewer high-level patterns. We propose iDisc to learn those patterns with internal discretized representations. The method implicitly partitions the scene into a set of high-level patterns. In particular, our new module, Internal Discretization (ID), implements a continuous-discrete-continuous bottleneck to learn those concepts without supervision. In contrast to state-of-the-art methods, the proposed model does not enforce any explicit constraints or priors on the depth output. The whole network with the ID module can be trained end-to-end, thanks to the bottleneck module based on attention. Our method sets the new state of the art with significant improvements on NYU-Depth v2 and KITTI, outperforming all published methods on the official KITTI benchmark. iDisc can also achieve state-of-the-art results on surface normal estimation. Further, we explore the model generalization capability via zero-shot testing. We observe the compelling need to promote diversification in the outdoor scenario. Hence, we introduce splits of two autonomous driving datasets, DDAD and Argoverse. Code is available at http://vis.xyz/pub/idisc .
翻訳日:2023-04-14 15:23:21 公開日:2023-04-13
# 記号回帰の優先順位

Priors for symbolic regression ( http://arxiv.org/abs/2304.06333v1 )

ライセンス: Link先を確認
Deaglan J. Bartlett, Harry Desmond, Pedro G. Ferreira(参考訳) データセットの競合する記号モデルを選択する際、人間は自然に「単純」な表現を好むか、あるいは以前類似した文脈で見られた方程式によく似ているものを選ぶ。 これは、関数に先立って一様でないことが示唆されるが、シンボリック回帰(SR)フレームワークの中ではほとんど考慮されない。 本稿では,関数とそのパラメータに関する詳細な事前情報をsrに組み込む手法を開発した。 関数の構造に関する前述は、各演算子の発生頻度に加えて、互いに相対的な演算子の配置に敏感な$n$-gram言語モデルに基づいています。 また,分数ベイズ係数に基づく形式論を発達させ,モデルがベイズ的エビデンスと同等に比較できるように数値パラメータを前もって扱い,ベイズ的,最小記述長,ヒューリスティックなモデル選択法を明示的に比較する。 我々は、ベンチマークの文献基準や宇宙論の分野の現実世界のデータセットと比較して、先行研究のパフォーマンスを実証する。

When choosing between competing symbolic models for a data set, a human will naturally prefer the "simpler" expression or the one which more closely resembles equations previously seen in a similar context. This suggests a non-uniform prior on functions, which is, however, rarely considered within a symbolic regression (SR) framework. In this paper we develop methods to incorporate detailed prior information on both functions and their parameters into SR. Our prior on the structure of a function is based on a $n$-gram language model, which is sensitive to the arrangement of operators relative to one another in addition to the frequency of occurrence of each operator. We also develop a formalism based on the Fractional Bayes Factor to treat numerical parameter priors in such a way that models may be fairly compared though the Bayesian evidence, and explicitly compare Bayesian, Minimum Description Length and heuristic methods for model selection. We demonstrate the performance of our priors relative to literature standards on benchmarks and a real-world dataset from the field of cosmology.
翻訳日:2023-04-14 15:23:02 公開日:2023-04-13
# カーネル回帰における対人訓練におけるオーバーフィッティングの理解

Understanding Overfitting in Adversarial Training in Kernel Regression ( http://arxiv.org/abs/2304.06326v1 )

ライセンス: Link先を確認
Teng Zhang, Kang Li(参考訳) ニューラルネットワークの性能を高めるために、逆トレーニングとノイズによるデータ拡張が広く採用されている。 本稿では,再生核ヒルベルト空間(rkhs)における正規化回帰の文脈における雑音を伴う逆訓練とデータ拡張について検討する。 攻撃と雑音の大きさ、正規化パラメータがゼロになる傾向にあるため、これらの手法の制限式を定式化します。 この制限公式に基づいて、特定のシナリオを分析し、適切な正規化がなければ、この2つの方法が標準カーネル回帰よりも大きな一般化誤差とリプシッツ定数を持つことを実証する。 しかし、適切な正規化パラメータを選択することで、これらの2つの方法は標準カーネル回帰よりも優れ、より小さな一般化誤差とリプシッツ定数を達成することができる。 これらの知見は、敵の訓練が過度な適合につながるという経験的観察を支持し、早期停止のような適切な正規化手法はこの問題を軽減することができる。

Adversarial training and data augmentation with noise are widely adopted techniques to enhance the performance of neural networks. This paper investigates adversarial training and data augmentation with noise in the context of regularized regression in a reproducing kernel Hilbert space (RKHS). We establish the limiting formula for these techniques as the attack and noise size, as well as the regularization parameter, tend to zero. Based on this limiting formula, we analyze specific scenarios and demonstrate that, without appropriate regularization, these two methods may have larger generalization error and Lipschitz constant than standard kernel regression. However, by selecting the appropriate regularization parameter, these two methods can outperform standard kernel regression and achieve smaller generalization error and Lipschitz constant. These findings support the empirical observations that adversarial training can lead to overfitting, and appropriate regularization methods, such as early stopping, can alleviate this issue.
翻訳日:2023-04-14 15:22:43 公開日:2023-04-13
# 量子メッセージの署名方法

How to Sign Quantum Messages ( http://arxiv.org/abs/2304.06325v1 )

ライセンス: Link先を確認
Mohammed Barhoush and Louis Salvail(参考訳) 量子メッセージの署名は、計算的な仮定の下でも不可能であることが示されている。 この結果は、時間によって変化する検証キーや大きな量子状態に依存することで回避できることを示す。 それに応じて、量子情報に署名する2つの新しいアプローチを与える。 第一のアプローチは、アルゴリズムが時間を考慮した時間依存シグネチャスキームを得るために量子セキュア片道関数(QOWF)を仮定する。 キーはクラシックだが、検証キーは継続的に更新する必要がある。 第2の構成では、固定量子検証キーを使用し、境界量子メモリを持つ敵、すなわち境界量子ストレージモデルに対する情報理論的なセキュアシグネチャを実現する。 さらに,量子公開鍵暗号方式における鍵認証に時間依存署名を適用し,選択された量子鍵と暗号文攻撃(qckca)において識別不能を実現する。

Signing quantum messages has been shown to be impossible even under computational assumptions. We show that this result can be circumvented by relying on verification keys that change with time or that are large quantum states. Correspondingly, we give two new approaches to sign quantum information. The first approach assumes quantum-secure one-way functions (QOWF) to obtain a time-dependent signature scheme where the algorithms take into account time. The keys are classical but the verification key needs to be continually updated. The second construction uses fixed quantum verification keys and achieves information-theoretic secure signatures against adversaries with bounded quantum memory i.e. in the bounded quantum storage model. Furthermore, we apply our time-dependent signatures to authenticate keys in quantum public key encryption schemes and achieve indistinguishability under chosen quantum key and ciphertext attack (qCKCA).
翻訳日:2023-04-14 15:22:29 公開日:2023-04-13
# 光場圧縮のための学習型空間情報と角情報分離

Learning-based Spatial and Angular Information Separation for Light Field Compression ( http://arxiv.org/abs/2304.06322v1 )

ライセンス: Link先を確認
Jinglei Shi, Yihong Xu, Christine Guillemot(参考訳) ライトフィールド(light fields)は、異なる方向からシーンから放出される光を記録して、空間的および角的シーン情報の両方をキャプチャする画像データの一種である。 この文脈では、空間情報は視点に関係なく静的に残る特徴として定義されるが、角情報は視点によって異なる特徴を指す。 本稿では,光場の角度情報と空間情報を分離できる新しいニューラルネットワークを提案する。 ネットワークは、全サブアパーチャ画像(sais)間で共有される空間カーネルと、各saiの角カーネルの集合を用いた角情報を用いて空間情報を表現する。 パラメータ数を増やすことなくネットワークの表現能力をさらに向上するため,角カーネル割り当てとカーネルテンソル分解機構を導入する。 圧縮タスクに適用した場合、我々のネットワークは、他の最先端手法よりも大きなマージンで優れています。 そして、角情報を簡単に他のシーンに転送し、密集したビューをレンダリングし、ビュー合成タスクの分離と潜在的なユースケースを示す。 我々は,この話題についてさらなる研究を奨励するため,論文の受理時にコードを公開する予定だ。

Light fields are a type of image data that capture both spatial and angular scene information by recording light rays emitted by a scene from different orientations. In this context, spatial information is defined as features that remain static regardless of perspectives, while angular information refers to features that vary between viewpoints. We propose a novel neural network that, by design, can separate angular and spatial information of a light field. The network represents spatial information using spatial kernels shared among all Sub-Aperture Images (SAIs), and angular information using sets of angular kernels for each SAI. To further improve the representation capability of the network without increasing parameter number, we also introduce angular kernel allocation and kernel tensor decomposition mechanisms. Extensive experiments demonstrate the benefits of information separation: when applied to the compression task, our network outperforms other state-of-the-art methods by a large margin. And angular information can be easily transferred to other scenes for rendering dense views, showing the successful separation and the potential use case for the view synthesis task. We plan to release the code upon acceptance of the paper to encourage further research on this topic.
翻訳日:2023-04-14 15:22:16 公開日:2023-04-13
# 逆気象条件下におけるLiDARの知覚に関する調査

Survey on LiDAR Perception in Adverse Weather Conditions ( http://arxiv.org/abs/2304.06312v1 )

ライセンス: Link先を確認
Mariella Dreissig, Dominik Scheuble, Florian Piewak and Joschka Boedecker(参考訳) 自動運転車は周囲の情報を収集するために様々なセンサーに依存している。 車両の挙動は環境認識に基づいて計画されており、安全上の理由から信頼性が不可欠である。 アクティブなLiDARセンサーは、シーンの正確な3D表現を作成することができ、自動運転車の環境認識に価値ある追加となる。 光散乱と閉塞により、LiDARの性能は霧、雪、雨などの悪天候条件下で変化する。 この制限は近年、知覚能力の低下を緩和するためのアプローチに関する多くの研究を育んだ。 本調査では,LiDARによる環境認識における悪天候対策のさまざまな側面を収集,分析,検討した。 適切なデータの利用、生点のクラウド処理、ノイズ除去、ロバストな知覚アルゴリズム、センサー融合などのトピックを取り上げ、悪天候による欠点を緩和する。 さらに,現在の文献における最も差し迫ったギャップを特定し,有望な研究の方向性を明らかにする。

Autonomous vehicles rely on a variety of sensors to gather information about their surrounding. The vehicle's behavior is planned based on the environment perception, making its reliability crucial for safety reasons. The active LiDAR sensor is able to create an accurate 3D representation of a scene, making it a valuable addition for environment perception for autonomous vehicles. Due to light scattering and occlusion, the LiDAR's performance change under adverse weather conditions like fog, snow or rain. This limitation recently fostered a large body of research on approaches to alleviate the decrease in perception performance. In this survey, we gathered, analyzed, and discussed different aspects on dealing with adverse weather conditions in LiDAR-based environment perception. We address topics such as the availability of appropriate data, raw point cloud processing and denoising, robust perception algorithms and sensor fusion to mitigate adverse weather induced shortcomings. We furthermore identify the most pressing gaps in the current literature and pinpoint promising research directions.
翻訳日:2023-04-14 15:21:55 公開日:2023-04-13
# 仮想流量計校正における逐次モンテカルロの適用

Sequential Monte Carlo applied to virtual flow meter calibration ( http://arxiv.org/abs/2304.06310v1 )

ライセンス: Link先を確認
Anders T. Sandnes, Bjarne Grimstad, Odd Kolbj{\o}rnsen(参考訳) ソフトセンサーは、資産にほとんど介入することなく、低コストで重要なプロセス変数の見積もりを提供する能力により、人気が高まっている。 油とガスの製造において、仮想フロー計測(VFM)は、マルチフェーズ流量をリアルタイムで推定しようとする一般的なソフトセンサーである。 VFMはモデルに基づいており、これらのモデルは校正を必要とする。 キャリブレーションは、モデルの大きな多様性と利用可能な測定値の両方のために、アプリケーションに大きく依存する。 最も正確なキャリブレーションは、よくテストするためにvfmパラメータを注意深くチューニングすることで達成されるが、これは作業集約的であり、すべての井戸が頻繁にテストデータを持っているわけではない。 本稿では, 製造分離器による測定値に基づく校正法と, 個々の井戸からの流量の和と等しければよいという仮定について述べる。 これにより、連続してvfmを調整できます。 本手法は, 逐次モンテカルロ (SMC) を用いて, 各井戸のチューニング係数と流量組成を推定する。 この方法は合成データと実データの両方を使用して、10の井戸を持つケースでテストされる。 結果は有望であり、十分なテストに頼らずにパラメータを合理的に見積もることができる。 しかしながら、特にプロセスノイズやさまざまなデータ品質の管理方法に関して、いくつかの課題が特定され、議論されている。

Soft-sensors are gaining popularity due to their ability to provide estimates of key process variables with little intervention required on the asset and at a low cost. In oil and gas production, virtual flow metering (VFM) is a popular soft-sensor that attempts to estimate multiphase flow rates in real time. VFMs are based on models, and these models require calibration. The calibration is highly dependent on the application, both due to the great diversity of the models, and in the available measurements. The most accurate calibration is achieved by careful tuning of the VFM parameters to well tests, but this can be work intensive, and not all wells have frequent well test data available. This paper presents a calibration method based on the measurement provided by the production separator, and the assumption that the observed flow should be equal to the sum of flow rates from each individual well. This allows us to jointly calibrate the VFMs continuously. The method applies Sequential Monte Carlo (SMC) to infer a tuning factor and the flow composition for each well. The method is tested on a case with ten wells, using both synthetic and real data. The results are promising and the method is able to provide reasonable estimates of the parameters without relying on well tests. However, some challenges are identified and discussed, particularly related to the process noise and how to manage varying data quality.
翻訳日:2023-04-14 15:21:41 公開日:2023-04-13
# モデル微調整を伴わないエッジデバイスのためのアウト・オブ・ディストリビューション・ファウショット学習

Out-of-distribution Few-shot Learning For Edge Devices without Model Fine-tuning ( http://arxiv.org/abs/2304.06309v1 )

ライセンス: Link先を確認
Xinyun Zhang and Lanqing Hong(参考訳) エッジデバイス上でパーソナライズされたユーザエクスペリエンスを実現するための有望なテクニックとして,限られたデータによるディープラーニングネットワークのカスタマイズによるFSL(Few-shot Learning)が登場している。 しかし、既存のFSL法は、主に独立かつ同一に分散されたIIDデータを仮定し、各タスクの計算バックプロパゲーション更新またはタスク固有のプロトタイプを持つ共通モデルを利用する。 残念なことに、前者のソリューションはデバイス上のバックプロパゲーション能力に欠けるエッジデバイスでは実現できないが、後者は、特にアウト・オブ・ディストリビューション(OOD)データにおいて、限定的な一般化能力に悩まされることが多い。 本稿では,バックプロパゲーションなしにディープニューラルネットワークの効率的かつタスクアウェアな適応を可能にするタスクアウェア正規化(tano)と呼ばれる軽量なプラグアンドプレイ型fslモジュールを提案する。 tanoは、メタトレーニング中に正規化統計の複数のグループの更新をコーディネートすることで、複数のユーザグループの特性をカバーし、下流の少数ショットタスクに適した正規化グループを自動的に特定する。 したがって、tanoは分布ギャップを閉じ、効率的なモデル適応を達成するために正規化統計の安定だがタスク固有の推定を提供する。 ドメイン内とドメイン外の両方の一般化実験の結果、tanoは精度、推論速度、モデルサイズにおいて最近の手法よりも優れていることが示されている。 さらにTANOは、広く使われているFSLベンチマークと実際のアプリケーションからのデータに対して有望な結果を得る。

Few-shot learning (FSL) via customization of a deep learning network with limited data has emerged as a promising technique to achieve personalized user experiences on edge devices. However, existing FSL methods primarily assume independent and identically distributed (IID) data and utilize either computational backpropagation updates for each task or a common model with task-specific prototypes. Unfortunately, the former solution is infeasible for edge devices that lack on-device backpropagation capabilities, while the latter often struggles with limited generalization ability, especially for out-of-distribution (OOD) data. This paper proposes a lightweight, plug-and-play FSL module called Task-aware Normalization (TANO) that enables efficient and task-aware adaptation of a deep neural network without backpropagation. TANO covers the properties of multiple user groups by coordinating the updates of several groups of the normalization statistics during meta-training and automatically identifies the appropriate normalization group for a downstream few-shot task. Consequently, TANO provides stable but task-specific estimations of the normalization statistics to close the distribution gaps and achieve efficient model adaptation. Results on both intra-domain and out-of-domain generalization experiments demonstrate that TANO outperforms recent methods in terms of accuracy, inference speed, and model size. Moreover, TANO achieves promising results on widely-used FSL benchmarks and data from real applications.
翻訳日:2023-04-14 15:21:19 公開日:2023-04-13
# ドイツにおける教育・研修アクセスのルールベース検出

Rule-based detection of access to education and training in Germany ( http://arxiv.org/abs/2304.06307v1 )

ライセンス: Link先を確認
Jens D\"orpinghaus, David Samray, Robert Helmrich(参考訳) トランスフォーメーションのプロセスの結果、ドイツの労働市場は職業訓練、再訓練、教育の継続に大きく依存している。 学習者や提供者とマッチングするために、ドイツのトレーニングオファーや広告における教育やトレーニングへのアクセスを自動検出する新しいアプローチを提案する。 我々は特に焦点をあてる (a)一般学校及び教育の学位及び修了証明書 (b)職業経験 (c)前回の見習い、及び (d)ドイツ連邦雇用庁が提供する技能の一覧 第一に、異なる資格を組み合わせた教育における同義語のマッピングを提供し、非推奨の用語を追加する。 第二に、専門的な経験や見習いの必要性を特定するためのルールベースのマッチングを提供する。 しかし、すべてのアクセス要件が互換性のないデータスキーマや、初期テストやインタビューのような非標準化要件のためにマッチするわけではない。 いくつかの欠点は特定できるが、提示されたアプローチは2つのデータセット、すなわちトレーニングと再トレーニング広告に対して有望な結果を提供する。

As a result of transformation processes, the German labor market is highly dependent on vocational training, retraining and continuing education. To match training seekers and offers, we present a novel approach towards the automated detection of access to education and training in German training offers and advertisements. We will in particular focus on (a) general school and education degrees and schoolleaving certificates, (b) professional experience, (c) a previous apprenticeship and (d) a list of skills provided by the German Federal Employment Agency. This novel approach combines several methods: First, we provide a mapping of synonyms in education combining different qualifications and adding deprecated terms. Second, we provide a rule-based matching to identify the need for professional experience or apprenticeship. However, not all access requirements can be matched due to incompatible data schemata or non-standardizes requirements, e.g initial tests or interviews. While we can identify several shortcomings, the presented approach offers promising results for two data sets: training and re-training advertisements.
翻訳日:2023-04-14 15:20:52 公開日:2023-04-13
# ODAM: オブジェクト検出のための勾配に基づくインスタンス固有の視覚的説明

ODAM: Gradient-based instance-specific visual explanations for object detection ( http://arxiv.org/abs/2304.06354v1 )

ライセンス: Link先を確認
Chenyang Zhao and Antoni B. Chan(参考訳) 本研究では,物体検出器の予測を可視化的に解釈する,勾配重み付き物体検出器活性化マップ(ODAM)を提案する。 中間特徴マップに流れ込む検出器ターゲットの勾配を利用して、ODAMは各予測属性に対する検出器の決定に対する領域の影響を示す熱マップを生成する。 従来の作業分類アクティベーションマップ(CAM)と比較して,ODAMはクラス固有のものではなく,インスタンス固有の説明を生成する。 本研究は,1段階検出器と2段階検出器の両方に適用可能な2段階検出器であり,高画質の視覚説明を効果的かつ効果的に生成することを示す。 次に,同一対象に対する検出のための説明と,異なる対象に対する検出に関する異なる説明の一貫性を奨励することにより,検出対象の識別に関する説明能力を向上させるための訓練手法であるオダム・トレインを提案する。 提案手法は,Odam-TrainとOdam-NMSで生成した熱マップに基づいて,モデルの説明情報を各予測に対して考慮し,重複検出対象を識別する。 本稿では,検出器の可視化説明の詳細な解析を行い,提案するODAMの有効性を検証するための広範囲な実験を行った。

We propose the gradient-weighted Object Detector Activation Maps (ODAM), a visualized explanation technique for interpreting the predictions of object detectors. Utilizing the gradients of detector targets flowing into the intermediate feature maps, ODAM produces heat maps that show the influence of regions on the detector's decision for each predicted attribute. Compared to previous works classification activation maps (CAM), ODAM generates instance-specific explanations rather than class-specific ones. We show that ODAM is applicable to both one-stage detectors and two-stage detectors with different types of detector backbones and heads, and produces higher-quality visual explanations than the state-of-the-art both effectively and efficiently. We next propose a training scheme, Odam-Train, to improve the explanation ability on object discrimination of the detector through encouraging consistency between explanations for detections on the same object, and distinct explanations for detections on different objects. Based on the heat maps produced by ODAM with Odam-Train, we propose Odam-NMS, which considers the information of the model's explanation for each prediction to distinguish the duplicate detected objects. We present a detailed analysis of the visualized explanations of detectors and carry out extensive experiments to validate the effectiveness of the proposed ODAM.
翻訳日:2023-04-14 15:13:39 公開日:2023-04-13
# ニューロモルフィック事象に基づく表情認識

Neuromorphic Event-based Facial Expression Recognition ( http://arxiv.org/abs/2304.06351v1 )

ライセンス: Link先を確認
Lorenzo Berlincioni, Luca Cultrera, Chiara Albisani, Lisa Cresti, Andrea Leonardo, Sara Picchioni, Federico Becattini, Alberto Del Bimbo(参考訳) 近年,いくつかのコンピュータビジョン分野において,特に高時間分解能を必要とするタスクに対して,イベントカメラが大きな適用性を示している。 本研究では,ニューロモーフィックなイベントベースの表情認識のためのデータセットであるneferを提示することで,感情認識のためのこの種のデータの利用について検討する。 neferは対のrgbとイベントビデオで構成され、それぞれの感情にラベルが付けられた人間の顔を表現し、顔のバウンディングボックスと顔のランドマークをアノテートする。 本稿では,RGBおよびイベントデータのベースライン方法を提供するとともに,データ取得プロセスについて詳述する。 収集されたデータは、RGBデータを見つけるのが難しい微妙なマイクロ表現をキャプチャするが、イベントドメインに現れる。 事象に基づくアプローチの二重認識精度を報告し、高速かつ検出し難い表現と隠れた感情を解析するためのニューロモルフィックアプローチの有効性を実証した。

Recently, event cameras have shown large applicability in several computer vision fields especially concerning tasks that require high temporal resolution. In this work, we investigate the usage of such kind of data for emotion recognition by presenting NEFER, a dataset for Neuromorphic Event-based Facial Expression Recognition. NEFER is composed of paired RGB and event videos representing human faces labeled with the respective emotions and also annotated with face bounding boxes and facial landmarks. We detail the data acquisition process as well as providing a baseline method for RGB and event data. The collected data captures subtle micro-expressions, which are hard to spot with RGB data, yet emerge in the event domain. We report a double recognition accuracy for the event-based approach, proving the effectiveness of a neuromorphic approach for analyzing fast and hardly detectable expressions and the emotions they conceal.
翻訳日:2023-04-14 15:13:18 公開日:2023-04-13
# ニューラル状態空間モデル:不確実性量子化の実証評価

Neural State-Space Models: Empirical Evaluation of Uncertainty Quantification ( http://arxiv.org/abs/2304.06349v1 )

ライセンス: Link先を確認
Marco Forgione and Dario Piga(参考訳) 不確実性の効果的な定量化は、ミッションクリティカルなものを含むさまざまなアプリケーションでディープラーニングアプローチを採用するための、不可欠かつ依然として欠落しているステップである。 特に、非線形力学系を記述するディープラーニングモデルの予測不確実性に関する調査は、現在まで非常に限られている。 本稿では,このギャップを埋めることを目的として,ニューラル状態空間モデルを用いたシステム同定のための不確実性定量化の予備的結果を示す。 ベイズ確率設定で学習問題をフレーム化し、近似推論手法を用いてニューラルネットワークの重みと出力の後方分布を求める。 後部に基づいて,出力の信頼区間を構築し,予測を信頼できない潜在的に危険なアウト・オブ・ディストリビューションシステムにおいて,モデルの使用を効果的に診断できるサプライズ指標を定義する。

Effective quantification of uncertainty is an essential and still missing step towards a greater adoption of deep-learning approaches in different applications, including mission-critical ones. In particular, investigations on the predictive uncertainty of deep-learning models describing non-linear dynamical systems are very limited to date. This paper is aimed at filling this gap and presents preliminary results on uncertainty quantification for system identification with neural state-space models. We frame the learning problem in a Bayesian probabilistic setting and obtain posterior distributions for the neural network's weights and outputs through approximate inference techniques. Based on the posterior, we construct credible intervals on the outputs and define a surprise index which can effectively diagnose usage of the model in a potentially dangerous out-of-distribution regime, where predictions cannot be trusted.
翻訳日:2023-04-14 15:13:03 公開日:2023-04-13
# 有限幅のカウンタモデルによる一階理論の問合せ可能性

Decidability of Querying First-Order Theories via Countermodels of Finite Width ( http://arxiv.org/abs/2304.06348v1 )

ライセンス: Link先を確認
Thomas Feller, Tim S. Lyon, Piotr Ostropolski-Nalewaja, and Sebastian Rudolph(参考訳) 本稿では, 構造的に単純で, 一定の幅の測度(木幅, 斜め幅など)で測れるカウンターモデルの存在に基づいて, 幅広い論理的包含問題の決定可能性を確立するための一般的な枠組みを提案する。 我々のフレームワークの重要な特別な場合として、幅有限の有限普遍モデル集合を示す論理を識別し、幅広い準同型閉クエリに対する決定可能な包含を保証し、実際に関連するクエリ言語を多種多様な集合に割り当てる。 特に強力な幅測度として,Blumensath の分割幅を提案する。 実存則の形式主義を一般的なショーケースとして取り上げ、有限分割幅の規則集合が、他の既知の抽象決定可能なクラスをサブスモートするが、既存の成層概念を活用することは、また、広範囲の新しい規則セットを包含する。 有限統一集合のクラスを図に当てはめるための自然な制限を公開し、修正のためのいくつかのオプションを提供します。

We propose a generic framework for establishing the decidability of a wide range of logical entailment problems (briefly called querying), based on the existence of countermodels that are structurally simple, gauged by certain types of width measures (with treewidth and cliquewidth as popular examples). As an important special case of our framework, we identify logics exhibiting width-finite finitely universal model sets, warranting decidable entailment for a wide range of homomorphism-closed queries, subsuming a diverse set of practically relevant query languages. As a particularly powerful width measure, we propose Blumensath's partitionwidth, which subsumes various other commonly considered width measures and exhibits highly favorable computational and structural properties. Focusing on the formalism of existential rules as a popular showcase, we explain how finite partitionwidth sets of rules subsume other known abstract decidable classes but -- leveraging existing notions of stratification -- also cover a wide range of new rulesets. We expose natural limitations for fitting the class of finite unification sets into our picture and provide several options for remedy.
翻訳日:2023-04-14 15:12:51 公開日:2023-04-13
# ddt:画像デノイジング用デュアルブランチ変形変圧器

DDT: Dual-branch Deformable Transformer for Image Denoising ( http://arxiv.org/abs/2304.06346v1 )

ライセンス: Link先を確認
Kangliang Liu, Xiangcheng Du, Sijie Liu, Yingbin Zheng, Xingjiao Wu, Cheng Jin(参考訳) インダクティブ畳み込みバイアス(inductive convolutional bias)によって提示される制限を克服するために長距離依存をモデル化できるため、トランスフォーマーは画像デノイジングタスクに有用である。 しかし, ノイズ除去に変換器構造を直接適用することは, 空間分解能と重なり合うため困難である。 本稿では,局所的および大域的相互作用を並列に捉える効率的な二重分岐変形型変圧器(ddt)デノイジングネットワークを提案する。 ローカルブランチとグローバルブランチでそれぞれ、固定パッチサイズと固定パッチ数で特徴を分割します。 さらに,両ブランチに変形可能な注意操作を適用することで,ネットワークがより重要な領域に集中し,計算の複雑さをさらに低減する。 実世界および合成復調タスクについて広範な実験を行い,提案したDDTは計算コストを著しく低減して最先端の性能を実現する。

Transformer is beneficial for image denoising tasks since it can model long-range dependencies to overcome the limitations presented by inductive convolutional biases. However, directly applying the transformer structure to remove noise is challenging because its complexity grows quadratically with the spatial resolution. In this paper, we propose an efficient Dual-branch Deformable Transformer (DDT) denoising network which captures both local and global interactions in parallel. We divide features with a fixed patch size and a fixed number of patches in local and global branches, respectively. In addition, we apply deformable attention operation in both branches, which helps the network focus on more important regions and further reduces computational complexity. We conduct extensive experiments on real-world and synthetic denoising tasks, and the proposed DDT achieves state-of-the-art performance with significantly fewer computational costs.
翻訳日:2023-04-14 15:12:30 公開日:2023-04-13
# asr: 注意を喚起する構造的再パラメータ化

ASR: Attention-alike Structural Re-parameterization ( http://arxiv.org/abs/2304.06345v1 )

ライセンス: Link先を確認
Shanshan Zhong, Zhongzhan Huang, Wushao Wen, Jinghui Qin, Liang Lin(参考訳) 構造的再パラメータ化(SRP)技術は、等価パラメータ変換によって異なるネットワークアーキテクチャ間の相互変換を実現する新しいディープラーニング技術である。 この技術により、パラメータサイズや推論時間などのトレーニング中のパフォーマンス改善のための余分なコストを、推論中のこれらの変換を通じて軽減することができるため、SRPは工業的および実用的応用に大きな可能性を秘めている。 既存のsrp法は、正規化、プーリングメソッド、マルチブランチ畳み込みなど、多くの一般的なアーキテクチャをうまく考慮している。 しかしながら、これらのモジュールは通常、バックボーンネットワーク上で乗法的に動作し、モジュールの出力は推論中に入力依存であり、SRPのアプリケーションシナリオに制限があるため、広く使用されている自己注意モジュールはSRPによって直接実装できない。 本稿では,統計的観点から広範囲にわたる実験を行い,Stripe Observationという興味深い現象を発見し,チャネル注意値が訓練中に一定のベクトルに素早く接近することを明らかにする。 この観察により, 自己保持機構の有効性を享受しながら, 与えられたネットワークに対してSRPを達成できる, 単純でyet- Effective attention-alike structure re-parameterization (ASR)を提案する。 いくつかの標準ベンチマークで実施された大規模な実験は、ASRが既存のバックボーンネットワーク、自己アテンションモジュール、SRPメソッドの性能を精巧なモデル作成なしで全般的に改善することを示した。 また, この限界を解析し, 提案したASRの強靭性に関する実験的, 理論的証拠を提供する。

The structural re-parameterization (SRP) technique is a novel deep learning technique that achieves interconversion between different network architectures through equivalent parameter transformations. This technique enables the mitigation of the extra costs for performance improvement during training, such as parameter size and inference time, through these transformations during inference, and therefore SRP has great potential for industrial and practical applications. The existing SRP methods have successfully considered many commonly used architectures, such as normalizations, pooling methods, multi-branch convolution. However, the widely used self-attention modules cannot be directly implemented by SRP due to these modules usually act on the backbone network in a multiplicative manner and the modules' output is input-dependent during inference, which limits the application scenarios of SRP. In this paper, we conduct extensive experiments from a statistical perspective and discover an interesting phenomenon Stripe Observation, which reveals that channel attention values quickly approach some constant vectors during training. This observation inspires us to propose a simple-yet-effective attention-alike structural re-parameterization (ASR) that allows us to achieve SRP for a given network while enjoying the effectiveness of the self-attention mechanism. Extensive experiments conducted on several standard benchmarks demonstrate the effectiveness of ASR in generally improving the performance of existing backbone networks, self-attention modules, and SRP methods without any elaborated model crafting. We also analyze the limitations and provide experimental or theoretical evidence for the strong robustness of the proposed ASR.
翻訳日:2023-04-14 15:12:14 公開日:2023-04-13
# 効率的な在庫管理を目指すアジャイル予測モデル開発のフレームワーク

Streamlined Framework for Agile Forecasting Model Development towards Efficient Inventory Management ( http://arxiv.org/abs/2304.06344v1 )

ライセンス: Link先を確認
Jonathan Hans Soeseno, Sergio Gonz\'alez, Trista Pei-Chun Chen(参考訳) 本稿では,開発プロセスのコアコンポーネント間の接続を合理化して予測モデルを構築するフレームワークを提案する。 提案したフレームワークは、新しいデータセットの迅速かつ堅牢な統合、異なるアルゴリズムの実験、最良のモデルの選択を可能にする。 さまざまな問題のデータセットから始めて、時系列データの意味のある表現をクリーン化し、エンジニアリングするために、前処理ステップを適用します。 堅牢なトレーニング構成を特定するために,複数のクロスバリデーション戦略の新たなメカニズムを導入する。 様々なアプリケーションに最適なモデルを見つけるために、さまざまな評価指標を適用します。 参考文献の1つは、米国国際開発庁(USAID)が主催するインテリジェントな予測コンテストへの参加である。 最後に,さまざまな評価指標を適用して,インベントリ管理設定におけるモデルの性能を評価することで,フレームワークの柔軟性を活用する。

This paper proposes a framework for developing forecasting models by streamlining the connections between core components of the developmental process. The proposed framework enables swift and robust integration of new datasets, experimentation on different algorithms, and selection of the best models. We start with the datasets of different issues and apply pre-processing steps to clean and engineer meaningful representations of time-series data. To identify robust training configurations, we introduce a novel mechanism of multiple cross-validation strategies. We apply different evaluation metrics to find the best-suited models for varying applications. One of the referent applications is our participation in the intelligent forecasting competition held by the United States Agency of International Development (USAID). Finally, we leverage the flexibility of the framework by applying different evaluation metrics to assess the performance of the models in inventory management settings.
翻訳日:2023-04-14 15:11:48 公開日:2023-04-13
# RoSI:画像から3D形状の内装を復元

RoSI: Recovering 3D Shape Interiors from Few Articulation Images ( http://arxiv.org/abs/2304.06342v1 )

ライセンス: Link先を確認
Akshay Gadi Patil, Yiming Qian, Shan Yang, Brian Jackson, Eric Bennett, Hao Zhang(参考訳) ゲームやVR/AR、幾何学的なディープラーニングアルゴリズムのトレーニングに使われている3Dモデルの大多数は、表面メッシュとしてモデル化され、内部構造が欠落しているため、不完全です。 既存の3次元モデルの形状インテリア(RoSI)を,マルチビュー画像とマルチアレイ画像からのみ外形に復元する学習フレームワークを提案する。 対象の3Dオブジェクトを異なる調音ポーズでキャプチャするRGB画像のセットを考慮し, 入力画像で観測可能な内部面を推測する。 私たちのニューラルアーキテクチャはカテゴリに依存しない方法で訓練され、ポーズ、深さ、動き推定を含むモーションアウェアなマルチビュー分析フェーズと、画像と3d空間における内面検出と、最終的にマルチビュー平面融合からなる。 さらに,本手法では, 対象の3次元物体に対して, 被写体の動きを予測し, 外挿することも可能である。 提案手法を,ベースラインと代替ソリューションの定量的および定性的な比較により評価し,未学習対象カテゴリと実画像入力の検証を行い,その一般化能力を評価する。

The dominant majority of 3D models that appear in gaming, VR/AR, and those we use to train geometric deep learning algorithms are incomplete, since they are modeled as surface meshes and missing their interior structures. We present a learning framework to recover the shape interiors (RoSI) of existing 3D models with only their exteriors from multi-view and multi-articulation images. Given a set of RGB images that capture a target 3D object in different articulated poses, possibly from only few views, our method infers the interior planes that are observable in the input images. Our neural architecture is trained in a category-agnostic manner and it consists of a motion-aware multi-view analysis phase including pose, depth, and motion estimations, followed by interior plane detection in images and 3D space, and finally multi-view plane fusion. In addition, our method also predicts part articulations and is able to realize and even extrapolate the captured motions on the target 3D object. We evaluate our method by quantitative and qualitative comparisons to baselines and alternative solutions, as well as testing on untrained object categories and real image inputs to assess its generalization capabilities.
翻訳日:2023-04-14 15:11:36 公開日:2023-04-13
# 意味変化の計算モデル

Computational modeling of semantic change ( http://arxiv.org/abs/2304.06337v1 )

ライセンス: Link先を確認
Nina Tahmasebi and Haim Dubossarsky(参考訳) 本章では,大規模および半大規模テキストコーパスを用いた意味変化の計算モデルの概要について述べる。 本研究の目的は,関連する手法と評価手法の解釈のための鍵を提供することであり,また,意味変化の計算研究の重要な側面に対する洞察を提供することである。 本稿では,意味的変化をモデル化したいデータの性質と,結果を評価するためにどの手段が利用できるかに関して,モデルの異なるクラスの長所と短所について論じる。

In this chapter we provide an overview of computational modeling for semantic change using large and semi-large textual corpora. We aim to provide a key for the interpretation of relevant methods and evaluation techniques, and also provide insights into important aspects of the computational study of semantic change. We discuss the pros and cons of different classes of models with respect to the properties of the data from which one wishes to model semantic change, and which avenues are available to evaluate the results.
翻訳日:2023-04-14 15:11:15 公開日:2023-04-13
# ヘテロジニアスグラフのための多階グラフ畳み込みネットワーク

Attributed Multi-order Graph Convolutional Network for Heterogeneous Graphs ( http://arxiv.org/abs/2304.06336v1 )

ライセンス: Link先を確認
Zhaoliang Chen, Zhihao Wu, Luying Zhong, Claudia Plant, Shiping Wang, Wenzhong Guo(参考訳) Heterogeneous graph neural networks aim to discover discriminative node embeddings and relations from multi-relational networks.One challenge of heterogeneous graph learning is the design of learnable meta-paths, which significantly influences the quality of learned embeddings.Thus, in this paper, we propose an Attributed Multi-Order Graph Convolutional Network (AMOGCN), which automatically studies meta-paths containing multi-hop neighbors from an adaptive aggregation of multi-order adjacency matrices. 提案モデルではまず,手動で設計したノード接続から隣接行列の異なる順序で構築する。 その後、種々の隣接行列の自動融合から無傷の多階隣接行列が取り付けられる。 このプロセスは、属性によって評価されたノードから抽出されるノード意味情報によって監視される。 最終的には,多層グラフニューラルネットワークを用いたクロスホップノード情報伝搬に相当する,学習した多階隣接行列を用いたグラフ畳み込みネットワークを単純化する。 AMOGCNは最先端の競合製品に比べて優れた半教師付き分類性能を持つ。

Heterogeneous graph neural networks aim to discover discriminative node embeddings and relations from multi-relational networks.One challenge of heterogeneous graph learning is the design of learnable meta-paths, which significantly influences the quality of learned embeddings.Thus, in this paper, we propose an Attributed Multi-Order Graph Convolutional Network (AMOGCN), which automatically studies meta-paths containing multi-hop neighbors from an adaptive aggregation of multi-order adjacency matrices. The proposed model first builds different orders of adjacency matrices from manually designed node connections. After that, an intact multi-order adjacency matrix is attached from the automatic fusion of various orders of adjacency matrices. This process is supervised by the node semantic information, which is extracted from the node homophily evaluated by attributes. Eventually, we utilize a one-layer simplifying graph convolutional network with the learned multi-order adjacency matrix, which is equivalent to the cross-hop node information propagation with multi-layer graph neural networks. Substantial experiments reveal that AMOGCN gains superior semi-supervised classification performance compared with state-of-the-art competitors.
翻訳日:2023-04-14 15:11:08 公開日:2023-04-13
# メタラーニングを用いた画像と複数のMRIアーチファクトの一般化可能な深層学習法

Generalizable Deep Learning Method for Suppressing Unseen and Multiple MRI Artifacts Using Meta-learning ( http://arxiv.org/abs/2304.06378v1 )

ライセンス: Link先を確認
Arun Palla, Sriprabha Ramanarayanan, Keerthi Ram and Mohanasankar Sivaprakasam(参考訳) 磁気共鳴(MR)画像は、動き、空間分解能、アンダーサンプリングによる様々な種類の人工物に悩まされる。 従来のディープラーニング手法は、特定の種類のアーティファクトを削除し、アーティファクト間で一般化可能な共有知識を持たない各アーティファクトタイプに対して、個別にトレーニングされたモデルをもたらす。 さらに、各タイプのモデルとアーティファクトの量に関するトレーニングは、モデルのトレーニング時間と保存時間を増やすという面倒なプロセスです。 一方、複数のアーティファクト上でモデルを共同で訓練することで学んだ共有知識は、種類や量の偏りの下で一般化するには不十分かもしれない。 モデルに依存しないメタ学習(maml) ネストした二レベル最適化フレームワークは、外部レベルの最適化と内部レベルでアーティファクト特有の修復において、アーティファクト間の共通知識を学ぶ有望な技術である。 本研究では,MAML とカリキュラム学習を統合したカリキュラムMAML (CMAML) を提案する。 CMAMLが示す2つの心的データセットを用いた確率的グラディエントDescentとMAMLの比較研究 (i)未発見種の83%、アーティファクトの量、およびすべてのケースにおけるssimの改善のためのpsnrの改善によるより良い一般化 (ii)複合アーティファクト(複数のアーティファクトを持つスキャン)の5例中4例でアーティファクト抑制が改善された。

Magnetic Resonance (MR) images suffer from various types of artifacts due to motion, spatial resolution, and under-sampling. Conventional deep learning methods deal with removing a specific type of artifact, leading to separately trained models for each artifact type that lack the shared knowledge generalizable across artifacts. Moreover, training a model for each type and amount of artifact is a tedious process that consumes more training time and storage of models. On the other hand, the shared knowledge learned by jointly training the model on multiple artifacts might be inadequate to generalize under deviations in the types and amounts of artifacts. Model-agnostic meta-learning (MAML), a nested bi-level optimization framework is a promising technique to learn common knowledge across artifacts in the outer level of optimization, and artifact-specific restoration in the inner level. We propose curriculum-MAML (CMAML), a learning process that integrates MAML with curriculum learning to impart the knowledge of variable artifact complexity to adaptively learn restoration of multiple artifacts during training. Comparative studies against Stochastic Gradient Descent and MAML, using two cardiac datasets reveal that CMAML exhibits (i) better generalization with improved PSNR for 83% of unseen types and amounts of artifacts and improved SSIM in all cases, and (ii) better artifact suppression in 4 out of 5 cases of composite artifacts (scans with multiple artifacts).
翻訳日:2023-04-14 15:06:12 公開日:2023-04-13
# 意味理解とコミュニケーションのためのニューラルネットワークにおける記号の出現

Emergence of Symbols in Neural Networks for Semantic Understanding and Communication ( http://arxiv.org/abs/2304.06377v1 )

ライセンス: Link先を確認
Yang Chen, Liangxuan Guo, Shan Yu(参考訳) 有意義なシンボルを創造し、コミュニケーション、推論、計画などの高度な認知機能に熟達することができることは、人間の知性にとって必須でユニークなものである。 現在のディープニューラルネットワークは、そのような高次認知機能のためのシンボルを作成する人間の能力にはまだ及ばない。 本稿では,記号生成,意味理解,コミュニケーション機能を備えたニューラルネットワークを付与する解であるsea-netを提案する。 SEA-netは特定のタスクを実行するためにネットワークを動的に構成するシンボルを生成する。 これらのシンボルは合成意味情報をキャプチャし、システムは記号操作や通信によって純粋に新しい関数を取得できる。 さらに,これらの自己生成記号は自然言語に類似した固有構造を示し,人間の脳とニューラルネットワークの両方における記号の生成と理解の基盤となる共通の枠組みを示唆する。 将来的には、コネクショニストとaiのシンボリックなアプローチの強みを両立させるような、より有能なシステムを作るための手段になることを願っています。

Being able to create meaningful symbols and proficiently use them for higher cognitive functions such as communication, reasoning, planning, etc., is essential and unique for human intelligence. Current deep neural networks are still far behind human's ability to create symbols for such higher cognitive functions. Here we propose a solution, named SEA-net, to endow neural networks with ability of symbol creation, semantic understanding and communication. SEA-net generates symbols that dynamically configure the network to perform specific tasks. These symbols capture compositional semantic information that enables the system to acquire new functions purely by symbolic manipulation or communication. In addition, we found that these self-generated symbols exhibit an intrinsic structure resembling that of natural language, suggesting a common framework underlying the generation and understanding of symbols in both human brains and artificial neural networks. We hope that it will be instrumental in producing more capable systems in the future that can synergize the strengths of connectionist and symbolic approaches for AI.
翻訳日:2023-04-14 15:05:44 公開日:2023-04-13
# 未知投影角分布を用いた2次元画像の断層画像再構成の解析

Analysis of Tomographic Reconstruction of 2D Images using the Distribution of Unknown Projection Angles ( http://arxiv.org/abs/2304.06376v1 )

ライセンス: Link先を確認
Sheel Shah, Karthik S. Gurumoorthy, Ajit Rajwade(参考訳) サンプリングレートが十分に高い場合、バンド制限信号が一様間隔のサンプルから再構成できることはよく知られている。 より最近では、正確なサンプル位置が不明であっても、1d帯域制限信号の再構成が可能であることが証明されているが、サンプル位置の分布と順序が1dで与えられるだけである。 本研究では、準帯域制限信号のシナリオにおける再構成誤差の解析的境界を拡張する。 また,このような再構成手法は,サンプル位置順序の特定において一定の誤差に耐性があることを実証する。 そこで我々は,未知の角度分布を持つ1次元ラドン射影からの2次元画像のトモグラフィー再構成の問題を,未知の角度分布を持つサンプルからの準帯域制限信号の再構成の特別な事例として表現する。 理論的背景から,低温電子顕微鏡(cryo-EM)でよく見られる未知の角度における1次元ラドン射影からの2次元半帯域画像再構成の漸近境界を示す。 我々の知る限りでは、これは2次元Cryo-EMのこのような分析を行う最初の作品であり、関連する再構成アルゴリズムは長年にわたって知られていた。

It is well known that a band-limited signal can be reconstructed from its uniformly spaced samples if the sampling rate is sufficiently high. More recently, it has been proved that one can reconstruct a 1D band-limited signal even if the exact sample locations are unknown, but given just the distribution of the sample locations and their ordering in 1D. In this work, we extend the analytical bounds on the reconstruction error in such scenarios for quasi-bandlimited signals. We also prove that the method for such a reconstruction is resilient to a certain proportion of errors in the specification of the sample location ordering. We then express the problem of tomographic reconstruction of 2D images from 1D Radon projections under unknown angles with known angle distribution, as a special case for reconstruction of quasi-bandlimited signals from samples at unknown locations with known distribution. Building upon our theoretical background, we present asymptotic bounds for 2D quasi-bandlimited image reconstruction from 1D Radon projections in the unknown angles setting, which commonly occurs in cryo-electron microscopy (cryo-EM). To the best of our knowledge, this is the first piece of work to perform such an analysis for 2D cryo-EM, even though the associated reconstruction algorithms have been known for a long time.
翻訳日:2023-04-14 15:05:25 公開日:2023-04-13
# 機能豊富な知識モデルとしてのハイパーグラフ認知ネットワークを目指して

Towards hypergraph cognitive networks as feature-rich models of knowledge ( http://arxiv.org/abs/2304.06375v1 )

ライセンス: Link先を確認
Salvatore Citraro and Simon De Deyne and Massimo Stella and Giulio Rossetti(参考訳) セマンティックネットワークは、関連する概念がメモリからどのように取り出されるかを理解するのに有用なツールである。 しかし、現在のネットワークアプローチのほとんどは、メモリリコールパターンを表すためにペアワイズリンクを使用している。 ペアワイズ接続は高階関係を無視し、すなわち2つ以上の概念間の関係を同時に無視する。 これらの高次相互作用は、覚醒、原子価、親しみやすさ、性別などの精神言語学的な側面がいかに類似しているか(そして情報を含む)を共変させるかもしれない。 人間の記憶の定量的モデルとして機能豊富な認知ハイパーグラフを導入することで、これらの限界を克服する。 (i)想起された概念は、同時に2つ以上の概念(認知的ハイパーグラフ的側面)を含むハイパーリンクに関与することができ、 (二)それぞれの概念には、精神言語学的特徴(機能豊かな側面)のベクトルが与えられる。 単語関連データからハイパーグラフを構築し,機械学習機能を用いた評価手法を用いて概念の具体性を予測する。 類似した具体性を持つ概念は、人間の記憶に集まりやすいため、この構造を活用できることを期待する。 我々は,Small World of Wordsデータセットの単語関連データを用いて,N=3586概念/ノードとペアワイズネットワークとハイパーグラフを比較した。 1)心理言語的特徴のみに基づく解釈可能な人工知能モデル,(2)ペアワイズに基づく特徴集約,(3)ハイパーグラフに基づく集合は,ペアワイズとハイパーグラフのリンク間で有意な差異を示す。 特に,高次・高機能ハイパーグラフモデルでは,単語の具体性を予測するために,対向ネットワークよりもリッチな情報を含むことが示された。 連想的知識と人間の記憶における概念的クラスタリングと区画化に関する過去の研究との関係について論じる。

Semantic networks provide a useful tool to understand how related concepts are retrieved from memory. However, most current network approaches use pairwise links to represent memory recall patterns. Pairwise connections neglect higher-order associations, i.e. relationships between more than two concepts at a time. These higher-order interactions might covariate with (and thus contain information about) how similar concepts are along psycholinguistic dimensions like arousal, valence, familiarity, gender and others. We overcome these limits by introducing feature-rich cognitive hypergraphs as quantitative models of human memory where: (i) concepts recalled together can all engage in hyperlinks involving also more than two concepts at once (cognitive hypergraph aspect), and (ii) each concept is endowed with a vector of psycholinguistic features (feature-rich aspect). We build hypergraphs from word association data and use evaluation methods from machine learning features to predict concept concreteness. Since concepts with similar concreteness tend to cluster together in human memory, we expect to be able to leverage this structure. Using word association data from the Small World of Words dataset, we compared a pairwise network and a hypergraph with N=3586 concepts/nodes. Interpretable artificial intelligence models trained on (1) psycholinguistic features only, (2) pairwise-based feature aggregations, and on (3) hypergraph-based aggregations show significant differences between pairwise and hypergraph links. Specifically, our results show that higher-order and feature-rich hypergraph models contain richer information than pairwise networks leading to improved prediction of word concreteness. The relation with previous studies about conceptual clustering and compartmentalisation in associative knowledge and human memory are discussed.
翻訳日:2023-04-14 15:04:49 公開日:2023-04-13
# あなたはここにいる! 1枚の画像から2次元地図上の位置と向きを見つける -flatlandia localization problem と dataset

You are here! Finding position and orientation on a 2D map from a single image: The Flatlandia localization problem and dataset ( http://arxiv.org/abs/2304.06373v1 )

ライセンス: Link先を確認
Matteo Toso, Matteo Taiana, Stuart James and Alessio Del Bue(参考訳) そこで本稿では,2つのタスクからなる物体検出から画像の可視化問題であるflatlandiaを提案する。 一 粗い地図の定位:被写体の集合を観察する単一の画像を、被写体ランドマークの2次元地図に配置すること。 二 微粒な3DoF局所化:2次元地図内の画像の緯度、経度及び方位を推定すること。 これらの新しいタスクのソリューションは、一般的なオブジェクトのGPSロケーション(サーベイやクラウドソースによる)にアノテートされたオープンアーバンマップを広範囲に活用する。 このようなマップは、通常の大規模3Dモデルよりもストレージフレンドリーで、視覚的なローカライゼーションによく使われる。 既存のデータセットは、提案された問題に適さないため、複数の都市で3DoFの視覚的ローカライゼーション用に設計され、5つのヨーロッパの都市からのクラウドソースデータに基づいているFlatlandiaデータセットを提供する。 flatlandiaデータセットを使用して,提案するタスクの複雑性を検証する。

We introduce Flatlandia, a novel problem for visual localization of an image from object detections composed of two specific tasks: i) Coarse Map Localization: localizing a single image observing a set of objects in respect to a 2D map of object landmarks; ii) Fine-grained 3DoF Localization: estimating latitude, longitude, and orientation of the image within a 2D map. Solutions for these new tasks exploit the wide availability of open urban maps annotated with GPS locations of common objects (\eg via surveying or crowd-sourced). Such maps are also more storage-friendly than standard large-scale 3D models often used in visual localization while additionally being privacy-preserving. As existing datasets are unsuited for the proposed problem, we provide the Flatlandia dataset, designed for 3DoF visual localization in multiple urban settings and based on crowd-sourced data from five European cities. We use the Flatlandia dataset to validate the complexity of the proposed tasks.
翻訳日:2023-04-14 15:04:08 公開日:2023-04-13
# 授業ビデオからの手話翻訳

Sign Language Translation from Instructional Videos ( http://arxiv.org/abs/2304.06371v1 )

ライセンス: Link先を確認
Laia Tarr\'es, Gerard I. G\'allego, Amanda Duarte, Jordi Torres, Xavier Gir\'o-i-Nieto(参考訳) 音声言語への自動手話翻訳(SLT)の進歩は主に、限られたサイズと制限されたドメインのデータセットでベンチマークされている。 我々の研究は、大規模で広範なデータセットであるHow2Signの最初のベースライン結果を提供することで、最先端の技術の進歩を図っている。 i3dビデオ機能上のトランスフォーマーをトレーニングし、広く使用されているbleuスコアではなく、検証のための基準メトリクスとしてbleuを削減した。 我々はBLEUスコア8.03の結果を報告し、さらなる進歩を促進するためにその種のオープンソース実装を初めて公開する。

The advances in automatic sign language translation (SLT) to spoken languages have been mostly benchmarked with datasets of limited size and restricted domains. Our work advances the state of the art by providing the first baseline results on How2Sign, a large and broad dataset. We train a Transformer over I3D video features, using the reduced BLEU as a reference metric for validation, instead of the widely used BLEU score. We report a result of 8.03 on the BLEU score, and publish the first open-source implementation of its kind to promote further advances.
翻訳日:2023-04-14 15:03:40 公開日:2023-04-13
# マスク型マルチヘッド自己注意を用いたロバストマルチビューマルチモーダルドライバモニタリングシステム

Robust Multiview Multimodal Driver Monitoring System Using Masked Multi-Head Self-Attention ( http://arxiv.org/abs/2304.06370v1 )

ライセンス: Link先を確認
Yiming Ma, Victor Sanchez, Soodeh Nikan, Devesh Upadhyay, Bhushan Atote, Tanaya Guha(参考訳) ドライバー監視システム(DMS)は、レベル2以上の自動運転車の安全なハンドオーバ動作に不可欠である。 最先端のDMSは、異なる場所に装着された複数のセンサーを利用してドライバーと車両の内部シーンを監視し、これらの異種データを統合するために決定レベルの融合を利用する。 しかし、この融合法は、異なるデータソースの相補性を十分に活用するものではなく、それらの相対的重要性を見逃す可能性がある。 これらの制約に対処するために,マルチヘッド自己注意(MHSA)による特徴レベル融合に基づく,新しいマルチビューマルチモーダルドライバ監視システムを提案する。 4つの代替核融合戦略 (Sum, Conv, SE, AFF) と比較し, その有効性を示す。 また、より優れた表現を学習するための新しいGPUフレンドリな教師付きコントラスト学習フレームワークSuMoCoを提案する。 さらに,dadデータセットのテスト分割を詳細化し,ドライバのアクティビティのマルチクラス認識を可能にした。 この強化されたデータベースに関する実験は 1) MHSA をベースとした核融合法(AUC-ROC:97.0\%)は,全てのベースラインと従来のアプローチより優れており, 2)パッチマスクによるmhsa訓練は,モダリティ/ビュー崩壊に対するロバスト性を向上させる。 コードとアノテーションは公開されている。

Driver Monitoring Systems (DMSs) are crucial for safe hand-over actions in Level-2+ self-driving vehicles. State-of-the-art DMSs leverage multiple sensors mounted at different locations to monitor the driver and the vehicle's interior scene and employ decision-level fusion to integrate these heterogenous data. However, this fusion method may not fully utilize the complementarity of different data sources and may overlook their relative importance. To address these limitations, we propose a novel multiview multimodal driver monitoring system based on feature-level fusion through multi-head self-attention (MHSA). We demonstrate its effectiveness by comparing it against four alternative fusion strategies (Sum, Conv, SE, and AFF). We also present a novel GPU-friendly supervised contrastive learning framework SuMoCo to learn better representations. Furthermore, We fine-grained the test split of the DAD dataset to enable the multi-class recognition of drivers' activities. Experiments on this enhanced database demonstrate that 1) the proposed MHSA-based fusion method (AUC-ROC: 97.0\%) outperforms all baselines and previous approaches, and 2) training MHSA with patch masking can improve its robustness against modality/view collapses. The code and annotations are publicly available.
翻訳日:2023-04-14 15:03:31 公開日:2023-04-13
# IBIA: 分割関数の近似推定のためのインクリメンタルビルド-インフェール近似フレームワーク

IBIA: An Incremental Build-Infer-Approximate Framework for Approximate Inference of Partition Function ( http://arxiv.org/abs/2304.06366v1 )

ライセンス: Link先を確認
Shivani Bathla and Vinita Vasudevan(参考訳) 分割関数の厳密な計算は難解であることが知られ、近似推論技術を必要とする。 近似推論の既存の方法は、多くのベンチマークでは収束が遅い。 精度・複雑さのトレードオフの制御は、これらの方法の多くでは非自明である。 本稿では,これらの問題に対処する近似推論のための新しいIBIAフレームワークを提案する。 このフレームワークでは、確率的グラフィカルモデルは、境界付きクレークサイズを持つクレークツリーフォレスト(sctf)のシーケンスに変換される。 SCTFを用いて分割関数を効率的に計算できることが示される。 本稿では,SCTFの構築と,その正当性を証明するために2つの新しいアルゴリズムを提案する。 第1のアルゴリズムは、有界cliqueサイズで有効なCTFを与えることが保証されるCTFのインクリメンタルな構成のためのアルゴリズムであり、第2のアルゴリズムは、キャリブレーションされたCTFを入力とし、出力として、クリリドサイズを小さくした有効なCTFを得る近似アルゴリズムである。 我々は,最近のuaiコンペティションから得られたベンチマークセットを用いて,本手法を評価した。

Exact computation of the partition function is known to be intractable, necessitating approximate inference techniques. Existing methods for approximate inference are slow to converge for many benchmarks. The control of accuracy-complexity trade-off is also non-trivial in many of these methods. We propose a novel incremental build-infer-approximate (IBIA) framework for approximate inference that addresses these issues. In this framework, the probabilistic graphical model is converted into a sequence of clique tree forests (SCTF) with bounded clique sizes. We show that the SCTF can be used to efficiently compute the partition function. We propose two new algorithms which are used to construct the SCTF and prove the correctness of both. The first is an algorithm for incremental construction of CTFs that is guaranteed to give a valid CTF with bounded clique sizes and the second is an approximation algorithm that takes a calibrated CTF as input and yields a valid and calibrated CTF with reduced clique sizes as the output. We have evaluated our method using several benchmark sets from recent UAI competitions and our results show good accuracies with competitive runtimes.
翻訳日:2023-04-14 15:03:11 公開日:2023-04-13
# AGIEval: ファンデーションモデルを評価するための人間中心ベンチマーク

AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models ( http://arxiv.org/abs/2304.06364v1 )

ライセンス: Link先を確認
Wanjun Zhong, Ruixiang Cui, Yiduo Guo, Yaobo Liang, Shuai Lu, Yanlin Wang, Amin Saied, Weizhu Chen and Nan Duan(参考訳) 人間レベルのタスクに取り組むための基礎モデルの一般的な能力を評価することは、その開発と人工知能(agi)の追求に不可欠な側面である。 従来のベンチマークは、人工的なデータセットに依存しているが、人間レベルの能力を正確に表現するものではない。 本稿では,大学入学試験,ロースクール入学試験,数学コンペ,弁護士資格試験など,人間中心の標準化試験の文脈において基礎モデルを評価するための新しいベンチマークであるagievalを紹介する。 このベンチマークを用いて,GPT-4,ChatGPT,Text-Davinci-003などの最先端基盤モデルの評価を行った。 印象的なことに、GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。 これは現代の基礎モデルの並外れた性能を示している。 対照的に、GPT-4は複雑な推論や特定のドメイン知識を必要とするタスクでは未熟である。 モデル能力(理解、知識、推論、計算)に関する包括的な分析は、これらのモデルの強みと限界を明らかにし、それらの一般的な能力を高めるための将来の方向性に関する貴重な洞察を提供する。 人間の認知と意思決定に関連するタスクに集中することで、実際のシナリオにおける基礎モデルのパフォーマンスをより有意義で堅牢な評価を行うことができます。 データ、コード、およびすべてのモデル出力はhttps://github.com/microsoft/AGIEval.comでリリースされる。

Evaluating the general abilities of foundation models to tackle human-level tasks is a vital aspect of their development and application in the pursuit of Artificial General Intelligence (AGI). Traditional benchmarks, which rely on artificial datasets, may not accurately represent human-level capabilities. In this paper, we introduce AGIEval, a novel benchmark specifically designed to assess foundation model in the context of human-centric standardized exams, such as college entrance exams, law school admission tests, math competitions, and lawyer qualification tests. We evaluate several state-of-the-art foundation models, including GPT-4, ChatGPT, and Text-Davinci-003, using this benchmark. Impressively, GPT-4 surpasses average human performance on SAT, LSAT, and math competitions, attaining a 95% accuracy rate on the SAT Math test and a 92.5% accuracy on the English test of the Chinese national college entrance exam. This demonstrates the extraordinary performance of contemporary foundation models. In contrast, we also find that GPT-4 is less proficient in tasks that require complex reasoning or specific domain knowledge. Our comprehensive analyses of model capabilities (understanding, knowledge, reasoning, and calculation) reveal these models' strengths and limitations, providing valuable insights into future directions for enhancing their general capabilities. By concentrating on tasks pertinent to human cognition and decision-making, our benchmark delivers a more meaningful and robust evaluation of foundation models' performance in real-world scenarios. The data, code, and all model outputs are released in https://github.com/microsoft/AGIEval.
翻訳日:2023-04-14 15:02:52 公開日:2023-04-13
# マルチメディア検索のためのDeep Metric Multi-View Hashing

Deep Metric Multi-View Hashing for Multimedia Retrieval ( http://arxiv.org/abs/2304.06358v1 )

ライセンス: Link先を確認
Jian Zhu, Zhangmin Huang, Xiaohu Ruan, Yu Cui, Yongli Cheng, Lingfang Zeng(参考訳) 多視点異種データのハッシュ表現を学ぶことはマルチメディア検索において重要な課題である。 しかし、既存の手法では、マルチビューの特徴を効果的に融合することができず、異種サンプルによって提供されるメトリック情報を利用することで、検索精度が制限される。 現在の手法では重み付き和または結合を用いて多視点特徴を融合する。 これらの融合手法は異なる視点間の相互作用を捉えることはできない。 さらに,これらの手法は異種サンプルの情報を無視した。 本稿では,上記の問題に対処するために,新しいディープメトリックマルチビューハッシュ(dmmvh)法を提案する。 ゲートベースの融合が典型的な方法よりも優れていることを示す広範な実証的証拠が提示されている。 類似したサンプルのメトリクス情報を活用できるマルチビューハッシュ問題に対して,ディープメトリック学習を導入する。 MIR-Flickr25K, MS COCO, NUS-WIDEでは, 平均精度(mAP)を最大15.28倍に向上させた。

Learning the hash representation of multi-view heterogeneous data is an important task in multimedia retrieval. However, existing methods fail to effectively fuse the multi-view features and utilize the metric information provided by the dissimilar samples, leading to limited retrieval precision. Current methods utilize weighted sum or concatenation to fuse the multi-view features. We argue that these fusion methods cannot capture the interaction among different views. Furthermore, these methods ignored the information provided by the dissimilar samples. We propose a novel deep metric multi-view hashing (DMMVH) method to address the mentioned problems. Extensive empirical evidence is presented to show that gate-based fusion is better than typical methods. We introduce deep metric learning to the multi-view hashing problems, which can utilize metric information of dissimilar samples. On the MIR-Flickr25K, MS COCO, and NUS-WIDE, our method outperforms the current state-of-the-art methods by a large margin (up to 15.28 mean Average Precision (mAP) improvement).
翻訳日:2023-04-14 15:02:26 公開日:2023-04-13
# 適応的ポーズ予測のためのメタオセリアリー学習

Meta-Auxiliary Learning for Adaptive Human Pose Prediction ( http://arxiv.org/abs/2304.06411v1 )

ライセンス: Link先を確認
Qiongjie Cui, Huaijiang Sun, Jianfeng Lu, Bin Li, Weiqing Li(参考訳) 高忠実な未来の人間のポーズを、歴史的に観察されたシーケンスから予測することは、インテリジェントロボットが人間と対話する上で決定的だ。 一般的に、外部データセット上で一般的な事前学習されたモデルをトレーニングし、それをすべてのテストサンプルに直接適用するディープエンド・ツー・エンド学習アプローチは、この問題を解決するための主要なソリューションとして浮上する。 進行を促すにもかかわらず、特定のシーケンスの固有の特性(例えば、動きスタイル、リズム)を適応できないため、それらは最適ではない。 より一般的には、テスト時に、見当たらない動作カテゴリ(分布外)に遭遇すると、予測されたポーズは信頼できない傾向にある。 そこで本研究では, 自己教師付き補助タスクを2つ活用し, 一次予測ネットワークがテストシーケンスに適応するのを支援する新しいテスト時間適応フレームワークを提案する。 テストフェーズでは、モデルパラメータをいくつかの勾配更新によって調整し、生成品質を向上させる。 しかし、破滅的な忘れ方のため、補助的なタスクは、最終予測性能に対して望ましい肯定的なインセンティブを自動的に提示する能力が低い傾向がある。 そこで本研究では,適応性向上のためのメタ補助学習手法を提案する。 提案手法は, より精度が高く, 配当外データ(未確認対象とカテゴリ)の2つの新しい実験設計により, 大幅な改善が得られた。

Predicting high-fidelity future human poses, from a historically observed sequence, is decisive for intelligent robots to interact with humans. Deep end-to-end learning approaches, which typically train a generic pre-trained model on external datasets and then directly apply it to all test samples, emerge as the dominant solution to solve this issue. Despite encouraging progress, they remain non-optimal, as the unique properties (e.g., motion style, rhythm) of a specific sequence cannot be adapted. More generally, at test-time, once encountering unseen motion categories (out-of-distribution), the predicted poses tend to be unreliable. Motivated by this observation, we propose a novel test-time adaptation framework that leverages two self-supervised auxiliary tasks to help the primary forecasting network adapt to the test sequence. In the testing phase, our model can adjust the model parameters by several gradient updates to improve the generation quality. However, due to catastrophic forgetting, both auxiliary tasks typically tend to the low ability to automatically present the desired positive incentives for the final prediction performance. For this reason, we also propose a meta-auxiliary learning scheme for better adaptation. In terms of general setup, our approach obtains higher accuracy, and under two new experimental designs for out-of-distribution data (unseen subjects and categories), achieves significant improvements.
翻訳日:2023-04-14 14:55:45 公開日:2023-04-13
# 合成画像の興味ある性質:生成的対向ネットワークから拡散モデルへ

Intriguing properties of synthetic images: from generative adversarial networks to diffusion models ( http://arxiv.org/abs/2304.06408v1 )

ライセンス: Link先を確認
Riccardo Corvi, Davide Cozzolino, Giovanni Poggi, Koki Nagano, Luisa Verdoliva(参考訳) 偽画像の検出はコンピュータビジョンの大きな目標になりつつある。 このニーズは、生成的逆ネットワーク(gan)に基づく合成法の継続的な改善、さらには拡散モデル(dm)に基づく強力な手法の出現によってますます圧迫されてきている。 この目的に向けて、実際の画像と偽画像を区別する画像の特徴について洞察を得ることが重要である。 本稿では,実画像と実画像の最も科学的に関連のある特徴を探索することを目的とした,異なる家族の多数の画像生成器の系統的研究について報告する。 Our experiments provide a number of interesting observations and shed light on some intriguing properties of synthetic images: (1) not only the GAN models but also the DM and VQ-GAN (Vector Quantized Generative Adversarial Networks) models give rise to visible artifacts in the Fourier domain and exhibit anomalous regular patterns in the autocorrelation; (2) when the dataset used to train the model lacks sufficient variety, its biases can be transferred to the generated images; (3) synthetic and real images exhibit significant differences in the mid-high frequency signal content, observable in their radial and angular spectral power distributions.

Detecting fake images is becoming a major goal of computer vision. This need is becoming more and more pressing with the continuous improvement of synthesis methods based on Generative Adversarial Networks (GAN), and even more with the appearance of powerful methods based on Diffusion Models (DM). Towards this end, it is important to gain insight into which image features better discriminate fake images from real ones. In this paper we report on our systematic study of a large number of image generators of different families, aimed at discovering the most forensically relevant characteristics of real and generated images. Our experiments provide a number of interesting observations and shed light on some intriguing properties of synthetic images: (1) not only the GAN models but also the DM and VQ-GAN (Vector Quantized Generative Adversarial Networks) models give rise to visible artifacts in the Fourier domain and exhibit anomalous regular patterns in the autocorrelation; (2) when the dataset used to train the model lacks sufficient variety, its biases can be transferred to the generated images; (3) synthetic and real images exhibit significant differences in the mid-high frequency signal content, observable in their radial and angular spectral power distributions.
翻訳日:2023-04-14 14:55:20 公開日:2023-04-13
# 完全マッチングと量子物理学:GHZ状態の次元の境界

Perfect matchings and Quantum physics: Bounding the dimension of GHZ states ( http://arxiv.org/abs/2304.06407v1 )

ライセンス: Link先を確認
L. Sunil Chandran, Rishikesh Gajjala(参考訳) greenberger-horne-zeilinger (ghz) 状態は少なくとも3つの絡み合った粒子を含む量子状態である。 量子情報理論に基本的な関心を持ち、量子通信や暗号にいくつかの応用がある。 これを受けて、物理学者は複数の絡み合った粒子を用いて高次元のGHZ状態を作るための様々な実験を設計してきた。 2017年、Krenn, Gu and Zeilinger は実験量子光学とグラフ理論の橋渡しを発見した。 新しいGHZ状態を生成するための大規模な実験は、特定の性質を持つエッジカラーのエッジ重み付きグラフと関連付けられている。 このフレームワークを用いて、Cervera-Lierta、Krenn、Aspuru-GuzikはSATソルバを用いて最大寸法が6,8$の粒子を用いて3,4$未満であることを示した。 さらに彼らは、$n$粒子を用いることで、最大次元は$\dfrac{n}{{2}}$ [Quantum 2022]より小さいと推測した。 得られた最大次元が$\dfrac{n}{\sqrt{2}}$より小さいことを示すことによって、それらの予想を証明するために前進する。

Greenberger-Horne-Zeilinger (GHZ) states are quantum states involving at least three entangled particles. They are of fundamental interest in quantum information theory and have several applications in quantum communication and cryptography. Motivated by this, physicists have been designing various experiments to create high-dimensional GHZ states using multiple entangled particles. In 2017, Krenn, Gu and Zeilinger discovered a bridge between experimental quantum optics and graph theory. A large class of experiments to create a new GHZ state are associated with an edge-coloured edge-weighted graph having certain properties. Using this framework, Cervera-Lierta, Krenn, and Aspuru-Guzik proved using SAT solvers that through these experiments, the maximum dimension achieved is less than $3,4$ using $6,8$ particles, respectively. They further conjectured that using $n$ particles, the maximum dimension achievable is less than $\dfrac{n}{{2}}$ [Quantum 2022]. We make progress towards proving their conjecture by showing that the maximum dimension achieved is less than $\dfrac{n}{\sqrt{2}}$.
翻訳日:2023-04-14 14:55:02 公開日:2023-04-13
# 多パラメータ推定におけるベイズ境界の実験的検討

Experimental investigation of Bayesian bounds in multiparameter estimation ( http://arxiv.org/abs/2304.06405v1 )

ライセンス: Link先を確認
Simone E. D'Aurelio, Mauro Valeri, Emanuele Polino, Valeria Cimini, Ilaria Gianani, Marco Barbieri, Giacomo Corrielli, Andrea Crespi, Roberto Osellame, Fabio Sciarrino, Nicol\`o Spagnolo(参考訳) 量子パラメータ推定は、量子優位性を楽しむセンサの設計にしっかりとした概念的根拠を提供する。 これは、ハードウェアのサポートと量子特性の活用によって実現されるだけでなく、データ分析にも影響と関連性がある。 この点において、ベイズ的手法は有効かつエレガントな解として現れており、自然に事前情報の入手が可能になっている。 本稿では,パラメータ推定で仮定される大標本の通常限界を超える境界値に基づいて評価した多重位相推定のためのベイズ法の評価を行う。 重要な点は、単一光子でシードされた3本腕干渉計の出力統計から生成された実験データに適用することである。 我々の研究は、量子力学におけるより包括的なデータ分析の青写真を提供する。

Quantum parameter estimation offers solid conceptual grounds for the design of sensors enjoying quantum advantage. This is realised not only by means of hardware supporting and exploiting quantum properties, but data analysis has its impact and relevance, too. In this respect, Bayesian methods have emerged as an effective and elegant solution, with the perk of incorporating naturally the availability of a priori information. In this article we present an evaluation of Bayesian methods for multiple phase estimation, assessed based on bounds that work beyond the usual limit of large samples assumed in parameter estimation. Importantly, such methods are applied to experimental data generated from the output statistics of a three-arm interferometer seeded by single photons. Our studies provide a blueprint for a more comprehensive data analysis in quantum metrology.
翻訳日:2023-04-14 14:54:40 公開日:2023-04-13
# 教師なし動作セグメンテーションにおける三重項損失の活用

Leveraging triplet loss for unsupervised action segmentation ( http://arxiv.org/abs/2304.06403v1 )

ライセンス: Link先を確認
E. Bueno-Benito, B. Tura, M. Dimiccoli(参考訳) 本稿では,単一入力ビデオ自体からアクションセグメンテーションタスクに適したアクション表現を,トレーニングデータを必要とせずに学習する,完全教師なしのフレームワークを提案する。 提案手法は,三重項の損失が類似度分布に作用する浅層ネットワークに根ざした深層学習手法であり,時間的および意味的な先行を効果的にモデル化し,新しい表現空間における行動を発見するための三重項選択戦略である。 このような状況下では,既存の教師なしアプローチと比較して,学習した行動表現の時間的境界を高い品質で回復することに成功した。 提案手法は,アクションセグメンテーションタスクに広く使用される2つのベンチマークデータセット上で評価され,学習した表現に汎用クラスタリングアルゴリズムを適用して競合性能を実現する。

In this paper, we propose a novel fully unsupervised framework that learns action representations suitable for the action segmentation task from the single input video itself, without requiring any training data. Our method is a deep metric learning approach rooted in a shallow network with a triplet loss operating on similarity distributions and a novel triplet selection strategy that effectively models temporal and semantic priors to discover actions in the new representational space. Under these circumstances, we successfully recover temporal boundaries in the learned action representations with higher quality compared with existing unsupervised approaches. The proposed method is evaluated on two widely used benchmark datasets for the action segmentation task and it achieves competitive performance by applying a generic clustering algorithm on the learned representations.
翻訳日:2023-04-14 14:54:29 公開日:2023-04-13
# 既存のマルチモーダル・クラウド・カウンティング・データセットが現実世界のアプリケーションに期待できない結果をもたらす理由

Why Existing Multimodal Crowd Counting Datasets Can Lead to Unfulfilled Expectations in Real-World Applications ( http://arxiv.org/abs/2304.06401v1 )

ライセンス: Link先を確認
Martin Thi{\ss}en and Elke Hergenr\"other(参考訳) より多くの情報がより良い意思決定と予測につながるでしょう? この仮説を裏付けるいくつかの研究は、光学画像と熱画像の同時使用は、群衆数においてより良い予測をもたらすと結論づけた。 しかし、マルチモーダルモデルが両方のモダリティからリッチな特徴を抽出する方法はまだ完全には理解されていない。 マルチモーダルデータの利用は通常、モデルの複雑さ、推測時間、メモリ要件を増大させるため、モノモーダルモデルと比較してマルチモーダルの違いと利点を検討することが重要である。 本研究は, クラウドカウントのためのすべての利用可能なマルチモーダルデータセットを用いて, モノモーダルモデルとマルチモーダルモデルの違いについて検討する。 そこで我々は,モノモダル群数に関する研究の現状を考慮したモノモダルアーキテクチャを設計した。 さらに、様々なマルチモーダル学習戦略を用いて複数のマルチモーダルアーキテクチャが開発されている。 モノモーダルアーキテクチャの主要なコンポーネントは、群衆カウントにおいて、マルチモーダルモデルがより良く機能するかどうかを答えられるように、マルチモーダルアーキテクチャでも使用されている。 驚くべきことに、この質問に対する一般的な答えは既存のデータセットから導き出せない。 既存のデータセットは熱画像に偏りがあることがわかりました。 これは、光学画像の明るさと群衆数の関係を解析し、各データセットの注釈を調べることによって決定された。 この質問に答えることは、クラウドカウントの将来の実世界応用において重要であるため、マルチモーダルモデルが一般にクラウドカウントにおいて優れた性能を発揮するかどうかに答えるのに適した潜在的なデータセットの基準を確立する。

More information leads to better decisions and predictions, right? Confirming this hypothesis, several studies concluded that the simultaneous use of optical and thermal images leads to better predictions in crowd counting. However, the way multimodal models extract enriched features from both modalities is not yet fully understood. Since the use of multimodal data usually increases the complexity, inference time, and memory requirements of the models, it is relevant to examine the differences and advantages of multimodal compared to monomodal models. In this work, all available multimodal datasets for crowd counting are used to investigate the differences between monomodal and multimodal models. To do so, we designed a monomodal architecture that considers the current state of research on monomodal crowd counting. In addition, several multimodal architectures have been developed using different multimodal learning strategies. The key components of the monomodal architecture are also used in the multimodal architectures to be able to answer whether multimodal models perform better in crowd counting in general. Surprisingly, no general answer to this question can be derived from the existing datasets. We found that the existing datasets hold a bias toward thermal images. This was determined by analyzing the relationship between the brightness of optical images and crowd count as well as examining the annotations made for each dataset. Since answering this question is important for future real-world applications of crowd counting, this paper establishes criteria for a potential dataset suitable for answering whether multimodal models perform better in crowd counting in general.
翻訳日:2023-04-14 14:54:14 公開日:2023-04-13
# 超高速モデル圧縮のための高精度性能予測器の学習

Learning Accurate Performance Predictors for Ultrafast Automated Model Compression ( http://arxiv.org/abs/2304.06393v1 )

ライセンス: Link先を確認
Ziwei Wang, Jiwen Lu, Han Xiao, Shengyu Liu, Jie Zhou(参考訳) 本稿では、フレキシブルネットワーク配置のための超高速自動モデル圧縮フレームワークSeerNetを提案する。 従来の非差分分割方式は、徹底的に訓練された軽量モデルからの精度に基づいて望ましい圧縮ポリシーを離散的に探索し、既存の微分可能な手法は、非常に大きなスーパーネットを最適化し、デプロイに必要な圧縮モデルを得る。 両者とも複雑な圧縮ポリシー探索と評価プロセスのために計算コストが重い。 一方,計算コスト制約に対する超高速自動モデル圧縮を複雑な圧縮ポリシ探索と評価なしで実現し,精度の高い性能予測器で圧縮ポリシを直接最適化することにより,最適なネットワークを得る。 具体的には,効率的な進化探索によって選択された不確実な圧縮ポリシーの精度に基づいて,まず性能予測器を訓練し,精度の高い性能予測器を許容コストで学習するための情報監督を行う。 次に,所望の圧縮ポリシを超高速に取得するために,バリア複雑性制約下での予測性能を最大化する勾配を利用して,適応的な更新をモーメントで段階的に進め,取得したプルーニングおよび量子化戦略の最適性を高める。 最新の自動モデル圧縮法と比較すると,画像分類とオブジェクト検出の実験結果から,検索コストを大幅に削減した競合精度・複雑度トレードオフを実現することが示された。

In this paper, we propose an ultrafast automated model compression framework called SeerNet for flexible network deployment. Conventional non-differen-tiable methods discretely search the desirable compression policy based on the accuracy from exhaustively trained lightweight models, and existing differentiable methods optimize an extremely large supernet to obtain the required compressed model for deployment. They both cause heavy computational cost due to the complex compression policy search and evaluation process. On the contrary, we obtain the optimal efficient networks by directly optimizing the compression policy with an accurate performance predictor, where the ultrafast automated model compression for various computational cost constraint is achieved without complex compression policy search and evaluation. Specifically, we first train the performance predictor based on the accuracy from uncertain compression policies actively selected by efficient evolutionary search, so that informative supervision is provided to learn the accurate performance predictor with acceptable cost. Then we leverage the gradient that maximizes the predicted performance under the barrier complexity constraint for ultrafast acquisition of the desirable compression policy, where adaptive update stepsizes with momentum are employed to enhance optimality of the acquired pruning and quantization strategy. Compared with the state-of-the-art automated model compression methods, experimental results on image classification and object detection show that our method achieves competitive accuracy-complexity trade-offs with significant reduction of the search cost.
翻訳日:2023-04-14 14:53:48 公開日:2023-04-13
# Vision DIFFMASK: 可変パッチマスキングによる視覚変換器の忠実解釈

VISION DIFFMASK: Faithful Interpretation of Vision Transformers with Differentiable Patch Masking ( http://arxiv.org/abs/2304.06391v1 )

ライセンス: Link先を確認
Angelos Nalmpantis, Apostolos Panagiotopoulos, John Gkountouras, Konstantinos Papakostas and Wilker Aziz(参考訳) 視覚トランスフォーマーの解釈性の欠如は、その有効性にもかかわらず、重要な実世界のアプリケーションでの使用を妨げる可能性がある。 そこで,本稿では,モデルの隠れたレイヤのアクティベーションを利用して,最終的な予測に寄与する入力の関連部分を予測する視覚差分マスク(vision diffmask)というポストホック解釈法を提案する。 本手法では,クラス上の予測分布を保存する元入力の最小部分集合をゲーティング機構を用いて識別する。 本稿では,忠実性タスクを導入し,cifar-10とimagenet-1kの他の最先端アトリビューション手法と比較し,説得力のある結果を得た。 再現性と作業のさらなる拡張を支援するため、私たちは実装をオープンソースにしました。

The lack of interpretability of the Vision Transformer may hinder its use in critical real-world applications despite its effectiveness. To overcome this issue, we propose a post-hoc interpretability method called VISION DIFFMASK, which uses the activations of the model's hidden layers to predict the relevant parts of the input that contribute to its final predictions. Our approach uses a gating mechanism to identify the minimal subset of the original input that preserves the predicted distribution over classes. We demonstrate the faithfulness of our method, by introducing a faithfulness task, and comparing it to other state-of-the-art attribution methods on CIFAR-10 and ImageNet-1K, achieving compelling results. To aid reproducibility and further extension of our work, we open source our implementation: https://github.com/AngelosNal/Vision-DiffMask
翻訳日:2023-04-14 14:53:23 公開日:2023-04-13
# transhp:階層的プロンプトによる画像分類

TransHP: Image Classification with Hierarchical Prompting ( http://arxiv.org/abs/2304.06385v1 )

ライセンス: Link先を確認
Wenhao Wang, Yifan Sun, Wei Li, Yi Yang(参考訳) 本稿では階層画像分類(HIC)タスクの階層的プロンプト機構について検討する。 従来のhicメソッドと異なり、私たちの階層的プロンプトは、祖先クラス識別の恩恵を受けるトークン化されたヒントとして、祖先クラス情報を明示的に注入する最初の方法です。 これは人間の視覚認識をよく模倣している、すなわち、人間は祖先のクラスを、子孫のクラス間の微妙な違いに焦点を合わせるための手掛かりとして使うかもしれない。 このプロンプト機構を階層型プロンプト(transhp)によるトランスフォーマーにモデル化する。 TransHPは3つのステップから構成される。 1)粗い(祖先)クラスを表現するために一連のプロンプトトークンを学ぶ。 2)中間ブロックにおける入力画像の粗いクラスをオンザフライで予測する。 3) 予測された粗いクラスのプロンプトトークンを中間機能に注入する。 transhpのパラメータは、全ての入力画像で同じだが、注入された粗クラスプロンプト条件は、次の特徴抽出を修飾し、後続クラス間の比較的微妙な違いに動的に焦点を合わせる。 広範な実験により、transhpは精度(例えば、vit-b/16を+2.83%のimagenet分類精度で改善)、トレーニングデータ効率(例えば、10%のimagenetトレーニングデータで+12.69%改善)、モデル説明可能性の向上が示されている。 さらに、TransHPは従来のHIC手法に対して良好に動作し、TransHPが階層的な情報をうまく活用していることを示す。

This paper explores a hierarchical prompting mechanism for the hierarchical image classification (HIC) task. Different from prior HIC methods, our hierarchical prompting is the first to explicitly inject ancestor-class information as a tokenized hint that benefits the descendant-class discrimination. We think it well imitates human visual recognition, i.e., humans may use the ancestor class as a prompt to draw focus on the subtle differences among descendant classes. We model this prompting mechanism into a Transformer with Hierarchical Prompting (TransHP). TransHP consists of three steps: 1) learning a set of prompt tokens to represent the coarse (ancestor) classes, 2) on-the-fly predicting the coarse class of the input image at an intermediate block, and 3) injecting the prompt token of the predicted coarse class into the intermediate feature. Though the parameters of TransHP maintain the same for all input images, the injected coarse-class prompt conditions (modifies) the subsequent feature extraction and encourages a dynamic focus on relatively subtle differences among the descendant classes. Extensive experiments show that TransHP improves image classification on accuracy (e.g., improving ViT-B/16 by +2.83% ImageNet classification accuracy), training data efficiency (e.g., +12.69% improvement under 10% ImageNet training data), and model explainability. Moreover, TransHP also performs favorably against prior HIC methods, showing that TransHP well exploits the hierarchical information.
翻訳日:2023-04-14 14:53:03 公開日:2023-04-13
# 早期セプシス予測へのマルチサブセットアプローチ

Multi-Subset Approach to Early Sepsis Prediction ( http://arxiv.org/abs/2304.06384v1 )

ライセンス: Link先を確認
Kevin Ewig, Xiangwen Lin, Tucker Stewart, Katherine Stern, Grant O'Keefe, Ankur Teredesai, and Juhua Hu(参考訳) セプシス(英: Sepsis)は、宿主が感染と戦うことができないことによって引き起こされる、致命的な臓器不全である。 したがって、敗血症および敗血症関連死亡のリスクが高い重症患者における敗血症の早期診断および治療は、患者に迅速な治療を提供する上で不可欠である。 研究によると、敗血症検出を6時間進めると、早期に抗生物質が投与され、死亡率が改善した。 しかし、sequential organ failure assessment(sofa)のような臨床スコアは早期予測には適用されないが、機械学習アルゴリズムは早期予測の進行パターンを捉えるのに役立つ。 そこで本研究では,臨床的に疑われる6時間前に発症を予測できる機械学習アルゴリズムを開発することを目的とする。 いくつかの機械学習アルゴリズムはセシス予測に応用されているが、6時間が小さなギャップではないという事実を考慮しなかった。 この大きなギャップを克服するために、我々は6時間以内に発生する敗血症の可能性を以前のサブセットから出力し、追加機能としてターゲットサブセットにフィードするマルチサブセットアプローチを探求する。 さらに,観察窓内のバイタルサインのような時間単位のサンプルデータを用いて,時間変化傾向を導出してさらに補助を行うが,先行研究では無視されることが多い。 実験の結果,6時間ギャップ解消のためのマルチサブセットアプローチと時間トレンド機能の追加は,敗血症関連早期予測の性能向上に寄与することが示唆された。

Sepsis is a life-threatening organ malfunction caused by the host's inability to fight infection, which can lead to death without proper and immediate treatment. Therefore, early diagnosis and medical treatment of sepsis in critically ill populations at high risk for sepsis and sepsis-associated mortality are vital to providing the patient with rapid therapy. Studies show that advancing sepsis detection by 6 hours leads to earlier administration of antibiotics, which is associated with improved mortality. However, clinical scores like Sequential Organ Failure Assessment (SOFA) are not applicable for early prediction, while machine learning algorithms can help capture the progressing pattern for early prediction. Therefore, we aim to develop a machine learning algorithm that predicts sepsis onset 6 hours before it is suspected clinically. Although some machine learning algorithms have been applied to sepsis prediction, many of them did not consider the fact that six hours is not a small gap. To overcome this big gap challenge, we explore a multi-subset approach in which the likelihood of sepsis occurring earlier than 6 hours is output from a previous subset and feed to the target subset as additional features. Moreover, we use the hourly sampled data like vital signs in an observation window to derive a temporal change trend to further assist, which however is often ignored by previous studies. Our empirical study shows that both the multi-subset approach to alleviating the 6-hour gap and the added temporal trend features can help improve the performance of sepsis-related early prediction.
翻訳日:2023-04-14 14:52:35 公開日:2023-04-13
# PDF-VQA:PDFドキュメント上の実世界のVQAのための新しいデータセット

PDF-VQA: A New Dataset for Real-World VQA on PDF Documents ( http://arxiv.org/abs/2304.06447v1 )

ライセンス: Link先を確認
Yihao Ding, Siwen Luo, Hyunsuk Chung, Soyeon Caren Han(参考訳) 文書ベースの視覚的質問応答は、自然言語質問の条件下で文書画像の文書理解を調べる。 文書要素認識,文書レイアウト構造理解,コンテキスト理解,キー情報抽出など,さまざまな側面から文書理解を包括的に検討するための文書ベースVQAデータセットであるPDF-VQAを提案する。 我々のPDF-VQAデータセットは、単一のドキュメントページ上の制限を、複数のページの全ドキュメントに対して質問する新しいスケールに拡張する。 また、異なる文書要素間の空間的・階層的構造関係を明示的に統合し、文書構造理解を促進するグラフベースの新しいVQAモデルを提案する。 パフォーマンスは、異なる質問タイプ上のいくつかのベースラインと比較され、tasks\footnote{the full datasetは、紙の受け入れ後にリリースされる。

Document-based Visual Question Answering examines the document understanding of document images in conditions of natural language questions. We proposed a new document-based VQA dataset, PDF-VQA, to comprehensively examine the document understanding from various aspects, including document element recognition, document layout structural understanding as well as contextual understanding and key information extraction. Our PDF-VQA dataset extends the current scale of document understanding that limits on the single document page to the new scale that asks questions over the full document of multiple pages. We also propose a new graph-based VQA model that explicitly integrates the spatial and hierarchically structural relationships between different document elements to boost the document structural understanding. The performances are compared with several baselines over different question types and tasks\footnote{The full dataset will be released after paper acceptance.
翻訳日:2023-04-14 14:47:19 公開日:2023-04-13
# SpectFormer: Vision Transformerに必要な周波数と注意

SpectFormer: Frequency and Attention is what you need in a Vision Transformer ( http://arxiv.org/abs/2304.06446v1 )

ライセンス: Link先を確認
Badri N. Patro, Vinay P. Namboodiri, Vijay Srinivas Agneeswaran(参考訳) 視覚トランスフォーマーは画像認識タスクにうまく適用されている。 マルチヘッド・セルフ・アテンション・ベース(vit \cite{dosovitskiy2020image}, deit, \cite{touvron2021training})は、テキストモデルや近年のスペクトル層に基づくものと同様のものである(fnet\cite{lee2021fnet}, gfnet\cite{rao2021global}, afno\cite{guibas2021 efficient})。 スペクトルとマルチヘッドの両方が大きな役割を果たすと仮定する。 この研究を通じてこの仮説を検証し、スペクトル層とマルチヘッドアテンション層の組み合わせにより、より優れたトランスフォーマーアーキテクチャが得られることを確かめる。 そこで本稿では,スペクトル層とマルチヘッド層を組み合わせた新しい変換器のSpectformerアーキテクチャを提案する。 その結果、トランスフォーマティブは特徴表現を適切に捉えることができ、他のトランスフォーマティブ表現よりもパフォーマンスが向上すると信じている。 例えば、GFNet-HとLiTと比較して、ImageNetでトップ1の精度を2倍改善する。 SpectFormer-S は ImageNet-1K の 84.25\% のトップ-1 に到達した。 さらにspectformer-lは85.7\%を達成しており、これはトランスフォーマーのベースバージョンに匹敵する技術である。 さらに、CIFAR-10、CIFAR-100、Oxford-IIIT-flower、Standford Carデータセットなどの標準データセットの転送学習など、他のシナリオで妥当な結果が得られることを保証します。 次に、オブジェクト検出やMS-COCOデータセットのインスタンスセグメンテーションなどの下流タスクでの利用を調査し、Spectformerが最高のバックボーンに匹敵する一貫性のあるパフォーマンスを示し、さらなる最適化と改善が可能であることを観察する。 したがって、視覚変換器にはスペクトル層と注意層が混在していると考えられる。

Vision transformers have been applied successfully for image recognition tasks. There have been either multi-headed self-attention based (ViT \cite{dosovitskiy2020image}, DeIT, \cite{touvron2021training}) similar to the original work in textual models or more recently based on spectral layers (Fnet\cite{lee2021fnet}, GFNet\cite{rao2021global}, AFNO\cite{guibas2021efficient}). We hypothesize that both spectral and multi-headed attention plays a major role. We investigate this hypothesis through this work and observe that indeed combining spectral and multi-headed attention layers provides a better transformer architecture. We thus propose the novel Spectformer architecture for transformers that combines spectral and multi-headed attention layers. We believe that the resulting representation allows the transformer to capture the feature representation appropriately and it yields improved performance over other transformer representations. For instance, it improves the top-1 accuracy by 2\% on ImageNet compared to both GFNet-H and LiT. SpectFormer-S reaches 84.25\% top-1 accuracy on ImageNet-1K (state of the art for small version). Further, Spectformer-L achieves 85.7\% that is the state of the art for the comparable base version of the transformers. We further ensure that we obtain reasonable results in other scenarios such as transfer learning on standard datasets such as CIFAR-10, CIFAR-100, Oxford-IIIT-flower, and Standford Car datasets. We then investigate its use in downstream tasks such of object detection and instance segmentation on the MS-COCO dataset and observe that Spectformer shows consistent performance that is comparable to the best backbones and can be further optimized and improved. Hence, we believe that combined spectral and attention layers are what are needed for vision transformers.
翻訳日:2023-04-14 14:47:04 公開日:2023-04-13
# Zoom-VQA: ビデオ品質評価のためのパッチ、フレーム、クリップの統合

Zoom-VQA: Patches, Frames and Clips Integration for Video Quality Assessment ( http://arxiv.org/abs/2304.06440v1 )

ライセンス: Link先を確認
Kai Zhao, Kun Yuan, Ming Sun and Xing Wen(参考訳) 映像品質評価(VQA)は、低レベルの色やテクスチャの詳細から高レベルのセマンティックコンテンツに至るまで、映像品質の人間の知覚をシミュレートすることを目的としている。 本稿では,これらの複雑な品質要因を効果的にモデル化するために,映像を3つのレベル(\ie,パッチレベル,フレームレベル,クリップレベル)に分解し,異なるレベルで時空間特徴を知覚する新しいzoom-vqaアーキテクチャを提案する。 パッチアテンションモジュール(patch attention module)、フレームピラミッドアライメント(frame pyramid alignment)、クリップアンサンブル戦略( clip ensemble strategy)の3つのコンポーネントが統合されており、それぞれ、空間的次元における関心領域、異なる特徴レベルでのマルチレベル情報、時間的次元に分散した歪みを捉える。 包括的な設計のため、Zoom-VQAは4つのVQAベンチマークで最先端の結果を取得し、NTIRE 2023 VQAチャレンジで2位を獲得した。 特に、Zoom-VQA は LSVQ の2つのサブセットで、それぞれのサブセットで 0.8860 (+1.0%) と 0.7985 (+1.9%) を達成している。 適切なアブレーション研究は各成分の有効性をさらに検証する。 コードとモデルはhttps://github.com/k-zha14/zoom-vqaでリリースされる。

Video quality assessment (VQA) aims to simulate the human perception of video quality, which is influenced by factors ranging from low-level color and texture details to high-level semantic content. To effectively model these complicated quality-related factors, in this paper, we decompose video into three levels (\ie, patch level, frame level, and clip level), and propose a novel Zoom-VQA architecture to perceive spatio-temporal features at different levels. It integrates three components: patch attention module, frame pyramid alignment, and clip ensemble strategy, respectively for capturing region-of-interest in the spatial dimension, multi-level information at different feature levels, and distortions distributed over the temporal dimension. Owing to the comprehensive design, Zoom-VQA obtains state-of-the-art results on four VQA benchmarks and achieves 2nd place in the NTIRE 2023 VQA challenge. Notably, Zoom-VQA has outperformed the previous best results on two subsets of LSVQ, achieving 0.8860 (+1.0%) and 0.7985 (+1.9%) of SRCC on the respective subsets. Adequate ablation studies further verify the effectiveness of each component. Codes and models are released in https://github.com/k-zha14/Zoom-VQA.
翻訳日:2023-04-14 14:46:25 公開日:2023-04-13
# 特徴対応解析を用いた高忠実度ゼロショットテクスチャ異常定位

High-Fidelity Zero-Shot Texture Anomaly Localization Using Feature Correspondence Analysis ( http://arxiv.org/abs/2304.06433v1 )

ライセンス: Link先を確認
Andrei-Timotei Ardelean and Tim Weyrich(参考訳) 1次元ワッサーシュタイン距離から導出した双方向写像を利用するゼロショット異常局所化の新しい手法を提案する。 提案手法では,近傍のすべてのパッチの誤差に対する画素の寄与を集約することにより,テクスチャ内の異常領域を精度良くピンポイントできる。 提案手法を複数のデータセット上で検証し,MVTec ADデータセット上での過去の技術状況に対して,ゼロショット設定で40%以上の誤差を低減した。

We propose a novel method for Zero-Shot Anomaly Localization that leverages a bidirectional mapping derived from the 1-dimensional Wasserstein Distance. The proposed approach allows pinpointing the anomalous regions in a texture with increased precision by aggregating the contribution of a pixel to the errors of all nearby patches. We validate our solution on several datasets and obtain more than a 40% reduction in error over the previous state of the art on the MVTec AD dataset in a zero-shot setting.
翻訳日:2023-04-14 14:45:57 公開日:2023-04-13
# ロバストなUNetデノイザを用いたゼロオーダーブラックボックスディフェンス認証

Certified Zeroth-order Black-Box Defense with Robust UNet Denoiser ( http://arxiv.org/abs/2304.06430v1 )

ライセンス: Link先を確認
Astha Verma, Siddhesh Bangar, A V Subramanyam, Naman Lal, Rajiv Ratn Shah, Shin'ichi Satoh(参考訳) 近年,ゼロオーダー(ZO)視点のブラックボックス設定において,対向的摂動に対する認証防御法が検討されている。 しかし、これらの手法は、デノイザの非効率設計による高次元データセット上での低性能のモデル分散に悩まされており、ZO技術の利用に制限がある。 そこで本研究では,モデルクエリのみを用いたブラックボックス設定において,攻撃画像から逆摂動を除去するためのzo前処理手法を提案する。 本研究では,高次元データセットでトレーニングしたブラックボックスモデルのロバスト性を保証するロバストなUNetデノイザ(RDUNet)を提案する。 我々は,我々のRDUNetをブラックボックスモデルに前倒しし,ブラックボックスの防御を確実にすることで,新しいブラックボックス型スムーシング(DS)防御機構ZO-RUDSを提案する。 さらに,RDUNetと自動エンコーダ(AE)を併用したZO-AE-RUDSを提案する。 CIFAR-10, CIFAR-10, Tiny Imagenet, STL-10, MNISTの4つの分類データセットについて広範囲に実験を行った。 提案手法である zo-ruds と zo-ae-ruds は,低次元 (cifar-10) に対して 35\%$ と 9\%$ という大差で sota を,高次元 (stl-10) データセットに対してそれぞれ 20.61\%$ と $23.51\%$ の差で破った。

Certified defense methods against adversarial perturbations have been recently investigated in the black-box setting with a zeroth-order (ZO) perspective. However, these methods suffer from high model variance with low performance on high-dimensional datasets due to the ineffective design of the denoiser and are limited in their utilization of ZO techniques. To this end, we propose a certified ZO preprocessing technique for removing adversarial perturbations from the attacked image in the black-box setting using only model queries. We propose a robust UNet denoiser (RDUNet) that ensures the robustness of black-box models trained on high-dimensional datasets. We propose a novel black-box denoised smoothing (DS) defense mechanism, ZO-RUDS, by prepending our RDUNet to the black-box model, ensuring black-box defense. We further propose ZO-AE-RUDS in which RDUNet followed by autoencoder (AE) is prepended to the black-box model. We perform extensive experiments on four classification datasets, CIFAR-10, CIFAR-10, Tiny Imagenet, STL-10, and the MNIST dataset for image reconstruction tasks. Our proposed defense methods ZO-RUDS and ZO-AE-RUDS beat SOTA with a huge margin of $35\%$ and $9\%$, for low dimensional (CIFAR-10) and with a margin of $20.61\%$ and $23.51\%$ for high-dimensional (STL-10) datasets, respectively.
翻訳日:2023-04-14 14:45:49 公開日:2023-04-13
# 一次元擬調和発振器:古典論と量子情報理論

One-dimensional pseudoharmonic oscillator: classical remarks and quantum-information theory ( http://arxiv.org/abs/2304.06428v1 )

ライセンス: Link先を確認
O. Olendski(参考訳) 位置の正の二次関数と逆二次関数の組み合わせであるポテンシャルにおける半無限直線に沿った動きは、量子情報特性の解析に重点が置かれている。 特に、パラメータ $\mathfrak{a}$ は、半調和振動子 (HHO) を$\mathfrak{a}=0$ で変化させることで、巨大な$\mathfrak{a}$ の極限における二重周波数発振子 (DFO) の完全な対称性に変化する。 Quantum consideration focuses on the analysis of information-theoretical measures, such as standard deviations, Shannon, R\'{e}nyi and Tsallis entropies together with Fisher information, Onicescu energy and non--Gaussianity. For doing this, among others, a method of calculating momentum waveforms is proposed that results in their analytic expressions in form of the confluent hypergeometric functions. Increasing parameter $\mathfrak{a}$ modifies the measures in such a way that they gradually transform into those corresponding to the DFO what, in particular, means that the lowest orbital saturates Heisenberg, Shannon, R\'{e}nyi and Tsallis uncertainty relations with the corresponding position and momentum non--Gaussianities turning to zero. 単純な式は、次元のないR\'{e}nyi/Tsallis係数の半無限範囲の軌道非依存の低しきい値から導かれ、これらの1パラメータエントロピーの運動量成分は、HHOにおいて1/4$と0において、$\mathfrak{a}$が無限大となる傾向にあることを示す。 得られた数学的結果の物理的解釈を提供する。

Motion along semi-infinite straight line in a potential that is a combination of positive quadratic and inverse quadratic functions of the position is considered with the emphasis on the analysis of its quantum-information properties. Classical measure of symmetry of the potential is proposed and its dependence on the particle energy and the factor $\mathfrak{a}$ describing a relative strength of its constituents is described; in particular, it is shown that a variation of the parameter $\mathfrak{a}$ alters the shape from the half-harmonic oscillator (HHO) at $\mathfrak{a}=0$ to the perfectly symmetric one of the double frequency oscillator (DFO) in the limit of huge $\mathfrak{a}$. Quantum consideration focuses on the analysis of information-theoretical measures, such as standard deviations, Shannon, R\'{e}nyi and Tsallis entropies together with Fisher information, Onicescu energy and non--Gaussianity. For doing this, among others, a method of calculating momentum waveforms is proposed that results in their analytic expressions in form of the confluent hypergeometric functions. Increasing parameter $\mathfrak{a}$ modifies the measures in such a way that they gradually transform into those corresponding to the DFO what, in particular, means that the lowest orbital saturates Heisenberg, Shannon, R\'{e}nyi and Tsallis uncertainty relations with the corresponding position and momentum non--Gaussianities turning to zero. A simple expression is derived of the orbital-independent lower threshold of the semi-infinite range of the dimensionless R\'{e}nyi/Tsallis coefficient where momentum components of these one-parameter entropies exist which shows that it varies between $1/4$ at HHO and zero when $\mathfrak{a}$ tends to infinity. Physical interpretation of obtained mathematical results is provided.
翻訳日:2023-04-14 14:45:18 公開日:2023-04-13
# 不整脈検出のための自己教師付き心電図表現学習

In-Distribution and Out-of-Distribution Self-supervised ECG Representation Learning for Arrhythmia Detection ( http://arxiv.org/abs/2304.06427v1 )

ライセンス: Link先を確認
Sahar Soltanieh, Javad Hashemi, Ali Etemad(参考訳) 本稿では,心電図不整脈検出のための自己監督学習法(SSL)の有効性について,系統的検討を行った。 PTB-XL, Chapman, Ribeiroの3つの一般的な心電図に基づく不整脈データセットの分布解析から始める。 私たちの知る限りでは、この分野でこれらの分布を定量化するのは私たちの研究が初めてです。 次に,様々な拡張とパラメータを用いて,ecg表現学習のための様々なssl手法(simcrl,byol,swav)の有効性を評価するための総合的な実験を行い,swavが達成した最良性能を観察した。 さらに, SSL手法は, 教師付き最先端手法により達成された手法に対して高い競争力を発揮することを示す。 In-Distribution(ID)とOut-of-Distribution(OOD)のECGデータでこれらの手法の性能をさらに評価するため、クロスデータセットトレーニングおよびテスト実験を実施している。 包括的実験により,IDとOODのスキームを比較するとほぼ同じ結果が得られ,SSL技術は様々なOODデータセットにまたがる高い効率の表現を学習できることが示唆された。 この発見は心電図による不整脈検出に大きな影響を及ぼす可能性がある。 最後に,この結果をさらに分析するために,3つのデータセットにおけるsslメソッドの性能に関する精査毎の詳細な研究を行う。

This paper presents a systematic investigation into the effectiveness of Self-Supervised Learning (SSL) methods for Electrocardiogram (ECG) arrhythmia detection. We begin by conducting a novel distribution analysis on three popular ECG-based arrhythmia datasets: PTB-XL, Chapman, and Ribeiro. To the best of our knowledge, our study is the first to quantify these distributions in this area. We then perform a comprehensive set of experiments using different augmentations and parameters to evaluate the effectiveness of various SSL methods, namely SimCRL, BYOL, and SwAV, for ECG representation learning, where we observe the best performance achieved by SwAV. Furthermore, our analysis shows that SSL methods achieve highly competitive results to those achieved by supervised state-of-the-art methods. To further assess the performance of these methods on both In-Distribution (ID) and Out-of-Distribution (OOD) ECG data, we conduct cross-dataset training and testing experiments. Our comprehensive experiments show almost identical results when comparing ID and OOD schemes, indicating that SSL techniques can learn highly effective representations that generalize well across different OOD datasets. This finding can have major implications for ECG-based arrhythmia detection. Lastly, to further analyze our results, we perform detailed per-disease studies on the performance of the SSL methods on the three datasets.
翻訳日:2023-04-14 14:44:40 公開日:2023-04-13
# 原子位置の急激な変化後の動的原子壁カシミール・ポルダー効果

Dynamical atom-wall Casimir-Polder effect after a sudden change of the atomic position ( http://arxiv.org/abs/2304.06424v1 )

ライセンス: Link先を確認
Antonio Noto, Roberto Passante, Lucia Rizzuto and Salvatore Spagnolo(参考訳) 本研究では,原子と導電壁の間の動力学的カシミール・ポルダー力について,部分的に服を着た状態から系の時間発展過程について検討する。 この状態は、プレートに対する原子位置の急激な変化によって得られる。 時間依存的な原子板カシミール・ポルダー力を評価するために、フィールドと原子作用素に対するハイゼンベルク方程式を反復的手法で解く。 動的原子プレートカシミール・ポルダー相互作用は時間的振動を示し,時間的・原子壁距離によって誘引的・反発的であることがわかった。 また, 電場や原子ハミルトニアンなどの大域観測器の時間依存性についても検討し, 相互作用エネルギーを平衡配置に導く力学過程の興味深い特徴について考察した。

We investigate the dynamical Casimir-Polder force between an atom and a conducting wall during the time evolution of the system from a partially dressed state. This state is obtained by a sudden change of the atomic position with respect to the plate. To evaluate the time-dependent atom-plate Casimir-Polder force we solve the Heisenberg equations for the field and atomic operators by an iterative technique. We find that the dynamical atom-plate Casimir-Polder interaction exhibits oscillation in time, and can be attractive or repulsive depending on time and the atom-wall distance. We also investigate the time dependence of global observables, such as the field and atomic Hamiltonians, and discuss some interesting features of the dynamical process bringing the interaction energy to the equilibrium configuration.
翻訳日:2023-04-14 14:44:15 公開日:2023-04-13
# ビデオ中の未知物体の3次元モデル推定による追跡

Tracking by 3D Model Estimation of Unknown Objects in Videos ( http://arxiv.org/abs/2304.06419v1 )

ライセンス: Link先を確認
Denys Rozumnyi, Jiri Matas, Marc Pollefeys, Vittorio Ferrari, Martin R. Oswald(参考訳) ほとんどのモデルフリーなビジュアルオブジェクト追跡手法は、トラッキングタスクをビデオフレーム毎に2次元セグメンテーションまたはバウンディングボックスによって与えられるオブジェクト位置推定として定式化する。 この表現は限定的であり、代わりに各ビデオフレームのテクスチャード3d形状と6dofポーズを明示的なオブジェクト表現で2d追跡をガイドし改善することを提案している。 我々の表現は、ある点が見えないフレームを含む全てのビデオフレームのオブジェクト上の全ての3Dポイント間の複雑な長期密度対応問題に取り組む。 これを実現するために、これまで追跡に使われなかった微分可能レンダリングにより、入力されたビデオフレームを可能な限り再レンダリングすることにより、推定を行う。 提案手法は, 最適な3次元形状, テクスチャ, 6dofポーズを推定する新しい損失関数を最小化する。 主に剛体オブジェクトを持つ3つの異なるデータセット上での2次元セグメンテーション追跡の最先端を改善する。

Most model-free visual object tracking methods formulate the tracking task as object location estimation given by a 2D segmentation or a bounding box in each video frame. We argue that this representation is limited and instead propose to guide and improve 2D tracking with an explicit object representation, namely the textured 3D shape and 6DoF pose in each video frame. Our representation tackles a complex long-term dense correspondence problem between all 3D points on the object for all video frames, including frames where some points are invisible. To achieve that, the estimation is driven by re-rendering the input video frames as well as possible through differentiable rendering, which has not been used for tracking before. The proposed optimization minimizes a novel loss function to estimate the best 3D shape, texture, and 6DoF pose. We improve the state-of-the-art in 2D segmentation tracking on three different datasets with mostly rigid objects.
翻訳日:2023-04-14 14:44:03 公開日:2023-04-13
# 予測プロセスモニタリングにおける機械学習の不確かさの定量化と説明:運用研究の展望

Quantifying and Explaining Machine Learning Uncertainty in Predictive Process Monitoring: An Operations Research Perspective ( http://arxiv.org/abs/2304.06412v1 )

ライセンス: Link先を確認
Nijat Mehdiyev, Maxim Majlatow and Peter Fettke(参考訳) 本稿では,情報システムと人工知能を効果的に統合し,業務分野における意思決定プロセスを強化する総合的多段階機械学習手法を提案する。 提案手法は, 重要な生産パラメータに対するデータ駆動推定の無視, モデル不確かさを考慮せずに点予測を排他的に生成すること, および不確実性の原因に関する説明の欠如など, 既存のソリューションの共通的限界に十分対処する。 本手法では, 時間間隔予測にQuantile Regression Forestsを用い, 局所およびグローバルなSHapley Additive Explanationsの変種と併用して, 予測プロセス監視問題について検討した。 提案手法の実用性は実世界の生産計画ケーススタディを通じて実証され, 意思決定手順の洗練における規範分析の可能性を強調した。 本稿では,これらの課題に対処する上での命令をアクティベートし,豊富なデータ資源を十分に活用する。

This paper introduces a comprehensive, multi-stage machine learning methodology that effectively integrates information systems and artificial intelligence to enhance decision-making processes within the domain of operations research. The proposed framework adeptly addresses common limitations of existing solutions, such as the neglect of data-driven estimation for vital production parameters, exclusive generation of point forecasts without considering model uncertainty, and lacking explanations regarding the sources of such uncertainty. Our approach employs Quantile Regression Forests for generating interval predictions, alongside both local and global variants of SHapley Additive Explanations for the examined predictive process monitoring problem. The practical applicability of the proposed methodology is substantiated through a real-world production planning case study, emphasizing the potential of prescriptive analytics in refining decision-making procedures. This paper accentuates the imperative of addressing these challenges to fully harness the extensive and rich data resources accessible for well-informed decision-making.
翻訳日:2023-04-14 14:43:46 公開日:2023-04-13
# #BlackLivesMatter and Racism in life expectancy, Poverty, Educational Attainment and Race compositions: State Analysis of 2020 Tweets in the USA

#BlackLivesMatter and Racism in Life Expectancy, Poverty, Educational Attainment, and Race Compositions: State Analysis of 2020 Tweets in the USA ( http://arxiv.org/abs/2304.06480v1 )

ライセンス: Link先を確認
Kalpdrum Passi, Shervin Assari, Amir Hossein Zolfaghari(参考訳) 2020年は、主にパンデミック年として知られる挑戦的な年だった。 しかし、ジョージ・フロイドが殺害された有名な出来事は多くの人間の心を壊し、ソーシャルメディアや街頭でも抗議した。 本研究では,「BlackLivesMatter」というハッシュタグと,2020年のジョージ・フロイドの死に関する反論について,Twitter上で調査した。 米国における抗議活動の広範な余波に基づいて、異なるグループのツイートレートと以前調査した統計を比較するための地域分析を検討した。 その目的は、人種差別のコンテンツが平均寿命、貧困、教育とどのように相関しているかを検討することである。 オンラインカラーベースコンテンツと物理世界指標との間に有意な相関が認められた。

The year 2020 was a challenging year known mainly as the pandemic year. However, the notable event of George Floyd's killing broke many humans' hearts and made them protest on social media and the streets as well. In this research, we studied the hashtag "BlackLivesMatter," and some of its adversary contentions regarding George Floyd's demise in 2020 on Twitter. Based on the extensive aftermath of protests in the United States, we considered an area analysis to compare tweet rates in different groups to some previously studied statistics. The purpose is to investigate how racism content is correlated with life expectancy, poverty, and education. Findings revealed a significant relationship between online color-based contents and some physical world indicators.
翻訳日:2023-04-14 14:36:55 公開日:2023-04-13
# 強化学習量子局所探索

Reinforcement Learning Quantum Local Search ( http://arxiv.org/abs/2304.06473v1 )

ライセンス: Link先を確認
Chen-Yu Liu, Hsi-Sheng Goan(参考訳) 量子局所探索(quantum Local Search, QLS)は、量子ハードウェア上の局所探索を通じて大規模な組合せ最適化問題に対処するために、小規模の量子コンピュータを利用する有望なアプローチである。 しかし、QLSで解くサブプロブレムのランダムな選択は効率的ではないかもしれない。 本研究では,ランダム選択を超えて,qlsのサブプロブレム選択を改善するエージェントを訓練するための強化学習(rl)手法を提案する。 その結果, RL エージェントは完全連結乱数イジング問題に対する QLS の平均近似比を効果的に向上させ, ノイズ中間規模量子 (NISQ) アルゴリズムと RL 手法を組み合わせる可能性を示している。 本研究は、最適化タスクの性能を高めるために、RLを量子コンピューティングに統合するための有望な方向を開く。

Quantum Local Search (QLS) is a promising approach that employs small-scale quantum computers to tackle large combinatorial optimization problems through local search on quantum hardware, starting from an initial point. However, the random selection of the sub-problem to solve in QLS may not be efficient. In this study, we propose a reinforcement learning (RL) based approach to train an agent for improved subproblem selection in QLS, beyond random selection. Our results demonstrate that the RL agent effectively enhances the average approximation ratio of QLS on fully-connected random Ising problems, indicating the potential of combining RL techniques with Noisy Intermediate-scale Quantum (NISQ) algorithms. This research opens a promising direction for integrating RL into quantum computing to enhance the performance of optimization tasks.
翻訳日:2023-04-14 14:36:18 公開日:2023-04-13
# 空間的に2周期ハミルトニアンを持つ連続時間量子ウォークの極限分布

Limit distribution of a continuous-time quantum walk with a spatially 2-periodic Hamiltonian ( http://arxiv.org/abs/2304.06464v1 )

ライセンス: Link先を確認
Takuya Machida(参考訳) 連続時間量子ウォークを$\mathbb{Z}=\left\{0,\pm 1,\pm 2,\ldots\right\}$に焦点をあてて、量子ウォーカーが位置で観測される確率分布を分析する。 ウォーカーは局所的な状態で離陸し、そのシステムは空間的に周期的なハミルトニアンによって操作される。 その結果、非対称性の確率分布が分かる。 長時間の挙動を捉えるために、また、長期極限定理を見つけ、極限分布が対称性密度関数を持つことにも気付く。

Focusing on a continuous-time quantum walk on $\mathbb{Z}=\left\{0,\pm 1,\pm 2,\ldots\right\}$, we analyze a probability distribution with which the quantum walker is observed at a position. The walker launches off at a localized state and its system is operated by a spatially periodic Hamiltonian. As a result, we see an asymmetry probability distribution. To catch a long-time behavior, we also try to find a long-time limit theorem and realize that the limit distribution holds a symmetry density function.
翻訳日:2023-04-14 14:35:13 公開日:2023-04-13
# 自己監督型視覚表現学習のための多モードオンライン知識蒸留

Multi-Mode Online Knowledge Distillation for Self-Supervised Visual Representation Learning ( http://arxiv.org/abs/2304.06461v1 )

ライセンス: Link先を確認
Kaiyou Song, Jin Xie, Shan Zhang, Zimeng Luo(参考訳) 自己教師付き学習(SSL)は視覚表現学習において顕著な進歩を遂げている。 SSLと知識蒸留(SSL-KD)を組み合わせて、小型モデルの表現学習性能を高める研究もある。 本研究では,自己教師付き視覚表現学習を促進するマルチモードオンライン知識蒸留法(mokd)を提案する。 静的事前訓練された教師から学生に知識を伝達する既存のSSL-KD法とは異なり、MOKDでは2つの異なるモデルが自己指導的な方法で協調的に学習する。 具体的には、mokdは自己蒸留モードと相互蒸留モードの2つの蒸留モードからなる。 自己蒸留は各モデルに対して独立して自己教師付き学習を行い、相互蒸留は異なるモデル間の知識相互作用を実現する。 クロス蒸留では,異なるモデル間の意味的特徴アライメントを強化するために,クロスアテンション特徴探索戦略を提案する。 その結果、2つのモデルは相互に知識を吸収し、表現学習性能を高めることができる。 異なるバックボーンとデータセットの広範な実験結果から、2つの異種モデルがMOKDの恩恵を受け、独立に訓練されたベースラインよりも優れていることが示された。 さらに、MOKDは学生モデルと教師モデルの両方で既存のSSL-KDメソッドよりも優れている。

Self-supervised learning (SSL) has made remarkable progress in visual representation learning. Some studies combine SSL with knowledge distillation (SSL-KD) to boost the representation learning performance of small models. In this study, we propose a Multi-mode Online Knowledge Distillation method (MOKD) to boost self-supervised visual representation learning. Different from existing SSL-KD methods that transfer knowledge from a static pre-trained teacher to a student, in MOKD, two different models learn collaboratively in a self-supervised manner. Specifically, MOKD consists of two distillation modes: self-distillation and cross-distillation modes. Among them, self-distillation performs self-supervised learning for each model independently, while cross-distillation realizes knowledge interaction between different models. In cross-distillation, a cross-attention feature search strategy is proposed to enhance the semantic feature alignment between different models. As a result, the two models can absorb knowledge from each other to boost their representation learning performance. Extensive experimental results on different backbones and datasets demonstrate that two heterogeneous models can benefit from MOKD and outperform their independently trained baseline. In addition, MOKD also outperforms existing SSL-KD methods for both the student and teacher models.
翻訳日:2023-04-14 14:35:00 公開日:2023-04-13
# Masakhane-Afrisenti at SemEval-2023 Task 12: Sentiment Analysis using Afro-centric Language Models and Adapters for Low-resource African Languages

Masakhane-Afrisenti at SemEval-2023 Task 12: Sentiment Analysis using Afro-centric Language Models and Adapters for Low-resource African Languages ( http://arxiv.org/abs/2304.06459v1 )

ライセンス: Link先を確認
Israel Abebe Azime, Sana Sabah Al-Azzawi, Atnafu Lambebo Tonja, Iyanuoluwa Shode, Jesujoba Alabi, Ayodele Awokoya, Mardiyyah Oduwole, Tosin Adewumi, Samuel Fanijo, Oyinkansola Awosan, Oreen Yousuf(参考訳) afrisenti-semeval shared task 12 of semeval-2023 (英語) このタスクは、アフリカ12言語で単言語感情分類(サブタスクa)、多言語感情分類(サブタスクb)、ゼロショット感情分類(タスクc)を行うことを目的としている。 サブタスクaでは,古典的機械学習分類器,afro中心言語モデル,言語固有モデルを用いて実験を行った。 タスクBでは、タスク内の多くの言語をサポートする多言語事前訓練言語モデルを微調整する。 タスクCでは、ターゲット言語における単言語テキストを効果的にゼロショット転送に活用するパラメータ効率のよいAdapterアプローチを用いた。 その結果, 事前学習したアフロ中心言語モデルを用いることで, 低資源アフリカ言語の性能が向上することが示唆された。 また,ゼロショットタスク用のアダプタを用いた実験を行い,限られたリソースのアダプタを用いて有望な結果が得られることを示唆した。

AfriSenti-SemEval Shared Task 12 of SemEval-2023. The task aims to perform monolingual sentiment classification (sub-task A) for 12 African languages, multilingual sentiment classification (sub-task B), and zero-shot sentiment classification (task C). For sub-task A, we conducted experiments using classical machine learning classifiers, Afro-centric language models, and language-specific models. For task B, we fine-tuned multilingual pre-trained language models that support many of the languages in the task. For task C, we used we make use of a parameter-efficient Adapter approach that leverages monolingual texts in the target language for effective zero-shot transfer. Our findings suggest that using pre-trained Afro-centric language models improves performance for low-resource African languages. We also ran experiments using adapters for zero-shot tasks, and the results suggest that we can obtain promising results by using adapters with a limited amount of resources.
翻訳日:2023-04-14 14:34:41 公開日:2023-04-13
# 反双極子ボース-アインシュタイン凝縮体の超固体スタック

Supersolid Stacks in Antidipolar Bose-Einstein Condensates ( http://arxiv.org/abs/2304.06456v1 )

ライセンス: Link先を確認
Koushik Mukherjee, Mikael Nilsson Tengstrand, Tiziano Arnone Cardinale, Stephanie M. Reimann(参考訳) 反双極性凝縮体において, 希薄超流動を介し, 積層された円盤状超流動液滴を形成する新しい超固体構造を理論的に検討した。 通常の双極子超流動層, 超固体層, 孤立層状円盤状液滴の領域を実験的に実現可能なトラップ電位で同定し, 粒子数および散乱長の相図を決定する。 超流動-超固体相転移におけるボゴリューボフ励起スペクトルの研究を行い、遷移点が2つの最下層モードの縮退に関連していることが判明した。 また,超固体スタックの動的生成についても,相転移の散乱長を下げることで検討した。 さらに,渦線浸透が相転移に及ぼす影響について検討した。 渦線の存在により超固体領域はより弱い接触相互作用へと移動することが判明した。 我々の詳細な数値シミュレーションでは, 反双極子凝縮物は, 実験的に到達可能なパラメータ領域内でこのような超固体スタックを生成できることが示されている。

We theoretically investigate a novel supersolid structure taking the form of stacked, disk-shaped superfluid droplets connected via a dilute superfluid, in an antidipolar condensate. A phase diagram is determined for varying the particle number and scattering length, identifying the regions of a regular dipolar superfluid, supersolid stacks, and isolated stacked disk-shaped droplets in an experimentally realizable trapping potential. The collective Bogoliubov excitation spectrum across the superfluid-supersolid phase transition is studied, and the transition point is found to be associated with the breaking of the degeneracy of the two lowest-lying modes. The dynamical generation of the supersolid stacks is also investigated by ramping down the scattering length across the phase transition. Moreover, we have studied the impact of vortex-line penetration on the phase transition. We have found that the presence of a vortex line causes the supersolid region to move towards weaker contact interactions. Our detailed numerical simulations highlight that an antidipolar condensate can create such supersolid stacks within an experimentally reachable parameter regime.
翻訳日:2023-04-14 14:34:20 公開日:2023-04-13
# CABM:大入力単一画像超解像ネットワークのためのコンテンツ対応ビットマッピング

CABM: Content-Aware Bit Mapping for Single Image Super-Resolution Network with Large Input ( http://arxiv.org/abs/2304.06454v1 )

ライセンス: Link先を確認
Senmao Tian, Ming Lu, Jiaming Liu, Yandong Guo, Yurong Chen, Shunli Zhang(参考訳) 高解像度表示装置の開発に伴い、高解像度(4K/8K)の2Kのような大容量入力を超解答する必要がある。 計算とメモリのコストを削減するため、現在の手法ではまず大きな入力をローカルパッチに分割し、次にSRパッチを出力にマージする。 これらのメソッドはパッチ毎にサブネットを適応的に割り当てる。 量子化はネットワーク加速にとって非常に重要な技術であり、サブネットの設計に使われてきた。 現在の方法は、各層のプロポーラビットを決定するためにMPPビットセレクタを訓練する。 しかし、訓練のために一様にサブネットをサンプリングし、単純なサブネットを過度に適合させ、複雑なサブネットを不適合にする。 そのため、訓練されたビットセレクタは最適なビットを決定することができない。 これとは別に、ビットセレクタはSRネットワークの各層に追加のコストをもたらす。 そこで,本研究では,コンテンツ認識型ビットマッピング (cabm) という新しい手法を提案する。 CABMはまた、トレーニング中に各レイヤのビットセレクタも学習する。 トレーニング後,入力パッチのエッジ情報と各レイヤのビットの関係を解析する。 エッジ情報は,選択したビットに対して有効な指標となり得ることを観察する。 そこで我々は,パッチのエッジスコアを各レイヤのビットにマッピングするEdge-to-Bitルックアップテーブルを構築するための戦略を設計する。 SRネットワークのビット構成は、すべてのレイヤのルックアップテーブルによって決定できる。 我々の戦略はビット構成が良くなり、より効率的な混合精度ネットワークが得られる。 本手法の一般化能力を示すための詳細な実験を行った。 コードはリリースされます。

With the development of high-definition display devices, the practical scenario of Super-Resolution (SR) usually needs to super-resolve large input like 2K to higher resolution (4K/8K). To reduce the computational and memory cost, current methods first split the large input into local patches and then merge the SR patches into the output. These methods adaptively allocate a subnet for each patch. Quantization is a very important technique for network acceleration and has been used to design the subnets. Current methods train an MLP bit selector to determine the propoer bit for each layer. However, they uniformly sample subnets for training, making simple subnets overfitted and complicated subnets underfitted. Therefore, the trained bit selector fails to determine the optimal bit. Apart from this, the introduced bit selector brings additional cost to each layer of the SR network. In this paper, we propose a novel method named Content-Aware Bit Mapping (CABM), which can remove the bit selector without any performance loss. CABM also learns a bit selector for each layer during training. After training, we analyze the relation between the edge information of an input patch and the bit of each layer. We observe that the edge information can be an effective metric for the selected bit. Therefore, we design a strategy to build an Edge-to-Bit lookup table that maps the edge score of a patch to the bit of each layer during inference. The bit configuration of SR network can be determined by the lookup tables of all layers. Our strategy can find better bit configuration, resulting in more efficient mixed precision networks. We conduct detailed experiments to demonstrate the generalization ability of our method. The code will be released.
翻訳日:2023-04-14 14:34:00 公開日:2023-04-13
# SepicNet:3次元形状の曲線のパラメトリック推定によるシャープエッジの回復

SepicNet: Sharp Edges Recovery by Parametric Inference of Curves in 3D Shapes ( http://arxiv.org/abs/2304.06531v1 )

ライセンス: Link先を確認
Kseniya Cherenkova, Elona Dupont, Anis Kacem, Ilya Arzhannikov, Gleb Gusev and Djamila Aouada(参考訳) オブジェクトをデジタル化し、それらの3Dモデルを作成する技術としての3Dスキャンは、多くの分野や領域で使われている。 3dスキャンの品質は3dスキャナの技術的な特性に依存するが、一般的な欠点は細部を滑らかにしたり、オブジェクトの端を削ったりすることである。 3次元形状のシャープエッジを原始曲線として検出・パラメータ化するための新しいディープネットワークであるsepicnetを提案する。 ネットワークのエンドツーエンドなトレーニングを可能にするために,曲線フィッティングを微分可能な方法で定式化する。 我々は,一様サンプリングよりも鋭い特徴を捉える適応点雲サンプリング手法を開発した。 実験は、新しく導入された50k3Dスキャンの大規模データセットを用いて行われ、それぞれのパラメトリックCADモデルから鋭いエッジアノテーションが抽出され、最先端の手法よりも大幅に改善された。

3D scanning as a technique to digitize objects in reality and create their 3D models, is used in many fields and areas. Though the quality of 3D scans depends on the technical characteristics of the 3D scanner, the common drawback is the smoothing of fine details, or the edges of an object. We introduce SepicNet, a novel deep network for the detection and parametrization of sharp edges in 3D shapes as primitive curves. To make the network end-to-end trainable, we formulate the curve fitting in a differentiable manner. We develop an adaptive point cloud sampling technique that captures the sharp features better than uniform sampling. The experiments were conducted on a newly introduced large-scale dataset of 50k 3D scans, where the sharp edge annotations were extracted from their parametric CAD models, and demonstrate significant improvement over state-of-the-art methods.
翻訳日:2023-04-14 14:27:32 公開日:2023-04-13
# パワーセーキングは訓練されたエージェントにとって予測可能で予測可能である

Power-seeking can be probable and predictive for trained agents ( http://arxiv.org/abs/2304.06528v1 )

ライセンス: Link先を確認
Victoria Krakovna and Janos Kramar(参考訳) 電力探究行動は先進的なAIのリスクの主な原因であるが、この現象に関する理論的理解は比較的限られている。 報奨関数のパワーサーキングインセンティブを示す既存の理論的結果に基づいて、トレーニングプロセスがパワーサーキングインセンティブにどのように影響するかを検証し、いくつかの簡易な仮定の下で訓練されたエージェントを保留する可能性が高いことを示す。 我々は、トレーニング互換の目標セット(トレーニング報酬と整合した目標セット)を正式に定義し、トレーニングされたエージェントがこのセットから目標を学習すると仮定する。 訓練されたエージェントが、新しい状況でシャットダウンまたはシャットダウンを避ける選択に直面している場合、エージェントがシャットダウンを避ける可能性が高いことを示す。 したがって, パワー・シーキングのインセンティブは(訓練されたエージェントに対して起こるように)可能であり, 予測可能であること(新たな状況において望ましくない行動を予測できる)を示す。

Power-seeking behavior is a key source of risk from advanced AI, but our theoretical understanding of this phenomenon is relatively limited. Building on existing theoretical results demonstrating power-seeking incentives for most reward functions, we investigate how the training process affects power-seeking incentives and show that they are still likely to hold for trained agents under some simplifying assumptions. We formally define the training-compatible goal set (the set of goals consistent with the training rewards) and assume that the trained agent learns a goal from this set. In a setting where the trained agent faces a choice to shut down or avoid shutdown in a new situation, we prove that the agent is likely to avoid shutdown. Thus, we show that power-seeking incentives can be probable (likely to arise for trained agents) and predictive (allowing us to predict undesirable behavior in new situations).
翻訳日:2023-04-14 14:27:17 公開日:2023-04-13
# 信号定式化のない信号識別

Signal identification without signal formulation ( http://arxiv.org/abs/2304.06522v1 )

ライセンス: Link先を確認
Yoh-ichi Mototake and Y-h. Taguchi(参考訳) 信号とノイズがある場合、物理学者はそれらをモデル化して信号を見つけようとするが、統計学者は信号を特定するためにノイズをモデル化しようとする。 本研究では,物理データの信号検出に関する統計学者の考え方を,信号のモデル化なしに小型サンプルと高次元で適用した。 ノイズであれ信号であれ、自然界のほとんどのデータは力学系によって生成されると仮定されるため、これらの生成過程は本質的に区別されない。 このようなシステムによって生成された信号変数間のノイズ変数の実用的な定義には,力学系の相関長とサンプル数が非常に重要である。 短期相関を持つ変数はサンプル数が減少するにつれて正規分布に早く到達するため、これらの変数は ``noise-like' 変数と見なされるが、反対の性質を持つ変数は ``signal-like' 変数である。 高次元の小型サンプルのデータには正規性試験は有効ではない。 そこで,ノイズ変数の特性,すなわち,変数が雑音である確率のヒストグラムの均一性に基づいて,雑音をモデル化した。 サンプル数の減少に応じてヒストグラムの構造変化から信号変数を検出する手法を考案した。 本手法は,相関長の異なる時系列データを生成するグローバル結合マップによって生成されたデータに適用し,高次元の小型試料の典型的な静的データである遺伝子発現データに適用し,信号変数の検出に成功した。 さらに,遺伝子発現データが生成モデルとして動的システムを持つ可能性があるという仮定を検証し,信号抽出の結果と互換性があることを見出した。

When there are signals and noises, physicists try to identify signals by modeling them, whereas statisticians oppositely try to model noise to identify signals. In this study, we applied the statisticians' concept of signal detection of physics data with small-size samples and high dimensions without modeling the signals. Most of the data in nature, whether noises or signals, are assumed to be generated by dynamical systems; thus, there is essentially no distinction between these generating processes. We propose that the correlation length of a dynamical system and the number of samples are crucial for the practical definition of noise variables among the signal variables generated by such a system. Since variables with short-term correlations reach normal distributions faster as the number of samples decreases, they are regarded to be ``noise-like'' variables, whereas variables with opposite properties are ``signal-like'' variables. Normality tests are not effective for data of small-size samples with high dimensions. Therefore, we modeled noises on the basis of the property of a noise variable, that is, the uniformity of the histogram of the probability that a variable is a noise. We devised a method of detecting signal variables from the structural change of the histogram according to the decrease in the number of samples. We applied our method to the data generated by globally coupled map, which can produce time series data with different correlation lengths, and also applied to gene expression data, which are typical static data of small-size samples with high dimensions, and we successfully detected signal variables from them. Moreover, we verified the assumption that the gene expression data also potentially have a dynamical system as their generation model, and found that the assumption is compatible with the results of signal extraction.
翻訳日:2023-04-14 14:26:58 公開日:2023-04-13
# 全方位超解像における投影の包括的比較

A Comprehensive Comparison of Projections in Omnidirectional Super-Resolution ( http://arxiv.org/abs/2304.06497v1 )

ライセンス: Link先を確認
Huicheng Pi, Senmao Tian, Ming Lu, Jiaming Liu, Yandong Guo, Shunli Zhang(参考訳) スーパーリゾリューション(SR)はここ数年で研究の注目を集めている。 ディープニューラルネットワーク(DNN)の開発に伴い、多くのDNNに基づく超解像法が提案されている。 これらの手法の多くは通常のフレームを対象としているが、全方位フレームの超解像に関する研究はほとんどない。 これらの研究において、全方向のフレームを等角射影(erp)により3次元球面から2次元平面に投影する。 ERPは投射に広く用いられているが、極付近では強い投射歪みがある。 現在のDNNベースのSR法では2D畳み込みモジュールが使われており、通常のグリッドに適している。 本稿では,DNNの性能に異なるプロジェクション手法が大きな影響を与えることを明らかにする。 本研究では,全方位超解像における投影の包括的比較を行う。 異なる投影手法のSR結果を比較した。 実験の結果,最小歪みのEqui-Angular立方体地図投影法(EAC)は,他の投影法と比較して,WS-PSNRで最高の結果が得られることがわかった。 コードとデータはリリースされる。

Super-Resolution (SR) has gained increasing research attention over the past few years. With the development of Deep Neural Networks (DNNs), many super-resolution methods based on DNNs have been proposed. Although most of these methods are aimed at ordinary frames, there are few works on super-resolution of omnidirectional frames. In these works, omnidirectional frames are projected from the 3D sphere to a 2D plane by Equi-Rectangular Projection (ERP). Although ERP has been widely used for projection, it has severe projection distortion near poles. Current DNN-based SR methods use 2D convolution modules, which is more suitable for the regular grid. In this paper, we find that different projection methods have great impact on the performance of DNNs. To study this problem, a comprehensive comparison of projections in omnidirectional super-resolution is conducted. We compare the SR results of different projection methods. Experimental results show that Equi-Angular cube map projection (EAC), which has minimal distortion, achieves the best result in terms of WS-PSNR compared with other projections. Code and data will be released.
翻訳日:2023-04-14 14:25:32 公開日:2023-04-13
# 多モード線形光ネットワークの特性評価

Characterization of multi-mode linear optical networks ( http://arxiv.org/abs/2304.06486v1 )

ライセンス: Link先を確認
Francesco Hoch, Taira Giordani, Nicol\`o Spagnolo, Andrea Crespi, Roberto Osellame and Fabio Sciarrino(参考訳) マルチモード光干渉計は、光学処理を利用したいくつかの量子情報スキームの実装において最も有効なプラットフォームである。 例えば、量子通信、センシング、計算、光学ニューラルネットワーク、光学貯水池計算、複雑な物理システムのシミュレーションなどである。 このようなルーチンの実現には、デバイスによって実行される操作を定義するパラメータの高レベルの制御と調整性が必要である。 この要求は、かなりの量の可変パラメータを埋め込む段階的なより大きな回路の実装を可能にする統合フォトニック技術における最近の技術改善に照らして、特に重要となる。 本研究では,不平衡損失や入力・出力回収段階の位相不安定など,物理実験で一般的に発生する不完全性の存在下での光回路のキャラクタリゼーションのための効率的な手順を定式化する。 このアルゴリズムは、内部構造やエンコーディングについて強い仮定をすることなく、光学干渉計を表す転送行列を再構成することを目的としている。 我々は,本手法の有効性を,可変集積フォトニック回路によって定義された実験的なシナリオで示し,本手法の有効性とロバスト性を示す。 本研究は, バルク構成と統合構成の両方に基づいて, 広い範囲の光学装置に適用できることを示す。

Multi-mode optical interferometers represent the most viable platforms for the successful implementation of several quantum information schemes that take advantage of optical processing. Examples range from quantum communication, sensing and computation, including optical neural networks, optical reservoir computing or simulation of complex physical systems. The realization of such routines requires high levels of control and tunability of the parameters that define the operations carried out by the device. This requirement becomes particularly crucial in light of recent technological improvements in integrated photonic technologies, which enable the implementation of progressively larger circuits embedding a considerable amount of tunable parameters. In this work, we formulate efficient procedures for the characterization of optical circuits in the presence of imperfections that typically occur in physical experiments, such as unbalanced losses and phase instabilities in the input and output collection stages. The algorithm aims at reconstructing the transfer matrix that represents the optical interferometer without making any strong assumptions about its internal structure and encoding. We show the viability of this approach in an experimentally relevant scenario, defined by a tunable integrated photonic circuit, and we demonstrate the effectiveness and robustness of our method. Our findings can find application in a wide range of optical setups, based both on bulk and integrated configurations.
翻訳日:2023-04-14 14:25:07 公開日:2023-04-13
# 自動車生産におけるリアルタイムホイール検出とリム分類

Real-Time Wheel Detection and Rim Classification in Automotive Production ( http://arxiv.org/abs/2304.06560v1 )

ライセンス: Link先を確認
Roman Stanek, Tomas Kerepecky, Adam Novozamsky, Filip Sroubek, Barbara Zitova, Jan Flusser(参考訳) 本稿では,従来のコンピュータビジョンとディープラーニング技術を組み合わせたリアルタイムの自動リム検出・分類・検査手法を提案する。 各自動車組立ラインの最後には、製造車両の潜在的な欠陥を特定するための品質管理プロセスが実行される。 一般的なが危険な欠陥は、例えば、誤って装着されたリムに関係している。 日常的な検査は主に、疲労や気晴らしなどの要因によって悪影響を受ける人間の作業員によって行われる。 我々は1台の車の四輪が大きさとタイプで一致しているかどうかを検証する新しいプロトタイプを設計した。 さらに,車輪,リム,ボルト検出のためのCWD1500,WHEEL22,RB600の3つの総合的なオープンソースデータベースと,科学的目的に使用可能なリム分類を提案する。

This paper proposes a novel approach to real-time automatic rim detection, classification, and inspection by combining traditional computer vision and deep learning techniques. At the end of every automotive assembly line, a quality control process is carried out to identify any potential defects in the produced cars. Common yet hazardous defects are related, for example, to incorrectly mounted rims. Routine inspections are mostly conducted by human workers that are negatively affected by factors such as fatigue or distraction. We have designed a new prototype to validate whether all four wheels on a single car match in size and type. Additionally, we present three comprehensive open-source databases, CWD1500, WHEEL22, and RB600, for wheel, rim, and bolt detection, as well as rim classification, which are free-to-use for scientific purposes.
翻訳日:2023-04-14 14:18:19 公開日:2023-04-13
# LLMはタスク指向対話に必要なすべてか?

Are LLMs All You Need for Task-Oriented Dialogue? ( http://arxiv.org/abs/2304.06556v1 )

ライセンス: Link先を確認
Vojt\v{e}ch Hude\v{c}ek and Ond\v{r}ej Du\v{s}ek(参考訳) インストラクション調整された大規模言語モデル(llms)は最近、会話を通じてユーザと対話できることで大きな人気を得た。 本研究では,マルチターンタスクを完了し,既存のタスク指向対話ベンチマークの文脈で外部データベースと対話する能力を評価することを目的とする。 明示的な信念状態追跡では、LLMは特定のタスク固有モデルに比べて性能が劣ることを示す。 それでも、正しいスロット値が与えられた場合、対話を成功まで導く能力を示す。 さらに、この能力は真の信念状態分布やドメイン内例へのアクセスによって改善される。

Instructions-tuned Large Language Models (LLMs) gained recently huge popularity thanks to their ability to interact with users through conversation. In this work we aim to evaluate their ability to complete multi-turn tasks and interact with external databases in the context of established task-oriented dialogue benchmarks. We show that for explicit belief state tracking, LLMs underperform compared to specialized task-specific models. Nevertheless, they show ability to guide the dialogue to successful ending if given correct slot values. Furthermore this ability improves with access to true belief state distribution or in-domain examples.
翻訳日:2023-04-14 14:18:05 公開日:2023-04-13
# UAVネットワークにおける通信コストと省エネルギーのための分散フェデレーション学習手法

Decentralized federated learning methods for reducing communication cost and energy consumption in UAV networks ( http://arxiv.org/abs/2304.06551v1 )

ライセンス: Link先を確認
Deng Pan, Mohammad Ali Khoshkholghi, Toktam Mahmoodi(参考訳) 無人航空機(UAV)やドローンは、商品の配送、リアルタイム道路交通のマッピング、汚染の監視など、現代のスマートシティにおいて多くの役割を果たす。 これらの機能を実行するドローンの能力は、しばしば機械学習技術のサポートを必要とする。 しかし、ドローンの従来の機械学習モデルは、データのプライバシー問題、通信コスト、エネルギー制限に遭遇する。 分散機械学習の新たなアプローチであるFederated Learningは,これらの問題に対処するための優れたソリューションだ。 federated learning (fl)は、ドローンが生のデータを送信することなくローカルモデルを訓練できる。 しかし、既存のFLは、UAVの訓練されたモデルパラメータを集約するために中央サーバーを必要とする。 中央サーバの障害は、全体的なトレーニングに大きな影響を与える可能性がある。 本稿では,uavネットワーク(dfl-un)における分散フェデレーション学習の既存アーキテクチャに基づき,分散型flの一意的な集約手法を付加し,comutative flとalteror flの2つの集約手法を提案する。 これら2つの方法は,地域訓練エポック,地域コミュニケーション,グローバルコミュニケーションの数を制御することで,エネルギー消費と通信コストを効果的に制御することができる。 提案手法のシミュレーション結果は,2つのベンチマーク手法(例えば,標準機械学習トレーニングと標準単集合サーバトレーニング)と比較して,アーキテクチャの実現可能性と効率性を検証するためにも提示される。 シミュレーションの結果,提案手法は,運用安定性,エネルギー消費,通信コストにおいて,ベンチマーク手法を上回っていることがわかった。

Unmanned aerial vehicles (UAV) or drones play many roles in a modern smart city such as the delivery of goods, mapping real-time road traffic and monitoring pollution. The ability of drones to perform these functions often requires the support of machine learning technology. However, traditional machine learning models for drones encounter data privacy problems, communication costs and energy limitations. Federated Learning, an emerging distributed machine learning approach, is an excellent solution to address these issues. Federated learning (FL) allows drones to train local models without transmitting raw data. However, existing FL requires a central server to aggregate the trained model parameters of the UAV. A failure of the central server can significantly impact the overall training. In this paper, we propose two aggregation methods: Commutative FL and Alternate FL, based on the existing architecture of decentralised Federated Learning for UAV Networks (DFL-UN) by adding a unique aggregation method of decentralised FL. Those two methods can effectively control energy consumption and communication cost by controlling the number of local training epochs, local communication, and global communication. The simulation results of the proposed training methods are also presented to verify the feasibility and efficiency of the architecture compared with two benchmark methods (e.g. standard machine learning training and standard single aggregation server training). The simulation results show that the proposed methods outperform the benchmark methods in terms of operational stability, energy consumption and communication cost.
翻訳日:2023-04-14 14:17:57 公開日:2023-04-13
# シンクホーン反復とその勾配に対する非漸近収束境界:結合的アプローチ

Non-asymptotic convergence bounds for Sinkhorn iterates and their gradients: a coupling approach ( http://arxiv.org/abs/2304.06549v1 )

ライセンス: Link先を確認
Giacomo Greco, Maxence Noble, Giovanni Conforti, Alain Durmus(参考訳) 計算最適輸送(OT)は、近年、様々な分野で応用される強力なフレームワークとして登場した。 本稿では,従来のOT問題であるエントロピックOT問題の緩和に焦点をあて,高次元設定においても効率的で実用的なアルゴリズム解を実現できる。 この定式化はSchr\"odinger Bridge problemとしても知られ、特にSOC(Stochastic Optimal Control)と接続し、人気のあるシンクホーンアルゴリズムで解くことができる。 離散状態空間の場合、このアルゴリズムは指数収束を持つことが知られているが、より一般的な環境でも同様の収束率を達成することは研究の活発な領域である。 本研究では,$d$次元トーラス$\mathbb{t}_l^d$ 上で定義される確率測度に対するシンクホーンアルゴリズムの収束を解析し,その密度を$\mathbb{t}_l^d$ のハール測度に対して認める。 特に、シンクホーンイテレートとその勾配の点方向の指数収束性を証明する。 我々の証明は、これらの反復と、SOC-プロブレムから得られる値関数のハミルトン・ヤコビ・ベルマン方程式の進化の間の関係に依存する。 我々のアプローチは、純粋に確率的であり、トーラス上の制御拡散に対する反射法による結合に依存している。

Computational optimal transport (OT) has recently emerged as a powerful framework with applications in various fields. In this paper we focus on a relaxation of the original OT problem, the entropic OT problem, which allows to implement efficient and practical algorithmic solutions, even in high dimensional settings. This formulation, also known as the Schr\"odinger Bridge problem, notably connects with Stochastic Optimal Control (SOC) and can be solved with the popular Sinkhorn algorithm. In the case of discrete-state spaces, this algorithm is known to have exponential convergence; however, achieving a similar rate of convergence in a more general setting is still an active area of research. In this work, we analyze the convergence of the Sinkhorn algorithm for probability measures defined on the $d$-dimensional torus $\mathbb{T}_L^d$, that admit densities with respect to the Haar measure of $\mathbb{T}_L^d$. In particular, we prove pointwise exponential convergence of Sinkhorn iterates and their gradient. Our proof relies on the connection between these iterates and the evolution along the Hamilton-Jacobi-Bellman equations of value functions obtained from SOC-problems. Our approach is novel in that it is purely probabilistic and relies on coupling by reflection techniques for controlled diffusions on the torus.
翻訳日:2023-04-14 14:17:33 公開日:2023-04-13
# マルチカーネルコレントロピーに基づくIMUの向き推定:勾配Descent法

Multi-kernel Correntropy-based Orientation Estimation of IMUs: Gradient Descent Methods ( http://arxiv.org/abs/2304.06548v1 )

ライセンス: Link先を確認
Shilei Li, Lijing Li, Dawei Shi, Yunjiang Lou, Ling Shi(参考訳) 本稿では,慣性測定単位 (imus) の向き推定のための計算効率の高い2つのアルゴリズム,correntropy-based gradient descent (cgd) とcorrentropy-based decoupled orientation estimation (cdoe) を提案する。 勾配降下(GD)や非結合配向推定(DOE)といった従来の手法は平均二乗誤差(MSE)基準に依存しており、外部加速度や磁気干渉に弱い。 この問題に対処するため,マルチカーネル・コレントロピー損失(MKCL)は,ノイズが重み付き分布のタイプに従う場合に,最大推定(MLE)のための最適目的関数であることを示す。 ある状況では、MKCLの推定誤差は、任意に大きな外れ値が存在する場合でも有界である。 標準的なMSEコスト関数をMKCLに置き換えることで,CGDとCDOEアルゴリズムを開発した。 提案手法の有効性を,様々な状況において既存のアルゴリズムと比較することにより評価する。 実験の結果,提案手法は従来の手法(GD, DOE)よりも優れており,特に外部加速度や磁気障害に直面する場合の方が優れていた。 さらに、新しいアルゴリズムはカルマンフィルタベースの手法よりも計算複雑性が著しく低下し、低コストのマイクロプロセッサアプリケーションに適していることを示した。

This paper presents two computationally efficient algorithms for the orientation estimation of inertial measurement units (IMUs): the correntropy-based gradient descent (CGD) and the correntropy-based decoupled orientation estimation (CDOE). Traditional methods, such as gradient descent (GD) and decoupled orientation estimation (DOE), rely on the mean squared error (MSE) criterion, making them vulnerable to external acceleration and magnetic interference. To address this issue, we demonstrate that the multi-kernel correntropy loss (MKCL) is an optimal objective function for maximum likelihood estimation (MLE) when the noise follows a type of heavy-tailed distribution. In certain situations, the estimation error of the MKCL is bounded even in the presence of arbitrarily large outliers. By replacing the standard MSE cost function with MKCL, we develop the CGD and CDOE algorithms. We evaluate the effectiveness of our proposed methods by comparing them with existing algorithms in various situations. Experimental results indicate that our proposed methods (CGD and CDOE) outperform their conventional counterparts (GD and DOE), especially when faced with external acceleration and magnetic disturbances. Furthermore, the new algorithms demonstrate significantly lower computational complexity than Kalman filter-based approaches, making them suitable for applications with low-cost microprocessors.
翻訳日:2023-04-14 14:17:09 公開日:2023-04-13
# RadarGNN: レーダベース知覚のための変換不変グラフニューラルネットワーク

RadarGNN: Transformation Invariant Graph Neural Network for Radar-based Perception ( http://arxiv.org/abs/2304.06547v1 )

ライセンス: Link先を確認
Felix Fent, Philipp Bauerschmidt and Markus Lienkamp(参考訳) 信頼できる認識は、困難な環境条件に対して堅牢でなければならない。 そのため、近年の取り組みは、カメラとライダーセンサーに加えてレーダーセンサーの利用に焦点を当てている。 しかしながら、レーダーポイント雲のスパース性とデータ可用性の低さは、現在の認識手法では依然として困難である。 これらの課題に対処するために、ポイント自体の情報だけでなく、ポイント間の関係も利用する新しいグラフニューラルネットワークが提案されている。 このモデルは、グラフの端に埋め込まれたポイント特徴とポイントペア特徴の両方を考慮するように設計されている。 さらに,未解決のシナリオに対して堅牢な変換不変性を実現するための一般的なアプローチが提案されている。 変換不変性は不変モデルではなく不変データ表現によって達成され、他の方法にも適用できる。 提案されたRadarGNNモデルは、RadarScenesデータセットで以前のすべてのメソッドより優れている。 さらに,物体検出とセマンティックセグメンテーション品質に対する異なる不変性の影響について検討した。 ソースコードはhttps://github.com/TUMFTM/RadarGNNで公開されている。

A reliable perception has to be robust against challenging environmental conditions. Therefore, recent efforts focused on the use of radar sensors in addition to camera and lidar sensors for perception applications. However, the sparsity of radar point clouds and the poor data availability remain challenging for current perception methods. To address these challenges, a novel graph neural network is proposed that does not just use the information of the points themselves but also the relationships between the points. The model is designed to consider both point features and point-pair features, embedded in the edges of the graph. Furthermore, a general approach for achieving transformation invariance is proposed which is robust against unseen scenarios and also counteracts the limited data availability. The transformation invariance is achieved by an invariant data representation rather than an invariant model architecture, making it applicable to other methods. The proposed RadarGNN model outperforms all previous methods on the RadarScenes dataset. In addition, the effects of different invariances on the object detection and semantic segmentation quality are investigated. The code is made available as open-source software under https://github.com/TUMFTM/RadarGNN.
翻訳日:2023-04-14 14:16:44 公開日:2023-04-13
# DNeRV:ビデオの差分ニューラルネットワーク表現によるインヒーレントダイナミクスのモデリング

DNeRV: Modeling Inherent Dynamics via Difference Neural Representation for Videos ( http://arxiv.org/abs/2304.06544v1 )

ライセンス: Link先を確認
Qi Zhao, M. Salman Asif, Zhan Ma(参考訳) 既存の暗黙的神経表現(INR)法はビデオの時空間冗長性を十分に活用していない。 インデックスベースのINRはコンテンツ固有の空間的特徴を無視し、ハイブリッドINRは隣接するフレームへのコンテキスト依存を無視し、大きな動きやダイナミクスを持つシーンのモデリング能力が劣る。 この制限を機能適合の観点から分析し,フレーム差の重要性を明らかにする。 そこで本稿では,映像のコンテンツとフレーム差の2つのストリームからなる映像の差分ニューラルネットワーク表現(DNeRV)を提案する。 効果的な機能融合のための協調コンテンツユニットも導入する。 ビデオ圧縮, 塗装, 補間のためのDNeRVをテストする。 DNeRVは、最先端のニューラル圧縮アプローチに対する競合的な結果を達成し、1920ドルビデオの下流の塗装と補間における既存の暗黙の手法より優れている。

Existing implicit neural representation (INR) methods do not fully exploit spatiotemporal redundancies in videos. Index-based INRs ignore the content-specific spatial features and hybrid INRs ignore the contextual dependency on adjacent frames, leading to poor modeling capability for scenes with large motion or dynamics. We analyze this limitation from the perspective of function fitting and reveal the importance of frame difference. To use explicit motion information, we propose Difference Neural Representation for Videos (DNeRV), which consists of two streams for content and frame difference. We also introduce a collaborative content unit for effective feature fusion. We test DNeRV for video compression, inpainting, and interpolation. DNeRV achieves competitive results against the state-of-the-art neural compression approaches and outperforms existing implicit methods on downstream inpainting and interpolation for $960 \times 1920$ videos.
翻訳日:2023-04-14 14:16:29 公開日:2023-04-13
# 時間的知識共有による過去と未来からのニューラルネットワーク学習の実現

Temporal Knowledge Sharing enable Spiking Neural Network Learning from Past and Future ( http://arxiv.org/abs/2304.06540v1 )

ライセンス: Link先を確認
Yiting Dong, Dongcheng Zhao, Yi Zeng(参考訳) スパイキングニューラルネットワークは、脳のような情報処理機構のため、多くの分野の研究者から広く注目を集めている。 サーロゲート勾配の提案により、スパイクニューラルネットワークはより複雑なタスクに移行でき、従来のニューラルネットワークとのギャップを徐々に縮めることができる。 現在のスパイクニューラルネットワークは、全てのモーメントの出力を利用して最終的な予測を生成し、その時間的特性を損なうとともに、性能と効率の低下を引き起こす。 教師信号を構成する特定のモーメントの出力を選択し、実際のラベルと共にネットワークのトレーニングを導くことにより、異なるモーメント間の情報のインタラクションを可能にする時間的知識共有手法(tks)を提案する。 静的データセットCIFAR10, CIFAR100, ImageNet-1kおよびニューロモルフィックデータセットDVS-CIFAR10, NCALTECH101上でTKSを検証する。 実験結果から,現在の最適性能を他のアルゴリズムと比較した結果が得られた。 CUB-200-2011、StanfordDogs、StanfordCarsによる詳細な分類データセットの実験は、アルゴリズムの優位性をさらに証明している。 TKSアルゴリズムは、トレーニングフェーズにおける大きな時間ステップとテストフェーズにおける小さな時間ステップで、ネットワークのパフォーマンスを保証するために、時間的一般化能力の強化を支援する。 これにより、エッジデバイスへのSNNのデプロイが大幅に容易になる。

Spiking neural networks have attracted extensive attention from researchers in many fields due to their brain-like information processing mechanism. The proposal of surrogate gradient enables the spiking neural networks to migrate to more complex tasks, and gradually close the gap with the conventional artificial neural networks. Current spiking neural networks utilize the output of all moments to produce the final prediction, which compromises their temporal characteristics and causes a reduction in performance and efficiency. We propose a temporal knowledge sharing approach (TKS) that enables the interaction of information between different moments, by selecting the output of specific moments to compose teacher signals to guide the training of the network along with the real labels. We have validated TKS on both static datasets CIFAR10, CIFAR100, ImageNet-1k and neuromorphic datasets DVS-CIFAR10, NCALTECH101. Our experimental results indicate that we have achieved the current optimal performance in comparison with other algorithms. Experiments on Fine-grained classification datasets further demonstrate our algorithm's superiority with CUB-200-2011, StanfordDogs, and StanfordCars. TKS algorithm helps the model to have stronger temporal generalization capability, allowing the network to guarantee performance with large time steps in the training phase and with small time steps in the testing phase. This greatly facilitates the deployment of SNNs on edge devices.
翻訳日:2023-04-14 14:16:11 公開日:2023-04-13
# 頭部から爪への伝達知識:長期分布下での不確実性校正

Transfer Knowledge from Head to Tail: Uncertainty Calibration under Long-tailed Distribution ( http://arxiv.org/abs/2304.06537v1 )

ライセンス: Link先を確認
Jiahao Chen, Bing Su(参考訳) 与えられたモデルの不確実性を見積もる方法が重要な問題である。 現在の校正技術は、異なるクラスを等しく扱うため、トレーニングデータの分布が均衡していると暗黙的に仮定するが、現実世界のデータはしばしばロングテール分布に従うという事実を無視する。 本稿では,ロングテール分布からトレーニングしたモデルを校正する問題を考察する。 不均衡なトレーニング分布とバランスの取れたテスト分布の違いにより、温度スケーリングのような既存のキャリブレーション法は、この問題をうまく一般化できない。 ドメイン適応のための特定のキャリブレーション方法も、利用できないラベルなしのターゲットドメインインスタンスに依存しているため、適用できない。 ロングテール分布から訓練されたモデルは、ヘッドクラスよりも自信過剰である傾向がある。 そこで本研究では,長い尾のキャリブレーションを実現するために,尾の標本の重み付けを推定し,知識伝達に基づくキャリブレーション手法を提案する。 提案手法は,各クラスの分布をガウス分布としてモデル化し,先頭クラスのソース統計を,末尾クラスのターゲット分布をキャリブレーションするための先行値とみなす。 我々は,主クラスから知識を適応的に伝達し,末尾クラスの目標確率密度を得る。 重要度重みは、ソース確率密度に対するターゲット確率密度の比によって推定される。 CIFAR-10-LT, MNIST-LT, CIFAR-100-LT, ImageNet-LTデータセットの大規模な実験により, 本手法の有効性が示された。

How to estimate the uncertainty of a given model is a crucial problem. Current calibration techniques treat different classes equally and thus implicitly assume that the distribution of training data is balanced, but ignore the fact that real-world data often follows a long-tailed distribution. In this paper, we explore the problem of calibrating the model trained from a long-tailed distribution. Due to the difference between the imbalanced training distribution and balanced test distribution, existing calibration methods such as temperature scaling can not generalize well to this problem. Specific calibration methods for domain adaptation are also not applicable because they rely on unlabeled target domain instances which are not available. Models trained from a long-tailed distribution tend to be more overconfident to head classes. To this end, we propose a novel knowledge-transferring-based calibration method by estimating the importance weights for samples of tail classes to realize long-tailed calibration. Our method models the distribution of each class as a Gaussian distribution and views the source statistics of head classes as a prior to calibrate the target distributions of tail classes. We adaptively transfer knowledge from head classes to get the target probability density of tail classes. The importance weight is estimated by the ratio of the target probability density over the source probability density. Extensive experiments on CIFAR-10-LT, MNIST-LT, CIFAR-100-LT, and ImageNet-LT datasets demonstrate the effectiveness of our method.
翻訳日:2023-04-14 14:15:34 公開日:2023-04-13
# ヒューマンハンドのイベントベーストラッキング

Event-based tracking of human hands ( http://arxiv.org/abs/2304.06534v1 )

ライセンス: Link先を確認
Laura Duarte, Mohammad Safeea, Pedro Neto(参考訳) 本稿では,イベントカメラのデータを用いた人手追跡の新しい手法を提案する。 イベントカメラは、明るさの変化、動きの測定、低レイテンシー、動きのぼやけ、低消費電力、高ダイナミックレンジを検出する。 キャプチャフレームは、3次元手の位置データを報告する軽量アルゴリズムを用いて分析される。 選択されたピック・アンド・プレイスシナリオは、協調的な人間とロボットの相互作用や、人間とロボットの安全アプリケーションに対する障害物回避の例として機能する。 イベントデータは、強度フレームに前処理される。 関心領域(ROI)は、オブジェクトエッジイベントアクティビティを通じて定義され、ノイズを低減します。 ROI特徴は奥行き知覚のために抽出される。 イベントベースの人手追跡は、リアルタイムかつ低コストで実現可能であることを示した。 提案手法は,インテンシティ画像からのノイズを低減し,特徴を保ちつつ,オリジナルデータに対して最大89%のデータ削減を実現する。 動的時間ワープおよび単一イベントカメラを用いて測定された地表面の真理(ウェアラブルで測定)に関する深さ推定誤差は、測定対象の平面に応じて15~30ミリメートルである。 単一のイベントカメラデータと、ROI機能(空間内のハンドトラッキング)を定義するための軽量アルゴリズムを使用して、人間の手を3D空間で追跡する。

This paper proposes a novel method for human hands tracking using data from an event camera. The event camera detects changes in brightness, measuring motion, with low latency, no motion blur, low power consumption and high dynamic range. Captured frames are analysed using lightweight algorithms reporting 3D hand position data. The chosen pick-and-place scenario serves as an example input for collaborative human-robot interactions and in obstacle avoidance for human-robot safety applications. Events data are pre-processed into intensity frames. The regions of interest (ROI) are defined through object edge event activity, reducing noise. ROI features are extracted for use in-depth perception. Event-based tracking of human hand demonstrated feasible, in real time and at a low computational cost. The proposed ROI-finding method reduces noise from intensity images, achieving up to 89% of data reduction in relation to the original, while preserving the features. The depth estimation error in relation to ground truth (measured with wearables), measured using dynamic time warping and using a single event camera, is from 15 to 30 millimetres, depending on the plane it is measured. Tracking of human hands in 3D space using a single event camera data and lightweight algorithms to define ROI features (hands tracking in space).
翻訳日:2023-04-14 14:15:04 公開日:2023-04-13
# 生体化学反応ネットワークのジャンプ拡散近似に対するベイズ推論

Bayesian Inference for Jump-Diffusion Approximations of Biochemical Reaction Networks ( http://arxiv.org/abs/2304.06592v1 )

ライセンス: Link先を確認
Derya Alt{\i}ntan, Bastian Alt, Heinz Koeppl(参考訳) 生化学反応ネットワークは、それぞれの反応が異なる種の相互作用を表す反応の融合である。 一般的に、これらのネットワークは反応速度や種数の多様性によって引き起こされるマルチスケールの挙動を示す。 いわゆるジャンプ拡散近似は、そのようなシステムのモデリングにおいて貴重なツールである。 近似は反応ネットワークをそれぞれ高速かつ遅い反応のサブグループに分割することによって構成される。 これにより、高速群に対するランジュバン方程式を用いたダイナミクスのモデリングが可能となり、遅い群のダイナミクスにはマルコフジャンプ過程モデルが維持される。 生化学的過程のほとんどは、パラメーターと人口状態の観点で特徴が乏しい。 この結果,隠れた量を推定する手法が注目されている。 本稿では,マルコフ連鎖モンテカルロに基づくベイズ推定アルゴリズムを開発した。 提案するブロックギブス粒子平滑化アルゴリズムは, 逐次モンテカルロ法を用いて潜時状態を推定し, ジャンプ拡散近似モデルを用いて生化学的反応ネットワークのパラメータに対して異なるギブスステップを行う。 提示されたブロックされたGibbsサンプルは、状態推論とパラメータ推論の2つの異なるステップに基づいている。 状態推論ステップでは,連続時間フォワードフィルタによる後方スムーシング手順によって状態を推定する。 後方平滑化過程におけるブートストラップ粒子フィルタリングを利用してスムーズな軌道をサンプリングする。 隠れパラメータを推定するために、反応カウンタの経路ワイド連続時間表現を使用するギブスサンプリング器内でマルコフ連鎖モンテカルロサンプリング器を用いる。 最後に、このアルゴリズムは、部分的に観察されたマルチスケールの生死過程の例に対して数値的に評価する。

Biochemical reaction networks are an amalgamation of reactions where each reaction represents the interaction of different species. Generally, these networks exhibit a multi-scale behavior caused by the high variability in reaction rates and abundances of species. The so-called jump-diffusion approximation is a valuable tool in the modeling of such systems. The approximation is constructed by partitioning the reaction network into a fast and slow subgroup of fast and slow reactions, respectively. This enables the modeling of the dynamics using a Langevin equation for the fast group, while a Markov jump process model is kept for the dynamics of the slow group. Most often biochemical processes are poorly characterized in terms of parameters and population states. As a result of this, methods for estimating hidden quantities are of significant interest. In this paper, we develop a tractable Bayesian inference algorithm based on Markov chain Monte Carlo. The presented blocked Gibbs particle smoothing algorithm utilizes a sequential Monte Carlo method to estimate the latent states and performs distinct Gibbs steps for the parameters of a biochemical reaction network, by exploiting a jump-diffusion approximation model. The presented blocked Gibbs sampler is based on the two distinct steps of state inference and parameter inference. We estimate states via a continuous-time forward-filtering backward-smoothing procedure in the state inference step. By utilizing bootstrap particle filtering within a backward-smoothing procedure, we sample a smoothing trajectory. For estimating the hidden parameters, we utilize a separate Markov chain Monte Carlo sampler within the Gibbs sampler that uses the path-wise continuous-time representation of the reaction counters. Finally, the algorithm is numerically evaluated for a partially observed multi-scale birth-death process example.
翻訳日:2023-04-14 14:08:52 公開日:2023-04-13
# 脳構造年代 -- 多段階分類のための新しいバイオマーカー

Brain Structure Ages -- A new biomarker for multi-disease classification ( http://arxiv.org/abs/2304.06591v1 )

ライセンス: Link先を確認
Huy-Dung Nguyen, Micha\"el Cl\'ement, Boris Mansencal and Pierrick Coup\'e(参考訳) 年齢は、正常な老化軌跡を越えて期待される脳の解剖状態を記述する上で重要な変数である。 その規範的老化軌跡からの逸脱は、神経疾患に関する洞察を与えるかもしれない。 神経イメージングでは、予測された脳年齢が様々な疾患を分析するために広く使用される。 しかし、脳年齢差情報(年代と推定年齢の差)のみを用いることで、疾患分類の問題に対して十分な情報を得ることができない。 本稿では,脳構造年齢を構造的磁気共鳴画像を用いて推定することにより,大脳年齢の概念を拡張することを提案する。 この目的のために、深層学習モデルのアンサンブルを用いて、まず3次元老化マップ (\ie voxel-wise age estimation) を推定する。 そして、最終的な脳構造年代を得るために3dセグメンテーションマスクを用いる。 このバイオマーカーはいくつかの状況で使用できる。 まず、人口レベルでの異常検出を目的として、脳年齢を正確に推定することができる。 このような状況下では,本手法はいくつかの最先端手法より優れている。 第二に、脳構造年齢は、各脳構造の正常な老化過程からの逸脱を計算するために用いられる。 この特徴は、被験者レベルで正確な鑑別診断を行うために、マルチディセーゼ分類タスクで使用できる。 最後に、個人の脳構造年齢差を可視化し、脳の異常についての洞察を与え、臨床医が実際の医学的文脈で助ける。

Age is an important variable to describe the expected brain's anatomy status across the normal aging trajectory. The deviation from that normative aging trajectory may provide some insights into neurological diseases. In neuroimaging, predicted brain age is widely used to analyze different diseases. However, using only the brain age gap information (\ie the difference between the chronological age and the estimated age) can be not enough informative for disease classification problems. In this paper, we propose to extend the notion of global brain age by estimating brain structure ages using structural magnetic resonance imaging. To this end, an ensemble of deep learning models is first used to estimate a 3D aging map (\ie voxel-wise age estimation). Then, a 3D segmentation mask is used to obtain the final brain structure ages. This biomarker can be used in several situations. First, it enables to accurately estimate the brain age for the purpose of anomaly detection at the population level. In this situation, our approach outperforms several state-of-the-art methods. Second, brain structure ages can be used to compute the deviation from the normal aging process of each brain structure. This feature can be used in a multi-disease classification task for an accurate differential diagnosis at the subject level. Finally, the brain structure age deviations of individuals can be visualized, providing some insights about brain abnormality and helping clinicians in real medical contexts.
翻訳日:2023-04-14 14:08:29 公開日:2023-04-13
# 例外点への接近による時間量子相関の最大化

Maximizing temporal quantum correlation by approaching an exceptional point ( http://arxiv.org/abs/2304.06590v1 )

ライセンス: Link先を確認
Chun-Wang Wu, Man-Chao Zhang, Yan-Li Zhou, Ting Chen, Ran Huang, Yi Xie, Bao-Quan Ou, Wei Wu, Adam Miranowicz, Jie Zhang, Hui Jing and Ping-Xing Chen(参考訳) 空間的相関と時間的相関は、量子力学の中心的な柱である。 過去20年にわたって、量子物理学における大きなブレークスルーは、非エルミート領域への複雑な拡張であり、エルミート的枠組みを超えた様々な新しい現象や応用が発見されている。 しかし、特に時間領域において、非エルミート量子相関の特異な特徴はまだ研究されていない。 ここでは,パリティタイム(pt)対称トラップイオンシステムを用いて,この目標を初めて実験的に達成した。 標準測定シナリオでは達成されていない代数的境界として知られる時間的量子相関の上限は、例外点 (ep) に接近することで到達し、時間的量子相関効果のチューニングにおけるepsの予期せぬ能力を示す。 本研究は,非ハーミティシティ,非線形性,時間的量子相関の基本的な相互作用を明らかにするとともに,多種多様なEPデバイスを動作させることにより,様々な非エルミティアン時間量子効果を探索・活用するための第一歩となる。

Quantum correlations, both spatial and temporal, are the central pillars of quantum mechanics. Over the last two decades, a big breakthrough in quantum physics is its complex extension to the non-Hermitian realm, and dizzying varieties of novel phenomena and applications beyond the Hermitian framework have been uncovered. However, unique features of non-Hermitian quantum correlations, especially in the time domain, still remain to be explored. Here, for the first time, we experimentally achieve this goal by using a parity-time (PT )-symmetric trapped-ion system. The upper limit of temporal quantum correlations, known as the algebraic bound, which has so far not been achieved in the standard measurement scenario, is reached here by approaching the exceptional point (EP), thus showing the unexpected ability of EPs in tuning temporal quantum correlation effects. Our study, unveiling the fundamental interplay of non-Hermiticity, nonlinearity, and temporal quantum correlations, provides the first step towards exploring and utilizing various non-Hermitian temporal quantum effects by operating a wide range of EP devices, which are important for both fundamental studies and applications of quantum EP systems.
翻訳日:2023-04-14 14:08:09 公開日:2023-04-13
# ChatGPT-4は、ゼロショット学習による政治Twitterメッセージの注釈付けで専門家や群衆労働者より優れている

ChatGPT-4 Outperforms Experts and Crowd Workers in Annotating Political Twitter Messages with Zero-Shot Learning ( http://arxiv.org/abs/2304.06588v1 )

ライセンス: Link先を確認
Petter T\"ornberg(参考訳) 本稿では、ツイートの内容に基づいて、Twitterポスターの政治的関連を分類するテキスト分析タスクにおいて、Large Language Model (LLM) ChatGPT-4の精度、信頼性、バイアスを評価する。 LLMは、専門家の分類器と群衆労働者の両方による手動のアノテーションと比較され、一般的にそのようなタスクのゴールドスタンダードと考えられている。 2020年の大統領選挙では、米国政治家のTwitterメッセージを使い、正確さを測定するための根拠となる真実を提供します。 本稿は,ChatGPT-4がヒトの分類器よりも精度が高く,信頼性が高く,バイアスも低いことを明らかにする。 LLMは、コンテキスト知識と著者の意図に関する推論に基づいて推論を必要とするメッセージを正しく注釈付けすることができる。 これらの結果から,llmは大規模に解釈研究を行うことで,社会科学におけるテキストデータの利用に大きな影響を与えることが示唆された。

This paper assesses the accuracy, reliability and bias of the Large Language Model (LLM) ChatGPT-4 on the text analysis task of classifying the political affiliation of a Twitter poster based on the content of a tweet. The LLM is compared to manual annotation by both expert classifiers and crowd workers, generally considered the gold standard for such tasks. We use Twitter messages from United States politicians during the 2020 election, providing a ground truth against which to measure accuracy. The paper finds that ChatGPT-4 has achieves higher accuracy, higher reliability, and equal or lower bias than the human classifiers. The LLM is able to correctly annotate messages that require reasoning on the basis of contextual knowledge, and inferences around the author's intentions - traditionally seen as uniquely human abilities. These findings suggest that LLM will have substantial impact on the use of textual data in the social sciences, by enabling interpretive research at a scale.
翻訳日:2023-04-14 14:07:49 公開日:2023-04-13
# 量子コンピューティングにテンソルネットワーク法を統合するアンダーソン不純物解法

Anderson impurity solver integrating tensor network methods with quantum computing ( http://arxiv.org/abs/2304.06587v1 )

ライセンス: Link先を確認
Francois Jamet, Connor Lenihan, Lachlan P. Lindoy, Abhishek Agarwal, Enrico Fontana, Baptiste Anselme Martin and Ivan Rungger(参考訳) アンダーソンの不純物モデルの解法は典型的には2段階の過程を伴い、まずハミルトニアン基底状態を計算し、次にその力学特性を計算してグリーン関数を得る。 本稿では,古典的計算機を用いて第1ステップを実行してテンソルネットワーク基底状態と量子回路表現を取得し,第2ステップを量子コンピュータ上で実行してグリーン関数を得るハイブリッド古典量子アルゴリズムを提案する。 提案アルゴリズムは,従来のコンピュータ上での基底状態作成のためのテンソルネットワークの効率を生かし,量子プロセッサを活用して,従来のコンピュータでは難易度の高い時間進化の評価を行う。 我々は,SrVO3の量子計算エミュレータ上で20量子ビットを用いたアルゴリズムを,力学平均場理論におけるマルチオービタルアンダーソン不純物モデルを用いて実証した。 テンソルネットワークに基づく基底状態量子回路準備アルゴリズムは、我々の利用可能な計算資源で最大40キュービットまで実行することができるが、時間進化のための量子アルゴリズムの状態ベクトルエミュレーションは、そのような資源でアクセス可能なものを超えている。 テンソルネットワーク計算が基底状態エネルギーを正確に得ることができれば、量子回路上での基底状態波動関数の完全再現を必要とせず、正確なグリーン関数を与えることができることを示す。 このハイブリッドアプローチは、基底状態が古典的に計算できるが、動的性質ができない材料シミュレーションにおいて、量子上の優位性をもたらす可能性がある。

Solving the Anderson impurity model typically involves a two-step process, where one first calculates the ground state of the Hamiltonian, and then computes its dynamical properties to obtain the Green's function. Here we propose a hybrid classical/quantum algorithm where the first step is performed using a classical computer to obtain the tensor network ground state as well as its quantum circuit representation, and the second step is executed on the quantum computer to obtain the Green's function. Our algorithm exploits the efficiency of tensor networks for preparing ground states on classical computers, and takes advantage of quantum processors for the evaluation of the time evolution, which can become intractable on classical computers. We demonstrate the algorithm using 20 qubits on a quantum computing emulator for SrVO3 with a multi-orbital Anderson impurity model within the dynamical mean field theory. The tensor network based ground state quantum circuit preparation algorithm can also be performed for up to 40 qubits with our available computing resources, while the state vector emulation of the quantum algorithm for time evolution is beyond what is accessible with such resources. We show that, provided the tensor network calculation is able to accurately obtain the ground state energy, this scheme does not require a perfect reproduction of the ground state wave function on the quantum circuit to give an accurate Green's function. This hybrid approach may lead to quantum advantage in materials simulations where the ground state can be computed classically, but where the dynamical properties cannot.
翻訳日:2023-04-14 14:07:31 公開日:2023-04-13
# 次元不変量からの逆例

Adversarial Examples from Dimensional Invariance ( http://arxiv.org/abs/2304.06575v1 )

ライセンス: Link先を確認
Benjamin L. Badger(参考訳) さまざまな深層モデルや浅層学習モデルに対して,さまざまな例が発見されており,修正可能なモデル固有のバグや,他の固有のデータセット機能,あるいはその両方が提案されている。 理論的および実証的な結果から、対角的な例は、およそ単射写像 $f: \Bbb R^n \to \Bbb R^m; n \neq m$ を入力とするモデルから得られる近似的不連続性であることを示す。

Adversarial examples have been found for various deep as well as shallow learning models, and have at various times been suggested to be either fixable model-specific bugs, or else inherent dataset feature, or both. We present theoretical and empirical results to show that adversarial examples are approximate discontinuities resulting from models that specify approximately bijective maps $f: \Bbb R^n \to \Bbb R^m; n \neq m$ over their inputs, and this discontinuity follows from the topological invariance of dimension.
翻訳日:2023-04-14 14:07:05 公開日:2023-04-13
# ノイズ率の未知な雑音応答からベイズ分類器は学習できない

Bayes classifier cannot be learned from noisy responses with unknown noise rates ( http://arxiv.org/abs/2304.06574v1 )

ライセンス: Link先を確認
Soham Bakshi and Subha Maity(参考訳) ノイズのあるラベルを持つ分類器を訓練するには、学習者がラベルノイズの分布を特定する必要がある。 この要件を緩和しようとする最近の試みはいくつかあるが、ベイズ決定規則はノイズラベルを持つほとんどの分類問題において未同定であることを示す。 これは一般的に要求をバイパス/緩和することは不可能であることを示している。 ベイズ決定規則を特定できる特殊な場合において,ノイズ分布の知識を必要としないベイズ決定規則を学習するための単純なアルゴリズムを開発した。

Training a classifier with noisy labels typically requires the learner to specify the distribution of label noise, which is often unknown in practice. Although there have been some recent attempts to relax that requirement, we show that the Bayes decision rule is unidentified in most classification problems with noisy labels. This suggests it is generally not possible to bypass/relax the requirement. In the special cases in which the Bayes decision rule is identified, we develop a simple algorithm to learn the Bayes decision rule, that does not require knowledge of the noise distribution.
翻訳日:2023-04-14 14:06:53 公開日:2023-04-13
# counterfactuals: Counterfactual Explanation MethodsのRパッケージ

counterfactuals: An R Package for Counterfactual Explanation Methods ( http://arxiv.org/abs/2304.06569v1 )

ライセンス: Link先を確認
Susanne Dandl, Andreas Hofheinz, Martin Binder, Bernd Bischl, Giuseppe Casalicchio(参考訳) 反事実説明法は、望ましい予測を得るために個々の観察の特徴値をどのように変更する必要があるかに関する情報を提供する。 研究における提案手法の増大にもかかわらず、インターフェースと要件が広く異なる実装はごくわずかである。 本稿では,R6をベースとしたモジュール型・統一インタフェースを実装した反ファクト的Rパッケージを提案する。 提案手法は,既存手法を3つ実装し,これらの手法を異なるシナリオに一般化し,それと同等にするために,オプションの方法論拡張を提案する。 本稿では,パッケージの構造とワークフローを実際のユースケースを用いて説明し,パッケージに反事実的説明メソッドを追加する方法を示す。 さらに,実装した手法を様々なモデルやデータセットと比較し,それらの反事実的説明と実行時の動作の質について検討した。

Counterfactual explanation methods provide information on how feature values of individual observations must be changed to obtain a desired prediction. Despite the increasing amount of proposed methods in research, only a few implementations exist whose interfaces and requirements vary widely. In this work, we introduce the counterfactuals R package, which provides a modular and unified R6-based interface for counterfactual explanation methods. We implemented three existing counterfactual explanation methods and propose some optional methodological extensions to generalize these methods to different scenarios and to make them more comparable. We explain the structure and workflow of the package using real use cases and show how to integrate additional counterfactual explanation methods into the package. In addition, we compared the implemented methods for a variety of models and datasets with regard to the quality of their counterfactual explanations and their runtime behavior.
翻訳日:2023-04-14 14:06:44 公開日:2023-04-13
# ユーザ好みのアセンブリシーケンス計画問題への深層強化学習の適用

Deep reinforcement learning applied to an assembly sequence planning problem with user preferences ( http://arxiv.org/abs/2304.06567v1 )

ライセンス: Link先を確認
Miguel Neves, Pedro Neto(参考訳) 深部強化学習(DRL)は、複雑な製造決定問題、特に訓練データがない状態で実際の運用で時間とともに学習する状況において、その可能性を実証している。 このような手法の興味深い挑戦的な応用の1つはアセンブリ・シーケンス・プランニング(ASP)問題である。 本稿では,ASP.NET における DRL メソッドの実装に対するアプローチを提案する。 提案手法は,学習時間とサンプル効率を改善するためのRL環境パラメトリック動作を導入し,(1)ユーザの好みと(2)総組立時間という2つの異なる報酬信号を用いた。 ユーザの選好信号は、人間が直面するアセンブリの難易度と非人間工学的特性に対処し、全アセンブリタイム信号はアセンブリの最適化を強制する。 最も強力なRL法であるアドバンテージ・アクター・クリティカル(A2C)、ディープQラーニング(DQN)、レインボー(Rainbow)の3つを確率的および決定論的シナリオで研究した。 最後に,DRLアルゴリズムの性能を表付きQ-Learningの性能と比較した。 1万回のエピソードの後、システムはアルゴリズムの表型q-learning、a2c、レインボーに対してほぼ最適な動作を達成した。 しかし、より複雑なシナリオでは、他の2つのアルゴリズムと比較して、グラフ付きQ-Learningは性能が劣ると予想されている。 その結果,人間のインタラクションを伴うアセンブリシーケンス計画問題に対する深層強化学習の適用の可能性が示唆された。

Deep reinforcement learning (DRL) has demonstrated its potential in solving complex manufacturing decision-making problems, especially in a context where the system learns over time with actual operation in the absence of training data. One interesting and challenging application for such methods is the assembly sequence planning (ASP) problem. In this paper, we propose an approach to the implementation of DRL methods in ASP. The proposed approach introduces in the RL environment parametric actions to improve training time and sample efficiency and uses two different reward signals: (1) user's preferences and (2) total assembly time duration. The user's preferences signal addresses the difficulties and non-ergonomic properties of the assembly faced by the human and the total assembly time signal enforces the optimization of the assembly. Three of the most powerful deep RL methods were studied, Advantage Actor-Critic (A2C), Deep Q-Learning (DQN), and Rainbow, in two different scenarios: a stochastic and a deterministic one. Finally, the performance of the DRL algorithms was compared to tabular Q-Learnings performance. After 10,000 episodes, the system achieved near optimal behaviour for the algorithms tabular Q-Learning, A2C, and Rainbow. Though, for more complex scenarios, the algorithm tabular Q-Learning is expected to underperform in comparison to the other 2 algorithms. The results support the potential for the application of deep reinforcement learning in assembly sequence planning problems with human interaction.
翻訳日:2023-04-14 14:06:32 公開日:2023-04-13
# NeRD: ニューラルネットワークによるデモサック

NeRD: Neural field-based Demosaicking ( http://arxiv.org/abs/2304.06566v1 )

ライセンス: Link先を確認
Tomas Kerepecky, Filip Sroubek, Adam Novozamsky, Jan Flusser(参考訳) 我々はBaierパターンからフルカラー画像を生成するための新しいデモサック手法NeRDを紹介する。 本手法は, 正弦波活性化機能を持つ座標型ニューラルネットワークとして画像を表現することにより, ニューラルネットワークの進歩を生かし, 復号化を行う。 ネットワークへの入力は空間座標と低解像度ベイアパターンであり、出力は対応するRGB値である。 ResNetとU-netのブレンドであるエンコーダネットワークは、画像の暗黙的なニューラル表現を強化し、その品質を改善し、事前学習による空間一貫性を確保する。 実験の結果、nerdは従来のcnnベースの手法よりも優れており、トランスフォーマティブベースの手法とのギャップを著しく縮めていることがわかった。

We introduce NeRD, a new demosaicking method for generating full-color images from Bayer patterns. Our approach leverages advancements in neural fields to perform demosaicking by representing an image as a coordinate-based neural network with sine activation functions. The inputs to the network are spatial coordinates and a low-resolution Bayer pattern, while the outputs are the corresponding RGB values. An encoder network, which is a blend of ResNet and U-net, enhances the implicit neural representation of the image to improve its quality and ensure spatial consistency through prior learning. Our experimental results demonstrate that NeRD outperforms traditional and state-of-the-art CNN-based methods and significantly closes the gap to transformer-based methods.
翻訳日:2023-04-14 14:06:09 公開日:2023-04-13
# 植物・疾患検出のクラスインクリメンタル学習:知識蒸留による枝の育成

Class-Incremental Learning of Plant and Disease Detection: Growing Branches with Knowledge Distillation ( http://arxiv.org/abs/2304.06619v1 )

ライセンス: Link先を確認
Mathieu Pag\'e Fortin(参考訳) 本稿では,新たな植物種や疾患を段階的に学習する必要のある農業分野におけるクラスインクリメンタルオブジェクト検出の課題について検討する。 より現実的でダイナミックなシナリオをシミュレートして、時間とともに新しいカテゴリを含むように、2つのパブリックデータセットを適用します。 次に,異なる形態の知識蒸留を利用して破滅的忘れを緩和する3つのクラス増分学習手法を比較した。 しかし最近の動的Y-KDアプローチでは、新しいタスクを学習するために新しいブランチを成長させ、新しいクラスと古いクラスの両方でほとんどのシナリオでILODとFaster-ILODを上回っている。 これらの結果は農業用途における連続物体検出の課題と機会を浮き彫りにしている。 特に、植物画像の典型的な大きなクラス内および小さなクラス間変動は、以前の知識に干渉することなく新しいカテゴリを学ぶことの難しさを悪化させる。 私たちは将来の作業を奨励するためにコードを公にリリースします。

This paper investigates the problem of class-incremental object detection for agricultural applications where a model needs to learn new plant species and diseases incrementally without forgetting the previously learned ones. We adapt two public datasets to include new categories over time, simulating a more realistic and dynamic scenario. We then compare three class-incremental learning methods that leverage different forms of knowledge distillation to mitigate catastrophic forgetting. Our experiments show that all three methods suffer from catastrophic forgetting, but the recent Dynamic Y-KD approach, which additionally uses a dynamic architecture that grows new branches to learn new tasks, outperforms ILOD and Faster-ILOD in most scenarios both on new and old classes. These results highlight the challenges and opportunities of continual object detection for agricultural applications. In particular, the large intra-class and small inter-class variability that is typical of plant images exacerbate the difficulty of learning new categories without interfering with previous knowledge. We publicly release our code to encourage future work.
翻訳日:2023-04-14 13:59:40 公開日:2023-04-13
# 有限次元系における量子速度極限の排他的および下界

Exact and lower bounds for the quantum speed limit in finite dimensional systems ( http://arxiv.org/abs/2304.06617v1 )

ライセンス: Link先を確認
Mattias T. Johnsson, Lauritz van Luijk, Daniel Burgarth(参考訳) 量子工学における根本的な問題は、利用可能なツールで全ての可能なユニタリが生成可能であることを保証するのに必要な最低時間を決定することである。 量子制御の観点から、この問題を考察する。そこでは、関心の系はドリフトハミルトンと制御ハミルトンによって記述される。 我々のアプローチはリー代数理論、リー群、微分幾何学の組み合わせを使い、微分可能多様体上の測地学の観点から問題を定式化する。 任意のドリフトの場合、量子速度限界の明示的な下限を与え、制御ハミルトニアンは全ユニタリ群の位相的に閉じた部分群を生成し、速度限界の式が完全で単に下限ではない場合の基準を定式化する。 これらの解析結果は数値最適化法を用いて検証・確認される。 最後に、ドリフトハミルトニアンと単一制御ハミルトニアンによって系が記述される場合の一般的な場合において、量子速度限界の下限を見つけるために解析を拡張する。

A fundamental problem in quantum engineering is determining the lowest time required to ensure that all possible unitaries can be generated with the tools available, which is one of a number of possible quantum speed limits. We examine this problem from the perspective of quantum control, where the system of interest is described by a drift Hamiltonian and set of control Hamiltonians. Our approach uses a combination of Lie algebra theory, Lie groups and differential geometry, and formulates the problem in terms of geodesics on a differentiable manifold. We provide explicit lower bounds on the quantum speed limit for the case of an arbitrary drift, requiring only that the control Hamiltonians generate a topologically closed subgroup of the full unitary group, and formulate criteria as to when our expression for the speed limit is exact and not merely a lower bound. These analytic results are then tested and confirmed using a numerical optimization scheme. Finally we extend the analysis to find a lower bound on the quantum speed limit in the common case where the system is described by a drift Hamiltonian and a single control Hamiltonian.
翻訳日:2023-04-14 13:59:22 公開日:2023-04-13
# Tsallisエントロピー正規化最適輸送の収束速度

Convergence rate of Tsallis entropic regularized optimal transport ( http://arxiv.org/abs/2304.06616v1 )

ライセンス: Link先を確認
Takeshi Suguro and Toshiaki Yachimura(参考訳) 本稿では, tsallis のエントロピー正規化最適輸送について考察し, 正規化パラメータ $\varepsilon$ が$0$ となるように収束率について考察する。 特に、Eckstein--Nutzによって開発された量子化とシャドウ引数を用いて、Tsallisエントロピー化された最適輸送の収束率を確立し、これをKullback-Leibler (KL) 分岐によるエントロピー正規化最適輸送の収束率と比較し、KLがTsallis相対エントロピーにおける最速収束率であることを示す。

In this paper, we consider Tsallis entropic regularized optimal transport and discuss the convergence rate as the regularization parameter $\varepsilon$ goes to $0$. In particular, we establish the convergence rate of the Tsallis entropic regularized optimal transport using the quantization and shadow arguments developed by Eckstein--Nutz. We compare this to the convergence rate of the entropic regularized optimal transport with Kullback--Leibler (KL) divergence and show that KL is the fastest convergence rate in terms of Tsallis relative entropy.
翻訳日:2023-04-14 13:59:04 公開日:2023-04-13
# スピンソリトンの有限温度ダイナミクスと熱電対・冷凍機への応用

Finite Temperature Dynamics of Spin Solitons with Applications in Thermocouples and Refrigerators ( http://arxiv.org/abs/2304.06608v1 )

ライセンス: Link先を確認
Chaofan Gong(参考訳) スピンベリー相を応用して、小型で高品質なインダクタを製造するための創発的場を生み出すことは、量子技術(nature 586, 202 (2020)})の支持者の間でかなりの人気を博した。 このブレークスルーにインスパイアされた我々は、磁区壁(DW)の温度勾配への応答を探索することで、熱電を回転させる機構を拡張した。 同様に、電圧は通常の電子輸送現象とは対照的に、DWスピン集団運動に由来する。 さらに,有限温度ダイナミクスを開発し,波長可変非可換位相を持つ強磁性の超高速スピン発展に対する量子優越性について検討する。 本稿では,DWの高温域や寒冷域への移動(過去の報告の結論とは対照的)のより可能性の高い原因を提案する。 これらの知見は、熱駆動型DW運動学の理解を深め、スピンカロリトロニクスの新たな領域における利益の高い新しい方向を示唆している。

The exploitation of spin Berry phases to generate emergent fields for producing miniaturized and high-quality inductors has enjoyed considerable popularity among proponents of quantum technologies [Nature 586, 202 (2020)}]. Inspired by this breakthrough, we extend its mechanism to spin thermoelectrics by probing responses of ferrimagnetic domain walls (DWs) to thermal gradients. Similarly, voltages here stem from DW-spin collective motion, in contrast to normal electron transport phenomena. We further develop finite-temperature dynamics to investigate thermoelectric figures of merit and attribute corresponding quantum superiority to ultrafast spin evolution of ferrimagnetism with tunable non-Abelian phases. We propose a more likely cause of DW motion towards hot or cold regions (contrary to conclusions of previous reports) and verify existence of efficient magnon-momentum transfers. These findings deepen our understanding of heat-driven DW kinetics and suggest profitable new directions in an emerging realm of spincaloritronics.
翻訳日:2023-04-14 13:58:48 公開日:2023-04-13
# モデル所有者決定に対する虚偽の主張

False Claims against Model Ownership Resolution ( http://arxiv.org/abs/2304.06607v1 )

ライセンス: Link先を確認
Jian Liu, Rui Zhang, Sebastian Szyller, Kui Ren, N.Asokan(参考訳) ディープニューラルネットワーク(DNN)モデルは、モデル所有者の貴重な知的特性であり、競争上の優位性を構成する。 したがって,モデル盗難から保護する技術を開発することが重要である。 モデルオーナシップ解決(mor: model ownership resolution)は、モデル盗難を抑止するテクニックのクラスである。 MORスキームにより、被疑者が被疑者モデルに対して、透かしや指紋などの証拠を提示することにより、被疑者が被疑者モデルから盗まれたか、又は被疑者が所有するソースモデルから引き出されたものであることを示す。 既存のmorスキームの多くは、悪意のある容疑者に対して堅牢性を優先し、容疑者モデルが実際に盗まれたモデルであれば、告発者が勝つことを保証している。 本稿では,文学における一般的なMORスキームが,異なる,等しく重要だが不十分な,頑健さの懸念に対して脆弱であることを示す。 我々は、悪質な告発者が、盗まれていない独立した容疑者モデルに対して、いかに偽の主張を行うかを示す。 我々の中核的な考え方は、悪意のある告発者は、独立した被疑者モデルに対する証拠としてうまく機能する(伝達可能な)逆例を見つけることによって、特定されたMORプロセスから(検出なしで)逸脱することができるということです。 この目的のために、まず共通のMORスキームの手順を一般化し、この一般化の下では、偽主張に対する防御は、(伝達可能な)逆例を防ぐのと同じくらい困難であることを示す。 体系的な実証的な評価によると、我々の偽のクレーム攻撃は、実世界のモデルであるAmazonのRekognition APIを含む、現実的な構成を持つすべての著名なMORスキームで常に成功している。

Deep neural network (DNN) models are valuable intellectual property of model owners, constituting a competitive advantage. Therefore, it is crucial to develop techniques to protect against model theft. Model ownership resolution (MOR) is a class of techniques that can deter model theft. A MOR scheme enables an accuser to assert an ownership claim for a suspect model by presenting evidence, such as a watermark or fingerprint, to show that the suspect model was stolen or derived from a source model owned by the accuser. Most of the existing MOR schemes prioritize robustness against malicious suspects, ensuring that the accuser will win if the suspect model is indeed a stolen model. In this paper, we show that common MOR schemes in the literature are vulnerable to a different, equally important but insufficiently explored, robustness concern: a malicious accuser. We show how malicious accusers can successfully make false claims against independent suspect models that were not stolen. Our core idea is that a malicious accuser can deviate (without detection) from the specified MOR process by finding (transferable) adversarial examples that successfully serve as evidence against independent suspect models. To this end, we first generalize the procedures of common MOR schemes and show that, under this generalization, defending against false claims is as challenging as preventing (transferable) adversarial examples. Via systematic empirical evaluation we demonstrate that our false claim attacks always succeed in all prominent MOR schemes with realistic configurations, including against a real-world model: Amazon's Rekognition API.
翻訳日:2023-04-14 13:58:28 公開日:2023-04-13
# A-CAP:Commonsenseの知識による予測キャプション

A-CAP: Anticipation Captioning with Commonsense Knowledge ( http://arxiv.org/abs/2304.06602v1 )

ライセンス: Link先を確認
Duc Minh Vo, Quoc-An Luong, Akihiro Sugimoto, Hideki Nakayama(参考訳) 人間は、時間とともに獲得された視覚的手がかりのまばらな収集に基づいて未来を推論する能力を持っている。 この能力をエミュレートするために,未確認のオラクル画像のキャプションを生成する予測キャプション(precipation Captioning)と呼ばれる新しいタスクを導入する。 この課題に対処するために,コモンセンス知識を事前学習された視覚言語モデルに組み込んだA-CAPモデルを提案し,キャプションの予測を可能にする。 カスタマイズされたビジュアルストーリーテリングデータセットの質的および定量的評価を通じて、A-CAPは他の画像キャプション手法よりも優れ、予測キャプションのための強力なベースラインを確立する。 このタスクに固有の課題にも対処します。

Humans possess the capacity to reason about the future based on a sparse collection of visual cues acquired over time. In order to emulate this ability, we introduce a novel task called Anticipation Captioning, which generates a caption for an unseen oracle image using a sparsely temporally-ordered set of images. To tackle this new task, we propose a model called A-CAP, which incorporates commonsense knowledge into a pre-trained vision-language model, allowing it to anticipate the caption. Through both qualitative and quantitative evaluations on a customized visual storytelling dataset, A-CAP outperforms other image captioning methods and establishes a strong baseline for anticipation captioning. We also address the challenges inherent in this task.
翻訳日:2023-04-14 13:57:57 公開日:2023-04-13
# ロボットマニピュレーションのための事前学習型視覚モデルのロスレス適応

Lossless Adaptation of Pretrained Vision Models For Robotic Manipulation ( http://arxiv.org/abs/2304.06600v1 )

ライセンス: Link先を確認
Mohit Sharma, Claudio Fantacci, Yuxiang Zhou, Skanda Koppula, Nicolas Heess, Jon Scholz, Yusuf Aytar(参考訳) 近年の研究では、一般的な視覚学習タスクで事前訓練された大きなモデルが、様々な特殊認識問題や様々なロボット操作タスクに有用な表現を提供することが示されている。 ロボット操作の先行研究は、主に凍結した事前学習機能を使用してきたが、ロボット工学では、このアプローチは最適な性能には達せず、モデル全体の微調整がはるかに優れた結果をもたらす可能性があることを実証する。 残念ながら、微調整は事前訓練された視覚表現を妨害し、微調整されたタスクへの表現的ドリフトを引き起こすため、元のモデルの汎用性が失われる。 我々は,この古典的な微調整の欠点に対処するために,"lossless adaptation"を導入する。 パラメータ効率の良いアダプタの適切な配置は、元の表現を変更することなく、凍結した事前訓練された表現とフルエンド・ツー・エンドの微調整の間の性能ギャップを著しく低減し、事前訓練されたモデルの本来の機能を維持することを実証する。 我々は3つの主要なモデルアーキテクチャ(ViT、NFNet、ResNets)、教師付き(ImageNet-1K分類)、3つのタスクドメインと35の個別タスクにおける自己教師付き事前訓練重み(CLIP、BYOL、Visual MAE)を包括的に調査し、我々の主張が様々な設定で強く検証されていることを示す。

Recent works have shown that large models pretrained on common visual learning tasks can provide useful representations for a wide range of specialized perception problems, as well as a variety of robotic manipulation tasks. While prior work on robotic manipulation has predominantly used frozen pretrained features, we demonstrate that in robotics this approach can fail to reach optimal performance, and that fine-tuning of the full model can lead to significantly better results. Unfortunately, fine-tuning disrupts the pretrained visual representation, and causes representational drift towards the fine-tuned task thus leading to a loss of the versatility of the original model. We introduce "lossless adaptation" to address this shortcoming of classical fine-tuning. We demonstrate that appropriate placement of our parameter efficient adapters can significantly reduce the performance gap between frozen pretrained representations and full end-to-end fine-tuning without changes to the original representation and thus preserving original capabilities of the pretrained model. We perform a comprehensive investigation across three major model architectures (ViTs, NFNets, and ResNets), supervised (ImageNet-1K classification) and self-supervised pretrained weights (CLIP, BYOL, Visual MAE) in 3 task domains and 35 individual tasks, and demonstrate that our claims are strongly validated in various settings.
翻訳日:2023-04-14 13:57:44 公開日:2023-04-13
# サブシステム計測のためのランダムコンパイル

Randomized compiling for subsystem measurements ( http://arxiv.org/abs/2304.06599v1 )

ライセンス: Link先を確認
Stefanie J. Beale, Joel J. Wallman(参考訳) 測定は、結果を取得する最後のステップとして、その後の操作を知らせる中間ステップとして、あるいは(測定ベースの量子コンピューティングのように)計算自体の一部として、あらゆる量子計算において不可欠な部分である。 しかし、量子系のあらゆる側面と同様に、測定は非常にエラーを起こしやすく、モデル化が難しい。 本稿では,測定結果の誤りを単純な形式に変換し,特に有害な効果を除去し,解析も容易な,ランダム化コンパイルに基づく新しい手法を提案する。 特に,本手法は,計算ベース測定における一般的な誤差を低減し,混乱行列として,すなわち,不正確な結果を何らかの確率で報告し,システム内の測定結果とは無関係な確率的チャネルとして機能することを示す。 さらに,間接計測における誤差の影響についても検討し,単純で現実的なノイズモデルが有害でモデル化が難しいエラーの原因となることを実証する。 本手法とランダム化コンパイルを併用して間接計測を行うことで, モデル化や緩和が容易な効果的な雑音が得られる。

Measurements are a vital part of any quantum computation, whether as a final step to retrieve results, as an intermediate step to inform subsequent operations, or as part of the computation itself (as in measurement-based quantum computing). However, measurements, like any aspect of a quantum system, are highly error-prone and difficult to model. In this paper, we introduce a new technique based on randomized compiling to transform errors in measurements into a simple form that removes particularly harmful effects and is also easy to analyze. In particular, we show that our technique reduces generic errors in a computational basis measurement to act like a confusion matrix, i.e. to report the incorrect outcome with some probability, and as a stochastic channel that is independent of the measurement outcome on any unmeasured qudits in the system. We further explore the impact of errors on indirect measurements and demonstrate that a simple and realistic noise model can cause errors that are harmful and difficult to model. Applying our technique in conjunction with randomized compiling to an indirect measurement undergoing this noise results in an effective noise which is easy to model and mitigate.
翻訳日:2023-04-14 13:57:18 公開日:2023-04-13
# 部分モジュラリティを超えて:群フェアネス制約付きランダム集合選択の統一フレームワーク

Beyond Submodularity: A Unified Framework of Randomized Set Selection with Group Fairness Constraints ( http://arxiv.org/abs/2304.06596v1 )

ライセンス: Link先を確認
Shaojie Tang, Jing Yuan(参考訳) 機械学習アルゴリズムは、ターゲット広告表示、住宅ローン承認、犯罪行動予測など、さまざまな重要な意思決定プロセスにおいて重要な役割を果たす。 これらのアルゴリズムの長期的影響を考えると、集団の特定のグループに対する偏見や偏見のない、公平に運用することが重要である。 これらのアルゴリズムの公平性を確保することは、平等の促進と差別の回避に不可欠である。 この目的のために,グループフェアネス制約を組み込んだランダム化部分集合選択のための統一フレームワークを提案する。 私たちの問題は、グローバルユーティリティ関数とグループごとのグループユーティリティ関数の集合を含み、ここではグループは、同じ属性(例えば、性別)を共有する個人のグループ(例えば、人々)を指します。 本研究の目的は,可能部分集合にまたがる分布を生成し,各実行可能集合の選択確率を規定し,期待するグループ効用関数の所定のクォータを満たしながらグローバル効用関数を最大化することである。 グローバルユーティリティ関数と各群ユーティリティ関数の間には必ずしも直接的な接続が存在するとは限らないことに注意。 このフレームワークが機械学習や運用研究において多くの重要な応用を統一し、一般化することを実証する。 我々のアルゴリズムは、最もよく知られた結果を改善するか、新しいアプリケーションに最初の近似アルゴリズムを提供する。

Machine learning algorithms play an important role in a variety of important decision-making processes, including targeted advertisement displays, home loan approvals, and criminal behavior predictions. Given the far-reaching impact of these algorithms, it is crucial that they operate fairly, free from bias or prejudice towards certain groups in the population. Ensuring impartiality in these algorithms is essential for promoting equality and avoiding discrimination. To this end we introduce a unified framework for randomized subset selection that incorporates group fairness constraints. Our problem involves a global utility function and a set of group utility functions for each group, here a group refers to a group of individuals (e.g., people) sharing the same attributes (e.g., gender). Our aim is to generate a distribution across feasible subsets, specifying the selection probability of each feasible set, to maximize the global utility function while meeting a predetermined quota for each group utility function in expectation. Note that there may not necessarily be any direct connections between the global utility function and each group utility function. We demonstrate that this framework unifies and generalizes many significant applications in machine learning and operations research. Our algorithmic results either improves the best known result or provide the first approximation algorithms for new applications.
翻訳日:2023-04-14 13:56:57 公開日:2023-04-13
# テンソル低サイクルランク近似の解法

Solving Tensor Low Cycle Rank Approximation ( http://arxiv.org/abs/2304.06594v1 )

ライセンス: Link先を確認
Yichuan Deng, Yeqi Gao, Zhao Song(参考訳) 大規模言語モデルは現代において、自然言語処理、言語翻訳、音声認識といった様々な領域で応用され、ユビキタスになってきた。 最近、Zhao, Panigrahi, Ge, and Arora Arxiv 2023] が、確率論的文脈自由文法(PCFG)からの注意モデルについて説明している。 PCFGの確率計算における中心的な計算課題の1つは、特定のテンソル低ランク近似問題を定式化することであり、テンソルサイクルランクと呼ぶことができる。 例えば、$n \times n \times n$ third order tensor $A$ が与えられたとき、$A$ がサイクルランク-$k$ を持つのは、3つの $n \times k^2$ size matrices $U , V$, and $W$ が存在して、それぞれの \begin{align*} A_{a,b,c} = \sum_{i=1}^k \sum_{j=1}^k \sum_{l=1}^k U_{a,i+k(j-1)} \otimes V_{b, j + k(l-1)} \otimes W_{c, l + k(i-1) } \end{align*} for all $a \in \in [n, b, c] テンソルの古典的位階、タッカーの位階、列車の位階については、[Song, Woodruff, Soda Zhong 2019]でよく研究されている。 本稿では,[song, woodruff, zhong soda 2019]の186ページにおいて,これまでの ‘rotation and sketch'' 手法を一般化し,サイクルランクに対する入力スパーシティタイムアルゴリズムを示す。

Large language models have become ubiquitous in modern life, finding applications in various domains such as natural language processing, language translation, and speech recognition. Recently, a breakthrough work [Zhao, Panigrahi, Ge, and Arora Arxiv 2023] explains the attention model from probabilistic context-free grammar (PCFG). One of the central computation task for computing probability in PCFG is formulating a particular tensor low rank approximation problem, we can call it tensor cycle rank. Given an $n \times n \times n$ third order tensor $A$, we say that $A$ has cycle rank-$k$ if there exists three $n \times k^2$ size matrices $U , V$, and $W$ such that for each entry in each \begin{align*} A_{a,b,c} = \sum_{i=1}^k \sum_{j=1}^k \sum_{l=1}^k U_{a,i+k(j-1)} \otimes V_{b, j + k(l-1)} \otimes W_{c, l + k(i-1) } \end{align*} for all $a \in [n], b \in [n], c \in [n]$. For the tensor classical rank, tucker rank and train rank, it has been well studied in [Song, Woodruff, Zhong SODA 2019]. In this paper, we generalize the previous ``rotation and sketch'' technique in page 186 of [Song, Woodruff, Zhong SODA 2019] and show an input sparsity time algorithm for cycle rank.
翻訳日:2023-04-14 13:56:38 公開日:2023-04-13
# 非入出力リンク条件を持つネットワーク上のD-SVM

D-SVM over Networked Systems with Non-Ideal Linking Conditions ( http://arxiv.org/abs/2304.06667v1 )

ライセンス: Link先を確認
Mohammadreza Doostmohammadian, Alireza Aghasi, Houman Zarrabi(参考訳) 本稿では,複数エージェントネットワーク上での分散サポートベクトルマシン(D-SVM)によるバイナリ分類をリンク非線形性を考慮した分散最適化アルゴリズムを提案する。 エージェントは連続時間力学によって協調的にコンセンサス制約分散最適化を解き、リンクは強符号保存の奇数非線形条件に従う。 対数量子化とクリッピング(飽和)はそのような非線形性の2つの例である。 線形チャネル上の理想的なリンクや完全情報交換を主に考慮している既存の文献とは対照的に、一般セクター境界モデルが動的にバランスの取れた有向ネットワーク上の最適化器(SVM分類器)への収束にどのように影響するかを示す。 一般に、任意の奇セクター有界非線形写像は我々の力学に応用できる。 主な課題は、提案されたシステムダイナミクスが常に1つのゼロ固有値(コンセンサスと関連する)を持ち、他の固有値がすべて負の実部を持つことを示すことである。 これは行列摂動理論の議論を思い出すことによってなされる。 そして、ある条件下では、解が合意状態に収束することが示される。 例えば、勾配追跡(GT)のステップサイズは、上/下セクター境界に関連する要因によって線形の場合よりも厳密である。 私たちの知る限りでは、分散最適化と学習文学における既存の仕事は、非理想的リンク条件を考慮していない。

This paper considers distributed optimization algorithms, with application in binary classification via distributed support-vector-machines (D-SVM) over multi-agent networks subject to some link nonlinearities. The agents solve a consensus-constraint distributed optimization cooperatively via continuous-time dynamics, while the links are subject to strongly sign-preserving odd nonlinear conditions. Logarithmic quantization and clipping (saturation) are two examples of such nonlinearities. In contrast to existing literature that mostly considers ideal links and perfect information exchange over linear channels, we show how general sector-bounded models affect the convergence to the optimizer (i.e., the SVM classifier) over dynamic balanced directed networks. In general, any odd sector-bounded nonlinear mapping can be applied to our dynamics. The main challenge is to show that the proposed system dynamics always have one zero eigenvalue (associated with the consensus) and the other eigenvalues all have negative real parts. This is done by recalling arguments from matrix perturbation theory. Then, the solution is shown to converge to the agreement state under certain conditions. For example, the gradient tracking (GT) step size is tighter than the linear case by factors related to the upper/lower sector bounds. To the best of our knowledge, no existing work in distributed optimization and learning literature considers non-ideal link conditions.
翻訳日:2023-04-14 13:49:49 公開日:2023-04-13
# 乳癌画像の深層学習 : 進歩と今後の方向性

Deep Learning in Breast Cancer Imaging: A Decade of Progress and Future Directions ( http://arxiv.org/abs/2304.06662v1 )

ライセンス: Link先を確認
Luyang Luo, Xi Wang, Yi Lin, Xiaoqi Ma, Andong Tan, Ronald Chan, Vince Vardhanabhuti, Winnie CW Chu, Kwang-Ting Cheng, Hao Chen(参考訳) 乳がんは2020年以降、世界中のすべての悪性腫瘍の中で最高率に達している。 乳がん患者の早期診断と治療の介入において乳房画像は重要な役割を担っている。 過去10年間で、深層学習は乳がん画像解析の顕著な進歩を示し、乳がん画像の豊富な情報と複雑な文脈を解釈する上で大きな可能性を秘めている。 深層学習技術の急速な進歩と乳癌の重症度の増加を考えると、過去の進歩を要約し、対処すべき今後の課題を特定することが重要である。 本稿では,過去10年間のマンモグラム,超音波,磁気共鳴画像,およびデジタル病理画像の研究を対象とする,ディープラーニングに基づく乳癌イメージング研究の広範な調査を行う。 画像ベースのスクリーニング、診断、治療反応予測、予後予測における主要なディープラーニング手法、公開データセット、および応用について詳述する。 本稿では,本研究の結果から,ディープラーニングを用いた乳がんイメージングにおける今後の研究の課題と可能性について総合的な考察を行う。

Breast cancer has reached the highest incidence rate worldwide among all malignancies since 2020. Breast imaging plays a significant role in early diagnosis and intervention to improve the outcome of breast cancer patients. In the past decade, deep learning has shown remarkable progress in breast cancer imaging analysis, holding great promise in interpreting the rich information and complex context of breast imaging modalities. Considering the rapid improvement in the deep learning technology and the increasing severity of breast cancer, it is critical to summarize past progress and identify future challenges to be addressed. In this paper, we provide an extensive survey of deep learning-based breast cancer imaging research, covering studies on mammogram, ultrasound, magnetic resonance imaging, and digital pathology images over the past decade. The major deep learning methods, publicly available datasets, and applications on imaging-based screening, diagnosis, treatment response prediction, and prognosis are described in detail. Drawn from the findings of this survey, we present a comprehensive discussion of the challenges and potential avenues for future research in deep learning-based breast cancer imaging.
翻訳日:2023-04-14 13:49:28 公開日:2023-04-13
# G2T:事前学習言語モデルとコミュニティ検出に基づくトピックモデリングのためのシンプルだが汎用的なフレームワーク

G2T: A simple but versatile framework for topic modeling based on pretrained language model and community detection ( http://arxiv.org/abs/2304.06653v1 )

ライセンス: Link先を確認
Leihang Zhang, Jiapeng Liu, Qiang Yan(参考訳) 適切な単語選択法で高品質な文埋め込みをクラスタリングするクラスタリングに基づくトピックモデルは、生成確率的トピックモデルよりも優れたトピックを生成することが報告されている。 しかし,これらの手法は,テキストによる話題と話題の量的関係を無視する適切なパラメータや不完全なモデルを選択することができない。 これらの問題を解決するために,トピックモデリングのためのシンプルかつ効果的なフレームワークであるグラフ to トピック (G2T) を提案する。 フレームワークは4つのモジュールで構成される。 まず、事前訓練された言語モデルを用いて文書表現を取得する。 次に、文書表現間の類似性に応じて意味グラフを構築する。 第3に,文書意味グラフのコミュニティを特定し,トピックと文書の関係を定量化する。 第4に、単語-話題分布は、TFIDFの変種に基づいて計算される。 自動評価の結果,G2Tは異なる長さの英語と中国語の文書で最先端のパフォーマンスを達成したことが示唆された。 人間の判断は、G2Tがベースラインよりも解釈可能性とカバレッジでトピックを生成できることを示している。 さらに、G2Tはトピック番号を自動的に決定するだけでなく、文書内のトピックやトピックにおける単語の確率分布を与える。 最後に、G2Tは公開されており、蒸留実験は、その動作方法の指示を与える。

It has been reported that clustering-based topic models, which cluster high-quality sentence embeddings with an appropriate word selection method, can generate better topics than generative probabilistic topic models. However, these approaches suffer from the inability to select appropriate parameters and incomplete models that overlook the quantitative relation between words with topics and topics with text. To solve these issues, we propose graph to topic (G2T), a simple but effective framework for topic modelling. The framework is composed of four modules. First, document representation is acquired using pretrained language models. Second, a semantic graph is constructed according to the similarity between document representations. Third, communities in document semantic graphs are identified, and the relationship between topics and documents is quantified accordingly. Fourth, the word--topic distribution is computed based on a variant of TFIDF. Automatic evaluation suggests that G2T achieved state-of-the-art performance on both English and Chinese documents with different lengths. Human judgements demonstrate that G2T can produce topics with better interpretability and coverage than baselines. In addition, G2T can not only determine the topic number automatically but also give the probabilistic distribution of words in topics and topics in documents. Finally, G2T is publicly available, and the distillation experiments provide instruction on how it works.
翻訳日:2023-04-14 13:49:11 公開日:2023-04-13
# ProtoDiv:全スライディング画像分類のための連続擬似バグのプロトタイプ誘導分類

ProtoDiv: Prototype-guided Division of Consistent Pseudo-bags for Whole-slide Image Classification ( http://arxiv.org/abs/2304.06652v1 )

ライセンス: Link先を確認
Rui Yang, Pei Liu, and Luping Ji(参考訳) 弱いラベルを持つWSI(Whole-Slide Image)サンプルの限界により、WSI分類において、擬似バグベースの多重インスタンス学習(MIL)が活発な展望として現れる。 しかし、シュードバッグ分割スキームは、しばしば分類性能に欠かせないもので、検討に値するオープントピックである。 そこで本稿では,wsi擬似袋の分割を案内するために,バッグプロトタイプを用いた新しいスキームprotodivを提案する。 このスキームは複雑なネットワークアーキテクチャを設計するのではなく、サンプル一貫性を維持しながら効果的なトレーニングのためにwsiデータを安全に拡張するためのプラグイン・アンド・プレイアプローチを採用している。 さらに,分類タスクに適応するトレーニングにおいて動的に最適化可能な注意に基づくプロトタイプを考案する。 我々は7つのベースラインモデルにprotodivスキームを適用し,2つのwsiデータセットの比較実験を行った。 実験では、protodivがwsi分類に明らかなパフォーマンス改善をもたらすことを確認しました。

Due to the limitations of inadequate Whole-Slide Image (WSI) samples with weak labels, pseudo-bag-based multiple instance learning (MIL) appears as a vibrant prospect in WSI classification. However, the pseudo-bag dividing scheme, often crucial for classification performance, is still an open topic worth exploring. Therefore, this paper proposes a novel scheme, ProtoDiv, using a bag prototype to guide the division of WSI pseudo-bags. Rather than designing complex network architecture, this scheme takes a plugin-and-play approach to safely augment WSI data for effective training while preserving sample consistency. Furthermore, we specially devise an attention-based prototype that could be optimized dynamically in training to adapt to a classification task. We apply our ProtoDiv scheme on seven baseline models, and then carry out a group of comparison experiments on two public WSI datasets. Experiments confirm our ProtoDiv could usually bring obvious performance improvements to WSI classification.
翻訳日:2023-04-14 13:48:50 公開日:2023-04-13
# DiffFit: 簡単なパラメータ効率の良い微調整による大拡散モデルの解錠性

DiffFit: Unlocking Transferability of Large Diffusion Models via Simple Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2304.06648v1 )

ライセンス: Link先を確認
Enze Xie, Lewei Yao, Han Shi, Zhili Liu, Daquan Zhou, Zhaoqiang Liu, Jiawei Li, Zhenguo Li(参考訳) 拡散モデルは高品質な画像の生成に非常に有効であることが証明されている。 しかし、大規模な事前学習拡散モデルを新しい領域に適用することは、現実世界のアプリケーションにとって重要な課題である。 本稿では,新しい領域への高速適応を可能にする大規模事前学習拡散モデルを微調整するパラメータ効率の高い手法であるdifffitを提案する。 DiffFitは、特定のレイヤでバイアス項と新たに追加されたスケーリング要素のみを微調整するが、トレーニングのスピードアップとモデルストレージコストの削減をもたらす、恥ずかしいほど単純である。 完全な微調整と比較すると、DiffFitは2$\times$トレーニングスピードアップを実現しており、全体のモデルパラメータの約0.12\%を格納する必要がある。 高速適応におけるスケーリング因子の有効性を正当化する直観的理論解析が提案されている。 下流の8つのデータセットでは、DiffFitはより効率的でありながら、完全な微調整よりも優れた、あるいは競争的なパフォーマンスを達成する。 注目すべきは、DiffFitが最小のコストを加えることで、訓練済みの低解像度生成モデルを高解像度に適応できることである。 拡散ベースの手法の中で、DiffFitはImageNet 512$\times$512ベンチマークで3.02の最先端FIDを新たに設定し、公開前のImageNet 256$\times$256チェックポイントから25エポックだけを微調整した。

Diffusion models have proven to be highly effective in generating high-quality images. However, adapting large pre-trained diffusion models to new domains remains an open challenge, which is critical for real-world applications. This paper proposes DiffFit, a parameter-efficient strategy to fine-tune large pre-trained diffusion models that enable fast adaptation to new domains. DiffFit is embarrassingly simple that only fine-tunes the bias term and newly-added scaling factors in specific layers, yet resulting in significant training speed-up and reduced model storage costs. Compared with full fine-tuning, DiffFit achieves 2$\times$ training speed-up and only needs to store approximately 0.12\% of the total model parameters. Intuitive theoretical analysis has been provided to justify the efficacy of scaling factors on fast adaptation. On 8 downstream datasets, DiffFit achieves superior or competitive performances compared to the full fine-tuning while being more efficient. Remarkably, we show that DiffFit can adapt a pre-trained low-resolution generative model to a high-resolution one by adding minimal cost. Among diffusion-based methods, DiffFit sets a new state-of-the-art FID of 3.02 on ImageNet 512$\times$512 benchmark by fine-tuning only 25 epochs from a public pre-trained ImageNet 256$\times$256 checkpoint while being 30$\times$ more training efficient than the closest competitor.
翻訳日:2023-04-14 13:48:34 公開日:2023-04-13
# 大規模言語モデルによる教育的質問はどの程度有用か?

How Useful are Educational Questions Generated by Large Language Models? ( http://arxiv.org/abs/2304.06638v1 )

ライセンス: Link先を確認
Sabina Elkins, Ekaterina Kochmar, Jackie C.K. Cheung, Iulian Serban(参考訳) 大規模言語モデルによる制御可能なテキスト生成(CTG)は,教師や学生の教育を変革する大きな可能性を秘めている。 特に、高品質で多様な質問生成は、教師の負担を劇的に減らし、教育コンテンツの品質を向上させる。 この領域における最近の研究は、世代とともに進歩してきたが、実際の教師が生成された質問を教室の設定に十分有用であると判断するのに失敗している。 我々は教師と人間による評価を行い、CTGと質問分類(ブルームと難しい分類法)を組み合わせた出力の品質と有用性を評価する。 以上の結果から, 授業環境において, 質の高い質問が十分に有用であることが示唆された。

Controllable text generation (CTG) by large language models has a huge potential to transform education for teachers and students alike. Specifically, high quality and diverse question generation can dramatically reduce the load on teachers and improve the quality of their educational content. Recent work in this domain has made progress with generation, but fails to show that real teachers judge the generated questions as sufficiently useful for the classroom setting; or if instead the questions have errors and/or pedagogically unhelpful content. We conduct a human evaluation with teachers to assess the quality and usefulness of outputs from combining CTG and question taxonomies (Bloom's and a difficulty taxonomy). The results demonstrate that the questions generated are high quality and sufficiently useful, showing their promise for widespread use in the classroom setting.
翻訳日:2023-04-14 13:48:06 公開日:2023-04-13
# PGTask: 対話からのプロファイル生成タスクの導入

PGTask: Introducing the Task of Profile Generation from Dialogues ( http://arxiv.org/abs/2304.06634v1 )

ライセンス: Link先を確認
Rui Ribeiro, Joao P. Carvalho, Lu\'isa Coheur(参考訳) 近年,プロファイル情報をモデルに活用して対話システムのパーソナライズを試みている。 しかし、この知識は乏しく入手が困難であり、対話からプロファイル情報を抽出・生成することが基本的な資産となっている。 この制限を超えるために、プロファイル生成タスク(PGTask)を導入する。 本稿では,対話コーパスから抽出した関連する発話に対応するプロファイル文を含む,この問題に対する新たなデータセットを提案する。 さらに、最先端手法を用いて、この新しいデータセットのプロファイル生成のベンチマークを提供する。 本研究では,プロファイル生成の課題を明らかにするとともに,新たな研究方向性を期待する。

Recent approaches have attempted to personalize dialogue systems by leveraging profile information into models. However, this knowledge is scarce and difficult to obtain, which makes the extraction/generation of profile information from dialogues a fundamental asset. To surpass this limitation, we introduce the Profile Generation Task (PGTask). We contribute with a new dataset for this problem, comprising profile sentences aligned with related utterances, extracted from a corpus of dialogues. Furthermore, using state-of-the-art methods, we provide a benchmark for profile generation on this novel dataset. Our experiments disclose the challenges of profile generation, and we hope that this introduces a new research direction.
翻訳日:2023-04-14 13:47:50 公開日:2023-04-13
# CoSDA: 継続的なソースフリードメイン適応

CoSDA: Continual Source-Free Domain Adaptation ( http://arxiv.org/abs/2304.06627v1 )

ライセンス: Link先を確認
Haozhe Feng, Zhaorui Yang, Hesun Chen, Tianyu Pang, Chao Du, Minfeng Zhu, Wei Chen, Shuicheng Yan(参考訳) ソースデータにアクセスせずに、ソースフリードメイン適応(SFDA)は、ソースドメインのトレーニングされたモデルからターゲットドメインに知識を転送する。 最近では、ソースドメインのデータプライバシを保護する必要性から、sfdaの人気が高まっているが、データの欠如により、ソースドメインを壊滅的に忘れてしまう。 そこで我々は,従来のsfdaアプローチを統一したフレームワークで再実装し,これらを4つのベンチマークで評価した。 適応ゲインと忘れる損失の間にトレードオフがあることが観察され、忘れることを軽減するために一貫性の規則化を設計する動機となる。 特に,2速最適化された教師・学生モデルペアを採用し,一貫性学習機能を備えたcosdaという連続的なソースフリードメイン適応手法を提案する。 実験の結果,CoSDAは継続的適応において最先端のアプローチよりも優れていることがわかった。 特に、私たちのCoSDAは、他のFDAメソッドと統合して忘れを軽減できます。

Without access to the source data, source-free domain adaptation (SFDA) transfers knowledge from a source-domain trained model to target domains. Recently, SFDA has gained popularity due to the need to protect the data privacy of the source domain, but it suffers from catastrophic forgetting on the source domain due to the lack of data. To systematically investigate the mechanism of catastrophic forgetting, we first reimplement previous SFDA approaches within a unified framework and evaluate them on four benchmarks. We observe that there is a trade-off between adaptation gain and forgetting loss, which motivates us to design a consistency regularization to mitigate forgetting. In particular, we propose a continual source-free domain adaptation approach named CoSDA, which employs a dual-speed optimized teacher-student model pair and is equipped with consistency learning capability. Our experiments demonstrate that CoSDA outperforms state-of-the-art approaches in continuous adaptation. Notably, our CoSDA can also be integrated with other SFDA methods to alleviate forgetting.
翻訳日:2023-04-14 13:47:40 公開日:2023-04-13
# ヘビアン高速塑性と作業記憶

Hebbian fast plasticity and working memory ( http://arxiv.org/abs/2304.06626v1 )

ライセンス: Link先を確認
Anders Lansner, Florian Fiebig, Pawel Herman(参考訳) ワーキングメモリの理論とモデル(wm)は、少なくとも1990年代半ばから持続的活動仮説に支配されていた。 この10年は、いわゆる活動サイレントWMの実験的証拠の蓄積と、堅牢な多項目WMを説明する上での根本的な困難を考慮し、WM情報の短期的維持のメカニズムとして、持続的活動の欠点が懸念されている。 その結果, 高速シナプス可塑性の方向を中心に, 非ヘビアン対ヘビアン可塑性の問題が自然発生している。 本稿では, 高速なヘビアン可塑性に着目し, この形態の連想学習に基づくWM理論とモデルの起源を追究する。

Theories and models of working memory (WM) were at least since the mid-1990s dominated by the persistent activity hypothesis. The past decade has seen rising concerns about the shortcomings of sustained activity as the mechanism for short-term maintenance of WM information in the light of accumulating experimental evidence for so-called activity-silent WM and the fundamental difficulty in explaining robust multi-item WM. In consequence, alternative theories are now explored mostly in the direction of fast synaptic plasticity as the underlying mechanism.The question of non-Hebbian vs Hebbian synaptic plasticity emerges naturally in this context. In this review we focus on fast Hebbian plasticity and trace the origins of WM theories and models building on this form of associative learning.
翻訳日:2023-04-14 13:47:24 公開日:2023-04-13
# 法律qaシステムにおける技術の現状を探る

Exploring the State of the Art in Legal QA Systems ( http://arxiv.org/abs/2304.06623v1 )

ライセンス: Link先を確認
Abdelrahman Abdallah, Bhawna Piryani, Adam Jatowt(参考訳) 法的領域に関する質問に対する回答は、主に複雑な性質と多種多様な法的文書システムのために複雑なタスクである。 法的クエリに対する正確な回答を提供するには、典型的には関連する分野の専門知識が必要である。 qa(question answering systems)は、人間の言語で質問に対する回答を生成するように設計されている。 彼らは自然言語処理を使って質問を理解し、情報を通して適切な答えを見つける。 QAには、カスタマーサービス、教育、研究、言語間コミュニケーションなど、さまざまな実践的応用がある。 しかし、自然言語理解の改善や複雑であいまいな質問の扱いといった課題に直面している。 法的領域に関する質問に対する回答は、主に複雑な性質と多種多様な法的文書システムのために複雑なタスクである。 法的クエリに対する正確な回答を提供するには、典型的には関連する分野の専門知識が必要である。 現時点では、法的質問に対する回答を議論する調査が不足している。 この問題を解決するために,法分野における質問応答のための14のベンチマークデータセットをレビューし,ディープラーニングモデルに対する最新の法的質問を総合的にレビューする包括的な調査を行う。 これらの研究で使用される異なるアーキテクチャとテクニック、およびこれらのモデルの性能と限界について取り上げる。 さらに、最新の記事やオープンデータ、ソースコードを定期的にアップロードするGitHubリポジトリも公開しています。 リポジトリは \url{https://github.com/abdoelsayed2016/legal-question-answering-review} で利用可能である。

Answering questions related to the legal domain is a complex task, primarily due to the intricate nature and diverse range of legal document systems. Providing an accurate answer to a legal query typically necessitates specialized knowledge in the relevant domain, which makes this task all the more challenging, even for human experts. QA (Question answering systems) are designed to generate answers to questions asked in human languages. They use natural language processing to understand questions and search through information to find relevant answers. QA has various practical applications, including customer service, education, research, and cross-lingual communication. However, they face challenges such as improving natural language understanding and handling complex and ambiguous questions. Answering questions related to the legal domain is a complex task, primarily due to the intricate nature and diverse range of legal document systems. Providing an accurate answer to a legal query typically necessitates specialized knowledge in the relevant domain, which makes this task all the more challenging, even for human experts. At this time, there is a lack of surveys that discuss legal question answering. To address this problem, we provide a comprehensive survey that reviews 14 benchmark datasets for question-answering in the legal field as well as presents a comprehensive review of the state-of-the-art Legal Question Answering deep learning models. We cover the different architectures and techniques used in these studies and the performance and limitations of these models. Moreover, we have established a public GitHub repository where we regularly upload the most recent articles, open data, and source code. The repository is available at: \url{https://github.com/abdoelsayed2016/Legal-Question-Answering-Review}.
翻訳日:2023-04-14 13:47:09 公開日:2023-04-13
# 非エルミート皮膚効果における非正常性のトポロジー的増強

Topological enhancement of non-normality in non-Hermitian skin effects ( http://arxiv.org/abs/2304.06689v1 )

ライセンス: Link先を確認
Yusuke O. Nakai, Nobuyuki Okuma, Daichi Nakamura, Kenji Shimomura, Masatoshi Sato(参考訳) 非エルミート皮膚効果は非エルミート系に固有の代表的な現象であり、開境界条件 (OBC) 下のエネルギースペクトルと固有状態は周期境界条件 (PBC) 下のものと大きく異なる。 PBCの非自明なトポロジーは非エルミート皮膚効果を特徴付けるが、OBCの適切な測定方法はまだ明らかになっていない。 本稿では, OBCによる非正常化の位相的増強が非エルミート皮膚効果を正確に定量することを明らかにする。 皮膚効果のスペクトルおよび状態変化に対応して,非正常の2つのスカラー尺度を導入し,非エルミート皮膚効果はOBC下においてマクロ的に増強すると主張した。 また,非エルミート皮膚効果の位相遷移を正確に記述し,平均対称性で保護された非エルミート皮膚効果の欠如を明らかにした。 非正規性のトポロジカルエンハンスメントは、Bauer-Fike定理によるOBCスペクトルの摂動感度と異常時間進化ダイナミクスを支配している。

The non-Hermitian skin effects are representative phenomena intrinsic to non-Hermitian systems: the energy spectra and eigenstates under the open boundary condition (OBC) drastically differ from those under the periodic boundary condition (PBC). Whereas a non-trivial topology under the PBC characterizes the non-Hermitian skin effects, their proper measure under the OBC has not been clarified yet. This paper reveals that topological enhancement of non-normality under the OBC accurately quantifies the non-Hermitian skin effects. Correspondingly to spectrum and state changes of the skin effects, we introduce two scalar measures of non-normality and argue that the non-Hermitian skin effects enhance both macroscopically under the OBC. We also show that the enhanced non-normality correctly describes phase transitions causing the non-Hermitian skin effects and reveals the absence of non-Hermitian skin effects protected by average symmetry. The topological enhancement of non-normality governs the perturbation sensitivity of the OBC spectra and the anomalous time-evolution dynamics through the Bauer-Fike theorem.
翻訳日:2023-04-14 13:40:20 公開日:2023-04-13
# 教師付き学習における量子アドバンテージと量子計算アドバンテージの関係

Relation between quantum advantage in supervised learning and quantum computational advantage ( http://arxiv.org/abs/2304.06687v1 )

ライセンス: Link先を確認
Jordi P\'erez-Guijarro, Alba Pag\`es-Zamora and Javier R. Fonollosa(参考訳) 機械学習の広範にわたる利用は、量子計算の利点と比較して教師あり学習に対する量子超越性の問題を提起している。 実際、最近の研究では、計算と学習のアドバンテージは一般に同等ではなく、トレーニングセットによって提供される追加情報によって、いくつかの問題の難易度が低下することを示している。 本稿では,どの条件が等価であるか,少なくとも関連性が高いかを検討する。 トレーニングセットを生成するための効率的なアルゴリズムの存在は、そのような条件の基盤として現れる。 これらの結果は、この問題の古典的難易度を仮定して、素因数分解問題に基づく学習タスクの量子スピードアップが存在することを示すために応用される。

The widespread use of machine learning has raised the question of quantum supremacy for supervised learning as compared to quantum computational advantage. In fact, a recent work shows that computational and learning advantage are, in general, not equivalent, i.e., the additional information provided by a training set can reduce the hardness of some problems. This paper investigates under which conditions they are found to be equivalent or, at least, highly related. The existence of efficient algorithms to generate training sets emerges as the cornerstone of such conditions. These results are applied to prove that there is a quantum speed-up for some learning tasks based on the prime factorization problem, assuming the classical intractability of this problem.
翻訳日:2023-04-14 13:39:58 公開日:2023-04-13
# OKRidge: 動的システム学習のためのスケーラブルなkスパースリッジ回帰

OKRidge: Scalable Optimal k-Sparse Ridge Regression for Learning Dynamical Systems ( http://arxiv.org/abs/2304.06686v1 )

ライセンス: Link先を確認
Jiachang Liu, Sam Rosen, Chudi Zhong, Cynthia Rudin(参考訳) 非線形力学系に対するスパース制御方程式を同定し, 科学的発見における重要な問題を考える。 これはスパースリッジ回帰問題を解くことを含み、どの用語が基盤となるダイナミクスを駆動させるかを決定するために最適性が証明される。 我々は, 疎リッジ回帰のための高速アルゴリズムokridgeを提案し, まず, サドル点の定式化を含む新しい下限計算法を提案する。 (i)線形システム、又は 2)ADMMに基づくアプローチでは,線形系と等調回帰問題を解くことにより,近似演算子を効率的に評価することができる。 また,ビーム探索を利用した解法をウォームスタートする手法を提案する。 提案手法は,市販の解法であるGurobiによって解かれた既存のMIP定式化よりもはるかに高速な実行時間で証明可能な最適性が得られる。

We consider an important problem in scientific discovery, identifying sparse governing equations for nonlinear dynamical systems. This involves solving sparse ridge regression problems to provable optimality in order to determine which terms drive the underlying dynamics. We propose a fast algorithm, OKRidge, for sparse ridge regression, using a novel lower bound calculation involving, first, a saddle point formulation, and from there, either solving (i) a linear system or (ii) using an ADMM-based approach, where the proximal operators can be efficiently evaluated by solving another linear system and an isotonic regression problem. We also propose a method to warm-start our solver, which leverages a beam search. Experimentally, our methods attain provable optimality with run times that are orders of magnitude faster than those of the existing MIP formulations solved by the commercial solver Gurobi.
翻訳日:2023-04-14 13:39:45 公開日:2023-04-13
# 量子誤り訂正符号の発見と実装のための量子ニューラルネットワークの探索

Exploring Quantum Neural Networks for the Discovery and Implementation of Quantum Error-Correcting Codes ( http://arxiv.org/abs/2304.06681v1 )

ライセンス: Link先を確認
A. Chalkiadakis, M. Theocharakis, G. D. Barmparis, G. P. Tsironis(参考訳) 本稿では,量子誤り訂正符号の検出と実装における量子ニューラルネットワークの利用について検討する。 本研究では,量子オートエンコーダを用いたビットフリップ量子誤り訂正符号の実装を成功させ,任意の論理量子ビット状態におけるビットフリップ誤りを効果的に補正することで,量子ニューラルネットワークの有効性を示す。 さらに、近似4ビット誤り訂正符号を用いて振幅減衰の影響を回復するために量子ニューラルネットワークを用いる。 当社のモデルでは,コスト関数の不規則な台地を回避し,トレーニング時間を改善するために,当初提案されていた量子ニューラルネットワーク構造の変更が必要であった。 さらに,量子ニューラルネットワークを利用して,特定の量子チャネルに適した新しい暗号プロトコルを探索する手法を提案する。 これは、ビットフリップチャネルに対して論理量子ビットを明示的に生成する学習によって実証される。 修正された量子ニューラルネットワークは、すべてのタスクにおける標準実装を一貫して上回りました。

We investigate the use of Quantum Neural Networks for discovering and implementing quantum error-correcting codes. Our research showcases the efficacy of Quantum Neural Networks through the successful implementation of the Bit-Flip quantum error-correcting code using a Quantum Autoencoder, effectively correcting bit-flip errors in arbitrary logical qubit states. Additionally, we employ Quantum Neural Networks to restore states impacted by Amplitude Damping by utilizing an approximative 4-qubit error-correcting codeword. Our models required modification to the initially proposed Quantum Neural Network structure to avoid barren plateaus of the cost function and improve training time. Moreover, we propose a strategy that leverages Quantum Neural Networks to discover new encryption protocols tailored for specific quantum channels. This is exemplified by learning to generate logical qubits explicitly for the bit-flip channel. Our modified Quantum Neural Networks consistently outperformed the standard implementations across all tasks.
翻訳日:2023-04-14 13:39:29 公開日:2023-04-13
# ボーソンの超球状クラスターモデル:ヘリウム落下におけるサブスレッショルドハロ状態への応用

Hyperspherical cluster model for bosons: application to sub-threshold halo states in helium drops ( http://arxiv.org/abs/2304.06679v1 )

ライセンス: Link先を確認
N.K. Timofeyuk(参考訳) 数体または多体系から除去された粒子の長距離挙動を記述するため,超球状クラスターモデルを開発した。 5, 6, 8, 10個の原子が2体の軟ガウスポテンシャルを介して相互作用するヘリウム滴の地上および最初の励起状態に適用されている。 超球状クラスター高調波の収束性は、エネルギー、ルート平均二乗ラジイ、および1つの原子で異なる2つのヘリウム滴の波動関数の重なりについて研究した。 モデル空間が増加するにつれて、そのような重なり合いの関数形式は正しい漸近挙動に収束することが示されている。 この領域における重なりの振幅を定量化する漸近正規化係数を算出する。 また、最初の励起状態では、ヘリウム原子は残りから遠く離れて2体分子、すなわちハロを形成することが示されている。 古典的に禁止されている空間領域におけるハロ原子を見つける確率は、後者の定義とドロップ中の原子の数に依存する。 重なり積分の総ノルムである分光係数(spectroscopic factor)は、多体状態の分割数を1つの粒子を取り除いた系の選択状態に変換する。 分光因子を計算し,その総和規則について考察し,ヘリウム滴の構造についてさらに考察した。

To describe long-range behaviour of one particle removed from a few- or a many-body system, a hyperspherical cluster model has been developed. It has been applied to the ground and first excited states of helium drops with five, six, eight and ten atoms interacting via a two-body soft gaussian potential. Convergence of the hyperspherical cluster harmonics expansion is studied for binding energies, root-mean-squared radii and overlaps of the wave functions of two helium drops differing by one atom. It was shown that with increasing model space the functional form of such overlaps at large distances converges to the correct asymptotic behaviour. The asymptotic normalization coefficients that quantify the overlaps' amplitudes in this region are calculated. It was also shown that in the first excited state one helium atom stays far apart from the rest forming a two-body molecule, or a halo. The probability of finding the halo atom in the classically-forbidden region of space depends on the definition of the latter and on the number of atoms in the drop. The total norm of the overlap integrals, the spectroscopic factor, represents the number of partitions of a many-body state into a chosen state of the system with one particle removed. The spectroscopic factors have been calculated and their sum rules are discussed giving a further insight into the structure of helium drops.
翻訳日:2023-04-14 13:39:15 公開日:2023-04-13
# 制約付き多目的ポートフォリオ最適化問題に対する学習的アプローチ

A Learnheuristic Approach to A Constrained Multi-Objective Portfolio Optimisation Problem ( http://arxiv.org/abs/2304.06675v1 )

ライセンス: Link先を確認
Sonia Bullah and Terence L. van Zyl(参考訳) 多目的ポートフォリオ最適化は、与えられたポートフォリオのリスクを最小化しつつ、期待されるリターンを最大化する目的を達成するため、さまざまな分野の研究で研究されている重要な問題である。 しかし、現実的な取引戦略を制限するモデルに現実的な制約を含まない研究も多い。 本研究は、トランザクションや保持コストといった現実的な制約を最適化モデルに導入する。 この問題の非凸性のため、NSGA-II、R-NSGA-II、NSGA-III、U-NSGA-IIIといったメタヒューリスティックアルゴリズムは、この問題を解決する上で重要な役割を果たす。 さらに、シュロゲートモデルが採用するメタヒューリスティックスを強化するため、学習ヒューリスティックなアプローチが採られる。 これらのアルゴリズムはベースラインメタヒューリスティックアルゴリズムと比較され、学習ヒューリスティックを使わずに制約付き多目的最適化問題を解く。 本研究の結果は, 実行に要する時間が非常に長いにもかかわらず, 学習ヒューリスティックアルゴリズムは, ハイパーボリュームと収束率において, ベースラインアルゴリズムよりも優れていたことを示している。 さらに,学習ヒューリスティックスを用いて資産配分の重み付けを行うと,学習ヒューリスティックスを使わずにバックテストよりもリスク率,期待リターン,シャープ率が低下することが示された。 その結果,制約のある多目的ポートフォリオ最適化問題を解くために学習ヒューリスティックスを用いることは,学習ヒューリスティックを使わずに問題解決するよりも優れた結果が得られることがわかった。

Multi-objective portfolio optimisation is a critical problem researched across various fields of study as it achieves the objective of maximising the expected return while minimising the risk of a given portfolio at the same time. However, many studies fail to include realistic constraints in the model, which limits practical trading strategies. This study introduces realistic constraints, such as transaction and holding costs, into an optimisation model. Due to the non-convex nature of this problem, metaheuristic algorithms, such as NSGA-II, R-NSGA-II, NSGA-III and U-NSGA-III, will play a vital role in solving the problem. Furthermore, a learnheuristic approach is taken as surrogate models enhance the metaheuristics employed. These algorithms are then compared to the baseline metaheuristic algorithms, which solve a constrained, multi-objective optimisation problem without using learnheuristics. The results of this study show that, despite taking significantly longer to run to completion, the learnheuristic algorithms outperform the baseline algorithms in terms of hypervolume and rate of convergence. Furthermore, the backtesting results indicate that utilising learnheuristics to generate weights for asset allocation leads to a lower risk percentage, higher expected return and higher Sharpe ratio than backtesting without using learnheuristics. This leads us to conclude that using learnheuristics to solve a constrained, multi-objective portfolio optimisation problem produces superior and preferable results than solving the problem without using learnheuristics.
翻訳日:2023-04-14 13:38:53 公開日:2023-04-13
# LSFSL:Few-shot Learningにおける形状情報の活用

LSFSL: Leveraging Shape Information in Few-shot Learning ( http://arxiv.org/abs/2304.06672v1 )

ライセンス: Link先を確認
Deepan Chakravarthi Padmanabhan, Shruthi Gowda, Elahe Arani, Bahram Zonooz(参考訳) FSL(Few-shot Learning)技術は、限られた経験から人間がどのように学習するかに類似した、少ないサンプルを使用して、データの基盤となるパターンを学習しようとする。 この限られたデータシナリオでは、近道学習やテクスチャバイアスの振る舞いなど、ディープニューラルネットワークに関連する課題はさらに悪化する。 さらに、ショートカット学習に対処することの重要性は、数ショットのセットアップでまだ完全には検討されていない。 そこで本研究では,データに含まれる暗黙の事前情報を利用して,より汎用的な特徴を学習するlsfslを提案する。 包括的分析を通じて,lsfsl学習モデルでは,カラースキームの変化,統計相関,データにおけるグローバルセマンティクスを利用した逆向摂動に対する脆弱性が低くなることを実証する。 本研究は,ロバスト性と一般化を促進するために,少数のアプローチで関連する優先順位を組み込む可能性を浮き彫りにする。

Few-shot learning (FSL) techniques seek to learn the underlying patterns in data using fewer samples, analogous to how humans learn from limited experience. In this limited-data scenario, the challenges associated with deep neural networks, such as shortcut learning and texture bias behaviors, are further exacerbated. Moreover, the significance of addressing shortcut learning is not yet fully explored in the few-shot setup. To address these issues, we propose LSFSL, which enforces the model to learn more generalizable features utilizing the implicit prior information present in the data. Through comprehensive analyses, we demonstrate that LSFSL-trained models are less vulnerable to alteration in color schemes, statistical correlations, and adversarial perturbations leveraging the global semantics in the data. Our findings highlight the potential of incorporating relevant priors in few-shot approaches to increase robustness and generalization.
翻訳日:2023-04-14 13:38:23 公開日:2023-04-13
# レイアウト型画像生成のための診断ベンチマークと反復塗布

Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image Generation ( http://arxiv.org/abs/2304.06671v1 )

ライセンス: Link先を確認
Jaemin Cho, Linjie Li, Zhengyuan Yang, Zhe Gan, Lijuan Wang, Mohit Bansal(参考訳) 空間制御は、制御可能な画像生成のコア機能である。 レイアウト誘導画像生成の進歩は、類似した空間構成を持つIDデータセットにおいて有望な結果を示している。 しかし、これらのモデルが任意で見当たらないレイアウトでout-of-distribution (ood) サンプルと向き合う際にどのように振る舞うかは不明である。 本稿では,空間制御スキルの4つのカテゴリ(数,位置,サイズ,形状)を調べる,レイアウト誘導画像生成のための診断ベンチマークであるlayoutbenchを提案する。 最近の2つの代表的なレイアウト誘導画像生成手法をベンチマークし、良質なidレイアウト制御が野生の任意のレイアウト(例えば境界にあるオブジェクト)にうまく一般化できないことを観察する。 次に,前景領域と背景領域をインペインティングによってステップバイステップで生成する新しいベースラインであるiterinpaintを提案する。 既存のモデルの弱点を特定するために,4つのLayoutBenchスキルの定量的,定性的な評価ときめ細かい分析を行う。 最後に, iterinpaintに関する包括的アブレーション研究を行い, 訓練タスク比, 作物/ペーストvs.レパント, 生成順序について検討した。 プロジェクトサイト: https://layoutbench.github.io

Spatial control is a core capability in controllable image generation. Advancements in layout-guided image generation have shown promising results on in-distribution (ID) datasets with similar spatial configurations. However, it is unclear how these models perform when facing out-of-distribution (OOD) samples with arbitrary, unseen layouts. In this paper, we propose LayoutBench, a diagnostic benchmark for layout-guided image generation that examines four categories of spatial control skills: number, position, size, and shape. We benchmark two recent representative layout-guided image generation methods and observe that the good ID layout control may not generalize well to arbitrary layouts in the wild (e.g., objects at the boundary). Next, we propose IterInpaint, a new baseline that generates foreground and background regions in a step-by-step manner via inpainting, demonstrating stronger generalizability than existing models on OOD layouts in LayoutBench. We perform quantitative and qualitative evaluation and fine-grained analysis on the four LayoutBench skills to pinpoint the weaknesses of existing models. Lastly, we show comprehensive ablation studies on IterInpaint, including training task ratio, crop&paste vs. repaint, and generation order. Project website: https://layoutbench.github.io
翻訳日:2023-04-14 13:38:07 公開日:2023-04-13
# ディープニューラルネットワークはOccamのカミソリを内蔵しているか?

Do deep neural networks have an inbuilt Occam's razor? ( http://arxiv.org/abs/2304.06670v1 )

ライセンス: Link先を確認
Chris Mingard and Henry Rees and Guillermo Valle-P\'erez and Ard A. Louis(参考訳) 過パラメータ化ディープニューラルネットワーク(DNN)の顕著なパフォーマンスは、ネットワークアーキテクチャ、トレーニングアルゴリズム、データ構造間の相互作用から生じなければならない。 これら3つの成分をアンタングル化するために、DNNで表現される関数に基づいたベイズ図を教師あり学習に適用する。 事前のオーバー関数はネットワークによって決定され、順序とカオスのレジーム間の遷移を利用して変化する。 ブール関数の分類では,データ上の関数の誤差スペクトルを用いて確率を近似する。 前者と組み合わせると、これは確率勾配降下で訓練されたDNNの後方を正確に予測する。 この分析により、構造データと(コルモゴロフ)単純関数に対するOccam's razor-likeインダクティブバイアスが組み合わさって、複雑性のある関数の指数的増加を抑えるのに十分な強度を持つことがDNNの成功の鍵であることが分かる。

The remarkable performance of overparameterized deep neural networks (DNNs) must arise from an interplay between network architecture, training algorithms, and structure in the data. To disentangle these three components, we apply a Bayesian picture, based on the functions expressed by a DNN, to supervised learning. The prior over functions is determined by the network, and is varied by exploiting a transition between ordered and chaotic regimes. For Boolean function classification, we approximate the likelihood using the error spectrum of functions on data. When combined with the prior, this accurately predicts the posterior, measured for DNNs trained with stochastic gradient descent. This analysis reveals that structured data, combined with an intrinsic Occam's razor-like inductive bias towards (Kolmogorov) simple functions that is strong enough to counteract the exponential growth of the number of functions with complexity, is a key to the success of DNNs.
翻訳日:2023-04-14 13:37:43 公開日:2023-04-13
# DynaMITe: 多目的対話型セグメンテーショントランスのための動的クエリブートストラップ

DynaMITe: Dynamic Query Bootstrapping for Multi-object Interactive Segmentation Transformer ( http://arxiv.org/abs/2304.06668v1 )

ライセンス: Link先を確認
Amit Kumar Rana, Sabarinath Mahadevan, Alexander Hermans, and Bastian Leibe(参考訳) 最先端のインスタンスセグメンテーション手法の多くは、大量のピクセル精度のグランドトルースアノテーションをトレーニングに頼っている。 インタラクティブセグメンテーションネットワークは、画像とクリックのような対応するユーザインタラクションに基づいて、そのようなアノテーションを生成する。 このタスクの既存のメソッドは一度に1つのインスタンスしか処理できず、各ユーザーインタラクションはディープネットワーク全体を通過する完全なフォワードパスを必要とします。 我々は,複数のオブジェクトインスタンスを単一イテレーションでセグメント化可能なTransformerデコーダに対して,ユーザインタラクションを時空間クエリとして表現するDynaMITeという,より効率的なアプローチを導入する。 我々のアーキテクチャはまた、改善中に画像機能を再計算する必要をなくし、他の方法と比較して、1つの画像に複数のインスタンスを分割する際のインタラクションを少なくする。 DynaMITeは、複数の既存のインタラクティブセグメンテーションベンチマークと、本論文で提案する新しいマルチインスタンスベンチマークに対して、最先端の結果を達成する。

Most state-of-the-art instance segmentation methods rely on large amounts of pixel-precise ground-truth annotations for training, which are expensive to create. Interactive segmentation networks help generate such annotations based on an image and the corresponding user interactions such as clicks. Existing methods for this task can only process a single instance at a time and each user interaction requires a full forward pass through the entire deep network. We introduce a more efficient approach, called DynaMITe, in which we represent user interactions as spatio-temporal queries to a Transformer decoder with a potential to segment multiple object instances in a single iteration. Our architecture also alleviates any need to re-compute image features during refinement, and requires fewer interactions for segmenting multiple instances in a single image when compared to other methods. DynaMITe achieves state-of-the-art results on multiple existing interactive segmentation benchmarks, and also on the new multi-instance benchmark that we propose in this paper.
翻訳日:2023-04-14 13:37:23 公開日:2023-04-13
# スクラッチから学習したトランスフォーマによるリモートセンシング変化検出

Remote Sensing Change Detection With Transformers Trained from Scratch ( http://arxiv.org/abs/2304.06710v1 )

ライセンス: Link先を確認
Mubashir Noman, Mustansar Fiaz, Hisham Cholakkal, Sanath Narayan, Rao Muhammad Anwer, Salman Khan, Fahad Shahbaz Khan(参考訳) 現在のtransformer-based change detection (cd)アプローチは、大規模なイメージ分類imagenetデータセットでトレーニングされた事前トレーニングモデルを採用するか、別のcdデータセットで事前トレーニングし、次にターゲットベンチマークで微調整する。 現在の戦略は、トランスフォーマーが典型的にはインダクティブバイアスを学ぶために大量のトレーニングデータを必要とするという事実によって実現されている。 スクラッチからトレーニングされると同時に,4つの公開ベンチマークで最先端のパフォーマンスを実現するトランスフォーマーを備えた,エンドツーエンドのcdアプローチを開発した。 本アーキテクチャでは,スクラッチからトレーニングした際の帰納バイアスを捉えるのに苦労する従来の自己注意ではなく,選択したスパース情報領域に焦点を絞ったシャッフルスパース注意操作を用いて,CDデータの特徴を捉えている。 さらに,チャネル毎の再重み付けを行うことで,入力画像ペアから特徴を融合するceff(change-enhanced feature fusion)モジュールを導入する。 ceffモジュールは,ノイズを抑えつつ,関連する意味変化の促進を支援する。 4つのCDデータセットの大規模な実験により提案された貢献のメリットが明らかとなり、文献で最も公表された結果と比較して14.27 %の差が得られた。 コードは \url{https://github.com/mustansarfiaz/ScratchFormer} で入手できる。

Current transformer-based change detection (CD) approaches either employ a pre-trained model trained on large-scale image classification ImageNet dataset or rely on first pre-training on another CD dataset and then fine-tuning on the target benchmark. This current strategy is driven by the fact that transformers typically require a large amount of training data to learn inductive biases, which is insufficient in standard CD datasets due to their small size. We develop an end-to-end CD approach with transformers that is trained from scratch and yet achieves state-of-the-art performance on four public benchmarks. Instead of using conventional self-attention that struggles to capture inductive biases when trained from scratch, our architecture utilizes a shuffled sparse-attention operation that focuses on selected sparse informative regions to capture the inherent characteristics of the CD data. Moreover, we introduce a change-enhanced feature fusion (CEFF) module to fuse the features from input image pairs by performing a per-channel re-weighting. Our CEFF module aids in enhancing the relevant semantic changes while suppressing the noisy ones. Extensive experiments on four CD datasets reveal the merits of the proposed contributions, achieving gains as high as 14.27\% in intersection-over-union (IoU) score, compared to the best-published results in the literature. Code is available at \url{https://github.com/mustansarfiaz/ScratchFormer}.
翻訳日:2023-04-14 13:31:47 公開日:2023-04-13
# Verbs in Action: ビデオ言語モデルにおける動詞理解の改善

Verbs in Action: Improving verb understanding in video-language models ( http://arxiv.org/abs/2304.06708v1 )

ライセンス: Link先を確認
Liliane Momeni, Mathilde Caron, Arsha Nagrani, Andrew Zisserman, Cordelia Schmid(参考訳) 動詞を理解することは、人とオブジェクトが空間と時間を通して相互や環境とどのように相互作用するかをモデル化するために重要である。 近年、クリップに基づく最先端のビデオ言語モデルは、動詞の理解が限られており、名詞に依存しており、アクションや時間的理解を必要とする実世界のビデオアプリケーションでのパフォーマンスが制限されていることが示されている。 本稿では,CLIPに基づくビデオ言語モデルの動詞理解を改善するために,VFC(Verb-Focused Contrastive)フレームワークを提案する。 本研究は,(1)事前学習された大規模言語モデル(LLM)を活用して,正と負のペアの概念のバランスをとるための校正戦略,(2)きめ細かな動詞句のアライメント損失を強制する2つの主要な構成要素から構成される。 提案手法は, 言語理解に重点を置く3つの下流タスク, ビデオテキストマッチング, ビデオ質問応答, ビデオ分類において, ゼロショット性能を実現する。 私たちの知る限りでは、これは動詞理解問題を緩和し、単に強調するものではない方法を提案する最初の作品である。

Understanding verbs is crucial to modelling how people and objects interact with each other and the environment through space and time. Recently, state-of-the-art video-language models based on CLIP have been shown to have limited verb understanding and to rely extensively on nouns, restricting their performance in real-world video applications that require action and temporal understanding. In this work, we improve verb understanding for CLIP-based video-language models by proposing a new Verb-Focused Contrastive (VFC) framework. This consists of two main components: (1) leveraging pretrained large language models (LLMs) to create hard negatives for cross-modal contrastive learning, together with a calibration strategy to balance the occurrence of concepts in positive and negative pairs; and (2) enforcing a fine-grained, verb phrase alignment loss. Our method achieves state-of-the-art results for zero-shot performance on three downstream tasks that focus on verb understanding: video-text matching, video question-answering and video classification. To the best of our knowledge, this is the first work which proposes a method to alleviate the verb understanding problem, and does not simply highlight it.
翻訳日:2023-04-14 13:31:20 公開日:2023-04-13
# 不確実性を考慮した信頼できる人間のポーズ予測に向けて

Toward Reliable Human Pose Forecasting with Uncertainty ( http://arxiv.org/abs/2304.06707v1 )

ライセンス: Link先を確認
Saeed Saadatnejad, Mehrshad Mirmohammadi, Matin Daghyani, Parham Saremi, Yashar Zoroofchi Benisi, Amirhossein Alimohammadi, Zahra Tehraninasab, Taylor Mordan, Alexandre Alahi(参考訳) 近年,過去観察された人物の将来の3次元ポーズの列を予測する時空間的課題を解決するために,ポーズ予測手法が群集化している。 しかし、統一ベンチマークの欠如と限られた不確実性分析がこの分野の進歩を妨げている。 そこで我々はまず,複数のモデル,データセット,標準化された評価指標を特徴とする人間のポーズ予測のためのオープンソースライブラリを開発し,研究を促進し,統一的で公正な評価を目指す。 第2に,問題における不確実性の2つのタイプを考案し,パフォーマンスを高め,信頼度を高める。 1) 不確かさの振る舞いに関する知識を注入するために不確実性前兆を用いて,不確かさをモデル化する手法を提案する。 これは、学習パラメータの数を減らし、安定性を改善しながら、より意味のある監視の方向にモデルのキャパシティに焦点を当てる。 2) クラスタリングと課題のエントロピーの測定により, あらゆるモデルの疫学的不確実性を定量化する手法を提案する。 実験では, 精度と不確実性推定性能が最大で25 % 向上した。

Recently, there has been an arms race of pose forecasting methods aimed at solving the spatio-temporal task of predicting a sequence of future 3D poses of a person given a sequence of past observed ones. However, the lack of unified benchmarks and limited uncertainty analysis have hindered progress in the field. To address this, we first develop an open-source library for human pose forecasting, featuring multiple models, datasets, and standardized evaluation metrics, with the aim of promoting research and moving toward a unified and fair evaluation. Second, we devise two types of uncertainty in the problem to increase performance and convey better trust: 1) we propose a method for modeling aleatoric uncertainty by using uncertainty priors to inject knowledge about the behavior of uncertainty. This focuses the capacity of the model in the direction of more meaningful supervision while reducing the number of learned parameters and improving stability; 2) we introduce a novel approach for quantifying the epistemic uncertainty of any model through clustering and measuring the entropy of its assignments. Our experiments demonstrate up to $25\%$ improvements in accuracy and better performance in uncertainty estimation.
翻訳日:2023-04-14 13:30:57 公開日:2023-04-13
# zip-nerf:アンチエイリアスグリッドベースのニューラルネットワーク

Zip-NeRF: Anti-Aliased Grid-Based Neural Radiance Fields ( http://arxiv.org/abs/2304.06706v1 )

ライセンス: Link先を確認
Jonathan T. Barron, Ben Mildenhall, Dor Verbin, Pratul P. Srinivasan, Peter Hedman(参考訳) ニューラルレージアンスフィールドトレーニングは、空間座標から色と体積密度への学習マッピングにおけるグリッドベースの表現を使用することで加速することができる。 しかし、これらのグリッドベースのアプローチはスケールの明確な理解を欠いているため、通常はジャギーやシーン内容の欠如という形でエイリアスを導入することが多い。 Mip-NeRF 360は、線に沿った点ではなく、円錐に沿ってサブボリュームを発生させるが、このアプローチは現在のグリッドベースの技術とネイティブに互換性がない。 本研究では,mip-nerf 360とinstant ngpなどのグリッドベースモデルを組み合わせて,従来の手法よりも8%~76%低い誤差率と,mip-nerf 360よりも22倍高速にトレーニングする手法を,レンダリングと信号処理のアイデアを用いて構築する方法を示す。

Neural Radiance Field training can be accelerated through the use of grid-based representations in NeRF's learned mapping from spatial coordinates to colors and volumetric density. However, these grid-based approaches lack an explicit understanding of scale and therefore often introduce aliasing, usually in the form of jaggies or missing scene content. Anti-aliasing has previously been addressed by mip-NeRF 360, which reasons about sub-volumes along a cone rather than points along a ray, but this approach is not natively compatible with current grid-based techniques. We show how ideas from rendering and signal processing can be used to construct a technique that combines mip-NeRF 360 and grid-based models such as Instant NGP to yield error rates that are 8% - 76% lower than either prior technique, and that trains 22x faster than mip-NeRF 360.
翻訳日:2023-04-14 13:30:38 公開日:2023-04-13
# ドレイプはどんなものか? 深度画像からの織物力学のキャプチャ

How Will It Drape Like? Capturing Fabric Mechanics from Depth Images ( http://arxiv.org/abs/2304.06704v1 )

ライセンス: Link先を確認
Carlos Rodriguez-Pardo, Melania Prieto-Martin, Dan Casas, Elena Garces(参考訳) 深度カメラを用いたカジュアルキャプチャー装置を用いて織物の力学的パラメータを推定する手法を提案する。 本手法は,多くのインタラクティブな設計・工学的応用のための基本ステップである,実世界の繊維材料を機械的に正確なデジタル表現することを可能にする。 通常、高価なセットアップ、ビデオシーケンス、手動による介入を必要とする既存のキャプチャー手法とは対照的に、我々のソリューションは大規模にキャプチャーが可能であり、繊維の光学的外観に依存しない。 そこで本研究では,1つまたは複数の画像を入力し,機械的パラメータの完全なセットを出力する学習ベースのフレームワークを学習するためのsim-to-real戦略を提案する。 本研究の目的は,パラメータ空間における類似性に基づく回帰精度の評価が,人間の知覚と一致しない不正確な距離につながることを示すことである。 そこで本研究では,パラメータ空間に代えて画像領域で動作するファブリックドレープ類似度に関する新しい指標を提案し,類似度ランクの文脈内で推定値を評価する。 提案手法は, ドレープ類似性の知覚に関する人間の判断と相関し, モデル予測が基底真理パラメータと比較して知覚的に正確な結果をもたらすことを示す。

We propose a method to estimate the mechanical parameters of fabrics using a casual capture setup with a depth camera. Our approach enables to create mechanically-correct digital representations of real-world textile materials, which is a fundamental step for many interactive design and engineering applications. As opposed to existing capture methods, which typically require expensive setups, video sequences, or manual intervention, our solution can capture at scale, is agnostic to the optical appearance of the textile, and facilitates fabric arrangement by non-expert operators. To this end, we propose a sim-to-real strategy to train a learning-based framework that can take as input one or multiple images and outputs a full set of mechanical parameters. Thanks to carefully designed data augmentation and transfer learning protocols, our solution generalizes to real images despite being trained only on synthetic data, hence successfully closing the sim-to-real loop.Key in our work is to demonstrate that evaluating the regression accuracy based on the similarity at parameter space leads to an inaccurate distances that do not match the human perception. To overcome this, we propose a novel metric for fabric drape similarity that operates on the image domain instead on the parameter space, allowing us to evaluate our estimation within the context of a similarity rank. We show that out metric correlates with human judgments about the perception of drape similarity, and that our model predictions produce perceptually accurate results compared to the ground truth parameters.
翻訳日:2023-04-14 13:30:21 公開日:2023-04-13
# バースト復旧・拡張のためのゲート型マルチレゾリューション転送ネットワーク

Gated Multi-Resolution Transfer Network for Burst Restoration and Enhancement ( http://arxiv.org/abs/2304.06703v1 )

ライセンス: Link先を確認
Nancy Mehta, Akshay Dudhane, Subrahmanyam Murala, Syed Waqas Zamir, Salman Khan, Fahad Shahbaz Khan(参考訳) 近年、バースト画像処理が人気を博している。 しかし、個々のバースト画像が複数の劣化を経験し、ゴーストやジッパーのアーティファクトに繋がる相互のミスアライメントがしばしばあるため、これは難しい課題である。 既存のバースト復元法は、通常バーストフレーム間の相互相関や非局所的文脈情報を考慮していない。 もうひとつの重要な課題は、バーストフレームの堅牢なアップサンプリングである。 既存のアップサンプリング方式では,従来のアップサンプリング方式や最近のアップサンプリング方式では,シングルステージおよびプログレッシブアップサンプリング方式の利点を効果的に活用できない。 そこで,本稿では,低画質生画像のバーストから空間的精度の高い高品質画像を再構成する新しいゲート型マルチレゾリューショントランスファーネットワーク(gmtnet)を提案する。 gmtnetは、バースト処理タスクに最適化された3つのモジュールで構成されている: 特徴のデノイジングとアライメントのためのマルチスケールバースト機能アライメント(mbfa)、マルチフレーム機能アグリゲーションのためのトランスポス・アテンション機能マージ(tafm)、スケールアップされた機能へのレゾリューション転送機能アップサンプラー(rtfu)。 5つのデータセットに関する詳細な実験分析は、このアプローチを検証し、バーストスーパーレゾリューション、バーストデニュージング、ローライトバーストエンハンスメントのための最新技術を設定します。

Burst image processing is becoming increasingly popular in recent years. However, it is a challenging task since individual burst images undergo multiple degradations and often have mutual misalignments resulting in ghosting and zipper artifacts. Existing burst restoration methods usually do not consider the mutual correlation and non-local contextual information among burst frames, which tends to limit these approaches in challenging cases. Another key challenge lies in the robust up-sampling of burst frames. The existing up-sampling methods cannot effectively utilize the advantages of single-stage and progressive up-sampling strategies with conventional and/or recent up-samplers at the same time. To address these challenges, we propose a novel Gated Multi-Resolution Transfer Network (GMTNet) to reconstruct a spatially precise high-quality image from a burst of low-quality raw images. GMTNet consists of three modules optimized for burst processing tasks: Multi-scale Burst Feature Alignment (MBFA) for feature denoising and alignment, Transposed-Attention Feature Merging (TAFM) for multi-frame feature aggregation, and Resolution Transfer Feature Up-sampler (RTFU) to up-scale merged features and construct a high-quality output image. Detailed experimental analysis on five datasets validates our approach and sets a state-of-the-art for burst super-resolution, burst denoising, and low-light burst enhancement.
翻訳日:2023-04-14 13:29:54 公開日:2023-04-13
# 個人化意思決定支援政策の学習

Learning Personalized Decision Support Policies ( http://arxiv.org/abs/2304.06701v1 )

ライセンス: Link先を確認
Umang Bhatt, Valerie Chen, Katherine M. Collins, Parameswaran Kamalaruban, Emma Kallina, Adrian Weller, Ameet Talwalkar(参考訳) 個人の意思決定者は、意思決定の成果を改善するために異なる形式の支援の恩恵を受けることができる。 しかしながら、重要な疑問は、どの形式のサポートが、低コストで正確な決定につながるかである。 本研究は,与えられた入力に対して,提供すべき支援形態を選択する決定支援政策の学習を提案する。 我々は、事前情報を持っていない意思決定者に対して、精度とコストをトレードオフする多目的最適化問題として、各政策の学習を形式化する。 確率的文脈的包帯からの手法を用いて、意思決定者ごとの決定支援ポリシーをパーソナライズするオンラインアルゴリズムである$\texttt{THREAD}$を提案し、シミュレーションされた人間の行動を用いてコストパフォーマンストレードオフを特定するためのハイパーパラメータチューニング戦略を考案する。 オフラインベースラインと比較して$\texttt{THREAD}$の利点を示すための計算実験を提供する。 次に、インタフェースで$\texttt{thread}$を提供するインタラクティブなツールである$\texttt{modiste}$を紹介します。 我々は、各意思決定者にパーソナライズされたポリシーを学習し、実際のユーザのためにオンラインで学習決定支援ポリシーのニュアンスについて議論する方法を示すために、人間の主題実験を行う。

Individual human decision-makers may benefit from different forms of support to improve decision outcomes. However, a key question is which form of support will lead to accurate decisions at a low cost. In this work, we propose learning a decision support policy that, for a given input, chooses which form of support, if any, to provide. We consider decision-makers for whom we have no prior information and formalize learning their respective policies as a multi-objective optimization problem that trades off accuracy and cost. Using techniques from stochastic contextual bandits, we propose $\texttt{THREAD}$, an online algorithm to personalize a decision support policy for each decision-maker, and devise a hyper-parameter tuning strategy to identify a cost-performance trade-off using simulated human behavior. We provide computational experiments to demonstrate the benefits of $\texttt{THREAD}$ compared to offline baselines. We then introduce $\texttt{Modiste}$, an interactive tool that provides $\texttt{THREAD}$ with an interface. We conduct human subject experiments to show how $\texttt{Modiste}$ learns policies personalized to each decision-maker and discuss the nuances of learning decision support policies online for real users.
翻訳日:2023-04-14 13:29:26 公開日:2023-04-13
# 単視点画像からの3次元拡散モデルの学習

Learning Controllable 3D Diffusion Models from Single-view Images ( http://arxiv.org/abs/2304.06700v1 )

ライセンス: Link先を確認
Jiatao Gu, Qingzhe Gao, Shuangfei Zhai, Baoquan Chen, Lingjie Liu and Josh Susskind(参考訳) 拡散モデルは最近、2次元領域における生成モデリングのデファクトアプローチとなっている。 しかし,3次元基底真理データ取得の難しさから,拡散モデルを3次元に拡張することは困難である。 一方、暗黙的な3D表現をGANに統合する3D GANは、単一ビューの画像データセットのみをトレーニングした場合、顕著な3D認識生成を示す。 しかし、3D GANは画像合成を正確に制御する方法を提供していない。 これらの課題に対処するため,我々は,拡散モデルの強みと3次元ganを組み合わせる3次元拡散モデルである control3diff を提案する。 Control3Diffは、下層の潜伏分布(外部入力に任意に条件付けされている)を明示的にモデル化し、拡散過程の直接制御を可能にする。 さらに,本手法は汎用的であり,任意の種類の制御入力に適用可能であり,補助的監督なしに同じ拡散目標で学習することができる。 FFHQ,AFHQ,ShapeNetなどの標準画像生成ベンチマークにおいて,画像,スケッチ,テキストプロンプトなどの条件入力を用いて制御3Diffの有効性を検証する。 ビデオの比較についてはプロジェクトのWebサイト(\url{https://jiataogu.me/control3diff})を参照してください。

Diffusion models have recently become the de-facto approach for generative modeling in the 2D domain. However, extending diffusion models to 3D is challenging due to the difficulties in acquiring 3D ground truth data for training. On the other hand, 3D GANs that integrate implicit 3D representations into GANs have shown remarkable 3D-aware generation when trained only on single-view image datasets. However, 3D GANs do not provide straightforward ways to precisely control image synthesis. To address these challenges, We present Control3Diff, a 3D diffusion model that combines the strengths of diffusion models and 3D GANs for versatile, controllable 3D-aware image synthesis for single-view datasets. Control3Diff explicitly models the underlying latent distribution (optionally conditioned on external inputs), thus enabling direct control during the diffusion process. Moreover, our approach is general and applicable to any type of controlling input, allowing us to train it with the same diffusion objective without any auxiliary supervision. We validate the efficacy of Control3Diff on standard image generation benchmarks, including FFHQ, AFHQ, and ShapeNet, using various conditioning inputs such as images, sketches, and text prompts. Please see the project website (\url{https://jiataogu.me/control3diff}) for video comparisons.
翻訳日:2023-04-14 13:29:04 公開日:2023-04-13
# 駆動・無秩序箱型ボースガス中における拡散動的スケーリングの観測

Observation of subdiffusive dynamic scaling in a driven and disordered box-trapped Bose gas ( http://arxiv.org/abs/2304.06697v1 )

ライセンス: Link先を確認
Gevorg Martirosyan, Christopher J. Ho, Ji\v{r}\'i Etrych, Yansheng Zhang, Alec Cao, Zoran Hadzibabic, Christoph Eigen(参考訳) 弱い障害の存在下での強い周期的強制下での調律可能なボックストラッピングボース気体のダイナミクスについて検討する。 粒子間相互作用がなければ、駆動と乱れの相互作用は等方性非熱運動量分布となり、非拡散的動的スケーリングを示す。 相互作用強度を高めるために、気体の挙動はパワーロー運動量分布によって特徴づけられる波乱流に交差する。

We explore the dynamics of a tuneable box-trapped Bose gas under strong periodic forcing in the presence of weak disorder. In absence of interparticle interactions, the interplay of the drive and disorder results in an isotropic nonthermal momentum distribution that shows subdiffusive dynamic scaling, with sublinear energy growth and the universal scaling function captured well by a compressed exponential. For increasing interaction strength, the gas behavior crosses over to wave turbulence characterized by a power-law momentum distribution.
翻訳日:2023-04-14 13:28:44 公開日:2023-04-13
# ハンドジェスチャデータを用いた生成対向ネットワークによる新規性検出の改善

Improving novelty detection with generative adversarial networks on hand gesture data ( http://arxiv.org/abs/2304.06696v1 )

ライセンス: Link先を確認
Miguel Sim\~ao, Pedro Neto, Olivier Gibaru(参考訳) 本稿では,GAN(Generative Adversarial Network)フレームワークで訓練されたニューラルネットワーク(ANN)を用いた語彙外ジェスチャの分類方法を提案する。 生成モデルは、新しいサンプルと確率的ターゲットベクトルでオンライン形式でデータセットを増大させ、識別モデルはサンプルのクラスを決定する。 アプローチはUC2017 SGとUC2018 DualMyoデータセットで評価された。 生成モデルの性能は, 生成試料と実試料の距離測定値を用いて測定した。 識別モデルは, 訓練クラスと新規クラスにおける精度によって評価された。 サンプル生成品質の面では、GANは各クラスの平均距離におけるランダム分布(ノイズ)よりもはるかに優れている。 分類試験では、ベースラインニューラルネットワークは訓練されていないジェスチャーを識別できなかった。 提案手法を施行した際,訓練中のジェスチャの検出と未訓練のジェスチャの検出にはトレードオフがあることが判明した。 それでも95.4%または90.2%の新規検出精度(データセットに依存している)は、訓練されたクラスでわずか5%の精度で達成された。

We propose a novel way of solving the issue of classification of out-of-vocabulary gestures using Artificial Neural Networks (ANNs) trained in the Generative Adversarial Network (GAN) framework. A generative model augments the data set in an online fashion with new samples and stochastic target vectors, while a discriminative model determines the class of the samples. The approach was evaluated on the UC2017 SG and UC2018 DualMyo data sets. The generative models performance was measured with a distance metric between generated and real samples. The discriminative models were evaluated by their accuracy on trained and novel classes. In terms of sample generation quality, the GAN is significantly better than a random distribution (noise) in mean distance, for all classes. In the classification tests, the baseline neural network was not capable of identifying untrained gestures. When the proposed methodology was implemented, we found that there is a trade-off between the detection of trained and untrained gestures, with some trained samples being mistaken as novelty. Nevertheless, a novelty detection accuracy of 95.4% or 90.2% (depending on the data set) was achieved with just 5% loss of accuracy on trained classes.
翻訳日:2023-04-14 13:28:33 公開日:2023-04-13
# リッチテキストを用いた表現型テキスト・画像生成

Expressive Text-to-Image Generation with Rich Text ( http://arxiv.org/abs/2304.06720v1 )

ライセンス: Link先を確認
Songwei Ge, Taesung Park, Jun-Yan Zhu, Jia-Bin Huang(参考訳) プレーンテキストはテキストと画像の合成の一般的なインターフェースになっている。 しかし、その限定されたカスタマイズオプションは、ユーザーが求める出力を正確に記述することを妨げる。 例えば、プレーンテキストは、それぞれの単語の正確なRGB色値や重要性など、連続的な量を特定するのを難しくしている。 さらに、複雑なシーンのための詳細なテキストプロンプトを作成することは、人間が書くのが面倒で、テキストエンコーダが解釈するのは難しい。 これらの課題に対処するために、フォントスタイル、サイズ、色、脚注などのフォーマットをサポートするリッチテキストエディタの使用を提案する。 各単語の属性をリッチテキストから抽出し,局所的なスタイル制御,明示的なトークン重み付け,正確なカラーレンダリング,詳細な領域合成を可能にした。 領域ベースの拡散プロセスによりこれらの機能を実現する。 まず,原文を用いたバニラ拡散過程のクロスアテンションマップに基づいて,各単語の領域を求める。 各領域に対して,地域固有の詳細なプロンプトを作成し,地域固有のガイダンスを適用することで,テキスト属性を強制する。 本手法は,リッチテキストから画像を生成する様々な例を示し,定量的評価により強力なベースラインを上回ることを示す。

Plain text has become a prevalent interface for text-to-image synthesis. However, its limited customization options hinder users from accurately describing desired outputs. For example, plain text makes it hard to specify continuous quantities, such as the precise RGB color value or importance of each word. Furthermore, creating detailed text prompts for complex scenes is tedious for humans to write and challenging for text encoders to interpret. To address these challenges, we propose using a rich-text editor supporting formats such as font style, size, color, and footnote. We extract each word's attributes from rich text to enable local style control, explicit token reweighting, precise color rendering, and detailed region synthesis. We achieve these capabilities through a region-based diffusion process. We first obtain each word's region based on cross-attention maps of a vanilla diffusion process using plain text. For each region, we enforce its text attributes by creating region-specific detailed prompts and applying region-specific guidance. We present various examples of image generation from rich text and demonstrate that our method outperforms strong baselines with quantitative evaluations.
翻訳日:2023-04-14 13:21:23 公開日:2023-04-13
# RoboBEV:倒産後のロバストバードの視線認識に向けて

RoboBEV: Towards Robust Bird's Eye View Perception under Corruptions ( http://arxiv.org/abs/2304.06719v1 )

ライセンス: Link先を確認
Shaoyuan Xie, Lingdong Kong, Wenwei Zhang, Jiawei Ren, Liang Pan, Kai Chen, Ziwei Liu(参考訳) 近年のカメラベースバードアイビュー(BEV)表示の進歩は、車載3D知覚に大きな可能性を示している。 標準ベンチマークでのかなりの進歩にもかかわらず、BEVアルゴリズムの堅牢性は十分には検討されていない。 このギャップを埋めるために、私たちは、Bright、Dark、Fog、Snow、Motion Blur、Color Quant、Camera Crash、Frame Lostを含む8つの異なる汚職を含む包括的なベンチマークスイートであるRoboBEVを紹介した。 それに基づいて,幅広いbevベースモデルに対する広範な評価を行い,レジリエンスと信頼性について検討した。 以上の結果から,分布内絶対性能と分布外データセットとの間には強い相関関係があることが示唆された。 それでも、異なるアプローチにまたがる相対的なパフォーマンスにはかなりのバリエーションがある。 さらに, 事前学習および深度自由なBEVトランスフォーメーションが, 分布外ロバスト性を高める可能性を実証した。 さらに、長く豊かな時間情報を活用することは、堅牢性に大きく寄与する。 我々の発見は、現実の展開において正確性と堅牢性を両立できる将来のBEVモデルを設計するための貴重な洞察を提供する。

The recent advances in camera-based bird's eye view (BEV) representation exhibit great potential for in-vehicle 3D perception. Despite the substantial progress achieved on standard benchmarks, the robustness of BEV algorithms has not been thoroughly examined, which is critical for safe operations. To bridge this gap, we introduce RoboBEV, a comprehensive benchmark suite that encompasses eight distinct corruptions, including Bright, Dark, Fog, Snow, Motion Blur, Color Quant, Camera Crash, and Frame Lost. Based on it, we undertake extensive evaluations across a wide range of BEV-based models to understand their resilience and reliability. Our findings indicate a strong correlation between absolute performance on in-distribution and out-of-distribution datasets. Nonetheless, there are considerable variations in relative performance across different approaches. Our experiments further demonstrate that pre-training and depth-free BEV transformation has the potential to enhance out-of-distribution robustness. Additionally, utilizing long and rich temporal information largely helps with robustness. Our findings provide valuable insights for designing future BEV models that can achieve both accuracy and robustness in real-world deployments.
翻訳日:2023-04-14 13:21:07 公開日:2023-04-13
# あらゆるものを一度にセグメンテーションする

Segment Everything Everywhere All at Once ( http://arxiv.org/abs/2304.06718v1 )

ライセンス: Link先を確認
Xueyan Zou, Jianwei Yang, Hao Zhang, Feng Li, Linjie Li, Jianfeng Gao, Yong Jae Lee(参考訳) 対話型AIシステムへの需要が高まっているにもかかわらず、セグメンテーションのような視覚的理解における人間とAIの相互作用に関する包括的な研究はほとんどない。 llmsのためのプロンプトベースのユニバーサルインターフェースの開発に触発された本論文は、画像中のあらゆるものを一度にセグメンテーションするための、迅速かつインタラクティブなモデルであるように見える。 4つのデシデラタがあります i) 汎用性: ポイント,ボックス,スクリブル,マスク,テキスト,その他の画像の参照領域を含む,さまざまな種類のプロンプトに対して汎用的なプロンプトエンジンを導入すること。 二 構成性:図1に示すように、視覚的及びテキスト的指示のための共同視覚的セマンティック空間を学習し、ハエに照らし出すためのクエリを構成すること。 三 対話性 学習可能なメモリプロンプトを組み込むことにより、マスク誘導による対話履歴情報を保持し、及び iv)意味認識: テキストエンコーダを使用してテキストクエリとマスクラベルをエンコードして、オープン語彙セグメンテーションを行う。

Despite the growing demand for interactive AI systems, there have been few comprehensive studies on human-AI interaction in visual understanding e.g. segmentation. Inspired by the development of prompt-based universal interfaces for LLMs, this paper presents SEEM, a promptable, interactive model for Segmenting Everything Everywhere all at once in an image. SEEM has four desiderata: i) Versatility: by introducing a versatile prompting engine for different types of prompts, including points, boxes, scribbles, masks, texts, and referred regions of another image; ii) Compositionality: by learning a joint visual-semantic space for visual and textual prompts to compose queries on the fly for inference as shown in Fig 1; iii)Interactivity: by incorporating learnable memory prompts to retain dialog history information via mask-guided cross-attention; and iv) Semantic-awareness: by using a text encoder to encode text queries and mask labels for open-vocabulary segmentation.
翻訳日:2023-04-14 13:20:50 公開日:2023-04-13
# ダイナミックMLPマップとしてのボリュームビデオの表現

Representing Volumetric Videos as Dynamic MLP Maps ( http://arxiv.org/abs/2304.06717v1 )

ライセンス: Link先を確認
Sida Peng, Yunzhi Yan, Qing Shuai, Hujun Bao, Xiaowei Zhou(参考訳) 本稿では,ダイナミックシーンのリアルタイムビュー合成のためのボリュームビデオの表現について紹介する。 近年のニューラル・シーン表現の進歩は、複雑な静的なシーンをモデル化しレンダリングする能力を示すが、動的シーンを表現するために拡張するのは、レンダリング速度の遅いか、ストレージコストが高いため簡単ではない。 この問題を解決するために、我々は各フレームの放射界を、MLPマップと呼ばれる2次元グリッドにパラメータを格納し、全てのフレームで共有される2次元CNNデコーダによって動的に予測される浅いMLPネットワークの集合として表現する。 3Dシーンを浅いMLPで表現することでレンダリング速度が大幅に向上する一方で、共有2D CNNでMPPパラメータを動的に予測することで、ストレージコストの低減につながる。 実験により、提案手法はnhrおよびzju-mocapデータセットで最先端のレンダリング品質を達成でき、rtx 3090 gpu上で41.7 fpsで512 \times 512$イメージのリアルタイムレンダリングに効率的であることが示されている。 コードはhttps://zju3dv.github.io/mlp_maps/で入手できる。

This paper introduces a novel representation of volumetric videos for real-time view synthesis of dynamic scenes. Recent advances in neural scene representations demonstrate their remarkable capability to model and render complex static scenes, but extending them to represent dynamic scenes is not straightforward due to their slow rendering speed or high storage cost. To solve this problem, our key idea is to represent the radiance field of each frame as a set of shallow MLP networks whose parameters are stored in 2D grids, called MLP maps, and dynamically predicted by a 2D CNN decoder shared by all frames. Representing 3D scenes with shallow MLPs significantly improves the rendering speed, while dynamically predicting MLP parameters with a shared 2D CNN instead of explicitly storing them leads to low storage cost. Experiments show that the proposed approach achieves state-of-the-art rendering quality on the NHR and ZJU-MoCap datasets, while being efficient for real-time rendering with a speed of 41.7 fps for $512 \times 512$ images on an RTX 3090 GPU. The code is available at https://zju3dv.github.io/mlp_maps/.
翻訳日:2023-04-14 13:20:31 公開日:2023-04-13
# STU-Net:大規模監視事前訓練を応用したスケーラブルかつ伝達可能な医用画像分割モデル

STU-Net: Scalable and Transferable Medical Image Segmentation Models Empowered by Large-Scale Supervised Pre-training ( http://arxiv.org/abs/2304.06716v1 )

ライセンス: Link先を確認
Ziyan Huang, Haoyu Wang, Zhongying Deng, Jin Ye, Yanzhou Su, Hui Sun, Junjun He, Yun Gu, Lixu Gu, Shaoting Zhang and Yu Qiao(参考訳) 大規模データセットで事前トレーニングされた大規模モデルは、ディープラーニングの開発を大いに前進させた。 しかし、医用画像のセグメンテーションの最先端モデルはまだ小規模であり、そのパラメータは数千万に過ぎません。 さらに高い階数までスケールすることは滅多にない。 大規模なモデルを探索する全体的な目標は、転送能力を改善するために、大規模医療セグメンテーションデータセットでそれらをトレーニングすることだ。 本研究では,1400万から140億のパラメータサイズを持つ拡張性と転送可能なU-Net(STU-Net)モデルを設計する。 特に、1.4B STU-Netは、これまでで最大の医療画像分割モデルである。 我々のSTU-NetはnU-Netフレームワークをベースとしています。 まず、nU-Netのデフォルトの畳み込みブロックを改良して、スケーラブルにする。 そして,ネットワーク深度と幅の異なるスケーリング組み合わせを実験的に評価し,モデル深度と幅を同時にスケーリングすることが最適であることを確認した。 我々は、大規模TotalSegmentatorデータセットでスケーラブルなSTU-Netモデルをトレーニングし、モデルサイズの増加によってパフォーマンスが向上することを発見した。 この観察により、大きなモデルが医用画像分割に有望であることが分かる。 さらに,14のダウンストリームデータセット上での転送可能性を評価し,さらに3つのデータセットを用いて,様々なモーダリティやセグメンテーションターゲットを対象とする微調整を行った。 我々は、直接推論と微調整の両方において、事前訓練されたモデルの性能を観察する。 コードと事前学習されたモデルはhttps://github.com/ziyan-huang/stu-netで入手できる。

Large-scale models pre-trained on large-scale datasets have profoundly advanced the development of deep learning. However, the state-of-the-art models for medical image segmentation are still small-scale, with their parameters only in the tens of millions. Further scaling them up to higher orders of magnitude is rarely explored. An overarching goal of exploring large-scale models is to train them on large-scale medical segmentation datasets for better transfer capacities. In this work, we design a series of Scalable and Transferable U-Net (STU-Net) models, with parameter sizes ranging from 14 million to 1.4 billion. Notably, the 1.4B STU-Net is the largest medical image segmentation model to date. Our STU-Net is based on nnU-Net framework due to its popularity and impressive performance. We first refine the default convolutional blocks in nnU-Net to make them scalable. Then, we empirically evaluate different scaling combinations of network depth and width, discovering that it is optimal to scale model depth and width together. We train our scalable STU-Net models on a large-scale TotalSegmentator dataset and find that increasing model size brings a stronger performance gain. This observation reveals that a large model is promising in medical image segmentation. Furthermore, we evaluate the transferability of our model on 14 downstream datasets for direct inference and 3 datasets for further fine-tuning, covering various modalities and segmentation targets. We observe good performance of our pre-trained model in both direct inference and fine-tuning. The code and pre-trained models are available at https://github.com/Ziyan-Huang/STU-Net.
翻訳日:2023-04-14 13:20:08 公開日:2023-04-13
# 説明不変性と等分散による解釈可能性法のロバスト性評価

Evaluating the Robustness of Interpretability Methods through Explanation Invariance and Equivariance ( http://arxiv.org/abs/2304.06715v1 )

ライセンス: Link先を確認
Jonathan Crabb\'e, Mihaela van der Schaar(参考訳) 解釈可能性の手法は、説明が説明されたモデルを忠実に記述している場合にのみ有用である。 本研究では,特定の対称性群の下での予測が不変であるニューラルネットワークについて考察する。 これには畳み込みからグラフニューラルネットワークまで、一般的なアーキテクチャが含まれている。 この種のモデルを忠実に説明する説明は、この不変性と一致する必要がある。 我々は,幾何学的深層学習の形式化を活かし,説明不変性と等分散の概念を通して,この直観を定式化する。 この厳密な形式主義を通じて、(1)モデル対称性群に関する任意の解釈可能性法のロバスト性を測定するための2つの指標、(2)一般的な解釈可能性法の理論的堅牢性を保証すること、(3)対称性群に関する任意の解釈可能性法の不変性を高めるための体系的なアプローチを導出する。 様々なモダリティや対称性グループに関連するモデルの説明のためのメトリクスを実証的に測定することにより、ユーザと開発者が堅牢な説明を作成できる5つのガイドラインを導出する。

Interpretability methods are valuable only if their explanations faithfully describe the explained model. In this work, we consider neural networks whose predictions are invariant under a specific symmetry group. This includes popular architectures, ranging from convolutional to graph neural networks. Any explanation that faithfully explains this type of model needs to be in agreement with this invariance property. We formalize this intuition through the notion of explanation invariance and equivariance by leveraging the formalism from geometric deep learning. Through this rigorous formalism, we derive (1) two metrics to measure the robustness of any interpretability method with respect to the model symmetry group; (2) theoretical robustness guarantees for some popular interpretability methods and (3) a systematic approach to increase the invariance of any interpretability method with respect to a symmetry group. By empirically measuring our metrics for explanations of models associated with various modalities and symmetry groups, we derive a set of 5 guidelines to allow users and developers of interpretability methods to produce robust explanations.
翻訳日:2023-04-14 13:19:44 公開日:2023-04-13
# 単段拡散NeRF : 3次元生成と再構成への統一的アプローチ

Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and Reconstruction ( http://arxiv.org/abs/2304.06714v1 )

ライセンス: Link先を確認
Hansheng Chen, Jiatao Gu, Anpei Chen, Wei Tian, Zhuowen Tu, Lingjie Liu, Hao Su(参考訳) 3D対応画像合成は、シーン生成や画像からの新規ビュー合成など、様々なタスクを含む。 多くのタスク固有の手法にもかかわらず、包括的なモデルの開発は依然として困難である。 本稿では,様々な物体の多視点画像からニューラルレイディアンス場(NeRF)の一般化を学習するために,表現拡散モデルを用いた統一的アプローチであるSSDNeRFを提案する。 これまでの研究では、事前訓練されたNeRFを実データとして利用して拡散モデルを訓練してきた。 そこで本研究では,nrfオートデコーダと潜在拡散モデルを同時に最適化し,可視性の低いビューからでも同時3次元再構成と事前学習を実現する,エンドツーエンドの目標を持つ新しい単段階学習パラダイムを提案する。 実験時には, 未条件発生前の拡散を直接サンプリングしたり, 未確認物体の任意の観測と組み合わせてNeRF再構成を行うことができる。 SSDNeRFは、非条件生成および単一/スパースビュー3D再構成において、主要なタスク固有手法に匹敵するロバストな結果を示す。

3D-aware image synthesis encompasses a variety of tasks, such as scene generation and novel view synthesis from images. Despite numerous task-specific methods, developing a comprehensive model remains challenging. In this paper, we present SSDNeRF, a unified approach that employs an expressive diffusion model to learn a generalizable prior of neural radiance fields (NeRF) from multi-view images of diverse objects. Previous studies have used two-stage approaches that rely on pretrained NeRFs as real data to train diffusion models. In contrast, we propose a new single-stage training paradigm with an end-to-end objective that jointly optimizes a NeRF auto-decoder and a latent diffusion model, enabling simultaneous 3D reconstruction and prior learning, even from sparsely available views. At test time, we can directly sample the diffusion prior for unconditional generation, or combine it with arbitrary observations of unseen objects for NeRF reconstruction. SSDNeRF demonstrates robust results comparable to or better than leading task-specific methods in unconditional generation and single/sparse-view 3D reconstruction.
翻訳日:2023-04-14 13:19:27 公開日:2023-04-13
# フーリエ完全有界多項式の影響と量子アルゴリズムの古典シミュレーション

Influences of Fourier Completely Bounded Polynomials and Classical Simulation of Quantum Algorithms ( http://arxiv.org/abs/2304.06713v1 )

ライセンス: Link先を確認
Francisco Escudero Guti\'errez(参考訳) 我々は、Arunachalam, Bri\"et and Palazuelos (SICOMP'19) の主な結果の新しいプレゼンテーションを行い、量子クエリアルゴリズムがフーリエ完全有界多項式と呼ばれる新しい多項式のクラスによって特徴づけられることを示す。 そのような多項式はすべて影響変数を持つと推測する。 この予想は有名なaaronson-ambainis (aa) 予想 (theory of computing '14) よりも弱いが、量子クエリアルゴリズムの古典的なシミュレーションにも同じ意味を持つ。 我々は、同次フーリエ完全有界多項式に対して成り立つことを示すことにより、AA予想の新しいケースを証明した。 これは、$d$-query量子アルゴリズムの出力が次数2d$の等質多項式$p$であるなら、少なくとも$Var[p]^2$の影響を持つ変数を持つことを意味する。 さらに、Bansal, Sinha and de Wolf (CCC'22 and QIP'23) の結果の代替証明として、ブロック-多重線型完全有界多項式が影響変数を持つことを示す。 我々の証明はより単純で、より良い定数を得、ランダム性を使用しない。

We give a new presentation of the main result of Arunachalam, Bri\"et and Palazuelos (SICOMP'19) and show that quantum query algorithms are characterized by a new class of polynomials which we call Fourier completely bounded polynomials. We conjecture that all such polynomials have an influential variable. This conjecture is weaker than the famous Aaronson-Ambainis (AA) conjecture (Theory of Computing'14), but has the same implications for classical simulation of quantum query algorithms. We prove a new case of the AA conjecture by showing that it holds for homogeneous Fourier completely bounded polynomials. This implies that if the output of $d$-query quantum algorithm is a homogeneous polynomial $p$ of degree $2d$, then it has a variable with influence at least $Var[p]^2$. In addition, we give an alternative proof of the results of Bansal, Sinha and de Wolf (CCC'22 and QIP'23) showing that block-multilinear completely bounded polynomials have influential variables. Our proof is simpler, obtains better constants and does not use randomness.
翻訳日:2023-04-14 13:19:07 公開日:2023-04-13
# CLIPはレッドサークルについて何を知っていますか? VLMのためのビジュアルプロンプトエンジニアリング

What does CLIP know about a red circle? Visual prompt engineering for VLMs ( http://arxiv.org/abs/2304.06712v1 )

ライセンス: Link先を確認
Aleksandar Shtedritski, Christian Rupprecht, Andrea Vedaldi(参考訳) CLIPのような大規模ビジョンランゲージモデルは、ゼロショット分類からテキスト・ツー・イメージ生成に至るまで、多数のアプリケーションを発見した強力な画像テキスト表現を学習する。 それにもかかわらず、GPT-3のような大規模言語モデルに後れを取って、新しい差別的タスクを解く能力がある。 ここでは,テキストではなく画像空間で編集することにより,分類以外のコンピュータビジョンの課題を解決するビジュアルプロンプトエンジニアリングの考え方を検討する。 特に、CLIPの創発的な能力は、単にオブジェクトの周りに赤い円を描くことで、その領域にモデルの注意を向けると同時に、グローバルな情報を維持することができる。 ゼロショット参照表現の理解とキーポイントローカライゼーションタスクにおける強力なパフォーマンスを実現することにより,この単純なアプローチのパワーを示す。 最後に、大きな言語ビジョンモデルの潜在的な倫理的懸念に注意を向ける。

Large-scale Vision-Language Models, such as CLIP, learn powerful image-text representations that have found numerous applications, from zero-shot classification to text-to-image generation. Despite that, their capabilities for solving novel discriminative tasks via prompting fall behind those of large language models, such as GPT-3. Here we explore the idea of visual prompt engineering for solving computer vision tasks beyond classification by editing in image space instead of text. In particular, we discover an emergent ability of CLIP, where, by simply drawing a red circle around an object, we can direct the model's attention to that region, while also maintaining global information. We show the power of this simple approach by achieving state-of-the-art in zero-shot referring expressions comprehension and strong performance in keypoint localization tasks. Finally, we draw attention to some potential ethical concerns of large language-vision models.
翻訳日:2023-04-14 13:18:47 公開日:2023-04-13
# DiffusionRig: 顔画像編集のための個人化優先学習

DiffusionRig: Learning Personalized Priors for Facial Appearance Editing ( http://arxiv.org/abs/2304.06711v1 )

ライセンス: Link先を確認
Zheng Ding, Xuaner Zhang, Zhihao Xia, Lars Jebe, Zhuowen Tu, Xiuming Zhang(参考訳) 本研究は,同一人物の肖像写真の少ない数(例:20)から,人物固有の顔の優先順位を学習する問題に対処する。 これにより、表情や照明などの特定の人物の顔の外観を編集し、身元や高周波の顔の詳細を保存できる。 筆者らがDiffusionRigをダブしたアプローチの鍵となるのは、市販の推定器で推定された1本の線内画像から推定される粗い3次元顔モデルである。 DiffusionRigは高いレベルで、3D顔モデルの単純なレンダリングを、ある人のリアルな写真にマップする。 DiffusionRigは、まず大規模な顔データセットから一般的な顔の先行情報を学習し、次に興味のある人の小さな肖像画写真コレクションから個人固有の先行データを学習する。 このようなパーソナライズされた事前のCGI-to- Photoマッピングを学習することにより、DiffusionRigは、人物のアイデンティティやその他の高周波特性を保ちながら、粗い3Dモデルにのみコンディションされた肖像画のライティング、表情、ヘッドポーズなどを“リグ”することができる。 定性的かつ定量的な実験は、DiffusionRigがアイデンティティ保存とフォトリアリズムの両方において、既存のアプローチよりも優れていることを示している。 追加資料、ビデオ、コード、データについては、プロジェクトのWebサイトをご覧ください。

We address the problem of learning person-specific facial priors from a small number (e.g., 20) of portrait photos of the same person. This enables us to edit this specific person's facial appearance, such as expression and lighting, while preserving their identity and high-frequency facial details. Key to our approach, which we dub DiffusionRig, is a diffusion model conditioned on, or "rigged by," crude 3D face models estimated from single in-the-wild images by an off-the-shelf estimator. On a high level, DiffusionRig learns to map simplistic renderings of 3D face models to realistic photos of a given person. Specifically, DiffusionRig is trained in two stages: It first learns generic facial priors from a large-scale face dataset and then person-specific priors from a small portrait photo collection of the person of interest. By learning the CGI-to-photo mapping with such personalized priors, DiffusionRig can "rig" the lighting, facial expression, head pose, etc. of a portrait photo, conditioned only on coarse 3D models while preserving this person's identity and other high-frequency characteristics. Qualitative and quantitative experiments show that DiffusionRig outperforms existing approaches in both identity preservation and photorealism. Please see the project website: https://diffusionrig.github.io for the supplemental material, video, code, and data.
翻訳日:2023-04-14 13:18:31 公開日:2023-04-13
# 局所特徴マッチングのための構造付きエピポーラマッチング

Structured Epipolar Matcher for Local Feature Matching ( http://arxiv.org/abs/2303.16646v3 )

ライセンス: Link先を確認
Jiahao Chang, Jiahuan Yu, Tianzhu Zhang(参考訳) 局所的な特徴マッチングは、テクスチャレスで反復的なパターンのため難しい。 既存の手法では外観特徴の使用とグローバルインタラクションとマッチングに重点を置いているが、局所的特徴マッチングにおける幾何学的優先の重要性は十分に活用されていない。 これらの手法と異なり、本論文では、幾何の重要さを掘り下げ、局所的特徴マッチングのための構造的エピポーラマッチング(SEM)を提案し、幾何情報を反復的マッチング方式で活用する。 提案モデルはいくつかのメリットを享受する。 まず,提案する構造化特徴抽出器は,画素と高信頼アンカー点間の相対的な位置関係をモデル化することができる。 第二に、提案したエピポーラ注意とマッチングは、エピポーラ制約を利用して無関係な領域をフィルタリングすることができる。 5つの標準ベンチマークの大規模な実験結果は、最先端の手法と比較してSEMの優れた性能を示している。 プロジェクトページ: https://sem2023.github.io

Local feature matching is challenging due to textureless and repetitive patterns. Existing methods focus on using appearance features and global interaction and matching, while the importance of geometry priors in local feature matching has not been fully exploited. Different from these methods, in this paper, we delve into the importance of geometry prior and propose Structured Epipolar Matcher (SEM) for local feature matching, which can leverage the geometric information in an iterative matching way. The proposed model enjoys several merits. First, our proposed Structured Feature Extractor can model the relative positional relationship between pixels and high-confidence anchor points. Second, our proposed Epipolar Attention and Matching can filter out irrelevant areas by utilizing the epipolar constraint. Extensive experimental results on five standard benchmarks demonstrate the superior performance of our SEM compared to state-of-the-art methods. Project page: https://sem2023.github.io.
翻訳日:2023-04-14 11:01:19 公開日:2023-04-13
# 最適nによるnステップ時間差学習

n-Step Temporal Difference Learning with Optimal n ( http://arxiv.org/abs/2303.07068v3 )

ライセンス: Link先を確認
Lakshmi Mandal and Shalabh Bhatnagar(参考訳) 我々は,n段階時間差(TD)学習アルゴリズムにおいて,nの最適値を求める問題を考える。 ランダムなプロジェクションアプローチを用いて離散最適化設定に適用したSPSAに基づく一シミュレーション同時摂動確率近似(SPSA)に基づくモデルフリー最適化手法を用いて最適nを求める。 差分包摂法を用いて,提案アルゴリズムであるSDPSAの収束性を証明し,n段TDにおけるnの最適値を求めることを示す。 実験により, n の最適値は任意の初期値に対して sdpsa で達成されることを示した。

We consider the problem of finding the optimal value of n in the n-step temporal difference (TD) learning algorithm. We find the optimal n by resorting to a model-free optimization technique involving a one-simulation simultaneous perturbation stochastic approximation (SPSA) based procedure that we adopt to the discrete optimization setting by using a random projection approach. We prove the convergence of our proposed algorithm, SDPSA, using a differential inclusions approach and show that it finds the optimal value of n in n-step TD. Through experiments, we show that the optimal value of n is achieved with SDPSA for arbitrary initial values.
翻訳日:2023-04-14 11:01:06 公開日:2023-04-13
# 変圧器型カメラリンクモデルと時空間情報を用いたマルチターゲットマルチカメラ車両追跡

Multi-target multi-camera vehicle tracking using transformer-based camera link model and spatial-temporal information ( http://arxiv.org/abs/2301.07805v3 )

ライセンス: Link先を確認
Hsiang-Wei Huang, Cheng-Yen Yang, Jenq-Neng Hwang(参考訳) 車両のマルチターゲット・マルチカメラ・トラッキング(mtmct)、すなわち複数のカメラで車両を追跡することは、スマートシティとインテリジェントな交通システムを開発する上で重要な応用である。 車両のMTMCTの主な課題は、同一車両のクラス内変動と、異なる車両間のクラス間類似性、そして、大きな検索空間の下で異なるカメラ間で同じ車両を正確に関連付ける方法である。 MTMCTの従来の方法は、通常、クロスカメラアソシエーションを行うために軌道の階層的クラスタリングを使用する。 しかし、探索空間は巨大であり、空間的・時間的情報を考慮に入れない。 本稿では,クロスカメラ追跡を行うために,空間的および時間的フィルタリングを用いたトランスベースカメラリンクモデルを提案する。 nvidia cityflow v2データセットで73.68%のidf1を達成し、マルチターゲットマルチカメラトラッキングにおけるカメラリンクモデルの有効性を示した。

Multi-target multi-camera tracking (MTMCT) of vehicles, i.e. tracking vehicles across multiple cameras, is a crucial application for the development of smart city and intelligent traffic system. The main challenges of MTMCT of vehicles include the intra-class variability of the same vehicle and inter-class similarity between different vehicles and how to associate the same vehicle accurately across different cameras under large search space. Previous methods for MTMCT usually use hierarchical clustering of trajectories to conduct cross camera association. However, the search space can be large and does not take spatial and temporal information into consideration. In this paper, we proposed a transformer-based camera link model with spatial and temporal filtering to conduct cross camera tracking. Achieving 73.68% IDF1 on the Nvidia Cityflow V2 dataset test set, showing the effectiveness of our camera link model on multi-target multi-camera tracking.
翻訳日:2023-04-14 11:00:20 公開日:2023-04-13
# 新規スパース正規化剤

A Novel Sparse Regularizer ( http://arxiv.org/abs/2301.07285v3 )

ライセンス: Link先を確認
Hovig Tigran Bayandorian(参考訳) l_{0}$, $l_{1}$, $l_{2}$-norm正規化のような$l_{p}$-norm正規化スキームと、重量減衰やグループラッソのような$l_{p}$-norm正規化テクニックは、互いに分離して考慮されるモデル重みに依存する量を計算する。 本稿では,$L_{p}$-normに基づいていない新しい正規化器について述べる。 L_{p}$-norm-based regularizationとは対照的に、この正規化器は重み行列内の重みの空間配置に関係している。 この正規化子は損失関数の加法語であり、微分可能で単純で高速で計算しやすく、スケール不変であり、簡単な量の追加メモリを必要とし、容易に並列化できる。 経験的に、この方法は与えられた精度のレベルでゼロでないモデルパラメータの数を約1桁改善する。

$L_{p}$-norm regularization schemes such as $L_{0}$, $L_{1}$, and $L_{2}$-norm regularization and $L_{p}$-norm-based regularization techniques such as weight decay and group LASSO compute a quantity which depends on model weights considered in isolation from one another. This paper describes a novel regularizer which is not based on an $L_{p}$-norm. In contrast with $L_{p}$-norm-based regularization, this regularizer is concerned with the spatial arrangement of weights within a weight matrix. This regularizer is an additive term for the loss function and is differentiable, simple and fast to compute, scale-invariant, requires a trivial amount of additional memory, and can easily be parallelized. Empirically this method yields approximately a one order-of-magnitude improvement in the number of nonzero model parameters at a given level of accuracy.
翻訳日:2023-04-14 11:00:03 公開日:2023-04-13
# 1次元ボースガスの一般流体力学のベンチマーク

Benchmarks of Generalized Hydrodynamics for 1D Bose Gases ( http://arxiv.org/abs/2208.06614v3 )

ライセンス: Link先を確認
R. S. Watson, S. A. Simmons, and K. V. Kheruntsyan(参考訳) 一般化流体力学(英語版)(ghd)は、可積分および近積分量子多体系における平衡現象を特徴付けるための最近の理論的な手法である。 本稿では,lieb-linigerモデルによって記述された相互作用する1次元ボース気体に対して,代替理論手法の配列に対してその性能をベンチマークする。 特に、様々な相互作用強度と初期平衡温度に対して、局所密度バンプとディップと量子ニュートンのクレードルセットアップの両方の進化について研究する。 ghdは一般に十分に高い温度や強い相互作用で非常によく機能する。 低温と弱い相互作用では、GHDは短い長さスケールで干渉現象を捉えないが、超低温原子実験において有限画像解像度を模した畳み込み平均値に基づく粗い粒度の挙動を記述することができる。 ダブルウェルからシングルウェルトラップのクエンチに基づく量子ニュートンのクレードル構成では、拡散補正のあるghdは古典的なフィールドアプローチの予測と優れた一致を示すことが分かる。

Generalized hydrodynamics (GHD) is a recent theoretical approach that is becoming a go-to tool for characterizing out-of-equilibrium phenomena in integrable and near-integrable quantum many-body systems. Here, we benchmark its performance against an array of alternative theoretical methods, for an interacting one-dimensional Bose gas described by the Lieb-Liniger model. In particular, we study the evolution of both a localized density bump and dip, along with a quantum Newton's cradle setup, for various interaction strengths and initial equilibrium temperatures. We find that GHD generally performs very well at sufficiently high temperatures or strong interactions. For low temperatures and weak interactions, we highlight situations where GHD, while not capturing interference phenomena on short lengthscales, can describe a coarse-grained behaviour based on convolution averaging that mimics finite imaging resolution in ultracold atom experiments. In a quantum Newton's cradle setup based on a double-well to single-well trap quench, we find that GHD with diffusive corrections demonstrates excellent agreement with the predictions of a classical field approach.
翻訳日:2023-04-14 10:59:47 公開日:2023-04-13
# 重ね合わせによるコヒーレント状態と熱状態の高次非古典性の比較

A comparison between higher-order nonclassicalities of superposition engineered coherent and thermal states ( http://arxiv.org/abs/2204.06712v3 )

ライセンス: Link先を確認
Deepak and Arpita Chatterjee(参考訳) a = saa^\dagger+t{a^\dagger}a$ with $s^2+t^2=1$ のフィールド消滅(英語版)と生成(a^\dagger$)の積の一般化された重ね合わせを用いて実験的に得られるsup演算子を考える。 このsup演算子をコヒーレント状態と熱量子状態に適用し、生成した状態をそれぞれsup-operated coherent state (socs) およびsup-operated thermal state (sots) と呼ぶ。 本研究では,SOCSとSOTSの高次非古典的性質の比較研究を行った。 この比較は、非古典性の証人(例えば、高次反ウバンチング、高次準ポアソニアン光子統計、高次スクイージング、アガル・タラパラメータ、クリシュコ条件)を用いて行われる。 SOCSおよびSOTSにおける高次非古典性の存在が初めて研究されている。 提案手法を実験的に検証するために,量子検出器の非単位量子効率が高次非古典性に与える影響を明らかにするために,厳密な計算を行う。

We consider an experimentally obtainable SUP operator, defined by using a generalized superposition of products of field annihilation ($a$) and creation ($a^\dagger$) operators of the type, $A = saa^\dagger+t{a^\dagger}a$ with $s^2+t^2=1$. We apply this SUP operator on coherent and thermal quantum states, the states thus produced are referred as SUP-operated coherent state (SOCS) and SUP-operated thermal state (SOTS), respectively. In the present work, we report a comparative study between the higher-order nonclassical properties of SOCS and SOTS. The comparison is performed by using a set of nonclassicality witnesses (e.g., higher-order antiubunching, higher-order sub-Poissonian photon statistics, higher-order squeezing, Agarwal-Tara parameter, Klyshko's condition). The existence of higher-order nonclassicalities in SOCS and SOTS have been investigated for the first time. In view of possible experimental verification of the proposed scheme, we present exact calculations to reveal the effect of non-unit quantum efficiency of quantum detector on higher-order nonclassicalities.
翻訳日:2023-04-14 10:59:23 公開日:2023-04-13
# 確率整合性と公正保証を用いたレコメンダシステムのためのテンソル補完

Tensor Completion with Provable Consistency and Fairness Guarantees for Recommender Systems ( http://arxiv.org/abs/2204.01815v4 )

ライセンス: Link先を確認
Tung Nguyen and Jeffrey Uhlmann(参考訳) 非負・正の行列とテンソル完備問題を定義・解決するための新しい一貫性に基づくアプローチを導入する。 フレームワークの新規性は、問題をアプリケーション・任意最適化問題という形で、人工的に適切に配置する代わりにいる。 例えば 階数やノルムなどのバルク構造的測度を最小化することにより、単元的整合性を維持し、解の存在を保証し、比較的弱い支持仮定の下では、一意性を示す。 フレームワークと解アルゴリズムは任意の次元のテンソルに直接一般化し、固定次元に対して問題サイズで線形な計算複雑性を維持している。 d.レコメンデータ・システム(RS)アプリケーションのコンテキストにおいて,RS問題に対する解決を期待すべき2つの妥当な特性が,我々のフレームワーク内で一意性を保証するのに十分であることを示す。 主要な理論的貢献には、その性質の証明を持つ一般単位整合テンソル補完フレームワークが含まれる。 例えば コンセンサス順序と公正性、最適なランタイムと空間の複雑さを持つアルゴリズム。 例えば 行列/テンソルの既知の項の数で線形である前処理複雑性を伴うo(1)項補完。 現実的な見地から言えば、鍵状態変数間の高次元構造的関係を一般化するためのフレームワークのシームレスな能力である。 例えば ユーザと製品属性は、直接のユーザと製品の関係を超越して一般化できない代替手法において、可能以上の情報を抽出する手段を提供する。 最後に,提案するrs法の許容基準として,コンセンサス順序付け特性を提案する。

We introduce a new consistency-based approach for defining and solving nonnegative/positive matrix and tensor completion problems. The novelty of the framework is that instead of artificially making the problem well-posed in the form of an application-arbitrary optimization problem, e.g., minimizing a bulk structural measure such as rank or norm, we show that a single property/constraint: preserving unit-scale consistency, guarantees the existence of both a solution and, under relatively weak support assumptions, uniqueness. The framework and solution algorithms also generalize directly to tensors of arbitrary dimensions while maintaining computational complexity that is linear in problem size for fixed dimension d. In the context of recommender system (RS) applications, we prove that two reasonable properties that should be expected to hold for any solution to the RS problem are sufficient to permit uniqueness guarantees to be established within our framework. Key theoretical contributions include a general unit-consistent tensor-completion framework with proofs of its properties, e.g., consensus-order and fairness, and algorithms with optimal runtime and space complexities, e.g., O(1) term-completion with preprocessing complexity that is linear in the number of known terms of the matrix/tensor. From a practical perspective, the seamless ability of the framework to generalize to exploit high-dimensional structural relationships among key state variables, e.g., user and product attributes, offers a means for extracting significantly more information than is possible for alternative methods that cannot generalize beyond direct user-product relationships. Finally, we propose our consensus ordering property as an admissibility criterion for any proposed RS method.
翻訳日:2023-04-14 10:58:54 公開日:2023-04-13
# 量子カーネル法による量子位相認識

Quantum Phase Recognition via Quantum Kernel Methods ( http://arxiv.org/abs/2111.07553v4 )

ライセンス: Link先を確認
Yusen Wu, Bujiao Wu, Jingbo Wang, Xiao Yuan(参考訳) 量子計算を機械学習アルゴリズムの高速化に応用することは、量子アルゴリズムにおける最も有望な研究分野の1つである。 本稿では,多粒子量子システムを理解する上で極めて重要な量子位相認識(qpr)問題を解く上で,量子学習アルゴリズムのパワーについて検討する。 我々は、広く信じられている複雑性理論の仮定の下で、古典的資源を持つ古典的学習アルゴリズムでは効率的に解けない幅広いQPR問題が存在することを証明した。 量子コンピュータとは対照的に、線形順序パラメータオブザーバブルによるQPR問題の解法における量子カーネル法の効率性と堅牢性を証明する。 我々は,対称性保護位相や対称性破壊位相の認識など,様々な問題に対するアルゴリズムのベンチマークを行う。 本結果は,多粒子系における量子位相遷移の予測における量子機械学習の能力を強調した。

The application of quantum computation to accelerate machine learning algorithms is one of the most promising areas of research in quantum algorithms. In this paper, we explore the power of quantum learning algorithms in solving an important class of Quantum Phase Recognition (QPR) problems, which are crucially important in understanding many-particle quantum systems. We prove that, under widely believed complexity theory assumptions, there exists a wide range of QPR problems that cannot be efficiently solved by classical learning algorithms with classical resources. Whereas using a quantum computer, we prove the efficiency and robustness of quantum kernel methods in solving QPR problems through Linear order parameter Observables. We numerically benchmark our algorithm for a variety of problems, including recognizing symmetry-protected topological phases and symmetry-broken phases. Our results highlight the capability of quantum machine learning in predicting such quantum phase transitions in many-particle systems.
翻訳日:2023-04-14 10:58:26 公開日:2023-04-13
# 位相絶縁層成層球のdyadic greens関数

Dyadic Greens function for a topological insulator stratified sphere ( http://arxiv.org/abs/2304.04572v2 )

ライセンス: Link先を確認
Huai-Yi Xie(参考訳) 電磁気学の枠組みの中で, 位相絶縁体(TI)成層球に対してDGF(Dyadic Greens function)を構築する。 これらのDGFに対して、アキシオンカップリング効果を考慮した追加膨張係数を含む。 これらのDGFの適用により、TI成層球近傍の双極子からの光散乱の定式化が導かれる。 数値解析では, 金属被覆TI球, 金属被覆TI球, 金属被覆TI球, 交互金属めっきTI球) の3種類の構成を与え, TI球のトポロジカル磁力(TME) 応答が金属殻の多極プラズマ共鳴に与える影響について検討した。 これらのタイプについて、TME効果はTI成層球近傍の発光双極子に対する崩壊速度スペクトルのいくつかの変化を引き起こすことを示した。 金属シェルの多極性共鳴では,TMEにより誘導されるボンディングモードと低次アンチボンディングモードの赤方偏移がみられたが,高次アンチボンディングモードのものは重要でない。 また、金属被覆ti球面の場合、誘電関数がバルクまたは5つのクインタプル層(5ql)スラブの形に選択されたtiコアの損失の影響を考慮に入れ、tme誘起減衰率スペクトルのいくつかの修正が明らかに抑制される。 これらの現象学的特徴は、分子蛍光実験によるTME効果の探索に有用である。

We construct the dyadic Greens functions (DGFs) for a topological insulator (TI) stratified sphere within the framework of axion electrodynamics. For these DGFs, the additional expansion coefficients are included to account for the axion coupling effect. With the application of these DGFs, we derive the formulation of light scattering from a dipole near a TI stratified sphere. In our numerical studies, we give three types of configurations (a metal-coated TI sphere, a metal-TI-metal-coated TI sphere and an alternating metal-TI stratified sphere) to investigate how the topological magneto-electric (TME) response of the TI sphere (shells) influences on the multipolar plasmonic resonance of the metal shells. For these types, the results show that the TME effect causes some modifications of the decay rate spectrum for an emitting dipole near a TI stratified sphere. For the multipolar resonances of the metal shells, it is observed that the TME-induced red-shifts for the bonding and lower order antibonding modes are found but those for the higher order antibonding modes are insignificant. In addition, for a metal-coated TI sphere, we take into account the effects of losses in the TI core of which the dielectric function is chosen to be the form of the bulk or five quintuple layers (5QL) slab and then the some modifications of the TME-induced decay rate spectrum are obviously suppressed. These phenomenological characteristics provide useful guidance to probing the TME effect via molecular fluorescence experiments.
翻訳日:2023-04-14 10:52:28 公開日:2023-04-13
# コンテクスト対応変圧器を用いた高ダイナミックレンジイメージング

High Dynamic Range Imaging with Context-aware Transformer ( http://arxiv.org/abs/2304.04416v2 )

ライセンス: Link先を確認
Fangfang Zhou, Dan Zhang and Zhenming Fu(参考訳) 高ダイナミックレンジ(HDR)画像としてLDR画像を合成する際のゴーストの導入を避けることが課題である。 畳み込みニューラルネットワーク(CNN)は、一般的にHDRゴースト除去に有効であるが、大きな動きや過飽和/下降がある場合、LDR画像に対処することは困難である。 CNNとTransformerを組み合わせた既存のデュアルブランチ方式では、非参照画像から情報の一部を省略する一方、CNNベースのブランチによって抽出された特徴は、劣化と過飽和/過飽和領域の回復に寄与する小さな受容野でカーネルサイズに結合する。 本稿では,グローバル特徴と局所特徴を同時に抽出する,ゴーストフリーhdr(hdt-hdr)画像生成のための階層的二重変換手法を提案する。 まず、空間的注意機構を備えたcnnベースの頭部を用いて、全てのldr画像から特徴を抽出する。 第2に、LDR機能は階層デュアルトランス(HDT)に配信される。 各Dual Transformer(DT)では、グローバルな特徴をウィンドウベースのTransformerによって抽出し、局所的な詳細を変形可能なCNNを用いてチャネルアテンション機構を用いて抽出する。 そして、HDT出力の次元マッピングによりゴーストフリーHDR画像を得る。 既存のHDRゴースト除去法において,HDT-HDRは最先端の性能を発揮することを示した。

Avoiding the introduction of ghosts when synthesising LDR images as high dynamic range (HDR) images is a challenging task. Convolutional neural networks (CNNs) are effective for HDR ghost removal in general, but are challenging to deal with the LDR images if there are large movements or oversaturation/undersaturation. Existing dual-branch methods combining CNN and Transformer omit part of the information from non-reference images, while the features extracted by the CNN-based branch are bound to the kernel size with small receptive field, which are detrimental to the deblurring and the recovery of oversaturated/undersaturated regions. In this paper, we propose a novel hierarchical dual Transformer method for ghost-free HDR (HDT-HDR) images generation, which extracts global features and local features simultaneously. First, we use a CNN-based head with spatial attention mechanisms to extract features from all the LDR images. Second, the LDR features are delivered to the Hierarchical Dual Transformer (HDT). In each Dual Transformer (DT), the global features are extracted by the window-based Transformer, while the local details are extracted using the channel attention mechanism with deformable CNNs. Finally, the ghost free HDR image is obtained by dimensional mapping on the HDT output. Abundant experiments demonstrate that our HDT-HDR achieves the state-of-the-art performance among existing HDR ghost removal methods.
翻訳日:2023-04-14 10:51:59 公開日:2023-04-13
# Video ChatCaptioner: 時空間記述の充実を目指して

Video ChatCaptioner: Towards Enriched Spatiotemporal Descriptions ( http://arxiv.org/abs/2304.04227v2 )

ライセンス: Link先を確認
Jun Chen, Deyao Zhu, Kilichbek Haydarov, Xiang Li, Mohamed Elhoseiny(参考訳) 映像キャプションは自然言語を用いて映像から動的シーンを伝達することを目的としており、環境内の時空間情報の理解を促進する。 近年の進歩はあったが、詳細でリッチなビデオ記述を生成することは依然として大きな課題である。 本稿では,より包括的な時空間的ビデオ記述を作成するための革新的なアプローチである video chatcaptioner を紹介する。 本手法では,ChatGPTモデルをコントローラとして使用し,特に映像コンテンツ駆動質問に対するフレームの選択を目的とした。 その後、ロバストなアルゴリズムを用いてこれらのビジュアルクエリに答える。 この質問応答フレームワークは、複雑な映像の詳細を効果的に明らかにし、映像コンテンツの強化方法として約束を示す。 複数の会話ラウンドの後、ChatGPTは以前の会話に基づいてリッチなビデオコンテンツを要約することができる。 われわれのビデオチャットキャプチャーは、ビデオに関するより視覚的な詳細を含むキャプションを生成できることを定性的に証明する。 コードはhttps://github.com/Vision-CAIR/ChatCaptionerで公開されている。

Video captioning aims to convey dynamic scenes from videos using natural language, facilitating the understanding of spatiotemporal information within our environment. Although there have been recent advances, generating detailed and enriched video descriptions continues to be a substantial challenge. In this work, we introduce Video ChatCaptioner, an innovative approach for creating more comprehensive spatiotemporal video descriptions. Our method employs a ChatGPT model as a controller, specifically designed to select frames for posing video content-driven questions. Subsequently, a robust algorithm is utilized to answer these visual queries. This question-answer framework effectively uncovers intricate video details and shows promise as a method for enhancing video content. Following multiple conversational rounds, ChatGPT can summarize enriched video content based on previous conversations. We qualitatively demonstrate that our Video ChatCaptioner can generate captions containing more visual details about the videos. The code is publicly available at https://github.com/Vision-CAIR/ChatCaptioner
翻訳日:2023-04-14 10:50:34 公開日:2023-04-13
# 電場を有する箱内の自由粒子の微小摂動による量子ゲート合成

Quantum gate synthesis by small perturbation of a free particle in a box with electric field ( http://arxiv.org/abs/2304.03967v3 )

ライセンス: Link先を確認
Kumar Gautam(参考訳) 本論文では,自由荷電粒子を時間・位置変動電場を有する1次元箱に摂動させることにより,量子ユニタリゲートを実現する。 摂動ハミルトニアン (perturbed Hamiltonian) は自由粒子ハミルトニアン(英語版) と摂動ポテンシャル (perturbing electric potential) から構成され、量子フーリエ変換ゲート (quantum Fourier transform gate) のような与えられたユニタリゲートを、有限個のエネルギーレベルに切り離した未摂動系のユニタリ進化作用素であるSchr$\ddot{o}$dinger evolution in time $T$ である。 この考え方は、半波フーリエ正弦級数を空間変数 $\mathbf x$ において$M$ 項に切り換え、相互作用図形のダイソン級数としてポテンシャルを拡張して、$ \mathbf V_n(t)'$s の線型および二次積分函数まで進化作用素行列要素を計算することである。 その結果, ダイソン級数とフロベニウスノルムを用いて, 導出ゲートエネルギーと与えられたゲートエネルギーの差を低減し, 雑音対信号エネルギー比 (nser) をプロットして時間的性能基準を決定した。 量子ゲートの磁気制御に関する数学的説明も提供されている。 さらに,磁気制御を用いた量子ゲートの数学的説明を行う。

A quantum unitary gate is realized in this paper by perturbing a free charged particle in a one-dimensional box with a time- and position-varying electric field. The perturbed Hamiltonian is composed of a free particle Hamiltonian plus a perturbing electric potential such that the Schr$\ddot{o}$dinger evolution in time $T$, the unitary evolution operator of the unperturbed system after truncation to a finite number of energy levels, approximates a given unitary gate such as the quantum Fourier transform gate. The idea is to truncate the half-wave Fourier sine series to $M$ terms in the spatial variable $\mathbf x$ before extending the potential as a Dyson series in the interaction picture to compute the evolution operator matrix elements up to the linear and quadratic integral functionals of $ \mathbf V_n(t)'$s. As a result, we used the Dyson series with the Frobenius norm to reduce the difference between the derived gate energy and the given gate energy, and we determined the temporal performance criterion by plotting the noise-to-signal energy ratio (NSER). A mathematical explanation for a quantum gate's magnetic control has also been provided. In addition, we provide a mathematical explanation for a quantum gate that uses magnetic control.
翻訳日:2023-04-14 10:50:20 公開日:2023-04-13
# 有利蒸留によるモードパイリング量子鍵分布

Mode-pairing quantum key distribution with advantage distillation ( http://arxiv.org/abs/2304.03534v3 )

ライセンス: Link先を確認
Xin Liu, Di Luo, Zhenrong Zhang, and Kejin Wei(参考訳) モードパイリング量子鍵分布(mp-qkd)は、ピランドラ-ローレンザ--オッタビアーニ-バンチ境界を量子リピータを使用せずに超越する実装容易なスキームである。 本稿では,MP-QKDの高効率蒸留による性能向上について述べる。 シミュレーションの結果,提案手法は伝送距離を7.6dBを超えるチャネル損失で大幅に延長することを示した。 さらに、このスキームは最大量子ビット誤り率8.9%を許容し、これは元のMP-QKDの約2倍である。 特に,システムミスアライメント誤差が増大するにつれて,提案手法の展開可能な距離も増大する。 提案システムでは,MP-QKDを多種多様なアプリケーション,特にチャネル損失やシステムエラーなどのシナリオで実用化することが期待されている。

Mode-pairing quantum key distribution (MP-QKD) is an easy-to-implement scheme that transcends the Pirandola--Laurenza--Ottaviani--Banchi bound without using quantum repeaters. In this paper, we present an improvement of the performance of MP-QKD using an advantage distillation method. The simulation results demonstrate that the proposed scheme extends the transmission distance significantly with a channel loss exceeding 7.6 dB. Moreover, the scheme tolerates a maximum quantum bit error rate of 8.9%, which is nearly twice that of the original MP-QKD. In particular, as the system misalignment error increases, the expandable distance of the proposed scheme also increases. The proposed system is expected to promote the practical implementation of MP-QKD in a wide range of applications, particularly in scenarios involving high channel losses and system errors.
翻訳日:2023-04-14 10:49:45 公開日:2023-04-13
# RFAConv: 空間的意識と標準的畳み込み運用の革新

RFAConv: Innovating Spatital Attention and Standard Convolutional Operation ( http://arxiv.org/abs/2304.03198v3 )

ライセンス: Link先を確認
Xin Zhang, Chen Liu, Degang Yang, Tingting Song, Yichen Ye, Ke Li, and Yingze Song(参考訳) 空間的注意は、重要な情報に焦点を当てることで畳み込みニューラルネットワークの性能を向上させるために広く使われている。 しかし、一定の制限がある。 本稿では、畳み込みカーネルパラメータ共有の問題を解くことができる空間的注意力の有効性に関する新しい視点を提案する。 それにもかかわらず、空間的注意によって生成された注意マップに含まれる情報は、大規模畳み込み核では不十分である。 そこで我々は、RFA(Receptive-Field Attention)と呼ばれる新しい注意機構を導入する。 CBAM(Convolutional Block Attention Module)やCA(Coordinate Attention)といった以前の注目メカニズムは空間的特徴のみにのみ焦点をあてていたが、畳み込みカーネルパラメータ共有の問題を完全に解決することはできない。 対照的に、RFAは受容場空間の特徴だけでなく、大きな畳み込みカーネルに対して効果的な注意重みを与える。 RFA が開発した Receptive-Field Attention Convolutional Operation (RFAConv) は、標準の畳み込み操作を置き換える新しいアプローチである。 計算コストとパラメータの増大はほぼ無視できるが、ネットワーク性能は大幅に向上している。 imagenet-1k,ms coco,vocデータセットの一連の実験を行い,分類,オブジェクト検出,セマンティクスセグメンテーションなど,さまざまなタスクにおけるアプローチの優位性を実証した。 特に重要なのは、現在の空間的注意のメカニズムにおいて、焦点を空間的特徴から受容的場的特徴にシフトする時だと信じている。 これにより、ネットワーク性能をさらに改善し、よりよい結果を得ることができる。 関連するタスクのコードと事前トレーニングされたモデルは、https://github.com/liuchen1997/rfaconvで見ることができる。

Spatial attention has been widely used to improve the performance of convolutional neural networks by allowing them to focus on important information. However, it has certain limitations. In this paper, we propose a new perspective on the effectiveness of spatial attention, which is that it can solve the problem of convolutional kernel parameter sharing. Despite this, the information contained in the attention map generated by spatial attention is not sufficient for large-size convolutional kernels. Therefore, we introduce a new attention mechanism called Receptive-Field Attention (RFA). While previous attention mechanisms such as the Convolutional Block Attention Module (CBAM) and Coordinate Attention (CA) only focus on spatial features, they cannot fully address the issue of convolutional kernel parameter sharing. In contrast, RFA not only focuses on the receptive-field spatial feature but also provides effective attention weights for large-size convolutional kernels. The Receptive-Field Attention convolutional operation (RFAConv), developed by RFA, represents a new approach to replace the standard convolution operation. It offers nearly negligible increment of computational cost and parameters, while significantly improving network performance. We conducted a series of experiments on ImageNet-1k, MS COCO, and VOC datasets, which demonstrated the superiority of our approach in various tasks including classification, object detection, and semantic segmentation. Of particular importance, we believe that it is time to shift focus from spatial features to receptive-field spatial features for current spatial attention mechanisms. By doing so, we can further improve network performance and achieve even better results. The code and pre-trained models for the relevant tasks can be found at https://github.com/Liuchen1997/RFAConv.
翻訳日:2023-04-14 10:49:27 公開日:2023-04-13
# EGC:拡散エネルギーモデルによる画像生成と分類

EGC: Image Generation and Classification via a Diffusion Energy-Based Model ( http://arxiv.org/abs/2304.02012v3 )

ライセンス: Link先を確認
Qiushan Guo, Chuofan Ma, Yi Jiang, Zehuan Yuan, Yizhou Yu, Ping Luo(参考訳) 同じネットワークパラメータ集合を用いた画像分類と画像生成の学習は難しい問題である。 最近の高度なアプローチは、1つのタスクでよく機能し、もう1つのタスクでは性能が悪い。 この研究は、エネルギーベースの分類器とジェネレータ、すなわちEMCを導入し、単一のニューラルネットワークを使用して両方のタスクで優れたパフォーマンスを実現する。 イメージが与えられたラベルを出力する従来の分類器(例えば条件付き分布 $p(y|\mathbf{x})$)とは異なり、egcの前方パスはジョイント分布 $p(\mathbf{x},y)$ を出力する分類器であり、ラベル $y$ をマージンアウトすることで後方パスにおける画像生成器を可能にする。 これはフォワードパスにおいてノイズ画像が与えられた場合のエネルギーと分類確率を推定し、後方パスで推定されたスコア関数を用いて除算する。 EGCは、ImageNet-1k、CelebA-HQ、LSUN Churchの最先端のアプローチと比較して、競争力のある生成結果を得ると同時に、CIFAR-10に対する敵攻撃に対して優れた分類精度と堅牢性を達成する。 この研究は、ネットワークパラメータの単一セットを使用して両方のタスクを同時に実行しようとする最初の試みである。 EGCは差別学習と生成学習のギャップを埋めると考えている。

Learning image classification and image generation using the same set of network parameters is a challenging problem. Recent advanced approaches perform well in one task often exhibit poor performance in the other. This work introduces an energy-based classifier and generator, namely EGC, which can achieve superior performance in both tasks using a single neural network. Unlike a conventional classifier that outputs a label given an image (i.e., a conditional distribution $p(y|\mathbf{x})$), the forward pass in EGC is a classifier that outputs a joint distribution $p(\mathbf{x},y)$, enabling an image generator in its backward pass by marginalizing out the label $y$. This is done by estimating the energy and classification probability given a noisy image in the forward pass, while denoising it using the score function estimated in the backward pass. EGC achieves competitive generation results compared with state-of-the-art approaches on ImageNet-1k, CelebA-HQ and LSUN Church, while achieving superior classification accuracy and robustness against adversarial attacks on CIFAR-10. This work represents the first successful attempt to simultaneously excel in both tasks using a single set of network parameters. We believe that EGC bridges the gap between discriminative and generative learning.
翻訳日:2023-04-14 10:48:37 公開日:2023-04-13
# 図形解析によるChatGPT(-3.5, -4)生成および人文文書の識別

Distinguishing ChatGPT(-3.5, -4)-generated and human-written papers through Japanese stylometric analysis ( http://arxiv.org/abs/2304.05534v2 )

ライセンス: Link先を確認
Wataru Zaitsu, Mingzhe Jin(参考訳) OpenAIのGPT-3.5とGPT-4を備えたChatGPTを含むテキスト生成人工知能(AI)が世界中で注目を集めている。 本研究ではまず,GPT (-3.5, -4) と人間による書式との比較を行った。 本研究は,多次元スケーリング(mds)を行い,3つのクラスの216のテキスト(36名の著者による72の学術論文,gpt-3.5が生成した72のテキスト,gpt-4が生成した72のテキスト)の分布を,(1)主語のビッグラム,(2)ポストポジショナル粒子語のビッグラム,(3)コンマの位置,(4)機能語の速度に焦点をあてて確認した。 MDSはGPT (-3.5, -4) とヒトにそれぞれ異なる分布を示した。 GPT-4 は GPT-3.5 よりも強力なが、GPT (-3.5 と -4) の分布は重なりやすい。 これらの結果から, 将来, パラメータの数が増加する可能性があるが, AI 生成したテキストは, テクスチャ的特徴の観点からは, 人間が書いたテキストに近くない可能性が示唆された。 第2に、日本語のテクスチャ的特徴に着目した2つのクラス(GPTと人間)におけるランダムフォレスト(RF)の分類性能を検証した。 本研究は, 各形状特徴量におけるRFの性能について検討した。 さらに関数語率に着目したRF分類器は98.1%の精度を達成した。 すべてのスタイル特徴に注目したrf分類器は、すべてのパフォーマンス指標(正確性、リコール、精度、f1スコア)で100%に達した。 本研究は,ヒトがChatGPTを日本語に限定した人間から識別できることを結論付けた。

Text-generative artificial intelligence (AI), including ChatGPT, equipped with GPT-3.5 and GPT-4, from OpenAI, has attracted considerable attention worldwide. In this study, first, we compared Japanese stylometric features generated by GPT (-3.5 and -4) and those written by humans. In this work, we performed multi-dimensional scaling (MDS) to confirm the distributions of 216 texts of three classes (72 academic papers written by 36 single authors, 72 texts generated by GPT-3.5, and 72 texts generated by GPT-4 on the basis of the titles of the aforementioned papers) focusing on the following stylometric features: (1) bigrams of parts-of-speech, (2) bigram of postpositional particle words, (3) positioning of commas, and (4) rate of function words. MDS revealed distinct distributions at each stylometric feature of GPT (-3.5 and -4) and human. Although GPT-4 is more powerful than GPT-3.5 because it has more parameters, both GPT (-3.5 and -4) distributions are likely to overlap. These results indicate that although the number of parameters may increase in the future, AI-generated texts may not be close to that written by humans in terms of stylometric features. Second, we verified the classification performance of random forest (RF) for two classes (GPT and human) focusing on Japanese stylometric features. This study revealed the high performance of RF in each stylometric feature. Furthermore, the RF classifier focusing on the rate of function words achieved 98.1% accuracy. The RF classifier focusing on all stylometric features reached 100% in terms of all performance indexes (accuracy, recall, precision, and F1 score). This study concluded that at this stage we human discriminate ChatGPT from human limited to Japanese language.
翻訳日:2023-04-14 10:43:13 公開日:2023-04-13
# 雑音2成分量子ビット系のハミルトンスイッチング制御

Hamiltonian Switching Control of Noisy Bipartite Qubit Systems ( http://arxiv.org/abs/2304.05478v2 )

ライセンス: Link先を確認
Zhibo Yang, Robert L. Kosut and K. Birgitta Whaley(参考訳) 量子近似最適化アルゴリズム(qaoa)に触発された二成分制御のためのハミルトンスイッチングアンサッツを開発した。 我々は,量子ゲートの保護を応用したアプローチを説明する。 一 等方性ハイゼンベルク相互作用による浴体スピンへの中心スピン量子ビット結合 二 双極子-双極子相互作用による環境二位系(TLS)に結合する超伝導トランスモン量子ビット及び 三 TLS及びリンドブラッド浴に結合したキュービット 制御フィールドは古典的であり、システムキュービット上でのみ機能する。 我々は、特定のターゲット量子ゲートに対して定義された忠実性目標を用いて、ハミルトンスイッチング制御プロトコルを最適化するためにポリシー勾配(pg)を用いた強化学習を用いる。 本手法は,実験ケースの大部分において0.999999 (4 nines) 以上のフィダリティを持つ目標ゲート実装を達成し,それを超える改良を,勾配アセントパルスエンジニアリング (grape) による最適化により0.99999999999 (9 nines) の値に示した数値を用いて,コヒーレントおよび散逸性ノイズの効果的抑制を示す。 本研究では, 制御深さ, 総進化時間, 環境tl数, 最適化方法の選択が最適プロトコルによって達成される忠実性にどのように影響するかを分析し, 量子ゲートの2成分制御の臨界挙動を明らかにする。

We develop a Hamiltonian switching ansatz for bipartite control that is inspired by the Quantum Approximate Optimization Algorithm (QAOA), to mitigate environmental noise on qubits. We illustrate the approach with application to the protection of quantum gates performed on i) a central spin qubit coupling to bath spins through isotropic Heisenberg interactions, ii) superconducting transmon qubits coupling to environmental two-level-systems (TLS) through dipole-dipole interactions, and iii) qubits coupled to both TLS and a Lindblad bath. The control field is classical and acts only on the system qubits. We use reinforcement learning with policy gradient (PG) to optimize the Hamiltonian switching control protocols, using a fidelity objective defined with respect to specific target quantum gates. We use this approach to demonstrate effective suppression of both coherent and dissipative noise, with numerical studies achieving target gate implementations with fidelities over 0.9999 (four nines) in the majority of our test cases and showing improvement beyond this to values of 0.999999999 (nine nines) upon a subsequent optimization by Gradient Ascent Pulse Engineering (GRAPE). We analyze how the control depth, total evolution time, number of environmental TLS, and choice of optimization method affect the fidelity achieved by the optimal protocols and reveal some critical behaviors of bipartite control of quantum gates.
翻訳日:2023-04-14 10:42:34 公開日:2023-04-13
# 大規模言語モデルは医療に使えるか? 臨床言語理解に関する比較研究

Are Large Language Models Ready for Healthcare? A Comparative Study on Clinical Language Understanding ( http://arxiv.org/abs/2304.05368v2 )

ライセンス: Link先を確認
Yuqing Wang, Yun Zhao, Linda Petzold(参考訳) 大規模言語モデル(llm)は医療を含む様々な領域で大きな進歩を遂げている。 しかし、臨床言語理解タスクの特殊性は、さらなる調査を保証できる固有の課題と限界を提示する。 本研究では,臨床言語理解タスクの領域内で,最新のLCM(GPT-3.5,GPT-4,Bard)を総合的に評価する。 これらのタスクは、名前付きエンティティ認識、関係抽出、自然言語推論、意味的テキスト類似性、文書分類、質問応答など、さまざまな範囲にまたがる。 また,臨床シナリオに関連のある情報的質問や回答を抽出することにより,LSMのパフォーマンス向上に資する新規なプロンプト戦略,セルフクエストプロンプト(SQP)を導入する。 本評価は,医療関連課題における LLM の有効性向上のための課題特化学習戦略の重要性と促進手法の意義を裏付けるものである。 さらに,難解な関係抽出タスクにおける深度誤差解析は,SQPを用いた改善のための誤り分布と潜在的な方法に関する貴重な知見を提供する。 本研究は,医療分野におけるLLMの活用の実践的意義を明らかにし,今後の研究の基盤となり,医療分野への応用の可能性について考察した。

Large language models (LLMs) have made significant progress in various domains, including healthcare. However, the specialized nature of clinical language understanding tasks presents unique challenges and limitations that warrant further investigation. In this study, we conduct a comprehensive evaluation of state-of-the-art LLMs, namely GPT-3.5, GPT-4, and Bard, within the realm of clinical language understanding tasks. These tasks span a diverse range, including named entity recognition, relation extraction, natural language inference, semantic textual similarity, document classification, and question-answering. We also introduce a novel prompting strategy, self-questioning prompting (SQP), tailored to enhance LLMs' performance by eliciting informative questions and answers pertinent to the clinical scenarios at hand. Our evaluation underscores the significance of task-specific learning strategies and prompting techniques for improving LLMs' effectiveness in healthcare-related tasks. Additionally, our in-depth error analysis on the challenging relation extraction task offers valuable insights into error distribution and potential avenues for improvement using SQP. Our study sheds light on the practical implications of employing LLMs in the specialized domain of healthcare, serving as a foundation for future research and the development of potential applications in healthcare settings.
翻訳日:2023-04-14 10:42:08 公開日:2023-04-13
# sportsmot: 複数のスポーツシーンにおける大規模マルチオブジェクトトラッキングデータセット

SportsMOT: A Large Multi-Object Tracking Dataset in Multiple Sports Scenes ( http://arxiv.org/abs/2304.05170v2 )

ライセンス: Link先を確認
Yutao Cui, Chenkai Zeng, Xiaoyu Zhao, Yichun Yang, Gangshan Wu and Limin Wang(参考訳) スポーツシーンにおける多目的追跡は、プレイヤーの統計収集において重要な役割を担い、自動戦術分析などのさらなる分析を支援する。 しかし、既存のMOTベンチマークはドメインにほとんど関心を持たず、開発を制限した。 本研究では,多種多様なスポーツシーンにおいて,新たな大規模マルチオブジェクト追跡データセットを提示する。「\emph{sportsmot}」と呼ばれ,コート上のすべての選手を追跡する。 240以上のビデオシーケンス、150kフレーム(ほぼ15\times mot17)、バスケットボール、バレーボール、サッカーを含む3つのスポーツカテゴリーから集められた1.6mバウンディングボックス(3\times mot17)で構成される。 私たちのデータセットには2つの重要な特性があります。 1)高速・可変速運動 2)類似しているが区別できる外観。 SportsMOTは,MOTトラッカーに対して,動きに基づくアソシエーションと外見に基づくアソシエーションの促進を奨励することを期待している。 いくつかの最先端トラッカーをベンチマークし、SportsMOTの重要な課題がオブジェクトアソシエーションにあることを示す。 この問題を軽減するため,我々はさらに,<emph{mixsort}>と呼ばれる新しいマルチオブジェクト追跡フレームワークを提案し,追跡・検出トラッカを普及させるための補助的なアソシエーションモデルとしてmixformerのような構造を導入した。 オリジナルのモーションベースアソシエーションとカスタマイズされた外観ベースアソシエーションを統合することで、SportsMOTとMOT17の最先端パフォーマンスを実現する。 MixSortに基づいて、詳細な分析を行い、SportsMOTに関する深い洞察を提供する。 データセットとコードはhttps://deeperaction.github.io/datasets/sportsmot.htmlで入手できる。

Multi-object tracking in sports scenes plays a critical role in gathering players statistics, supporting further analysis, such as automatic tactical analysis. Yet existing MOT benchmarks cast little attention on the domain, limiting its development. In this work, we present a new large-scale multi-object tracking dataset in diverse sports scenes, coined as \emph{SportsMOT}, where all players on the court are supposed to be tracked. It consists of 240 video sequences, over 150K frames (almost 15\times MOT17) and over 1.6M bounding boxes (3\times MOT17) collected from 3 sports categories, including basketball, volleyball and football. Our dataset is characterized with two key properties: 1) fast and variable-speed motion and 2) similar yet distinguishable appearance. We expect SportsMOT to encourage the MOT trackers to promote in both motion-based association and appearance-based association. We benchmark several state-of-the-art trackers and reveal the key challenge of SportsMOT lies in object association. To alleviate the issue, we further propose a new multi-object tracking framework, termed as \emph{MixSort}, introducing a MixFormer-like structure as an auxiliary association model to prevailing tracking-by-detection trackers. By integrating the customized appearance-based association with the original motion-based association, MixSort achieves state-of-the-art performance on SportsMOT and MOT17. Based on MixSort, we give an in-depth analysis and provide some profound insights into SportsMOT. The dataset and code will be available at https://deeperaction.github.io/datasets/sportsmot.html.
翻訳日:2023-04-14 10:41:46 公開日:2023-04-13
# モデルのスパーシフィケーションは機械学習を単純化する

Model Sparsification Can Simplify Machine Unlearning ( http://arxiv.org/abs/2304.04934v2 )

ライセンス: Link先を確認
Jinghan Jia, Jiancheng Liu, Parikshit Ram, Yuguang Yao, Gaowen Liu, Yang Liu, Pranay Sharma, Sijia Liu(参考訳) 最近のデータ規制は、モデルから特定の例の効果を取り除き、マシン・アンラーニング(mu)を必要としている。 残りのデータをスクラッチから再トレーニングすることで、正確なアンラーニングが可能になるが、計算コストは近似的だが効率的なアンラーニングスキームの開発につながった。 データ中心のMUソリューション以外にも、新しいモデルベースの視点でMUを前進させます。 理論と実践の両方の結果から,モデルのスパーシティは,効率を保ちながら近似ギャップを閉じながら,近似未学習者のマルチクリテリアアンラーニング性能を向上できることが示唆された。 この知見を活かして,「prune first, then unlearn」と「sparsity-aware unlearning」の2つの新しい非学習メタスキームを開発した。 大規模な実験により,クラスワイドデータスクレイビング,ランダムデータスクレイビング,バックドアデータスレッディングなど,さまざまなシナリオにおいてMUのメリットが一貫して示された。 1つのハイライトは、提案されているスパーシティ・アウェア・アンラーニングパラダイムにおける微調整(最も近似的なアンラーニング手法の1つ)による77%のアンラーニング効果向上である。 コードはhttps://github.com/OPTML-Group/Unlearn-Sparseで入手できる。

Recent data regulations necessitate machine unlearning (MU): The removal of the effect of specific examples from the model. While exact unlearning is possible by conducting a model retraining with the remaining data from scratch, its computational cost has led to the development of approximate but efficient unlearning schemes. Beyond data-centric MU solutions, we advance MU through a novel model-based viewpoint: sparsification via weight pruning. Our results in both theory and practice indicate that model sparsity can boost the multi-criteria unlearning performance of an approximate unlearner, closing the approximation gap, while continuing to be efficient. With this insight, we develop two new sparsity-aware unlearning meta-schemes, termed `prune first, then unlearn' and `sparsity-aware unlearning'. Extensive experiments show that our findings and proposals consistently benefit MU in various scenarios, including class-wise data scrubbing, random data scrubbing, and backdoor data forgetting. One highlight is the 77% unlearning efficacy gain of fine-tuning (one of the simplest approximate unlearning methods) in the proposed sparsity-aware unlearning paradigm. Codes are available at https://github.com/OPTML-Group/Unlearn-Sparse.
翻訳日:2023-04-14 10:41:15 公開日:2023-04-13
# 規制市場:AIガバナンスの未来

Regulatory Markets: The Future of AI Governance ( http://arxiv.org/abs/2304.04914v3 )

ライセンス: Link先を確認
Gillian K. Hadfield, Jack Clark(参考訳) 人工知能を適切に規制することは、ますます緊急の政策課題である。 立法府や規制当局は、公共の要求を法的要件に最善に翻訳するために必要な専門知識を欠いている。 産業の自己規制への過度な依存は、民主的要求に責任を負うAIシステムの生産者とユーザを保持することに失敗する。 民間規制当局から規制サービスを購入するための規制対象を政府が求める規制市場が提案されている。 ai規制に対するこのアプローチは、指揮統制規制と自己規制の両方の限界を克服する可能性がある。 規制市場は、政策立案者の指示された目的を最も達成するための規制方法を開拓する市場力と産業R&Dの努力に頼りながら、AI規制のための政策優先順位を確立することができる。

Appropriately regulating artificial intelligence is an increasingly urgent policy challenge. Legislatures and regulators lack the specialized knowledge required to best translate public demands into legal requirements. Overreliance on industry self-regulation fails to hold producers and users of AI systems accountable to democratic demands. Regulatory markets, in which governments require the targets of regulation to purchase regulatory services from a private regulator, are proposed. This approach to AI regulation could overcome the limitations of both command-and-control regulation and self-regulation. Regulatory market could enable governments to establish policy priorities for the regulation of AI, whilst relying on market forces and industry R&D efforts to pioneer the methods of regulation that best achieve policymakers' stated objectives.
翻訳日:2023-04-14 10:40:52 公開日:2023-04-13
# 反射拡散モデル

Reflected Diffusion Models ( http://arxiv.org/abs/2304.04740v2 )

ライセンス: Link先を確認
Aaron Lou and Stefano Ermon(参考訳) スコアに基づく拡散モデルは、データをノイズにマッピングする確率的微分方程式を逆転することを学ぶ。 しかし、複雑なタスクでは、数値誤差が複雑になり、非常に不自然なサンプルとなる。 以前の研究では、各拡散ステップの後に自然データドメイン(画像のピクセル空間など)にプロジェクションするしきい値化によってこのドリフトを緩和しているが、トレーニングプロセスと生成プロセスのミスマッチにつながる。 データ制約を原則的に組み込むために、データのサポートに基づいて進化する反射確率微分方程式を逆転する反射拡散モデルを提案する。 提案手法は,一般化されたスコアマッチング損失を用いて摂動スコア関数を学習し,拡散誘導,確率ベーストレーニング,ODEサンプリングを含む標準拡散モデルのキーコンポーネントを拡張する。 我々はまた、理論的なギャップをしきい値で埋める:そのようなスキームは単に反射SDEの離散化である。 標準画像ベンチマークでは,本手法は最先端技術と競合するか,あるいは超えている。また,分類器を含まない指導では,odeを用いた高速正確なサンプリングが可能であり,高い指導重みの下でより忠実なサンプルを生成する。

Score-based diffusion models learn to reverse a stochastic differential equation that maps data to noise. However, for complex tasks, numerical error can compound and result in highly unnatural samples. Previous work mitigates this drift with thresholding, which projects to the natural data domain (such as pixel space for images) after each diffusion step, but this leads to a mismatch between the training and generative processes. To incorporate data constraints in a principled manner, we present Reflected Diffusion Models, which instead reverse a reflected stochastic differential equation evolving on the support of the data. Our approach learns the perturbed score function through a generalized score matching loss and extends key components of standard diffusion models including diffusion guidance, likelihood-based training, and ODE sampling. We also bridge the theoretical gap with thresholding: such schemes are just discretizations of reflected SDEs. On standard image benchmarks, our method is competitive with or surpasses the state of the art and, for classifier-free guidance, our approach enables fast exact sampling with ODEs and produces more faithful samples under high guidance weight.
翻訳日:2023-04-14 10:40:04 公開日:2023-04-13
# おそらくほぼ正しい連合学習

Probably Approximately Correct Federated Learning ( http://arxiv.org/abs/2304.04641v3 )

ライセンス: Link先を確認
Xiaojin Zhang, Anbu Huang, Lixin Fan, Kai Chen, Qiang Yang(参考訳) Federated Learning(FL)は、プライバシ、ユーティリティ、効率性を主柱とする、新たな分散学習パラダイムである。 既存の研究は、無限小のプライバシー漏洩、ユーティリティ損失、効率性を同時に達成することは不可能であることを示している。 したがって、FLアルゴリズムを設計する際、最適なトレードオフソリューションを見つける方法が重要な考慮事項である。 共通の方法は、トレードオフ問題を多目的最適化問題として、すなわち、予め定義された値を超えないプライバシー漏洩を抑えながら、ユーティリティ損失と効率の低下を最小限にすることである。 しかし、既存の多目的最適化フレームワークは非常に時間がかかり、パレートフロンティアの存在を保証していないため、より効率的で容易に解決できるため、多目的問題を単一目的に変換する解決策を模索する動機となっている。 そこで本研究では,pac学習を活用し,サンプル複雑性の観点から複数の目的を定量化する統一フレームワークであるfeedpacを提案する。このような定量化により,複数の目的の解空間を共有次元に限定し,単一目的最適化アルゴリズムを用いて解くことができる。 具体的には,pac学習の観点から,ユーティリティ損失,プライバシリーク,プライバシ利用効率トレードオフ,攻撃者のコストの定量化に関する結果と詳細な分析を行う。

Federated learning (FL) is a new distributed learning paradigm, with privacy, utility, and efficiency as its primary pillars. Existing research indicates that it is unlikely to simultaneously attain infinitesimal privacy leakage, utility loss, and efficiency. Therefore, how to find an optimal trade-off solution is the key consideration when designing the FL algorithm. One common way is to cast the trade-off problem as a multi-objective optimization problem, i.e., the goal is to minimize the utility loss and efficiency reduction while constraining the privacy leakage not exceeding a predefined value. However, existing multi-objective optimization frameworks are very time-consuming, and do not guarantee the existence of the Pareto frontier, this motivates us to seek a solution to transform the multi-objective problem into a single-objective problem because it is more efficient and easier to be solved. To this end, we propose FedPAC, a unified framework that leverages PAC learning to quantify multiple objectives in terms of sample complexity, such quantification allows us to constrain the solution space of multiple objectives to a shared dimension, so that it can be solved with the help of a single-objective optimization algorithm. Specifically, we provide the results and detailed analyses of how to quantify the utility loss, privacy leakage, privacy-utility-efficiency trade-off, as well as the cost of the attacker from the PAC learning perspective.
翻訳日:2023-04-14 10:39:42 公開日:2023-04-13
# 軽量YOLO7-tinyに基づく高速車両検出アルゴリズム

Fast vehicle detection algorithm based on lightweight YOLO7-tiny ( http://arxiv.org/abs/2304.06002v2 )

ライセンス: Link先を確認
Bo Li, YiHua Chen and Hao Xu(参考訳) 車両の迅速かつ正確な検出は、インテリジェントトランスポートシステム(ITS)において重要な研究課題となっている。 しかし、現在の車両検出アルゴリズムは、高い計算複雑性、低い検出率、モバイルデバイスでの使用可能性の制限といった課題に遭遇する。 これらの問題に対処するために,Ghost-YOLOv7 と呼ばれる YOLOv7-tiny の軽量車両検出アルゴリズムを提案する。 The model first scales the width multiple to 0.5 and replaces the standard convolution of the backbone network with Ghost convolution to achieve a lighter network and improve the detection speed; secondly, a Ghost bi-directional feature pyramid network (Ghost-BiFPN) neck network is designed to enhance feature extraction capability of the algorithm and enrich semantic information; thirdly, a Ghost Decouoled Head (GDH) is employed for accurate prediction of vehicle location and class, enhancing model accuracy; finally, a coordinate attention mechanism is introduced in the output layer to suppress environmental interference, and the WIoU loss function is employed to enhance the detection accuracy further. PASCAL VOCデータセットの実験結果によると、Ghost-YOLOv7 は元の YOLOv7-tiny モデルよりも優れており、計算の29.8%削減、パラメータ数の37.3%削減、モデル重量の35.1%削減、平均平均精度の1.1%向上、検出速度は428 FPSである。 これらの結果は,提案手法の有効性を検証する。

The swift and precise detection of vehicles holds significant research significance in intelligent transportation systems (ITS). However, current vehicle detection algorithms encounter challenges such as high computational complexity, low detection rate, and limited feasibility on mobile devices. To address these issues, this paper proposes a lightweight vehicle detection algorithm for YOLOv7-tiny called Ghost-YOLOv7. The model first scales the width multiple to 0.5 and replaces the standard convolution of the backbone network with Ghost convolution to achieve a lighter network and improve the detection speed; secondly, a Ghost bi-directional feature pyramid network (Ghost-BiFPN) neck network is designed to enhance feature extraction capability of the algorithm and enrich semantic information; thirdly, a Ghost Decouoled Head (GDH) is employed for accurate prediction of vehicle location and class, enhancing model accuracy; finally, a coordinate attention mechanism is introduced in the output layer to suppress environmental interference, and the WIoU loss function is employed to enhance the detection accuracy further. Experimental results on the PASCAL VOC dataset demonstrate that Ghost-YOLOv7 outperforms the original YOLOv7-tiny model, achieving a 29.8% reduction in computation, 37.3% reduction in the number of parameters, 35.1% reduction in model weights, and 1.1% higher mean average precision (mAP), while achieving a detection speed of 428 FPS. These results validate the effectiveness of the proposed method.
翻訳日:2023-04-14 10:33:22 公開日:2023-04-13
# imagereward: テキストから画像への生成のための人間好みの学習と評価

ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation ( http://arxiv.org/abs/2304.05977v2 )

ライセンス: Link先を確認
Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Tong, Qinkai Li, Ming Ding, Jie Tang, Yuxiao Dong(参考訳) 我々はimagereward(最初の汎用テキストから画像への人間選好報酬モデル)を用いて、生成モデルにおける様々な一般的な問題に対処し、それらを人間の価値と選好に合わせる。 そのトレーニングは、評価とランク付けの両方をカバーする体系的なアノテーションパイプラインに基づいており、これまでに137kのエキスパート比較のデータセットを集めています。 人間の評価において、ImageRewardは既存のスコアリング手法(例えばCLIP×38.6\%)より優れており、テキスト・画像合成の評価と改善のための有望な自動測定基準となっている。 報酬モデルは \texttt{image-reward} package at \url{https://github.com/THUDM/ImageReward} で公開されている。

We present ImageReward -- the first general-purpose text-to-image human preference reward model -- to address various prevalent issues in generative models and align them with human values and preferences. Its training is based on our systematic annotation pipeline that covers both the rating and ranking components, collecting a dataset of 137k expert comparisons to date. In human evaluation, ImageReward outperforms existing scoring methods (e.g., CLIP by 38.6\%), making it a promising automatic metric for evaluating and improving text-to-image synthesis. The reward model is publicly available via the \texttt{image-reward} package at \url{https://github.com/THUDM/ImageReward}.
翻訳日:2023-04-14 10:32:55 公開日:2023-04-13
# LMR:車線距離に基づく軌道予測

LMR: Lane Distance-Based Metric for Trajectory Prediction ( http://arxiv.org/abs/2304.05869v2 )

ライセンス: Link先を確認
Julian Schmidt, Thomas Monninger, Julian Jordan, Klaus Dietmayer(参考訳) 軌道予測のためのアプローチの開発には、メトリクスのパフォーマンスを検証し比較する必要がある。 現在確立されている測度はユークリッド距離に基づいており、これは全ての方向において誤差が等しく重み付けされていることを意味する。 ユークリッド計量は、下層の車線に対するエージェントの意図を適切に捉えていないため、道路のような構造された環境には不十分である。 下流計画課題における軌道予測手法を合理的に評価するために,車線距離に基づく新しい距離指標,レーンミスレート(LMR)を提案する。 LMRの計算には、地上構造と予測された終点が車線セグメントに割り当てられ、より正確にそれらの中心線が割り当てられる。 レーンセグメントに沿った距離によって測定され、一定のしきい値距離内にある予測がヒットとなり、そうでない場合はミスとしてカウントされる。 LMRは、ミスを起こすシーケンスの比率として定義される。 最新の3つの軌道予測モデルを用いた結果から, lmrはユークリッド距離に基づく測定値の順序を維持していることが示された。 ユークリッドミスレートとは対照的に、定性的結果は、LMRが間違った車線上に予測があるシーケンスのミスを生じることを示している。 一方、正しい車線上に予測があるシーケンスに対してヒットする。 これは、LMRが車線に対するユークリッド誤差を暗黙的に重み付けし、交通機関の意図を捉える方向に進むことを意味する。 Argoverse 2のLMRのソースコードが公開されている。

The development of approaches for trajectory prediction requires metrics to validate and compare their performance. Currently established metrics are based on Euclidean distance, which means that errors are weighted equally in all directions. Euclidean metrics are insufficient for structured environments like roads, since they do not properly capture the agent's intent relative to the underlying lane. In order to provide a reasonable assessment of trajectory prediction approaches with regard to the downstream planning task, we propose a new metric that is lane distance-based: Lane Miss Rate (LMR). For the calculation of LMR, the ground-truth and predicted endpoints are assigned to lane segments, more precisely their centerlines. Measured by the distance along the lane segments, predictions that are within a certain threshold distance to the ground-truth count as hits, otherwise they count as misses. LMR is then defined as the ratio of sequences that yield a miss. Our results on three state-of-the-art trajectory prediction models show that LMR preserves the order of Euclidean distance-based metrics. In contrast to the Euclidean Miss Rate, qualitative results show that LMR yields misses for sequences where predictions are located on wrong lanes. Hits on the other hand result for sequences where predictions are located on the correct lane. This means that LMR implicitly weights Euclidean error relative to the lane and goes into the direction of capturing intents of traffic agents. The source code of LMR for Argoverse 2 is publicly available.
翻訳日:2023-04-14 10:32:41 公開日:2023-04-13
# ニューラルマシン翻訳のためのホログラフィの曖昧さ表現の学習

Learning Homographic Disambiguation Representation for Neural Machine Translation ( http://arxiv.org/abs/2304.05860v2 )

ライセンス: Link先を確認
Weixuan Wang, Wei Peng and Qun Liu(参考訳) 同じ綴りだが異なる意味を持つホモグラフは、ニューラルマシン翻訳(nmt)において依然として挑戦的である。 最近の研究は、NMTにおける単語感覚の区別に様々な単語埋め込みアプローチを利用しているが、NMTにおけるホモグラフのあいまいさ(エンコーダの隠れ状態)を解決するための重要な要素には焦点を当てていない。 本稿では,潜伏空間におけるNMTのホモグラフィック問題に取り組むための新しい手法を提案する。 まず、自然言語推論(NLI)タスクで普遍的な文表現を学ぶためにエンコーダ(HDR-encoder)を訓練する。 我々はさらに、WordNetからホモグラフベースの合成文を用いてエンコーダを微調整し、単語レベルのホモグラフの曖昧さ表現(HDR)を学習する。 事前訓練されたHDRエンコーダは、変換精度を向上させるために様々なスキームで変換器ベースのNTTと統合される。 4つの翻訳方向に関する実験は、bleuスコアにおけるnmtシステムの性能向上(固形ベースラインと比較して最大+2.3まで)における提案手法の有効性を示す。 この効果は、追加の曖昧化タスクにおける翻訳精度の他の指標(F1、精度、リコール)によって検証することができる。 また, 熱マップやT-SNE, 翻訳例などの可視化手法を用いて, 提案手法の効果を実証する。

Homographs, words with the same spelling but different meanings, remain challenging in Neural Machine Translation (NMT). While recent works leverage various word embedding approaches to differentiate word sense in NMT, they do not focus on the pivotal components in resolving ambiguities of homographs in NMT: the hidden states of an encoder. In this paper, we propose a novel approach to tackle homographic issues of NMT in the latent space. We first train an encoder (aka "HDR-encoder") to learn universal sentence representations in a natural language inference (NLI) task. We further fine-tune the encoder using homograph-based synset sentences from WordNet, enabling it to learn word-level homographic disambiguation representations (HDR). The pre-trained HDR-encoder is subsequently integrated with a transformer-based NMT in various schemes to improve translation accuracy. Experiments on four translation directions demonstrate the effectiveness of the proposed method in enhancing the performance of NMT systems in the BLEU scores (up to +2.3 compared to a solid baseline). The effects can be verified by other metrics (F1, precision, and recall) of translation accuracy in an additional disambiguation task. Visualization methods like heatmaps, T-SNE and translation examples are also utilized to demonstrate the effects of the proposed method.
翻訳日:2023-04-14 10:32:15 公開日:2023-04-13
# Proximity Forest 2.0: 時系列の新しい有効でスケーラブルな類似性に基づく分類器

Proximity Forest 2.0: A new effective and scalable similarity-based classifier for time series ( http://arxiv.org/abs/2304.05800v2 )

ライセンス: Link先を確認
Matthieu Herrmann, Chang Wei Tan, Mahsa Salehi, Geoffrey I. Webb(参考訳) 時系列分類(TSC)は、傾向、ばらつき、頻度、大きさ、および様々なパターンを含む様々な分類タスクに関連があるかもしれない機能の種類が異なるため、難しい課題である。 この課題に対処するために、類似性に基づいた特徴と間隔、シェイプレット、辞書、カーネル、ニューラルネットワーク、ハイブリッドアプローチなど、いくつかの代替アプローチクラスが開発されている。 カーネル、ニューラルネットワーク、ハイブリッドアプローチは全体としてうまく機能するが、特定のタスクに適した特殊なアプローチもいくつかある。 本稿では,新しい類似度ベース分類器である近接フォレストバージョン2.0 (pf 2.0) を提案し,類似度ベース手法が最良であるベンチマークにおいて,udrベンチマークで先行する類似度ベース分類器を上回り,最先端カーネル,ニューラルネットワーク,ハイブリッド手法を上回った。 pf 2.0は3つの最近の時系列類似度測定の進歩を取り入れている: (1) 弾性類似度計算を高速化するために、計算効率のよい早期放棄と刈り取り、(2) 新たな弾性類似度測定、 amerced dynamic time warping (adtw)、(3) コスト関数チューニング。 一連の類似度測度を合理化し、元のPFの8つの基本測度を3に減らし、有限部分集合ではなく全ての類似度測度を持つ最初の微分変換を使用する。 私たちは単一のC++フレームワークでPF 1.0とPF 2.0の両方を実装しました。

Time series classification (TSC) is a challenging task due to the diversity of types of feature that may be relevant for different classification tasks, including trends, variance, frequency, magnitude, and various patterns. To address this challenge, several alternative classes of approach have been developed, including similarity-based, features and intervals, shapelets, dictionary, kernel, neural network, and hybrid approaches. While kernel, neural network, and hybrid approaches perform well overall, some specialized approaches are better suited for specific tasks. In this paper, we propose a new similarity-based classifier, Proximity Forest version 2.0 (PF 2.0), which outperforms previous state-of-the-art similarity-based classifiers across the UCR benchmark and outperforms state-of-the-art kernel, neural network, and hybrid methods on specific datasets in the benchmark that are best addressed by similarity-base methods. PF 2.0 incorporates three recent advances in time series similarity measures -- (1) computationally efficient early abandoning and pruning to speedup elastic similarity computations; (2) a new elastic similarity measure, Amerced Dynamic Time Warping (ADTW); and (3) cost function tuning. It rationalizes the set of similarity measures employed, reducing the eight base measures of the original PF to three and using the first derivative transform with all similarity measures, rather than a limited subset. We have implemented both PF 1.0 and PF 2.0 in a single C++ framework, making the PF framework more efficient.
翻訳日:2023-04-14 10:31:39 公開日:2023-04-13
# 連続変数系におけるリウビリアン例外点

Liouvillian exceptional points in continuous variable system ( http://arxiv.org/abs/2304.05792v2 )

ライセンス: Link先を確認
B. A. Tay(参考訳) 一般環境における発振器の量子マルコフマスター方程式に対するリウヴィリア例外点を求める。 これらは発振器の修正周波数が消失した点で発生し、リウヴィリアンの固有値が実数となる。 一般的なシステムでは、振動子の自然な周波数を変更するパラメータが2つある。 パラメータの1つは減衰率である。 例外点は発振器の臨界減衰に対応する。 この状況はcaldeira-leggett (cl)方程式とhu-paz--zhang方程式のマルコフ極限によって示され、他のパラメータは振動子の有効質量を変化させ、非常に重い振動子の限界に達する。この状況はkossakowski-lindblad (kl)方程式の修正形によって示される。 固有函数は例外点で合体し、自然数$N$でラベル付けされた部分空間に分解する。 N$-部分空間のそれぞれに$(N+1)$-foldデジェネシーが存在し、リウヴィリアンは位数-$(N+1)$のヨルダンブロック構造を持つ。 我々はいくつかのリウヴィリアンに対する一般化固有ベクトルの明示的な形式を得る。 退化のため、一般化された固有関数には選択の自由がある。 この自由度は、形式が得られる類似性変換の下でジョルダンブロック構造の不変性として表される。 我々は,cl方程式の一般化固有ベクトルを用いて,非減衰領域における発振器の最初の励起状態の緩和,例外点に対応する臨界減衰領域,過減衰領域の比較を行った。

The Liouvillian exceptional points for a quantum Markovian master equation of an oscillator in a generic environment are obtained. They occur at the points when the modified frequency of the oscillator vanishes, whereby the eigenvalues of the Liouvillian become real. In a generic system there are two parameters that modify the oscillator's natural frequency. One of the parameters can be the damping rate. The exceptional point then corresponds to critical damping of the oscillator. This situation is illustrated by the Caldeira--Leggett (CL) equation and the Markovian limit of the Hu--Paz--Zhang (HPZ) equation. The other parameter changes the oscillator's effective mass whereby the exceptional point is reached in the limit of extremely heavy oscillator. This situation is illustrated by a modified form of the Kossakowski--Lindblad (KL) equation. The eigenfunctions coalesce at the exceptional points and break into subspaces labelled by a natural number $N$. In each of the $N$-subspace, there is a $(N+1)$-fold degeneracy and the Liouvillian has a Jordan block structure of order-$(N+1)$. We obtain the explicit form of the generalized eigenvectors for a few Liouvillians. Because of the degeneracies, there is a freedom of choice in the generalized eigenfunctions. This freedom manifests itself as an invariance in the Jordan block structure under a similarity transformation whose form is obtained. We compare the relaxation of the first excited state of an oscillator in the underdamped region, critically damped region which corresponds to the exceptional point, and overdamped region using the generalized eigenvectors of the CL equation.
翻訳日:2023-04-14 10:31:08 公開日:2023-04-13
# 西スラヴ語モデルにおけるジェンダーバイアスの測定

Measuring Gender Bias in West Slavic Language Models ( http://arxiv.org/abs/2304.05783v2 )

ライセンス: Link先を確認
Sandra Martinkov\'a, Karolina Sta\'nczak, Isabelle Augenstein(参考訳) トレーニング済みの言語モデルは、基礎となるデータセットからダウンストリームタスクへのバイアスを持続することが知られている。 しかし、これらの発見は主に英語の単言語モデルに基づいているが、英語以外の言語モデルでコード化されたバイアスに関する調査研究は少ない。 本稿では,西スラヴ語モデルにおけるジェンダーバイアスの分析により,このギャップを埋める。 チェコ語、ポーランド語、スロバキア語で最初のテンプレートベースのデータセットを導入し、男性、女性、非バイナリ対象に対する性別バイアスを測定した。 単言語と多言語の両方の言語モデルを用いて文を完成させ,マスキング言語モデリングの目的に適合性を評価する。 次に、西スラヴ語モデルで符号化されたジェンダーバイアスを、生成した単語の毒性とジェンダーネスを定量化する。 これらの言語モデルは、被験者の性別に依存する有害な完了を生成する。 チェコ語、スロバキア語、ポーランド語のモデルは、被検者として男性に対してより傷つきやすい完成をもたらしており、検査の結果、暴力、死、病気に関連する完成が原因であることが判明しました。

Pre-trained language models have been known to perpetuate biases from the underlying datasets to downstream tasks. However, these findings are predominantly based on monolingual language models for English, whereas there are few investigative studies of biases encoded in language models for languages beyond English. In this paper, we fill this gap by analysing gender bias in West Slavic language models. We introduce the first template-based dataset in Czech, Polish, and Slovak for measuring gender bias towards male, female and non-binary subjects. We complete the sentences using both mono- and multilingual language models and assess their suitability for the masked language modelling objective. Next, we measure gender bias encoded in West Slavic language models by quantifying the toxicity and genderness of the generated words. We find that these language models produce hurtful completions that depend on the subject's gender. Perhaps surprisingly, Czech, Slovak, and Polish language models produce more hurtful completions with men as subjects, which, upon inspection, we find is due to completions being related to violence, death, and sickness.
翻訳日:2023-04-14 10:30:41 公開日:2023-04-13
# Segment Anythingは必ずしも完璧ではない: SAMによる現実世界のさまざまなアプリケーションに関する調査

Segment Anything Is Not Always Perfect: An Investigation of SAM on Different Real-world Applications ( http://arxiv.org/abs/2304.05750v2 )

ライセンス: Link先を確認
Wei Ji, Jingjing Li, Qi Bi, Wenbo Li, Li Cheng(参考訳) 最近、Meta AI Researchは、前例のないほど大きなセグメンテーションデータセット(SA-1B)で事前訓練された、一般的な、プロンプト可能なセグメンテーションモデル(SAM)にアプローチしている。 疑う余地なく、samの出現は、様々な実用的な画像セグメンテーションアプリケーションにとって大きな利益をもたらすだろう。 本研究では, 自然画像, 農業, 製造, リモートセンシング, 医療など, 様々な応用分野におけるsamの性能について, 一連の興味深い調査を行った。 我々はSAMの利点と限界を分析し議論し、セグメンテーションタスクの今後の展開を展望する。 我々の研究は、新しいアルゴリズムや理論を提案するのではなく、実際にSAMの包括的なビューを提供する。 この研究は、将来の一般的なセグメンテーションに向けた研究活動を促進する洞察を提供するものと期待されている。

Recently, Meta AI Research approaches a general, promptable Segment Anything Model (SAM) pre-trained on an unprecedentedly large segmentation dataset (SA-1B). Without a doubt, the emergence of SAM will yield significant benefits for a wide array of practical image segmentation applications. In this study, we conduct a series of intriguing investigations into the performance of SAM across various applications, particularly in the fields of natural images, agriculture, manufacturing, remote sensing, and healthcare. We analyze and discuss the benefits and limitations of SAM and provide an outlook on future development of segmentation tasks. Note that our work does not intend to propose new algorithms or theories, but rather provide a comprehensive view of SAM in practice. This work is expected to provide insights that facilitate future research activities toward generic segmentation.
翻訳日:2023-04-14 10:30:23 公開日:2023-04-13
# サイクルグラフ上の量子ウォークによる任意の量子演算の実装

Implementing arbitrary quantum operations via quantum walks on a cycle graph ( http://arxiv.org/abs/2304.05672v2 )

ライセンス: Link先を確認
Jia-Yi Lin, Xin-Yu Li, Yu-Hao Shao, Wei Wang and Shengjun Wu(参考訳) 量子回路モデル(quantum circuit model)は、量子コンピュータや量子ニューラルネットワークを実装する上で最も一般的に用いられるモデルである。 回路モデルは、通常、普遍集合から1量子ビットと2量子ビットのユニタリゲートのシーケンスによって所望のユニタリ演算を実行する。 これは実験者がいくつかの異なる種類のユニバーサルゲートを準備するだけであるから、確かに促進するが、任意の単体操作を行うのに必要なゲートの数は通常大きい。 したがって、回路深さや走行時間の点で効率が保証されない。 ここでは、周期グラフ上の単純な離散時間量子ウォーク(dtqw)を用いて任意のユニタリ演算をモデル化する手法を提案する。 我々のモデルは基本的にDTQWに基づく量子ニューラルネットワークである。 まず、コイン演算子の適切な選択により任意のユニタリ演算が実現可能であることを示すことは普遍的である。 第2に、私たちのDTQWベースのニューラルネットワークは、学習アルゴリズム、すなわち、我々のネットワークに適応した修正確率勾配勾配アルゴリズムを介して効率的に更新することができる。 このネットワークを訓練することで、任意の所望のユニタリ操作に対する近似を見つけることができる。 出力のさらなる測定により、DTQWベースのニューラルネットワークは、正の演算値測定(POVM)によって説明される一般的な測定を実装できる。 数値シミュレーションによる任意の2アウトカムPOVM測定の実装能力を示す。 さらに,ネットワークを単純化し,トレーニング中にデバイスノイズを克服し,実験実装に親しみやすくすることの実証を行った。 本研究は、量子計算におけるDTQWベースのニューラルネットワークの機能とその実験室実装における可能性を示す。

The quantum circuit model is the most commonly used model for implementing quantum computers and quantum neural networks whose essential tasks are to realize certain unitary operations. The circuit model usually implements a desired unitary operation by a sequence of single-qubit and two-qubit unitary gates from a universal set. Although this certainly facilitates the experimentalists as they only need to prepare several different kinds of universal gates, the number of gates required to implement an arbitrary desired unitary operation is usually large. Hence the efficiency in terms of the circuit depth or running time is not guaranteed. Here we propose an alternative approach; we use a simple discrete-time quantum walk (DTQW) on a cycle graph to model an arbitrary unitary operation without the need to decompose it into a sequence of gates of smaller sizes. Our model is essentially a quantum neural network based on DTQW. Firstly, it is universal as we show that any unitary operation can be realized via an appropriate choice of coin operators. Secondly, our DTQW-based neural network can be updated efficiently via a learning algorithm, i.e., a modified stochastic gradient descent algorithm adapted to our network. By training this network, one can promisingly find approximations to arbitrary desired unitary operations. With an additional measurement on the output, the DTQW-based neural network can also implement general measurements described by positive-operator-valued measures (POVMs). We show its capacity in implementing arbitrary 2-outcome POVM measurements via numeric simulation. We further demonstrate that the network can be simplified and can overcome device noises during the training so that it becomes more friendly for laboratory implementations. Our work shows the capability of the DTQW-based neural network in quantum computation and its potential in laboratory implementations.
翻訳日:2023-04-14 10:30:11 公開日:2023-04-13
# 環境正義データツールにおける割当害の可能性

Potential for allocative harm in an environmental justice data tool ( http://arxiv.org/abs/2304.05603v2 )

ライセンス: Link先を確認
Benjamin Q. Huynh, Elizabeth T. Chin, Allison Koenecke, Derek Ouyang, Daniel E. Ho, Mathew V. Kiang, David H. Rehkopf(参考訳) 政策決定を知らせるために、近隣レベルのスクリーニングアルゴリズムがますます展開されている。 環境正義を促進するために設計されたcalenviroscreenというアルゴリズムを評価し、毎年数億ドルの公的資金の導出に使用しています。 我々は、モデルが主観的モデル決定に敏感で、16%のトラクションが指定を変更する可能性があり、また、財務的にも、前向きな指定の効果を4年間で208億ドル(1.56-2.41億ドル)相当の104%(62-145%)の増加と見積もっている。 我々はまた、倫理的な懸念を提起し、対処の責任と責任感も観察する。 我々は,誤用を防止するために,注意度分析を組み込むことを推奨する。

Neighborhood-level screening algorithms are increasingly being deployed to inform policy decisions. We evaluate one such algorithm, CalEnviroScreen - designed to promote environmental justice and used to guide hundreds of millions of dollars in public funding annually - assessing its potential for allocative harm. We observe the model to be sensitive to subjective model decisions, with 16% of tracts potentially changing designation, as well as financially consequential, estimating the effect of its positive designations as a 104% (62-145%) increase in funding, equivalent to \$2.08 billion (\$1.56-2.41 billion) over four years. We also observe allocative tradeoffs and susceptibility to manipulation, raising ethical concerns. We recommend incorporating sensitivity analyses to mitigate allocative harm and accountability mechanisms to prevent misuse.
翻訳日:2023-04-14 10:29:46 公開日:2023-04-13