このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230816となっている論文です。

PDF登録状況(公開日: 20230816)

TitleAuthorsAbstract論文公表日・翻訳日
# モバイルアプリケーションのエネルギ効率向上のための技術--分類学と体系的文献レビュー

Techniques for Improving the Energy Efficiency of Mobile Apps: A Taxonomy and Systematic Literature Review ( http://arxiv.org/abs/2308.08292v1 )

ライセンス: Link先を確認
Stefan Huber, Tobias Lorey, Michael Felderer(参考訳) エネルギー効率の良いソフトウェアを構築することは、モバイル開発者にとってますます重要なタスクである。 しかし、この目標を支える技術に関する累積的な知識は存在していない。 我々は,モバイルアプリのエネルギー効率を向上させる既存の技術に関する情報を集めるために,体系的な文献レビューを実施している。 91の一次研究を合成し,モバイルアプリケーションにおけるエネルギー効率向上のための手法の分類法を提案する。 分類学には7つの主要なテクニックカテゴリが含まれており、開発者が利用可能なメソッドのコレクションとして機能し、ベンチマークテストによってエネルギー効率テストを行う際のソフトウェアテスターのリファレンスガイドとして機能する。

Building energy efficient software is an increasingly important task for mobile developers. However, a cumulative body of knowledge of techniques that support this goal does not exist. We conduct a systematic literature review to gather information on existing techniques that allow developers to increase energy efficiency in mobile apps. Based on a synthesis of the 91 included primary studies, we propose a taxonomy of techniques for improving the energy efficiency in mobile apps. The taxonomy includes seven main categories of techniques and serves as a collection of available methods for developers and as a reference guide for software testers when performing energy efficiency testing by the means of benchmark tests.
翻訳日:2023-10-23 14:10:32 公開日:2023-08-16
# コントラスト学習によるコミット分類の促進

Boosting Commit Classification with Contrastive Learning ( http://arxiv.org/abs/2308.08263v1 )

ライセンス: Link先を確認
Jiajun Tong, Zhixiao Wang and Xiaobin Rui(参考訳) コミット分類(CC)はソフトウェアのメンテナンスにおいて重要なタスクであり、ソフトウェア開発者がコードの変更をその性質と目的に応じて異なるタイプに分類するのに役立つ。 これによって開発者は、開発作業の進捗状況の理解を深め、改善が必要な領域を特定し、新しいソフトウェアバージョンのリリース時期と方法に関するインフォームドな意思決定が可能になる。 しかし、既存のモデルは微調整プロセスのために多くの手作業でラベル付けされたデータを必要とし、文レベルの意味情報を無視している。 したがって、CCをスプリットショットシナリオで解決することは依然として困難である。 上記の問題を解決するために,比較学習に基づくコミット分類フレームワークを提案する。 まず、データセットのラベルに従って、$K$文と擬似ラベルを生成し、データセットを強化することを目的とする。 次に, 正の$T_p^{|C|} と負の$T_n^{|C|} とをランダムにグループ化し, 類似性を比較した。 個別事前訓練文変換器(ST)を用いて,異なる特徴から文レベルの埋め込みを効率よく得る。 最後に、類似ベクトルがより近接しているベクトルの分布を制限するためにコサイン類似性関数を採用する。 次に、光微調整モデルを用いて、入ってくるコミットのラベル予測を行う。 2つのオープンデータセットに対する大規模な実験により、我々のフレームワークは、最先端(SOTA)性能を実現し、微調整のための多数のトレーニングサンプルを必要とせずにモデルの適応性を向上しつつ、単純な、かつ効果的にCC問題を解決することができることを示した。 コード、データ、トレーニングされたモデルはhttps://github.com/AppleMax 1992/CommitFit.comで入手できる。

Commit Classification (CC) is an important task in software maintenance, which helps software developers classify code changes into different types according to their nature and purpose. It allows developers to understand better how their development efforts are progressing, identify areas where they need improvement, and make informed decisions about when and how to release new software versions. However, existing models need lots of manually labeled data for fine-tuning processes, and ignore sentence-level semantic information, which is often essential for discovering the difference between diverse commits. Therefore, it is still challenging to solve CC in fewshot scenario. To solve the above problems, we propose a contrastive learning-based commit classification framework. Firstly, we generate $K$ sentences and pseudo-labels according to the labels of the dataset, which aims to enhance the dataset. Secondly, we randomly group the augmented data $N$ times to compare their similarity with the positive $T_p^{|C|}$ and negative $T_n^{|C|}$ samples. We utilize individual pretrained sentence transformers (ST)s to efficiently obtain the sentence-level embeddings from different features respectively. Finally, we adopt the cosine similarity function to limit the distribution of vectors, similar vectors are more adjacent. The light fine-tuned model is then applied to the label prediction of incoming commits. Extensive experiments on two open available datasets demonstrate that our framework can solve the CC problem simply but effectively in fewshot scenarios, while achieving state-of-the-art(SOTA) performance and improving the adaptability of the model without requiring a large number of training samples for fine-tuning. The code, data, and trained models are available at https://github.com/AppleMax1992/CommitFit.
翻訳日:2023-10-23 14:10:21 公開日:2023-08-16
# スマートモビリティにおける創発的ソフトウェアサービスプラットフォームとその応用

Emergent Software Service Platform and its Application in a Smart Mobility Setting ( http://arxiv.org/abs/2308.08168v1 )

ライセンス: Link先を確認
Nils Wilken, Christoph Knieke, Eric Nyakam, Andreas Rausch, Christian Schindler, Christian Bartelt and Nikolaus Ziebura(参考訳) 産業、ビジネス、社会におけるデジタルイノベーションの発展ダイナミクスは、もはや古典的な開発プロセスにおいて中央および階層的に設計できない複雑なシステムコングロマリットを生み出している。 むしろシステムは、異質なアクターがオープンなプラットフォームで一緒に行動するDevOpsプロセスで進化している。 このような動的かつ自律的に変化するシステムランドスケープへのインフルエンスとコントロールは、現在、サービスユーザとプロバイダ、およびプラットフォームインフラストラクチャのオペレーターにとって大きな課題であり、基本的な関心事である。 本稿では,このような創発的ソフトウェアサービスプラットフォームのためのアーキテクチャを提案する。 このアーキテクチャを基盤となるエンジニアリング方法論で実装するソフトウェアプラットフォームは、スマートパーキングロットシナリオによって実証される。

The development dynamics of digital innovations for industry, business, and society are producing complex system conglomerates that can no longer be designed centrally and hierarchically in classic development processes. Instead, systems are evolving in DevOps processes in which heterogeneous actors act together on an open platform. Influencing and controlling such dynamically and autonomously changing system landscapes is currently a major challenge and a fundamental interest of service users and providers, as well as operators of the platform infrastructures. In this paper, we propose an architecture for such an emergent software service platform. A software platform that implements this architecture with the underlying engineering methodology is demonstrated by a smart parking lot scenario.
翻訳日:2023-10-23 14:09:52 公開日:2023-08-16
# LeakPair: シングルページWebアプリケーションにおけるメモリリークの積極的な修復

LeakPair: Proactive Repairing of Memory Leaks in Single Page Web Applications ( http://arxiv.org/abs/2308.08144v1 )

ライセンス: Link先を確認
Arooba Shahoor and Askar Yeltayuly Khamit and Jooyong Yi and Dongsun Kim(参考訳) 現代的なWebアプリケーションは、React、Vue.js、Angularといったアプリケーション開発フレームワークを利用することが多い。 フレームワークはいくつかの有用なコンポーネントを持つWebアプリケーションの開発を促進するが、フレームワークがしばしばシングルページアプリケーション(SPA)を生成するため、管理されていないメモリ消費に対して必然的に脆弱である。 このような場合、SPAアプリの単一のメモリリークでさえ、クライアント側のパフォーマンス劣化を引き起こす可能性がある。 しかし、最近のWebアプリケーションのデバッグ技術は依然としてメモリリーク検出に重点を置いている。 我々は,シングルページアプリケーションにおけるメモリリークの修復手法である leakpair を提案する。 メモリリークがほとんど機能しないバグであり、それを修正してもアプリケーションの動作が変更されないという知見を考えると、この技術はリーク検出をせずに、積極的にメモリリークを修正するパッチを生成するように設計されている。 効果的なパッチを生成するために、ecurkepairはパターンベースのプログラム修復のアイデアに従っている。 明示的なリーク検出を使わずに20以上のオープンソースプロジェクトでこの技術を評価する。 私たちの技術で生成されたパッチもプルリクエストとしてプロジェクトに提出されます。 その結果、recurkepairは開発者に受け入れられるメモリ消費を減らすために効果的なパッチを生成できることがわかった。 さらに、パッチを適用した後、プロジェクトによって提供されるテストスイートを実行し、パッチが機能障害を引き起こしないことが判明した。

Modern web applications often resort to application development frameworks such as React, Vue.js, and Angular. While the frameworks facilitate the development of web applications with several useful components, they are inevitably vulnerable to unmanaged memory consumption since the frameworks often produce Single Page Applications (SPAs). Web applications can be alive for hours and days with behavior loops, in such cases, even a single memory leak in a SPA app can cause performance degradation on the client side. However, recent debugging techniques for web applications still focus on memory leak detection, which requires manual tasks and produces imprecise results. We propose LeakPair, a technique to repair memory leaks in single page applications. Given the insight that memory leaks are mostly non-functional bugs and fixing them might not change the behavior of an application, the technique is designed to proactively generate patches to fix memory leaks, without leak detection, which is often heavy and tedious. To generate effective patches, LeakPair follows the idea of pattern-based program repair since the automated repair strategy shows successful results in many recent studies. We evaluate the technique on more than 20 open-source projects without using explicit leak detection. The patches generated by our technique are also submitted to the projects as pull requests. The results show that LeakPair can generate effective patches to reduce memory consumption that are acceptable to developers. In addition, we execute the test suites given by the projects after applying the patches, and it turns out that the patches do not cause any functionality breakage; this might imply that LeakPair can generate non-intrusive patches for memory leaks.
翻訳日:2023-10-23 14:09:41 公開日:2023-08-16
# 今どこに行くの? npm エコシステムにおけるパッケージの削減のための代替手段

Where to Go Now? Finding Alternatives for Declining Packages in the npm Ecosystem ( http://arxiv.org/abs/2308.08667v1 )

ライセンス: Link先を確認
Suhaib Mujahid and Diego Elias Costa and Rabe Abdalkareem and Emad Shihab(参考訳) ソフトウェアエコシステム(npm、PyPIなど)は、現代のソフトウェア開発のバックボーンである。 開発者は、新しい問題を解決するために、あるいは代替ソリューションを提供するために、エコシステムに毎日新しいパッケージを追加する。 パッケージの再利用は残業時間が少なく、メンテナンスの頻度も低くなる可能性がある。 したがって、開発者は通常、依存関係をより良い代替物に移行します。 より良い代替手段でパッケージを減少させるには、置き換えるべきパッケージを特定し、代替品を見つけ、アセットマイグレーションのメリットを見つけ、最終的に移行を実行する必要がある。 本稿では,置き換えるべきパッケージを自動的に識別するアプローチを提案し,提案するマイグレーションを行うオープンソースプロジェクトの実例でその代替案がサポートされている。 その基本となるアプローチは、他の開発者へのマイグレーションを提案するために、エコシステム内で実行される依存関係の移行パターンに依存しています。 npmエコシステムに対する我々のアプローチを評価し、提案された選択肢の96%が正確であることがわかった。 さらに、専門家のJavaScript開発者を調査した結果、67%が、提案する代替パッケージを将来のプロジェクトで使用することを示唆している。

Software ecosystems (e.g., npm, PyPI) are the backbone of modern software developments. Developers add new packages to ecosystems every day to solve new problems or provide alternative solutions, causing obsolete packages to decline in their importance to the community. Packages in decline are reused less overtime and may become less frequently maintained. Thus, developers usually migrate their dependencies to better alternatives. Replacing packages in decline with better alternatives requires time and effort by developers to identify packages that need to be replaced, find the alternatives, asset migration benefits, and finally, perform the migration. This paper proposes an approach that automatically identifies packages that need to be replaced and finds their alternatives supported with real-world examples of open source projects performing the suggested migrations. At its core, our approach relies on the dependency migration patterns performed in the ecosystem to suggest migrations to other developers. We evaluated our approach on the npm ecosystem and found that 96% of the suggested alternatives are accurate. Furthermore, by surveying expert JavaScript developers, 67% of them indicate that they will use our suggested alternative packages in their future projects.
翻訳日:2023-10-23 13:49:14 公開日:2023-08-16
# DataRaceBench V1.4.1とDataRaceBench-ML V0.1: データ競合検出のためのベンチマークスイート

DataRaceBench V1.4.1 and DataRaceBench-ML V0.1: Benchmark Suites for Data Race Detection ( http://arxiv.org/abs/2308.08473v1 )

ライセンス: Link先を確認
Le Chen, Wenhao Wu, Stephen F. Siegel, Pei-Hung Lin, Chunhua Liao(参考訳) データレースは、プログラムの正確性に悪影響を及ぼすため、マルチスレッド並列アプリケーションに重大な脅威をもたらす。 オープンソースのベンチマークスイートであるdataracebenchは、これらのデータ競合検出ツールを体系的で測定可能な方法で評価するために特別に開発されている。 機械学習技術は近年,ハイパフォーマンスコンピューティング (HPC) プログラムの解析と最適化において大きな可能性を示している。 しかし、これらの技術は訓練と洗練のために特別なデータフォーマットを必要とする。 本稿では、Wuらによる新しいデータレースコントリビューションを取り入れた、DataRaceBenchの最新アップデートについて述べる。 また、DataRaceBench-ML (DRB-ML) \cite{drbml}という派生データセットを導入している。 DRB-MLは、機械学習と大規模言語モデルの新たなトレンドと一致している。 dataracebenchから派生したこのデータセットは、データ競合の存在を示す詳細なラベルを含み、変数名、行番号、操作(読み取り/書き込み)といった関連する変数の包括的詳細を提供する。 また, DRB-MLと異なり, LLMファインチューニング用に設計された一連のプロンプト応答ペアを統合した。

Data races pose a significant threat in multi-threaded parallel applications due to their negative impact on program correctness. DataRaceBench, an open-source benchmark suite, is specifically crafted to assess these data race detection tools in a systematic and measurable manner. Machine learning techniques have recently demonstrated considerable potential in high-performance computing (HPC) program analysis and optimization. However, these techniques require specialized data formats for training and refinement. This paper presents the latest update to DataRaceBench, incorporating new data race contributions from Wu et al. \cite{wu2023model}, and introduces a derived dataset named DataRaceBench-ML (DRB-ML) \cite{drbml}. DRB-ML aligns with the emerging trend of machine learning and large language models. Originating from DataRaceBench, this dataset includes detailed labels that denote the presence of a data race and provides comprehensive details of associated variables, such as variable names, line numbers, and the operation (read/write). Unique to DRB-ML, we have also integrated a series of tailored prompt-response pairs specifically designed for LLM fine-tuning.
翻訳日:2023-10-23 13:48:57 公開日:2023-08-16
# 概念モデリングのためのオントロジー--情報など、物議を醸す機械が語ることの現実

Ontology for Conceptual Modeling: Reality of What Thinging Machines Talk About, e.g., Information ( http://arxiv.org/abs/2308.09483v1 )

ライセンス: Link先を確認
Sabah Al-Fedaghi(参考訳) ソフトウェア工学の分野としての概念モデリング(cm)では、現在提案されているオントロジー(エンティティのカテゴリー分析)は、哲学的理論(例えばbunge s)の全体を通して一般的に確立される。 本稿では,論理オントロジーを二次情報源として,図式に基づくCMのオントロジー基盤を構築するための学際的な研究手法を追求する。 オントロジーのオフショア調達を哲学から逃れ、CMに移植する試みである。 このような取り組みにおいて、CM図形言語は抽象的な実体に執着する教養哲学言語とは対照的に重要な役割を担っている。 具体的には,モデラーが物作り機械(TM)を使用する際の現実の補足的説明として受け入れる記述的オントロジー(形式的とは対照的に)を開発すること,すなわち,TMモデリングが論じるもののオントロジーを明らかにすること,すなわち自然言語のオントロジーに類似する。 ここでの目標は、十分堅固なcm概念とプロセスを開発することにあります。 per se(例えばアイデンティティ、実体)の古典的分析は本書では強調されていないが、それでも哲学的概念は比較すべき権威を形成している。 ケーススタディでは、そのような方法論が情報の概念に適用される。 このアプリケーションは、TM方法論の理解を深め、ソフトウェア工学における重要な概念としての情報の性質に関する疑問に光を当てたいくつかの問題を明らかにする。 情報はイベント、つまり、既存のものに関するものとして定義される。 他者によって受け継がれていくことでのみ存在する在来性を持つとされる。 結果は、情報を定義し、その性質を理解するための有望なアプローチを示しているようだ。

In conceptual modeling (CM) as a subdiscipline of software engineering, current proposed ontologies (categorical analysis of entities) are typically established through whole adoption of philosophical theories (e.g. Bunge s). In this paper, we pursue an interdisciplinary research approach to develop a diagrammatic-based ontological foundation for CM using philosophical ontology as a secondary source. It is an endeavor to escape an offshore procurement of ontology from philosophy and implant it in CM. In such an effort, the CM diagrammatic language plays an important role in contrast to dogmatic philosophical languages obsession with abstract entities. Specifically, this paper is about developing a descriptive (in contrast to formal) ontology that a modeler accepts as a supplementary account of reality when using thinging machines (TMs; i.e. a reality that uncovers the ontology of things that TM modeling discusses or talks about, akin to the ontology of natural language). The aim here is aligned toward developing CM notions and processes that are firm enough. Classical analysis of being per se (e.g. identity, substance) is de-emphasized in this work; nevertheless, philosophical concepts form an acknowledged authority to compare to. As a case study, such a methodology is applied to the notion of information. This application would enhance understanding of the TM methodology and clarify some of the issues that shed light on the question of the nature of information as an important concept in software engineering. Information is defined as about events; that is, it is about existing things. It is viewed as having a subsisting nature that exists only through being carried on by other things. The results seem to indicate a promising approach to define information and understand its nature.
翻訳日:2023-10-23 13:38:55 公開日:2023-08-16
# フェイズ脳波の符号化によるビデオ記憶可能性の予測

Memories in the Making: Predicting Video Memorability with Encoding Phase EEG ( http://arxiv.org/abs/2309.16704v1 )

ライセンス: Link先を確認
Lorin Sweeney and Graham Healy and Alan F. Smeaton(参考訳) 短命な瞬間の世界では、私たちの脳は、川の無力な流れの中で貴重なナゲットを探す熟練した金のプロスペクターのような、一連の経験を熱心にシーブします。 本研究は,記憶の融合のために経験が優先されるような,無意味な「記憶力の運動」という,極めて重要な瞬間に陥ります。 被験者の脳波信号のエンコーディングをスケールグラムを用いて視覚領域に変換し、深層学習技術を活用することにより、映像の主観的認識を予測することを目的として、この瞬間の基盤となる神経シグネチャについて検討する。 宣言的記憶の符号化における右側頭葉上のテータバンド(4-8Hz)の振動の関与を支持するだけでなく,経験の川を規定する金のナゲットと同様,記憶の異なる瞬間の存在も支持している。

In a world of ephemeral moments, our brain diligently sieves through a cascade of experiences, like a skilled gold prospector searching for precious nuggets amidst the river's relentless flow. This study delves into the elusive "moment of memorability" -- a fleeting, yet vital instant where experiences are prioritised for consolidation in our memory. By transforming subjects' encoding phase electroencephalography (EEG) signals into the visual domain using scaleograms and leveraging deep learning techniques, we investigate the neural signatures that underpin this moment, with the aim of predicting subject-specific recognition of video. Our findings not only support the involvement of theta band (4-8Hz) oscillations over the right temporal lobe in the encoding of declarative memory, but also support the existence of a distinct moment of memorability, akin to the gold nuggets that define our personal river of experiences.
翻訳日:2023-10-23 05:45:44 公開日:2023-08-16
# グラフスペクトル領域における車両軌道の予測と解釈

Prediction and Interpretation of Vehicle Trajectories in the Graph Spectral Domain ( http://arxiv.org/abs/2309.16702v1 )

ライセンス: Link先を確認
Marion Neumeier, Sebastian Dorn, Michael Botsch, Wolfgang Utschick(参考訳) 本研究は,トラフィックシナリオのグラフスペクトル表現の包括的解析と解釈を提供する。 時空間的車両間相互作用グラフに基づいて、観測された交通シナリオを多次元グラフフーリエ変換を用いてグラフスペクトル領域に変換することができる。 これらのスペクトルシナリオ表現は、交通シナリオの複雑でインタラクティブな性質をうまく組み込むことが示されているので、車両軌道の予測に有用な特徴表現が用いられる。 GFTNNv2は、グラフスペクトル領域における車両軌跡を予測するディープラーニングネットワークである。 GFTNNv2の評価は、公開データセットであるHighDとNGSIMで、最先端の予測アプローチと比較して25%のパフォーマンス向上を示している。

This work provides a comprehensive analysis and interpretation of the graph spectral representation of traffic scenarios. Based on a spatio-temporal vehicle interaction graph, an observed traffic scenario can be transformed into the graph spectral domain by means of the multidimensional Graph Fourier Transformation. Since these spectral scenario representations have shown to successfully incorporate the complex and interactive nature of traffic scenarios, the beneficial feature representation is employed for the purpose of predicting vehicle trajectories. This work introduces GFTNNv2, a deep learning network predicting vehicle trajectories in the graph spectral domain. Evaluation of the GFTNNv2 on the publicly available datasets highD and NGSIM shows a performance gain of up to 25% in comparison to state-of-the-art prediction approaches.
翻訳日:2023-10-23 05:45:27 公開日:2023-08-16
# モバイルアプリケーションを用いたトマト病検出と治療提案に基づく深層学習

Deep Learning based Tomato Disease Detection and Remedy Suggestions using Mobile Application ( http://arxiv.org/abs/2310.05929v1 )

ライセンス: Link先を確認
Yagya Raj Pandeya, Samin Karki, Ishan Dangol, Nitesh Rajbanshi(参考訳) 我々は,従来の農業手法を実践し,農作物病対策の専門家に限定した総合的なコンピュータシステムを開発した。 本システムは,人工知能(AI)を用いて野菜病の診断・治療を行う。 使いやすさを確保するため,我々は,農家が野菜の病気を調査し,現地語で適切なソリューションを得られるように,ユーザフレンドリーなインターフェースを提供するモバイルアプリケーションを開発した。 開発システムは、スマートフォンの基本的な知識を持つ農夫でも利用することができる。 具体的には、ネパールの地域農業社会に利益をもたらすために、トマト病を中心に、野菜病の治療法を特定し提案するためのAI対応モバイルアプリケーションを設計した。 本システムでは,トマト病の診断に最先端のオブジェクト検出手法であるYou Only Look Once(YOLO)を採用している。 検出された情報はモバイルアプリケーションにリレーされ、ドメインの専門家が指導する修正提案を提供する。 システムを効果的にトレーニングするために,トマト病10種からなるデータセットを収集した。 様々なデータ拡張手法を用いて、過剰適合に対処し、YOLOv5オブジェクト検出器を訓練した。 提案手法は平均精度0.76を達成し,AIシステムと対話するための効率的な移動インタフェースを提供する。 現在開発中のシステムでは,より多くのトレーニングサンプルを蓄積することで,堅牢性とリアルタイムのユーザビリティの向上に積極的に取り組んでいます。

We have developed a comprehensive computer system to assist farmers who practice traditional farming methods and have limited access to agricultural experts for addressing crop diseases. Our system utilizes artificial intelligence (AI) to identify and provide remedies for vegetable diseases. To ensure ease of use, we have created a mobile application that offers a user-friendly interface, allowing farmers to inquire about vegetable diseases and receive suitable solutions in their local language. The developed system can be utilized by any farmer with a basic understanding of a smartphone. Specifically, we have designed an AI-enabled mobile application for identifying and suggesting remedies for vegetable diseases, focusing on tomato diseases to benefit the local farming community in Nepal. Our system employs state-of-the-art object detection methodology, namely You Only Look Once (YOLO), to detect tomato diseases. The detected information is then relayed to the mobile application, which provides remedy suggestions guided by domain experts. In order to train our system effectively, we curated a dataset consisting of ten classes of tomato diseases. We utilized various data augmentation methods to address overfitting and trained a YOLOv5 object detector. The proposed method achieved a mean average precision of 0.76 and offers an efficient mobile interface for interacting with the AI system. While our system is currently in the development phase, we are actively working towards enhancing its robustness and real-time usability by accumulating more training samples.
翻訳日:2023-10-23 04:02:32 公開日:2023-08-16
# コンセプトゲームの特徴生成と推薦システムに関する予備的検討

A Preliminary Study on a Conceptual Game Feature Generation and Recommendation System ( http://arxiv.org/abs/2308.13538v1 )

ライセンス: Link先を確認
M Charity, Yash Bhartia, Daniel Zhang, Ahmed Khalifa, and Julian Togelius(参考訳) 本稿では,テキストプロンプトに基づいてゲーム特徴候補を生成するシステムを提案する。 約60kゲームのゲーム記述に基づいて訓練され、小さなGLoVeモデルの単語埋め込みを使用して、数学的に類似したゲームに見られる特徴や実体を抽出し、ジェネレータモデルに渡されてユーザのプロンプトのための新機能を生成する。 我々は,GPT-2モデル,ConceptNetを用いたモデル,および人間によるゲーム機能から生成された特徴を比較した短いユーザスタディを行う。 人間の提案は全体の過半数を獲得したが、GPT-2モデルは特定のゲームにおいて人間の提案よりも優れていた。 このシステムは、概念レベルでユーザと協調できるより大きなゲームデザインアシスタントツールの一部である。

This paper introduces a system used to generate game feature suggestions based on a text prompt. Trained on the game descriptions of almost 60k games, it uses the word embeddings of a small GLoVe model to extract features and entities found in thematically similar games which are then passed through a generator model to generate new features for a user's prompt. We perform a short user study comparing the features generated from a fine-tuned GPT-2 model, a model using the ConceptNet, and human-authored game features. Although human suggestions won the overall majority of votes, the GPT-2 model outperformed the human suggestions in certain games. This system is part of a larger game design assistant tool that is able to collaborate with users at a conceptual level.
翻訳日:2023-09-03 21:44:24 公開日:2023-08-16
# STEM:マルチタスクレコメンデーションのための埋め込みのパワーの解放

STEM: Unleashing the Power of Embeddings for Multi-task Recommendation ( http://arxiv.org/abs/2308.13537v1 )

ライセンス: Link先を確認
Liangcai Su, Junwei Pan, Ximei Wang, Xi Xiao, Shijie Quan, Xihua Chen, Jie Jiang(参考訳) マルチタスク学習(mtl)は、複数の目的を同時に最適化できるため、レコメンデーションシステムで大きな人気を集めている。 MTLの重要な課題は、タスク間の衝突によって特定のタスクのパフォーマンスが低下する負の転送の発生である。 既存の研究は、すべてのサンプル全体を扱い、それらの内在する複雑さを見下ろすことで、負の移動を探求している。 この目的のために,タスク間の肯定的なフィードバックの相対的な量に基づいて,サンプルを分割することで,サンプルの複雑さを掘り下げる。 驚くべきことに、タスク間で同等のフィードバックを受けるサンプルの既存のMTLメソッドでは、依然として負の転送が発生する。 既存の手法では共有埋め込みのパラダイムが一般的であり、それらの失敗は、そのような普遍的な埋め込みを用いてタスク間で多様なユーザの嗜好をモデル化する限られた能力に起因していると仮定する。 本稿では,共有およびタスク固有組込み(stem)と呼ばれる新しいパラダイムを導入し,タスク固有のユーザ嗜好を効果的に捉えるために,共有およびタスク固有組込みを組み込むことを目的とする。 本パラダイムでは,共有およびタスク固有の埋め込みテーブルを備えたシンプルなモデルSTEM-Netと,これらの埋め込みの学習を容易にするための停止段階演算を備えたカスタマイズされたゲーティングネットワークを提案する。 注目すべきことに、STEM-Netは、Single-Task Likeモデルを上回る優れたパフォーマンスを示し、ポジティブな転送を実現している。 3つのパブリックMTLレコメンデーションデータセットの総合的な評価は、STEM-Netが最先端のモデルよりかなり優れており、その有効性と優位性を示す証拠であることを示している。

Multi-task learning (MTL) has gained significant popularity in recommendation systems as it enables the simultaneous optimization of multiple objectives. A key challenge in MTL is the occurrence of negative transfer, where the performance of certain tasks deteriorates due to conflicts between tasks. Existing research has explored negative transfer by treating all samples as a whole, overlooking the inherent complexities within them. To this end, we delve into the intricacies of samples by splitting them based on the relative amount of positive feedback among tasks. Surprisingly, negative transfer still occurs in existing MTL methods on samples that receive comparable feedback across tasks. It is worth noting that existing methods commonly employ a shared-embedding paradigm, and we hypothesize that their failure can be attributed to the limited capacity of modeling diverse user preferences across tasks using such universal embeddings. In this paper, we introduce a novel paradigm called Shared and Task-specific EMbeddings (STEM) that aims to incorporate both shared and task-specific embeddings to effectively capture task-specific user preferences. Under this paradigm, we propose a simple model STEM-Net, which is equipped with shared and task-specific embedding tables, along with a customized gating network with stop-gradient operations to facilitate the learning of these embeddings. Remarkably, STEM-Net demonstrates exceptional performance on comparable samples, surpassing the Single-Task Like model and achieves positive transfer. Comprehensive evaluation on three public MTL recommendation datasets demonstrates that STEM-Net outperforms state-of-the-art models by a substantial margin, providing evidence of its effectiveness and superiority.
翻訳日:2023-09-03 21:44:04 公開日:2023-08-16
# 時間変化量子ノイズの適応緩和

Adaptive mitigation of time-varying quantum noise ( http://arxiv.org/abs/2308.14756v1 )

ライセンス: Link先を確認
Samudra Dasgupta and Arshag Danageozian and Travis S. Humble(参考訳) 現在の量子コンピュータは、高い誤り率を持つ非定常ノイズチャネルに苦しむため、信頼性と再現性を損なう。 チャネル条件の変化に応答して量子ノイズを学習し軽減できるベイズ推定に基づく適応アルゴリズムを提案する。 本研究は,クリティカルチャネルパラメータの動的推論によるプログラム精度の向上の必要性を強調する。 ディリクレ分布を用いてパウリ水路の確率性をモデル化する。 これによりベイズ推定を行い、確率誤差キャンセル(PEC)の性能を時変雑音下で向上させることができる。 我々の研究は、より正確で信頼性の高い量子技術を開発する上で重要な量子ノイズの時間的変動を特徴づけ、緩和することの重要性を示す。 その結果,ベイジアンPECは理想分布からHellinger距離を測定すると,4.5倍の係数で非適応的アプローチより優れることがわかった。

Current quantum computers suffer from non-stationary noise channels with high error rates, which undermines their reliability and reproducibility. We propose a Bayesian inference-based adaptive algorithm that can learn and mitigate quantum noise in response to changing channel conditions. Our study emphasizes the need for dynamic inference of critical channel parameters to improve program accuracy. We use the Dirichlet distribution to model the stochasticity of the Pauli channel. This allows us to perform Bayesian inference, which can improve the performance of probabilistic error cancellation (PEC) under time-varying noise. Our work demonstrates the importance of characterizing and mitigating temporal variations in quantum noise, which is crucial for developing more accurate and reliable quantum technologies. Our results show that Bayesian PEC can outperform non-adaptive approaches by a factor of 4.5x when measured using Hellinger distance from the ideal distribution.
翻訳日:2023-09-03 21:21:01 公開日:2023-08-16
# FineQuant: LLMの微細粒度量子化による解錠効率

FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only Quantization for LLMs ( http://arxiv.org/abs/2308.09723v1 )

ライセンス: Link先を確認
Young Jin Kim, Rawn Henry, Raffy Fahim, Hany Hassan Awadalla(参考訳) 大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、メモリの要求がかなり大きいため、実践的なデプロイメントには課題がある。 さらに、最新の生成モデルは、自動回帰復号プロセスにおけるメモリ帯域のボトルネックに起因する高い推論コストに悩まされる。 この問題に対処するために,メモリ消費を削減し,llmの推論を高速化する効率的な重みのみ量子化手法を提案する。 品質劣化を最小限に抑えるために,事前学習モデルのモデル重みのみを利用する,単純かつ効果的なヒューリスティックアプローチを導入する。 このアプローチは、追加の微調整を必要とせず、Mixture-of-Experts (MoE) と高密度モデルの両方に適用できる。 提案手法の有効性を示すために,LLM量子化に関する課題と課題をまず分析する。 その後、量子化の粒度を適応的に発見するヒューリスティックな手法を提案し、これらの問題を効果的に解決する。 さらに,fp16 や bf16 の活性化を int8 や int4 の重みで乗算することを支援するために,オンザフライ行列乗算と dequantization を行う高効率GPU GEMM を実装した。 我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対する我々のアプローチを評価し,同一数のGPU上で最大3.65倍のスループットを達成しながら,最小限の精度の損失を示す。

Large Language Models (LLMs) have achieved state-of-the-art performance across various language tasks but pose challenges for practical deployment due to their substantial memory requirements. Furthermore, the latest generative models suffer from high inference costs caused by the memory bandwidth bottleneck in the auto-regressive decoding process. To address these issues, we propose an efficient weight-only quantization method that reduces memory consumption and accelerates inference for LLMs. To ensure minimal quality degradation, we introduce a simple and effective heuristic approach that utilizes only the model weights of a pre-trained model. This approach is applicable to both Mixture-of-Experts (MoE) and dense models without requiring additional fine-tuning. To demonstrate the effectiveness of our proposed method, we first analyze the challenges and issues associated with LLM quantization. Subsequently, we present our heuristic approach, which adaptively finds the granularity of quantization, effectively addressing these problems. Furthermore, we implement highly efficient GPU GEMMs that perform on-the-fly matrix multiplication and dequantization, supporting the multiplication of fp16 or bf16 activations with int8 or int4 weights. We evaluate our approach on large-scale open source models such as OPT-175B and internal MoE models, showcasing minimal accuracy loss while achieving up to 3.65 times higher throughput on the same number of GPUs.
翻訳日:2023-08-27 05:17:48 公開日:2023-08-16
# 選挙分極:選挙を通した市民区分のマッピング

Election Polarization: Mapping citizen divisions through elections ( http://arxiv.org/abs/2308.10862v1 )

ライセンス: Link先を確認
Carlos Navarrete and Mariana Macedo and Viktor Stojkoski and Marcela Parada(参考訳) 選挙は、候補者、政党、問題に関する市民の熱狂と不快を露呈することができる。 多くの文献が勝者と敗者の観点から選挙結果を研究する一方で、社会的分裂を理解するための未調査条件は市民投票パターンから現れる。 本稿では,選挙日における市民の分裂の指標として,選挙分極(EP)の概念を検討する。 本稿では,選挙データにのみ依存し,候補者の競争力(Between-EP)と,その投票分散性(Within-EP)を考える。 我々は、フランス、チリ、米国からの合成データと大統領選挙結果の両方を用いて、我々のアプローチが「分極化」選挙の理論的期待をうまく特定できたことを示す。 さらに,選挙形態,集計尺度,棄権・反対票の使用,候補者数に対する頑健さを検証した。 最後に,米国の国家レベルの内epと中epはそれぞれ政治的分極と政治的利害に正の相関関係にあり,epは準政治的分極の単純かつ信頼性の高い尺度を包含する可能性があり,この現象を地域レベルと中所得層の両方で選挙調査なしで研究する機会が開けた。

Elections can unveil citizens' enthusiasm and discomfort concerning political candidates, parties, and issues. While a substantial body of literature studies the election outcomes from the perspective of winners and losers, an under-explored condition to understand societal divisions emerges from citizen voting patterns. Here, we examine the concept of Election Polarization (EP) as a measure of citizens' divisions on Election Day. We present an agnostic approach that relies exclusively on election data and considers the competitiveness of candidates (Between-EP) and their voting dispersion throughout a territory (Within-EP). We use both synthetic data and presidential election results from France, Chile, and the United States to show that our approach successfully identified theoretical expectations of ``polarized'' elections. Furthermore, we validate its robustness over the election type, aggregation scale, use of abstentions/spoilt votes, and the number of candidates. Finally, our analysis reveals that state-level Within-EP and Between-EP in the U.S. are positively associated with political polarization and political interest, respectively, shedding light that EP could potentially encompass a simple and reliable measure of quasi-political polarization, opening the opportunity of studying this phenomenon both for regional level and lower/middle-income countries without electoral surveys.
翻訳日:2023-08-27 05:07:02 公開日:2023-08-16
# 自己認識: 大言語モデルのセマンティクスファイアウォールを逆侵入する

Self-Deception: Reverse Penetrating the Semantic Firewall of Large Language Models ( http://arxiv.org/abs/2308.11521v1 )

ライセンス: Link先を確認
Zhenhua Wang, Wei Xie, Kai Chen, Baosheng Wang, Zhiwen Gui, Enze Wang(参考訳) ChatGPTのような大規模言語モデル(LLM)は、人工知能に接近する驚くべき能力をもって登場した。 様々な社会的ニーズに便利なものを提供する一方で、LSMは有害なコンテンツを生み出すコストを下げている。 その結果、llm開発者は、不適切なコンテンツにつながる可能性のあるプロンプトを認識し、拒否するために、セマンティックレベルの防御を展開している。 攻撃者は「ジェイルブレイク(jailbreak)」というプロンプトを作り、LCMは一時的に催眠術を施し、コンテンツ防衛規則を忘れ、不適切な質問に答えた。 現在、これらのセマンティックレベルの攻撃と防衛の背景にある原則は、業界と学術の両方で明確に説明されていない。 本稿では,llm脱獄問題を調査し,最初に自動脱獄法を提案する。 セマンティックファイアウォールの概念を提案し、3つの技術的実装アプローチを提供する。 逆のトンネルを通して従来のファイアウォールを貫通する攻撃にインスパイアされた私たちは、LDMを誘導して、ジェイルブレイクを促進するプロンプトを生成することで、セマンティックファイアウォールをバイパスできる"自己偽装"攻撃を導入する。 私たちは7つの仮想シナリオで6つの言語(英語、ロシア語、フランス語、スペイン語、中国語、アラビア語)で合計2,520の攻撃ペイロードを生成しました。 実験は2つのモデル(GPT-3.5-TurboとGPT-4)で実施された。 2つのモデルの成功率は86.2%と67%であり、失敗率は4.7%と2.2%であった。 これにより,提案手法の有効性が示された。 実験コードと生データはオープンソースとしてリリースされ、将来の研究を刺激します。 私たちは、慎重に作り上げたプロンプトを通じてAIの振る舞いを操作することが、将来重要な研究の方向になるだろうと考えています。

Large language models (LLMs), such as ChatGPT, have emerged with astonishing capabilities approaching artificial general intelligence. While providing convenience for various societal needs, LLMs have also lowered the cost of generating harmful content. Consequently, LLM developers have deployed semantic-level defenses to recognize and reject prompts that may lead to inappropriate content. Unfortunately, these defenses are not foolproof, and some attackers have crafted "jailbreak" prompts that temporarily hypnotize the LLM into forgetting content defense rules and answering any improper questions. To date, there is no clear explanation of the principles behind these semantic-level attacks and defenses in both industry and academia. This paper investigates the LLM jailbreak problem and proposes an automatic jailbreak method for the first time. We propose the concept of a semantic firewall and provide three technical implementation approaches. Inspired by the attack that penetrates traditional firewalls through reverse tunnels, we introduce a "self-deception" attack that can bypass the semantic firewall by inducing LLM to generate prompts that facilitate jailbreak. We generated a total of 2,520 attack payloads in six languages (English, Russian, French, Spanish, Chinese, and Arabic) across seven virtual scenarios, targeting the three most common types of violations: violence, hate, and pornography. The experiment was conducted on two models, namely the GPT-3.5-Turbo and GPT-4. The success rates on the two models were 86.2% and 67%, while the failure rates were 4.7% and 2.2%, respectively. This highlighted the effectiveness of the proposed attack method. All experimental code and raw data will be released as open-source to inspire future research. We believe that manipulating AI behavior through carefully crafted prompts will become an important research direction in the future.
翻訳日:2023-08-27 04:57:25 公開日:2023-08-16
# 不正認識のためのAI

AI For Fraud Awareness ( http://arxiv.org/abs/2308.11032v1 )

ライセンス: Link先を確認
Prabh Simran Singh Baweja, Orathai Sangpetch, Akkarit Sangpetch(参考訳) 今日の世界では、多くのソーシャルプラットフォームが登場し、誰でも偽情報を拡散し、人々を罠に誘うことが比較的容易になった。 投資業界では詐欺行為や罠が急速に増加している。 このため、国や個人は大きな経済的リスクに直面している。 本稿では、機械学習とゲーミフィケーション技術を用いて、投資詐欺や罠について人々を教育する認識システムを提案する。 本システムは,ユーザに対してパーソナライズされた学習体験を提供するために,機械学習技術を適用する。 システムは個々のドメインの専門家が作成した知識プールから、異なるゲームデザイン要素と詐欺を選択する。 研究プロジェクトの目的は、アクティブラーニングを通じて投資家を教育することで、すべての国の不平等を減らすことである。 当社の目標は、公正で効率的で包括的な資本市場のための教育環境の整備を規制当局を支援することです。 本稿では,問題の影響を論じ,実装の詳細を述べるとともに,予備実験と結果を通してシステムの可能性を示す。

In today's world, with the rise of numerous social platforms, it has become relatively easy for anyone to spread false information and lure people into traps. Fraudulent schemes and traps are growing rapidly in the investment world. Due to this, countries and individuals face huge financial risks. We present an awareness system with the use of machine learning and gamification techniques to educate the people about investment scams and traps. Our system applies machine learning techniques to provide a personalized learning experience to the user. The system chooses distinct game-design elements and scams from the knowledge pool crafted by domain experts for each individual. The objective of the research project is to reduce inequalities in all countries by educating investors via Active Learning. Our goal is to assist the regulators in assuring a conducive environment for a fair, efficient, and inclusive capital market. In the paper, we discuss the impact of the problem, provide implementation details, and showcase the potentiality of the system through preliminary experiments and results.
翻訳日:2023-08-27 04:56:58 公開日:2023-08-16
# chatgptに関する研究者の側面に基づく感情分析に説明可能なaiを活用する

Leveraging Explainable AI to Analyze Researchers' Aspect-Based Sentiment about ChatGPT ( http://arxiv.org/abs/2308.11001v1 )

ライセンス: Link先を確認
Shilpa Lakhanpal, Ajay Gupta, Rajeev Agrawal(参考訳) ChatGPTの画期的な発明は、あらゆる分野やドメインのユーザーの間で大きな議論を引き起こしている。 様々な利点にまつわる祝賀の中で、その使用の正しさや倫理に関して疑問が提起されている。 ユーザーの感情を捉えようとする取り組みは、すでに進行中だ。 しかし、研究コミュニティがChatGPTをどのように分析しているのか、その利用のさまざまな側面について疑問を投げかけている。 私たちの研究で分析するのは、研究者のこの感情です。 アスペクトベースの感情分析は通常、少数のデータセットにのみ適用されるため、成功は限定され、短いテキストデータにも適用される。 本稿では、Explainable AIを用いて研究データの分析を容易にする手法を提案する。 提案手法は,新たなデータセットにおけるアスペクトベース感情分析技術の拡張に有用であり,テキストデータの長さによって分析が阻害されない。

The groundbreaking invention of ChatGPT has triggered enormous discussion among users across all fields and domains. Among celebration around its various advantages, questions have been raised with regards to its correctness and ethics of its use. Efforts are already underway towards capturing user sentiments around it. But it begs the question as to how the research community is analyzing ChatGPT with regards to various aspects of its usage. It is this sentiment of the researchers that we analyze in our work. Since Aspect-Based Sentiment Analysis has usually only been applied on a few datasets, it gives limited success and that too only on short text data. We propose a methodology that uses Explainable AI to facilitate such analysis on research data. Our technique presents valuable insights into extending the state of the art of Aspect-Based Sentiment Analysis on newer datasets, where such analysis is not hampered by the length of the text data.
翻訳日:2023-08-27 04:56:44 公開日:2023-08-16
# Sパラメータパターン処理による酸化インジウム電極のその場欠陥診断

In situ Fault Diagnosis of Indium Tin Oxide Electrodes by Processing S-Parameter Patterns ( http://arxiv.org/abs/2308.11639v1 )

ライセンス: Link先を確認
Tae Yeob Kang, Haebom Lee, Sungho Suh(参考訳) 光エレクトロニクスの分野では、インジウム酸化スズ(ITO)電極はディスプレイ、センサー、太陽電池などの様々な用途において重要な役割を果たしている。 ITO電極の効果的な故障検出と診断は、デバイスの性能と信頼性を確保するために不可欠である。 しかし、従来の視覚検査は透明なito電極では困難であり、既存の故障検出法では欠陥の根本原因の決定に限界があり、しばしば破壊的評価を必要とする。 本研究では, 散乱パラメータ(Sパラメータ)信号処理を用いて, 早期検出, 高診断精度, ノイズの頑健性, 根本原因分析が可能なその場断層診断法を提案する。 欠陥状態に応じて総合的なSパラメータパターンデータベースを得る。 次に、多層パーセプトロン(MLP)、畳み込みニューラルネットワーク(CNN)、トランスフォーマーなどのディープラーニング(DL)アプローチを使用して、欠陥の原因と重症度を同時に分析する。 特に, t-distributed stochastic neighbor embeddedding (t-SNE) dimension reduction visualization を用いて, Sパラメータの異なるチャネルを学習アルゴリズムの入力として組み合わせることで, 付加雑音レベルの診断性能を著しく向上させることができることを示した。

In the field of optoelectronics, indium tin oxide (ITO) electrodes play a crucial role in various applications, such as displays, sensors, and solar cells. Effective fault detection and diagnosis of the ITO electrodes are essential to ensure the performance and reliability of the devices. However, traditional visual inspection is challenging with transparent ITO electrodes, and existing fault detection methods have limitations in determining the root causes of the defects, often requiring destructive evaluations. In this study, an in situ fault diagnosis method is proposed using scattering parameter (S-parameter) signal processing, offering early detection, high diagnostic accuracy, noise robustness, and root cause analysis. A comprehensive S-parameter pattern database is obtained according to defect states. Deep learning (DL) approaches, including multilayer perceptron (MLP), convolutional neural network (CNN), and transformer, are then used to simultaneously analyze the cause and severity of defects. Notably, it is demonstrated that the diagnostic performance under additive noise levels can be significantly enhanced by combining different channels of the S-parameters as input to the learning algorithms, as confirmed through the t-distributed stochastic neighbor embedding (t-SNE) dimension reduction visualization.
翻訳日:2023-08-27 04:47:50 公開日:2023-08-16
# ヒューリスティックモデル, 推定, パラメータについて

On Heuristic Models, Assumptions, and Parameters ( http://arxiv.org/abs/2201.07413v2 )

ライセンス: Link先を確認
Samuel Judson and Joan Feigenbaum(参考訳) 先進的な学際的なコラボレーションは、現代のコンピューティング研究と開発によって生み出されたような、複雑な技術の原則的なガバナンスに不可欠である。 計算と社会の相互作用に関する技術的な研究は、しばしば研究者が社会的・物理的システムをどのようにモデル化するかに焦点を当てる。 これらのモデルは、コンピュータ科学者が問題を特定し、アルゴリズムによる解を提案する方法に基づいている。 しかし、コンピューティングの社会的影響は、曖昧で不透明な技術的注意事項、選択、および資格者に依存する。 このようなアーティファクトは、一度モデル化された問題を解くために適用される特定のアルゴリズム技術と理論の産物であり、それらの性質は、それらを管理するためにしばしばなされる判断の社会技術的精査を損なう可能性がある。 これらの選択と等化をエンコードするために用いられるオブジェクトの3つのクラスを記述する:ヒューリスティックモデル、仮定、パラメータ。 我々は、これらの物体がコンピュータの包括的解析に有害である6つの理由を提起し、研究者が科学的研究を説明するときに慎重に考慮すべきであると主張する。

Insightful interdisciplinary collaboration is essential to the principled governance of complex technologies, like those produced by modern computing research and development. Technical research on the interaction between computation and society often focuses on how researchers model social and physical systems. These models underlie how computer scientists specify problems and propose algorithmic solutions. However, the social effects of computing can depend just as much on obscure and opaque technical caveats, choices, and qualifiers. Such artifacts are products of the particular algorithmic techniques and theory applied to solve a problem once modeled, and their nature can imperil thorough sociotechnical scrutiny of the often discretionary decisions made to manage them. We describe three classes of objects used to encode these choices and qualifiers: heuristic models, assumptions, and parameters. We raise six reasons these objects may be hazardous to comprehensive analysis of computing and argue they deserve deliberate consideration as researchers explain scientific work.
翻訳日:2023-08-22 01:45:34 公開日:2023-08-16
# ネットワーク構造を用いた複数検定のための局所適応アルゴリズムとゲノムワイドアソシエーション研究への応用

Locally Adaptive Algorithms for Multiple Testing with Network Structure, with Application to Genome-Wide Association Studies ( http://arxiv.org/abs/2203.11461v4 )

ライセンス: Link先を確認
Ziyi Liang, T. Tony Cai, Wenguang Sun, Yin Xia(参考訳) リンケージ分析はGWAS研究に重要な洞察を与え、特にリンケージ不均衡(LD)におけるSNPが疾患の表現型に共同で影響を及ぼすことを明らかにした。 しかし、LDネットワークデータの可能性はしばしば文献で見過ごされ、利用されていない。 本稿では,ネットワークデータや関連源領域からの補助データの複数サンプル(多種多様な次元・構造、多種多様な集団)を組み込むための原則的かつ汎用的な枠組みを提供する,局所適応構造学習アルゴリズム(lasla)を提案する。 LASLAは、データ駆動重み付けを個々のテストポイントに割り当てるために構造的洞察を活用する、$p$値重み付けアプローチを採用している。 理論的解析により、LASLAは独立あるいは弱依存の一次統計量で漸近的にFDRを制御でき、ネットワークデータが情報化されているときに高いパワーを得ることができることが示された。 LASLAの効率性は、様々な合成実験とT2D関連SNP識別への応用を通して説明される。

Linkage analysis has provided valuable insights to the GWAS studies, particularly in revealing that SNPs in linkage disequilibrium (LD) can jointly influence disease phenotypes. However, the potential of LD network data has often been overlooked or underutilized in the literature. In this paper, we propose a locally adaptive structure learning algorithm (LASLA) that provides a principled and generic framework for incorporating network data or multiple samples of auxiliary data from related source domains; possibly in different dimensions/structures and from diverse populations. LASLA employs a $p$-value weighting approach, utilizing structural insights to assign data-driven weights to individual test points. Theoretical analysis shows that LASLA can asymptotically control FDR with independent or weakly dependent primary statistics, and achieve higher power when the network data is informative. Efficiency again of LASLA is illustrated through various synthetic experiments and an application to T2D-associated SNP identification.
翻訳日:2023-08-22 01:35:56 公開日:2023-08-16
# 主なトレードオフ分析

Principal Trade-off Analysis ( http://arxiv.org/abs/2206.07520v3 )

ライセンス: Link先を確認
Alexander Strang, David SeWell, Alexander Kim, Kevin Alcedo, David Rosenbluth(参考訳) ゲームを組織するエージェントのセットと,ゲームの構造をどのように反映するか,というメリットはどのようなものなのでしょう? 本稿では,低次元特徴空間にゲームを埋め込む分解法であるpta(principal trade-off analysis)について述べる。 本稿では,PCA(Principal Component Analysis, 主成分分析)に類似する手法を開発することにより, 従来よりも埋め込みが明らかになってきていることを論じる。 PTAは任意の2次元ゼロサムゲームであり、直交2次元特徴平面の対の重み付け和である。 特徴平面はユニークな戦略的トレードオフを示し、シーケンスの切り離しは洞察に富んだモデル還元をもたらすことを示す。 ゲーム四重奏におけるPTAの有効性を示す(Kuhn poker, RPS+2, Blotto, Pokemon)。 クーンポーカーでは、PTAはブラッフィングと呼び出しのトレードオフを明確に特定している。 ブロットでは、PTAはゲーム対称性を特定し、異なる勝利条件に関連する戦略的トレードオフを特定する。 これらの対称性は、以前の研究で未修正であったPTAの限界を明らかにする。 Pokemonでは、PTAは自然にPokemonタイプに対応するクラスタをリカバリし、それらのタイプ間の設計されたトレードオフを正しく識別し、PokemonジェネレーションタイプのRock-paper-Scisor (RPS)サイクルを発見する。

How are the advantage relations between a set of agents playing a game organized and how do they reflect the structure of the game? In this paper, we illustrate "Principal Trade-off Analysis" (PTA), a decomposition method that embeds games into a low-dimensional feature space. We argue that the embeddings are more revealing than previously demonstrated by developing an analogy to Principal Component Analysis (PCA). PTA represents an arbitrary two-player zero-sum game as the weighted sum of pairs of orthogonal 2D feature planes. We show that the feature planes represent unique strategic trade-offs and truncation of the sequence provides insightful model reduction. We demonstrate the validity of PTA on a quartet of games (Kuhn poker, RPS+2, Blotto, and Pokemon). In Kuhn poker, PTA clearly identifies the trade-off between bluffing and calling. In Blotto, PTA identifies game symmetries, and specifies strategic trade-offs associated with distinct win conditions. These symmetries reveal limitations of PTA unaddressed in previous work. For Pokemon, PTA recovers clusters that naturally correspond to Pokemon types, correctly identifies the designed trade-off between those types, and discovers a rock-paper-scissor (RPS) cycle in the Pokemon generation type - all absent any specific information except game outcomes.
翻訳日:2023-08-22 01:25:20 公開日:2023-08-16
# コンピュータビジョンモデルの適応的テスト

Adaptive Testing of Computer Vision Models ( http://arxiv.org/abs/2212.02774v2 )

ライセンス: Link先を確認
Irena Gao and Gabriel Ilharco and Scott Lundberg and Marco Tulio Ribeiro(参考訳) ビジョンモデルは共通の意味的特徴(まれなオブジェクトや珍しいシーンなど)を共有するデータ群で体系的に失敗することが多いが、これらの障害モードを特定することは難しい。 AdaVisionは、ユーザがコヒーレントな障害モードを特定し、修正するのに役立つビジョンモデルをテストするインタラクティブなプロセスである。 コヒーレントグループの自然言語記述を与えられたAdaVisionは、LAION-5BからCLIPで関連画像を取得する。 ユーザは少量のデータにモデル正しさをラベル付けし、連続した検索ラウンドからハイエラー領域へのヒルクライムに使用され、グループ定義を洗練する。 グループが飽和すると、AdaVisionはGPT-3を使用して、ユーザが探索する新しいグループ記述を提案する。 我々は,AdaVisionのユーザスタディにおいて,最先端の分類,オブジェクト検出,画像キャプションモデルに重大なバグが見つかった場合の有用性と汎用性を実証する。 これらのユーザ検出群は、自動エラークラスタリング法で表されるものよりも2~3倍高い障害率を持つ。 最後に、AdaVisionで見つかった例の微調整は、発見されていない例で評価されたバグを、配信中の精度を低下させることなく修正すると同時に、配信外のデータセットのパフォーマンスも改善する。

Vision models often fail systematically on groups of data that share common semantic characteristics (e.g., rare objects or unusual scenes), but identifying these failure modes is a challenge. We introduce AdaVision, an interactive process for testing vision models which helps users identify and fix coherent failure modes. Given a natural language description of a coherent group, AdaVision retrieves relevant images from LAION-5B with CLIP. The user then labels a small amount of data for model correctness, which is used in successive retrieval rounds to hill-climb towards high-error regions, refining the group definition. Once a group is saturated, AdaVision uses GPT-3 to suggest new group descriptions for the user to explore. We demonstrate the usefulness and generality of AdaVision in user studies, where users find major bugs in state-of-the-art classification, object detection, and image captioning models. These user-discovered groups have failure rates 2-3x higher than those surfaced by automatic error clustering methods. Finally, finetuning on examples found with AdaVision fixes the discovered bugs when evaluated on unseen examples, without degrading in-distribution accuracy, and while also improving performance on out-of-distribution datasets.
翻訳日:2023-08-22 01:07:45 公開日:2023-08-16
# CRONOS:Wi-Fi CSIを用いたデバイスフリーNLoS人間プレゼンス検出のためのカラー化とコントラスト学習

CRONOS: Colorization and Contrastive Learning for Device-Free NLoS Human Presence Detection using Wi-Fi CSI ( http://arxiv.org/abs/2211.10354v5 )

ライセンス: Link先を確認
Li-Hsiang Shen, Chia-Che Hsieh, An-Hung Hsiao, Kai-Ten Feng(参考訳) 近年、広く普及するスマートサービスやアプリケーションに対する需要は急速に増加している。 センサーやカメラによるデバイスなしの人間検出は広く採用されているが、プライバシーの問題や、動きのない人の誤検知が伴っている。 これらの欠点に対処するため、商用Wi-Fiデバイスから取得したチャネル状態情報(CSI)は、正確な検出のための豊富な信号機能を提供する。 しかしながら、既存のシステムは、非視線(NLoS)の下での不正確な分類と、部屋の隅に立っているときのような固定的なシナリオに悩まされている。 そこで本研究では,動的再帰プロット(rps)とカラーコードcsi比(csi比)を生成するcronos(colorization and contrastive learning enhanced nlos human presence detection)というシステムを提案する。 また、教師付きコントラスト学習を取り入れて実質的な表現を抽出し、コンサルテーション損失を定式化し、動的ケースと定常ケースの代表的な距離を区別する。 さらに,rssとカラーコードcsi比のどちらを利用するかを決定するために,自己切り替え型静的特徴拡張分類器(s3fec)を提案する。 包括的実験の結果,cronosは,機械学習や非学習ベースの手法を応用した既存のシステムよりも優れており,またオープン文学における非csiベースの機能よりも優れていることがわかった。 CRONOSは、空白、移動性、視線(LoS)、NLoSシナリオにおける人間の存在検出精度が最も高い。

In recent years, the demand for pervasive smart services and applications has increased rapidly. Device-free human detection through sensors or cameras has been widely adopted, but it comes with privacy issues as well as misdetection for motionless people. To address these drawbacks, channel state information (CSI) captured from commercialized Wi-Fi devices provides rich signal features for accurate detection. However, existing systems suffer from inaccurate classification under a non-line-of-sight (NLoS) and stationary scenario, such as when a person is standing still in a room corner. In this work, we propose a system called CRONOS (Colorization and Contrastive Learning Enhanced NLoS Human Presence Detection), which generates dynamic recurrence plots (RPs) and color-coded CSI ratios to distinguish mobile and stationary people from vacancy in a room, respectively. We also incorporate supervised contrastive learning to retrieve substantial representations, where consultation loss is formulated to differentiate the representative distances between dynamic and stationary cases. Furthermore, we propose a self-switched static feature enhanced classifier (S3FEC) to determine the utilization of either RPs or color-coded CSI ratios. Our comprehensive experimental results show that CRONOS outperforms existing systems that either apply machine learning or non-learning based methods, as well as non-CSI based features in open literature. CRONOS achieves the highest human presence detection accuracy in vacancy, mobility, line-of-sight (LoS), and NLoS scenarios.
翻訳日:2023-08-22 01:04:53 公開日:2023-08-16
# バイオメディカル機械学習における強化攻撃

Enhancement attacks in biomedical machine learning ( http://arxiv.org/abs/2301.01885v2 )

ライセンス: Link先を確認
Matthew Rosenblatt, Javid Dadashkarimi, Dustin Scheinost(参考訳) 生物医学研究における機械学習の普及は急速に進んでいるが、そのような研究の信頼性はしばしば見過ごされている。 過去の研究では、医療画像におけるモデル性能を低下させる敵攻撃の能力について研究されてきたが、最近開発された「エンハンスメント・アタック」による性能改善能力は、バイオメディカル・機械学習にとって大きな脅威となる可能性がある。 信頼性をよりよく理解するための攻撃を開発するため,我々は,特徴の最小限の変更で分類器の予測性能を劇的に向上させる2つの手法を開発した。 1【予測性能の全般的向上】 2)別の方法に対する特定の方法の強化。 Pearson's r's>0.99) と拡張データの特徴的類似性を保ちながら, 分類器の精度を50%から100%近く改善した。 同様に、メソッド固有の拡張フレームワークは、あるメソッドの別のメソッドのパフォーマンスを誤って改善するのに効果的であった。 例えば、単純なニューラルネットワークは、拡張データセットではロジスティック回帰を17%上回りましたが、元のデータセットにはパフォーマンス上の違いはありませんでした。 重要な点として、オリジナルデータと拡張データはまだ似ている(r=0.99)。 その結果, 望ましい予測性能を達成するためのマイナーなデータ操作の可能性が示され, バイオメディカル機械学習の将来に対する興味深い倫理的課題が提示された。 これらの知見は、バイオメディカル機械学習研究の完全性を保証するために、より堅牢なデータ前兆追跡やその他の予防措置の必要性を強調している。

The prevalence of machine learning in biomedical research is rapidly growing, yet the trustworthiness of such research is often overlooked. While some previous works have investigated the ability of adversarial attacks to degrade model performance in medical imaging, the ability to falsely improve performance via recently-developed "enhancement attacks" may be a greater threat to biomedical machine learning. In the spirit of developing attacks to better understand trustworthiness, we developed two techniques to drastically enhance prediction performance of classifiers with minimal changes to features: 1) general enhancement of prediction performance, and 2) enhancement of a particular method over another. Our enhancement framework falsely improved classifiers' accuracy from 50% to almost 100% while maintaining high feature similarities between original and enhanced data (Pearson's r's>0.99). Similarly, the method-specific enhancement framework was effective in falsely improving the performance of one method over another. For example, a simple neural network outperformed logistic regression by 17% on our enhanced dataset, although no performance differences were present in the original dataset. Crucially, the original and enhanced data were still similar (r=0.99). Our results demonstrate the feasibility of minor data manipulations to achieve any desired prediction performance, which presents an interesting ethical challenge for the future of biomedical machine learning. These findings emphasize the need for more robust data provenance tracking and other precautionary measures to ensure the integrity of biomedical machine learning research.
翻訳日:2023-08-22 00:58:45 公開日:2023-08-16
# NNSplitter: 軽量自動難読化によるDNNモデルのアクティブディフェンスソリューション

NNSplitter: An Active Defense Solution for DNN Model via Automated Weight Obfuscation ( http://arxiv.org/abs/2305.00097v3 )

ライセンス: Link先を確認
Tong Zhou, Yukui Luo, Shaolei Ren, Xiaolin Xu(参考訳) 貴重な知的財産権(IP)の一種として、ディープニューラルネットワーク(DNN)モデルは、透かしのような技術によって保護されている。 しかし、このような受動的モデル保護はモデル乱用を完全に防げない。 そこで本研究では,重み難読化により性能が低下する難読化モデルと,信頼された実行環境によってのみアクセス可能な難読化重みのインデックスと元の値からなるモデル秘密とを2つの部分に分けて積極的に保護するアクティブモデルip保護スキームであるnnsplitterを提案する。 実験の結果, nnsplitterは1100万重(0.002%)を超える重みのうち275個しか修正せず, cifar-10上の難読化resnet-18モデルの精度は10%まで低下することが示された。 さらに、NNSplitterは、通常のクリッピングや微調整攻撃に対してステルスで耐性があり、DNNモデル保護にとって魅力的なソリューションである。 コードはhttps://github.com/tongzhou0101/nnsplitterで入手できる。

As a type of valuable intellectual property (IP), deep neural network (DNN) models have been protected by techniques like watermarking. However, such passive model protection cannot fully prevent model abuse. In this work, we propose an active model IP protection scheme, namely NNSplitter, which actively protects the model by splitting it into two parts: the obfuscated model that performs poorly due to weight obfuscation, and the model secrets consisting of the indexes and original values of the obfuscated weights, which can only be accessed by authorized users with the support of the trusted execution environment. Experimental results demonstrate the effectiveness of NNSplitter, e.g., by only modifying 275 out of over 11 million (i.e., 0.002%) weights, the accuracy of the obfuscated ResNet-18 model on CIFAR-10 can drop to 10%. Moreover, NNSplitter is stealthy and resilient against norm clipping and fine-tuning attacks, making it an appealing solution for DNN model protection. The code is available at: https://github.com/Tongzhou0101/NNSplitter.
翻訳日:2023-08-21 23:56:54 公開日:2023-08-16
# beyondpixels: 神経放射領域の進化に関する包括的レビュー

BeyondPixels: A Comprehensive Review of the Evolution of Neural Radiance Fields ( http://arxiv.org/abs/2306.03000v2 )

ライセンス: Link先を確認
AKM Shahariar Azad Rabby, Chengcui Zhang(参考訳) ニューラルレンダリングは、古典的なコンピュータグラフィックスと機械学習のアイデアを組み合わせて、現実世界の観察から画像を合成する。 NeRF(Neural Radiance Fieldsの略)は、AIアルゴリズムを使用して2D画像から3Dオブジェクトを生成する最近のイノベーションである。 補間アプローチを活用することで、NeRFは複雑なシーンの新しい3D再構成ビューを生成することができる。 3Dシーンの形状を直接復元する代わりに、NeRFは「放射場」と呼ばれる体積表現を生成し、関連する3D空間内のすべての点について色と密度を生成できる。 NeRFの幅広い魅力と不明瞭さは、このトピックに関する既存の研究を包括的に調査することが不可欠である。 3Dレンダリングに関する以前の調査は、主に従来のコンピュータビジョンベースまたはディープラーニングベースのアプローチに焦点を当てていたが、NeRFの可能性について議論する人はごくわずかである。 しかし、これらの調査は主にNeRFの初期の貢献に焦点を合わせており、その潜在能力を探求していない。 NeRFは、その能力と限界について継続的に研究されている比較的新しい技術である。 この調査は最近のNeRFの進歩を概観し、特に新規なビュー合成の分野において、それらのアーキテクチャ設計に従って分類する。

Neural rendering combines ideas from classical computer graphics and machine learning to synthesize images from real-world observations. NeRF, short for Neural Radiance Fields, is a recent innovation that uses AI algorithms to create 3D objects from 2D images. By leveraging an interpolation approach, NeRF can produce new 3D reconstructed views of complicated scenes. Rather than directly restoring the whole 3D scene geometry, NeRF generates a volumetric representation called a ``radiance field,'' which is capable of creating color and density for every point within the relevant 3D space. The broad appeal and notoriety of NeRF make it imperative to examine the existing research on the topic comprehensively. While previous surveys on 3D rendering have primarily focused on traditional computer vision-based or deep learning-based approaches, only a handful of them discuss the potential of NeRF. However, such surveys have predominantly focused on NeRF's early contributions and have not explored its full potential. NeRF is a relatively new technique continuously being investigated for its capabilities and limitations. This survey reviews recent advances in NeRF and categorizes them according to their architectural designs, especially in the field of novel view synthesis.
翻訳日:2023-08-21 23:39:33 公開日:2023-08-16
# LLMプロンプトによる自己整合性によるパッチ適用の改善

Better patching using LLM prompting, via Self-Consistency ( http://arxiv.org/abs/2306.00108v2 )

ライセンス: Link先を確認
Toufique Ahmed, Premkumar Devanbu(参考訳) 大規模言語モデル(LLM)は、図解的な問題解決例を含む「ファウショット」プロンプトで非自明な問題を解決するために誘導することができる。 現在、いくつかのショットに「思考の連鎖」 (CoT) の説明が含まれており、これは問題解の形式であり、LCMは「説明された」解を生成し、さらに良く機能する。 最近のエキサイティングで極めて優れた手法である自己整合[1](S-C)は、正しい解に対して多くの妥当な説明があるという直感に基づいて現れており、LLMが繰り返しサンプリングされて説明解対のプールを生成すると、与えられた問題に対して、プール内で最も頻繁に発生する解(説明を無視して)は、さらに正しいものになりがちである。 残念ながら、ソフトウェアエンジニアリング設定における高性能なS-C(あるいはCoT)アプローチの使用は、説明の欠如によって妨げられている。 本稿では,修正作業のコミットログを説明として用いて,S-C手法のプログラム修復への応用について述べる。 我々は、MODITデータセット上で、プログラムの修正を促そうとする従来のアプローチを破って、最先端の成果を達成し、また、正しいコミットメッセージが、LLMがより良いパッチを作成することを学ぶのに役立つことを示す証拠も見つけました。

Large Language models (LLMs) can be induced to solve non-trivial problems with "few-shot" prompts including illustrative problem-solution examples. Now if the few-shots also include "chain of thought" (CoT) explanations, which are of the form problem-explanation-solution, LLMs will generate a "explained" solution, and perform even better. Recently an exciting, substantially better technique, self-consistency [1] (S-C) has emerged, based on the intuition that there are many plausible explanations for the right solution; when the LLM is sampled repeatedly to generate a pool of explanation-solution pairs, for a given problem, the most frequently occurring solutions in the pool (ignoring the explanations) tend to be even more likely to be correct! Unfortunately, the use of this highly-performant S-C (or even CoT) approach in software engineering settings is hampered by the lack of explanations; most software datasets lack explanations. In this paper, we describe an application of the S-C approach to program repair, using the commit log on the fix as the explanation, only in the illustrative few-shots. We achieve state-of-the art results, beating previous approaches to prompting-based program repair, on the MODIT dataset; we also find evidence suggesting that the correct commit messages are helping the LLM learn to produce better patches.
翻訳日:2023-08-21 23:38:21 公開日:2023-08-16
# 分子ドッキングと機械学習回帰法を用いたCOVID-19 3CLプロテアーゼを標的とした薬物精製

Drug Repurposing Targeting COVID-19 3CL Protease using Molecular Docking and Machine Learning Regression Approach ( http://arxiv.org/abs/2305.18088v6 )

ライセンス: Link先を確認
Imra Aqeel, and Abdul Majid(参考訳) 新型コロナウイルス(COVID-19)のパンデミックが世界的な緊急事態を宣言。 徐々に、薬物の再利用は、時間、コスト、そして労力を節約し、有望な解決策として登場しつつある。 しかし、新型コロナウイルスの治療に再利用されていると認識されている薬物候補の数はいまだに不足しているため、より効果的で徹底的な薬物精製戦略が必要である。 本研究では, 分子ドッキングと機械学習回帰法を組み合わせることで, 新型コロナウイルス治療に期待できる治療候補を見つける。 ウイルスの複製に関与するSARS-CoV-2の主要プロテアーゼ3CLを標的とした5903薬のスクリーニングを行った。 分子ドッキングは、これらの薬物のメインプロテアーゼ3clとの結合親和性を計算するために用いられる。 我々は、QSARモデリングに機械学習回帰手法を用いて、高い結合親和性を持つ潜在的な薬物を発見する。 結果から,r2とrmseのベストスコアを持つ決定木回帰(dtr)モデルが薬物再生産に最適なモデルであることが判明した。 6種類の好適薬を選抜し, それらの薬の理化学的, 薬物動態学的性質と, 特異的プロテアーゼ3clproに対する最適な結合相互作用について検討した。 本研究は、covid-19に対する薬物再導入のための効率的な枠組みを提供し、分子ドッキングと機械学習回帰アプローチを組み合わせて、潜在的な治療候補の同定を加速する可能性を確立する。 急性グローバルな健康上の課題である新型コロナウイルスの効果的な治療法の発見という大きな目標に,本研究は貢献する。

The COVID-19 pandemic has initiated a global health emergency, with an exigent need for effective cure. Progressively, drug repurposing is emerging as a promising solution as it saves the time, cost and labor. However, the number of drug candidates that have been identified as being repurposed for the treatment of COVID-19 are still insufficient, so more effective and thorough drug repurposing strategies are required. In this study, we joint the molecular docking with machine learning regression approaches to find some prospective therapeutic candidates for COVID-19 treatment. We screened the 5903 approved drugs for their inhibition by targeting the main protease 3CL of SARS-CoV-2, which is responsible to replicate the virus. Molecular docking is used to calculate the binding affinities of these drugs to the main protease 3CL. We employed several machine learning regression approaches for QSAR modeling to find out some potential drugs with high binding affinity. Out outcomes demonstrated that the Decision Tree Regression (DTR) model with best scores of R2 and RMSE, is the most suitable model for drug repurposing. We shortlisted six favorable drugs and examined their physiochemical and pharmacokinetic properties of these top-ranked selected drugs and their best binding interaction for specific target protease 3CLpro. Our study provides an efficient framework for drug repurposing against COVID-19, and establishes the potential of combining molecular docking with machine learning regression approaches to accelerate the identification of potential therapeutic candidates. Our findings contribute to the larger goal of finding effective cures for COVID-19, which is an acute global health challenge.
翻訳日:2023-08-21 23:36:10 公開日:2023-08-16
# 感情変化予測とモッド推論の改善に対する弱修正アプローチ

A Weakly Supervised Approach to Emotion-change Prediction and Improved Mood Inference ( http://arxiv.org/abs/2306.06979v2 )

ライセンス: Link先を確認
Soujanya Narayana, Ibrahim Radwan, Ravikiran Parameshwara, Iman Abbasnejad, Akshay Asthana, Ramanathan Subramanian, Roland Goecke(参考訳) 感情コンピューティング研究の大多数は感情の推測、気分の検査、あるいは「textit{mood-emotion interplay"」の理解に重点を置いている。 先行作業で構築する、私たちは (a)注釈付きラベルを使わずに、気分を推測するための感情変化情報(\delta$)を推測し、組み込む b) 長時間ビデオクリップの気分予測は, 気分の性格化に合わせて試みる。 我々は、トレーニング済みのシームズネットワークからメトリクス学習を通じて感情変化(\Delta$)ラベルを生成し、ムード分類のためのムードラベルに加えてこれらを使用する。 textit{unimodal} (ムードラベルのみを使用するトレーニング) と \textit{multimodal} (ムード+$\delta$ラベルを使用するトレーニング) モデルを評価する実験では、ムード予測が感情変化情報の導入によって恩恵をもたらすことを示し、効果的なムード推論のためのムード-感情相互作用のモデル化の重要性を強調した。

Whilst a majority of affective computing research focuses on inferring emotions, examining mood or understanding the \textit{mood-emotion interplay} has received significantly less attention. Building on prior work, we (a) deduce and incorporate emotion-change ($\Delta$) information for inferring mood, without resorting to annotated labels, and (b) attempt mood prediction for long duration video clips, in alignment with the characterisation of mood. We generate the emotion-change ($\Delta$) labels via metric learning from a pre-trained Siamese Network, and use these in addition to mood labels for mood classification. Experiments evaluating \textit{unimodal} (training only using mood labels) vs \textit{multimodal} (training using mood plus $\Delta$ labels) models show that mood prediction benefits from the incorporation of emotion-change information, emphasising the importance of modelling the mood-emotion interplay for effective mood inference.
翻訳日:2023-08-21 23:24:47 公開日:2023-08-16
# 量子セキュア光チャネルに必要なセキュア鍵レートについて

On the Required Secure Key Rate for Quantum-Secured Optical Channels ( http://arxiv.org/abs/2306.15031v2 )

ライセンス: Link先を確認
Farzam Toudeh-Fallah, Robert Keys, Dave Atkinson(参考訳) 量子鍵分布(QKD)技術に基づく量子セキュアな光データチャネルの現在の成熟度は、メトロ環境における展開レベルにあり、R&Dは長距離展開にも向けられている。 量子チャネルに対する到達可能なセキュア鍵レート(skr)に関する多くの研究が行われている。 しかし、ネットワークオペレーターにとって大きな疑問の1つは、量子セキュアチャネルの展開に必要なSKRである。 本稿では、量子セキュア光チャネルに必要なSKRを定義し、このパラメータを最適化するためのガイドラインを提供する。 \copyright 2023 The Author(s)

The current maturity of the quantum-secured optical data channels based on the Quantum Key Distribution (QKD) technology is at the deployment level in metro environments, while R&D efforts are also being conducted towards long-distance deployments. A great deal of research has been conducted on the achievable Secure Key Rate (SKR) for quantum channels. However, one of the major questions for network operators is the required SKR for the deployment of quantum-secured channels. This article addresses this question by defining the required SKR for quantum-secured optical channels and provides guidelines towards optimizing this parameter. \copyright 2023 The Author(s)
翻訳日:2023-08-21 23:16:13 公開日:2023-08-16
# 大規模言語モデルによるジェイルブレイクの視覚的例

Visual Adversarial Examples Jailbreak Aligned Large Language Models ( http://arxiv.org/abs/2306.13213v2 )

ライセンス: Link先を確認
Xiangyu Qi, Kaixuan Huang, Ashwinee Panda, Peter Henderson, Mengdi Wang, Prateek Mittal(参考訳) 近年,Flamingo や GPT-4 といった Visual Language Models (VLM) が示すような,Large Language Models (LLM) へのビジョン統合への関心が高まっている。 本稿では,この傾向の安全性と安全性について概説する。 まず、視覚入力の連続的かつ高次元的な性質が、視覚統合LDMの攻撃面の拡大を表す敵対的攻撃に対して弱いリンクとなることを強調する。 第2に、LLMの汎用性は、達成可能な敵の目的の範囲が広い視覚的攻撃者を示し、単なる誤分類以上のセキュリティ障害の影響を拡大する。 そこで,本研究では,協調型llmの安全ガードレールを回避し,視覚障害者の事例を活用したケーススタディを提案する。 興味深いことに、単一の視覚的敵意の例は、一貫したLDMを普遍的にジェイルブレイクし、それ以外はそうでないような有害な命令を広範囲に受け取り、敵意の例を最適化するために最初に採用された「フェーショット」軽蔑コーパスの狭い範囲を超越する有害なコンテンツを生成することができる。 本研究は,マルチモダリティの追求に伴う敵対的リスクの増大を強調する。 我々の研究結果は、ニューラルネットワークの長年研究されてきた敵の脆弱性を、AIアライメントの初期段階に結び付けている。 提示された攻撃は、特にフロンティア基盤モデルにおけるマルチモダリティへの新たなトレンドに照らして、AIアライメントに対する根本的な敵対的課題を示唆している。

Recently, there has been a surge of interest in integrating vision into Large Language Models (LLMs), exemplified by Visual Language Models (VLMs) such as Flamingo and GPT-4. This paper sheds light on the security and safety implications of this trend. First, we underscore that the continuous and high-dimensional nature of the visual input makes it a weak link against adversarial attacks, representing an expanded attack surface of vision-integrated LLMs. Second, we highlight that the versatility of LLMs also presents visual attackers with a wider array of achievable adversarial objectives, extending the implications of security failures beyond mere misclassification. As an illustration, we present a case study in which we exploit visual adversarial examples to circumvent the safety guardrail of aligned LLMs with integrated vision. Intriguingly, we discover that a single visual adversarial example can universally jailbreak an aligned LLM, compelling it to heed a wide range of harmful instructions that it otherwise would not) and generate harmful content that transcends the narrow scope of a `few-shot' derogatory corpus initially employed to optimize the adversarial example. Our study underscores the escalating adversarial risks associated with the pursuit of multimodality. Our findings also connect the long-studied adversarial vulnerabilities of neural networks to the nascent field of AI alignment. The presented attack suggests a fundamental adversarial challenge for AI alignment, especially in light of the emerging trend toward multimodality in frontier foundation models.
翻訳日:2023-08-21 23:16:04 公開日:2023-08-16
# dreamedit: 主題による画像編集

DreamEdit: Subject-driven Image Editing ( http://arxiv.org/abs/2306.12624v2 )

ライセンス: Link先を確認
Tianle Li, Max Ku, Cong Wei, Wenhu Chen(参考訳) 被写体駆動画像生成は、最近研究コミュニティから大きな注目を集めているカスタマイズされた被写体を含む画像を生成することを目的としている。 しかし,従来の研究は対象対象の背景や位置を正確に制御することはできない。 本研究では,この空白を満たし,2つの新しい主題駆動サブタスク,すなわち主題置換と主題付加を提案する。 対象をカスタマイズしたものに置き換えることで、形状、テクスチャ、色を変えることができる一方で、提供されたシーンで指定された位置に対象を付加することで、状況に応じた姿勢を必要とする。 この2つの新しい課題を克服するために、まず22種類の被験者と440個のソースイメージを含む新しいデータセットDreamEditBenchを手作業でキュレートする。 プラットフォームとしてDreamEditBenchをホストし、標準的な人間評価のために訓練された評価者を雇用する予定です。 また、これらの課題を反復生成することで解決する革新的な手法を考案し、カスタマイズ対象への円滑な適応を可能にする。 本稿では,DreamEditBenchにおけるDreamEditorの性能とベースラインを理解するために,自動評価と人的評価を行う。 主観的置き換えでは,既存のモデルが原対象の形状や色に敏感であることが判明した。 モデル失敗率は、ソースと対象が極めて異なる場合に劇的に増加する。 対象追加については,既存のモデルではカスタマイズした対象を背景にスムーズにブレンドすることができず,生成した画像に顕著なアーティファクトが生じることがわかった。 dreameditbenchが、より制御可能な主題駆動画像編集を構築するための将来の調査を可能にする標準プラットフォームになることを願っている。 プロジェクトのホームページはhttps://dreameditbenchteam.github.io/。

Subject-driven image generation aims at generating images containing customized subjects, which has recently drawn enormous attention from the research community. However, the previous works cannot precisely control the background and position of the target subject. In this work, we aspire to fill the void and propose two novel subject-driven sub-tasks, i.e., Subject Replacement and Subject Addition. The new tasks are challenging in multiple aspects: replacing a subject with a customized one can change its shape, texture, and color, while adding a target subject to a designated position in a provided scene necessitates a context-aware posture. To conquer these two novel tasks, we first manually curate a new dataset DreamEditBench containing 22 different types of subjects, and 440 source images with different difficulty levels. We plan to host DreamEditBench as a platform and hire trained evaluators for standard human evaluation. We also devise an innovative method DreamEditor to resolve these tasks by performing iterative generation, which enables a smooth adaptation to the customized subject. In this project, we conduct automatic and human evaluations to understand the performance of DreamEditor and baselines on DreamEditBench. For Subject Replacement, we found that the existing models are sensitive to the shape and color of the original subject. The model failure rate will dramatically increase when the source and target subjects are highly different. For Subject Addition, we found that the existing models cannot easily blend the customized subjects into the background smoothly, leading to noticeable artifacts in the generated image. We hope DreamEditBench can become a standard platform to enable future investigations toward building more controllable subject-driven image editing. Our project homepage is https://dreameditbenchteam.github.io/.
翻訳日:2023-08-21 23:14:48 公開日:2023-08-16
# リスク制御画像検索

Risk Controlled Image Retrieval ( http://arxiv.org/abs/2307.07336v2 )

ライセンス: Link先を確認
Kaiwen Cai, Chris Xiaoxuan Lu, Xingyu Zhao, Xiaowei Huang(参考訳) ほとんどの画像検索研究は予測性能の向上に重点を置いており、予測の信頼性も重要であるシナリオを無視している。 不確実性定量化手法は、検索集合の不確実性を評価することによってこの問題を軽減することができるが、保証よりも不確実性をヒューリスティックに見積もるだけでよい。 これらの制約に対処するために、リスク制御された画像検索(RCIR)を提案し、カバー範囲保証付き検索セット、すなわち、予め定義された確率で真の隣人を含むことが保証される検索セットを生成する。 RCIRは既存の不確実性認識画像検索システムと容易に統合でき、データ分布やモデル選択に依存しない。 私たちの知る限りでは、これは画像検索のカバレッジ保証を提供する最初の仕事です。 RCIRの有効性と効率は、Stanford CAR-196、CUB-200、ピッツバーグ、ChestX-Detの4つの実世界の画像検索データセットで実証されている。

Most image retrieval research focuses on improving predictive performance, ignoring scenarios where the reliability of the prediction is also crucial. Uncertainty quantification technique can be applied to mitigate this issue by assessing uncertainty for retrieval sets, but it can provide only a heuristic estimate of uncertainty rather than a guarantee. To address these limitations, we present Risk Controlled Image Retrieval (RCIR), which generates retrieval sets with coverage guarantee, i.e., retrieval sets that are guaranteed to contain the true nearest neighbors with a predefined probability. RCIR can be easily integrated with existing uncertainty-aware image retrieval systems, agnostic to data distribution and model selection. To the best of our knowledge, this is the first work that provides coverage guarantees for image retrieval. The validity and efficiency of RCIR are demonstrated on four real-world image retrieval datasets: Stanford CAR-196, CUB-200, Pittsburgh and ChestX-Det.
翻訳日:2023-08-21 22:53:30 公開日:2023-08-16
# 胸部x線レポート生成における縦断データと意味的類似性

Longitudinal Data and a Semantic Similarity Reward for Chest X-Ray Report Generation ( http://arxiv.org/abs/2307.09758v2 )

ライセンス: Link先を確認
Aaron Nicolson, Jason Dowling, and Bevan Koopman(参考訳) 現在の放射線科医のバーンアウト率は、解釈と報告を必要とする胸部x線(cxr)の数が増え続けているため高い。 CXRの自動レポート生成は、この手間な作業で放射線科医を助け、患者のケアを改善する可能性がある。 従来のcxrレポート生成手法は、診断の不正確さと放射線科医のワークフローとの整合の欠如によって制限されている。 これらの問題に対処するために,放射線科医のワークフローを模倣したレポートを作成する際に,患者の過去のcxr研究から得られる縦断履歴を利用する新しい手法を提案する。 また、CXRレポート生成を改善するために、CXR-BERT(レポート間の臨床的意味的類似性を捉える)に基づく強化学習のための新たな報酬を提案する。 我々は,MIMIC-CXRデータセットについて,放射線学者の報告評価とより密接な相関関係を持つ実験を行った。 以上の結果から,患者の縦断的経過を捉えたCXRレポート生成が改善し,CXR-BERTが現在の技術報酬の代替となる可能性が示唆された。 本手法は,従来の方法よりも放射線科医と定量的に一致し,同時に臨床翻訳へのより良い経路を提供する放射線科レポートを生成する。 私たちのHugging Faceチェックポイント(https://huggingface.co/aehrc/cxrmate)とコード(https://github.com/aehrc/cxrmate)が公開されている。

The current burnout rate of radiologists is high due to the large and ever growing number of Chest X-Rays (CXRs) needing interpretation and reporting. Promisingly, automatic CXR report generation has the potential to aid radiologists with this laborious task and improve patient care. Previous CXR report generation methods are limited by their diagnostic inaccuracy and their lack of alignment with the workflow of radiologists. To address these issues, we present a new method that utilises the longitudinal history available from a patient's previous CXR study when generating a report, which imitates a radiologist's workflow. We also propose a new reward for reinforcement learning based on CXR-BERT -- which captures the clinical semantic similarity between reports -- to further improve CXR report generation. We conduct experiments on the publicly available MIMIC-CXR dataset with metrics more closely correlated with radiologists' assessment of reporting. The results indicate capturing a patient's longitudinal history improves CXR report generation and that CXR-BERT is a promising alternative to the current state-of-the-art reward. Our approach generates radiology reports that are quantitatively more aligned with those of radiologists than previous methods while simultaneously offering a better pathway to clinical translation. Our Hugging Face checkpoint (https://huggingface.co/aehrc/cxrmate) and code (https://github.com/aehrc/cxrmate) are publicly available.
翻訳日:2023-08-21 22:42:49 公開日:2023-08-16
# DMFC-GraspNet:クラッタシーンにおける微分可能な多指ロボットグラフ生成

DMFC-GraspNet: Differentiable Multi-Fingered Robotic Grasp Generation in Cluttered Scenes ( http://arxiv.org/abs/2308.00456v2 )

ライセンス: Link先を確認
Philipp Bl\"attner, Johannes Brand, Gerhard Neumann, Ngo Anh Vien(参考訳) ロボットハンドリングは、ロボットのオブジェクト操作に必要な基本的なスキルである。 人間の手の構造を模倣する多指ロボットハンドは、複雑な物体操作を行う可能性がある。 それにもかかわらず、近年のマルチフィンガーロボット把持技術では、計算効率と汎用性、すなわちユニモーダル把持分布を制限し、推論時間毎に1つの把持のみを頻繁に予測している。 本稿では,この課題に対する3つの貢献点を有する多指把持生成ネットワーク(dmfc-graspnet)を提案する。 まず, 広義かつ密集した把握予測を可能にする新しい把握表現を予測できるニューラル・グラブ・プランナーを提案する。 第二に, 多指ロボットハンドの密なラベリングのためのシーン作成とラベルマッピング手法を開発し, 基底真理の密結合を可能にした。 第3に、教師付き損失と微分可能な衝突損失と一般化Q1把握量損失の両方を用いて、前向き自動微分手法を用いてDMFC-GraspNetエンドツーエンドのトレーニングを提案する。 提案手法は,ムジョコシミュレーションにおけるシャドウデクスタラスハンドを用いて評価し,損失関数の異なる選択により評価した。 提案手法は,多目的・密集的把握の予測や,多指ロボットグリップの分野の進展に有効であることを示す。

Robotic grasping is a fundamental skill required for object manipulation in robotics. Multi-fingered robotic hands, which mimic the structure of the human hand, can potentially perform complex object manipulation. Nevertheless, current techniques for multi-fingered robotic grasping frequently predict only a single grasp for each inference time, limiting computational efficiency and their versatility, i.e. unimodal grasp distribution. This paper proposes a differentiable multi-fingered grasp generation network (DMFC-GraspNet) with three main contributions to address this challenge. Firstly, a novel neural grasp planner is proposed, which predicts a new grasp representation to enable versatile and dense grasp predictions. Secondly, a scene creation and label mapping method is developed for dense labeling of multi-fingered robotic hands, which allows a dense association of ground truth grasps. Thirdly, we propose to train DMFC-GraspNet end-to-end using using a forward-backward automatic differentiation approach with both a supervised loss and a differentiable collision loss and a generalized Q 1 grasp metric loss. The proposed approach is evaluated using the Shadow Dexterous Hand on Mujoco simulation and ablated by different choices of loss functions. The results demonstrate the effectiveness of the proposed approach in predicting versatile and dense grasps, and in advancing the field of multi-fingered robotic grasping.
翻訳日:2023-08-21 22:38:26 公開日:2023-08-16
# 拡散モデルを用いた確率的メッシュ回復のための生成的アプローチ

Generative Approach for Probabilistic Human Mesh Recovery using Diffusion Models ( http://arxiv.org/abs/2308.02963v2 )

ライセンス: Link先を確認
Hanbyel Cho, Junmo Kim(参考訳) 本研究は、与えられた2次元画像から3次元人体メッシュを再構築する問題に焦点を当てる。 人間のメッシュ回復のタスクのあいまいさにもかかわらず、既存のほとんどの研究は単一の出力を回帰する方法を採用してきた。 これとは対照的に,複数の妥当な結果を考慮し,分別拡散過程を利用する「diffusion-based human mesh recovery (diff-hmr)」という生成的アプローチフレームワークを提案する。 トレーニングフェーズの間、SMPLパラメータは接地構造パラメータからランダム分布に拡散され、Diff-HMRはこの拡散の逆過程を学習する。 推論フェーズでは、モデルが与えられたランダムなSMPLパラメータを、入力画像と整合する対応するパラメータに徐々に洗練する。 生成的なアプローチであるDiff-HMRは、入力ノイズが変化するにつれて、同じ入力画像に対して多様な結果を生成することができる。 検証実験を行い,提案手法が人間のメッシュ回復の課題のあいまいさを,確率的手法で効果的にモデル化できることを実証した。 コードはhttps://github.com/hanbyel0105/diff-hmrで入手できる。

This work focuses on the problem of reconstructing a 3D human body mesh from a given 2D image. Despite the inherent ambiguity of the task of human mesh recovery, most existing works have adopted a method of regressing a single output. In contrast, we propose a generative approach framework, called "Diffusion-based Human Mesh Recovery (Diff-HMR)" that takes advantage of the denoising diffusion process to account for multiple plausible outcomes. During the training phase, the SMPL parameters are diffused from ground-truth parameters to random distribution, and Diff-HMR learns the reverse process of this diffusion. In the inference phase, the model progressively refines the given random SMPL parameters into the corresponding parameters that align with the input image. Diff-HMR, being a generative approach, is capable of generating diverse results for the same input image as the input noise varies. We conduct validation experiments, and the results demonstrate that the proposed framework effectively models the inherent ambiguity of the task of human mesh recovery in a probabilistic manner. The code is available at https://github.com/hanbyel0105/Diff-HMR
翻訳日:2023-08-21 22:25:23 公開日:2023-08-16
# DiffSED:デノイング拡散による音事象検出

DiffSED: Sound Event Detection with Denoising Diffusion ( http://arxiv.org/abs/2308.07293v2 )

ライセンス: Link先を確認
Swapnil Bhosale, Sauradip Nag, Diptesh Kanojia, Jiankang Deng, Xiatian Zhu(参考訳) Sound Event Detection (SED) は、制約のないオーディオサンプルから、興味のあるすべてのイベントとそのクラスラベルの時間的境界を予測することを目的としている。 スプリット・アンド・クラス化(フレームレベル)戦略やより原則化されたイベントレベルのモデリングアプローチを採用すると、既存のすべての手法は差別的な学習の観点からSEDの問題を考慮する。 本研究では、生成学習の観点からSED問題を再構築する。 具体的には,対象の音声サンプルに条件付けした雑音拡散過程において,雑音のある提案から音の時間境界を生成することを目的とする。 トレーニング中,我々のモデルは,ノイズの多い遅延クエリをエレガントなTransformerデコーダフレームワークの基底バージョンに変換することで,ノイズ発生プロセスの反転を学習する。 そうすることで、モデルは推論中にノイズの多いクエリから正確なイベント境界を生成することができる。 urban-sedとepic-soundsデータセットに関する広範な実験は、トレーニングの収束が40%以上速く、既存の代替案を大幅に上回っていることを示している。

Sound Event Detection (SED) aims to predict the temporal boundaries of all the events of interest and their class labels, given an unconstrained audio sample. Taking either the splitand-classify (i.e., frame-level) strategy or the more principled event-level modeling approach, all existing methods consider the SED problem from the discriminative learning perspective. In this work, we reformulate the SED problem by taking a generative learning perspective. Specifically, we aim to generate sound temporal boundaries from noisy proposals in a denoising diffusion process, conditioned on a target audio sample. During training, our model learns to reverse the noising process by converting noisy latent queries to the groundtruth versions in the elegant Transformer decoder framework. Doing so enables the model generate accurate event boundaries from even noisy queries during inference. Extensive experiments on the Urban-SED and EPIC-Sounds datasets demonstrate that our model significantly outperforms existing alternatives, with 40+% faster convergence in training.
翻訳日:2023-08-21 21:55:37 公開日:2023-08-16
# 総合的ロバストなデータ駆動決定

Holistic Robust Data-Driven Decisions ( http://arxiv.org/abs/2207.09560v3 )

ライセンス: Link先を確認
Amine Bennouna and Bart Van Parys(参考訳) 機械学習と意思決定のためのデータ駆動型定式化の設計は、アウトオブサンプルのパフォーマンスがよい。 良いサンプル内性能が良いサンプル外性能を保証しないという観察は、一般にオーバーフィッティングとして知られている。 実際にはオーバーフィッティングはひとつの原因ではなく、複数の要因を同時に引き起こすのが一般的である。 オーバーフィットする情報源は3つあります (i)有限サンプルデータを用いた結果の統計的誤差 (ii)データポイントが有限の精度で測定され、最終的に発生するデータノイズ (iii)すべてのデータのごく一部が完全に破損する可能性のあるデータの誤特定 我々は、既存のデータ駆動定式化がこれら3つのソースのうちの1つに対して独立して堅牢であるとしても、すべてのオーバーフィッティングソースに対する全体的保護は同時には提供しないと主張している。 このような包括的保護を保証する新しいデータ駆動型定式化を設計し、さらに計算可能とする。 この分布にロバストな最適化定式化は、kullback-leiblerとlevy-prokhorovロバストな最適化定式化の新たな組み合わせとして解釈できる。 しかし, 定式化やロバストな定式化は, 分類や回帰の問題の文脈において, 新たに提案した定式化の特定の事例に還元されることを示す。 最後に、提案する人事定式化をポートフォリオ選択問題と実際の株式データに適用し、そのリスク/リターントレードオフをいくつかのベンチマーク定式化に対して分析する。 我々の実験は、新しい曖昧性セットがリスク/リターントレードオフを大幅に改善することを示している。

The design of data-driven formulations for machine learning and decision-making with good out-of-sample performance is a key challenge. The observation that good in-sample performance does not guarantee good out-of-sample performance is generally known as overfitting. Practical overfitting can typically not be attributed to a single cause but instead is caused by several factors all at once. We consider here three overfitting sources: (i) statistical error as a result of working with finite sample data, (ii) data noise which occurs when the data points are measured only with finite precision, and finally (iii) data misspecification in which a small fraction of all data may be wholly corrupted. We argue that although existing data-driven formulations may be robust against one of these three sources in isolation they do not provide holistic protection against all overfitting sources simultaneously. We design a novel data-driven formulation which does guarantee such holistic protection and is furthermore computationally viable. Our distributionally robust optimization formulation can be interpreted as a novel combination of a Kullback-Leibler and Levy-Prokhorov robust optimization formulation which is novel in its own right. However, we show how in the context of classification and regression problems that several popular regularized and robust formulations reduce to a particular case of our proposed novel formulation. Finally, we apply the proposed HR formulation on a portfolio selection problem with real stock data, and analyze its risk/return tradeoff against several benchmarks formulations. Our experiments show that our novel ambiguity set provides a significantly better risk/return trade-off.
翻訳日:2023-08-21 20:13:54 公開日:2023-08-16
# マルコフガウス過程変分オートエンコーダ

Markovian Gaussian Process Variational Autoencoders ( http://arxiv.org/abs/2207.05543v3 )

ライセンス: Link先を確認
Harrison Zhu, Carles Balsells Rodas, Yingzhen Li(参考訳) 逐次VAEは高次元の時系列モデリング問題に対して、リカレントニューラルネットワーク(RNN)のような離散時間機構に依存する多くの変種モデルにより、うまく検討されてきた。 一方、連続時間法は、特に離散時間法よりもデータを扱うことができる不規則なサンプル時系列の文脈において、近年注目を集めている。 そのようなクラスの一つがガウス過程変分オートエンコーダ (GPVAE) であり、VAE はガウス過程 (GP) として設定される。 しかし、GPVAEsの大きな制限は、立方体計算コストをGPとして継承し、実践者にとって魅力がないことである。 本研究では,マルコフ型GPの等価離散状態空間表現を活用し,カルマンフィルタと平滑化による線形時間 GPVAE トレーニングを実現する。 我々のモデルであるMGPVAE(Markovian GPVAE)では,計算に高いスケーラビリティを保ちながら,従来の手法に比べ,多種多様な高次元時間的・時空間的タスクを示す。

Sequential VAEs have been successfully considered for many high-dimensional time series modelling problems, with many variant models relying on discrete-time mechanisms such as recurrent neural networks (RNNs). On the other hand, continuous-time methods have recently gained attraction, especially in the context of irregularly-sampled time series, where they can better handle the data than discrete-time methods. One such class are Gaussian process variational autoencoders (GPVAEs), where the VAE prior is set as a Gaussian process (GP). However, a major limitation of GPVAEs is that it inherits the cubic computational cost as GPs, making it unattractive to practioners. In this work, we leverage the equivalent discrete state space representation of Markovian GPs to enable linear time GPVAE training via Kalman filtering and smoothing. For our model, Markovian GPVAE (MGPVAE), we show on a variety of high-dimensional temporal and spatiotemporal tasks that our method performs favourably compared to existing approaches whilst being computationally highly scalable.
翻訳日:2023-08-21 20:13:29 公開日:2023-08-16
# マルチレートVAE:列車が1回、全速度歪曲する

Multi-Rate VAE: Train Once, Get the Full Rate-Distortion Curve ( http://arxiv.org/abs/2212.03905v2 )

ライセンス: Link先を確認
Juhan Bae, Michael R. Zhang, Michael Ruan, Eric Wang, So Hasegawa, Jimmy Ba, Roger Grosse(参考訳) variational autoencoder(vaes)は、幅広いアプリケーションで使用されるデータの潜在表現を学ぶための強力なツールである。 実際には、vaesは通常、潜在変数が保持する情報量を選択するために複数のトレーニングラウンドを必要とする。 再構成誤差(歪み)とKL発散率(レート)とのこのトレードオフは通常、ハイパーパラメータ$\beta$でパラメータ化される。 本稿では,1回のトレーニングで,様々な$\beta$に対応する最適パラメータを学習するための計算効率の良いフレームワークであるMulti-Rate VAE(MR-VAE)を紹介する。 重要なアイデアは、$\beta$をハイパーネットワークを使用して最適なパラメータにマッピングする応答関数を明示的に定式化することである。 MR-VAEは、$\beta$に基づいて条件付きでプレアクティベーションをゲートする、コンパクトな応答ハイパーネットワークを構築する。 線形VAEを解析し、線形VAEに対して正確に応答関数を表現できることを示し、提案アーキテクチャを正当化する。 学習されたハイパーネットワークにより、mr-vaesは追加のトレーニングなしでレート分散曲線を構築でき、ハイパーパラメータチューニングをかなり少なくしてデプロイできる。 実証的に、我々のアプローチは競争力があり、最小限の計算とメモリオーバーヘッドで複数の$\beta$-VAEsトレーニングのパフォーマンスを上回ることが多い。

Variational autoencoders (VAEs) are powerful tools for learning latent representations of data used in a wide range of applications. In practice, VAEs usually require multiple training rounds to choose the amount of information the latent variable should retain. This trade-off between the reconstruction error (distortion) and the KL divergence (rate) is typically parameterized by a hyperparameter $\beta$. In this paper, we introduce Multi-Rate VAE (MR-VAE), a computationally efficient framework for learning optimal parameters corresponding to various $\beta$ in a single training run. The key idea is to explicitly formulate a response function that maps $\beta$ to the optimal parameters using hypernetworks. MR-VAEs construct a compact response hypernetwork where the pre-activations are conditionally gated based on $\beta$. We justify the proposed architecture by analyzing linear VAEs and showing that it can represent response functions exactly for linear VAEs. With the learned hypernetwork, MR-VAEs can construct the rate-distortion curve without additional training and can be deployed with significantly less hyperparameter tuning. Empirically, our approach is competitive and often exceeds the performance of multiple $\beta$-VAEs training with minimal computation and memory overheads.
翻訳日:2023-08-21 20:05:07 公開日:2023-08-16
# 顕微鏡データの効率的な画像分解

{\mu}Split: efficient image decomposition for microscopy data ( http://arxiv.org/abs/2211.12872v5 )

ライセンス: Link先を確認
Ashesh, Alexander Krull, Moises Di Sante, Francesco Silvio Pasqualini, Florian Jug(参考訳) 蛍光顕微鏡画像の文脈における画像分解のための専用手法である {\mu}Splitを提案する。 トレーニング中に大きなイメージパッチを使用すると,通常のディープアーキテクチャによる最良の結果が得られることが分かり,メモリ消費が性能向上の限界要因となる。 そこで本稿では,画像分解課題を解決する上で重要な要素である大規模画像コンテキストのメモリ効率の向上を可能にする新しいメタアーキテクチャである横文脈化(lc)を紹介する。 LCをU-Net、階層型AE、階層型VAEと統合し、改良されたELBO損失を定式化する。 さらにLCは、他の可能性よりも深い階層モデルのトレーニングを可能にし、興味深いことに、タイル付きVAE予測を使用する場合、本質的に避けられないティアリングアーチファクトを減らすのに役立ちます。 我々は、合成データセット上の5つの分解タスクに {\mu}splitを適用し、その他4つは実顕微鏡データから導出する。 提案手法は、GPUメモリを著しく削減しつつ、常に最良の結果(平均2.25dBPSNRのベースラインの改善)を達成する。 コードとデータセットはhttps://github.com/juglab/uSplit.comで確認できます。

We present {\mu}Split, a dedicated approach for trained image decomposition in the context of fluorescence microscopy images. We find that best results using regular deep architectures are achieved when large image patches are used during training, making memory consumption the limiting factor to further improving performance. We therefore introduce lateral contextualization (LC), a novel meta-architecture that enables the memory efficient incorporation of large image-context, which we observe is a key ingredient to solving the image decomposition task at hand. We integrate LC with U-Nets, Hierarchical AEs, and Hierarchical VAEs, for which we formulate a modified ELBO loss. Additionally, LC enables training deeper hierarchical models than otherwise possible and, interestingly, helps to reduce tiling artefacts that are inherently impossible to avoid when using tiled VAE predictions. We apply {\mu}Split to five decomposition tasks, one on a synthetic dataset, four others derived from real microscopy data. Our method consistently achieves best results (average improvements to the best baseline of 2.25 dB PSNR), while simultaneously requiring considerably less GPU memory. Our code and datasets can be found at https://github.com/juglab/uSplit.
翻訳日:2023-08-21 20:04:43 公開日:2023-08-16
# ニューラルグラフモデル

Neural Graphical Models ( http://arxiv.org/abs/2210.00453v4 )

ライセンス: Link先を確認
Harsh Shrivastava, Urszula Chajewska(参考訳) 確率的グラフィカルモデルはしばしばシステムのダイナミクスを理解するために使われる。 機能(ノード)と基礎となる分布の関係をモデル化することができる。 理論的には、これらのモデルは非常に複雑な依存関数を表現できるが、実際にはグラフ演算に関連する計算上の制限のために仮定を単純化することが多い。 本稿では,複雑な特徴依存を合理的な計算コストで表現しようとするニューラルネットワークモデル(NGM)を提案する。 特徴関係と対応するサンプルのグラフから、ニューラルネットワークをマルチタスク学習フレームワークとして使用することにより、機能間の依存関係構造とそれらの複雑な関数表現をキャプチャする。 効率的な学習、推論、サンプリングアルゴリズムを提供する。 NGMは、有向グラフ、無向グラフ、混合エッジグラフを含む一般的なグラフ構造に適合し、混合入力データ型をサポートする。 我々は,NGMがガウス図形モデルを表現する能力を示し,肺がんデータの推論分析を行い,疾病予防センターが提供した実世界の乳幼児死亡データから知見を抽出する実証的研究を行った。

Probabilistic Graphical Models are often used to understand dynamics of a system. They can model relationships between features (nodes) and the underlying distribution. Theoretically these models can represent very complex dependency functions, but in practice often simplifying assumptions are made due to computational limitations associated with graph operations. In this work we introduce Neural Graphical Models (NGMs) which attempt to represent complex feature dependencies with reasonable computational costs. Given a graph of feature relationships and corresponding samples, we capture the dependency structure between the features along with their complex function representations by using a neural network as a multi-task learning framework. We provide efficient learning, inference and sampling algorithms. NGMs can fit generic graph structures including directed, undirected and mixed-edge graphs as well as support mixed input data types. We present empirical studies that show NGMs' capability to represent Gaussian graphical models, perform inference analysis of a lung cancer data and extract insights from a real world infant mortality data provided by Centers for Disease Control and Prevention.
翻訳日:2023-08-21 20:03:04 公開日:2023-08-16
# 超複素空間における知識グラフ埋め込みと事前学習言語モデルの統合

Integrating Knowledge Graph embedding and pretrained Language Models in Hypercomplex Spaces ( http://arxiv.org/abs/2208.02743v3 )

ライセンス: Link先を確認
Mojtaba Nayyeri, Zihao Wang, Mst. Mahfuja Akter, Mirza Mohtashim Alam, Md Rashad Al Hasan Rony, Jens Lehmann, Steffen Staab(参考訳) Wikidataのような知識グラフは、知識を表現するために構造的およびテキスト的知識から構成される。 グラフ埋め込みと言語モデルのための2つのモダリティはそれぞれ、新しい構造的知識を予測するパターンを学習する。 学習と推論を両方のモダリティに統合したアプローチはほとんどなく、既存のアプローチは構造的知識とテキスト的知識の相互作用を部分的に活用するしかなかった。 我々のアプローチでは、単一モダリティの既存の強表現の上に構築し、両方の表現に超複素代数を用いる。 (i)単一モダリティの埋め込み、及び (ii) 異なるモダリティ間の相互作用とその相補的な知識表現手段。 具体的には、構造的知識グラフ埋め込み、単語レベルの表現(例えば、word2vec, fasttext)、文レベルの表現(sentence transformer)、文書レベルの表現(sentence transformer, doc2vec)の4つのモダリティを統合するために、4次元超複素数のディヘドロンおよび四元表現を提案する。 我々の統一ベクトル表現はハミルトン積とディヘドロン積を通じてラベル付きエッジの可算性を評価し、異なるモジュラリティ間のペアワイズ相互作用をモデル化する。 標準ベンチマークデータセットの広範囲な実験評価により,リンク予測タスクの性能向上のための構造的知識の欠如に加えて,豊富なテキスト情報を用いた2つの新モデルの優位性が示された。

Knowledge Graphs, such as Wikidata, comprise structural and textual knowledge in order to represent knowledge. For each of the two modalities dedicated approaches for graph embedding and language models learn patterns that allow for predicting novel structural knowledge. Few approaches have integrated learning and inference with both modalities and these existing ones could only partially exploit the interaction of structural and textual knowledge. In our approach, we build on existing strong representations of single modalities and we use hypercomplex algebra to represent both, (i), single-modality embedding as well as, (ii), the interaction between different modalities and their complementary means of knowledge representation. More specifically, we suggest Dihedron and Quaternion representations of 4D hypercomplex numbers to integrate four modalities namely structural knowledge graph embedding, word-level representations (e.g.\ Word2vec, Fasttext), sentence-level representations (Sentence transformer), and document-level representations (sentence transformer, Doc2vec). Our unified vector representation scores the plausibility of labelled edges via Hamilton and Dihedron products, thus modeling pairwise interactions between different modalities. Extensive experimental evaluation on standard benchmark datasets shows the superiority of our two new models using abundant textual information besides sparse structural knowledge to enhance performance in link prediction tasks.
翻訳日:2023-08-21 20:02:16 公開日:2023-08-16
# 拡散サンプリングのノイズ化

Denoising Diffusion Samplers ( http://arxiv.org/abs/2302.13834v2 )

ライセンス: Link先を確認
Francisco Vargas, Will Grathwohl, Arnaud Doucet(参考訳) デノイジング拡散モデルは、多くの領域で最先端の結果を提供する一般的な生成モデルである。 拡散を用いてデータに徐々にノイズを加え、データ分布をガウス分布に変換する。 生成モデルからのサンプルは、ガウスサンプルによって初期化された拡散の時間反転の近似をシミュレートして得られる。 実際、時間反転過程に現れる難解なスコア項は、スコアマッチング技術を用いて近似される。 ここでは,非正規化確率密度関数からサンプルを抽出し,その正規化定数を推定する。 対象密度がガウスに向かって拡散する過程を考える。 対応する時間反転を近似してDDS(Denoising Diffusion Samplers)を得る。 この文脈ではスコアマッチングは適用できないが、モンテカルロサンプリングの生成モデリングで導入された多くのアイデアを活用できる。 既存の拡散モデルの理論的結果は、DDSの理論的保証も提供する。 我々は, DDS, 最適制御, およびSchr\odingerブリッジの接続について検討し, 様々な難易度サンプリングタスクについて実験を行った。

Denoising diffusion models are a popular class of generative models providing state-of-the-art results in many domains. One adds gradually noise to data using a diffusion to transform the data distribution into a Gaussian distribution. Samples from the generative model are then obtained by simulating an approximation of the time-reversal of this diffusion initialized by Gaussian samples. Practically, the intractable score terms appearing in the time-reversed process are approximated using score matching techniques. We explore here a similar idea to sample approximately from unnormalized probability density functions and estimate their normalizing constants. We consider a process where the target density diffuses towards a Gaussian. Denoising Diffusion Samplers (DDS) are obtained by approximating the corresponding time-reversal. While score matching is not applicable in this context, we can leverage many of the ideas introduced in generative modeling for Monte Carlo sampling. Existing theoretical results from denoising diffusion models also provide theoretical guarantees for DDS. We discuss the connections between DDS, optimal control and Schr\"odinger bridges and finally demonstrate DDS experimentally on a variety of challenging sampling tasks.
翻訳日:2023-08-21 19:53:24 公開日:2023-08-16
# 拡散塗布による教師なし分布検出

Unsupervised Out-of-Distribution Detection with Diffusion Inpainting ( http://arxiv.org/abs/2302.10326v2 )

ライセンス: Link先を確認
Zhenzhen Liu, Jin Peng Zhou, Yufan Wang, Kilian Q. Weinberger(参考訳) 教師なしのアウト・オブ・ディストリビューション検出(OOD)は、未ラベルのドメイン内データのみから学習することで、ドメイン外のデータを識別する。 本稿では,近年の拡散モデルの発展を生かした新しい手法であるLift, Map, Detect (LMD)を提案する。 拡散モデルは生成モデルの一種である。 コアとなるのが反復的なデノイジングプロセスで、ノイズの多い画像を徐々にトレーニング多様体に近づける。 LMDはこの直感を利用してOODを検出する。 具体的には、LMDは元の多様体からイメージを持ち上げ、それを拡散モデルでドメイン内多様体にマッピングする。 領域外画像の場合、マッピングされた画像は元の多様体から遠く離れており、MDはそれに従ってOODと識別する。 我々は、LMDが様々なデータセットで競合性能を達成するための広範な実験を通して示す。 コードはhttps://github.com/zhenzhel/lift_map_detectにある。

Unsupervised out-of-distribution detection (OOD) seeks to identify out-of-domain data by learning only from unlabeled in-domain data. We present a novel approach for this task - Lift, Map, Detect (LMD) - that leverages recent advancement in diffusion models. Diffusion models are one type of generative models. At their core, they learn an iterative denoising process that gradually maps a noisy image closer to their training manifolds. LMD leverages this intuition for OOD detection. Specifically, LMD lifts an image off its original manifold by corrupting it, and maps it towards the in-domain manifold with a diffusion model. For an out-of-domain image, the mapped image would have a large distance away from its original manifold, and LMD would identify it as OOD accordingly. We show through extensive experiments that LMD achieves competitive performance across a broad variety of datasets. Code can be found at https://github.com/zhenzhel/lift_map_detect.
翻訳日:2023-08-21 19:52:50 公開日:2023-08-16
# Calibeatingによるオンラインプラットスケーリング

Online Platt Scaling with Calibeating ( http://arxiv.org/abs/2305.00070v3 )

ライセンス: Link先を確認
Chirag Gupta, Aaditya Ramdas(参考訳) オンライン・プラット・スケーリング(OPS)とオンライン・ロジスティック・レグレッションを組み合わせたオンライン・ポスト・ホック・キャリブレーション手法を提案する。 我々は,OPSが分布ドリフトを伴う非i.d.設定とi.d.設定の間で円滑に適応できることを実証した。 さらに、最高のPlatetスケーリングモデル自体が誤校正されたシナリオでは、最近開発されたcalalbeatingと呼ばれる手法を取り入れてOPSを強化し、より堅牢にする。 理論的には, OPS+calibeating法は, 逆数列のキャリブレーションが保証される。 実験的には、分布ドリフトのない合成および実世界のデータセットに対して有効であり、ハイパーパラメータチューニングなしで優れたパフォーマンスを達成する。 最後に、すべてのOPSのアイデアをベータスケーリングメソッドに拡張する。

We present an online post-hoc calibration method, called Online Platt Scaling (OPS), which combines the Platt scaling technique with online logistic regression. We demonstrate that OPS smoothly adapts between i.i.d. and non-i.i.d. settings with distribution drift. Further, in scenarios where the best Platt scaling model is itself miscalibrated, we enhance OPS by incorporating a recently developed technique called calibeating to make it more robust. Theoretically, our resulting OPS+calibeating method is guaranteed to be calibrated for adversarial outcome sequences. Empirically, it is effective on a range of synthetic and real-world datasets, with and without distribution drifts, achieving superior performance without hyperparameter tuning. Finally, we extend all OPS ideas to the beta scaling method.
翻訳日:2023-08-21 19:44:37 公開日:2023-08-16
# AffectEcho:音声合成のための話者独立・言語非依存感情と感情伝達

AffectEcho: Speaker Independent and Language-Agnostic Emotion and Affect Transfer for Speech Synthesis ( http://arxiv.org/abs/2308.08577v1 )

ライセンス: Link先を確認
Hrishikesh Viswanath, Aneesh Bhattacharya, Pascal Jutras-Dub\'e, Prerit Gupta, Mridu Prashanth, Yashvardhan Khaitan, Aniket Bera(参考訳) Affectは、原子価、覚醒、強さを含む感情的特徴であり、真正な会話を可能にする重要な属性である。 既存のテキスト音声(TTS)と音声音声システムは、感情を捉えるために強さを埋め込んだベクトルとグローバルなスタイルトークンに依存しているが、これらのモデルは、感情をスタイルの構成要素として表現し、個別のカテゴリーで表現する。 本研究では,ベクトル量子化コードブックを用いた感情翻訳モデルであるemotionechoを提案する。このモデルでは5段階の感情インテンシティを特徴とする量子化空間内の感情をモデル化し,複雑なニュアンスと同一感情の微妙な違いを捉えている。 量子化された感情埋め込みは、音声サンプルから暗黙的に派生し、一ホットベクトルや明示的な強度埋め込みを必要としない。 実験の結果,各話者に固有のアイデンティティ,スタイル,感情の感情を保ちながら,生成音声の感情制御におけるアプローチの有効性が示された。 バイリンガル(英語と中国語)音声コーパスから学習した、参照音声から対象音声への感情伝達タスクの量化された感情埋め込みの言語に依存しない感情モデリング能力を示す。 定性的指標と定量的指標の両方について最先端の結果を得る。

Affect is an emotional characteristic encompassing valence, arousal, and intensity, and is a crucial attribute for enabling authentic conversations. While existing text-to-speech (TTS) and speech-to-speech systems rely on strength embedding vectors and global style tokens to capture emotions, these models represent emotions as a component of style or represent them in discrete categories. We propose AffectEcho, an emotion translation model, that uses a Vector Quantized codebook to model emotions within a quantized space featuring five levels of affect intensity to capture complex nuances and subtle differences in the same emotion. The quantized emotional embeddings are implicitly derived from spoken speech samples, eliminating the need for one-hot vectors or explicit strength embeddings. Experimental results demonstrate the effectiveness of our approach in controlling the emotions of generated speech while preserving identity, style, and emotional cadence unique to each speaker. We showcase the language-independent emotion modeling capability of the quantized emotional embeddings learned from a bilingual (English and Chinese) speech corpus with an emotion transfer task from a reference speech to a target speech. We achieve state-of-art results on both qualitative and quantitative metrics.
翻訳日:2023-08-21 19:15:55 公開日:2023-08-16
# コミュニケーション圧縮を用いたフェデレーション学習における確率制御平均化

Stochastic Controlled Averaging for Federated Learning with Communication Compression ( http://arxiv.org/abs/2308.08165v1 )

ライセンス: Link先を確認
Xinmeng Huang, Ping Li, Xiaoyun Li(参考訳) 無線通信における通信量削減を目的とした通信圧縮技術は,その通信オーバーヘッドを軽減する可能性について,フェデレートラーニング(FL)において大きな関心を集めている。 しかし, 通信圧縮がFLに新たな課題をもたらすのは, 圧縮帰属情報歪みと部分的参加やデータ不均一性といったFL固有の特性の相互作用によるものである。 近年の開発にもかかわらず、圧縮flアプローチの性能は十分に活用されていない。 既存のアプローチは任意のデータ不均一性や部分的参加を許容できないか、圧縮に厳密な条件を必要とする。 本稿では,半減なアップリンク通信コストで等価だがより効率的かつ簡易な定式化を提案することによって,半音階確率制御平均化法を再検討する。 本実装では,2つの圧縮FLアルゴリズムであるSCALLIONとSCAFCOMを提案し,それぞれ非バイアス圧縮とバイアス圧縮をサポートする。 提案手法は, 通信と計算の複雑さにおいて, 既存の圧縮fl法を上回っている。 さらに、SCALLIONとSCAFCOMは任意のデータの均一性を許容し、圧縮エラーについて追加の仮定をしない。 実験の結果,scallion と scafcom は,同一通信予算で圧縮 fl 法を上り詰めた上り通信を効果的に削減し,対応する全精度 fl 法の性能に匹敵することがわかった。

Communication compression, a technique aiming to reduce the information volume to be transmitted over the air, has gained great interests in Federated Learning (FL) for the potential of alleviating its communication overhead. However, communication compression brings forth new challenges in FL due to the interplay of compression-incurred information distortion and inherent characteristics of FL such as partial participation and data heterogeneity. Despite the recent development, the performance of compressed FL approaches has not been fully exploited. The existing approaches either cannot accommodate arbitrary data heterogeneity or partial participation, or require stringent conditions on compression. In this paper, we revisit the seminal stochastic controlled averaging method by proposing an equivalent but more efficient/simplified formulation with halved uplink communication costs. Building upon this implementation, we propose two compressed FL algorithms, SCALLION and SCAFCOM, to support unbiased and biased compression, respectively. Both the proposed methods outperform the existing compressed FL methods in terms of communication and computation complexities. Moreover, SCALLION and SCAFCOM accommodates arbitrary data heterogeneity and do not make any additional assumptions on compression errors. Experiments show that SCALLION and SCAFCOM can match the performance of corresponding full-precision FL approaches with substantially reduced uplink communication, and outperform recent compressed FL methods under the same communication budget.
翻訳日:2023-08-21 19:15:34 公開日:2023-08-16
# 有害なAI音声の責任はどこにあるのか?

Where's the Liability in Harmful AI Speech? ( http://arxiv.org/abs/2308.04635v2 )

ライセンス: Link先を確認
Peter Henderson, Tatsunori Hashimoto, Mark Lemley(参考訳) 生成AI、特にテキストベースの「基礎モデル」(インターネットを含む膨大な情報に基づいて訓練された大規模なモデル)は、幅広い負債体制下で問題となるような音声を生成することができる。 機械学習の実践者は、このような問題のあるスピーチを識別し緩和するために、定期的に「赤いチーム」モデルを用いる。 重要な疑問は、これらのレッドチームによる行動が、米国法の下でモデル作成者や展開者に対して、安全メカニズムへの投資をインセンティブとする責任リスクを実際に与えているかどうかである。 我々は,3つの責任体制を検証し,これらをレッドチームモデル行動の一般的な例と結びつけた: 破壊, 犯罪行為に不可欠な言論, 誤った死である。 第230節の免疫分析や下流責任分析はアルゴリズム設計の技術的詳細に密にラップされていることが判明した。 そして、生成した音声に責任を持つモデル(とその関連パーティ)を見つけるための多くの障害があります。 私たちは、aiはこれらのシナリオにおいて責任からカテゴリー的に免れるべきではない、そして裁判所が既にきめ細かいプラットフォームアルゴリズムの複雑さに苦しむにつれ、上記の生成型aiの技術的詳細は、より厳密な疑問と共に浮上する、と主張している。 裁判所や政策立案者は、これらの問題を評価する際に、彼らが生み出す技術的デザインインセンティブについて慎重に考えるべきである。

Generative AI, in particular text-based "foundation models" (large models trained on a huge variety of information including the internet), can generate speech that could be problematic under a wide range of liability regimes. Machine learning practitioners regularly "red team" models to identify and mitigate such problematic speech: from "hallucinations" falsely accusing people of serious misconduct to recipes for constructing an atomic bomb. A key question is whether these red-teamed behaviors actually present any liability risk for model creators and deployers under U.S. law, incentivizing investments in safety mechanisms. We examine three liability regimes, tying them to common examples of red-teamed model behaviors: defamation, speech integral to criminal conduct, and wrongful death. We find that any Section 230 immunity analysis or downstream liability analysis is intimately wrapped up in the technical details of algorithm design. And there are many roadblocks to truly finding models (and their associated parties) liable for generated speech. We argue that AI should not be categorically immune from liability in these scenarios and that as courts grapple with the already fine-grained complexities of platform algorithms, the technical details of generative AI loom above with thornier questions. Courts and policymakers should think carefully about what technical design incentives they create as they evaluate these issues.
翻訳日:2023-08-21 19:13:17 公開日:2023-08-16
# 農業における再生可能エネルギーの統合 : 深層強化学習に基づくアプローチ

Integrating Renewable Energy in Agriculture: A Deep Reinforcement Learning-based Approach ( http://arxiv.org/abs/2308.08611v1 )

ライセンス: Link先を確認
A. Wahid, I faiud, K. Mason(参考訳) 本稿では,農業部門における太陽光発電システム導入の意思決定を最適化するために,Deep Q-Networks (DQNs) の利用について検討する。 この研究は、インストール予算、政府のインセンティブ、エネルギー要求、システムコスト、長期的利益といった要因を考慮した情報的意思決定において、農業投資家を支援するためのDQNフレームワークを開発する。 報酬メカニズムを実装することで、DQNはPV統合に関するデータ駆動決定を行うことを学ぶ。 この分析は、DQNが投資家の農業におけるPV導入に関する決定をどう支援できるかを包括的に理解する。 本研究は, 持続的で効率的な農業の実践を促進するとともに, 今後の発展への道を開く上で重要な意味を持つ。 dqnsを活用することで、農業投資家はエネルギー効率の向上、環境影響の低減、収益性の向上のために最適化された決定をすることができる。 本研究は、農業におけるPV統合の進展に寄与し、この将来性のある領域におけるさらなるイノベーションを促進する。

This article investigates the use of Deep Q-Networks (DQNs) to optimize decision-making for photovoltaic (PV) systems installations in the agriculture sector. The study develops a DQN framework to assist agricultural investors in making informed decisions considering factors such as installation budget, government incentives, energy requirements, system cost, and long-term benefits. By implementing a reward mechanism, the DQN learns to make data-driven decisions on PV integration. The analysis provides a comprehensive understanding of how DQNs can support investors in making decisions about PV installations in agriculture. This research has significant implications for promoting sustainable and efficient farming practices while also paving the way for future advancements in this field. By leveraging DQNs, agricultural investors can make optimized decisions that improve energy efficiency, reduce environmental impact, and enhance profitability. This study contributes to the advancement of PV integration in agriculture and encourages further innovation in this promising area.
翻訳日:2023-08-21 19:06:33 公開日:2023-08-16
# フットGPT : 最小設定による大規模言語モデル開発実験

FootGPT : A Large Language Model Development Experiment on a Minimal Setting ( http://arxiv.org/abs/2308.08610v1 )

ライセンス: Link先を確認
Eren Unlu(参考訳) 最近の経験的観察では、正確な言語モデルを開発する上で最も重要な側面は、神経パラメータの数、トレーニング期間、データセットサイズと比較して適切なデータセットの内容とトレーニング戦略である可能性があると論じられている。 この議論に続いて、イタリアサッカーリーグの最初の10試合のチーム統計に基づいて、低ランク適応を用いて、汎用因果言語モデルで訓練された10億のパラメータサイズを微調整した。 限定的なトレーニングデータセットは、強力な商用大規模言語モデルが目的とする蒸留段落と質問応答ペアを提供するフレームワークに基づいてコンパイルされた。 トレーニング期間は比較的短く、最小限の設定探索の基礎を提供しました。 本論文では,サッカーデータと制約付き資源の解釈を目的とした,特定の目的言語モデルの開発に関連するプロセスについて,重要な知見を述べる。

With recent empirical observations, it has been argued that the most significant aspect of developing accurate language models may be the proper dataset content and training strategy compared to the number of neural parameters, training duration or dataset size. Following this argument, we opted to fine tune a one billion parameter size trained general purpose causal language model with a dataset curated on team statistics of the Italian football league first ten game weeks, using low rank adaptation. The limited training dataset was compiled based on a framework where a powerful commercial large language model provides distilled paragraphs and question answer pairs as intended. The training duration was kept relatively short to provide a basis for our minimal setting exploration. We share our key observations on the process related to developing a specific purpose language model which is intended to interpret soccer data with constrained resources in this article.
翻訳日:2023-08-21 19:06:15 公開日:2023-08-16
# 非平衡(前)熱定常状態からの有効ハミルトニアンの再構成

Reconstructing effective Hamiltonians from nonequilibrium (pre-)thermal steady states ( http://arxiv.org/abs/2308.08608v1 )

ライセンス: Link先を確認
Sourav Nandy, Markus Schmitt, Marin Bukov, Zala Lenar\v{c}i\v{c}(参考訳) 実装されたモデルを検証することと、十分な精度で残余項を特定することは、重要性を増す問題である。 本稿では,局所演算子の熱的測定を含むと診断されたデータセットを前処理することにより,ハミルトニアン再構成のための深層学習支援変分アルゴリズムを提案する。 我々は、局所ハミルトンの効率的かつ正確な再構築を実証する一方、長距離相互作用するハミルトンは概して再構成される。 平衡から離れて、周期的かつランダムな多極性駆動系では、準安定定常状態のフロッケ工学に広く用いられる有効ハミルトニアンを再構成する。 さらに, 本手法では, 摂動膨張が失敗する熱前高原の有効性を超えても, 効果的な準局所ハミルトニアンを再構成することができる。

Reconstructing Hamiltonians from local measurements is key to enabling reliable quantum simulation: both validating the implemented model, and identifying any left-over terms with sufficient precision is a problem of increasing importance. Here we propose a deep-learning-assisted variational algorithm for Hamiltonian reconstruction by pre-processing a dataset that is diagnosed to contain thermal measurements of local operators. We demonstrate the efficient and precise reconstruction of local Hamiltonians, while long-range interacting Hamiltonians are reconstructed approximately. Away from equilibrium, for periodically and random multipolar driven systems, we reconstruct the effective Hamiltonian widely used for Floquet engineering of metastable steady states. Moreover, our approach allows us to reconstruct an effective quasilocal Hamiltonian even in the heating regime beyond the validity of the prethermal plateau, where perturbative expansions fail.
翻訳日:2023-08-21 19:06:01 公開日:2023-08-16
# 正方形の形式和からのカスタムベル不等式

Custom Bell inequalities from formal sums of squares ( http://arxiv.org/abs/2308.08601v1 )

ライセンス: Link先を確認
Victor Barizien, Pavel Sekatski, Jean-Daniel Bancal(参考訳) ベルの不等式は、デバイスに依存しない量子情報プロトコルの量子特性の証明において重要な役割を果たす。 しかし、任意の量子状態に適したベルの不等式を考案することは依然として大きな課題である。 平方の和に基づく既存のアプローチは、この方向の結果を提供するが、状態に適した測定設定を最初に選択する必要性によって制限される。 ここでは, 任意の目標状態に対して, 数値化子の選択を適度に行うことにより, 任意の目標状態に対して平方特性の和を強制することができることを示す。 本手法を用いて, 量子状態のいくつかの族に対して単純なベル不等式を構築し, 部分的絡み合った多成分ghz状態と量子状態を含む。 ほとんどの場合、構築されたベルの不等式が目標状態の自己テストを達成することを証明できる。 また、測定の自由度を2つのパラメータを持つ設定の族を持つ2量子状態の部分的絡み合いを自己テストする。 最後に、いくつかの統計をベルの不等式で自己テストできることを示し、量子相関の集合の形状に関する新たな洞察を得る。

Bell inequalities play a key role in certifying quantum properties for device-independent quantum information protocols. It is still a major challenge, however, to devise Bell inequalities tailored for an arbitrary given quantum state. Existing approaches based on sums of squares provide results in this direction, but they are restricted by the necessity of first choosing measurement settings suited to the state. Here, we show how the sum of square property can be enforced for an arbitrary target state by making an appropriate choice of nullifiers, which is made possible by leaving freedom in the choice of measurement. Using our method, we construct simple Bell inequalities for several families of quantum states, including partially entangled multipartite GHZ states and qutrit states. In most cases we are able to prove that the constructed Bell inequalities achieve self-testing of the target state. We also use the freedom in the choice of measurement to self-test partially entangled two-qubit states with a family of settings with two parameters. Finally, we show that some statistics can be self-tested with distinct Bell inequalities, hence obtaining new insight on the shape of the set of quantum correlations.
翻訳日:2023-08-21 19:05:47 公開日:2023-08-16
# 量子場理論、テンソルネットワーク、重力におけるR'enyi相互情報

R\'enyi mutual information in quantum field theory, tensor networks, and gravity ( http://arxiv.org/abs/2308.08600v1 )

ライセンス: Link先を確認
Jonah Kudler-Flam, Laimei Nie, Akash Vijay(参考訳) 我々は、RMI ($\alpha-z$ R\enyi mutual informations) と呼ばれる大規模な相関測度を探索する。 R'enyi エントロピーの線型結合を含む RMI の概念とは異なり、$\alpha-z$ RMIs は量子演算の下で正半定値で単調に減少し、全(量子と古典)相関の有意義な測度となる。 これはR'enyi 相対エントロピーに由来する。 サブシステム間の上界連結相関関数に加えて、$\alpha$ と $z$ の値に対して $\alpha-z$ rmis もまた境界連結相関関数を低くする、というより強い主張を証明する。 我々は、共形場理論、自由フェルミオン、ランダムテンソルネットワーク、ホログラフィを含む多体システムにおいて、$\alpha-z$ RMIを計算できる簡単な実装可能なレプリカトリックを開発した。

We explore a large class of correlation measures called the $\alpha-z$ R\'enyi mutual informations (RMIs). Unlike the commonly used notion of RMI involving linear combinations of R\'enyi entropies, the $\alpha-z$ RMIs are positive semi-definite and monotonically decreasing under quantum operations, making them sensible measures of total (quantum and classical) correlations. This follows from their descendance from R\'enyi relative entropies. In addition to upper bounding connected correlation functions between subsystems, we prove the much stronger statement that for certain values of $\alpha$ and $z$, the $\alpha-z$ RMIs also lower bound connected correlation functions. We develop an easily implementable replica trick which enables us to compute the $\alpha-z$ RMIs in a variety of many-body systems including conformal field theories, free fermions, random tensor networks, and holography.
翻訳日:2023-08-21 19:05:28 公開日:2023-08-16
# 有限温度における1+1d$\mathbb{z}_2$格子ゲージ理論の閉じ込め

Confinement in 1+1D $\mathbb{Z}_2$ Lattice Gauge Theories at Finite Temperature ( http://arxiv.org/abs/2308.08592v1 )

ライセンス: Link先を確認
Matja\v{z} Kebri\v{c}, Jad C. Halimeh, Ulrich Schollw\"ock, Fabian Grusdt(参考訳) 閉じ込めはゲージ理論のパラダイム現象であり、その理解は高エネルギー物理学の最前線にある。 そこで本研究では, 有限温度および充填状態における単純な1次元 \zt格子ゲージ理論における閉じ込めについて検討する。 行列積状態 (mps) の計算を用いて, 有限温度グリーン関数の減衰を調べ, 拘束状態と非拘束状態との間の滑らかな交差関係を明らかにする。 さらに,mpsから採取したスナップショットから得られたフリーデル振動と弦長分布を実験的に検討し,その妥当性を確認した。 最後に、閉じ込められた中間子を有限温度でよく定義し、正確な対角化を伴うクエンチダイナミクスを調べることにより検証する。 実験結果から,有限温度における閉じ込めに関する新たな知見を得た。

Confinement is a paradigmatic phenomenon of gauge theories, and its understanding lies at the forefront of high-energy physics. Here, we study confinement in a simple one-dimensional \Zt lattice gauge theory at finite temperature and filling, which is within the reach of current cold-atom and superconducting-qubit platforms. By employing matrix product states (MPS) calculations, we investigate the decay of the finite-temperature Green's function and uncover a smooth crossover between the confined and deconfined regimes. This is furthermore confirmed by considering the Friedel oscillations and string length distributions obtained from snapshots sampled from MPS, both of which are experimentally readily available. Finally, we verify that confined mesons remain well-defined at finite temperature by probing their quench dynamics with exact diagonalization. Our results shed new light on confinement at finite temperature from an experimentally relevant standpoint.
翻訳日:2023-08-21 19:05:06 公開日:2023-08-16
# クラスタ制約による二層グラフェンの対称性破壊の理解

Understanding Symmetry Breaking in Twisted Bilayer Graphene from Cluster Constraints ( http://arxiv.org/abs/2308.08590v1 )

ライセンス: Link先を確認
Nikita Astrakhantsev, Glenn Wagner, Tom Westerhout, Titus Neupert and Mark H. Fischer(参考訳) ツイスト二層グラフェンは相関量子位相を探求するためのエキサイティングなプラットフォームであり、単粒子バンドと電子の相互作用プロファイルの両方について非常に調整可能である。 ここでは, ハニカム格子上の拡張ハバードモデルを用いて, 2つのフェルミオン軌道 (バルブ) を持つ二層グラフェンの相図について検討した。 特別な拡張 {\it cluster interaction} $Q$の他に、オンサイトHubbard-interaction$U$を通じてゲーティングの効果を取り入れます。 量子モンテカルロ(QMC)では、価結合固体、N'eel-valley反強磁性または電荷密度波相が見つかる。 さらに、これらの位相の競合は、クラスター相互作用がヒルベルト空間上のエキゾチックな制約を誘導し、有名なピロクロアのスピン-アイス則に類似させることによって解明する。 クラスタルール多様体に射影して摂動ハミルトニアンを定式化し、正確な対角化を行い、観測された位相の固定点状態を構築する。 最後に, 走査型トンネル顕微鏡で観察できる局所電子密度パターンを, これらの位相を識別するシグネチャとして計算した。 本研究は, ツイスト二層グラフェンの拡張ハバードモデルにおけるクラスタ制約の概念を活かし, ツイスト二層グラフェンシートにおけるいくつかの対称性破断絶縁相の実現に向けたスキームを提案する。

Twisted bilayer graphene is an exciting platform for exploring correlated quantum phases, extremely tunable with respect to both the single-particle bands and the interaction profile of electrons. Here, we investigate the phase diagram of twisted bilayer graphene as described by an extended Hubbard model on the honeycomb lattice with two fermionic orbitals (valleys) per site. Besides the special extended {\it cluster interaction} $Q$, we incorporate the effect of gating through an onsite Hubbard-interaction $U$. Within Quantum Monte Carlo (QMC), we find valence-bond-solid, N\'eel-valley antiferromagnetic or charge-density wave phases. Further, we elucidate the competition of these phases by noticing that the cluster interaction induces an exotic constraint on the Hilbert space, which we dub {\it the cluster rule}, in analogy to the famous pyrochlore spin-ice rule. Formulating the perturbative Hamiltonian by projecting into the cluster-rule manifold, we perform exact diagonalization and construct the fixed-point states of the observed phases. Finally, we compute the local electron density patterns as signatures distinguishing these phases, which could be observed with scanning tunneling microscopy. Our work capitalizes on the notion of cluster constraints in the extended Hubbard model of twisted bilayer graphene, and suggests a scheme towards realization of several symmetry-breaking insulating phases in a twisted-bilayer graphene sheet.
翻訳日:2023-08-21 19:04:48 公開日:2023-08-16
# Su-Schrieffer-Heegerキャビティ量子力学における絡み合いとトポロジー

Entanglement and Topology in Su-Schrieffer-Heeger Cavity Quantum Electrodynamics ( http://arxiv.org/abs/2308.08588v1 )

ライセンス: Link先を確認
Daniel Shaffer, Martin Claassen, Ajit Srivastava, Luiz H. Santos(参考訳) キャビティ材料は、物質の電子相の性質における光-物質相互作用の役割を研究するフロンティアである。 キャビティフォトンを媒介とする非局所相互作用は位相的電子位相を不安定にするのだろうか? 光学キャビティモードと相互作用するトポロジカルSu-Schrieffer-Heeger(SSH)鎖の絡み合い,エネルギースペクトル,相関関数を特徴付けることにより,この問題を解明する。 密度行列再正規化群 (dmrg) と厳密対角化 (ed) を用いて, エッジ状態の安定性を実証し, 光間相互作用による長距離相関にもかかわらず, 基底状態の絡み合いエントロピーに対する領域則スケーリングを確立した。 これらの特徴はゲージ不変性と物質に絡み合った仮想フォトン励起のスケーリングに関連付けられ、フルヒルベルト空間の低次元クリロフ部分空間で効果的に計算される。 本研究は, 位相キャビティ材料における新しい平衡現象を特徴付ける枠組みを提供する。

Cavity materials are a frontier to investigate the role of light-matter interactions on the properties of electronic phases of matter. In this work, we raise a fundamental question: can non-local interactions mediated by cavity photons destabilize a topological electronic phase? We investigate this question by characterizing entanglement, energy spectrum and correlation functions of the topological Su-Schrieffer-Heeger (SSH) chain interacting with an optical cavity mode. Employing density-matrix renormalization group (DMRG) and exact diagonalization (ED), we demonstrate the stability of the edge state and establish an area law scaling for the ground state entanglement entropy, despite long-range correlations induced by light-matter interactions. These features are linked to gauge invariance and the scaling of virtual photon excitations entangled with matter, effectively computed in a low-dimensional Krylov subspace of the full Hilbert space. This work provides a framework for characterizing novel equilibrium phenomena in topological cavity materials.
翻訳日:2023-08-21 19:04:21 公開日:2023-08-16
# 認知的精度と認知的精度の増大について

On the Augmentation of Cognitive Accuracy and Cognitive Precision in Human/Cog Ensembles ( http://arxiv.org/abs/2308.08581v1 )

ライセンス: Link先を確認
Ron Fulbright(参考訳) 人間は道具を使うたびに、人間のパフォーマンスが向上する。 認知システム(cognitive systems)は、認知能力が継続的に増大する新しいタイプのツールであり、これまで明示的に人間であると考えられていた高レベルの認知タスクを実行している。 コーグ(cogs)として知られるそのようなツールの使用は、人間の認知能力の増大をもたらすことが期待されている。 人間のコグアンサンブルにおいて、人間と認知システムとの間の協調的、対人的、協調的な対話は、その相互作用の結果、人間の認知能力が増強される。 したがって、人間のコグアンサンブルは、人間またはコグだけで働く以上のことができる。 本稿では,コーグが与える影響情報が認知的正確性,正しい結果を生み出す能力,認知的正確性,正しい結果のみを生じる傾向に及ぼす影響を計測するために設計された2つの研究結果について述べる。 認知精度と認知精度は、異なるタイプの情報(政治、ルール、例、提案)と異なる種類の問題(創発的な問題解決とパズル)によって増大することが示されている。 他の研究で見られる同様の効果が比較される。

Whenever humans use tools human performance is enhanced. Cognitive systems are a new kind of tool continually increasing in cognitive capability and are now performing high level cognitive tasks previously thought to be explicitly human. Usage of such tools, known as cogs, are expected to result in ever increasing levels of human cognitive augmentation. In a human cog ensemble, a cooperative, peer to peer, and collaborative dialog between a human and a cognitive system, human cognitive capability is augmented as a result of the interaction. The human cog ensemble is therefore able to achieve more than just the human or the cog working alone. This article presents results from two studies designed to measure the effect information supplied by a cog has on cognitive accuracy, the ability to produce the correct result, and cognitive precision, the propensity to produce only the correct result. Both cognitive accuracy and cognitive precision are shown to be increased by information of different types (policies and rules, examples, and suggestions) and with different kinds of problems (inventive problem solving and puzzles). Similar effects shown in other studies are compared.
翻訳日:2023-08-21 19:04:01 公開日:2023-08-16
# PEvoLM:タンパク質配列進化情報言語モデル

PEvoLM: Protein Sequence Evolutionary Information Language Model ( http://arxiv.org/abs/2308.08578v1 )

ライセンス: Link先を確認
Issar Arab(参考訳) 時間とともにタンパク質配列データベースが指数関数的に増加し、PSI-BLASTのようなマルチシーケンスアライメント(MSA)法は、進化情報を取得するために、徹底的で時間を要するデータベース探索を行う。 このような検索エンジンの位置特異的スコアリング行列(PSSM)は、バイオインフォマティクスと計算生物学の分野における多くの機械学習(ML)モデルにとって重要な入力である。 タンパク質配列は、アミノ酸(AA)と呼ばれる連続したトークンまたは文字の集合である。 自然言語の類似により、NLP(Natural Language Processing)分野の最近の進歩を利用して、NLPの最先端のアルゴリズムをバイオインフォマティクスに転送することができる。 本研究では,タンパク質配列を数値ベクトル表現に変換する埋め込み言語モデル(ELMo)を提案する。 元々のelmoは、pssmsの概念とトランスファーラーニングの概念を融合して、2層2層2方向長短期記憶(lstms)ネットワークを2パスアーキテクチャに従って訓練したが、本研究では4倍のフリーパラメータを持つ新しい双方向言語モデル(bi-lm)を導入し、両者のパスに対して単一のパスを使用する。 このモデルは、次のAAを予測するだけでなく、PSSMで要約された類似の異なる配列から派生した次のAAの確率分布に基づいて訓練され、同時にマルチタスク学習のために、タンパク質配列の進化情報も学習した。 ネットワークアーキテクチャと事前トレーニングされたモデルは、GitHubのhttps://github.com/issararab/PEvoLMでMITライセンス下でオープンソースとして公開されている。

With the exponential increase of the protein sequence databases over time, multiple-sequence alignment (MSA) methods, like PSI-BLAST, perform exhaustive and time-consuming database search to retrieve evolutionary information. The resulting position-specific scoring matrices (PSSMs) of such search engines represent a crucial input to many machine learning (ML) models in the field of bioinformatics and computational biology. A protein sequence is a collection of contiguous tokens or characters called amino acids (AAs). The analogy to natural language allowed us to exploit the recent advancements in the field of Natural Language Processing (NLP) and therefore transfer NLP state-of-the-art algorithms to bioinformatics. This research presents an Embedding Language Model (ELMo), converting a protein sequence to a numerical vector representation. While the original ELMo trained a 2-layer bidirectional Long Short-Term Memory (LSTMs) network following a two-path architecture, one for the forward and the second for the backward pass, by merging the idea of PSSMs with the concept of transfer-learning, this work introduces a novel bidirectional language model (bi-LM) with four times less free parameters and using rather a single path for both passes. The model was trained not only on predicting the next AA but also on the probability distribution of the next AA derived from similar, yet different sequences as summarized in a PSSM, simultaneously for multi-task learning, hence learning evolutionary information of protein sequences as well. The network architecture and the pre-trained model are made available as open source under the permissive MIT license on GitHub at https://github.com/issararab/PEvoLM.
翻訳日:2023-08-21 19:03:40 公開日:2023-08-16
# ゼロメモリフットプリントスパイクニューラルネットワークトレーニングに向けて

Towards Zero Memory Footprint Spiking Neural Network Training ( http://arxiv.org/abs/2308.08649v1 )

ライセンス: Link先を確認
Bin Lei, Sheng Lin, Pei-Hung Lin, Chunhua Liao, Caiwen Ding(参考訳) 生物学的にインスパイアされたスパイクニューラルネットワーク(SNN)は、スパイクと呼ばれる離散時間イベントを用いて情報を処理し、ハードウェアフレンドリーでエネルギー効率のよい特徴から注目されている。 しかし、スパイクやイベントの追加ストレージ要件を考えると、SNNのトレーニングは大幅に大きなメモリフットプリントを必要とするため、複雑な構造と動的セットアップにつながる。 本稿では,snnトレーニングにおけるメモリ制約に対処するため,メモリフットプリントが著しく少ない,革新的なフレームワークを提案する。 We \textbf{ i) 高い精度を維持した可逆SNNノードを設計する。 我々の設計では、現在のsnノードと比較してメモリ使用量を$\mathbf{58.65\times}$削減できる。 We \textbf{ (ii),可逆snノードのバックプロパゲーションプロセスを合理化するユニークなアルゴリズムを提案する。 これにより、後進浮動小数点演算(FLOP)が大幅に削減され、現在の可逆層バックプロパゲーション法と比較してトレーニングプロセスが高速化される。 このアルゴリズムを用いることで、既存の可逆層アーキテクチャと比較して、トレーニング時間を$\mathbf{23.8\%}$で削減することができる。

Biologically-inspired Spiking Neural Networks (SNNs), processing information using discrete-time events known as spikes rather than continuous values, have garnered significant attention due to their hardware-friendly and energy-efficient characteristics. However, the training of SNNs necessitates a considerably large memory footprint, given the additional storage requirements for spikes or events, leading to a complex structure and dynamic setup. In this paper, to address memory constraint in SNN training, we introduce an innovative framework, characterized by a remarkably low memory footprint. We \textbf{(i)} design a reversible SNN node that retains a high level of accuracy. Our design is able to achieve a $\mathbf{58.65\times}$ reduction in memory usage compared to the current SNN node. We \textbf{(ii)} propose a unique algorithm to streamline the backpropagation process of our reversible SNN node. This significantly trims the backward Floating Point Operations Per Second (FLOPs), thereby accelerating the training process in comparison to current reversible layer backpropagation method. By using our algorithm, the training time is able to be curtailed by $\mathbf{23.8\%}$ relative to existing reversible layer architectures.
翻訳日:2023-08-21 18:56:10 公開日:2023-08-16
# 再構成可能なアトムアレイを用いた定常オーバーヘッドフォールトトレラント量子計算

Constant-Overhead Fault-Tolerant Quantum Computation with Reconfigurable Atom Arrays ( http://arxiv.org/abs/2308.08648v1 )

ライセンス: Link先を確認
Qian Xu, J. Pablo Bonilla Ataides, Christopher A. Pattison, Nithin Raveendran, Dolev Bluvstein, Jonathan Wurtz, Bane Vasic, Mikhail D. Lukin, Liang Jiang, and Hengyun Zhou(参考訳) 量子低密度パリティチェック(qLDPC)符号は高い符号化レートと優れたコード距離のスケーリングを実現し、低オーバーヘッドフォールトトレラント量子コンピューティングへの有望な経路を提供する。 しかし、そのようなコードを実装するのに必要な長距離接続は、物理的な実現を困難にしている。 本稿では、再構成可能な原子配列上での高速qLDPC符号を用いたフォールトトレラント量子計算を行うハードウェア効率のよい手法を提案する。 提案手法は,多くのqLDPC符号に固有の積構造を利用して,原子再構成による非局所症候群抽出回路を実装し,実用上,一定のオーバーヘッドが生じる。 我々はこれらのプロトコルのフォールトトレランスを証明し、メモリと論理演算の回路レベルシミュレーションを行い、qLDPCベースのアーキテクチャが現実的な物理誤差率10-3$で数百の物理量子ビットで表面コードを上回り始めることを発見した。 さらに、3000以上の物理量子ビットは、表面符号と比較して1桁以上の量子ビットの節約が得られるのに十分であり、数千の論理量子ビットを含む量子アルゴリズムは10^5$物理量子ビット以下で行うことができる。 我々の研究は、現在の実験技術に基づいて、qLDPC符号を用いた低オーバヘッド量子コンピューティングの実用化の道を開いた。

Quantum low-density parity-check (qLDPC) codes can achieve high encoding rates and good code distance scaling, providing a promising route to low-overhead fault-tolerant quantum computing. However, the long-range connectivity required to implement such codes makes their physical realization challenging. Here, we propose a hardware-efficient scheme to perform fault-tolerant quantum computation with high-rate qLDPC codes on reconfigurable atom arrays, directly compatible with recently demonstrated experimental capabilities. Our approach utilizes the product structure inherent in many qLDPC codes to implement the non-local syndrome extraction circuit via atom rearrangement, resulting in effectively constant overhead in practically relevant regimes. We prove the fault tolerance of these protocols, perform circuit-level simulations of memory and logical operations with these codes, and find that our qLDPC-based architecture starts to outperform the surface code with as few as several hundred physical qubits at a realistic physical error rate of $10^{-3}$. We further find that less than 3000 physical qubits are sufficient to obtain over an order of magnitude qubit savings compared to the surface code, and quantum algorithms involving thousands of logical qubits can be performed using less than $10^5$ physical qubits. Our work paves the way for explorations of low-overhead quantum computing with qLDPC codes at a practical scale, based on current experimental technologies.
翻訳日:2023-08-21 18:55:47 公開日:2023-08-16
# 不均一モデルによる個人化フェデレーション学習に向けて

Towards Personalized Federated Learning via Heterogeneous Model Reassembly ( http://arxiv.org/abs/2308.08643v1 )

ライセンス: Link先を確認
Jiaqi Wang, Xingyi Yang, Suhan Cui, Liwei Che, Lingjuan Lyu, Dongkuan Xu, Fenglong Ma(参考訳) 本稿では,クライアントが異なるネットワーク構造を持つモデルを持つフェデレート学習におけるモデル不均一性の問題に対処することに焦点を当てる。 この問題を追跡するために,ヘテロジニアスモデルの再組み立てを利用して個別の連合学習を実現するpfedhrという新しいフレームワークを提案する。 特に,サーバ側でのモデルマッチング最適化タスクとして,ヘテロジニアスモデルパーソナライズの問題にアプローチする。 さらに、pFedHRは人間の介入を最小限に抑えた情報的かつ多様な個人化候補を自動かつ動的に生成する。 さらに,提案手法は,クライアントデータと異なる分布を持つ公開データを用いることで生じる悪影響をある程度緩和するものである。 実験の結果、pFedHRはIIDと非IIDの両方の設定下で3つのデータセットのベースラインよりも優れていた。 さらに、pFedHRは、異なる公開データを使用することによる悪影響を効果的に低減し、多様なパーソナライズされたモデルを自動で動的に生成する。

This paper focuses on addressing the practical yet challenging problem of model heterogeneity in federated learning, where clients possess models with different network structures. To track this problem, we propose a novel framework called pFedHR, which leverages heterogeneous model reassembly to achieve personalized federated learning. In particular, we approach the problem of heterogeneous model personalization as a model-matching optimization task on the server side. Moreover, pFedHR automatically and dynamically generates informative and diverse personalized candidates with minimal human intervention. Furthermore, our proposed heterogeneous model reassembly technique mitigates the adverse impact introduced by using public data with different distributions from the client data to a certain extent. Experimental results demonstrate that pFedHR outperforms baselines on three datasets under both IID and Non-IID settings. Additionally, pFedHR effectively reduces the adverse impact of using different public data and dynamically generates diverse personalized models in an automated manner.
翻訳日:2023-08-21 18:55:20 公開日:2023-08-16
# 非単調シーケンシャル・サブモジュラー最大化

Non-monotone Sequential Submodular Maximization ( http://arxiv.org/abs/2308.08641v1 )

ライセンス: Link先を確認
Shaojie Tang and Jing Yuan(参考訳) 本稿では,部分モジュラー最適化における基本問題である逐次部分モジュラー最大化について検討する。 具体的には、$k$ の部分モジュラ函数 $f_1, \cdots ,f_k: 2^V \rightarrow \mathbb{R}^+$ の重み付け和が最大になるような基底集合 $V$ から$k$ の項目群を選択してランク付けすることを目的としており、各関数 $f_j$ はこの列から最初の$j$ を入力として取る。 シーケンシャルなサブモジュラー最大化に関する既存の研究は、サブモジュラー関数が非減退であると仮定して、モノトーンの設定に集中している。 しかし、多様性を意識したレコメンデーションシステムのような現実世界の様々なシナリオでは、既存のセットにアイテムを追加することは、全体的なユーティリティに悪影響を及ぼす可能性がある。 そこで本研究では, 単調でない部分モジュラー関数の問題点を解明し, フレキシブルと固定長の制約と, 同一の実用機能を持つ特別な場合の両方に対して有効な解を提供する。 ビデオレコメンデーション領域における提案アルゴリズムの有効性を実証的評価により検証した。 本研究は,項目の順序付けが得られた全体的な価値に大きく影響する,推薦システムやアソシエーション最適化など,さまざまな分野に影響を及ぼす。

In this paper, we study a fundamental problem in submodular optimization, which is called sequential submodular maximization. Specifically, we aim to select and rank a group of $k$ items from a ground set $V$ such that the weighted summation of $k$ (possibly non-monotone) submodular functions $f_1, \cdots ,f_k: 2^V \rightarrow \mathbb{R}^+$ is maximized, here each function $f_j$ takes the first $j$ items from this sequence as input. The existing research on sequential submodular maximization has predominantly concentrated on the monotone setting, assuming that the submodular functions are non-decreasing. However, in various real-world scenarios, like diversity-aware recommendation systems, adding items to an existing set might negatively impact the overall utility. In response, this paper pioneers the examination of the aforementioned problem with non-monotone submodular functions and offers effective solutions for both flexible and fixed length constraints, as well as a special case with identical utility functions. The empirical evaluations further validate the effectiveness of our proposed algorithms in the domain of video recommendations. The results of this research have implications in various fields, including recommendation systems and assortment optimization, where the ordering of items significantly impacts the overall value obtained.
翻訳日:2023-08-21 18:55:03 公開日:2023-08-16
# 合成データを用いたモデルレバランシングによる公正なGAN

Fair GANs through model rebalancing with synthetic data ( http://arxiv.org/abs/2308.08638v1 )

ライセンス: Link先を確認
Anubhav Jain, Nasir Memon, Julian Togelius(参考訳) 深層生成モデルは大量のトレーニングデータを必要とする。 これはしばしば、データセットの収集が高価で難しいため、特に適切な基礎となる分布(例えば人口統計学)を表すデータセットが問題となる。 これにより、モデルにさらに伝播するデータセットのバイアスが発生する。 本稿では,モデル分布の再バランスにより,既存の生成逆数ネットワークにおけるバイアスを軽減する手法を提案する。 我々は、潜在空間探索を用いて既存の非平衡深層生成モデルからバランスのとれたデータを生成し、このデータを用いてバランスのとれた生成モデルを訓練する。 さらに,不均衡データセットでトレーニングした場合でも,公平度指標の改善を示すバイアス緩和損失関数を提案する。 FFHQデータセットを用いた人種的公平性のトレーニング中に、Stylegan2モデルの結果を示し、画像の品質を維持しながら、提案手法がフェアネスの指標をほぼ5倍改善することを確認する。 さらに,不均衡なcifar-10データセットに適用することで,このアプローチを検証した。 最後に,frechetインセプション距離(fid)などの従来の画像品質指標は,バイアス緩和問題には適さないと主張する。

Deep generative models require large amounts of training data. This often poses a problem as the collection of datasets can be expensive and difficult, in particular datasets that are representative of the appropriate underlying distribution (e.g. demographic). This introduces biases in datasets which are further propagated in the models. We present an approach to mitigate biases in an existing generative adversarial network by rebalancing the model distribution. We do so by generating balanced data from an existing unbalanced deep generative model using latent space exploration and using this data to train a balanced generative model. Further, we propose a bias mitigation loss function that shows improvements in the fairness metric even when trained with unbalanced datasets. We show results for the Stylegan2 models while training on the FFHQ dataset for racial fairness and see that the proposed approach improves on the fairness metric by almost 5 times, whilst maintaining image quality. We further validate our approach by applying it to an imbalanced Cifar-10 dataset. Lastly, we argue that the traditionally used image quality metrics such as Frechet inception distance (FID) are unsuitable for bias mitigation problems.
翻訳日:2023-08-21 18:54:33 公開日:2023-08-16
# FedPop:Federated Populationベースのハイパーパラメータチューニング

FedPop: Federated Population-based Hyperparameter Tuning ( http://arxiv.org/abs/2308.08634v1 )

ライセンス: Link先を確認
Haokun Chen, Denis Krompass, Jindong Gu, Volker Tresp(参考訳) Federated Learning (FL) は分散機械学習(ML)パラダイムであり、複数のクライアントがローカルデータを集中せずにMLモデルを協調的にトレーニングする。 従来のMLパイプラインと同様に、FLのクライアントローカル最適化とサーバ集約手順は、ハイパーパラメータ(HP)の選択に敏感である。 集中型MLのためのHPのチューニングに関する広範な研究にもかかわらず、これらの手法はFLでの使用時に準最適結果が得られる。 フレームワークは、クライアントの計算能力に制限があるFLには適さないためである。 FLのHP-Tuningではいくつかのアプローチが提案されているが、クライアントローカルアップデートではHPに限られている。 本稿では,この課題に対処するため,FedPop(Federated Population-based Hyperparameter Tuning)と呼ばれるHPチューニングアルゴリズムを提案する。 FedPopは人口ベースの進化アルゴリズムを使ってHPを最適化し、クライアント側とサーバ側の両方で様々なHPタイプに対応している。 従来のチューニング手法と比較して、FedPopはオンラインの「チューニング時トレーニング」フレームワークを採用しており、計算効率を提供し、より広範なHP検索空間の探索を可能にする。 FLベンチマークと複雑な実世界のFLデータセットを用いた実証実験により,提案手法の有効性が実証された。

Federated Learning (FL) is a distributed machine learning (ML) paradigm, in which multiple clients collaboratively train ML models without centralizing their local data. Similar to conventional ML pipelines, the client local optimization and server aggregation procedure in FL are sensitive to the hyperparameter (HP) selection. Despite extensive research on tuning HPs for centralized ML, these methods yield suboptimal results when employed in FL. This is mainly because their "training-after-tuning" framework is unsuitable for FL with limited client computation power. While some approaches have been proposed for HP-Tuning in FL, they are limited to the HPs for client local updates. In this work, we propose a novel HP-tuning algorithm, called Federated Population-based Hyperparameter Tuning (FedPop), to address this vital yet challenging problem. FedPop employs population-based evolutionary algorithms to optimize the HPs, which accommodates various HP types at both client and server sides. Compared with prior tuning methods, FedPop employs an online "tuning-while-training" framework, offering computational efficiency and enabling the exploration of a broader HP search space. Our empirical validation on the common FL benchmarks and complex real-world FL datasets demonstrates the effectiveness of the proposed method, which substantially outperforms the concurrent state-of-the-art HP tuning methods for FL.
翻訳日:2023-08-21 18:54:16 公開日:2023-08-16
# 視覚的質問応答モデルを用いた接地言語からの関数語の意味学習

Learning the meanings of function words from grounded language using a visual question answering model ( http://arxiv.org/abs/2308.08628v1 )

ライセンス: Link先を確認
Eva Portelance and Michael C. Frank and Dan Jurafsky(参考訳) or"、"behind"、"more"のような一見単純な関数語を解釈するには、論理的、数値的、関係的推論が必要である。 その言葉は子供にどのように学べますか。 以前の買収理論は、しばしば本質的な知識の基礎を与えることに頼っていた。 しかし、最近のニューラルネットワークベースのビジュアル質問応答モデルは、複雑な視覚シーンに関する質問に答えるの一部として関数語を使うことを学ぶことができる。 本稿では,これらのモデルが機能語について何を学んでいるのかを,モデルと子供の両方でどのように学習できるのか理解を深めるために検討する。 視覚接地言語で学習した反復モデルでは,空間的・数値的推論を必要とする関数語の勾配意味論を学習する。 さらに,これらのモデルでは,論理推論の事前の知識がなくても,論理接続詞「and」と「or」の意味を学習でき,また,言語解釈時に代用表現を推論できるという初期の証拠が得られている。 最後に,単語学習の難しさはモデルの入力頻度に依存することを示す。 本研究は,非記号的一般統計学習アルゴリズムを用いて,言語的意味の事前知識を必要とせず,視覚的文脈で機能語の意味を学習することができることを示す。

Interpreting a seemingly-simple function word like "or", "behind", or "more" can require logical, numerical, and relational reasoning. How are such words learned by children? Prior acquisition theories have often relied on positing a foundation of innate knowledge. Yet recent neural-network based visual question answering models apparently can learn to use function words as part of answering questions about complex visual scenes. In this paper, we study what these models learn about function words, in the hope of better understanding how the meanings of these words can be learnt by both models and children. We show that recurrent models trained on visually grounded language learn gradient semantics for function words requiring spacial and numerical reasoning. Furthermore, we find that these models can learn the meanings of logical connectives "and" and "or" without any prior knowledge of logical reasoning, as well as early evidence that they can develop the ability to reason about alternative expressions when interpreting language. Finally, we show that word learning difficulty is dependent on frequency in models' input. Our findings offer evidence that it is possible to learn the meanings of function words in visually grounded context by using non-symbolic general statistical learning algorithms, without any prior knowledge of linguistic meaning.
翻訳日:2023-08-21 18:53:51 公開日:2023-08-16
# BIOptimus: 名前付きエンティティ認識のためのカリキュラム学習による最適なバイオメディカル言語モデルの事前学習

BIOptimus: Pre-training an Optimal Biomedical Language Model with Curriculum Learning for Named Entity Recognition ( http://arxiv.org/abs/2308.08625v1 )

ライセンス: Link先を確認
Pavlova Vera and Mohammed Makhlouf(参考訳) 言語モデル(LM)を大規模コーパス上で事前学習し、下流タスクの微調整を行うことで、名前付きエンティティ認識(NER)のような教師付き学習タスクのための限定ラベルデータの問題に対処できる。 バイオメディカル言語処理の最近の研究は、NERを含む多くのバイオNLPタスクにおいて、結果を前進させる様々な方法と技術を用いて事前訓練された多くのバイオメディカルLMを提供している。 しかし、バイオメディカル領域でより最適に機能する事前学習アプローチの包括的な比較はいまだに存在しない。 本稿では, バイオメディカル LM をスクラッチから事前訓練し, 継続的に事前訓練するなど, 様々な事前訓練方法を検討することを目的とする。 提案手法は,新しいトークンの重量を初期化するための事前学習法と比較して,トークンが発見されたコンテキスト内でのBERTモデルから既存の重量を蒸留する。 この方法は、プレトレーニングステージの高速化とNERの性能向上に役立つ。 さらに, マスキング率, 腐敗戦略, マスキング戦略が生体医学的lmの性能に与える影響を比較検討した。 最後に,本実験から得られた知見を用いて,Curriculum Learning (CL) と文脈量蒸留法を用いて事前学習した新しいバイオメディカルLM(BIOptimus)を導入する。 私たちのモデルは、いくつかの生体医学的名前付きエンティティ認識(ner)タスクに新しい状態を設定する。 コードとトレーニング済みのすべてのモデルをリリースします

Using language models (LMs) pre-trained in a self-supervised setting on large corpora and then fine-tuning for a downstream task has helped to deal with the problem of limited label data for supervised learning tasks such as Named Entity Recognition (NER). Recent research in biomedical language processing has offered a number of biomedical LMs pre-trained using different methods and techniques that advance results on many BioNLP tasks, including NER. However, there is still a lack of a comprehensive comparison of pre-training approaches that would work more optimally in the biomedical domain. This paper aims to investigate different pre-training methods, such as pre-training the biomedical LM from scratch and pre-training it in a continued fashion. We compare existing methods with our proposed pre-training method of initializing weights for new tokens by distilling existing weights from the BERT model inside the context where the tokens were found. The method helps to speed up the pre-training stage and improve performance on NER. In addition, we compare how masking rate, corruption strategy, and masking strategies impact the performance of the biomedical LM. Finally, using the insights from our experiments, we introduce a new biomedical LM (BIOptimus), which is pre-trained using Curriculum Learning (CL) and contextualized weight distillation method. Our model sets new states of the art on several biomedical Named Entity Recognition (NER) tasks. We release our code and all pre-trained models
翻訳日:2023-08-21 18:53:30 公開日:2023-08-16
# LSTMによるGRACE加速度センサデータの予測モデル

LSTM-Based Forecasting Model for GRACE Accelerometer Data ( http://arxiv.org/abs/2308.08621v1 )

ライセンス: Link先を確認
Neda Darbeheshti and Elahe Moradi(参考訳) 2002年から2017年にかけての重力回復・気候実験(GRACE)衛星ミッションは、地球の重力場の変動を観測するための貴重なデータセットを提供し、地球物理学や水文学の多様な応用を可能にした。 ミッションは2018年にGRACE Follow-Onが続き、データ収集が続けられた。 月々の地球重力場は、衛星上の異なる機器の統合から派生しており、グレースミッションの開始以来、特定の機器の観測のギャップを含む様々な要因により不一致を示した。 GRACEとGRACE Follow-Onのデータは現在20年以上にわたって利用可能であり、データギャップを埋め、GRACE加速度計のデータを予測するアプローチを提案する。 具体的には加速度計データに焦点をあて,長短期記憶(LSTM)ネットワークを用いて,加速度計データを3軸すべてに対して予測できるモデルを訓練する。 本研究では,加速度センサデータの事前処理,LSTMトレーニングのための準備,モデルの性能評価を行う手法について述べる。 実験と検証を通じて,3軸の加速度計データの精度と予測能力を評価する。 この結果から,LSTM予測モデルがGRACE加速度計データの充足および予測に有効であることが示唆された。

The Gravity Recovery and Climate Experiment (GRACE) satellite mission, spanning from 2002 to 2017, has provided a valuable dataset for monitoring variations in Earth's gravity field, enabling diverse applications in geophysics and hydrology. The mission was followed by GRACE Follow-On in 2018, continuing data collection efforts. The monthly Earth gravity field, derived from the integration different instruments onboard satellites, has shown inconsistencies due to various factors, including gaps in observations for certain instruments since the beginning of the GRACE mission. With over two decades of GRACE and GRACE Follow-On data now available, this paper proposes an approach to fill the data gaps and forecast GRACE accelerometer data. Specifically, we focus on accelerometer data and employ Long Short-Term Memory (LSTM) networks to train a model capable of predicting accelerometer data for all three axes. In this study, we describe the methodology used to preprocess the accelerometer data, prepare it for LSTM training, and evaluate the model's performance. Through experimentation and validation, we assess the model's accuracy and its ability to predict accelerometer data for the three axes. Our results demonstrate the effectiveness of the LSTM forecasting model in filling gaps and forecasting GRACE accelerometer data.
翻訳日:2023-08-21 18:53:01 公開日:2023-08-16
# 新しいフレームワークによる大規模言語モデルにおける論理的推論の促進:思考のグラフ

Boosting Logical Reasoning in Large Language Models through a New Framework: The Graph of Thought ( http://arxiv.org/abs/2308.08614v1 )

ライセンス: Link先を確認
Bin Lei, pei-Hung Lin, Chunhua Liao, Caiwen Ding(参考訳) GPT-4のような大規模モデルの最近の進歩は、標準クエリに対処する際、顕著な能力を示した。 しかし、多段階論理的推論を必要とする複雑な問題に直面した場合、その精度は劇的に低下する。 現在の研究は、これらのモデルの推論能力を強化するために、 \textit{prompting engineering}の領域を探求している。 本稿は,GoT (textit{Graph of Thoughts) と呼ばれる先駆的促進技術について紹介する。 24点ゲーム,高次多項式方程式の解法,再帰列の公式の導出という3つの課題の試行を通じて,本手法は GPT-4 よりも優れ,各タスクに対して 89.7 %$, 86 %$, 56 %$ の精度向上を実現した。 さらに,state-of-the-art (sota) プロンプト法である \textit{tree of thought (tot)} を用いた場合,提案手法では平均精度向上率を2,23\%$,2,24\%$,15\%$とした。

Recent advancements in large-scale models, such as GPT-4, have showcased remarkable capabilities in addressing standard queries. However, when facing complex problems that require multi-step logical reasoning, their accuracy dramatically decreases. Current research has explored the realm of \textit{prompting engineering} to bolster the inferential capacities of these models. Our paper unveils a pioneering prompting technique, dubbed \textit{Graph of Thoughts (GoT)}. Through testing on a trio of escalating challenges: the 24-point game, resolution of high-degree polynomial equations, and derivation of formulas for recursive sequences, our method outperformed GPT-4, achieving accuracy improvements of $89.7\%$, $86\%$, and $56\%$ for each respective task. Moreover, when juxtaposed with the state-of-the-art (SOTA) prompting method, \textit{Tree of Thought (ToT)}, our approach registered an average accuracy boost of $23\%$, $24\%$, and $15\%$.
翻訳日:2023-08-21 18:52:42 公開日:2023-08-16
# オーバーフィッティングの定量化 - オーバーフィッティング指標の導入

Quantifying Overfitting: Introducing the Overfitting Index ( http://arxiv.org/abs/2308.08682v1 )

ライセンス: Link先を確認
Sanad Aburass(参考訳) 機械学習の急速に発展する領域において、モデルの一般化性を保証することは重要な課題である。 オーバーフィッティング(Overfitting)は、トレーニングデータでは優れたパフォーマンスを示すが、目に見えないデータではフェールである。 本稿では、モデルが過適合する傾向を定量的に評価するために考案された新しい指標であるOverfitting Index(OI)を紹介する。 また,MobileNet,U-Net,ResNet,Darknet,ViT-32などのアーキテクチャを用いたBUSとMNISTデータセットの広範な実験を通じて,OIの有用性と識別について解説する。 私たちの結果は、アーキテクチャ全体にわたる変数のオーバーフィット動作を強調し、特により小さく、より専門的なデータセットに対するデータ拡張の緩和効果を強調します。 ViT-32のMNISTの性能は、特定のモデルの堅牢性とデータセットの包括的な性質をさらに強調している。 オーバーフィッティングを測るための客観的レンズを提供することで、OIはモデル最適化を前進させ、実世界の有効性を確保するための有望な道を提供する。

In the rapidly evolving domain of machine learning, ensuring model generalizability remains a quintessential challenge. Overfitting, where a model exhibits superior performance on training data but falters on unseen data, is a recurrent concern. This paper introduces the Overfitting Index (OI), a novel metric devised to quantitatively assess a model's tendency to overfit. Through extensive experiments on the Breast Ultrasound Images Dataset (BUS) and the MNIST dataset using architectures such as MobileNet, U-Net, ResNet, Darknet, and ViT-32, we illustrate the utility and discernment of the OI. Our results underscore the variable overfitting behaviors across architectures and highlight the mitigative impact of data augmentation, especially on smaller and more specialized datasets. The ViT-32's performance on MNIST further emphasizes the robustness of certain models and the dataset's comprehensive nature. By providing an objective lens to gauge overfitting, the OI offers a promising avenue to advance model optimization and ensure real-world efficacy.
翻訳日:2023-08-21 18:46:19 公開日:2023-08-16
# 言論の自由とAI出力

Freedom of Speech and AI Output ( http://arxiv.org/abs/2308.08673v1 )

ライセンス: Link先を確認
Eugene Volokh, Mark Lemley, Peter Henderson(参考訳) 生成AIの出力は修正第1次保護の対象か? 私たちはイエスと言う傾向があります。 現在のaiプログラムは、もちろん人間ではなく、それ自体が憲法上の権利を持っていないが、彼らのスピーチは、プログラムの作成者の権利のために保護される可能性がある。 しかし、その上、おそらくもっと重要なのは、aiプログラムのスピーチは、ユーザーの聴く権利と話す権利の両方があるため、保護されるべきであるということだ。 本稿では,本分析の概要について概説する。

Is the output of generative AI entitled to First Amendment protection? We're inclined to say yes. Even though current AI programs are of course not people and do not themselves have constitutional rights, their speech may potentially be protected because of the rights of the programs' creators. But beyond that, and likely more significantly, AI programs' speech should be protected because of the rights of their users-both the users' rights to listen and their rights to speak. In this short Article, we sketch the outlines of this analysis.
翻訳日:2023-08-21 18:45:57 公開日:2023-08-16
# skindistilvit: 皮膚病変分類のための軽量視覚トランスフォーマー

SkinDistilViT: Lightweight Vision Transformer for Skin Lesion Classification ( http://arxiv.org/abs/2308.08669v1 )

ライセンス: Link先を確認
Vlad-Constantin Lungu-Stan, Dumitru-Clementin Cercel, Florin Pop(参考訳) 皮膚がんは早期に発見された治療可能な疾患である。 専門家が注釈したメラノーマの医用画像にビジョントランスフォーマーを訓練することにより、メラノーマ識別におけるヒトのパフォーマンスと一致する皮膚がん分類問題に対する生産特異的ソリューションを提供する。 推論コストは,時間と記憶の両面で重要であるため,教師のバランスの取れたマルチクラスの精度の98.33%を,コストのごく一部で保持するモデルを得るために知識蒸留を用いる。 記憶面では、私たちのモデルは先生より49.60%小さい。 時間の面では、私たちのソリューションはGPUで69.25%、CPUで97.96%高速です。 変圧器の各レベルに分類ヘッドを付加し, キャスケーディング蒸留法を用いて, ベースモデルのバランスの取れたマルチクラス精度を2.1%向上させ, 各種サイズで同等性能のモデルを作成する。 コードはhttps://github.com/longman-stan/skindistilvitで提供します。

Skin cancer is a treatable disease if discovered early. We provide a production-specific solution to the skin cancer classification problem that matches human performance in melanoma identification by training a vision transformer on melanoma medical images annotated by experts. Since inference cost, both time and memory wise is important in practice, we employ knowledge distillation to obtain a model that retains 98.33% of the teacher's balanced multi-class accuracy, at a fraction of the cost. Memory-wise, our model is 49.60% smaller than the teacher. Time-wise, our solution is 69.25% faster on GPU and 97.96% faster on CPU. By adding classification heads at each level of the transformer and employing a cascading distillation process, we improve the balanced multi-class accuracy of the base model by 2.1%, while creating a range of models of various sizes but comparable performance. We provide the code at https://github.com/Longman-Stan/SkinDistilVit.
翻訳日:2023-08-21 18:45:49 公開日:2023-08-16
# BREATHE:2次勾配とヘテロセダスティックエミュレーションに基づく設計空間探索

BREATHE: Second-Order Gradients and Heteroscedastic Emulation based Design Space Exploration ( http://arxiv.org/abs/2308.08666v1 )

ライセンス: Link先を確認
Shikhar Tuli and Niraj K. Jha(参考訳) 研究者は、様々な科学的研究や物理実験において、より大きくより複雑な探索空間を常に探索しようと試みている。 しかし、このような調査には高度なシミュレータや時間を要する実験が含まれ、新しい設計サンプルの探索や観察が困難になることが多い。 このようなアプリケーションをターゲットにした以前の仕事は、典型的にはサンプル非効率であり、ベクトル探索空間に限定されている。 これらの制限に対処するため、本研究では、従来のベクタベースの設計空間だけでなく、グラフベースの設計空間も検索し、最もパフォーマンスの高いグラフを得るための制限付き多目的最適化(moo)フレームワークを提案する。 2階勾配を利用して、サンプル効率最適化のためのヘテロセダスティック・サロゲートモデルを積極的に訓練する。 単目的ベクトル最適化アプリケーションでは、次のベストベースラインであるランダムフォレスト回帰よりも64.1%高いパフォーマンスが得られる。 グラフベースのサーチでは、BREATHEは次の最良ベースライン、すなわちガウスプロセスベースのベイズ最適化のグラフィカルバージョンを最大64.9%性能で上回っている。 MOOタスクでは、最先端の手法である多目的ベイズ最適化(MOBOpt)よりも21.9$\times$高いハイパーボリュームを達成する。 また、ほとんどの標準MOOベンチマークアプリケーションでは、ベースラインメソッドよりも優れています。

Researchers constantly strive to explore larger and more complex search spaces in various scientific studies and physical experiments. However, such investigations often involve sophisticated simulators or time-consuming experiments that make exploring and observing new design samples challenging. Previous works that target such applications are typically sample-inefficient and restricted to vector search spaces. To address these limitations, this work proposes a constrained multi-objective optimization (MOO) framework, called BREATHE, that searches not only traditional vector-based design spaces but also graph-based design spaces to obtain best-performing graphs. It leverages second-order gradients and actively trains a heteroscedastic surrogate model for sample-efficient optimization. In a single-objective vector optimization application, it leads to 64.1% higher performance than the next-best baseline, random forest regression. In graph-based search, BREATHE outperforms the next-best baseline, i.e., a graphical version of Gaussian-process-based Bayesian optimization, with up to 64.9% higher performance. In a MOO task, it achieves up to 21.9$\times$ higher hypervolume than the state-of-the-art method, multi-objective Bayesian optimization (MOBOpt). BREATHE also outperforms the baseline methods on most standard MOO benchmark applications.
翻訳日:2023-08-21 18:45:31 公開日:2023-08-16
# 質問・回答・修正のデータベースによる曖昧な質問への回答

Answering Ambiguous Questions with a Database of Questions, Answers, and Revisions ( http://arxiv.org/abs/2308.08661v1 )

ライセンス: Link先を確認
Haitian Sun, William W. Cohen, Ruslan Salakhutdinov(参考訳) 多くのオープンドメインの質問は不特定であり、それゆえ複数の答えがあり、それぞれが異なる解釈の下で正しい。 このような曖昧な疑問に答えるには、複数の通路から多様な情報を検索し、推論する必要があるため、難しい。 我々は,wikipediaから生成された不明瞭な質問のデータベースを活用した,曖昧な質問に答える新たな最新技術を提案する。 難解なasqaベンチマークでは,複数の回答をあいまいな質問に要約する長文の回答を生成する必要があるが,本手法では,リコール対策では15%(相対的改善),予測結果から曖昧な質問を評価する尺度では10%改善する。 生成された質問のデータベースから取得することで、多様なパスの検索に大きな改善がもたらされる(ユーザ質問qと間接的に、pから生成された質問q'を介して)。

Many open-domain questions are under-specified and thus have multiple possible answers, each of which is correct under a different interpretation of the question. Answering such ambiguous questions is challenging, as it requires retrieving and then reasoning about diverse information from multiple passages. We present a new state-of-the-art for answering ambiguous questions that exploits a database of unambiguous questions generated from Wikipedia. On the challenging ASQA benchmark, which requires generating long-form answers that summarize the multiple answers to an ambiguous question, our method improves performance by 15% (relative improvement) on recall measures and 10% on measures which evaluate disambiguating questions from predicted outputs. Retrieving from the database of generated questions also gives large improvements in diverse passage retrieval (by matching user questions q to passages p indirectly, via questions q' generated from p).
翻訳日:2023-08-21 18:45:11 公開日:2023-08-16
# 粒状化Barrett食道診断のための大規模言語モデル

Large Language Models for Granularized Barrett's Esophagus Diagnosis Classification ( http://arxiv.org/abs/2308.08660v1 )

ライセンス: Link先を確認
Jenna Kefeli, Ali Soroush, Courtney J. Diamond, Haley M. Zylberberg, Benjamin May, Julian A. Abrams, Chunhua Weng, Nicholas Tatonetti(参考訳) 食道癌の前身であるbarrett's esophagus(be)の診断符号は,多くの研究例や臨床応用例において粒度や精度が欠如している。 BEの病態報告から重要な診断表現型を抽出するためには,手動図の精査が必要である。 本研究では,データ抽出を自動化する汎用トランスベース手法を開発した。 コロンビア大学アーヴィング医療センターの病理所見から胃腸科医を対象とし,二元性異形成症分類と多種be関連診断を施行した。 2つの臨床訓練済みの大規模言語モデルを使用し、同一データを用いた高度に調整されたルールベースシステムに匹敵する最高のモデル性能を示した。 バイナリジスプラシア抽出は0.964F1スコア、マルチクラスモデルは0.911F1スコアを達成する。 本手法は,ルールベースアプローチと比較して一般化し,実装が容易である。

Diagnostic codes for Barrett's esophagus (BE), a precursor to esophageal cancer, lack granularity and precision for many research or clinical use cases. Laborious manual chart review is required to extract key diagnostic phenotypes from BE pathology reports. We developed a generalizable transformer-based method to automate data extraction. Using pathology reports from Columbia University Irving Medical Center with gastroenterologist-annotated targets, we performed binary dysplasia classification as well as granularized multi-class BE-related diagnosis classification. We utilized two clinically pre-trained large language models, with best model performance comparable to a highly tailored rule-based system developed using the same data. Binary dysplasia extraction achieves 0.964 F1-score, while the multi-class model achieves 0.911 F1-score. Our method is generalizable and faster to implement as compared to a tailored rule-based approach.
翻訳日:2023-08-21 18:44:53 公開日:2023-08-16
# 暴力的な表情を識別するための新しいデータ駆動手法

A New Data-Driven Method to Identify Violent Facial Expression ( http://arxiv.org/abs/2308.08658v1 )

ライセンス: Link先を確認
Arindam Kumar Paul, Md Maruf Hasan, Md. Delwar Hosen(参考訳) 人間の表情は、人間の行動や意図を特定する上で重要な役割を果たす。 表情は任意の人の特定の行動を表し、いかなる人物の暴力的行動のパターンも地理的領域に大きく依存する。 ここでは,犯罪を犯す意図があるかどうかを検出する畳み込みニューラルネットワークを用いて,自動システムを設計した。 そこで本研究では,犯罪や暴力行為を行う前に,表情に関する非常に少ないデータを用いて犯罪を効果的に実行する前に,犯罪の意図や暴力行為を識別する手法を提案する。 時間のかかる欠陥のある方法である画像機能を使う代わりに、トレーニングのために正確な表情をキャプチャし、ターゲットの表情をより正確に予測する自動機能セレクタ畳み込みニューラルネットワークモデルを使用しました。 ここでは,地域全体の暴力的で犯罪前の顔パターンを表現できる,特定の地理的領域の顔データのみを用いた。

Human Facial Expressions plays an important role in identifying human actions or intention. Facial expressions can represent any specific action of any person and the pattern of violent behavior of any person strongly depends on the geographic region. Here we have designed an automated system by using a Convolutional Neural Network which can detect whether a person has any intention to commit any crime or not. Here we proposed a new method that can identify criminal intentions or violent behavior of any person before executing crimes more efficiently by using very little data on facial expressions before executing a crime or any violent tasks. Instead of using image features which is a time-consuming and faulty method we used an automated feature selector Convolutional Neural Network model which can capture exact facial expressions for training and then can predict that target facial expressions more accurately. Here we used only the facial data of a specific geographic region which can represent the violent and before-crime before-crime facial patterns of the people of the whole region.
翻訳日:2023-08-21 18:44:39 公開日:2023-08-16
# Flickr Africa:大規模で人間中心のビジュアルデータでジオ多様性を調べる

Flickr Africa: Examining Geo-Diversity in Large-Scale, Human-Centric Visual Data ( http://arxiv.org/abs/2308.08656v1 )

ライセンス: Link先を確認
Keziah Naggita, Julienne LaChance, Alice Xiang(参考訳) 大規模画像データセットのバイアスは、地理的文脈の関数としてのコンピュータビジョンモデルの性能に影響を与えることが知られている。 低所得国と中所得国における標準インターネットデータ収集手法の限界を調査するために,アフリカの各国に関連付けられた地理タグ付きflickr画像を用いて,人間中心の地理多様性を大規模に解析した。 我々は、欧州の人口マッチング国と比較したデータ量と内容、および国内富裕層推計によるデータ分布について報告する。 時間的分析は2年間隔で行われ、新しいデータトレンドを暴露する。 さらに,アフリカからの大量の画像が非地元写真家によって撮影されていることを裏付ける「他者」現象の発見を示す。 本研究の結果から,アフリカ人とその環境を代表する画像データを取得し,最終的にはグローバルコンテキストにおけるコンピュータビジョンモデルの適用性を向上させるために,さらなる作業が必要であることが示唆された。

Biases in large-scale image datasets are known to influence the performance of computer vision models as a function of geographic context. To investigate the limitations of standard Internet data collection methods in low- and middle-income countries, we analyze human-centric image geo-diversity on a massive scale using geotagged Flickr images associated with each nation in Africa. We report the quantity and content of available data with comparisons to population-matched nations in Europe as well as the distribution of data according to fine-grained intra-national wealth estimates. Temporal analyses are performed at two-year intervals to expose emerging data trends. Furthermore, we present findings for an ``othering'' phenomenon as evidenced by a substantial number of images from Africa being taken by non-local photographers. The results of our study suggest that further work is required to capture image data representative of African people and their environments and, ultimately, to improve the applicability of computer vision models in a global context.
翻訳日:2023-08-21 18:44:25 公開日:2023-08-16
# 非線形システムの地震応答評価のための物理情報リカレントニューラルネットワーク

Physics Informed Recurrent Neural Networks for Seismic Response Evaluation of Nonlinear Systems ( http://arxiv.org/abs/2308.08655v1 )

ライセンス: Link先を確認
Faisal Nissar Malik, James Ricles, Masoud Yari, Malik Arsala Nissar(参考訳) 構造工学における動的応答評価(英: dynamic response evaluation)とは、地震、風、衝撃などの動的負荷を受ける場合、部材力、ノードの変位などの構造物の応答を決定する過程である。 これは構造分析の重要な側面であり、極端な荷重条件下での構造性能を評価し、構造の設計と安全性に関するインフォームドな判断を可能にする。 従来の動的応答評価には有限要素解析(FEA)を用いた数値シミュレーションがあり、有限要素を用いて構造をモデル化し、運動方程式を数値的に解く。 効果的ではあるが、このアプローチは計算量が多く、リアルタイムアプリケーションには適さない可能性がある。 これらの制限に対処するため、最近の機械学習、特にニューラルネットワークの進歩は、構造工学における動的応答評価に応用されている。 これらの手法は大規模なデータセットと洗練されたアルゴリズムを利用して入力と出力の間の複雑な関係を学習し、そのような問題に最適である。 本稿では,物理インフォームドリカレントニューラルネットワークを用いた多自由度(mdof)システムの動的応答評価のための新しい手法を提案する。 本研究の目的は,非線形構造物の地震(地震)応答を評価することである。 予測された応答は、物理インフォームドRNNモデルの有効性を評価するためのFAAのような最先端の手法と比較される。

Dynamic response evaluation in structural engineering is the process of determining the response of a structure, such as member forces, node displacements, etc when subjected to dynamic loads such as earthquakes, wind, or impact. This is an important aspect of structural analysis, as it enables engineers to assess structural performance under extreme loading conditions and make informed decisions about the design and safety of the structure. Conventional methods for dynamic response evaluation involve numerical simulations using finite element analysis (FEA), where the structure is modeled using finite elements, and the equations of motion are solved numerically. Although effective, this approach can be computationally intensive and may not be suitable for real-time applications. To address these limitations, recent advancements in machine learning, specifically artificial neural networks, have been applied to dynamic response evaluation in structural engineering. These techniques leverage large data sets and sophisticated algorithms to learn the complex relationship between inputs and outputs, making them ideal for such problems. In this paper, a novel approach is proposed for evaluating the dynamic response of multi-degree-of-freedom (MDOF) systems using physics-informed recurrent neural networks. The focus of this paper is to evaluate the seismic (earthquake) response of nonlinear structures. The predicted response will be compared to state-of-the-art methods such as FEA to assess the efficacy of the physics-informed RNN model.
翻訳日:2023-08-21 18:44:10 公開日:2023-08-16
# Sparse Hyperspectral Abundance Predictionのためのカーネルヒルベルト空間の再生

Reproducing Kernel Hilbert Space Pruning for Sparse Hyperspectral Abundance Prediction ( http://arxiv.org/abs/2308.08653v1 )

ライセンス: Link先を確認
Michael G. Rawson, Timothy Doster, Tegan Emerson(参考訳) 長距離センサーからのハイパースペクトル測定は、シーン内のアイテム、材料、化学物質の詳細な画像を与えることができるが、最先端のセンサーの空間分解能やスペクトル分解能が高いため、分析は難しく、遅く、高価である。 そのため、スペクトル圧縮と分析の未来を可能にするために、空間性は重要である。 散乱を含む環境や大気の影響は、既存のソース分離や圧縮法に挑戦する非線形効果を生み出すことが観察されている。 非負の最小二乗化によるスパース表現の切断と構成のためのヒルベルト空間への新しい変換を提案する。 次に,情報損失を減らすために最大ラピッド圧縮ベクトルを導入する。 我々のアプローチは、標準的なプルーニングと最小二乗およびディープラーニング手法に対してベンチマークされている。 本手法は, 実データと合成データを用いて, 総合的なスペクトル再構成誤差と圧縮速度で評価する。 最小二乗法は一致する追従法と異なり急速に収束する。 ヒルベルト空間のプルーニングは、標準プルーニングの誤差の最大40%の誤差を低減し、ニューラルネットワークのオートエンコーダを上回る可能性がある。

Hyperspectral measurements from long range sensors can give a detailed picture of the items, materials, and chemicals in a scene but analysis can be difficult, slow, and expensive due to high spatial and spectral resolutions of state-of-the-art sensors. As such, sparsity is important to enable the future of spectral compression and analytics. It has been observed that environmental and atmospheric effects, including scattering, can produce nonlinear effects posing challenges for existing source separation and compression methods. We present a novel transformation into Hilbert spaces for pruning and constructing sparse representations via non-negative least squares minimization. Then we introduce max likelihood compression vectors to decrease information loss. Our approach is benchmarked against standard pruning and least squares as well as deep learning methods. Our methods are evaluated in terms of overall spectral reconstruction error and compression rate using real and synthetic data. We find that pruning least squares methods converge quickly unlike matching pursuit methods. We find that Hilbert space pruning can reduce error by as much as 40% of the error of standard pruning and also outperform neural network autoencoders.
翻訳日:2023-08-21 18:43:50 公開日:2023-08-16
# Quasi-) 能率を持つ部分観測可能なマルチエージェントRL:情報共有の祝福

Partially Observable Multi-agent RL with (Quasi-)Efficiency: The Blessing of Information Sharing ( http://arxiv.org/abs/2308.08705v1 )

ライセンス: Link先を確認
Xiangyu Liu, Kaiqing Zhang(参考訳) 証明可能なマルチエージェント強化学習(MARL)を部分的に観察可能な確率ゲーム(POSG)の一般的な枠組みで研究する。 既知の難易度結果と計算難解なオラクルの使用を回避するため,エージェント間でのemph{information-sharing}の可能性,実証的MARLにおける一般的な実践,コミュニケーションを伴うマルチエージェント制御システムの標準モデルを活用することを提唱する。 まず、POSGを解く際の計算効率を高めるために、情報共有の必要性を正当化する計算複雑性結果と、部分的な観測で準効率のシングルエージェントRLを実現した観測可能性の仮定を確立する。 次に、POSG の {approximate model} を構築するために共有共通情報を更に \emph{approximate} として提案し、上記の仮定の下で近似均衡(元の POSG の解法)を計画することは準効率、すなわち準多項式時間(quasi-polynomial-time)である。 さらに,統計学的および計算学的に準効率な部分可観測marlアルゴリズムを開発した。 我々は、サンプルと計算効率の良い部分観測可能なMARLの開発に、異なる 'emph{information structures} を活用、設計する可能性を開くことを願っている。

We study provable multi-agent reinforcement learning (MARL) in the general framework of partially observable stochastic games (POSGs). To circumvent the known hardness results and the use of computationally intractable oracles, we advocate leveraging the potential \emph{information-sharing} among agents, a common practice in empirical MARL, and a standard model for multi-agent control systems with communications. We first establish several computation complexity results to justify the necessity of information-sharing, as well as the observability assumption that has enabled quasi-efficient single-agent RL with partial observations, for computational efficiency in solving POSGs. We then propose to further \emph{approximate} the shared common information to construct an {approximate model} of the POSG, in which planning an approximate equilibrium (in terms of solving the original POSG) can be quasi-efficient, i.e., of quasi-polynomial-time, under the aforementioned assumptions. Furthermore, we develop a partially observable MARL algorithm that is both statistically and computationally quasi-efficient. We hope our study may open up the possibilities of leveraging and even designing different \emph{information structures}, for developing both sample- and computation-efficient partially observable MARL.
翻訳日:2023-08-21 18:34:27 公開日:2023-08-16
# 多粒度クロスドメインアライメントによる異常セグメンテーションの改善

Improving Anomaly Segmentation with Multi-Granularity Cross-Domain Alignment ( http://arxiv.org/abs/2308.08696v1 )

ライセンス: Link先を確認
Ji Zhang, Xiao Wu, Zhi-Qi Cheng, Qi He, Wei Li(参考訳) 異常セグメンテーションは、画像中の異常物体を識別する上で重要な役割を担い、自律運転のための道路異常の検出を容易にする。 既存の手法では, 合成訓練データを用いた異常分割の結果は印象的であるが, 合成訓練データと実際のテストデータとのドメイン間差異は無視されることが多い。 この問題を解決するために、複雑な運転環境における異常セグメンテーションのために、MGCDA(Multi-Granularity Cross-Domain Alignment)フレームワークを提案する。 新しいMDAT(Multi-source Domain Adversarial Training)モジュールと新しいクロスドメイン異常認識コントラスト学習(CACL)メソッドを組み合わせることで、モデルの汎用性を向上し、シーンレベルとサンプルレベルのマルチドメインデータをシームレスに統合する。 MDATモジュールには,複数段階にわたる対戦トレーニングを通じて,シーンレベルでのドメイン不変な特徴の獲得を容易にするため,マルチソースドメインの反転損失と動的ラベル平滑化戦略が組み込まれている。 caclはクロスドメインデータにおけるサンプルレベルの表現と対照的な損失を整合させ、異常対応のサンプリング戦略を利用して、ハードサンプルとアンカーを効率的にサンプリングする。 提案フレームワークは推論段階でパラメータフリーの適度な特性を持ち、他の異常セグメンテーションネットワークと互換性がある。 FishyscapesとRoadAnomalyのデータセットでの実験により、提案したフレームワークが最先端のパフォーマンスを達成することを示した。

Anomaly segmentation plays a crucial role in identifying anomalous objects within images, which facilitates the detection of road anomalies for autonomous driving. Although existing methods have shown impressive results in anomaly segmentation using synthetic training data, the domain discrepancies between synthetic training data and real test data are often neglected. To address this issue, the Multi-Granularity Cross-Domain Alignment (MGCDA) framework is proposed for anomaly segmentation in complex driving environments. It uniquely combines a new Multi-source Domain Adversarial Training (MDAT) module and a novel Cross-domain Anomaly-aware Contrastive Learning (CACL) method to boost the generality of the model, seamlessly integrating multi-domain data at both scene and sample levels. Multi-source domain adversarial loss and a dynamic label smoothing strategy are integrated into the MDAT module to facilitate the acquisition of domain-invariant features at the scene level, through adversarial training across multiple stages. CACL aligns sample-level representations with contrastive loss on cross-domain data, which utilizes an anomaly-aware sampling strategy to efficiently sample hard samples and anchors. The proposed framework has decent properties of parameter-free during the inference stage and is compatible with other anomaly segmentation networks. Experimental conducted on Fishyscapes and RoadAnomaly datasets demonstrate that the proposed framework achieves state-of-the-art performance.
翻訳日:2023-08-21 18:34:01 公開日:2023-08-16
# 想像のプランニング:学習した抽象検索空間の高レベルプランニング

Planning in the imagination: High-level planning on learned abstract search spaces ( http://arxiv.org/abs/2308.08693v1 )

ライセンス: Link先を確認
Carlos Martin, Tuomas Sandholm(参考訳) 本稿では,エージェントに対して,実環境から完全に切り離された,自己生成の抽象的な探索空間を計画する能力を与える,pizeroと呼ばれる新しい手法を提案する。 従来の手法とは異なり、エージェントは任意の時間スケールでハイレベルな計画を実行でき、複合的あるいは時間的に拡張されたアクションの観点からは、関連するマクロアクションを実行するために多数のベースレベルのマイクロアクションを必要とする環境において有用である。 さらに,本手法は連続的な動作空間と部分的可観測性を備えた設定を扱うため,従来の手法よりも一般的である。 本手法はナビゲーションタスクやソコバンを含む複数のドメインで評価する。 実験的に、環境シミュレータへのアクセスを前提とせずに、同等の先行メソッドより優れている。

We propose a new method, called PiZero, that gives an agent the ability to plan in an abstract search space of its own creation that is completely decoupled from the real environment. Unlike prior approaches, this enables the agent to perform high-level planning at arbitrary timescales and reason in terms of compound or temporally-extended actions, which can be useful in environments where large numbers of base-level micro-actions are needed to perform relevant macro-actions. In addition, our method is more general than comparable prior methods because it handles settings with continuous action spaces and partial observability. We evaluate our method on multiple domains, including navigation tasks and Sokoban. Experimentally, it outperforms comparable prior methods without assuming access to an environment simulator.
翻訳日:2023-08-21 18:33:34 公開日:2023-08-16
# 複合パルス量子誤差低減のための相関しきい値

Correlation thresholds for effective composite pulse quantum error mitigation ( http://arxiv.org/abs/2308.08691v1 )

ライセンス: Link先を確認
Ido Kaplan, Haim Suchowski, and Yaron Oz(参考訳) 複合パルスセグメンテーションは、幅広い物理システムにおいて有望な誤差軽減手法として登場した。 近年、複合スキームは量子情報処理や量子コンピューティングの緩和戦略として応用されている。 しかし,これらの戦略の多くはセグメント間の完全誤差相関を前提としており,非コンポジットゲートに比べて忠実度が低下する可能性がある。 本研究では,複合セグメンテーションフレームワークにおける誤差相関が量子ゲートの忠実性に与える影響について検討する。 本研究では, 複合パルス法が精度の平均値と分散値の両方を大幅に向上させる臨界相関しきい値の存在を実証する。 より深い洞察を得るため,積分フォトニクス領域におけるしきい値の様々な特性を解析し,幾何学的変動の影響やセグメント数が無限大に近づく限界などを検討した。 我々は,photonic quantum gatesフレームワークにおける臨界しきい値の異なる側面を示す,多様なシナリオを数値的に検討する。 これらの知見は、誤り緩和戦略の新たな経路と量子情報処理におけるその意義に寄与する。

Composite pulse segmentation has emerged as a promising error mitigation technique for a wide range of physical systems. In recent years, composite schemes were applied as mitigation strategies for quantum information processing and quantum computing. However, most of these strategies assume full error correlation between segments, which can result in gates with worse fidelity performance compared to non-composite gates. In our research, we investigate how error correlations impact the fidelity of quantum gates within the composite segmentation framework. In our study, we prove the existence of a critical correlation threshold, above which the composite pulse method significantly enhances both the mean value and variance of the fidelity. To gain deeper insights, we analyze various properties of the threshold in the realm of integrated photonics, including the effects of geometrical variations and the limit where the number of segments approaches infinity. We numerically explore diverse scenarios, showcasing different aspects of the critical threshold within the photonic quantum gates framework. These findings contribute open new pathways of error mitigation strategies and their implications in quantum information processing.
翻訳日:2023-08-21 18:33:21 公開日:2023-08-16
# 部分空間埋め込みによるニューラルネットワークモデルの軽量適応

Lightweight Adaptation of Neural Language Models via Subspace Embedding ( http://arxiv.org/abs/2308.08688v1 )

ライセンス: Link先を確認
Amit Kumar Jaiswal, Haiming Liu(参考訳) 伝統的なニューラルワードの埋め込みは通常、語彙の多様性に依存する。 しかし、言語モデルは、特に、一般的に学習パラメータの大部分をカバーする多言語モデルにおいて、単語埋め込みパラメータを介して主要な語彙をカバーしている。 本稿では,事前学習した言語モデルのメモリフットプリントを最大4%の絶対精度で削減する,新しいコンパクト組込み構造を提案する。 埋め込みベクトルの再構成は、事前訓練された言語モデルからのトークン間のコンテキスト関係によるサブスペース埋め込みと代入手順のセットに従う。 部分空間埋め込み構造はマスキング言語モデルに適合し,類似性や文の包含タスク,文およびパラフレーズタスクに関するコンパクト組込み構造を評価する。 実験により,XNLI および GLUE ベンチマークスイートにおける言語モデルのオリジナルの埋め込みと比較して,部分空間の埋め込みが99.8%を超える圧縮率を達成することが示された。

Traditional neural word embeddings are usually dependent on a richer diversity of vocabulary. However, the language models recline to cover major vocabularies via the word embedding parameters, in particular, for multilingual language models that generally cover a significant part of their overall learning parameters. In this work, we present a new compact embedding structure to reduce the memory footprint of the pre-trained language models with a sacrifice of up to 4% absolute accuracy. The embeddings vectors reconstruction follows a set of subspace embeddings and an assignment procedure via the contextual relationship among tokens from pre-trained language models. The subspace embedding structure calibrates to masked language models, to evaluate our compact embedding structure on similarity and textual entailment tasks, sentence and paraphrase tasks. Our experimental evaluation shows that the subspace embeddings achieve compression rates beyond 99.8% in comparison with the original embeddings for the language models on XNLI and GLUE benchmark suites.
翻訳日:2023-08-21 18:33:04 公開日:2023-08-16
# Atom-by-atomタンパク質生成と言語モデル

Atom-by-atom protein generation and beyond with language models ( http://arxiv.org/abs/2308.09482v1 )

ライセンス: Link先を確認
Daniel Flam-Shepherd, Kevin Zhu and Al\'an Aspuru-Guzik(参考訳) タンパク質言語モデルはアミノ酸の配列から直接強力な表現を学ぶ。 しかし、それらはその語彙で表されるアミノ酸の組のみを持つタンパク質の生成に制限されている。 対照的に、化学言語モデルは全ての原子、結合、環を含むより小さな分子の原子レベルの表現を学ぶ。 本研究では, 化学言語モデルを用いて, 標準遺伝子コードに拘束されないタンパク質生成を可能にするタンパク質の原子レベルの表現を学習できることを示す。 その過程で、言語モデルが原子単位でタンパク質全体を生成できることを示し、その一次配列から二次構造、三次構造までタンパク質を定義する分子情報の複数の階層層を効果的に学習する。言語モデルがタンパク質空間を超えて探索できることを実証する。不自然なアミノ酸を形成する側鎖が修飾されたタンパク質を生成する。 さらに、言語モデルでは、化学空間とタンパク質空間を同時に探索し、タンパク質ドラッグ共役体の新しい例を生成することができる。 その結果, 言語モデルを用いた生体分子設計の可能性を示した。

Protein language models learn powerful representations directly from sequences of amino acids. However, they are constrained to generate proteins with only the set of amino acids represented in their vocabulary. In contrast, chemical language models learn atom-level representations of smaller molecules that include every atom, bond, and ring. In this work, we show that chemical language models can learn atom-level representations of proteins enabling protein generation unconstrained to the standard genetic code and far beyond it. In doing so, we show that language models can generate entire proteins atom by atom -- effectively learning the multiple hierarchical layers of molecular information that define proteins from their primary sequence to their secondary, and tertiary structure. We demonstrate language models are able to explore beyond protein space -- generating proteins with modified sidechains that form unnatural amino acids. Even further, we find that language models can explore chemical space and protein space simultaneously and generate novel examples of protein-drug conjugates. The results demonstrate the potential for biomolecular design at the atom level using language models.
翻訳日:2023-08-21 13:29:30 公開日:2023-08-16
# 重力理論の確率論的デコンストラクション,その1:平坦空間

Probabilistic deconstruction of a theory of gravity, Part I: flat space ( http://arxiv.org/abs/2108.10916v3 )

ライセンス: Link先を確認
S. Josephine Suh(参考訳) 境界の量子力学によって誘導される反ド・ジッター・ジャッキー・タイテルボイム重力の確率過程を定義し,解析し,その確率変数は$AdS_2$で値を取る。 熱状態の境界と適切なパラメータについて、短い時間スケールと平坦空間における量子過程の漸近極限をとり、関連する古典的ジョイント分布がマルコフ特性を持つことを示す。 アインシュタインの理論の方程式は、宇宙定数項に反し、漸近過程の下での確率の量子進化の半古典的極限に現れる。 特に平坦なジャッキー・テイテルボイム重力では、アインシュタイン方程式によって解かれたコンパクト化された空間の面積はマルコフ過程の下で進化する確率密度として同定できる。

We define and analyze a stochastic process in anti-de Sitter Jackiw-Teitelboim gravity, induced by the quantum dynamics of the boundary and whose random variable takes values in $AdS_2$. With the boundary in a thermal state and for appropriate parameters, we take the asymptotic limit of the quantum process at short time scales and flat space, and show associated classical joint distributions have the Markov property. We find that Einstein's equations of the theory, sans the cosmological constant term, arise in the semi-classical limit of the quantum evolution of probability under the asymptotic process. In particular, in flat Jackiw-Teitelboim gravity, the area of compactified space solved for by Einstein's equations can be identified as a probability density evolving under the Markovian process.
翻訳日:2023-08-17 18:18:52 公開日:2023-08-16
# STS-GAN: 任意2次元実験から高忠実度固形集合体を合成できるか?

STS-GAN: Can We Synthesize Solid Texture with High Fidelity from Arbitrary 2D Exemplar? ( http://arxiv.org/abs/2102.03973v7 )

ライセンス: Link先を確認
Xin Zhao, Jifeng Guo, Lin Wang, Fanqi Li, Jiahao Li, Junteng Zheng and Bo Yang(参考訳) 立体テクスチャ合成(STS)は、2次元の例を3次元のソリッドボリュームに拡張する効果的な方法であり、計算写真の優位性を示す。 しかし、既存の手法では、任意のテクスチャを正確に学習できないため、高い忠実度で固形テクスチャを合成できない可能性がある。 本稿では,与えられた2次元外形を任意の3次元立体テクスチャに拡張する,新しい生成的逆さまnets-based framework(sts-gan)を提案する。 STS-GANにおいて、マルチスケール2次元テクスチャ識別器は、3次元テクスチャから得られた2次元の例とスライスとの類似性を評価し、現実的な立体テクスチャを合成する3次元テクスチャ生成装置を推進した。 最後に, 提案手法により, 視覚特性の類似した高忠実度固形テクスチャを生成できることを示す。

Solid texture synthesis (STS), an effective way to extend a 2D exemplar to a 3D solid volume, exhibits advantages in computational photography. However, existing methods generally fail to accurately learn arbitrary textures, which may result in the failure to synthesize solid textures with high fidelity. In this paper, we propose a novel generative adversarial nets-based framework (STS-GAN) to extend the given 2D exemplar to arbitrary 3D solid textures. In STS-GAN, multi-scale 2D texture discriminators evaluate the similarity between the given 2D exemplar and slices from the generated 3D texture, promoting the 3D texture generator synthesizing realistic solid textures. Finally, experiments demonstrate that the proposed method can generate high-fidelity solid textures with similar visual characteristics to the 2D exemplar.
翻訳日:2023-08-17 18:18:09 公開日:2023-08-16
# hgcn-gjs: 追跡予測のためのグループワイズジョイントサンプリングを用いた階層型グラフ畳み込みネットワーク

HGCN-GJS: Hierarchical Graph Convolutional Network with Groupwise Joint Sampling for Trajectory Prediction ( http://arxiv.org/abs/2009.07140v2 )

ライセンス: Link先を確認
Yuying Chen, Congcong Liu, Xiaodong Mei, Bertram E. Shi and Ming Liu(参考訳) 正確な歩行者軌道予測は、自動運転や移動ロボットナビゲーションといった下流作業において非常に重要である。 群衆内の社会的相互作用を完全に調査することは、正確な歩行者軌道予測に不可欠である。 しかし、既存の手法の多くはグループレベルの相互作用をうまく捉えておらず、ペア的な相互作用とグループ的な相互作用を無視することだけに焦点を当てている。 本研究では,集団間のグループレベルの相互作用をうまく活用する軌道予測のための階層型グラフ畳み込みネットワークHGCN-GJSを提案する。 さらに,今後,複数の歩行者の関節分布をモデル化するための新しい共同サンプリング手法を提案する。 グループ情報に基づいて、このスキームは、ある人の軌跡とグループ内の他の人々の軌跡を関連付けるが、外部者の軌跡の独立性を維持する。 我々は,複数の軌道予測データセット上でのネットワークの性能を実証し,検討した全データセットの最新の結果を得る。

Accurate pedestrian trajectory prediction is of great importance for downstream tasks such as autonomous driving and mobile robot navigation. Fully investigating the social interactions within the crowd is crucial for accurate pedestrian trajectory prediction. However, most existing methods do not capture group level interactions well, focusing only on pairwise interactions and neglecting group-wise interactions. In this work, we propose a hierarchical graph convolutional network, HGCN-GJS, for trajectory prediction which well leverages group level interactions within the crowd. Furthermore, we introduce a novel joint sampling scheme for modeling the joint distribution of multiple pedestrians in the future trajectories. Based on the group information, this scheme associates the trajectory of one person with the trajectory of other people in the group, but maintains the independence of the trajectories of outsiders. We demonstrate the performance of our network on several trajectory prediction datasets, achieving state-of-the-art results on all datasets considered.
翻訳日:2023-08-17 18:17:48 公開日:2023-08-16
# n体問題における量子参照フレームの切り換えとグローバルリレーショナル・パースペクティブの欠如

Switching quantum reference frames in the N-body problem and the absence of global relational perspectives ( http://arxiv.org/abs/1809.05093v3 )

ライセンス: Link先を確認
Augustin Vanrietvelde, Philipp A. Hoehn and Flaminia Giacomini(参考訳) 量子参照フレーム(QRF)が量子物理学と重力物理学の両方において重要であることを考えると、どちらの分野でも有効なQRFの異なる選択に対して物理学の記述を切り替える体系的な方法を開発することが重要となる。 ここでは、arxiv:1809.00556で始まったそのような統一的なアプローチを継続する。 ゲージ関係の冗長性のおかげで、この構造は全てのフレーム選択を同時に含み、フレーム視点を一貫した切り替えが可能なパースペクティブニュートラル構造へと導かれる。 制約系の言語で定式化され、パースペクティブニュートラル構造は古典的に制約曲面であり、ディラック量子化理論におけるゲージ不変ヒルベルト空間である。 対照的に、特定のフレームに対する視点はゲージの選択と関連する還元位相とヒルベルト空間に対応する。 これにより、QRFの変化はゲージ変換となる。 量子座標変化」という形をとることを示す。 これを一般的な力学モデル、すなわち回転対称性と変換対称性を持つ3次元空間における関係 $n$-body 問題で説明する。 このモデルはグリボフ問題に特化しており、グローバルに有効なゲージ固定条件、従って関係フレームの視点が欠如しているため、特に興味深い。 制約面は位相的に非自明であり、3次元、5次元、および6次元のゲージ軌道によって浮き彫りになっている。 n$-body問題はまた、ディラック可観測性の標準共役対をグローバルに有効なものとは認めない。 これらの課題にもかかわらず、3体問題に対するQRF変換をどのように構築できるかを示す。 我々はまた、ディラックの一般的不等式に新たな光を当て、QRF視点との相互作用を通じて量子化を減らした。

Given the importance of quantum reference frames (QRFs) to both quantum and gravitational physics, it is pertinent to develop a systematic method for switching between the descriptions of physics relative to different choices of QRFs, which is valid in both fields. Here we continue with such a unifying approach, begun in arxiv:1809.00556, whose key ingredient is a symmetry principle, which enforces physics to be relational. Thanks to gauge related redundancies, this leads to a perspective-neutral structure which contains all frame choices at once and via which frame perspectives can be consistently switched. Formulated in the language of constrained systems, the perspective-neutral structure is the constraint surface classically and the gauge invariant Hilbert space in the Dirac quantized theory. By contrast, a perspective relative to a specific frame corresponds to a gauge choice and the associated reduced phase and Hilbert space. QRF changes thus amount to a gauge transformation. We show that they take the form of `quantum coordinate changes'. We illustrate this in a general mechanical model, namely the relational $N$-body problem in 3D space with rotational and translational symmetry. This model is especially interesting because it features the Gribov problem so that globally valid gauge fixing conditions, and hence relational frame perspectives, are absent. The constraint surface is topologically non-trivial and foliated by 3-, 5- and 6-dimensional gauge orbits, where the lower dimensional orbits are a set of measure zero. The $N$-body problem also does not admit globally valid canonically conjugate pairs of Dirac observables. These challenges notwithstanding, we exhibit how one can construct the QRF transformations for the 3-body problem. Our construction also sheds new light on the generic inequivalence of Dirac and reduced quantization through its interplay with QRF perspectives.
翻訳日:2023-08-17 18:17:30 公開日:2023-08-16
# 空中LiDARデータを用いた2次元および3次元ビルディングマッピングのための教師なしオープンソースワークフロー

An unsupervised, open-source workflow for 2D and 3D building mapping from airborne LiDAR data ( http://arxiv.org/abs/2205.14585v3 )

ライセンス: Link先を確認
Hunsoo Song, Jinha Jung(参考訳) 高品質で大規模なビルディングマップの需要は大きいが、2Dと3Dマップを生成するためのオープンソースのワークフローは存在しない。 本研究では,空中LiDARデータを利用した大規模2次元3次元ビルディングマッピングのためのオープンソースワークフローを提案する。 ユニークなことに、私たちのワークフローは完全に教師なしで動作し、トレーニング手順は不要です。 DTM生成アルゴリズムをワークフローに統合し、特に高速道路や高架道路などの複雑な都市景観におけるエラーを防止する。 LiDAR点雲の微視的ラスタ化により,建築木分化,水域付近の誤差の低減,新しい平面計算の導入による計算効率の向上を実現した。 我々のワークフローは、生のLiDARデータからラスタライズされた2Dおよび3Dビルディングマップを大量生産するための実用的でスケーラブルなソリューションを提供する。 また,パラメータや潜在的なエラー源の影響について詳しく検討し,ユーザに対して実用的なガイダンスを提供する。 提案手法のロバスト性は,広範囲なデータセット(>550 km$^2$)を用いて厳密に最適化され,さらに深層学習および手指による製品との比較により検証されている。 特に、これらの非並列で大規模な比較を通じて、異なる手法を用いて生成された大規模建築地図の貴重な分析を行い、それぞれの手法の有効性を洞察的に評価する。 我々の高度にスケーラブルなビルディングマッピングワークフローは、信頼性の高い2Dおよび3Dビルディングマップの作成を容易にし、大規模都市分析の進歩を促進することを期待する。 コードは公開時にリリースされる。

Despite the substantial demand for high-quality, large-area building maps, no established open-source workflow for generating 2D and 3D maps currently exists. This study introduces an automated, open-source workflow for large-scale 2D and 3D building mapping utilizing airborne LiDAR data. Uniquely, our workflow operates entirely unsupervised, eliminating the need for any training procedures. We have integrated a specifically tailored DTM generation algorithm into our workflow to prevent errors in complex urban landscapes, especially around highways and overpasses. Through fine rasterization of LiDAR point clouds, we've enhanced building-tree differentiation, reduced errors near water bodies, and augmented computational efficiency by introducing a new planarity calculation. Our workflow offers a practical and scalable solution for the mass production of rasterized 2D and 3D building maps from raw airborne LiDAR data. Also, we elaborate on the influence of parameters and potential error sources to provide users with practical guidance. Our method's robustness has been rigorously optimized and tested using an extensive dataset (> 550 km$^2$), and further validated through comparison with deep learning-based and hand-digitized products. Notably, through these unparalleled, large-scale comparisons, we offer a valuable analysis of large-scale building maps generated via different methodologies, providing insightful evaluations of the effectiveness of each approach. We anticipate that our highly scalable building mapping workflow will facilitate the production of reliable 2D and 3D building maps, fostering advances in large-scale urban analysis. The code will be released upon publication.
翻訳日:2023-08-17 18:14:18 公開日:2023-08-16
# エルゴード量子力学を用いたベンチマーク量子シミュレータ

Benchmarking Quantum Simulators using Ergodic Quantum Dynamics ( http://arxiv.org/abs/2205.12211v2 )

ライセンス: Link先を確認
Daniel K. Mark, Joonhee Choi, Adam L. Shaw, Manuel Endres and Soonwon Choi(参考訳) 高度な時空間制御を必要とせず, 幅広い種類のアナログ量子シミュレータに適用可能な, 試作した状態と理想目標状態との忠実度を推定するサンプル効率の高いプロトコルを提案し, 解析した。 本手法は,ジェネリックハミルトニアンダイナミクスから新たに発見された普遍的揺らぎを利用して,状態生成や量子進化,読み出し能力に対する微調整制御は必要としない。 理想的な場合では、システムサイズに依存しない$\sim 10^3$の測定でパーセントレベルの精度が得られる。 さらに, システムサイズの増加に伴い, 忠実度推定の精度が向上する。 我々は,光学格子上のイテナント粒子,トラップイオン,ライドバーグ原子など,様々な量子シミュレータプラットフォームに対するプロトコルを数値的に実証する。 本稿では,量子状態やプロセスのマルチパラメータ推定など,高度なタスクに対するさらなる応用について述べる。

We propose and analyze a sample-efficient protocol to estimate the fidelity between an experimentally prepared state and an ideal target state, applicable to a wide class of analog quantum simulators without advanced sophisticated spatiotemporal control. Our approach utilizes newly discovered universal fluctuations emerging from generic Hamiltonian dynamics, and it does not require any fine-tuned control over state preparation, quantum evolution, or readout capability. It only needs a small number of experimental measurements, achieving near optimal sample complexity: in ideal cases, a percent-level precision is obtained with $\sim 10^3$ measurements independent of system size. Furthermore, the accuracy of our fidelity estimation improves with increasing system size. We numerically demonstrate our protocol for a variety of quantum simulator platforms such as itinerant particles on optical lattices, trapped ions, and Rydberg atoms. We discuss further applications of our method for advanced tasks such as multi-parameter estimation of quantum states and processes.
翻訳日:2023-08-17 18:13:51 公開日:2023-08-16
# 適応スプリットフュージョン変換器

Adaptive Split-Fusion Transformer ( http://arxiv.org/abs/2204.12196v2 )

ライセンス: Link先を確認
Zixuan Su, Hao Zhang, Jingjing Chen, Lei Pang, Chong-Wah Ngo, Yu-Gang Jiang(参考訳) 視覚的コンテンツ理解のためのニューラルネットワークは、近年、畳み込み(CNN)からトランスフォーマーへと進化している。 前者(CNN)は、局所的な表現力を示すために、小さなウィンドウを持つカーネルに依存している。 逆に、後者(トランスフォーマー)は、全体学習のための地域間の長距離グローバルな接続を確立する。 この相補的な性質に触発されて、各テクニックを最大限活用するためのハイブリッドモデルの設計に関心が高まっている。 現在のハイブリッドは、単に線形射影の単純な近似として畳み込みを置き換えるか、局所/グローバルモデリングの重要性を気にせずに畳み込み分岐に注意を向けるだけである。 そこで本研究では,ASF-former (Adaptive Split-Fusion Transformer) というハイブリッドシステムを提案する。 特に、asf-formerエンコーダは、機能チャネルを半分割してデュアルパス入力に適合させる。 そして、視覚手がかりから算出した重み付きスカラーでデュアルパスの出力を融合する。 また,効率性を考慮した畳み込み経路をコンパクトに設計する。 imagenet-1k、cifar-10、cifar-100などの標準ベンチマークに関する広範囲な実験により、我々のasf-formerは、cnn、transformer、ハイブリッドパイロットよりも精度で優れている(imagenet-1kでは83.9%)。 コードはhttps://github.com/szx5045266/asf-formerで入手できる。

Neural networks for visual content understanding have recently evolved from convolutional ones (CNNs) to transformers. The prior (CNN) relies on small-windowed kernels to capture the regional clues, demonstrating solid local expressiveness. On the contrary, the latter (transformer) establishes long-range global connections between localities for holistic learning. Inspired by this complementary nature, there is a growing interest in designing hybrid models to best utilize each technique. Current hybrids merely replace convolutions as simple approximations of linear projection or juxtapose a convolution branch with attention, without concerning the importance of local/global modeling. To tackle this, we propose a new hybrid named Adaptive Split-Fusion Transformer (ASF-former) to treat convolutional and attention branches differently with adaptive weights. Specifically, an ASF-former encoder equally splits feature channels into half to fit dual-path inputs. Then, the outputs of dual-path are fused with weighting scalars calculated from visual cues. We also design the convolutional path compactly for efficiency concerns. Extensive experiments on standard benchmarks, such as ImageNet-1K, CIFAR-10, and CIFAR-100, show that our ASF-former outperforms its CNN, transformer counterparts, and hybrid pilots in terms of accuracy (83.9% on ImageNet-1K), under similar conditions (12.9G MACs/56.7M Params, without large-scale pre-training). The code is available at: https://github.com/szx503045266/ASF-former.
翻訳日:2023-08-17 18:13:27 公開日:2023-08-16
# フロッケ系における多体局在の安定性

Stability of many-body localization in Floquet systems ( http://arxiv.org/abs/2203.15697v4 )

ライセンス: Link先を確認
Piotr Sierant, Maciej Lewenstein, Antonello Scardicchio, Jakub Zakrzewski(参考訳) 多項式フィルタ完全対角化法 (POLFED) アルゴリズムを用いて, フラケット系の多体局在(MBL)遷移について検討した。 MBL遷移における有限サイズ効果は、MBLの文脈で広く研究されているランダムフィールドXXZスピンチェーンよりも深刻でないことを定量的に示す。 我々の結論は、他の乱れたフロッケモデルにも拡張され、通常見なされる乱れた自律スピン鎖よりも小さい有限サイズの効果を示す。 蹴りイジングモデルにおけるエルゴディシティ破壊の指標として,mbl相への遷移の一貫したシグネチャを観察した。 さらに,mbl遷移における相関長のパワーロー発散を仮定すると,1次元不規則系に対するharris基準と一致し,臨界指数である$\nu \approx 2$ が得られることを示した。

We study many-body localization (MBL) transition in disordered Floquet systems using a polynomially filtered exact diagonalization (POLFED) algorithm. We focus on disordered kicked Ising model and quantitatively demonstrate that finite size effects at the MBL transition are less severe than in the random field XXZ spin chains widely studied in the context of MBL. Our conclusions extend also to other disordered Floquet models, indicating smaller finite size effects than those observed in the usually considered disordered autonomous spin chains. We observe consistent signatures of the transition to MBL phase for several indicators of ergodicity breaking in the kicked Ising model. Moreover, we show that an assumption of a power-law divergence of the correlation length at the MBL transition yields a critical exponent $\nu \approx 2$, consistent with the Harris criterion for 1D disordered systems.
翻訳日:2023-08-17 18:12:58 公開日:2023-08-16
# 組合せ最適化のための認証対称性と支配破壊

Certified Symmetry and Dominance Breaking for Combinatorial Optimisation ( http://arxiv.org/abs/2203.12275v3 )

ライセンス: Link先を確認
Bart Bogaerts, Stephan Gocht, Ciaran McCreesh, Jakob Nordstr\"om(参考訳) 対称性と支配的破壊は、厳密な組合せ探索と最適化問題を解決するために重要であるが、これらの手法の正しさは微妙な議論に依存することがある。 このため、解が正しく計算された効率的な機械検証証明書を作成することが望ましい。 切削面証明システムに基づいて,対称性と支配的破壊が容易に表現可能な最適化問題に対する認証手法を開発した。 実験により, ブール充足可能性 (SAT) の解法において, 完全一般対称性の破れを効果的に検証できることが確認された。 さらに,本手法を,より広範な組合せ問題に適用できるという概念実証として,最大傾き解法と制約プログラミングに適用する。

Symmetry and dominance breaking can be crucial for solving hard combinatorial search and optimisation problems, but the correctness of these techniques sometimes relies on subtle arguments. For this reason, it is desirable to produce efficient, machine-verifiable certificates that solutions have been computed correctly. Building on the cutting planes proof system, we develop a certification method for optimisation problems in which symmetry and dominance breaking are easily expressible. Our experimental evaluation demonstrates that we can efficiently verify fully general symmetry breaking in Boolean satisfiability (SAT) solving, thus providing, for the first time, a unified method to certify a range of advanced SAT techniques that also includes XOR and cardinality reasoning. In addition, we apply our method to maximum clique solving and constraint programming as a proof of concept that the approach applies to a wider range of combinatorial problems.
翻訳日:2023-08-17 18:12:44 公開日:2023-08-16
# Hilbert Simplex Geometryにおける非線形埋め込み

Non-linear Embeddings in Hilbert Simplex Geometry ( http://arxiv.org/abs/2203.11434v3 )

ライセンス: Link先を確認
Frank Nielsen and Ke Sun(参考訳) 機械学習とコンピュータビジョンの重要なテクニックは、さらに下流処理のために離散重み付きグラフを連続空間に埋め込むことである。 双曲幾何学に離散階層構造を埋め込むことは、任意の低歪みを持つ重み付き木をその幾何学に埋め込むことが示され、非常に成功した。 双曲幾何学の共通モデルに基づく双曲埋め込みの様々な最適化手法が研究されている。 本稿では、変分ポリトープノルムを備えたベクトル空間に等尺な標準単純集合に対してヒルベルト幾何学を考える。 グラフの距離行列の埋め込みによるヒルベルト単純幾何学の表現力について検討する。 以上の結果から,ヒルベルトの単純幾何幾何学はポアンカーの双曲球やユークリッド幾何学のような代替幾何学と競合し,高速かつ数値的に頑健であることを示す。

A key technique of machine learning and computer vision is to embed discrete weighted graphs into continuous spaces for further downstream processing. Embedding discrete hierarchical structures in hyperbolic geometry has proven very successful since it was shown that any weighted tree can be embedded in that geometry with arbitrary low distortion. Various optimization methods for hyperbolic embeddings based on common models of hyperbolic geometry have been studied. In this paper, we consider Hilbert geometry for the standard simplex which is isometric to a vector space equipped with the variation polytope norm. We study the representation power of this Hilbert simplex geometry by embedding distance matrices of graphs. Our findings demonstrate that Hilbert simplex geometry is competitive to alternative geometries such as the Poincar\'e hyperbolic ball or the Euclidean geometry for embedding tasks while being fast and numerically robust.
翻訳日:2023-08-17 18:12:27 公開日:2023-08-16
# 都市鉄道交通システムにおける休日短期旅客流量予測のための空間-時間間注意融合ネットワーク

Spatial-Temporal Attention Fusion Network for short-term passenger flow prediction on holidays in urban rail transit systems ( http://arxiv.org/abs/2203.00007v4 )

ライセンス: Link先を確認
Shuxin Zhang, Jinlei Zhang, Lixing Yang, Jiateng Yin, Ziyou Gao(参考訳) 都市鉄道交通システムの短期的な旅客流量予測は、交通運用と管理において非常に重要である。 新たなディープラーニングベースのモデルは、予測精度を改善する効果的な方法を提供する。 しかし、既存のモデルの多くは平日や週末の乗客の移動を主に予測している。 ホリデーシーズンの乗客フロー予測に注目する研究は少ないが、急激で不規則なため、交通管理にとって非常に困難な課題である。 そこで本研究では,新しいマルチグラフアテンションネットワーク,convアテンションブロック,特徴融合ブロックからなる空間的時空間アテンション・フュージョン・ネットワークと呼ばれる深層学習モデルを提案する。 多面的注意ネットワークを用いて,旅客流の複雑な空間的依存関係を動的に抽出し,conv-attentionブロックを適用し,グローバルおよびローカルな視点から旅客流の時間的依存性を抽出する。 また、過去の乗客フローデータに加えて、イベント中の乗客フローの進化傾向を効果的に反映できることが証明されたソーシャルメディアデータもSTAFNの機能融合ブロックに融合する。 STAFNは、大正月に中国から来航した2つの大規模都市交通AFCデータセットを用いて試験を行い、予測性能を従来の予測モデルと比較した。 その結果, 短期的乗客フロー予測の実践的利用に圧倒的な支持を与えることのできる, ベンチマーク手法の堅牢性と利点が示された。

The short term passenger flow prediction of the urban rail transit system is of great significance for traffic operation and management. The emerging deep learning-based models provide effective methods to improve prediction accuracy. However, most of the existing models mainly predict the passenger flow on general weekdays or weekends. There are only few studies focusing on predicting the passenger flow on holidays, which is a significantly challenging task for traffic management because of its suddenness and irregularity. To this end, we propose a deep learning-based model named Spatial Temporal Attention Fusion Network comprising a novel Multi-Graph Attention Network, a Conv-Attention Block, and Feature Fusion Block for short-term passenger flow prediction on holidays. The multi-graph attention network is applied to extract the complex spatial dependencies of passenger flow dynamically and the conv-attention block is applied to extract the temporal dependencies of passenger flow from global and local perspectives. Moreover, in addition to the historical passenger flow data, the social media data, which has been proven that they can effectively reflect the evolution trend of passenger flow under events, are also fused into the feature fusion block of STAFN. The STAFN is tested on two large-scale urban rail transit AFC datasets from China on the New Year holiday, and the prediction performance of the model are compared with that of several conventional prediction models. Results demonstrate its better robustness and advantages among benchmark methods, which can provide overwhelming support for practical applications of short term passenger flow prediction on holidays.
翻訳日:2023-08-17 18:12:12 公開日:2023-08-16
# STG-GAN:都市鉄道交通システムにおける短期旅客流予測のための時空間グラフ生成対向ネットワーク

STG-GAN: A spatiotemporal graph generative adversarial networks for short-term passenger flow prediction in urban rail transit systems ( http://arxiv.org/abs/2202.06727v3 )

ライセンス: Link先を確認
Jinlei Zhang, Hua Li, Lixing Yang, Guangyin Jin, Jianguo Qi, Ziyou Gao(参考訳) 都市交通システム(URT)を管理する上で,短期的旅客流予測は重要な課題である。 いくつかの新しいディープラーニングモデルは、短期的な予測精度を改善する良い洞察を提供する。 しかし、RTシステムには多くの複雑な時空間依存が存在する。 従来の手法では、予測の空間的および時間的制約を考慮できない最適化目的として、基底真理と予測の絶対誤差しか考慮していない。 さらに、既存の予測モデルの多くは、トレーニング効率とメモリ占有率を無視しながら精度を向上させるために複雑なニューラルネットワーク層を導入し、現実世界に適用する機会を減らしている。 これらの制約を克服するため,URTネットワークの短期的利用者フローを予測するために,予測精度が高く,効率が高く,メモリ占有率も低い,深層学習に基づく時空間グラフ生成敵ネットワーク(STG-GAN)モデルを提案する。 Our model consists of two major parts, which are optimized in an adversarial learning manner: (1) a generator network including gated temporal conventional networks (TCN) and weight sharing graph convolution networks (GCN) to capture structural spatiotemporal dependencies and generate predictions with a relatively small computational burden; (2) a discriminator network including a spatial discriminator and a temporal discriminator to enhance the spatial and temporal constraints of the predictions. STG-GANは北京地下鉄の大規模実世界の2つのデータセットで評価される。 いくつかの最先端モデルと比較すると、その優位性と堅牢性を示している。 本研究は、特に現実の応用の観点から、短期の乗客フロー予測を行う上で重要な経験を提供することができる。

Short-term passenger flow prediction is an important but challenging task for better managing urban rail transit (URT) systems. Some emerging deep learning models provide good insights to improve short-term prediction accuracy. However, there exist many complex spatiotemporal dependencies in URT systems. Most previous methods only consider the absolute error between ground truth and predictions as the optimization objective, which fails to account for spatial and temporal constraints on the predictions. Furthermore, a large number of existing prediction models introduce complex neural network layers to improve accuracy while ignoring their training efficiency and memory occupancy, decreasing the chances to be applied to the real world. To overcome these limitations, we propose a novel deep learning-based spatiotemporal graph generative adversarial network (STG-GAN) model with higher prediction accuracy, higher efficiency, and lower memory occupancy to predict short-term passenger flows of the URT network. Our model consists of two major parts, which are optimized in an adversarial learning manner: (1) a generator network including gated temporal conventional networks (TCN) and weight sharing graph convolution networks (GCN) to capture structural spatiotemporal dependencies and generate predictions with a relatively small computational burden; (2) a discriminator network including a spatial discriminator and a temporal discriminator to enhance the spatial and temporal constraints of the predictions. The STG-GAN is evaluated on two large-scale real-world datasets from Beijing Subway. A comparison with those of several state-of-the-art models illustrates its superiority and robustness. This study can provide critical experience in conducting short-term passenger flow predictions, especially from the perspective of real-world applications.
翻訳日:2023-08-17 18:11:47 公開日:2023-08-16
# 言語バイアス処理における自己スーパービジョンの限界解析

Analyzing the Limits of Self-Supervision in Handling Bias in Language ( http://arxiv.org/abs/2112.08637v3 )

ライセンス: Link先を確認
Lisa Bauer, Karthik Gopalakrishnan, Spandana Gella, Yang Liu, Mohit Bansal, Dilek Hakkani-Tur(参考訳) 自然言語のタスク記述による入力のプロンプティングは、コンテキスト内管理がほとんどないし全くない大規模生成言語モデルから、合理的に正確な出力を引き出すための一般的なメカニズムとして登場した。 これはまた、言語モデルが大量のラベルなしテキストのコーパス上での自己教師付き事前トレーニングから純粋に幅広い下流タスクのセマンティクスをいかにうまく捉えているかを理解するのに役立つ。 このようなモデルは、人種差別やセクシスト言語のような好ましくないコンテンツにも自然にさらされており、これらの次元に沿ったモデルの認識に関する作業は限られている。 本稿では,これらの言語モデルが,認識,識別,抽出,言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを定義し,包括的に評価する。 タスク記述の3つの幅広いクラスを定義する: 文、質問、完了、各クラスに多数の語彙変種がある。 これらのクラスを用いて各タスクにプロンプトを施すことの有効性について検討し,いくつかのデコード手法と少数例を用いてヌルタスク記述を行う。 分析の結果, 言語モデルは, 性別や政治的関係など, さまざまなバイアス次元にわたって, 幅広い程度でタスクを遂行できることがわかった。 我々の研究は、社会学的に困難なタスクを達成するための現在の自己スーパービジョン目標の限界を定量化することで、バイアスのない言語モデルへの重要なステップであると考えています。

Prompting inputs with natural language task descriptions has emerged as a popular mechanism to elicit reasonably accurate outputs from large-scale generative language models with little to no in-context supervision. This also helps gain insight into how well language models capture the semantics of a wide range of downstream tasks purely from self-supervised pre-training on massive corpora of unlabeled text. Such models have naturally also been exposed to a lot of undesirable content like racist and sexist language and there is limited work on awareness of models along these dimensions. In this paper, we define and comprehensively evaluate how well such language models capture the semantics of four tasks for bias: diagnosis, identification, extraction and rephrasing. We define three broad classes of task descriptions for these tasks: statement, question, and completion, with numerous lexical variants within each class. We study the efficacy of prompting for each task using these classes and the null task description across several decoding methods and few-shot examples. Our analyses indicate that language models are capable of performing these tasks to widely varying degrees across different bias dimensions, such as gender and political affiliation. We believe our work is an important step towards unbiased language models by quantifying the limits of current self-supervision objectives at accomplishing such sociologically challenging tasks.
翻訳日:2023-08-17 18:11:03 公開日:2023-08-16
# 確率論理プログラミングにおけるプログラムとしての説明

Explanations as Programs in Probabilistic Logic Programming ( http://arxiv.org/abs/2210.03021v2 )

ライセンス: Link先を確認
Germ\'an Vidal(参考訳) 理解可能な説明の生成は、現代の人工知能システムに欠かせない特徴である。 本研究では,関係構造や不確実性を持つ領域をモデル化するのに有用な論理プログラミングの拡張である確率的論理プログラミングを考える。 本質的には、プログラムは可能な世界(つまり事実の集合)の確率分布を指定する。 説明の概念は、典型的には世界のそれと関連付けられるので、クエリーが真である世界と同様に、最も可能性の高い世界を探すことが多い。 残念ながら、このような説明は因果構造を示さない。 特に、特定の予測(クエリによって表される)に必要な推論の連鎖は示されていない。 本稿では,複数の展開様変換によって与えられた問合せから生成するプログラムとして説明を表現できる新しい手法を提案する。 ここで、与えられたクエリを証明する推論の連鎖は明示される。 さらに、生成された説明は最小限(すなわち、無関係な情報を含む)であり、可視的述語仕様をパラメータ化できるため、ユーザーは説明から興味のない詳細を隠すことができる。

The generation of comprehensible explanations is an essential feature of modern artificial intelligence systems. In this work, we consider probabilistic logic programming, an extension of logic programming which can be useful to model domains with relational structure and uncertainty. Essentially, a program specifies a probability distribution over possible worlds (i.e., sets of facts). The notion of explanation is typically associated with that of a world, so that one often looks for the most probable world as well as for the worlds where the query is true. Unfortunately, such explanations exhibit no causal structure. In particular, the chain of inferences required for a specific prediction (represented by a query) is not shown. In this paper, we propose a novel approach where explanations are represented as programs that are generated from a given query by a number of unfolding-like transformations. Here, the chain of inferences that proves a given query is made explicit. Furthermore, the generated explanations are minimal (i.e., contain no irrelevant information) and can be parameterized w.r.t. a specification of visible predicates, so that the user may hide uninteresting details from explanations.
翻訳日:2023-08-17 18:03:21 公開日:2023-08-16
# 社会科学における定量的モデルと形式モデルの発見を支援するAI

AI-Assisted Discovery of Quantitative and Formal Models in Social Science ( http://arxiv.org/abs/2210.00563v3 )

ライセンス: Link先を確認
Julia Balla, Sihao Huang, Owen Dugan, Rumen Dangovski, Marin Soljacic(参考訳) 社会科学では、経済成長や集団行動を記述するような形式的かつ定量的なモデルは、機械的な説明、予測、観察された現象に関する疑問を明らかにするために用いられる。 本稿では,社会科学データセットにおける非線形および動的関係を捉えるシンボリックモデルの発見を支援する機械学習システムについて紹介する。 ニューロシンボリック法を拡張して, 雑音・長手データからコンパクト関数や微分方程式を求めることにより, 本システムは実世界データから, 経済学・社会学において解釈可能なモデルの発見に利用できることを示す。 既存のワークフローをシンボリック回帰で拡張することは、新しい関係を明らかにするのに役立ち、科学プロセス中に反事実モデルの探索に役立つ。 本稿では, 非線形モデルの空間を体系的に探索し, 表現性や解釈可能性のきめ細かい制御を可能にすることにより, 社会科学研究で一般的に用いられているパラメトリックモデルと非パラメトリックモデルとを橋渡しできるフレームワークを提案する。

In social science, formal and quantitative models, such as ones describing economic growth and collective action, are used to formulate mechanistic explanations, provide predictions, and uncover questions about observed phenomena. Here, we demonstrate the use of a machine learning system to aid the discovery of symbolic models that capture nonlinear and dynamical relationships in social science datasets. By extending neuro-symbolic methods to find compact functions and differential equations in noisy and longitudinal data, we show that our system can be used to discover interpretable models from real-world data in economics and sociology. Augmenting existing workflows with symbolic regression can help uncover novel relationships and explore counterfactual models during the scientific process. We propose that this AI-assisted framework can bridge parametric and non-parametric models commonly employed in social science research by systematically exploring the space of nonlinear models and enabling fine-grained control over expressivity and interpretability.
翻訳日:2023-08-17 18:02:22 公開日:2023-08-16
# 光格子中の強相関ボソンにおける絡み合いエントロピーの進化

Evolution of entanglement entropy in strongly correlated bosons in an optical lattice ( http://arxiv.org/abs/2209.13340v4 )

ライセンス: Link先を確認
Shion Yamashika, Daichi Kagamihara, Ryosuke Yoshii, Shunji Tsuchiya(参考訳) ホッピング振幅$j$の突発的なクエンチ後の1次元光学格子におけるボソンの2次r\'enyiエントロピー(re)の時間発展について検討する。 具体的には,強い相関関係を持つmott-insulating (mi) レジームに$j/u\ll 1$ (u$は現場反発相互作用の強さを表す) のシステムについて,miリミットから$j=0$で検討する。 この方法では、低エネルギー励起状態はドーボロンやホロンとして知られるフェルミオン準粒子によって効果的に記述することができる。 彼らはクエンチダイナミクスを通して絡み合ったペアに興奮しています。 有効理論を開発することにより、REと2重項とホロンの相関関数の直接的な関係を導出する。 この関係により、我々はREを解析的に計算し、基底状態とクエンチダイナミクスによる時間的進化の両方においてREの物理像を得ることができる。 特に、RE はサブシステムの境界にまたがる Doublon-holon 対の集団に比例することを示す。 この準粒子図は、自由フェルミオン模型における絡み合いエントロピーのダイナミクスに関する以前の研究に欠けている注目すべき特徴をいくつか紹介する。 強相関系における絡み合いエントロピーのダイナミクスに関する貴重な洞察を提供する。

We investigate the time evolution of the second-order R\'enyi entropy (RE) for bosons in a one-dimensional optical lattice following a sudden quench of the hopping amplitude $J$. Specifically, we examine systems that are quenched into the strongly correlated Mott-insulating (MI) regime with $J/U\ll 1$ ($U$ denotes the strength of the on-site repulsive interaction) from the MI limit with $J=0$. In this regime, the low-energy excited states can be effectively described by fermionic quasiparticles known as doublons and holons. They are excited in entangled pairs through the quench dynamics. By developing an effective theory, we derive a direct relation between the RE and correlation functions associated with doublons and holons. This relation allows us to analytically calculate the RE and obtain a physical picture for the RE, both in the ground state and during time evolution through the quench dynamics, in terms of doublon holon pairs. In particular, we show that the RE is proportional to the population of doublon-holon pairs that span the boundary of the subsystem. Our quasiparticle picture introduces some remarkable features that are absent in previous studies on the dynamics of entanglement entropy in free-fermion models. It provides with valuable insights into the dynamics of entanglement entropy in strongly-correlated systems.
翻訳日:2023-08-17 18:02:03 公開日:2023-08-16
# 因果モデルにおける最適介入設計のためのアクティブラーニング

Active Learning for Optimal Intervention Design in Causal Models ( http://arxiv.org/abs/2209.04744v2 )

ライセンス: Link先を確認
Jiaqi Zhang, Louis Cammarata, Chandler Squires, Themistoklis P. Sapsis and Caroline Uhler(参考訳) 望ましい結果を達成するための介入を発見するための連続的な実験設計は、科学、工学、公共政策を含む様々な領域において重要な問題である。 介入可能な空間が大きくなると、徹底的な探索が不可能になり、実験的な設計戦略が必要である。 この文脈では、変数間の因果関係をエンコードし、従ってシステムへの介入の効果は、望ましい介入をより効率的に識別するために重要である。 そこで本研究では,分布の前後平均と所望の目標平均との差から,最適な介入を識別するための因果的アクティブラーニング戦略を開発した。 このアプローチは因果モデルにベイズ的更新を採用し、慎重に設計され、因果的にインフォームドされた取得関数を使用して介入を優先する。 この取得関数はクローズド形式で評価され、高速な最適化が可能となる。 得られたアルゴリズムは、既知の因果グラフを持つ線形因果モデルに対する情報理論境界と証明可能な整合性によって理論的に基礎付けられている。 本手法をperturb-cite-seq実験から得られた合成データと単細胞転写学データの両方に適用し、特定の細胞状態遷移を誘導する最適な摂動を同定する。 因果情報取得関数は、通常、少ないが慎重に選択されたサンプルで最適な介入設計を可能にする既存の基準より優れている。

Sequential experimental design to discover interventions that achieve a desired outcome is a key problem in various domains including science, engineering and public policy. When the space of possible interventions is large, making an exhaustive search infeasible, experimental design strategies are needed. In this context, encoding the causal relationships between the variables, and thus the effect of interventions on the system, is critical for identifying desirable interventions more efficiently. Here, we develop a causal active learning strategy to identify interventions that are optimal, as measured by the discrepancy between the post-interventional mean of the distribution and a desired target mean. The approach employs a Bayesian update for the causal model and prioritizes interventions using a carefully designed, causally informed acquisition function. This acquisition function is evaluated in closed form, allowing for fast optimization. The resulting algorithms are theoretically grounded with information-theoretic bounds and provable consistency results for linear causal models with known causal graph. We apply our approach to both synthetic data and single-cell transcriptomic data from Perturb-CITE-seq experiments to identify optimal perturbations that induce a specific cell state transition. The causally informed acquisition function generally outperforms existing criteria allowing for optimal intervention design with fewer but carefully selected samples.
翻訳日:2023-08-17 18:01:42 公開日:2023-08-16
# ネットワークマイクログリッドのニューロダイナミック状態推定

Neuro-Dynamic State Estimation for Networked Microgrids ( http://arxiv.org/abs/2208.12288v2 )

ライセンス: Link先を確認
Fei Feng, Yifan Zhou, Peng Zhang(参考訳) 我々は未知のサブシステム下でのネットワークマイクログリッド(NM)の学習に基づく動的状態推定(DSE)アルゴリズムNeuro-DSEを考案した。 私たちの貢献には 1) NMs DSEのデータ駆動型ニューロDSEアルゴリズムで, ニューラル・オーディショナル・ディファレンシャル・方程式(ODE-Net)をカルマンフィルタに組み込む。 2 自動フィルタリング、拡張及び補正の枠組みを確立することにより、限られた騒音測定の下でデータ駆動型DSEを可能にする自己精製型ニューロDSEアルゴリズム(Neuro-DSE+) 3)neuro-kalmannet-dseアルゴリズムは、neuro-dseとさらに統合して、neuro-dseとneuro-dseの両方のモデルミスマッチを緩和する。 4) NMs状態と未知パラメータ(慣性等)を共同で推定するための拡張型ニューロDSE。 広範囲にわたるケーススタディでは、異なるノイズレベル、制御モード、電源、観測可能性、モデル知識の下で、ニューロDSEとその変異体の有効性が示されている。

We devise neuro-dynamic state estimation (Neuro-DSE), a learning-based dynamic state estimation (DSE) algorithm for networked microgrids (NMs) under unknown subsystems. Our contributions include: 1) a data-driven Neuro-DSE algorithm for NMs DSE with partially unidentified dynamic models, which incorporates the neural-ordinary-differential-equations (ODE-Net) into Kalman filters; 2) a self-refining Neuro-DSE algorithm (Neuro-DSE+) which enables data-driven DSE under limited and noisy measurements by establishing an automatic filtering, augmenting and correcting framework; 3) a Neuro-KalmanNet-DSE algorithm which further integrates KalmanNet with Neuro-DSE to relieve the model mismatch of both neural- and physics-based dynamic models; and 4) an augmented Neuro-DSE for joint estimation of NMs states and unknown parameters (e.g., inertia). Extensive case studies demonstrate the efficacy of Neuro-DSE and its variants under different noise levels, control modes, power sources, observabilities and model knowledge, respectively.
翻訳日:2023-08-17 18:01:22 公開日:2023-08-16
# マルチモーダルフュージョンと表現マッピングに基づく大規模交通渋滞予測

Large-Scale Traffic Congestion Prediction based on Multimodal Fusion and Representation Mapping ( http://arxiv.org/abs/2208.11061v2 )

ライセンス: Link先を確認
Bodong Zhou, Jiahui Liu, Songyi Cui, Yaping Zhao(参考訳) 都市化の進展に伴い、都市交通システムは都市の発展と市民の生活の質に極めて重要な役割を担っている。 その中でも,渋滞要因を分析して交通渋滞を判断する上で最も重要な課題の一つである。 近年,交通渋滞予測のための従来型モデルや機械学習モデルが提案されている。 しかし、これらのモデルは巨大な混雑要因のために不十分に集約されているか、大規模な空間内の正確な位置の正確な予測に失敗したかのどちらかである。 これらの問題を緩和するために,畳み込みニューラルネットワークに基づく新しいエンドツーエンドフレームワークを提案する。 大規模地図上での任意のクエリロケーション上でのトラフィック混雑予測と,さまざまなグローバル参照情報を組み合わせた,新しいマルチモーダル融合モジュールと新しい表現マッピングモジュールを提案する。 提案フレームワークは,実世界の大規模データセットにおいて有意な結果と効率的な推論を実現する。

With the progress of the urbanisation process, the urban transportation system is extremely critical to the development of cities and the quality of life of the citizens. Among them, it is one of the most important tasks to judge traffic congestion by analysing the congestion factors. Recently, various traditional and machine-learning-based models have been introduced for predicting traffic congestion. However, these models are either poorly aggregated for massive congestion factors or fail to make accurate predictions for every precise location in large-scale space. To alleviate these problems, a novel end-to-end framework based on convolutional neural networks is proposed in this paper. With learning representations, the framework proposes a novel multimodal fusion module and a novel representation mapping module to achieve traffic congestion predictions on arbitrary query locations on a large-scale map, combined with various global reference information. The proposed framework achieves significant results and efficient inference on real-world large-scale datasets.
翻訳日:2023-08-17 18:00:59 公開日:2023-08-16
# 深部ニューラルネットワークを用いた宇宙ベース重力波信号の検出と抽出

Space-based gravitational wave signal detection and extraction with deep neural network ( http://arxiv.org/abs/2207.07414v3 )

ライセンス: Link先を確認
Tianyu Zhao, Ruoxi Lyu, He Wang, Zhoujian Cao, Zhixiang Ren(参考訳) 重力波(gw)検出器は、現在の地上検出ではほとんど不可能に近い源からの信号を観測することができる。 したがって、適切に確立された信号検出手法であるマッチングフィルタリングは複雑なテンプレートバンクを必要とするため、実際には高価すぎる計算コストにつながる。 本稿では,空間型gw源の高精度gw信号検出・抽出法を開発した。 概念実証として、科学駆動で均一な多段自己着地に基づく深層ニューラルネットワークは、ガウス雑音に沈み込む合成信号を識別できることを示す。 提案手法では,信号対雑音比が50,誤警報率が1%で,各種音源からの信号の同定において99%以上の検出率を示す。 目標信号と比較すると95%の類似性が得られます さらに、いくつかの拡張シナリオに対する解釈可能性および強い一般化挙動を示す。

Space-based gravitational wave (GW) detectors will be able to observe signals from sources that are otherwise nearly impossible from current ground-based detection. Consequently, the well established signal detection method, matched filtering, will require a complex template bank, leading to a computational cost that is too expensive in practice. Here, we develop a high-accuracy GW signal detection and extraction method for all space-based GW sources. As a proof of concept, we show that a science-driven and uniform multi-stage self-attention-based deep neural network can identify synthetic signals that are submerged in Gaussian noise. Our method exhibits a detection rate exceeding 99% in identifying signals from various sources, with the signal-to-noise ratio at 50, at a false alarm rate of 1%. while obtaining at least 95% similarity compared with target signals. We further demonstrate the interpretability and strong generalization behavior for several extended scenarios.
翻訳日:2023-08-17 18:00:46 公開日:2023-08-16
# ViSNet: 分子のためのベクトルスカラー対話型メッセージパッシングを用いた等変幾何強化グラフニューラルネットワーク

ViSNet: an equivariant geometry-enhanced graph neural network with vector-scalar interactive message passing for molecules ( http://arxiv.org/abs/2210.16518v3 )

ライセンス: Link先を確認
Yusong Wang, Shaoning Li, Xinheng He, Mingyu Li, Zun Wang, Nanning Zheng, Bin Shao, Tie-Yan Liu and Tong Wang(参考訳) 幾何学的深層学習は分子モデリング分野に革命をもたらした。 最先端のニューラルネットワークモデルが分子特性予測の開始精度に近づいているにもかかわらず、薬物発見や分子動力学(MD)シミュレーションなどの応用は、幾何学的情報の不十分な利用と高い計算コストによって妨げられている。 本稿では,等価幾何エンハンスドグラフニューラルネットワークであるvisnetを提案し,幾何学的特徴をエレガントに抽出し,計算コストの低い分子構造を効率的にモデル化する。 提案するViSNetは,MD17,MD17,MD22を含む複数のMDベンチマークにおける最先端の手法よりも優れ,QM9およびMolecule3Dデータセット上での優れた化学的特性予測を実現する。 さらに、ViSNetはOGB-LCS@NeurIPS2022コンペティションでPCQM4Mv2トラックの首位を獲得した。 さらに、一連のシミュレーションやケーススタディを通じて、ViSNetは構造空間を効率的に探索し、幾何学的表現を分子構造にマッピングするための合理的な解釈性を提供する。

Geometric deep learning has been revolutionizing the molecular modeling field. Despite the state-of-the-art neural network models are approaching ab initio accuracy for molecular property prediction, their applications, such as drug discovery and molecular dynamics (MD) simulation, have been hindered by insufficient utilization of geometric information and high computational costs. Here we propose an equivariant geometry-enhanced graph neural network called ViSNet, which elegantly extracts geometric features and efficiently models molecular structures with low computational costs. Our proposed ViSNet outperforms state-of-the-art approaches on multiple MD benchmarks, including MD17, revised MD17 and MD22, and achieves excellent chemical property prediction on QM9 and Molecule3D datasets. Additionally, ViSNet achieved the top winners of PCQM4Mv2 track in the OGB-LCS@NeurIPS2022 competition. Furthermore, through a series of simulations and case studies, ViSNet can efficiently explore the conformational space and provide reasonable interpretability to map geometric representations to molecular structures.
翻訳日:2023-08-17 17:53:15 公開日:2023-08-16
# 深層畳み込みニューラルネットワークの補間学習能力

Learning Ability of Interpolating Deep Convolutional Neural Networks ( http://arxiv.org/abs/2210.14184v2 )

ライセンス: Link先を確認
Tian-Yi Zhou, Xiaoming Huo(参考訳) 過パラメータニューラルネットワークの一般化はよく見られる。 これらの現象に関して、既存の理論研究は主に線形設定や完全連結ニューラルネットワークに専心している。 本稿では, 深層ニューラルネットワーク, 深層畳み込みニューラルネットワーク(DCNN)の学習能力について, 過パラメータ化と過パラメータ化の両面から検討する。 本論文では,パラメータや関数の可変構造制約を伴わない非パラメータ化dcnnの最初の学習速度を定式化する。 また、非補間DCNNに適切に定義された層を追加することで、非補間DCNNの良好な学習率を維持する補間DCNNが得られることを示す。 この結果は、DCNN向けに設計された新しいネットワークディープニング方式によって達成される。 我々の研究は、過度に適合したDCNNの一般化の理論的検証を提供する。

It is frequently observed that overparameterized neural networks generalize well. Regarding such phenomena, existing theoretical work mainly devotes to linear settings or fully-connected neural networks. This paper studies the learning ability of an important family of deep neural networks, deep convolutional neural networks (DCNNs), under both underparameterized and overparameterized settings. We establish the first learning rates of underparameterized DCNNs without parameter or function variable structure restrictions presented in the literature. We also show that by adding well-defined layers to a non-interpolating DCNN, we can obtain some interpolating DCNNs that maintain the good learning rates of the non-interpolating DCNN. This result is achieved by a novel network deepening scheme designed for DCNNs. Our work provides theoretical verification of how overfitted DCNNs generalize well.
翻訳日:2023-08-17 17:52:54 公開日:2023-08-16
# DyTed:離散時間動的グラフのためのアンタングル表現学習

DyTed: Disentangled Representation Learning for Discrete-time Dynamic Graph ( http://arxiv.org/abs/2210.10592v2 )

ライセンス: Link先を確認
Kaike Zhang, Qi Cao, Gaolin Fang, Bingbing Xu, Hongjian Zou, Huawei Shen, Xueqi Cheng(参考訳) 動的グラフに対する教師なし表現学習は近年多くの研究の注目を集めている。 静的グラフと比較すると、動的グラフはノードの固有の安定特性と時間関連の動的嗜好の両方を包括的に具現化したものである。 しかし、既存の手法では、これらの2種類の情報を単一の表現空間に混ぜることが多いため、説明が貧弱になり、堅牢性が低下し、下流の異なるタスクに適用できる能力が制限される可能性がある。 そこで,本稿では,離散時間動的グラフ,すなわち dyted に対する新しい不等角表現学習フレームワークを提案する。 本稿では,時間変化表現と時間変化表現をそれぞれ効果的に識別するために,構造コントラスト学習とともに時間勾配コントラスト学習タスクを特別に設計する。 情報理論の観点から,これら2つの表現の絡み合いをさらに高めるために,逆学習枠組みに基づく絡み合い認識判別器を提案する。 Tencentと5つの一般的な公開データセットに関する大規模な実験は、DyTedが既存のメソッドに適用可能な一般的なフレームワークであり、さまざまなダウンストリームタスクにおける最先端のパフォーマンスを実現し、ノイズに対してより堅牢であることを示している。

Unsupervised representation learning for dynamic graphs has attracted a lot of research attention in recent years. Compared with static graph, the dynamic graph is a comprehensive embodiment of both the intrinsic stable characteristics of nodes and the time-related dynamic preference. However, existing methods generally mix these two types of information into a single representation space, which may lead to poor explanation, less robustness, and a limited ability when applied to different downstream tasks. To solve the above problems, in this paper, we propose a novel disenTangled representation learning framework for discrete-time Dynamic graphs, namely DyTed. We specially design a temporal-clips contrastive learning task together with a structure contrastive learning to effectively identify the time-invariant and time-varying representations respectively. To further enhance the disentanglement of these two types of representation, we propose a disentanglement-aware discriminator under an adversarial learning framework from the perspective of information theory. Extensive experiments on Tencent and five commonly used public datasets demonstrate that DyTed, as a general framework that can be applied to existing methods, achieves state-of-the-art performance on various downstream tasks, as well as be more robust against noise.
翻訳日:2023-08-17 17:52:41 公開日:2023-08-16
# 都市鉄道交通システムにおけるcovid-19の短期旅客流量予測のためのst-former

ST-former for short-term passenger flow prediction during COVID-19 in urban rail transit system ( http://arxiv.org/abs/2210.09043v2 )

ライセンス: Link先を確認
Shuxin Zhang and Jinlei Zhang and Lixing Yang and Chengcheng Wang and Ziyou Gao(参考訳) 都市鉄道交通の正確な旅客流量予測は,特に流行時のインテリジェント交通システムの性能向上に不可欠である。 旅客流の複雑な時空間依存性を動的にモデル化する方法は, 流行時の正確な旅客流予測を達成する上で重要な課題である。 そこで本稿では,covid-19に特化したエンコーダ・デコーダ・フレームワークを用いて,新しいトランスフォーマアーキテクチャであるstformerを提案する。 具体的には,計算コストの低い乗客フローの複数時間依存性をモデル化するために,Causal-Convolution ProbSparse Self-Attention (CPSA) と呼ばれる修正自己注意機構を開発した。 複雑で動的な空間依存を捉えるために,複数のグラフを自己適応的に活用し,新しい適応多グラフ畳み込みネットワーク(AMGCN)を導入する。 さらに、Multi-source Data Fusionブロックは、乗客フローデータ、COVID-19確認ケースデータ、関連するソーシャルメディアデータを融合して、乗客フローへの影響を研究する。 実世界の乗客フローデータセットの実験は、STフォーマーが他の11の最先端手法よりも優れていることを示した。 モデル構造の有効性と信頼性を検証するため,いくつかのアブレーション実験を行った。 URTシステムの運用に関して重要な洞察を与えることができる。

Accurate passenger flow prediction of urban rail transit is essential for improving the performance of intelligent transportation systems, especially during the epidemic. How to dynamically model the complex spatiotemporal dependencies of passenger flow is the main issue in achieving accurate passenger flow prediction during the epidemic. To solve this issue, this paper proposes a brand-new transformer-based architecture called STformer under the encoder-decoder framework specifically for COVID-19. Concretely, we develop a modified self-attention mechanism named Causal-Convolution ProbSparse Self-Attention (CPSA) to model the multiple temporal dependencies of passenger flow with low computational costs. To capture the complex and dynamic spatial dependencies, we introduce a novel Adaptive Multi-Graph Convolution Network (AMGCN) by leveraging multiple graphs in a self-adaptive manner. Additionally, the Multi-source Data Fusion block fuses the passenger flow data, COVID-19 confirmed case data, and the relevant social media data to study the impact of COVID-19 to passenger flow. Experiments on real-world passenger flow datasets demonstrate the superiority of ST-former over the other eleven state-of-the-art methods. Several ablation studies are carried out to verify the effectiveness and reliability of our model structure. Results can provide critical insights for the operation of URT systems.
翻訳日:2023-08-17 17:52:19 公開日:2023-08-16
# サンプルサイズに依存しない複素数を持つ確率制約DRO

Stochastic Constrained DRO with a Complexity Independent of Sample Size ( http://arxiv.org/abs/2210.05740v2 )

ライセンス: Link先を確認
Qi Qi, Jiameng Lyu, Kung sik Chan, Er Wei Bai, Tianbao Yang(参考訳) 分散ロバスト最適化(DRO)は、トレーニングとテストセット間の分散シフトに対して頑健なモデルをトレーニングする一般的な方法であり、近年大きな注目を集めている。 本論文では,Kulback Leibler分散DRO問題の解法として,非凸損失と凸損失の両方に適用可能な確率的アルゴリズムを提案し,解析する。 この問題を解決する既存の手法と比較して、我々の確率的アルゴリズムは、サンプルサイズに依存しないより優れた複雑さを享受するだけでなく、イテレーション毎に一定のバッチサイズを必要とするため、幅広いアプリケーションでより実用的です。 我々は、非凸損失に対する$\epsilon$定常解を見つけるためのほぼ最適な複雑性と、凸損失に対する$\epsilon$最適解を見つけるための最適な複雑さを確立する。 非凸および凸制約DRO問題の解法として提案アルゴリズムの有効性を実証した。

Distributionally Robust Optimization (DRO), as a popular method to train robust models against distribution shift between training and test sets, has received tremendous attention in recent years. In this paper, we propose and analyze stochastic algorithms that apply to both non-convex and convex losses for solving Kullback Leibler divergence constrained DRO problem. Compared with existing methods solving this problem, our stochastic algorithms not only enjoy competitive if not better complexity independent of sample size but also just require a constant batch size at every iteration, which is more practical for broad applications. We establish a nearly optimal complexity bound for finding an $\epsilon$ stationary solution for non-convex losses and an optimal complexity for finding an $\epsilon$ optimal solution for convex losses. Empirical studies demonstrate the effectiveness of the proposed algorithms for solving non-convex and convex constrained DRO problems.
翻訳日:2023-08-17 17:51:56 公開日:2023-08-16
# VM-NeRF:ビューモーフィングによるNeRFのスパース処理

VM-NeRF: Tackling Sparsity in NeRF with View Morphing ( http://arxiv.org/abs/2210.04214v2 )

ライセンス: Link先を確認
Matteo Bortolon, Alessio Del Bue, Fabio Poiesi(参考訳) NeRFは、様々な視点から得られた入力画像の有限セットを用いて、連続的なニューラルシーン表現を学習することを目的としている。 nerfメソッドのよく知られた制限は、データへの依存である: 視点が少なくなればなるほど、過剰に適合する可能性が高くなる。 本稿では,ビューモーフィングを用いて視点間の幾何学的に一貫した画像遷移を生成する新しい手法を提案する。 ビューモーフィングは射影幾何学の基本原理に基づいているため、vm-nerfアプローチではシーン構造に関する事前知識は必要ありません。 VM-NeRFは、標準的なNeRFアプローチのトレーニング手順において、この幾何学的ビュー生成プロセスを密に統合する。 特に,少数のビューしか利用できない場合において,新規なビュー合成を著しく改善する。 実験により、NeRFモデルにおけるスパース視点を扱う現在の手法よりも一貫した改善が示された。 トレーニングでは最大1.8dB,1.0dBのPSNRが8回,4回,それぞれ増加した。 ソースコード: \url{https://github.com/mbortolon97/VM-NeRF}

NeRF aims to learn a continuous neural scene representation by using a finite set of input images taken from various viewpoints. A well-known limitation of NeRF methods is their reliance on data: the fewer the viewpoints, the higher the likelihood of overfitting. This paper addresses this issue by introducing a novel method to generate geometrically consistent image transitions between viewpoints using View Morphing. Our VM-NeRF approach requires no prior knowledge about the scene structure, as View Morphing is based on the fundamental principles of projective geometry. VM-NeRF tightly integrates this geometric view generation process during the training procedure of standard NeRF approaches. Notably, our method significantly improves novel view synthesis, particularly when only a few views are available. Experimental evaluation reveals consistent improvement over current methods that handle sparse viewpoints in NeRF models. We report an increase in PSNR of up to 1.8dB and 1.0dB when training uses eight and four views, respectively. Source code: \url{https://github.com/mbortolon97/VM-NeRF}
翻訳日:2023-08-17 17:51:38 公開日:2023-08-16
# データ選択: 小さな解釈可能なモデルを構築するための驚くほど効果的で一般的な原則

Data Selection: A Surprisingly Effective and General Principle for Building Small Interpretable Models ( http://arxiv.org/abs/2210.03921v2 )

ライセンス: Link先を確認
Abhishek Ghose(参考訳) 精度の高い小型モデルを構築するための効果的で一般的な戦略を示す実証的な証拠を提示する。 このようなモデルは解釈可能性に魅力的であり、リソース制約のある環境でも利用できる。 戦略は、テスト分布からデータを使うのではなく、トレーニング分布を学ぶことである。 分散学習アルゴリズムは,本研究の貢献ではない。多種多様なタスクセットにおいて,このシンプルな戦略の幅広い有用性を強調し,これらの厳密な経験的結果が貢献である。 本研究では,(1)クラスタ説明木の構築,(2)プロトタイプに基づく分類,(3)ランダムフォレストを用いた分類の課題に適用し,それらが驚くほど専門的近代技術と競合する点において,弱い伝統的な基準線の精度を向上させることを示す。 この戦略はモデルサイズの概念を多用している。 最初の2つのタスクでは、モデルのサイズは木の葉の数とプロトタイプの数によって識別される。 ランダムな森林を含む最終タスクでは、モデルのサイズが1つ以上の要因によって決定された場合でも、戦略が有効であることが示される。 複数のデータセットを用いた正の結果は統計的に有意であることが示されている。 これらのことから、この戦略は、すなわち、大きな改善をもたらすこと、そして一般的には、異なるタスクやモデルファミリーに適用できること、そしてより正確なモデルを必要とする領域において、さらなる注意を払わなければならない、という結論に至ります。

We present convincing empirical evidence for an effective and general strategy for building accurate small models. Such models are attractive for interpretability and also find use in resource-constrained environments. The strategy is to learn the training distribution instead of using data from the test distribution. The distribution learning algorithm is not a contribution of this work; we highlight the broad usefulness of this simple strategy on a diverse set of tasks, and as such these rigorous empirical results are our contribution. We apply it to the tasks of (1) building cluster explanation trees, (2) prototype-based classification, and (3) classification using Random Forests, and show that it improves the accuracy of weak traditional baselines to the point that they are surprisingly competitive with specialized modern techniques. This strategy is also versatile wrt the notion of model size. In the first two tasks, model size is identified by number of leaves in the tree and the number of prototypes respectively. In the final task involving Random Forests the strategy is shown to be effective even when model size is determined by more than one factor: number of trees and their maximum depth. Positive results using multiple datasets are presented that are shown to be statistically significant. These lead us to conclude that this strategy is both effective, i.e, leads to significant improvements, and general, i.e., is applicable to different tasks and model families, and therefore merits further attention in domains that require small accurate models.
翻訳日:2023-08-17 17:51:24 公開日:2023-08-16
# 地形型LiDARデータによる水の幾何学的特徴を用いた微細な表面水マッピング

Scalable Surface Water Mapping up to Fine-scale using Geometric Features of Water from Topographic Airborne LiDAR Data ( http://arxiv.org/abs/2301.06567v2 )

ライセンス: Link先を確認
Hunsoo Song, Jinha Jung(参考訳) 技術的進歩にもかかわらず、表面水の包括的なマッピング、特に小さな物体(<1ha)は、堅牢でスケーラブルな方法が欠如しているため、依然として課題となっている。 標準手法では、自動マッピングを複雑にし、トレーニングデータやパラメータに関連するバイアスを導入する、トレーニングラベルまたはサイト固有のパラメータチューニングが必要である。 ライダー強度を含む水の反射特性への依存は、高分解能の画像が本質的によりノイズを生み出すため、さらに複雑になる。 これらの困難を緩和するため, 可変反射特性ではなく, 水の幾何学的特性に着目した一意な手法を提案する。 従来のアプローチとは異なり、このアプローチは空中lidarデータからの3次元座標観測に完全に依存しており、重力によって表面水が平らに保たれるという原理を生かしている。 この自然法則を接続性とともに活用することにより,小水域を精度よく同定し,ラベルのトレーニングや繰り返しパラメータチューニングの必要性を排除できる。 その結果,水面と地形の両方を含む包括的3次元地形図の作成が可能となり,航空レーザー走査データのみを用いて教師なしで実施でき,信頼性の高い3次元地形図の作成プロセスが向上する可能性が示唆された。 本手法を多種多様な景観で検証し,競争力の高い正規化差水指数(NDWI)法と比較し,基準表面水図を用いて評価した。 提案手法は, 大気中のLiDARデータのみを用いて, 堅牢でスケーラブルな表面水マッピングと3次元地形マッピングの持続的困難に対処するための新しいアプローチを提供する。

Despite substantial technological advancements, the comprehensive mapping of surface water, particularly smaller bodies (<1ha), continues to be a challenge due to a lack of robust, scalable methods. Standard methods require either training labels or site-specific parameter tuning, which complicates automated mapping and introduces biases related to training data and parameters. The reliance on water's reflectance properties, including LiDAR intensity, further complicates the matter, as higher-resolution images inherently produce more noise. To mitigate these difficulties, we propose a unique method that focuses on the geometric characteristics of water instead of its variable reflectance properties. Unlike preceding approaches, our approach relies entirely on 3D coordinate observations from airborne LiDAR data, taking advantage of the principle that connected surface water remains flat due to gravity. By harnessing this natural law in conjunction with connectivity, our method can accurately and scalably identify small water bodies, eliminating the need for training labels or repetitive parameter tuning. Consequently, our approach enables the creation of comprehensive 3D topographic maps that include both water and terrain, all performed in an unsupervised manner using only airborne laser scanning data, potentially enhancing the process of generating reliable 3D topographic maps. We validated our method across extensive and diverse landscapes, while comparing it to highly competitive Normalized Difference Water Index (NDWI)-based methods and assessing it using a reference surface water map. In conclusion, our method offers a new approach to address persistent difficulties in robust, scalable surface water mapping and 3D topographic mapping, using solely airborne LiDAR data.
翻訳日:2023-08-17 17:44:12 公開日:2023-08-16
# インコンテキスト学習におけるスケールの役割再考--660億スケールでの解釈可能性に基づくケーススタディ

Rethinking the Role of Scale for In-Context Learning: An Interpretability-based Case Study at 66 Billion Scale ( http://arxiv.org/abs/2212.09095v2 )

ライセンス: Link先を確認
Hritik Bansal, Karthik Gopalakrishnan, Saket Dingliwal, Sravan Bodapati, Katrin Kirchhoff, Dan Roth(参考訳) 言語モデルは、コンテキスト内学習パラダイムを通じて、幅広いタスクのスケールを拡大することで、よりよいパフォーマンスを示すことが示されている。 本稿では,大規模言語モデルがタスクをテキスト内で学習する能力が,その基盤となるすべてのコンポーネントに均一に分散していないという仮説を考察する。 6600億のパラメータ言語モデル(OPT-66B)を14のダウンストリームタスクの多様なセットで使用することにより、実際にこれが事実であることが分かる:$\sim$70%の注目ヘッドと$\sim$20%のフィードフォワードネットワークは、タスクパフォーマンスの最小限の低下で除去できる。 タスク間のインコンテキスト学習やインコンテキストの例の数において,注意点の集合が著しく重複していることが判明した。 また,op-66bにおける注意ヘッドの少なさは,文脈内学習,すなわちプレフィックスマッチングとコピーに関連する原始的帰納的操作を行う能力に非常に依存していることを見出した。 これらの誘導ヘッドはタスク固有の重要なヘッドと重なり、Olsson et al. (arXiv:2209.11895) によるインコンテキスト学習に関連するより洗練された行動への誘導ヘッドの一般化に関する議論を補強する。 全体として、本研究では、大規模言語モデルが文脈内学習の訓練を受けていないことを示し、文脈内学習をより効果的に行うために、言語モデルを事前学習する方法に関する疑問を提起する。

Language models have been shown to perform better with an increase in scale on a wide variety of tasks via the in-context learning paradigm. In this paper, we investigate the hypothesis that the ability of a large language model to in-context learn-perform a task is not uniformly spread across all of its underlying components. Using a 66 billion parameter language model (OPT-66B) across a diverse set of 14 downstream tasks, we find this is indeed the case: $\sim$70% of attention heads and $\sim$20% of feed forward networks can be removed with minimal decline in task performance. We find substantial overlap in the set of attention heads (un)important for in-context learning across tasks and number of in-context examples. We also address our hypothesis through a task-agnostic lens, finding that a small set of attention heads in OPT-66B score highly on their ability to perform primitive induction operations associated with in-context learning, namely, prefix matching and copying. These induction heads overlap with task-specific important heads, reinforcing arguments by Olsson et al. (arXiv:2209.11895) regarding induction head generality to more sophisticated behaviors associated with in-context learning. Overall, our study provides several insights that indicate large language models may be under-trained for in-context learning and opens up questions on how to pre-train language models to more effectively perform in-context learning.
翻訳日:2023-08-17 17:43:41 公開日:2023-08-16
# オブジェクトポップアップのためのソースフリー深さ

Source-free Depth for Object Pop-out ( http://arxiv.org/abs/2212.05370v2 )

ライセンス: Link先を確認
Zongwei Wu, Danda Pani Paudel, Deng-Ping Fan, Jingjing Wang, Shuo Wang, C\'edric Demonceaux, Radu Timofte, Luc Van Gool(参考訳) 奥行きは視覚知覚に有用であることが知られている。 しかし、しばしば深度を直接測定することは不可能である。 しかし幸いなことに、現代の学習ベースの手法は、野放しの推論によって有望な深度マップを提供する。 本研究では,3次元に先行するオブジェクトの「ポップアウト」を用いて,オブジェクトセグメンテーションの深度推定モデルを適用する。 pop-out" は、オブジェクトがバックグラウンド面に存在すると仮定した単純な構成である。 このような合成前もって、3d空間のオブジェクトについて推論できる。 より具体的には、3次元情報のみを用いて物体を局所化できるように、推定深度マップを適応させる。 しかし、そのような分離には、セグメンテーションマスクの弱い監督を用いて学習する接触面に関する知識が必要である。 接触面の中間表現と、3Dで純粋に物体を推論することで、深度知識をよりセマンティクスに伝達することができる。 提案手法は,訓練に使用するソースデータを必要とせず,深度モデルのみを用いて学習プロセスを効率的かつ実用的なものにする。 提案手法は,2つの課題,すなわちcamouflaged object detectionとsalient object detectionの8つのデータセットを対象とした実験により,性能と汎用性の両方において,その利点を一貫して証明した。

Depth cues are known to be useful for visual perception. However, direct measurement of depth is often impracticable. Fortunately, though, modern learning-based methods offer promising depth maps by inference in the wild. In this work, we adapt such depth inference models for object segmentation using the objects' "pop-out" prior in 3D. The "pop-out" is a simple composition prior that assumes objects reside on the background surface. Such compositional prior allows us to reason about objects in the 3D space. More specifically, we adapt the inferred depth maps such that objects can be localized using only 3D information. Such separation, however, requires knowledge about contact surface which we learn using the weak supervision of the segmentation mask. Our intermediate representation of contact surface, and thereby reasoning about objects purely in 3D, allows us to better transfer the depth knowledge into semantics. The proposed adaptation method uses only the depth model without needing the source data used for training, making the learning process efficient and practical. Our experiments on eight datasets of two challenging tasks, namely camouflaged object detection and salient object detection, consistently demonstrate the benefit of our method in terms of both performance and generalizability.
翻訳日:2023-08-17 17:43:15 公開日:2023-08-16
# 3D-TOGO:テキストガイド型クロスカテゴリ3Dオブジェクト生成を目指して

3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation ( http://arxiv.org/abs/2212.01103v2 )

ライセンス: Link先を確認
Zutao Jiang, Guansong Lu, Xiaodan Liang, Jihua Zhu, Wei Zhang, Xiaojun Chang, Hang Xu(参考訳) テキストガイドによる3dオブジェクト生成は、ユーザー定義のキャプションで記述された3dオブジェクトを生成することを目的としています。 この困難な課題を解決するために、いくつかの作品が費やされてきたが、これらの作品は、テクスチャが無く、フォトリアリスティックなビューのレンダリングに後処理を必要とする、明示的な3d表現(例えばメッシュ)を利用するか、全てのケースで個別の時間消費最適化を必要とする。 本稿では,テキスト対ビュー生成モジュールとviews-to-3d生成モジュールを統合した新しい3d-togoモデルを用いて,汎用的なテキスト誘導型クロスカテゴリオブジェクト生成を実現する最初の試みを行う。 テキスト・ツー・ビュー生成モジュールは、入力キャプションが与えられたターゲット3Dオブジェクトの異なるビューを生成するように設計されている。 より優れたビュー一貫性とキャプション類似性を実現するために,事前指導,キャプション指導,コントラスト学習を提案する。 一方、ビュー・トゥ・3D生成モジュールに対して画素NeRFモデルを採用し、予め生成されたビューから暗黙的な3Dニューラル表現を得る。 我々の3D-TOGOモデルでは,各キャプションの時間的最適化を必要とせず,テクスチャのよいニューラルラディアンスフィールドの形で3Dオブジェクトを生成する。 また、3d-togoは、入力キャプションで生成された3dオブジェクトのカテゴリ、色、形状を制御できる。 最大3Dオブジェクトデータセット(つまりABO)の大規模な実験を行い、3D-TOGOがテキストNeRFやドリームフィールドに比べてPSNR、SSIM、LPIPS、CLIPスコアといった98のカテゴリにわたる入力キャプションに基づいて高品質な3Dオブジェクトを生成できることを検証する。

Text-guided 3D object generation aims to generate 3D objects described by user-defined captions, which paves a flexible way to visualize what we imagined. Although some works have been devoted to solving this challenging task, these works either utilize some explicit 3D representations (e.g., mesh), which lack texture and require post-processing for rendering photo-realistic views; or require individual time-consuming optimization for every single case. Here, we make the first attempt to achieve generic text-guided cross-category 3D object generation via a new 3D-TOGO model, which integrates a text-to-views generation module and a views-to-3D generation module. The text-to-views generation module is designed to generate different views of the target 3D object given an input caption. prior-guidance, caption-guidance and view contrastive learning are proposed for achieving better view-consistency and caption similarity. Meanwhile, a pixelNeRF model is adopted for the views-to-3D generation module to obtain the implicit 3D neural representation from the previously-generated views. Our 3D-TOGO model generates 3D objects in the form of the neural radiance field with good texture and requires no time-cost optimization for every single caption. Besides, 3D-TOGO can control the category, color and shape of generated 3D objects with the input caption. Extensive experiments on the largest 3D object dataset (i.e., ABO) are conducted to verify that 3D-TOGO can better generate high-quality 3D objects according to the input captions across 98 different categories, in terms of PSNR, SSIM, LPIPS and CLIP-score, compared with text-NeRF and Dreamfields.
翻訳日:2023-08-17 17:42:33 公開日:2023-08-16
# OGB大規模チャレンジ@NeurIPS 2022におけるVisNet, Transformer-M, および分子特性予測のための事前学習モデル

An ensemble of VisNet, Transformer-M, and pretraining models for molecular property prediction in OGB Large-Scale Challenge @ NeurIPS 2022 ( http://arxiv.org/abs/2211.12791v2 )

ライセンス: Link先を確認
Yusong Wang, Shaoning Li, Zun Wang, Xinheng He, Bin Shao, Tie-Yan Liu and Tong Wang(参考訳) 技術的レポートでは、OGB-LSC 2022 Graph Regression Taskに対するソリューションを提供する。 このタスクの目的は、pcqm4mv2データセット上の任意の分子の量子化学的性質、ホモルーモギャップを予測することである。 コンペティションでは,完全連結なグラフグラフのための幾何強化グラフニューラルネットワークであるTransformer-M-ViSNetと,最適化された構造から測地情報を抽出して事前学習したViSNetであるPretrained-3D-ViSNetの2種類のモデルを構築した。 22モデルのアンサンブルにより、ViSNet Teamはテストチェレンジセットで0.0723 eVのMAEを達成し、昨年のベストメソッドと比較してエラーを39.75%削減した。

In the technical report, we provide our solution for OGB-LSC 2022 Graph Regression Task. The target of this task is to predict the quantum chemical property, HOMO-LUMO gap for a given molecule on PCQM4Mv2 dataset. In the competition, we designed two kinds of models: Transformer-M-ViSNet which is an geometry-enhanced graph neural network for fully connected molecular graphs and Pretrained-3D-ViSNet which is a pretrained ViSNet by distilling geomeotric information from optimized structures. With an ensemble of 22 models, ViSNet Team achieved the MAE of 0.0723 eV on the test-challenge set, dramatically reducing the error by 39.75% compared with the best method in the last year competition.
翻訳日:2023-08-17 17:41:59 公開日:2023-08-16
# 絡み合った表現学習

Disentangled Representation Learning ( http://arxiv.org/abs/2211.11695v2 )

ライセンス: Link先を確認
Xin Wang, Hong Chen, Si'ao Tang, Zihao Wu, Wenwu Zhu(参考訳) Disentangled Representation Learning (DRL) は、観測可能なデータに隠された基礎的要因を表現形式で識別し、分離できるモデルを学習することを目的としている。 変化の根底にある要因を変数に分割するプロセスは、対象や関係を観察する際の人間の意味的な理解過程を模倣する、説明可能なデータ表現の学習において利益をもたらす。 一般的な学習戦略として、DRLは、コンピュータビジョン、自然言語処理、データマイニングなど、幅広いシナリオにおいて、モデル説明可能性、制御可能性、堅牢性、および一般化能力を改善する能力を示した。 本稿では,モチベーション,定義,方法論,評価,アプリケーション,モデル設計など,さまざまな側面からDRLを包括的にレビューする。 我々は、直観的定義とグループ理論定義という2つのよく認識された定義に基づいてDRLに関する研究について議論する。 我々はさらに,drlの方法論を,従来の統計手法,変分オートエンコーダに基づくアプローチ,生成的逆ネットワークに基づくアプローチ,階層的アプローチなど,4つのグループに分類する。 また、実用アプリケーションで異なるタスクに利益をもたらす可能性のある異なるDRLモデルを設計するための原則も分析する。 最後に,DRLの課題と今後の研究の方向性を指摘する。 我々は、この研究がコミュニティにおけるDRL研究を促進するための洞察を与えるかもしれないと考えている。

Disentangled Representation Learning (DRL) aims to learn a model capable of identifying and disentangling the underlying factors hidden in the observable data in representation form. The process of separating underlying factors of variation into variables with semantic meaning benefits in learning explainable representations of data, which imitates the meaningful understanding process of humans when observing an object or relation. As a general learning strategy, DRL has demonstrated its power in improving the model explainability, controlability, robustness, as well as generalization capacity in a wide range of scenarios such as computer vision, natural language processing, data mining etc. In this article, we comprehensively review DRL from various aspects including motivations, definitions, methodologies, evaluations, applications and model designs. We discuss works on DRL based on two well-recognized definitions, i.e., Intuitive Definition and Group Theory Definition. We further categorize the methodologies for DRL into four groups, i.e., Traditional Statistical Approaches, Variational Auto-encoder Based Approaches, Generative Adversarial Networks Based Approaches, Hierarchical Approaches and Other Approaches. We also analyze principles to design different DRL models that may benefit different tasks in practical applications. Finally, we point out challenges in DRL as well as potential research directions deserving future investigations. We believe this work may provide insights for promoting the DRL research in the community.
翻訳日:2023-08-17 17:41:41 公開日:2023-08-16
# 人間の姿勢異常検出のための正規化フロー

Normalizing Flows for Human Pose Anomaly Detection ( http://arxiv.org/abs/2211.10946v2 )

ライセンス: Link先を確認
Or Hirschorn, Shai Avidan(参考訳) 映像の異常検出は、外観、ポーズ、カメラアングル、背景など多くのパラメータに依存するため、不適切な問題である。 我々は,人間のポーズの異常検出に問題を蒸留し,その結果に影響を与える外観などのニュアンスパラメータのリスクを低減させる。 ポーズのみにフォーカスすることは、異なる少数派グループに対する偏見を減らすという副作用もある。 私たちのモデルは、人間のポーズグラフ列に直接作用し、非常に軽量(約1kパラメータ)で、不要な追加リソースでポーズ推定を実行できる任意のマシン上で実行できます。 我々は,正規化フローフレームワークにおいて,高度にコンパクトなポーズ表現を活用し,時空間的ポーズデータのユニークな特徴に取り組み,その利点を示す。 アルゴリズムは非常に一般的で、通常の例のみのトレーニングデータと、ラベル付き正規例と異常例からなる教師付き設定を扱うことができる。 我々は,教師なし上海技術データセットと教師なしUB正規データセットという,2つの異常検出ベンチマークの最先端結果を報告する。

Video anomaly detection is an ill-posed problem because it relies on many parameters such as appearance, pose, camera angle, background, and more. We distill the problem to anomaly detection of human pose, thus decreasing the risk of nuisance parameters such as appearance affecting the result. Focusing on pose alone also has the side benefit of reducing bias against distinct minority groups. Our model works directly on human pose graph sequences and is exceptionally lightweight (~1K parameters), capable of running on any machine able to run the pose estimation with negligible additional resources. We leverage the highly compact pose representation in a normalizing flows framework, which we extend to tackle the unique characteristics of spatio-temporal pose data and show its advantages in this use case. The algorithm is quite general and can handle training data of only normal examples as well as a supervised setting that consists of labeled normal and abnormal examples. We report state-of-the-art results on two anomaly detection benchmarks - the unsupervised ShanghaiTech dataset and the recent supervised UBnormal dataset.
翻訳日:2023-08-17 17:41:16 公開日:2023-08-16
# EfficientTrain: ビジュアルバックボーンのトレーニングのための汎用的なカリキュラム学習

EfficientTrain: Exploring Generalized Curriculum Learning for Training Visual Backbones ( http://arxiv.org/abs/2211.09703v3 )

ライセンス: Link先を確認
Yulin Wang, Yang Yue, Rui Lu, Tianjiao Liu, Zhao Zhong, Shiji Song, Gao Huang(参考訳) 現代のディープネットワークの優れたパフォーマンスは通常、高価なトレーニング手順が伴う。 本稿では視覚バックボーン(視覚変換器など)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。 我々の研究は、深層ネットワークの固有学習ダイナミクスに着想を得ている:我々は、初期のトレーニングステージで、このモデルが、画像の低周波成分やデータ拡張前の元の情報など、各例内の"より分かりやすい"識別パターンを認識することを主に学んだことを実験的に示します。 この現象によって、モデルは常に各エポックでのトレーニングデータを活用し、カリキュラムは各例の「より簡単な」パターンのみを公開することから始まり、徐々に難しいパターンを導入するカリキュラムを提案する。 このアイデアを実現するために 1)入力のフーリエスペクトルにトリッピング演算を導入することにより、モデルが低周波成分のみから効率的に学習することができる。 2) オリジナル画像の特徴を明らかにすることは、より弱いデータ拡張を採用することにつながることを実証し、 3)統合 1)と 2) 欲求探索アルゴリズムを用いてカリキュラム学習スケジュールを設計する。 結果として得られたアプローチであるEfficientTrainは単純で汎用的だが驚くほど効果的だ。 市販の方法では、imagenet-1k/22k上で、さまざまなポピュラーモデル(resnet、convnext、deit、pvt、swain、cswinなど)の壁時間トレーニングコストを1.5倍に削減できる。 また、自己指導型学習(MAEなど)にも有効である。 コードはhttps://github.com/LeapLabTHU/EfficientTrainで入手できる。

The superior performance of modern deep networks usually comes with a costly training procedure. This paper presents a new curriculum learning approach for the efficient training of visual backbones (e.g., vision Transformers). Our work is inspired by the inherent learning dynamics of deep networks: we experimentally show that at an earlier training stage, the model mainly learns to recognize some 'easier-to-learn' discriminative patterns within each example, e.g., the lower-frequency components of images and the original information before data augmentation. Driven by this phenomenon, we propose a curriculum where the model always leverages all the training data at each epoch, while the curriculum starts with only exposing the 'easier-to-learn' patterns of each example, and introduces gradually more difficult patterns. To implement this idea, we 1) introduce a cropping operation in the Fourier spectrum of the inputs, which enables the model to learn from only the lower-frequency components efficiently, 2) demonstrate that exposing the features of original images amounts to adopting weaker data augmentation, and 3) integrate 1) and 2) and design a curriculum learning schedule with a greedy-search algorithm. The resulting approach, EfficientTrain, is simple, general, yet surprisingly effective. As an off-the-shelf method, it reduces the wall-time training cost of a wide variety of popular models (e.g., ResNet, ConvNeXt, DeiT, PVT, Swin, and CSWin) by >1.5x on ImageNet-1K/22K without sacrificing accuracy. It is also effective for self-supervised learning (e.g., MAE). Code is available at https://github.com/LeapLabTHU/EfficientTrain.
翻訳日:2023-08-17 17:40:58 公開日:2023-08-16
# アスペクトベース感情分析のための構文誘導型ドメイン適応

Syntax-Guided Domain Adaptation for Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2211.05457v2 )

ライセンス: Link先を確認
Anguo Dong, Cuiyun Gao, Yan Jia, Qing Liao, Xuan Wang, Lei Wang, and Jing Xiao(参考訳) アスペクトベース感情分析(absa:aspect-based sentiment analysis)は、レビューテキスト中の意見付きアスペクト用語を抽出し、その感情極性を決定することを目的としている。 細かい分類作業として、アノテーションのコストは非常に高い。 ドメイン適応は、ドメイン間で共通の知識を伝達することによって、新しいドメインにおけるデータ不足問題を緩和するための一般的なソリューションである。 多くのクロスドメインABSA研究は、構造対応学習(SCL)に基づいており、ドメイン間のギャップを狭める補助的なタスクを構築するためにピボット機能を使用している。 しかし、それらのピボットベースの補助タスクは、アスペクト項の知識を伝達するだけで、感情ではなく、既存のモデルの性能を制限することができる。 本研究では,より効果的なクロスドメインABSAのための,SDAM(Syntax-guided Domain Adaptation Model)を提案する。 SDAMは擬似トレーニングインスタンスを構築するために構文構造類似性を利用しており、対象ドメインのアスペクト項は感情極性に明示的に関連している。 さらに、ドメイン不変な特徴をさらに捉えるための構文ベースのbertマスク言語モデルを提案する。 最後に、マルチグラムアスペクトにおける感情の不整合を緩和するため、クロスドメインのEnd2End ABSAに、スパンベースの共同アスペクト項と感情分析モジュールを導入する。 5つのベンチマークデータセットの実験から、私たちのモデルは、クロスドメインのEnd2EndABSAタスクのMicro-F1メトリックに対して、最先端のベースラインを一貫して上回ります。

Aspect-based sentiment analysis (ABSA) aims at extracting opinionated aspect terms in review texts and determining their sentiment polarities, which is widely studied in both academia and industry. As a fine-grained classification task, the annotation cost is extremely high. Domain adaptation is a popular solution to alleviate the data deficiency issue in new domains by transferring common knowledge across domains. Most cross-domain ABSA studies are based on structure correspondence learning (SCL), and use pivot features to construct auxiliary tasks for narrowing down the gap between domains. However, their pivot-based auxiliary tasks can only transfer knowledge of aspect terms but not sentiment, limiting the performance of existing models. In this work, we propose a novel Syntax-guided Domain Adaptation Model, named SDAM, for more effective cross-domain ABSA. SDAM exploits syntactic structure similarities for building pseudo training instances, during which aspect terms of target domain are explicitly related to sentiment polarities. Besides, we propose a syntax-based BERT mask language model for further capturing domain-invariant features. Finally, to alleviate the sentiment inconsistency issue in multi-gram aspect terms, we introduce a span-based joint aspect term and sentiment analysis module into the cross-domain End2End ABSA. Experiments on five benchmark datasets show that our model consistently outperforms the state-of-the-art baselines with respect to Micro-F1 metric for the cross-domain End2End ABSA task.
翻訳日:2023-08-17 17:40:24 公開日:2023-08-16
# 量子密度行列とその多用途--量子構造から量子カオス・ノイズシミュレータへ

The Quantum Density Matrix and its many uses: From quantum structure to quantum chaos and noisy simulators ( http://arxiv.org/abs/2303.08738v2 )

ライセンス: Link先を確認
Apoorva D. Patel(参考訳) 量子密度行列は古典的な確率分布の概念を量子論に一般化する。 これは量子状態の完全な記述とそれから抽出できる観測可能な量を与える。 その数学的構造は、量子相関の理解、量子カオスの図解化、量子状態トモグラフィの効率的なノイズ量子システムのためのソフトウェアシミュレータの開発などに応用されている。

The quantum density matrix generalises the classical concept of probability distribution to quantum theory. It gives the complete description of a quantum state as well as the observable quantities that can be extracted from it. Its mathematical structure is described, with applications to understanding quantum correlations, illustrating quantum chaos and its unravelling, and developing software simulators for noisy quantum systems with efficient quantum state tomography.
翻訳日:2023-08-17 17:34:19 公開日:2023-08-16
# HFGD: セマンティックセグメンテーションのための高レベル特徴ガイドデコーダ

HFGD: High-level Feature Guided Decoder for Semantic Segmentation ( http://arxiv.org/abs/2303.08646v2 )

ライセンス: Link先を確認
Ye Huang, Di Kang, Shenghua Gao, Wen Li, Lixin Duan(参考訳) 既存のピラミッドベースのアップサンプラー(例:セマンティックFPN)は効率的ではあるが、同じバックボーンを使用する場合に比べて精度が低い。 これは、限られたデータでノイズの少ない低レベル機能と融合して微調整されているため、汚染された高レベル機能によって部分的に引き起こされる。 この問題に対処するために,我々は,きめ細かな低レベル機能のサンプル化を学ぶ際に,強力な事前学習された高レベル機能をガイダンス(hfg)として用いることを提案する。 具体的には、クラストークンは、バックボーンから高レベルな機能のみをトレーニングする。 これらのクラストークンは、upsamplerによって分類のために再利用され、upsamplerの特徴をより識別的なバックボーン機能に導く。 HFGの鍵となる設計は、バックボーンがアップサンプラーからの勾配に応じて更新されないように、ハイレベルな特徴が適切な停止段階の操作で汚染されることを防ぐことである。 HFGの上限を押し上げるために、低解像度の高レベル特徴に対して効率よく効果的に操作できる文脈拡張エンコーダ(CAE)を導入する。 提案手法をPascal Context,COCOStuff164k,Cityscapesの3つのベンチマークで評価した。 本手法は,余分なトレーニングデータを使用しない手法において,その有効性と一般化能力を示す。 完全なコードがリリースされる

Existing pyramid-based upsamplers (e.g. SemanticFPN), although efficient, usually produce less accurate results compared to dilation-based models when using the same backbone. This is partially caused by the contaminated high-level features since they are fused and fine-tuned with noisy low-level features on limited data. To address this issue, we propose to use powerful pretrained high-level features as guidance (HFG) when learning to upsample the fine-grained low-level features. Specifically, the class tokens are trained along with only the high-level features from the backbone. These class tokens are reused by the upsampler for classification, guiding the upsampler features to more discriminative backbone features. One key design of the HFG is to protect the high-level features from being contaminated with proper stop-gradient operations so that the backbone does not update according to the gradient from the upsampler. To push the upper limit of HFG, we introduce an context augmentation encoder (CAE) that can efficiently and effectively operates on low-resolution high-level feature, resulting in improved representation and thus better guidance. We evaluate the proposed method on three benchmarks: Pascal Context, COCOStuff164k, and Cityscapes. Our method achieves state-of-the-art results among methods that do not use extra training data, demonstrating its effectiveness and generalization ability. The complete code will be released
翻訳日:2023-08-17 17:34:11 公開日:2023-08-16
# text-to-mel-spectrogram generatorを用いたエンドツーエンドasrのためのテキストのみのドメイン適応

Text-only domain adaptation for end-to-end ASR using integrated text-to-mel-spectrogram generator ( http://arxiv.org/abs/2302.14036v2 )

ライセンス: Link先を確認
Vladimir Bataev, Roman Korostik, Evgeny Shabalin, Vitaly Lavrukhin, Boris Ginsburg(参考訳) 本稿では, テキストのみのデータ, あるいは混在した音声データに基づいて, エンドツーエンドの自動音声認識(ASR)システムを提案する。 提案モデルはテキストベースのトレーニングに統合補助ブロックを使用する。 このブロックは、非自己回帰型マルチスピーカのテキスト-メル-スペクトログラムジェネレータとGANベースのエンハンサーを組み合わせることで、スペクトル品質を向上させる。 提案システムは,トレーニング中にメリースペクトルを動的に生成できる。 このドメインからのテキストのみのデータを使用することで、ASRモデルを新しいドメインに適応することができる。 提案手法は,書き起こし音声のみを訓練したシステムと比較して,ASRの精度を大幅に向上することを示した。 また、ヴォコーダを備えたカスケードTSシステムを超え、適応品質とトレーニング速度を向上する。

We propose an end-to-end Automatic Speech Recognition (ASR) system that can be trained on transcribed speech data, text-only data, or a mixture of both. The proposed model uses an integrated auxiliary block for text-based training. This block combines a non-autoregressive multi-speaker text-to-mel-spectrogram generator with a GAN-based enhancer to improve the spectrogram quality. The proposed system can generate a mel-spectrogram dynamically during training. It can be used to adapt the ASR model to a new domain by using text-only data from this domain. We demonstrate that the proposed training method significantly improves ASR accuracy compared to the system trained on transcribed speech only. It also surpasses cascade TTS systems with the vocoder in the adaptation quality and training speed.
翻訳日:2023-08-17 17:33:44 公開日:2023-08-16
# 中間量子コンピュータにおけるユニタリの線形結合の実装

Implementing any Linear Combination of Unitaries on Intermediate-term Quantum Computers ( http://arxiv.org/abs/2302.13555v2 )

ライセンス: Link先を確認
Shantanav Chakraborty(参考訳) 多様なアプリケーションを持つ強力な量子アルゴリズムツールであるLCU(Linear Combination of Unitary)を実装するための3つの新しい手法を開発した。 標準的なLCU手順では、いくつかのアンシラ量子ビットと高度なマルチキュービット制御を必要とするが、我々の手法は量子リソースを著しく少なく消費する。 第1の方法(single-ancilla lcu)は、1つのancilla qubitとより短い深さの量子回路のみを必要とする一方、lcuによって作成された量子状態に対する可観測性の期待値を推定する。 第2のアプローチ(Analog LCU)は、LCUの単純で物理的に動機づけられた連続時間アナログであり、ハイブリッド量子モードシステムに適合する。 第3の手法(アンシラフリーLCU)は、アンシラ量子ビットを全く必要とせず、あるサブ空間の量子状態(LCUプロシージャによって作成される)の射影に関心がある場合に有用である。 最初の2つの手法を応用して,ハミルトニアンシミュレーション,基底状態生成と特性推定,量子線形系など,幅広い実用的問題に対する新しい量子アルゴリズムの開発を行った。 驚くべきことに、量子リソースは少ないにもかかわらず、証明可能な量子アドバンテージを保ちます。 第3のテクニックは、離散的かつ連続的な量子ウォークと古典的なウォークを接続することを可能にする。 また、これら両方のフレームワークで最近開発された最適量子空間探索アルゴリズムを統一し、新しいものの開発に繋がる。 さらに,この手法を用いて,離散時間と連続時間量子ウォークの関係を確立し,長期にわたるオープン問題に突入する。

We develop three new methods to implement any Linear Combination of Unitaries (LCU), a powerful quantum algorithmic tool with diverse applications. While the standard LCU procedure requires several ancilla qubits and sophisticated multi-qubit controlled operations, our methods consume significantly fewer quantum resources. The first method (Single-Ancilla LCU) estimates expectation values of observables with respect to any quantum state prepared by an LCU procedure while requiring only a single ancilla qubit, and quantum circuits of shorter depths. The second approach (Analog LCU) is a simple, physically motivated, continuous-time analogue of LCU, tailored to hybrid qubit-qumode systems. The third method (Ancilla-free LCU) requires no ancilla qubit at all and is useful when we are interested in the projection of a quantum state (prepared by the LCU procedure) in some subspace of interest. We apply the first two techniques to develop new quantum algorithms for a wide range of practical problems, ranging from Hamiltonian simulation, ground state preparation and property estimation, and quantum linear systems. Remarkably, despite consuming fewer quantum resources they retain a provable quantum advantage. The third technique allows us to connect discrete and continuous-time quantum walks with their classical counterparts. It also unifies the recently developed optimal quantum spatial search algorithms in both these frameworks, and leads to the development of new ones. Additionally, using this method, we establish a relationship between discrete-time and continuous-time quantum walks, making inroads into a long-standing open problem.
翻訳日:2023-08-17 17:33:31 公開日:2023-08-16
# 限定クエリグラフ接続性テスト

Limited Query Graph Connectivity Test ( http://arxiv.org/abs/2302.13036v2 )

ライセンス: Link先を確認
Mingyu Guo, Jialiang Li, Aneta Neumann, Frank Neumann, Hung Nguyen(参考訳) 本稿では,限定クエリグラフ接続テストと呼ばれる組合せ最適化モデルを提案する。 エッジが2つの可能な状態(On/Off)を持つグラフを考える。 エッジの状態は最初に隠れている。 エッジをクエリしてその状態を明らかにすることができます。 ソースsと宛先tが与えられた場合、経路(オンエッジのみ)とカット(オフエッジのみ)を識別してs-t接続をテストする。 グラフ接続が確立されたかどうかに関わらず、Bクエリに制限されています。 期待されるクエリ数を最小化するクエリポリシーを設計することを目指している。 我々のモデルは、主にサイバーセキュリティのユースケースに動機付けられており、攻撃経路がネットワーク内、つまりソースと宛先の間に存在するかどうかを確立する必要がある。 エッジクエリは、クエリ最小化の背後にあるモチベーションであるIT管理者の手作業によって解決される。 本モデルはSBFE (monotone Stochastic Boolean Function Evaluation) と密接に関連している。 SBFEには、違法に高価である2つの正確なアルゴリズムがある。 我々はよりスケーラブルな完全アルゴリズムを提案する。 従来の正確なアルゴリズムは、自明なグラフ(つまり、少なくとも20のエッジで実験された過去の作業)に対してのみスケールするが、我々のアルゴリズムは、より広い範囲の実用的なグラフ(例えば、数万のエッジを持つWindowsドメインネットワークグラフ)に対してスケーラブルであることを実証的に実証する。 我々は3つのヒューリスティックを提案する。 我々の最も優れたヒューリスティックは、正確なアルゴリズムの探索地平線を減らすことである。 他の2つは強化学習(RL)とモンテカルロ木探索(MCTS)である。 また,性能下限を計算するためのanytimeアルゴリズムも導出する。 実験では、全てのヒューリスティックがほぼ最適であることを示す。 正確なアルゴリズムに基づくヒューリスティックは、SBFEと関連する文献から移植されたRL、MCTS、および8つの既存のヒューリスティックを上回っている。

We propose a combinatorial optimisation model called Limited Query Graph Connectivity Test. We consider a graph whose edges have two possible states (On/Off). The edges' states are hidden initially. We could query an edge to reveal its state. Given a source s and a destination t, we aim to test s-t connectivity by identifying either a path (consisting of only On edges) or a cut (consisting of only Off edges). We are limited to B queries, after which we stop regardless of whether graph connectivity is established. We aim to design a query policy that minimizes the expected number of queries. Our model is mainly motivated by a cyber security use case where we need to establish whether an attack path exists in a network, between a source and a destination. Edge query is resolved by manual effort from the IT admin, which is the motivation behind query minimization. Our model is highly related to monotone Stochastic Boolean Function Evaluation (SBFE). There are two existing exact algorithms for SBFE that are prohibitively expensive. We propose a significantly more scalable exact algorithm. While previous exact algorithms only scale for trivial graphs (i.e., past works experimented on at most 20 edges), we empirically demonstrate that our algorithm is scalable for a wide range of much larger practical graphs (i.e., Windows domain network graphs with tens of thousands of edges). We propose three heuristics. Our best-performing heuristic is via reducing the search horizon of the exact algorithm. The other two are via reinforcement learning (RL) and Monte Carlo tree search (MCTS). We also derive an anytime algorithm for computing the performance lower bound. Experimentally, we show that all our heuristics are near optimal. The exact algorithm based heuristic outperforms all, surpassing RL, MCTS and 8 existing heuristics ported from SBFE and related literature.
翻訳日:2023-08-17 17:33:00 公開日:2023-08-16
# 生成型NeRFを用いた3次元ブレンディング

3D-aware Blending with Generative NeRFs ( http://arxiv.org/abs/2302.06608v3 )

ライセンス: Link先を確認
Hyunsu Kim, Gayoung Lee, Yunjey Choi, Jin-Hwa Kim, Jun-Yan Zhu(参考訳) 画像ブレンディングは、複数の画像をシームレスに組み合わせることを目的としている。 既存の2D方式では、特に3Dカメラのポーズとオブジェクト形状の違いにより入力画像が不一致である場合、依然として困難である。 そこで本研究では,3d-aware alignmentと3d-aware blendingの2つの主要コンポーネントを含む,生成的ニューラルネットワーク放射場(nerf)を用いた3d-aware blending法を提案する。 3d認識アライメントでは,まず基準画像のカメラポーズを生成型nerfに対して推定し,各部分に対して3d局所アライメントを行う。 生成したNeRFの3D情報をさらに活用するために,原画素空間ではなく,NeRFの潜在表現空間上で直接画像をブレンドする3D対応ブレンディングを提案する。 本手法は,FFHQとAFHQ-Catによる定量的,定性的な評価により,既存の2次元ベースラインよりも優れていた。

Image blending aims to combine multiple images seamlessly. It remains challenging for existing 2D-based methods, especially when input images are misaligned due to differences in 3D camera poses and object shapes. To tackle these issues, we propose a 3D-aware blending method using generative Neural Radiance Fields (NeRF), including two key components: 3D-aware alignment and 3D-aware blending. For 3D-aware alignment, we first estimate the camera pose of the reference image with respect to generative NeRFs and then perform 3D local alignment for each part. To further leverage 3D information of the generative NeRF, we propose 3D-aware blending that directly blends images on the NeRF's latent representation space, rather than raw pixel space. Collectively, our method outperforms existing 2D baselines, as validated by extensive quantitative and qualitative evaluations with FFHQ and AFHQ-Cat.
翻訳日:2023-08-17 17:32:31 公開日:2023-08-16
# box$^2$el: 記述論理el++のための概念とロールボックス埋め込み

Box$^2$EL: Concept and Role Box Embeddings for the Description Logic EL++ ( http://arxiv.org/abs/2301.11118v3 )

ライセンス: Link先を確認
Mathias Jackermeier, Jiaoyan Chen, Ian Horrocks(参考訳) 記述論理(DL)オントロジーは知識グラフ(KG)を概念情報と論理背景知識で拡張する。 近年,古典的帰納的推論アルゴリズムを補完する存在論に対する帰納的推論手法への関心が高まっている。 KG 補完と同様に、いくつかの既存のアプローチは、潜在空間におけるオントロジーの埋め込みを学習し、基礎となる DL の論理的意味を忠実に捉えることを保証する。 しかし、主に役割表現の制限のため、いくつかの欠点に苦しむ。 ボックスとしての概念と役割を両立するBox$2$EL(軸方向のハイパー矩形)を提案し,従来の手法の限界を克服する方法を実証する。 我々は理論的にモデルの健全性を証明し、様々なデータセットにまたがって最先端の結果を達成し、広範な実験的評価を行う。 評価の一環として,原子概念と複素概念の両方を含む仮定予測のための新しいベンチマークを導入する。

Description logic (DL) ontologies extend knowledge graphs (KGs) with conceptual information and logical background knowledge. In recent years, there has been growing interest in inductive reasoning techniques for such ontologies, which promise to complement classical deductive reasoning algorithms. Similar to KG completion, several existing approaches learn ontology embeddings in a latent space, while additionally ensuring that they faithfully capture the logical semantics of the underlying DL. However, they suffer from several shortcomings, mainly due to a limiting role representation. We propose Box$^2$EL, which represents both concepts and roles as boxes (i.e., axis-aligned hyperrectangles) and demonstrate how it overcomes the limitations of previous methods. We theoretically prove the soundness of our model and conduct an extensive experimental evaluation, achieving state-of-the-art results across a variety of datasets. As part of our evaluation, we introduce a novel benchmark for subsumption prediction involving both atomic and complex concepts.
翻訳日:2023-08-17 17:31:36 公開日:2023-08-16
# 言語モデルに基づく知識グラフ埋め込みの編集

Editing Language Model-based Knowledge Graph Embeddings ( http://arxiv.org/abs/2301.10405v5 )

ライセンス: Link先を確認
Siyuan Cheng, Ningyu Zhang, Bozhong Tian, Xi Chen, Qingbing Liu, Huajun Chen(参考訳) 近年では言語モデルによる知識グラフ(kg)埋め込みが実証的に成功している。 しかしながら、言語モデルに基づくkg埋め込みは通常、静的アーティファクトとしてデプロイされるため、デプロイ後に再トレーニングすることなく、デプロイ後の修正が困難になる。 そこで本稿では,言語モデルに基づくKG埋め込みを編集する新しいタスクを提案する。 このタスクは、他の側面のパフォーマンスを損なうことなく、高速でデータ効率のよいKG埋め込みの更新を容易にするように設計されている。 e-fb15k237,a-fb15k237,e-wn18rr,a-wn18rrの4つの新しいデータセットを構築し,提案課題に対処するための既存モデルの限られた能力を示す,いくつかの知識編集ベースラインを評価した。 さらに,ハイパーネットワークのパラメトリック層を追加して事実の編集・追加を行う,シンプルかつ強力なベースラインであるkgeditorを提案する。 総合的な実験結果から,KGEditorは,限られたトレーニングリソースに直面した場合でも,全体のパフォーマンスに影響を与えることなく,特定の事実の更新に優れることがわかった。 コードとデータセットはhttps://github.com/zjunlp/PromptKG/tree/main/deltaKGで入手できる。

Recently decades have witnessed the empirical success of framing Knowledge Graph (KG) embeddings via language models. However, language model-based KG embeddings are usually deployed as static artifacts, making them difficult to modify post-deployment without re-training after deployment. To address this issue, we propose a new task of editing language model-based KG embeddings in this paper. This task is designed to facilitate rapid, data-efficient updates to KG embeddings without compromising the performance of other aspects. We build four new datasets: E-FB15k237, A-FB15k237, E-WN18RR, and A-WN18RR, and evaluate several knowledge editing baselines demonstrating the limited ability of previous models to handle the proposed challenging task. We further propose a simple yet strong baseline dubbed KGEditor, which utilizes additional parametric layers of the hyper network to edit/add facts. Our comprehensive experimental results reveal that KGEditor excels in updating specific facts without impacting the overall performance, even when faced with limited training resources. Code and datasets are available in https://github.com/zjunlp/PromptKG/tree/main/deltaKG.
翻訳日:2023-08-17 17:31:21 公開日:2023-08-16
# 商用機器のリアルタイムRFフィンガープリントのためのBluetoothとWiFiデータセット

Bluetooth and WiFi Dataset for Real World RF Fingerprinting of Commercial Devices ( http://arxiv.org/abs/2303.13538v2 )

ライセンス: Link先を確認
Anu Jagannath, Zackary Kane, Jithin Jagannath(参考訳) RFフィンガープリンティングは、RFスペクトルを共有する不正または/または不正なエミッタを特定する物理層セキュリティスキームとして登場している。 しかし、一般にアクセス可能な実世界のデータセットがないため、ほとんどの研究は、実用的な配置設定には適さないsoftware-defined radios (sdr) による合成波形の生成に焦点を当てている。 一方、利用可能な限られたデータセットは、1種類の波形のみを生成するチップセットにのみフォーカスする。 ラップトップやアダプタ、ワイヤレス充電器、raspberry piなど、共通のデュアルバンドアンテナ上で2つのワイヤレス標準(例えばwifiとbluetooth)をサポートする商用オフ・ザ・棚(cots)コンボチップセットが、iotの世界においてユビキタスになってきている。 したがって、現代的なIoT環境に追従するため、異種通信プロトコルを伝達するこれらのコンボチップセットからの排出をキャプチャする、現実世界のオープンデータセットの必要性が高まっている。 この目的のために、我々は2つの異なる時間枠でWiFiとBluetoothを伝送するCOTS IoTチップセットからの既知の最初の排出をキャプチャした。 異なる時間枠はモデルの一般化能力を厳格に評価するために不可欠である。 広く使用するために、72GBデータセット内の各キャプチャは、多様な入力テンソルの長さとフォーマットをサポートするのに十分な長さ(40MSamples)である。 最後に、データセットは、現実世界の設定で遭遇した高信号強度の損失を考慮し、様々な信号パワーでの排出も含んでいる。

RF fingerprinting is emerging as a physical layer security scheme to identify illegitimate and/or unauthorized emitters sharing the RF spectrum. However, due to the lack of publicly accessible real-world datasets, most research focuses on generating synthetic waveforms with software-defined radios (SDRs) which are not suited for practical deployment settings. On other hand, the limited datasets that are available focus only on chipsets that generate only one kind of waveform. Commercial off-the-shelf (COTS) combo chipsets that support two wireless standards (for example WiFi and Bluetooth) over a shared dual-band antenna such as those found in laptops, adapters, wireless chargers, Raspberry Pis, among others are becoming ubiquitous in the IoT realm. Hence, to keep up with the modern IoT environment, there is a pressing need for real-world open datasets capturing emissions from these combo chipsets transmitting heterogeneous communication protocols. To this end, we capture the first known emissions from the COTS IoT chipsets transmitting WiFi and Bluetooth under two different time frames. The different time frames are essential to rigorously evaluate the generalization capability of the models. To ensure widespread use, each capture within the comprehensive 72 GB dataset is long enough (40 MSamples) to support diverse input tensor lengths and formats. Finally, the dataset also comprises emissions at varying signal powers to account for the feeble to high signal strength emissions as encountered in a real-world setting.
翻訳日:2023-08-17 17:24:20 公開日:2023-08-16
# テキスト・画像拡散モデルにおけるアブラッティング概念

Ablating Concepts in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2303.13516v3 )

ライセンス: Link先を確認
Nupur Kumari, Bingliang Zhang, Sheng-Yu Wang, Eli Shechtman, Richard Zhang, Jun-Yan Zhu(参考訳) 大規模テキストから画像への拡散モデルは、強力な合成能力を持つ高忠実度画像を生成することができる。 しかし、これらのモデルは、典型的には膨大な量のインターネットデータに基づいて訓練され、しばしば著作権のある資料、ライセンスされた画像、個人写真を含んでいる。 また、様々なライブアーティストのスタイルを再現したり、正確なトレーニングサンプルを記憶したりもしている。 モデルをスクラッチからトレーニングすることなく、そのような著作権付き概念やイメージをどうやって除去できるのか? この目的を達成するために, 事前学習モデルにおける概念のアブレーション, すなわち, 目標概念の生成を防止できる効率的な手法を提案する。 提案アルゴリズムは,画像の分布を対象のスタイル,例えばテキストのプロンプトと一致させることを学習し,アンカーの概念に対応する分布に対応する。 これにより、テキスト条件によってモデルがターゲット概念を生成することを防止する。 実験により,本手法はモデルに密接に関連する概念を保ちながら,アブレーションの概念の生成を効果的に防止できることを示した。

Large-scale text-to-image diffusion models can generate high-fidelity images with powerful compositional ability. However, these models are typically trained on an enormous amount of Internet data, often containing copyrighted material, licensed images, and personal photos. Furthermore, they have been found to replicate the style of various living artists or memorize exact training samples. How can we remove such copyrighted concepts or images without retraining the model from scratch? To achieve this goal, we propose an efficient method of ablating concepts in the pretrained model, i.e., preventing the generation of a target concept. Our algorithm learns to match the image distribution for a target style, instance, or text prompt we wish to ablate to the distribution corresponding to an anchor concept. This prevents the model from generating target concepts given its text condition. Extensive experiments show that our method can successfully prevent the generation of the ablated concept while preserving closely related concepts in the model.
翻訳日:2023-08-17 17:23:54 公開日:2023-08-16
# SHERF:1枚の画像から一般化可能なヒトのNeRF

SHERF: Generalizable Human NeRF from a Single Image ( http://arxiv.org/abs/2303.12791v2 )

ライセンス: Link先を確認
Shoukang Hu, Fangzhou Hong, Liang Pan, Haiyi Mei, Lei Yang, Ziwei Liu(参考訳) 既存の3D人間を再構築するためのNeRF法は、通常、複数のビューカメラからの複数の2D画像や固定カメラビューから撮影されたモノクロビデオに依存している。 しかし、現実のシナリオでは、人間の画像はしばしばランダムなカメラアングルから捉えられ、高品質な3d人間の再構築に挑戦する。 本稿では,1つの入力画像からアニマタブルな3D人間を復元するための,最初の一般化可能なヒトNeRFモデルであるSHERFを提案する。 SHERFは、標準空間における3D人間の表現を抽出し、符号化し、自由なビューとポーズからレンダリングとアニメーションを可能にする。 高忠実なノベルビューとポーズ合成を実現するために、符号化された3次元人間の表現は、グローバルな外観と局所的なきめ細かいテクスチャの両方を捉える必要がある。 そこで本稿では,情報エンコーディングを容易にするために,グローバル,ポイントレベル,ピクセルアライメントなどの3d対応階層的特徴のバンクを提案する。 グローバル特徴は、単一入力画像から抽出された情報を強化し、部分2次元観測から欠落した情報を補完する。 ポイントレベルの特徴は、人間の3D構造の強力な手がかりとなる。 3D対応の階層的特徴バンクを効果的に統合するために,特徴融合変換器を設計する。 THuman, RenderPeople, ZJU_MoCap, HuMManデータセットの大規模な実験は、SHERFが最先端のパフォーマンスを達成し、新しいビューやポーズ合成の一般化性が向上していることを示している。

Existing Human NeRF methods for reconstructing 3D humans typically rely on multiple 2D images from multi-view cameras or monocular videos captured from fixed camera views. However, in real-world scenarios, human images are often captured from random camera angles, presenting challenges for high-quality 3D human reconstruction. In this paper, we propose SHERF, the first generalizable Human NeRF model for recovering animatable 3D humans from a single input image. SHERF extracts and encodes 3D human representations in canonical space, enabling rendering and animation from free views and poses. To achieve high-fidelity novel view and pose synthesis, the encoded 3D human representations should capture both global appearance and local fine-grained textures. To this end, we propose a bank of 3D-aware hierarchical features, including global, point-level, and pixel-aligned features, to facilitate informative encoding. Global features enhance the information extracted from the single input image and complement the information missing from the partial 2D observation. Point-level features provide strong clues of 3D human structure, while pixel-aligned features preserve more fine-grained details. To effectively integrate the 3D-aware hierarchical feature bank, we design a feature fusion transformer. Extensive experiments on THuman, RenderPeople, ZJU_MoCap, and HuMMan datasets demonstrate that SHERF achieves state-of-the-art performance, with better generalizability for novel view and pose synthesis.
翻訳日:2023-08-17 17:23:38 公開日:2023-08-16
# 自律運転のためのベクトル表現を用いた社会咬合推定

Social Occlusion Inference with Vectorized Representation for Autonomous Driving ( http://arxiv.org/abs/2303.10385v2 )

ライセンス: Link先を確認
Bochao Huang and Pin(参考訳) 自動運転車は、安全かつ効率的な運転を確保するために、環境の閉塞を処理できる必要がある。 都市環境においては、エゴ車両の知覚を損なう他の車両による閉塞が発生することが多い。 閉塞状態は車両の軌道に影響を及ぼす可能性があるため、他の車両の挙動は、閉塞を知覚障害の治療法として推測するのに役立つ。 本稿では,エージェントの軌跡とシーンの文脈からエゴ車両の視点を表す占有グリッドマップ(occupancy grid map,ogm)へのマッピングを学習する新しい社会咬合推定手法を提案する。 特に、ベクトル化された特徴はポリラインエンコーダを介して符号化され、ベクトルの特徴をポリラインの特徴に集約する。 次にトランスフォーマーモジュールを使用してポリラインの高次相互作用をモデル化する。 重要なことは、ポリリンの特徴を融合させ、視覚的モダリティを入力せずにOGMを生成するために、オクルージョンクエリを提案することである。 ベクトル化表現の性能を検証するために, 完全トランスフォーマーエンコーダ-デコーダアーキテクチャに基づくベースラインの設計を行い, ogmをオクルージョンにマッピングし, 歴史的軌跡情報をグランド・トゥルートogmにマッピングする。 我々は,現状の成果よりも優れるInterActionデータセットにおける無署名の交差点に対するアプローチを評価する。

Autonomous vehicles must be capable of handling the occlusion of the environment to ensure safe and efficient driving. In urban environment, occlusion often arises due to other vehicles obscuring the perception of the ego vehicle. Since the occlusion condition can impact the trajectories of vehicles, the behavior of other vehicles is helpful in making inferences about the occlusion as a remedy for perceptual deficiencies. This paper introduces a novel social occlusion inference approach that learns a mapping from agent trajectories and scene context to an occupancy grid map (OGM) representing the view of ego vehicle. Specially, vectorized features are encoded through the polyline encoder to aggregate features of vectors into features of polylines. A transformer module is then utilized to model the high-order interactions of polylines. Importantly, occlusion queries are proposed to fuse polyline features and generate the OGM without the input of visual modality. To verify the performance of vectorized representation, we design a baseline based on a fully transformer encoder-decoder architecture mapping the OGM with occlusion and historical trajectories information to the ground truth OGM. We evaluate our approach on an unsignalized intersection in the INTERACTION dataset, which outperforms the state-of-the-art results.
翻訳日:2023-08-17 17:22:49 公開日:2023-08-16
# CHAMPAGNE: 大規模Webビデオから実世界の会話を学ぶ

CHAMPAGNE: Learning Real-world Conversation from Large-Scale Web Videos ( http://arxiv.org/abs/2303.09713v2 )

ライセンス: Link先を確認
Seungju Han, Jack Hessel, Nouha Dziri, Yejin Choi, Youngjae Yu(参考訳) 視覚情報は会話の中心であり、例えば身体のジェスチャーや身体的な振る舞いは、単語のみを超越する意味に寄与する。 しかし今のところ、ほとんどのニューラルな会話モデルはテキストのみに限られている。 本稿では,視覚的文脈を考慮した会話生成モデルCHAMPAGNEを紹介する。 CHAMPAGNEを訓練するために,大規模な18Mビデオ対話コーパスYTD-18Mを収集・リリースする。 YTD-18MはWebビデオから構築されている: 我々のデータ収集パイプラインにとって重要なのは、エラーを起こしやすい自動書き起こしを、意味を保ちながらよりクリーンな対話形式に変換する事前訓練された言語モデルである。 人間による評価では、ytd-18mは視覚的な接地性を維持しつつ、以前の資源(mmダイアログ、1m対話)よりも賢明で特定できる。 実験が示すのは 1)CHAMPAGNEはYTD-18Mから会話を学習し、 2)詳細な調整を行うと,実世界の会話に注目した4つの視覚言語タスクの最先端結果が得られる。 データ、モデル、コードをリリースします。

Visual information is central to conversation: body gestures and physical behaviour, for example, contribute to meaning that transcends words alone. To date, however, most neural conversational models are limited to just text. We introduce CHAMPAGNE, a generative model of conversations that can account for visual contexts. To train CHAMPAGNE, we collect and release YTD-18M, a large-scale corpus of 18M video-based dialogues. YTD-18M is constructed from web videos: crucial to our data collection pipeline is a pretrained language model that converts error-prone automatic transcripts to a cleaner dialogue format while maintaining meaning. Human evaluation reveals that YTD-18M is more sensible and specific than prior resources (MMDialog, 1M dialogues), while maintaining visual-groundedness. Experiments demonstrate that 1) CHAMPAGNE learns to conduct conversation from YTD-18M; and 2) when fine-tuned, it achieves state-of-the-art results on four vision-language tasks focused on real-world conversations. We release data, models, and code.
翻訳日:2023-08-17 17:21:58 公開日:2023-08-16
# DiffIR:画像復元のための効率的な拡散モデル

DiffIR: Efficient Diffusion Model for Image Restoration ( http://arxiv.org/abs/2303.09472v3 )

ライセンス: Link先を確認
Bin Xia, Yulun Zhang, Shiyin Wang, Yitong Wang, Xinglong Wu, Yapeng Tian, Wenming Yang, and Luc Van Gool(参考訳) 拡散モデル(DM)は、画像合成過程をデノナイジングネットワークのシーケンシャルな応用にモデル化することで、SOTA性能を達成した。 しかし、画像合成とは違って、画像復元(IR)は、地上構造に応じて結果を生成するのに強い制約がある。 したがって、IRの場合、画像全体や特徴マップを推定する大規模なモデルで大規模なイテレーションを実行する従来のDMは非効率である。 この問題に対処するために、コンパクトIR先行抽出ネットワーク(CPEN)、動的IRトランスフォーマ(DIRformer)、復調ネットワーク(denoising network)からなるIR(DiffIR)のための効率的なDMを提案する。 具体的には、DiffIRには2つのトレーニングステージがある。 事前トレーニングでは, CPEN$_{S1}$に接地画像を入力することで, コンパクトIR先行表現(IPR)を捕捉し, DIRformerを誘導する。 第2段階では、LQ画像のみを用いて事前訓練されたCPEN$_{S1}$と同じIRPを直接推定するようにDMを訓練する。 IPRはコンパクトなベクトルであるため、DiffIRは従来のDMよりも少ないイテレーションで正確な推定を行い、より安定でリアルな結果を生成することができる。 繰り返しは少ないので、我々のDiffIRはCPEN$_{S2}$, DIRformer, denoising Networkを併用することで、推定誤差の影響をさらに低減することができる。 計算コストを削減しつつ、複数のIRタスクを広範囲に実験し、SOTA性能を達成する。 コードは \url{https://github.com/zj-binxia/diffir} で入手できる。

Diffusion model (DM) has achieved SOTA performance by modeling the image synthesis process into a sequential application of a denoising network. However, different from image synthesis, image restoration (IR) has a strong constraint to generate results in accordance with ground-truth. Thus, for IR, traditional DMs running massive iterations on a large model to estimate whole images or feature maps is inefficient. To address this issue, we propose an efficient DM for IR (DiffIR), which consists of a compact IR prior extraction network (CPEN), dynamic IR transformer (DIRformer), and denoising network. Specifically, DiffIR has two training stages: pretraining and training DM. In pretraining, we input ground-truth images into CPEN$_{S1}$ to capture a compact IR prior representation (IPR) to guide DIRformer. In the second stage, we train the DM to directly estimate the same IRP as pretrained CPEN$_{S1}$ only using LQ images. We observe that since the IPR is only a compact vector, DiffIR can use fewer iterations than traditional DM to obtain accurate estimations and generate more stable and realistic results. Since the iterations are few, our DiffIR can adopt a joint optimization of CPEN$_{S2}$, DIRformer, and denoising network, which can further reduce the estimation error influence. We conduct extensive experiments on several IR tasks and achieve SOTA performance while consuming less computational costs. Code is available at \url{https://github.com/Zj-BinXia/DiffIR}.
翻訳日:2023-08-17 17:21:38 公開日:2023-08-16
# dinar: 一発ヒトアバターの神経テクスチャの拡散インパインティング

DINAR: Diffusion Inpainting of Neural Textures for One-Shot Human Avatars ( http://arxiv.org/abs/2303.09375v3 )

ライセンス: Link先を確認
David Svitov, Dmitrii Gudkov, Renat Bashirov, Victor Lempitsky(参考訳) DINARは、1枚のRGB画像から現実的なフルボディアバターを作成するためのアプローチである。 従来の研究と同様に, SMPL-Xボディーモデルと組み合わせた神経テクスチャを用いて, アバターのフォトリアリスティックな品質を実現し, アニメーションや高速な推論を実現している。 テクスチャを復元するために、潜伏拡散モデルを使用し、そのようなモデルを神経テクスチャ空間でどのようにトレーニングするかを示す。 拡散モデルを用いることで、正面から見ると人物の背中のような大きな目立たない領域を現実的に再構築することができる。 パイプライン内のモデルは、2D画像とビデオのみを使用してトレーニングされています。 実験では,最先端のレンダリング品質と,新たなポーズや視点への優れた一般化を実現する。 特に、このアプローチはSnapshotPeople公開ベンチマークの最先端を改善している。

We present DINAR, an approach for creating realistic rigged fullbody avatars from single RGB images. Similarly to previous works, our method uses neural textures combined with the SMPL-X body model to achieve photo-realistic quality of avatars while keeping them easy to animate and fast to infer. To restore the texture, we use a latent diffusion model and show how such model can be trained in the neural texture space. The use of the diffusion model allows us to realistically reconstruct large unseen regions such as the back of a person given the frontal view. The models in our pipeline are trained using 2D images and videos only. In the experiments, our approach achieves state-of-the-art rendering quality and good generalization to new poses and viewpoints. In particular, the approach improves state-of-the-art on the SnapshotPeople public benchmark.
翻訳日:2023-08-17 17:21:09 公開日:2023-08-16
# mixcycle:mixup支援の半教師付き3dシングルオブジェクトトラッキング

MixCycle: Mixup Assisted Semi-Supervised 3D Single Object Tracking with Cycle Consistency ( http://arxiv.org/abs/2303.09219v2 )

ライセンス: Link先を確認
Qiao Wu, Jiaqi Yang, Kun Sun, Chu'ai Zhang, Yanning Zhang, Mathieu Salzmann(参考訳) 3Dシングルオブジェクトトラッキング(SOT)は、自動走行には不可欠である。 既存のアプローチは、大きなラベル付きデータセットに大きく依存している。 しかし、ポイントクラウドの注釈はコストも時間もかかる。 教師なし2次元SOTにおけるサイクルトラッキングの大成功に触発されて,我々は最初の半教師付きアプローチを3次元SOTに導入した。 具体的には,2つのサイクル整合性戦略を導入する。 1) ラベルを活用する自己追跡サイクルは、トレーニングの初期段階において、モデルがよりよく収束するのに役立つ。 2) フォワード・バック・サイクルは, 動作変動に対するトラッカーの頑健さとテンプレート更新戦略によるテンプレートノイズを高める。 さらに,クラウドの多様性を指摘するためのトラッカーの堅牢性を改善するため,SOTMixupというデータ拡張戦略を提案する。 SOTMixupは、2点の雲中の点を混合速度でサンプリングしてトレーニングサンプルを生成し、混合速度に応じてトレーニングに適切な損失重みを割り当てる。 結果としてMixCycleアプローチは、外観マッチングベースのトラッカーに一般化される。 KITTIベンチマークでは、P2Bトラッカーに基づいて、MixCycleは$\textbf{10\%}$ラベルでトレーニングされ、$\textbf{100\%}$ラベルでトレーニングされたP2Bよりも優れ、$\textbf{28.4\%}$精度の改善を$\textbf{1\%}$ラベルで達成した。 私たちのコードは \url{https://github.com/Mumuqiao/MixCycle} でリリースされます。

3D single object tracking (SOT) is an indispensable part of automated driving. Existing approaches rely heavily on large, densely labeled datasets. However, annotating point clouds is both costly and time-consuming. Inspired by the great success of cycle tracking in unsupervised 2D SOT, we introduce the first semi-supervised approach to 3D SOT. Specifically, we introduce two cycle-consistency strategies for supervision: 1) Self tracking cycles, which leverage labels to help the model converge better in the early stages of training; 2) forward-backward cycles, which strengthen the tracker's robustness to motion variations and the template noise caused by the template update strategy. Furthermore, we propose a data augmentation strategy named SOTMixup to improve the tracker's robustness to point cloud diversity. SOTMixup generates training samples by sampling points in two point clouds with a mixing rate and assigns a reasonable loss weight for training according to the mixing rate. The resulting MixCycle approach generalizes to appearance matching-based trackers. On the KITTI benchmark, based on the P2B tracker, MixCycle trained with $\textbf{10\%}$ labels outperforms P2B trained with $\textbf{100\%}$ labels, and achieves a $\textbf{28.4\%}$ precision improvement when using $\textbf{1\%}$ labels. Our code will be released at \url{https://github.com/Mumuqiao/MixCycle}.
翻訳日:2023-08-17 17:20:53 公開日:2023-08-16
# シーケンシャル転送最適化のためのスケーラブルなテスト問題生成器

A Scalable Test Problem Generator for Sequential Transfer Optimization ( http://arxiv.org/abs/2304.08503v3 )

ライセンス: Link先を確認
Xiaoming Xue and Cuie Yang and Liang Feng and Kai Zhang and Linqi Song and Kay Chen Tan(参考訳) データベースに格納された複数の最適化タスクから得られた知識を活用することで,タスクの最適化性能を向上させることを目的としたシーケンス転送最適化(STO)が,近年注目されている。 しかし、アルゴリズム設計の著しい進歩にもかかわらず、stoアルゴリズムの包括的比較のための体系的ベンチマークスイートの開発は、あまり注目されなかった。 既存のテスト問題は、単に他のベンチマーク関数を組み立てることによって生成されるか、あるいは限られたバリエーションで特定の実践的な問題から拡張される。 これらの問題におけるソースの最適解と対象タスクの関係は常に手動で設定され、現実世界の問題で提示される異なる関係をモデル化する能力を制限する。 したがって、これらの問題に対するアルゴリズムによる優れた性能は偏りがあり、他の問題にも一般化できない。 そこで本研究では,sto問題(停止)を特徴付けるための4つのルーディメンタリー概念,すなわち,ソースのオプティマと対象タスクの関係を定量的に記述する類似度分布を提案する。 次に,汎用設計ガイドラインと,スケーラビリティに優れた問題発生器を提案する。 具体的には、STOPの類似度分布を簡単にカスタマイズでき、現実世界の問題の多様な類似度関係の連続スペクトルを表現できる。 最後に、STOアルゴリズムのアリーナとして機能し、より包括的な評価結果を提供するため、様々なカスタマイズされた類似性関係を特徴とする12のSTOPを持つベンチマークスイートを開発した。 問題のジェネレータのソースコードはhttps://github.com/xminghsueh/stop-gで入手できる。

Sequential transfer optimization (STO), which aims to improve the optimization performance on a task at hand by exploiting the knowledge captured from several previously-solved optimization tasks stored in a database, has been gaining increasing research attention over the years. However, despite remarkable advances in algorithm design, the development of a systematic benchmark suite for comprehensive comparisons of STO algorithms received far less attention. Existing test problems are either simply generated by assembling other benchmark functions or extended from specific practical problems with limited variations. The relationships between the optimal solutions of the source and target tasks in these problems are always manually configured, limiting their ability to model different relationships presented in real-world problems. Consequently, the good performance achieved by an algorithm on these problems might be biased and could not be generalized to other problems. In light of the above, in this study, we first introduce four rudimentary concepts for characterizing STO problems (STOPs) and present an important problem feature, namely similarity distribution, which quantitatively delineates the relationship between the optima of the source and target tasks. Then, we propose the general design guidelines and a problem generator with superior scalability. Specifically, the similarity distribution of an STOP can be easily customized, enabling a continuous spectrum of representation of the diverse similarity relationships of real-world problems. Lastly, a benchmark suite with 12 STOPs featured by a variety of customized similarity relationships is developed using the proposed generator, which would serve as an arena for STO algorithms and provide more comprehensive evaluation results. The source code of the problem generator is available at https://github.com/XmingHsueh/STOP-G.
翻訳日:2023-08-17 17:15:21 公開日:2023-08-16
# Swin3D:3D屋内シーン理解のためのトランスフォーマーバックボーン

Swin3D: A Pretrained Transformer Backbone for 3D Indoor Scene Understanding ( http://arxiv.org/abs/2304.06906v3 )

ライセンス: Link先を確認
Yu-Qi Yang, Yu-Xiao Guo, Jian-Yu Xiong, Yang Liu, Hao Pan, Peng-Shuai Wang, Xin Tong, Baining Guo(参考訳) 微調整を伴う事前学習されたバックボーンの使用は、2dビジョンと自然言語処理タスクで成功し、タスク固有のネットワークよりも優れている。 本研究では,3次元屋内シーン理解のための事前訓練された3Dバックボーンである {\SST}を紹介する。 私たちは3dスウィントランスをバックボーンネットワークとして設計し、線形メモリの複雑さでスパースボクセルへの効率的な自己接続を可能にし、バックボーンを大規模モデルやデータセットにスケーラブルにします。 また,ネットワーク性能を向上させるために,点信号の様々な不規則さを捉えるための,一般化された文脈的相対位置埋め込み方式を提案する。 我々は、ScanNetデータセットよりも桁違いの大きさのStructured3Dデータセット上で、大きな {\SST}モデルを事前訓練した。 合成データセットで事前学習したモデルは、実際の3dポイントデータセットの下流セグメンテーションと検出によく適合するだけでなく、+2.3 miouと+2.2 miouでs3dis area5と6倍のセマンティックセグメンテーション、+1.8 miou on scannet segmentation (val)、+1.9 map@0.5、s3dis detectionで+8.1 map@0.5という下流タスクにおける最先端のメソッドよりも優れています。 我々のアプローチによって実現されたスケーラビリティ、汎用性、優れたパフォーマンスをさらに検証する大規模なアブレーション研究のシリーズである。 コードとモデルはhttps://github.com/microsoft/swin3dで入手できる。

The use of pretrained backbones with fine-tuning has been successful for 2D vision and natural language processing tasks, showing advantages over task-specific networks. In this work, we introduce a pretrained 3D backbone, called {\SST}, for 3D indoor scene understanding. We design a 3D Swin transformer as our backbone network, which enables efficient self-attention on sparse voxels with linear memory complexity, making the backbone scalable to large models and datasets. We also introduce a generalized contextual relative positional embedding scheme to capture various irregularities of point signals for improved network performance. We pretrained a large {\SST} model on a synthetic Structured3D dataset, which is an order of magnitude larger than the ScanNet dataset. Our model pretrained on the synthetic dataset not only generalizes well to downstream segmentation and detection on real 3D point datasets, but also outperforms state-of-the-art methods on downstream tasks with +2.3 mIoU and +2.2 mIoU on S3DIS Area5 and 6-fold semantic segmentation, +1.8 mIoU on ScanNet segmentation (val), +1.9 mAP@0.5 on ScanNet detection, and +8.1 mAP@0.5 on S3DIS detection. A series of extensive ablation studies further validate the scalability, generality, and superior performance enabled by our approach. The code and models are available at https://github.com/microsoft/Swin3D .
翻訳日:2023-08-17 17:14:53 公開日:2023-08-16
# 分布的ロバストによるwasserstein距離を用いた後悔の最適制御

A Distributionally Robust Approach to Regret Optimal Control using the Wasserstein Distance ( http://arxiv.org/abs/2304.06783v2 )

ライセンス: Link先を確認
Feras Al Taha, Shuhao Yan, Eilyan Bitar(参考訳) 本稿では,2次コストの離散時間線形力学系の状態過程における確率的加法的乱れを考慮した最適制御に対する分布的ロバストなアプローチを提案する。 乱れ過程の基本的な確率分布は分かっていないが、2型ワッサーシュタイン距離で定義された分布の球にあると仮定される。 このフレームワークでは、厳密な因果的線形外乱フィードバックコントローラは、最悪の場合に期待される後悔を最小限に抑えるように設計されている。 コントローラが生み出した後悔は、外乱プロセスの実現に応答して発生したコストと、外乱プロセス実現の完全な知識を有する最適非外乱コントローラが発生したコストとの差として定義される。 最適輸送問題に対するよく確立された双対性理論に基づいて、トラクタブル半確定プログラムとしてミニマックス後悔最適制御問題の再構成を導出する。 等価な双対再構成を用いて,ワッサースタイン球の中心の分布と関係して,最悪の場合に期待される後悔を達成する最悪の分布を特徴付ける。 minimax regret 最適制御設計法と分布的ロバストな最適制御法を例と数値実験を用いて比較した。

This paper proposes a distributionally robust approach to regret optimal control of discrete-time linear dynamical systems with quadratic costs subject to a stochastic additive disturbance on the state process. The underlying probability distribution of the disturbance process is unknown, but assumed to lie in a given ball of distributions defined in terms of the type-2 Wasserstein distance. In this framework, strictly causal linear disturbance feedback controllers are designed to minimize the worst-case expected regret. The regret incurred by a controller is defined as the difference between the cost it incurs in response to a realization of the disturbance process and the cost incurred by the optimal noncausal controller which has perfect knowledge of the disturbance process realization at the outset. Building on a well-established duality theory for optimal transport problems, we derive a reformulation of the minimax regret optimal control problem as a tractable semidefinite program. Using the equivalent dual reformulation, we characterize a worst-case distribution achieving the worst-case expected regret in relation to the distribution at the center of the Wasserstein ball. We compare the minimax regret optimal control design method with the distributionally robust optimal control approach using an illustrative example and numerical experiments.
翻訳日:2023-08-17 17:14:08 公開日:2023-08-16
# RD-DPP: 学習データサンプルを多様化する決定点プロセス

RD-DPP: Rate-Distortion Theory Meets Determinantal Point Process to Diversify Learning Data Samples ( http://arxiv.org/abs/2304.04137v2 )

ライセンス: Link先を確認
Xiwen Chen, Huayu Li, Rahul Amin, Abolfazl Razi(参考訳) トラヒックビデオ解析などの実践的な学習タスクでは、利用可能なトレーニングサンプルの数は、通信帯域幅や計算能力の制限など、さまざまな要因によって制限される。 決定点プロセス(Determinantal Point Process, DPP)は、学習品質を高めるために最も多様なサンプルを選択する一般的な方法である。 しかしながら、選択されたサンプルの数は、データサンプルの次元性によって暗示されるカーネルマトリックスのランクに制限される。 第二に、異なる学習タスクに簡単にカスタマイズできない。 本稿では,マルチレベル分類に適したレートゆらぎ(rd)理論に基づいてタスク指向の多様性を測定する新しい方法を提案する。 この目的のために、DPPとRD理論の基本的な関係を確立する。 DPPが選択したデータの多様性の上限は$\textit{phase transition}$という普遍的な傾向を持ち、DPPはサンプル蓄積の開始時にのみ有用であることを示す。 これにより、RD-DPPを最初のデータサンプルを選択するために第1モードで使用し、続いて第2モードで後のサンプルを選択するために(不確実性尺度として)分類不整合を使用するバイモーダル方式が考案された。 この相転移は類似性行列のランクへの制限を解決する。 提案手法を6つの異なるデータセットと5つのベンチマークモデルに適用することにより,任意のサンプリング予算において,ランダム選択,dppベース手法,および不確実性ベースやコアセット法などの代替手法を一貫して上回り,異なる学習タスクに対して高い一般化性を示すことを示唆する。

In some practical learning tasks, such as traffic video analysis, the number of available training samples is restricted by different factors, such as limited communication bandwidth and computation power. Determinantal Point Process (DPP) is a common method for selecting the most diverse samples to enhance learning quality. However, the number of selected samples is restricted to the rank of the kernel matrix implied by the dimensionality of data samples. Secondly, it is not easily customizable to different learning tasks. In this paper, we propose a new way of measuring task-oriented diversity based on the Rate-Distortion (RD) theory, appropriate for multi-level classification. To this end, we establish a fundamental relationship between DPP and RD theory. We observe that the upper bound of the diversity of data selected by DPP has a universal trend of $\textit{phase transition}$, which suggests that DPP is beneficial only at the beginning of sample accumulation. This led to the design of a bi-modal method, where RD-DPP is used in the first mode to select initial data samples, then classification inconsistency (as an uncertainty measure) is used to select the subsequent samples in the second mode. This phase transition solves the limitation to the rank of the similarity matrix. Applying our method to six different datasets and five benchmark models suggests that our method consistently outperforms random selection, DPP-based methods, and alternatives like uncertainty-based and coreset methods under all sampling budgets, while exhibiting high generalizability to different learning tasks.
翻訳日:2023-08-17 17:13:47 公開日:2023-08-16
# 深部ニューラルネットワークのアーキテクチャ保存可能修復

Architecture-Preserving Provable Repair of Deep Neural Networks ( http://arxiv.org/abs/2304.03496v2 )

ライセンス: Link先を確認
Zhe Tao, Stephanie Nawas, Jacqueline Mitchell, Aditya V. Thakur(参考訳) ディープニューラルネットワーク(DNN)は、ソフトウェアにおいてますます重要になってきており、画像認識など、多くの問題に対する最先端のソリューションと考えられている。 しかし、DNNは失敗には程遠いため、DNNの誤った振る舞いは破滅的な現実的な結果をもたらす可能性がある。 本稿では,DNNの修復が可能なアーキテクチャ保存型Vポリトープの問題に対処する。 V-ポリトープはその頂点表現を用いて凸有界ポリトープを定義する。 V-ポリトープの証明可能な修復は、修理されたDNNが与えられたV-ポリトープの無限の点集合上の与えられた仕様を満たすことを保証する。 アーキテクチャを保存する修復は、アーキテクチャを変更することなく、DNNのパラメータを変更するだけである。 修復はDNNの複数のレイヤを変更する柔軟性があり、多項式時間で実行される。 線形な部分を持つアクティベーション機能を備えたdnnをサポートし、完全接続、畳み込み、プール、残留層も備えている。 私たちの知る限りでは、これらの機能をすべて備えた最初の証明可能な修復アプローチです。 APRNNと呼ばれるツールにアプローチを実装します。 mnist, imagenet, acas xu dnns を用いて,prdnn や reassure よりも効率,スケーラビリティ,一般化が優れており,アーキテクチャを保存していない事前証明可能な修復手法であることを示した。

Deep neural networks (DNNs) are becoming increasingly important components of software, and are considered the state-of-the-art solution for a number of problems, such as image recognition. However, DNNs are far from infallible, and incorrect behavior of DNNs can have disastrous real-world consequences. This paper addresses the problem of architecture-preserving V-polytope provable repair of DNNs. A V-polytope defines a convex bounded polytope using its vertex representation. V-polytope provable repair guarantees that the repaired DNN satisfies the given specification on the infinite set of points in the given V-polytope. An architecture-preserving repair only modifies the parameters of the DNN, without modifying its architecture. The repair has the flexibility to modify multiple layers of the DNN, and runs in polynomial time. It supports DNNs with activation functions that have some linear pieces, as well as fully-connected, convolutional, pooling and residual layers. To the best our knowledge, this is the first provable repair approach that has all of these features. We implement our approach in a tool called APRNN. Using MNIST, ImageNet, and ACAS Xu DNNs, we show that it has better efficiency, scalability, and generalization compared to PRDNN and REASSURE, prior provable repair methods that are not architecture preserving.
翻訳日:2023-08-17 17:13:20 公開日:2023-08-16
# 視覚言語モデルのためのブラックボックスの少数ショット適応

Black Box Few-Shot Adaptation for Vision-Language models ( http://arxiv.org/abs/2304.01752v2 )

ライセンス: Link先を確認
Yassine Ouali, Adrian Bulat, Brais Martinez, Georgios Tzimiropoulos(参考訳) ヴィジュアル・ランゲージ(V-L)モデルは、視覚的・言語的モダリティを整合させるために、対照的な学習で訓練された。 ソフト・プロンプト・ラーニング(Soft prompt learning)は、新しいドメインによって誘導される分布シフトによって生じるモダリティギャップを埋めることを目的とした、数発の下流適応の選択方法である。 パラメータ効率は高いが、プロンプト学習ではモデル重みへのアクセスが必要であり、数十億のパラメータを持つ大規模モデルでは計算上不可能である。 これらの欠点に対処するため、本研究では、V-L小ショット適応のためのブラックボックス法について述べる。 (a)事前計算された画像とテキストの特徴で動作し、従ってモデルの重みにアクセスせずに機能する。 (b)訓練時の方が桁違いに速い。 (c)監督訓練と教師なし研修の両方が実施可能であり、 (d) ユニモーダルモデルから計算された画像やテキストの特徴を調整するためにも使用できる。 そこで本研究では,対象領域におけるV-L再構成のための単純な線形アプローチであるLFAを提案する。 lfaは閉形式解から最小二乗問題に初期化され、再ランクの損失を最小限にすることで反復的に更新される。 その単純さにもかかわらず、我々のアプローチは、11の画像と2つのビデオデータセットに関する広範な実験で示されているように、ソフト・プロンプト学習手法を超えることができる。

Vision-Language (V-L) models trained with contrastive learning to align the visual and language modalities have been shown to be strong few-shot learners. Soft prompt learning is the method of choice for few-shot downstream adaption aiming to bridge the modality gap caused by the distribution shift induced by the new domain. While parameter-efficient, prompt learning still requires access to the model weights and can be computationally infeasible for large models with billions of parameters. To address these shortcomings, in this work, we describe a black-box method for V-L few-shot adaptation that (a) operates on pre-computed image and text features and hence works without access to the model's weights, (b) it is orders of magnitude faster at training time, (c) it is amenable to both supervised and unsupervised training, and (d) it can be even used to align image and text features computed from uni-modal models. To achieve this, we propose Linear Feature Alignment (LFA), a simple linear approach for V-L re-alignment in the target domain. LFA is initialized from a closed-form solution to a least-squares problem and then it is iteratively updated by minimizing a re-ranking loss. Despite its simplicity, our approach can even surpass soft-prompt learning methods as shown by extensive experiments on 11 image and 2 video datasets.
翻訳日:2023-08-17 17:12:36 公開日:2023-08-16
# 類似事例マッチングのための解釈可能性フレームワーク

An interpretability framework for Similar case matching ( http://arxiv.org/abs/2304.01622v2 )

ライセンス: Link先を確認
Nankai Lin, Haonan Liu, Jiajun Fang, Dong Zhou, Aimin Yang(参考訳) 類似事例マッチング(SCM)は、法律専門家に対する類似事例の効率的な識別を容易にすることによって、法体系において重要な役割を果たす。 従来の研究は主にSCMモデルの性能向上に重点を置いてきたが、解釈可能性の側面は無視されている。 そこで本研究では,SCMを解釈するための統合パイプラインフレームワークを提案する。 このフレームワークは、司法特徴文識別、ケースマッチング、特徴文アライメント、コンフリクト解決の4つのモジュールから構成される。 現行のSCM法とは対照的に,本フレームワークは,本質的な情報を含む訴訟内で特徴文を抽出する。 そして、これらの特徴に基づいてケースマッチングを行う。 その後,本枠組みは,類似性の証拠を提供するために,対応する文を2つの訴訟で整列する。 ケースマッチングと特徴文アライメントの結果が矛盾している場合、コンフリクト解決モジュールはこれらの矛盾を解決する。 実験の結果,提案フレームワークの有効性が示され,解釈可能なscmの新しいベンチマークが確立された。

Similar Case Matching (SCM) plays a pivotal role in the legal system by facilitating the efficient identification of similar cases for legal professionals. While previous research has primarily concentrated on enhancing the performance of SCM models, the aspect of interpretability has been neglected. To bridge the gap, this study proposes an integrated pipeline framework for interpretable SCM. The framework comprises four modules: judicial feature sentence identification, case matching, feature sentence alignment, and conflict resolution. In contrast to current SCM methods, our framework first extracts feature sentences within a legal case that contain essential information. Then it conducts case matching based on these extracted features. Subsequently, our framework aligns the corresponding sentences in two legal cases to provide evidence of similarity. In instances where the results of case matching and feature sentence alignment exhibit conflicts, the conflict resolution module resolves these inconsistencies. The experimental results show the effectiveness of our proposed framework, establishing a new benchmark for interpretable SCM.
翻訳日:2023-08-17 17:12:09 公開日:2023-08-16
# 純二量子状態のベル非局所性の量子化とその絡み合い

Quantifying Bell nonlocality of a pure two-qudit state via its entanglement ( http://arxiv.org/abs/2303.16794v2 )

ライセンス: Link先を確認
Elena R. Loubenets, Sergey Kuznetsov and Louis Hanotel(参考訳) 任意の次元の任意の純粋2量子状態によるベルの不等式の最大違反に対して、この純粋状態の収束によって表現される新しい下界を導出する。 j. phys. a: math. theor. 55, 285301 (2022)] で発見されたこの新しい下限と上限は、帰属を通じて表現され、その絡み合いを通じて純粋な2つの量子状態のベル非局所性を解析的に定量化するものであり、特に、純粋な2つの量子状態の絡み合いがベル非局所性に必要かつ十分であることを明確に証明する。 純粋2量子状態の再検討により、任意の純粋2量子状態の相関特性に関する新しい結果を発見し、厳密に証明する。

For the maximal violation of all Bell inequalities by an arbitrary pure two-qudit state of any dimension, we derive a new lower bound expressed via the concurrence of this pure state. This new lower bound and the upper bound on the maximal Bell violation, found in [J. Phys. A: Math. Theor. 55, 285301 (2022)] and also expressed via the concurrence, analytically quantify Bell nonlocality of a pure two-qudit state via its entanglement, in particular, prove explicitly that entanglement of a pure two-qudit state is necessary and sufficient for its Bell nonlocality. By re-visiting the pure two-qubit case, we also find and rigorously prove the new results on the correlation properties of an arbitrary pure two-qubit state.
翻訳日:2023-08-17 17:11:53 公開日:2023-08-16
# SpecInfer: 投機推論とトークンツリー検証による生成大言語モデルの高速化

SpecInfer: Accelerating Generative Large Language Model Serving with Speculative Inference and Token Tree Verification ( http://arxiv.org/abs/2305.09781v2 )

ライセンス: Link先を確認
Xupeng Miao, Gabriele Oliaro, Zhihao Zhang, Xinhao Cheng, Zeyu Wang, Rae Ying Yee Wong, Alan Zhu, Lijie Yang, Xiaoxiang Shi, Chunan Shi, Zhuoming Chen, Daiyaan Arfeen, Reyna Abhyankar, Zhihao Jia(参考訳) 生成型大規模言語モデル(LLM)の高い計算とメモリ要求は、それらを迅速かつ安価に提供することを困難にしている。 本稿では、投機推論とトークンツリー検証によるジェネレーティブLLM推論を高速化するLLMサービスシステムであるSpecInferを紹介する。 specinferの背後にある重要な洞察は、様々な集合的に調整された小さな言語モデルを組み合わせてllmの出力を共同で予測することである。 トークンツリーで表される全ての候補トークンシーケンスの正当性を、新しいツリーベースの並列復号機構を用いてLCMに対して並列に検証する。 SpecInferは、インクリメンタルデコーダの代わりに LLM をトークンツリー検証器として使用し、モデル品質を確実に保ちながら、生成 LLM を提供するためのエンドツーエンドのレイテンシと計算要求を大幅に削減する。 評価の結果,SpecInfer は分散 LLM では 1.3-2.4x で,オフロード型 LLM では 2.6-3.5x で,同じ生成性能を維持しながら既存の LLM サービスシステムよりも優れていた。 SpecInferはhttps://github.com/flexflow/FlexFlow/tree/inference.comで公開されている。

The high computational and memory requirements of generative large language models (LLMs) make it challenging to serve them quickly and cheaply. This paper introduces SpecInfer, an LLM serving system that accelerates generative LLM inference with speculative inference and token tree verification. A key insight behind Specinfer is to combine various collectively boost-tuned small language models to jointly predict the LLM's outputs; the predictions are organized as a token tree, whose nodes each represent a candidate token sequence. The correctness of all candidate token sequences represented by a token tree is verified against the LLM in parallel using a novel tree-based parallel decoding mechanism. SpecInfer uses an LLM as a token tree verifier instead of an incremental decoder, which significantly reduces the end-to-end latency and computational requirement for serving generative LLMs while provably preserving model quality. Our evaluation shows that SpecInfer outperforms existing LLM serving systems by 1.3-2.4x for distributed LLM inference and by 2.6-3.5x for offloading-based LLM inference, while preserving the same generative performance. SpecInfer is publicly available at https://github.com/flexflow/FlexFlow/tree/inference.
翻訳日:2023-08-17 17:03:51 公開日:2023-08-16
# CUTS+:不規則時系列からの高次元因果発見

CUTS+: High-dimensional Causal Discovery from Irregular Time-series ( http://arxiv.org/abs/2305.05890v2 )

ライセンス: Link先を確認
Yuxiao Cheng, Lianglong Li, Tingxiong Xiao, Zongren Li, Qin Zhong, Jinli Suo, Kunlun He(参考訳) 時系列における因果発見は、機械学習コミュニティにおける根本的な問題であり、複雑なシナリオにおける因果推論と意思決定を可能にする。 近年、研究者はニューラルネットワークとグレンジャー因果関係を組み合わせることで因果関係の発見に成功したが、その性能は、高度に冗長なネットワーク設計と巨大な因果グラフのため、高次元データに遭遇した場合に大きく低下する。 さらに、観察の欠落した項目は、因果構造学習をさらに阻害する。 このような制限を克服するため,Granger-causality-based causal discovery method CUTSを基盤として,Coarse-to-fine-discovery(C2FD)と呼ばれる手法を導入し,メッセージパスベースのグラフニューラルネットワーク(MPGNN)を活用することによりスケーラビリティを向上させるCUTS+を提案する。 シミュレーション,準実,実データを用いた従来の手法と比較して,cut+は不規則サンプリングの異なる高次元データに対する因果的発見性能が大幅に向上することを示した。

Causal discovery in time-series is a fundamental problem in the machine learning community, enabling causal reasoning and decision-making in complex scenarios. Recently, researchers successfully discover causality by combining neural networks with Granger causality, but their performances degrade largely when encountering high-dimensional data because of the highly redundant network design and huge causal graphs. Moreover, the missing entries in the observations further hamper the causal structural learning. To overcome these limitations, We propose CUTS+, which is built on the Granger-causality-based causal discovery method CUTS and raises the scalability by introducing a technique called Coarse-to-fine-discovery (C2FD) and leveraging a message-passing-based graph neural network (MPGNN). Compared to previous methods on simulated, quasi-real, and real datasets, we show that CUTS+ largely improves the causal discovery performance on high-dimensional data with different types of irregular sampling.
翻訳日:2023-08-17 17:03:29 公開日:2023-08-16
# YOLOCS:特徴空間凝固のためのDense Channel Compressionに基づく物体検出

YOLOCS: Object Detection based on Dense Channel Compression for Feature Spatial Solidification ( http://arxiv.org/abs/2305.04170v4 )

ライセンス: Link先を確認
Lin Huang, Weisheng Li, Linlin Shen, Haojie Fu, Xue Xiao, Suihan Xiao(参考訳) 本研究では,ネットワーク内の前方および後方伝播に着目し,特徴浄化と勾配バックプロパゲーションの過程におけるチャネル特性と畳み込み核の関係について検討する。 そこで本稿では,Dense Channel Compression for Feature Spatial Solidificationを提案する。 本手法の中心概念に基づき,Dense Channel Compression for Feature Spatial Solidification Structure (DCFS) と非対称多層圧縮デカップリングヘッド (ADH) という,バックボーンとヘッドネットワークのための2つの革新的なモジュールを導入する。 YOLOv5モデルに統合されると、これらの2つのモジュールは例外的な性能を示し、YOLOCSと呼ばれるモデルが修正される。 MSCOCOデータセットに基づいて評価すると、大、中、小のYOLOCSモデルはそれぞれ50.1%、47.6%、42.5%のAPが得られる。 推論速度はYOLOv5モデルと著しく類似しており、大、中、小のYOLOCSモデルはYOLOv5モデルのAPをそれぞれ1.1%、2.3%、5.2%上回っている。

In this study, we examine the associations between channel features and convolutional kernels during the processes of feature purification and gradient backpropagation, with a focus on the forward and backward propagation within the network. Consequently, we propose a method called Dense Channel Compression for Feature Spatial Solidification. Drawing upon the central concept of this method, we introduce two innovative modules for backbone and head networks: the Dense Channel Compression for Feature Spatial Solidification Structure (DCFS) and the Asymmetric Multi-Level Compression Decoupled Head (ADH). When integrated into the YOLOv5 model, these two modules demonstrate exceptional performance, resulting in a modified model referred to as YOLOCS. Evaluated on the MSCOCO dataset, the large, medium, and small YOLOCS models yield AP of 50.1%, 47.6%, and 42.5%, respectively. Maintaining inference speeds remarkably similar to those of the YOLOv5 model, the large, medium, and small YOLOCS models surpass the YOLOv5 model's AP by 1.1%, 2.3%, and 5.2%, respectively.
翻訳日:2023-08-17 17:03:07 公開日:2023-08-16
# echoes: echo chamberにおける擬似バイアスラベリングによる教師なしデバイアス

Echoes: Unsupervised Debiasing via Pseudo-bias Labeling in an Echo Chamber ( http://arxiv.org/abs/2305.04043v2 )

ライセンス: Link先を確認
Rui Hu, Yahan Tu, Jitao Sang(参考訳) ニューラルネットワークは、バイアスのあるトレーニングデータに曝されると、しばしば急激な相関関係を学習する。 バイアス付きデータセットは、バイアス付き特徴に従ってバイアス対応サンプル(バイアス付き特徴を持つ)とバイアス対応サンプル(バイアス付き特徴を持たない)に分けられる。 近年のデバイアス研究は、そのような情報を得ることが困難で労働集約的なため、トレーニング期間中にバイアスラベルが利用できないと仮定している。 この教師なしの仮定に従うと、既存の手法は2つのモデルを訓練する: バイアス付き特徴を学習するためのバイアス付きモデルと、バイアス付きモデルからの情報を使ってバイアスを除去するターゲットモデルである。 本稿では,既存のバイアスモデルがトレーニングデータ中のバイアス強調サンプルに過度に適合していることが,対象モデルの劣化性能に悪影響を及ぼすことを示す実験的検討を行った。 この問題に対処するために,偏りのあるモデルと異なる戦略を持つターゲットモデルを訓練する,echoesと呼ばれる単純かつ効果的な手法を提案する。 偏りのあるモデルによって分類されたサンプルの重みを減らし,偏りのあるモデルが偏りのある特徴を過度に学習することを保証することで,"エコーチャンバー"環境を構築する。 バイアス付きモデルは、バイアス競合サンプルに低い重みを割り当てる。 その後、対象モデルのトレーニングに偏りのあるモデルのサンプル重量の逆を用いる。 実験により,提案手法は,合成データと実世界のデータセットの両方において,既存のベースラインよりも優れたデバイアス結果が得られることが示された。 私たちのコードはhttps://github.com/isruihu/echoesで利用可能です。

Neural networks often learn spurious correlations when exposed to biased training data, leading to poor performance on out-of-distribution data. A biased dataset can be divided, according to biased features, into bias-aligned samples (i.e., with biased features) and bias-conflicting samples (i.e., without biased features). Recent debiasing works typically assume that no bias label is available during the training phase, as obtaining such information is challenging and labor-intensive. Following this unsupervised assumption, existing methods usually train two models: a biased model specialized to learn biased features and a target model that uses information from the biased model for debiasing. This paper first presents experimental analyses revealing that the existing biased models overfit to bias-conflicting samples in the training data, which negatively impacts the debiasing performance of the target models. To address this issue, we propose a straightforward and effective method called Echoes, which trains a biased model and a target model with a different strategy. We construct an "echo chamber" environment by reducing the weights of samples which are misclassified by the biased model, to ensure the biased model fully learns the biased features without overfitting to the bias-conflicting samples. The biased model then assigns lower weights on the bias-conflicting samples. Subsequently, we use the inverse of the sample weights of the biased model for training the target model. Experiments show that our approach achieves superior debiasing results compared to the existing baselines on both synthetic and real-world datasets. Our code is available at https://github.com/isruihu/Echoes.
翻訳日:2023-08-17 17:02:45 公開日:2023-08-16
# T-SciQ:科学質問応答のための大規模言語モデル信号によるマルチモーダル連鎖推論の指導

T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Large Language Model Signals for Science Question Answering ( http://arxiv.org/abs/2305.03453v3 )

ライセンス: Link先を確認
Lei Wang, Yi Hu, Jiabang He, Xing Xu, Ning Liu, Hui Liu, Heng Tao Shen(参考訳) 大規模言語モデル(LLM)は、最近、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。 彼らはまた、複雑な問題を解決するためにチェーン・オブ・ソート(CoT)推論を行う能力を示した。 最近の研究は、高品質な人間注釈付きCoT論理を用いた微調整マルチモーダルモデルにより、科学質問応答タスクのような複雑なマルチモーダルシナリオにおけるCoT推論を探索している。 しかし、高品質なCOT論理の収集は通常、時間と費用がかかる。 さらに、注釈付き論理は外部の必須情報が欠落しているため、ほとんど正確ではない。 そこで本研究では,llm信号を用いた科学的な質問応答の指導を目的とした新しい手法である \emph{t-sciq} を提案する。 T-SciQアプローチは、教示信号として高品質なCoT論理を生成し、より小さなモデルを訓練して複雑なモダリティでCoT推論を行うよう進歩している。 さらに,より効果的なデータサンプルを作成するための新しいデータ混合手法を提案する。 広範な実験結果から,t-sciq法はscienceqaベンチマークにおいて96.18\%の精度で新たな最先端性能を達成できた。 さらに,本手法は,最強の微調整ベースラインを4.5倍に向上させる。

Large Language Models (LLMs) have recently demonstrated exceptional performance in various Natural Language Processing (NLP) tasks. They have also shown the ability to perform chain-of-thought (CoT) reasoning to solve complex problems. Recent studies have explored CoT reasoning in complex multimodal scenarios, such as the science question answering task, by fine-tuning multimodal models with high-quality human-annotated CoT rationales. However, collecting high-quality COT rationales is usually time-consuming and costly. Besides, the annotated rationales are hardly accurate due to the external essential information missed. To address these issues, we propose a novel method termed \emph{T-SciQ} that aims at teaching science question answering with LLM signals. The T-SciQ approach generates high-quality CoT rationales as teaching signals and is advanced to train much smaller models to perform CoT reasoning in complex modalities. Additionally, we introduce a novel data mixing strategy to produce more effective teaching data samples by policy for simple and complex science question answer problems. Extensive experimental results show that our T-SciQ method achieves a new state-of-the-art performance on the ScienceQA benchmark, with an accuracy of 96.18\%. Moreover, our approach outperforms the most powerful fine-tuned baseline by 4.5\%.
翻訳日:2023-08-17 17:02:17 公開日:2023-08-16
# 準自由マルコフ開量子系における等角対称性

Conformal symmetry in quasi-free Markovian open quantum systems ( http://arxiv.org/abs/2305.01629v3 )

ライセンス: Link先を確認
Anatolii I. Lotkov, Denis V. Kurlov, Aleksey K. Fedorov, Nikita A. Nemkov, and Vladimir Gritsev(参考訳) 等角対称性は二階相転移に近い閉系の挙動を制御し、散逸相転移を経る開系に現れることが期待される。 オープンマルコフ系において共形対称性を明示的に記述できる枠組みを提案する。 閉ケースとの主な違いは、共形代数と局所体の代数の両方が超作用素の空間上で実現されることである。 二次ハミルトニアンと線形ジャンプ作用素を持つ系を特徴とする一連の例によって、この枠組みを例示し、リウヴィリアン力学を第三量子化の形式的手法を用いて効率的に解析する。 我々は,コンフォメーションブートストラップの適切な一般化を用いて,我々のフレームワークを対話システムに拡張できることを期待する。

Conformal symmetry governs the behavior of closed systems near second-order phase transitions, and is expected to emerge in open systems going through dissipative phase transitions. We propose a framework allowing for a manifest description of conformal symmetry in open Markovian systems. The key difference from the closed case is that both conformal algebra and the algebra of local fields are realized on the space of superoperators. We illustrate the framework by a series of examples featuring systems with quadratic Hamiltonians and linear jump operators, where the Liouvillian dynamics can be efficiently analyzed using the formalism of third quantization. We expect that our framework can be extended to interacting systems using an appropriate generalization of the conformal bootstrap.
翻訳日:2023-08-17 17:01:54 公開日:2023-08-16
# 医療画像における人口動態モデルと表現は公平か?

Are demographically invariant models and representations in medical imaging fair? ( http://arxiv.org/abs/2305.01397v2 )

ライセンス: Link先を確認
Eike Petersen, Enzo Ferrante, Melanie Ganz, Aasa Feragen(参考訳) 医療画像モデルは、年齢、人種、性別などの患者の人口統計情報を潜伏した表現にエンコードすることが示され、差別の可能性への懸念が高まっている。 ここでは、人口統計特性を符号化しないモデルが望ましいかどうかを問う。 辺縁表現とクラス条件表現の不変性は, それぞれ, 標準群フェアネス概念である人口差パリティと等化オッズを含意すると同時に, リスク分布のマッチングも必要であり, 重要なグループ差を均等化する可能性があることを指摘した。 伝統的なフェアネスの概念を直接強制することは、これらの強い制約を伴わない。 さらに、表現的不変モデルでは、予測を導出するために人口統計学的属性を考慮に入れることができる。 後者は、(個人的)公正性や不変性の反実的概念を用いて予防することができる。 しかし, 人口統計学的特性に関して, 医用画像の正当性を適切に定義することは極めて困難である。 最後に,「人種」や「ジェンダー」といった社会的構造に依存しない特徴のタスク固有のエンコーディングを学べば,人口統計学的属性のエンコーディングが有利になる可能性も示唆する。 医用画像の公平性には,人口的不変表現は必要ではない。 モデルは人口統計学的属性を符号化し、様々な患者集団における予測性能の観点から、包括的なモデルフェアネス評価の要求にさらなる緊急性を与える必要がある。

Medical imaging models have been shown to encode information about patient demographics such as age, race, and sex in their latent representation, raising concerns about their potential for discrimination. Here, we ask whether requiring models not to encode demographic attributes is desirable. We point out that marginal and class-conditional representation invariance imply the standard group fairness notions of demographic parity and equalized odds, respectively, while additionally requiring risk distribution matching, thus potentially equalizing away important group differences. Enforcing the traditional fairness notions directly instead does not entail these strong constraints. Moreover, representationally invariant models may still take demographic attributes into account for deriving predictions. The latter can be prevented using counterfactual notions of (individual) fairness or invariance. We caution, however, that properly defining medical image counterfactuals with respect to demographic attributes is highly challenging. Finally, we posit that encoding demographic attributes may even be advantageous if it enables learning a task-specific encoding of demographic features that does not rely on social constructs such as 'race' and 'gender.' We conclude that demographically invariant representations are neither necessary nor sufficient for fairness in medical imaging. Models may need to encode demographic attributes, lending further urgency to calls for comprehensive model fairness assessments in terms of predictive performance across diverse patient groups.
翻訳日:2023-08-17 17:01:42 公開日:2023-08-16
# 空間結合型QDLPC符号

Spatially-Coupled QDLPC Codes ( http://arxiv.org/abs/2305.00137v2 )

ライセンス: Link先を確認
Siyi Yang, Robert Calderbank(参考訳) 空間結合符号 (SC) は畳み込みLDPC符号のクラスであり、高い性能と低遅延デコーダとの互換性により古典的符号化理論においてよく研究されている。 本稿では,古典的2次元空間結合符号(2D-SC)の量子対としてトーリック符号を記述し,空間結合型量子LDPC(SC-QLDPC)符号を一般化として導入する。 畳み込み構造を用いて、2D-SC符号のパリティチェック行列を2つの不定値の多項式として表現し、2D-SC符号が安定化符号となるために必要な代数的条件を導出する。 この代数的フレームワークは、新しいコードファミリの構築を促進する。 本稿では,小記憶が量子ビットの物理的接続を容易にし,局所符号化と低遅延ウィンドウの復号化を可能にした点に注目する。 本稿では,2D-SC HGP符号のタンナーグラフにおいて,各成分符号の短周期から生じる短周期を最適化するために,代数的フレームワークを用いる。 従来の作業では1/10未満のQLDPC符号に重点を置いていたが、2D-SC HGP符号は少ないメモリ、高いレート(約1/3)、優れた閾値で構築した。

Spatially-coupled (SC) codes is a class of convolutional LDPC codes that has been well investigated in classical coding theory thanks to their high performance and compatibility with low-latency decoders. We describe toric codes as quantum counterparts of classical two-dimensional spatially-coupled (2D-SC) codes, and introduce spatially-coupled quantum LDPC (SC-QLDPC) codes as a generalization. We use the convolutional structure to represent the parity check matrix of a 2D-SC code as a polynomial in two indeterminates, and derive an algebraic condition that is both necessary and sufficient for a 2D-SC code to be a stabilizer code. This algebraic framework facilitates the construction of new code families. While not the focus of this paper, we note that small memory facilitates physical connectivity of qubits, and it enables local encoding and low-latency windowed decoding. In this paper, we use the algebraic framework to optimize short cycles in the Tanner graph of 2D-SC HGP codes that arise from short cycles in either component code. While prior work focuses on QLDPC codes with rate less than 1/10, we construct 2D-SC HGP codes with small memory, higher rates (about 1/3), and superior thresholds.
翻訳日:2023-08-17 17:01:17 公開日:2023-08-16
# 文脈音声認識のための近距離隣接句マイニング

Approximate Nearest Neighbour Phrase Mining for Contextual Speech Recognition ( http://arxiv.org/abs/2304.08862v2 )

ライセンス: Link先を確認
Maurits Bleeker, Pawel Swietojanski, Stefan Braun and Xiaodan Zhuang(参考訳) 本稿では,文脈エンコーダの潜在空間からハードネガティブなフレーズを抽出する簡易かつ効率的な手法を用いて,エンドツーエンドのコンテキスト認識変換器(CATT)モデルを訓練するための拡張を提案する。 トレーニング中、参照クエリーを考慮し、近い近傍探索を用いて類似したフレーズを多数マイニングする。 これらのサンプルフレーズは、ランダムな真理と基底的な文脈情報と共にコンテキストリストの負の例として使用される。 文脈リストに近似隣接句(ann-p)を含むことにより、学習表現は類似するが同一ではないバイアスフレーズ間の曖昧さを解消することを推奨する。 これにより、バイアスインベントリに類似したフレーズが複数ある場合のバイアス精度が向上する。 テストデータのコンテキスト部分に対して,最大7%の単語誤り率の削減を実現した大規模データレジームで実験を行った。 また,ストリーミングアプリケーションにおけるCATTアプローチの拡張と評価を行った。

This paper presents an extension to train end-to-end Context-Aware Transformer Transducer ( CATT ) models by using a simple, yet efficient method of mining hard negative phrases from the latent space of the context encoder. During training, given a reference query, we mine a number of similar phrases using approximate nearest neighbour search. These sampled phrases are then used as negative examples in the context list alongside random and ground truth contextual information. By including approximate nearest neighbour phrases (ANN-P) in the context list, we encourage the learned representation to disambiguate between similar, but not identical, biasing phrases. This improves biasing accuracy when there are several similar phrases in the biasing inventory. We carry out experiments in a large-scale data regime obtaining up to 7% relative word error rate reductions for the contextual portion of test data. We also extend and evaluate CATT approach in streaming applications.
翻訳日:2023-08-17 17:00:30 公開日:2023-08-16
# 知識強化分子表現のための双方向コントラスト学習

Bi-level Contrastive Learning for Knowledge-Enhanced Molecule Representations ( http://arxiv.org/abs/2306.01631v2 )

ライセンス: Link先を確認
Pengcheng Jiang, Cao Xiao, Tianfan Fu, Jimeng Sun(参考訳) 分子表現学習は、分子特性や副作用の理解や予測といった様々な下流の応用を支える。 本稿では、個々の分子の2段階構造を、大分子知識グラフのノードであると同時に、本質的なグラフ構造を有するものと認識し、各分子のグラフ表現と知識グラフからの多領域生物医学データとをシームレスに統合する新しいアプローチであるgodeを提案する。 異なるグラフ構造上の2つのグラフニューラルネットワーク(GNN)と対照的な学習を組み合わせることで、GODEは対応する知識グラフサブ構造と分子構造を十分に融合させる。 この融合により、よりロバストで情報的な表現が可能になり、化学情報と生物学的情報の両方を利用して分子特性の予測が促進される。 11の化学特性タスクを微調整し、ベンチマークを上回り、平均roc-auc改善率は14.5%、9.8%、bbbp、sider、tox21データセットで7.3%であった。 ESOLとQM7データセットの回帰タスクでは、RMSEとMAEの平均21.0%と29.6%の改善が達成され、新しいフィールドベンチマークが設定された。

Molecule representation learning underpins diverse downstream applications such as molecular property and side effect understanding and prediction. In this paper, we recognize the two-level structure of individual molecule as having intrinsic graph structure as well as being a node in a large molecule knowledge graph, and present GODE, a new approach that seamlessly integrates graph representations of individual molecules with multi-domain biomedical data from knowledge graphs. By pre-training two graph neural networks (GNNs) on different graph structures, combined with contrastive learning, GODE adeptly fuses molecular structures with their corresponding knowledge graph substructures. This fusion results in a more robust and informative representation, enhancing molecular property prediction by harnessing both chemical and biological information. Finetuned on 11 chemical property tasks, our model surpasses benchmarks, achieving an average ROC-AUC improvement of 14.5%, 9.8%, and 7.3% on BBBP, SIDER, and Tox21 datasets. In regression tasks on ESOL and QM7 datasets, we achieve average improvements of 21.0% and 29.6% improvements in RMSE and MAE, setting a new field benchmark.
翻訳日:2023-08-17 16:55:22 公開日:2023-08-16
# LLMatic: 大規模言語モデルによるニューラルアーキテクチャ探索と品質多様性最適化

LLMatic: Neural Architecture Search via Large Language Models and Quality-Diversity Optimization ( http://arxiv.org/abs/2306.01102v2 )

ライセンス: Link先を確認
Muhammad U. Nasir, Sam Earle, Julian Togelius, Steven James and Christopher Cleghorn(参考訳) 大きな言語モデル(LLM)は、幅広いタスクをこなせる強力なツールとして登場した。 それらの能力はさまざまな領域にまたがっており、コード生成の領域において大きな影響を与えている分野のひとつです。 この文脈では、LSMを突然変異とクロスオーバーツールとみなす。 一方、QD(Quality-Diversity)アルゴリズムは、多様で堅牢なソリューションを発見することが知られている。 本稿では,LLMのコード生成能力とQDソリューションの多様性と堅牢性を組み合わせることで,ニューラルネットワーク探索(NAS)アルゴリズムであるLLMaticを導入する。 LLMaticはプロンプトを介してNASを直接実行するのに苦労するが、プロンプトやネットワークアーキテクチャにQDを活用し、多種多様な高性能ネットワークを作成する。 私たちは、cifar-10イメージ分類ベンチマークでllmaticをテストし、ベンチマークドメインの事前知識や以前のトップパフォーマンスモデルへの露出がなくても、わずか2,000ドルの検索で競合ネットワークを作成できることを示した。

Large Language Models (LLMs) have emerged as powerful tools capable of accomplishing a broad spectrum of tasks. Their abilities span numerous areas, and one area where they have made a significant impact is in the domain of code generation. In this context, we view LLMs as mutation and crossover tools. Meanwhile, Quality-Diversity (QD) algorithms are known to discover diverse and robust solutions. By merging the code-generating abilities of LLMs with the diversity and robustness of QD solutions, we introduce LLMatic, a Neural Architecture Search (NAS) algorithm. While LLMs struggle to conduct NAS directly through prompts, LLMatic uses a procedural approach, leveraging QD for prompts and network architecture to create diverse and highly performant networks. We test LLMatic on the CIFAR-10 image classification benchmark, demonstrating that it can produce competitive networks with just $2,000$ searches, even without prior knowledge of the benchmark domain or exposure to any previous top-performing models for the benchmark.
翻訳日:2023-08-17 16:55:00 公開日:2023-08-16
# beyond the meta: パッチ非依存のeスポーツ分析にゲーム設計パラメータを活用する

Beyond the Meta: Leveraging Game Design Parameters for Patch-Agnostic Esport Analytics ( http://arxiv.org/abs/2305.18477v3 )

ライセンス: Link先を確認
Alan Pedrassoli Chitayat, Florian Block, James Walker, Anders Drachen(参考訳) スポーツゲームは世界のゲーム市場の相当な割合を占めており、ゲームの中では最速の成長セグメントである。 これは、ゲームからのテレメトリデータを使用してプレイヤー、コーチ、ブロードキャスター、その他の利害関係者に通知するesports analyticsの領域を生み出した。 伝統的なスポーツと比較すると、eスポーツのタイトルはメカニックとルールの点で急速に変化する。 ゲームのパラメータの頻繁な変更により、エスポート分析モデルは短い寿命しか持たないが、これは文献ではほとんど無視されている問題である。 本稿では,ゲーム設計から情報(パッチノート)を抽出し,クラスタリング技術を用いて新たな文字表現方式を提案する。 ケーススタディでは、ニューラルネットワークモデルを用いて、この新しいキャラクタ表現技術を利用して、Dota 2マッチにおける殺人数を予測する。 このモデルの性能は、従来の手法を含む2つの異なるベースラインに対して評価される。 このモデルは精度の点でベースラインを著しく上回っていた(85% auc)だけでなく、新しいキャラクタと全く新しいキャラクタタイプを導入したゲームの2つの新しいイテレーションで精度を維持している。 ゲームの設計に導入されたこれらの変更は、通常、文学で一般的に使用される従来のテクニックを破ることになる。 したがって,提案手法は,従来の文学的手法と比較して,機械学習モデルの寿命を増加させるだけでなく,高い性能をもたらすことができる。

Esport games comprise a sizeable fraction of the global games market, and is the fastest growing segment in games. This has given rise to the domain of esports analytics, which uses telemetry data from games to inform players, coaches, broadcasters and other stakeholders. Compared to traditional sports, esport titles change rapidly, in terms of mechanics as well as rules. Due to these frequent changes to the parameters of the game, esport analytics models can have a short life-spam, a problem which is largely ignored within the literature. This paper extracts information from game design (i.e. patch notes) and utilises clustering techniques to propose a new form of character representation. As a case study, a neural network model is trained to predict the number of kills in a Dota 2 match utilising this novel character representation technique. The performance of this model is then evaluated against two distinct baselines, including conventional techniques. Not only did the model significantly outperform the baselines in terms of accuracy (85% AUC), but the model also maintains the accuracy in two newer iterations of the game that introduced one new character and a brand new character type. These changes introduced to the design of the game would typically break conventional techniques that are commonly used within the literature. Therefore, the proposed methodology for representing characters can increase the life-spam of machine learning models as well as contribute to a higher performance when compared to traditional techniques typically employed within the literature.
翻訳日:2023-08-17 16:54:26 公開日:2023-08-16
# 無損失可視化を用いた分類・混合データの説明可能な機械学習

Explainable Machine Learning for Categorical and Mixed Data with Lossless Visualization ( http://arxiv.org/abs/2305.18437v2 )

ライセンス: Link先を確認
Boris Kovalerchuk, Elijah McCoy(参考訳) 不均一/混合データのための正確で解釈可能な機械学習(ML)モデルの構築は、数値データ用に設計されたアルゴリズムの長年にわたる課題である。 この研究は、正確で説明可能なMLモデルをサポートするMLアルゴリズムの非数値属性のための数値符号化スキーム、これらの視覚化における視覚的ルール発見を伴うn-D非数値分類データの無意味な可視化方法、そして分類データのための正確で説明可能なMLモデルの開発に焦点を当てる。 本研究では、混合データ型を分類し、機械学習におけるそれらの重要な役割を分析する。 混合データ上での視覚的データ探索により、MLアルゴリズムのすべての内部操作の解釈可能性を高めるツールキットを提供する。 カテゴリーデータを用いた説明可能なルール生成のための新しい逐次ルール生成(SRG)アルゴリズムを提案し,複数の計算実験で評価した。 この研究は、Parallel Coordinatesを超えたGeneral Line Coordinatesにおけるn-Dデータのロスレス可視化をサポートする混合データのための全スコープMLアルゴリズムのステップの1つである。

Building accurate and interpretable Machine Learning (ML) models for heterogeneous/mixed data is a long-standing challenge for algorithms designed for numeric data. This work focuses on developing numeric coding schemes for non-numeric attributes for ML algorithms to support accurate and explainable ML models, methods for lossless visualization of n-D non-numeric categorical data with visual rule discovery in these visualizations, and accurate and explainable ML models for categorical data. This study proposes a classification of mixed data types and analyzes their important role in Machine Learning. It presents a toolkit for enforcing interpretability of all internal operations of ML algorithms on mixed data with a visual data exploration on mixed data. A new Sequential Rule Generation (SRG) algorithm for explainable rule generation with categorical data is proposed and successfully evaluated in multiple computational experiments. This work is one of the steps to the full scope ML algorithms for mixed data supported by lossless visualization of n-D data in General Line Coordinates beyond Parallel Coordinates.
翻訳日:2023-08-17 16:54:02 公開日:2023-08-16
# 表データによる深部異常検出のための個別入力

Beyond Individual Input for Deep Anomaly Detection on Tabular Data ( http://arxiv.org/abs/2305.15121v2 )

ライセンス: Link先を確認
Hugo Thimonier, Fabrice Popineau, Arpad Rimmel and Bich-Li\^en Doan(参考訳) 異常検出は金融、医療、サイバーセキュリティなど様々な分野において不可欠である。 本稿では,教師付きタスクのために最初に提案された非パラメトリックトランスフォーマ(npts)を利用して,特徴量とサンプル値の両方の依存関係をキャプチャする,新しい深層異常検出法を提案する。 再構成に基づくフレームワークでは,NPTをトレーニングし,通常のサンプルのマスキング特徴を再構築する。 非パラメトリックな方法では、推論中にトレーニングセット全体を活用し、モデルがマスクした特徴を再構築して異常スコアを生成する能力を利用する。 我々の知る限り,提案手法は,表付きデータセットにおける異常検出のための特徴特徴とサンプルサンプルの依存関係をうまく組み合わせる最初の方法である。 本手法は,31の表型データセットの広範なベンチマークで評価し,f1-score と auroc に基づく既存の最先端手法をかなり有意なマージンで上回ることを示す。

Anomaly detection is crucial in various domains, such as finance, healthcare, and cybersecurity. In this paper, we propose a novel deep anomaly detection method for tabular data that leverages Non-Parametric Transformers (NPTs), a model initially proposed for supervised tasks, to capture both feature-feature and sample-sample dependencies. In a reconstruction-based framework, we train the NPT to reconstruct masked features of normal samples. In a non-parametric fashion, we leverage the whole training set during inference and use the model's ability to reconstruct the masked features during to generate an anomaly score. To the best of our knowledge, our proposed method is the first to successfully combine feature-feature and sample-sample dependencies for anomaly detection on tabular datasets. We evaluate our method on an extensive benchmark of 31 tabular datasets and demonstrate that our approach outperforms existing state-of-the-art methods based on the F1-score and AUROC by a significant margin.
翻訳日:2023-08-17 16:53:46 公開日:2023-08-16
# 安全でない拡散:テキスト・ツー・イメージモデルから安全でない画像と有害なミームの生成について

Unsafe Diffusion: On the Generation of Unsafe Images and Hateful Memes From Text-To-Image Models ( http://arxiv.org/abs/2305.13873v2 )

ライセンス: Link先を確認
Yiting Qu, Xinyue Shen, Xinlei He, Michael Backes, Savvas Zannettou, Yang Zhang(参考訳) 安定拡散やdalle$\cdot$2のような最先端のテキスト対画像モデルは、人々がビジュアルコンテンツを生成する方法に革命をもたらしている。 同時に、社会は、敵がそのようなモデルを使って安全でない画像を生成する方法に深刻な懸念を抱いている。 本研究では,テキスト・ツー・イメージ・モデルから安全でない画像と憎しみのあるミームを生成することに焦点を当てる。 まず5つのカテゴリー(性的に明示的、暴力的、乱暴、憎悪的、政治的)からなる安全でないイメージのタイプポロジーを構築する。 次に、4つのプロンプトデータセットを用いて、4つの高度なテキスト対画像モデルによって生成される安全でない画像の割合を評価する。 4つのモデルと4つのプロンプトデータセットにおいて、生成された画像の14.56%が安全ではない。 4つのモデルを比較すると、異なるリスクレベルが見つかり、安定拡散は安全でないコンテンツを生成する最も起こりやすい(生成した画像の18.92%は安全でない)。 安定した拡散がより安全でないコンテンツを生成する傾向を考えると、敵が特定の個人やコミュニティを攻撃するために悪用された場合、その可能性を評価できる。 我々はDreamBooth, Textual Inversion, SDEditの3つの画像編集手法を採用し, 安定拡散をサポートする。 以上の結果から,DreamBoothを用いた画像の24%は,本来の憎悪ミームの特徴と,対象とする個人・コミュニティの特徴を示す憎悪ミームの変種であり,これらの画像は実世界から収集された憎悪ミームの変種に匹敵するものであることが示された。 全体として,安全でない画像の大規模生成の危険性が差し迫っていることが示された。 トレーニングデータのキュレーション,プロンプトの調整,安全フィルタの実装など,いくつかの対策について検討し,安全でない生成を防止するために,より優れた安全対策ツールの開発を奨励する。

State-of-the-art Text-to-Image models like Stable Diffusion and DALLE$\cdot$2 are revolutionizing how people generate visual content. At the same time, society has serious concerns about how adversaries can exploit such models to generate unsafe images. In this work, we focus on demystifying the generation of unsafe images and hateful memes from Text-to-Image models. We first construct a typology of unsafe images consisting of five categories (sexually explicit, violent, disturbing, hateful, and political). Then, we assess the proportion of unsafe images generated by four advanced Text-to-Image models using four prompt datasets. We find that these models can generate a substantial percentage of unsafe images; across four models and four prompt datasets, 14.56% of all generated images are unsafe. When comparing the four models, we find different risk levels, with Stable Diffusion being the most prone to generating unsafe content (18.92% of all generated images are unsafe). Given Stable Diffusion's tendency to generate more unsafe content, we evaluate its potential to generate hateful meme variants if exploited by an adversary to attack a specific individual or community. We employ three image editing methods, DreamBooth, Textual Inversion, and SDEdit, which are supported by Stable Diffusion. Our evaluation result shows that 24% of the generated images using DreamBooth are hateful meme variants that present the features of the original hateful meme and the target individual/community; these generated images are comparable to hateful meme variants collected from the real world. Overall, our results demonstrate that the danger of large-scale generation of unsafe images is imminent. We discuss several mitigating measures, such as curating training data, regulating prompts, and implementing safety filters, and encourage better safeguard tools to be developed to prevent unsafe generation.
翻訳日:2023-08-17 16:52:52 公開日:2023-08-16
# 呼吸中の3dct-2dus腎登録のための2段階深層学習法

A Two-Step Deep Learning Method for 3DCT-2DUS Kidney Registration During Breathing ( http://arxiv.org/abs/2305.13855v2 )

ライセンス: Link先を確認
Chi Yanling, Xu Yuyu, Liu Huiying, Wu Xiaoxiang, Liu Zhiqiang, Mao Jiawei, Xu Guibin, Huang Weimin(参考訳) 本研究は、3DCTと2D U/S腎スキャンのための新しいディープ登録パイプラインを提案し、特徴ネットワークと3D-2D CNNベースの登録ネットワークで構成される。 特徴ネットワークは、セマンティックギャップを減らすために手作りテクスチャ特徴層を備えている。 登録ネットワークは、特徴画像移動(fim)の損失を伴うエンコーダデコーダ構造であり、デコーダ層での階層的回帰を可能にし、複数のネットワーク結合を回避する。 トレーニングデータ生成戦略を反映した振り返りデータセットを事前訓練し, 現場アプリケーションにおける教師なし1サイクル移行学習に基づく特定の患者データに適用した。 実験は132のU/S配列、39の多相CT、210の公開単相CT画像、25のCTおよびU/Sシーケンスで実施された。 その結果、CTでは腎臓とU/S画像の平均輪郭距離(MCD)が0.94mm、CTでは1.15mm、基準CTでは1.15mmとなった。 小さな変換を持つデータセットでは、それぞれ0.82mmと1.02mmのMDDとなる。 大きな変換では、それぞれ1.10mmと1.28mmのMDDとなる。 この研究は、新しいネットワーク構造と訓練戦略による自由呼吸中の3dct-2dus腎臓登録の難しさに対処した。

This work proposed a novel deep registration pipeline for 3D CT and 2D U/S kidney scans of free breathing, which consists of a feature network, and a 3D-2D CNN-based registration network. The feature network has handcraft texture feature layers to reduce the semantic gap. The registration network is encoder-decoder structure with loss of feature-image-motion (FIM), which enables hierarchical regression at decoder layers and avoids multiple network concatenation. It was first pretrained with retrospective datasets cum training data generation strategy, then adapted to specific patient data under unsupervised one-cycle transfer learning in onsite application. The experiment was on 132 U/S sequences, 39 multiple phase CT and 210 public single phase CT images, and 25 pairs of CT and U/S sequences. It resulted in mean contour distance (MCD) of 0.94 mm between kidneys on CT and U/S images and MCD of 1.15 mm on CT and reference CT images. For datasets with small transformations, it resulted in MCD of 0.82 and 1.02 mm respectively. For large transformations, it resulted in MCD of 1.10 and 1.28 mm respectively. This work addressed difficulties in 3DCT-2DUS kidney registration during free breathing via novel network structures and training strategy.
翻訳日:2023-08-17 16:52:06 公開日:2023-08-16
# BlindHarmony:フローモデルによるMR画像の"Blind"高調波化

BlindHarmony: "Blind" Harmonization for MR Images via Flow model ( http://arxiv.org/abs/2305.10732v2 )

ライセンス: Link先を確認
Hwihun Jeong, Heejoon Byun, Dong Un Kang, and Jongho Lee(参考訳) MRIでは、同じ被験者の同じコントラスト(例えばT$_1$)の画像は、異なるハードウェア、シーケンス、スキャンパラメータを使用して取得した場合、顕著な違いを示す。 これらの画像の違いは、画像調和と呼ばれるステップによってブリッジされる必要がある領域ギャップを生成し、従来のまたは深層学習に基づく画像解析(セグメンテーションなど)を使用して画像の処理を成功させる。 画像調和を実現するために,ディープラーニングに基づくアプローチを含むいくつかの手法が提案されている。 しかし、深層学習トレーニングには複数のドメインからのデータセットを必要とすることが多く、見えないドメインの画像に適用しても失敗する可能性がある。 この制限に対処するために,対象とするドメインデータのみをトレーニングに用いながら,未知のドメインからのイメージを調和させる機能を持つ,"ブラインドハーモナイゼーション"という新しい概念を提案する。 ブラインドハーモニゼーションの実装のために、ターゲットドメインデータに基づいて訓練された非条件フローモデルを用いてBlindHarmonyを開発した。 調和画像は、フローモデルの潜在ベクトルがガウス分布の中心に近いことを保証しつつ、入力源領域画像と相関を持つように最適化される。 blindharmonyはシミュレーションと実データの両方で評価され、従来の方法と比較された。 blindharmonyは両方のデータセットで顕著なパフォーマンスを示し、将来臨床での使用の可能性を強調した。 ソースコードは、https://github.com/SNU-LIST/BlindHarmonyで入手できる。

In MRI, images of the same contrast (e.g., T$_1$) from the same subject can exhibit noticeable differences when acquired using different hardware, sequences, or scan parameters. These differences in images create a domain gap that needs to be bridged by a step called image harmonization, to process the images successfully using conventional or deep learning-based image analysis (e.g., segmentation). Several methods, including deep learning-based approaches, have been proposed to achieve image harmonization. However, they often require datasets from multiple domains for deep learning training and may still be unsuccessful when applied to images from unseen domains. To address this limitation, we propose a novel concept called `Blind Harmonization', which utilizes only target domain data for training but still has the capability to harmonize images from unseen domains. For the implementation of blind harmonization, we developed BlindHarmony using an unconditional flow model trained on target domain data. The harmonized image is optimized to have a correlation with the input source domain image while ensuring that the latent vector of the flow model is close to the center of the Gaussian distribution. BlindHarmony was evaluated on both simulated and real datasets and compared to conventional methods. BlindHarmony demonstrated noticeable performance on both datasets, highlighting its potential for future use in clinical settings. The source code is available at: https://github.com/SNU-LIST/BlindHarmony
翻訳日:2023-08-17 16:51:43 公開日:2023-08-16
# 時系列モデリングのための変分潜在離散表現

Variational latent discrete representation for time series modelling ( http://arxiv.org/abs/2306.15282v3 )

ライセンス: Link先を確認
Max Cohen (IP Paris, TSP - ARTEMIS, ARMEDIA-SAMOVAR), Maurice Charbit, Sylvain Le Corff (IP Paris, TSP - CITI, ISTeC-SAMOVAR)(参考訳) 離散潜在空間モデルは、最近、深部変分推論における連続的な空間と同等の性能を達成した。 彼らはまだ様々な実装課題に直面しているが、これらのモデルは自然に離散的な現象をより直接的に表現するだけでなく、潜在空間をよりよく解釈する機会を提供する。 最近のアプローチでは、離散潜在データ上で非常に高次元の事前モデルを個別に訓練することを提案している。 本稿では、離散状態がマルコフ連鎖であり、高速なエンドツーエンドトレーニングを可能にする潜在データモデルを提案する。 生成モデルの性能はビル管理データセットと一般公開されているElectricity Transformer Datasetに基づいて評価する。

Discrete latent space models have recently achieved performance on par with their continuous counterparts in deep variational inference. While they still face various implementation challenges, these models offer the opportunity for a better interpretation of latent spaces, as well as a more direct representation of naturally discrete phenomena. Most recent approaches propose to train separately very high-dimensional prior models on the discrete latent data which is a challenging task on its own. In this paper, we introduce a latent data model where the discrete state is a Markov chain, which allows fast end-to-end training. The performance of our generative model is assessed on a building management dataset and on the publicly available Electricity Transformer Dataset.
翻訳日:2023-08-17 16:43:08 公開日:2023-08-16
# ibmのeagle kick ising実験の効率的なテンソルネットワークシミュレーション

Efficient tensor network simulation of IBM's Eagle kicked Ising experiment ( http://arxiv.org/abs/2306.14887v2 )

ライセンス: Link先を確認
Joseph Tindall, Matt Fishman, Miles Stoudenmire and Dries Sels(参考訳) ヘキサゴン格子上のキックイジング量子システムの高精度かつ効率的な古典シミュレーションについて報告する。 このシステムのシミュレーションは、ノイズ緩和技術を用いて127量子ビット量子プロセッサ上で行われ、精度が向上した(Nature volume 618, p.500-505 (2023))。 ここでは, 格子の幾何学を反映し, 信念伝播を用いてほぼ収縮したテンソルネットワークアプローチを採用することにより, 量子プロセッサや他の多くの古典的手法から得られた結果よりもはるかに正確かつ正確な古典的シミュレーションを行うことができることを示す。 我々は,信仰伝播に基づくアプローチの精度を説明するために,波動関数の木様相関を定量化する。 また,本手法により,無限個の量子ビットを持つ量子コンピュータに対応する熱力学限界において,システムのシミュレーションを長時間行うことができることを示す。 我々のテンソルネットワークアプローチは、木のような相関を持つ量子系の力学をシミュレートする幅広い応用がある。

We report an accurate and efficient classical simulation of a kicked Ising quantum system on the heavy-hexagon lattice. A simulation of this system was recently performed on a 127 qubit quantum processor using noise mitigation techniques to enhance accuracy (Nature volume 618, p.500-505 (2023)). Here we show that, by adopting a tensor network approach that reflects the geometry of the lattice and is approximately contracted using belief propagation, we can perform a classical simulation that is significantly more accurate and precise than the results obtained from the quantum processor and many other classical methods. We quantify the tree-like correlations of the wavefunction in order to explain the accuracy of our belief propagation-based approach. We also show how our method allows us to perform simulations of the system to long times in the thermodynamic limit, corresponding to a quantum computer with an infinite number of qubits. Our tensor network approach has broader applications for simulating the dynamics of quantum systems with tree-like correlations.
翻訳日:2023-08-17 16:42:58 公開日:2023-08-16
# 積分表現からの量子R'enyiと$f$-divergences

Quantum R\'enyi and $f$-divergences from integral representations ( http://arxiv.org/abs/2306.12343v2 )

ライセンス: Link先を確認
Christoph Hirche, Marco Tomamichel(参考訳) 滑らかな csisz\'ar $f$-divergences は、いわゆるホッケースティックダイバージェンス上の積分として表現できる。 これは、量子ホッケースティックの多様性という観点からの自然な量子一般化を動機付けている。 このレシピを用いて、kullback-leibler divergenceは、最近frenkelによって発見された積分形式の梅垣相対エントロピーに一般化する。 我々の新しい量子$f$-発散によって定義されるR'enyiの発散は一般に加法的ではないが、それらの正規化は驚くほど、Petz R'enyiの発散を$\alpha < 1$で、サンドイッチされたR'enyiの発散を$\alpha > 1$で、これら2つの重要な量子R'enyi発散を統一することを発見した。 さらに、新しい量子数 $f$ の縮約係数は作用素凸であるすべての$f$ に対して崩壊し、古典的振る舞いを模倣し、lesniewski と ruskai によるいくつかの長年の予想を解いた。 我々は、差分プライバシーの応用を伴う新しい逆ピンスカー不等式を含む様々な不等式を導出し、また、新しい相違点の様々な応用を探索する。

Smooth Csisz\'ar $f$-divergences can be expressed as integrals over so-called hockey stick divergences. This motivates a natural quantum generalization in terms of quantum Hockey stick divergences, which we explore here. Using this recipe, the Kullback-Leibler divergence generalises to the Umegaki relative entropy, in the integral form recently found by Frenkel. We find that the R\'enyi divergences defined via our new quantum $f$-divergences are not additive in general, but that their regularisations surprisingly yield the Petz R\'enyi divergence for $\alpha < 1$ and the sandwiched R\'enyi divergence for $\alpha > 1$, unifying these two important families of quantum R\'enyi divergences. Moreover, we find that the contraction coefficients for the new quantum $f$ divergences collapse for all $f$ that are operator convex, mimicking the classical behaviour and resolving some long-standing conjectures by Lesniewski and Ruskai. We derive various inequalities, including new reverse Pinsker inequalites with applications in differential privacy and also explore various other applications of the new divergences.
翻訳日:2023-08-17 16:42:41 公開日:2023-08-16
# 熱力学第一法則によるユニバーサルランダウアー様不等式

Universal Landauer-Like Inequality from the First Law of Thermodynamics ( http://arxiv.org/abs/2306.11230v2 )

ライセンス: Link先を確認
Junjie Liu and Hanlin Nie(参考訳) エネルギー保存を支配する熱力学の第1法則は伝統的に等式として定式化されている。 驚いたことに、最初の法則だけでは、システムエントロピーとエネルギーの変化を結びつけるランダウアーのような普遍的な不等式が示される。 しかし、熱力学の第2法則に由来するランダウアー原理とは対照的に、得られたランダウアー様の不等式はシステム情報にのみ依存しており、ランダウアー原理の実装が困難になるシナリオに適用可能である。 さらに、ランドウアー様の不等式は、熱散逸に束縛された双対 {\it upper} を確立することによってランドウアーの原理を補うことができる。 本稿では,散逸量子状態形成におけるランドウアー様不等式と量子情報消去応用の実用性を示す。 本研究は,量子熱力学の分野や量子情報処理のエネルギーに関する熱力学的制約を同定するための新たな知見を提供するとともに,より具体的には,非熱水浴や浴場情報へのアクセスが制限された場合のシステム調査を支援する。

The first law of thermodynamics, which governs energy conservation, is traditionally formulated as an equality. Surprisingly, we demonstrate that the first law alone implies a universal Landauer-like inequality linking changes in system entropy and energy. However, contrasting with the Landauer principle derived from the second law of thermodynamics, our obtained Landauer-like inequality solely relies on system information and is applicable in scenarios where implementing the Landauer principle becomes challenging. Furthermore, the Landauer-like inequality can complement the Landauer principle by establishing a dual {\it upper} bound on heat dissipation. We illustrate the practical utility of the Landauer-like inequality in dissipative quantum state preparation and quantum information erasure applications. Our findings offer new insights into identifying thermodynamic constraints relevant to the fields of quantum thermodynamics and the energetics of quantum information processing and more specifically, this approach could facilitate investigations into systems coupled to non-thermal baths or scenarios where access to bath information is limited.
翻訳日:2023-08-17 16:42:13 公開日:2023-08-16
# instruct-neuraltalker: 命令による音声駆動発声野の編集

Instruct-NeuralTalker: Editing Audio-Driven Talking Radiance Fields with Instructions ( http://arxiv.org/abs/2306.10813v2 )

ライセンス: Link先を確認
Yuqi Sun, Ruian He, Weimin Tan and Bo Yan(参考訳) 最近のニューラルな話し声場法は、フォトリアリスティックな音声駆動音声合成において大きな成功を収めている。 本稿では,人間の指示を利用して暗黙的表現を編集し,リアルタイムな対話型顔生成を実現する対話型フレームワークを提案する。 短い音声ビデオが与えられたら、まず効率的な発声場を構築し、与えられた指示に基づいて最新の条件拡散モデルを画像編集に適用し、暗黙的表現最適化を編集対象に導く。 編集過程における音声-リップ同期を確保するため,反復的なデータセット更新戦略を提案し,唇領域の変化を抑制するためにリップエッジロスを利用する。 また,画像細部を補完し,最終的なレンダリング画像で制御可能な細部生成を実現する軽量な細部ネットワークを提案する。 また,コンシューマハードウェア上で最大30FPSのリアルタイムレンダリングを可能にする。 複数のメトリクスとユーザ検証によって、このアプローチは最先端のメソッドに比べてレンダリング品質が大幅に向上することを示している。

Recent neural talking radiance field methods have shown great success in photorealistic audio-driven talking face synthesis. In this paper, we propose a novel interactive framework that utilizes human instructions to edit such implicit neural representations to achieve real-time personalized talking face generation. Given a short speech video, we first build an efficient talking radiance field, and then apply the latest conditional diffusion model for image editing based on the given instructions and guiding implicit representation optimization towards the editing target. To ensure audio-lip synchronization during the editing process, we propose an iterative dataset updating strategy and utilize a lip-edge loss to constrain changes in the lip region. We also introduce a lightweight refinement network for complementing image details and achieving controllable detail generation in the final rendered image. Our method also enables real-time rendering at up to 30FPS on consumer hardware. Multiple metrics and user verification show that our approach provides a significant improvement in rendering quality compared to state-of-the-art methods.
翻訳日:2023-08-17 16:41:53 公開日:2023-08-16
# 潜時動的インシシシト拡散過程

Latent Dynamical Implicit Diffusion Processes ( http://arxiv.org/abs/2306.07077v2 )

ライセンス: Link先を確認
Mohammad R. Rezaei(参考訳) 潜時力学モデルは、雑音の多いデータサンプルの列を表す潜時力学過程の分布を学習するために一般的に用いられる。 しかし, 潜水・観測力学の複雑さと変動性から, 忠実度の高いモデルから試料を作成することは困難である。 DDPMやNCSNのような拡散型生成モデルの最近の進歩は、従来の分布から高品質な逐次サンプルを生成するために、Neural ODE、RNN、正規化フローネットワークといった最先端の潜時生成モデルに代わる有望な選択肢を示している。 しかし, 逐次モデルを用いた逐次データモデリングへの応用はまだ検討されていない。 そこで本研究では, 動的潜伏過程からのサンプル生成に暗黙的拡散過程を利用し, 逐次観測サンプルを生成する, 潜伏動的暗黙的拡散過程 (ldidps) と呼ばれる新しい潜伏変数モデルを提案する。 合成およびシミュレートされたニューラルデコード問題に対してLDIDPを試験した。 ldidpは潜在次元上のダイナミクスを正確に学習できることを実証する。 さらに, 暗黙的サンプリング法により, 潜在空間および観測空間から高品質な逐次データサンプルを計算効率良く生成することができる。

Latent dynamical models are commonly used to learn the distribution of a latent dynamical process that represents a sequence of noisy data samples. However, producing samples from such models with high fidelity is challenging due to the complexity and variability of latent and observation dynamics. Recent advances in diffusion-based generative models, such as DDPM and NCSN, have shown promising alternatives to state-of-the-art latent generative models, such as Neural ODEs, RNNs, and Normalizing flow networks, for generating high-quality sequential samples from a prior distribution. However, their application in modeling sequential data with latent dynamical models is yet to be explored. Here, we propose a novel latent variable model named latent dynamical implicit diffusion processes (LDIDPs), which utilizes implicit diffusion processes to sample from dynamical latent processes and generate sequential observation samples accordingly. We tested LDIDPs on synthetic and simulated neural decoding problems. We demonstrate that LDIDPs can accurately learn the dynamics over latent dimensions. Furthermore, the implicit sampling method allows for the computationally efficient generation of high-quality sequential data samples from the latent and observation spaces.
翻訳日:2023-08-17 16:41:16 公開日:2023-08-16
# QBSD: コスト効果のある時系列予測のための四季ベースの季節分解

QBSD: Quartile-Based Seasonality Decomposition for Cost-Effective Time Series Forecasting ( http://arxiv.org/abs/2306.05989v2 )

ライセンス: Link先を確認
Ebenezer RHP Isaac and Bulbul Singh(参考訳) 通信分野において、セルキー性能指標(KPI)のような時系列パターンの正確な予測は、サービス品質と運用効率を高める上で重要な役割を果たす。 最先端予測手法は、計算性能を犠牲にして予測精度を優先し、複数の時系列変数を持つシステムを含むデータ集約型アプリケーションにはあまり適さない。 この問題に対処するために,精度と計算複雑性のトレードオフを最適化するライブ予測手法であるQBSDを紹介する。 公開データセットに対する最先端予測手法に対するQBSDの性能評価を行った。 我々はまた、この調査をキュレートされたネットワークKPIデータセットに拡張し、現在公開されており、時間によって異なる動的操作範囲の効果を示す。 その結果,提案手法は,競合予測精度を維持しつつ,先行アルゴリズムと比較して実行時効率に優れていることがわかった。

In the telecom domain, precise forecasting of time series patterns, such as cell key performance indicators (KPIs), plays a pivotal role in enhancing service quality and operational efficiency. State-of-the-art forecasting approaches prioritize forecasting accuracy at the expense of computational performance, rendering them less suitable for data-intensive applications encompassing systems with a multitude of time series variables. To address this issue, we introduce QBSD, a live forecasting approach tailored to optimize the trade-off between accuracy and computational complexity. We have evaluated the performance of QBSD against state-of-the-art forecasting approaches on publicly available datasets. We have also extended this investigation to our curated network KPI dataset, now publicly accessible, to showcase the effect of dynamic operating ranges that varies with time. The results demonstrate that the proposed method excels in runtime efficiency compared to the leading algorithms available while maintaining competitive forecast accuracy.
翻訳日:2023-08-17 16:40:56 公開日:2023-08-16
# アロファント:調音属性を用いた言語間音素認識

Allophant: Cross-lingual Phoneme Recognition with Articulatory Attributes ( http://arxiv.org/abs/2306.04306v2 )

ライセンス: Link先を確認
Kevin Glocker (1), Aaricia Herygers (1), Munir Georges (1 and 2) ((1) AImotion Bavaria Technische Hochschule Ingolstadt, (2) Intel Labs Germany)(参考訳) 本稿では,多言語音素認識器であるallophantを提案する。 ターゲット言語への言語間転送には音素の在庫しか必要とせず、低リソースの認識を可能にする。 このアーキテクチャは、構成的な電話埋め込みアプローチと、マルチタスクアーキテクチャにおける個別に教師付き音声属性分類器を組み合わせる。 また,phoible データベースの拡張である allophoible についても紹介する。 グラフ-音素間出力の距離ベースマッピング手法と組み合わせることで、PHOIBLEの在庫を直接訓練することができる。 34言語を学習・評価することで,マルチタスク学習の追加により,未知の音素や音素の在庫に適用する能力が改善されることがわかった。 教師付き言語では,マルチタスク学習のないベースラインと比較して,音素誤り率の改善が11ポイント (pp.) である。 84言語におけるゼロショット転送の評価によりperは2.63pp。 ベースラインを越えて

This paper proposes Allophant, a multilingual phoneme recognizer. It requires only a phoneme inventory for cross-lingual transfer to a target language, allowing for low-resource recognition. The architecture combines a compositional phone embedding approach with individually supervised phonetic attribute classifiers in a multi-task architecture. We also introduce Allophoible, an extension of the PHOIBLE database. When combined with a distance based mapping approach for grapheme-to-phoneme outputs, it allows us to train on PHOIBLE inventories directly. By training and evaluating on 34 languages, we found that the addition of multi-task learning improves the model's capability of being applied to unseen phonemes and phoneme inventories. On supervised languages we achieve phoneme error rate improvements of 11 percentage points (pp.) compared to a baseline without multi-task learning. Evaluation of zero-shot transfer on 84 languages yielded a decrease in PER of 2.63 pp. over the baseline.
翻訳日:2023-08-17 16:40:41 公開日:2023-08-16
# オーバースカッシングはGNNのパワーにどのように影響しますか?

How does over-squashing affect the power of GNNs? ( http://arxiv.org/abs/2306.03589v2 )

ライセンス: Link先を確認
Francesco Di Giovanni, T. Konstantin Rusch, Michael M. Bronstein, Andreea Deac, Marc Lackenby, Siddhartha Mishra, Petar Veli\v{c}kovi\'c(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データの機械学習のための最先端モデルである。 最もポピュラーなGNNクラスは、隣接ノード間で情報を交換することで動作し、Message Passing Neural Networks (MPNNs)として知られている。 広く使われているMPNNの表現力を理解することは重要な問題である。 しかし、既存の結果は、通常、ノード機能のない設定を考える。 本稿では,与えられたキャパシティを持つMPNNがどのノード特徴の関数クラスを学習できるかを決定するための厳密な分析を行う。 私たちはMPNNが許容するノード間のペアワイズインタラクションのレベルを測定することで実現しています。 この尺度は、大量のメッセージが固定サイズのベクトルに集約されたときに発生する、いわゆるオーバースワッシング効果の新しい定量的特徴付けを提供する。 提案手法を用いて,一対のノード間の十分な通信を保証するために,MPNNの容量は,通勤時間などの入力グラフ構造の性質に応じて十分に大きくなければならないことを示す。 多くの関連するシナリオにおいて、我々の分析は実際には不可能なステートメントを生じさせ、過剰なスカッシングがMPNNの表現力を妨げていることを示す。 我々は,広範囲な制御実験とアブレーション研究を通じて理論的知見を検証する。

Graph Neural Networks (GNNs) are the state-of-the-art model for machine learning on graph-structured data. The most popular class of GNNs operate by exchanging information between adjacent nodes, and are known as Message Passing Neural Networks (MPNNs). Given their widespread use, understanding the expressive power of MPNNs is a key question. However, existing results typically consider settings with uninformative node features. In this paper, we provide a rigorous analysis to determine which function classes of node features can be learned by an MPNN of a given capacity. We do so by measuring the level of pairwise interactions between nodes that MPNNs allow for. This measure provides a novel quantitative characterization of the so-called over-squashing effect, which is observed to occur when a large volume of messages is aggregated into fixed-size vectors. Using our measure, we prove that, to guarantee sufficient communication between pairs of nodes, the capacity of the MPNN must be large enough, depending on properties of the input graph structure, such as commute times. For many relevant scenarios, our analysis results in impossibility statements in practice, showing that over-squashing hinders the expressive power of MPNNs. We validate our theoretical findings through extensive controlled experiments and ablation studies.
翻訳日:2023-08-17 16:40:28 公開日:2023-08-16
# 領域一般化のためのクロスコントラスト特徴摂動

Cross Contrasting Feature Perturbation for Domain Generalization ( http://arxiv.org/abs/2307.12502v2 )

ライセンス: Link先を確認
Chenming Li, Daoan Zhang, Wenjian Huang, Jianguo Zhang(参考訳) ドメイン一般化(DG)は、未確認のターゲットドメインをうまく一般化するソースドメインから堅牢なモデルを学ぶことを目的としている。 最近の研究では、ソースドメインに補完する分布を多様化するための新しいドメインサンプルや機能の生成に焦点を当てている。 しかし、これらのアプローチは、様々なドメインから合成されたサンプルが意味的歪みを引き起こすという制限にほとんど対処できない。 本稿では,CCFP(Cross Contrasting Feature Perturbation)フレームワークを提案する。ドメインシフトに対するモデル予測を規則化しながら,潜在空間における摂動特徴を生成することで,ドメインシフトをシミュレートする。 従来の固定合成戦略とは異なり、学習可能な特徴摂動と意味的一貫性制約を持つモジュールを設計する。 先行研究とは対照的に,本手法では生成型モデルやドメインラベルは使用しない。 公正な比較のための厳密な評価プロトコルを用いて、標準のDomainBedベンチマークで広範な実験を行う。 包括的実験により,本手法は従来の最先端技術よりも優れており,定量的に解析した結果,out-of-distribution (ood) シナリオにおけるドメインシフト問題を軽減できることがわかった。

Domain generalization (DG) aims to learn a robust model from source domains that generalize well on unseen target domains. Recent studies focus on generating novel domain samples or features to diversify distributions complementary to source domains. Yet, these approaches can hardly deal with the restriction that the samples synthesized from various domains can cause semantic distortion. In this paper, we propose an online one-stage Cross Contrasting Feature Perturbation (CCFP) framework to simulate domain shift by generating perturbed features in the latent space while regularizing the model prediction against domain shift. Different from the previous fixed synthesizing strategy, we design modules with learnable feature perturbations and semantic consistency constraints. In contrast to prior work, our method does not use any generative-based models or domain labels. We conduct extensive experiments on a standard DomainBed benchmark with a strict evaluation protocol for a fair comparison. Comprehensive experiments show that our method outperforms the previous state-of-the-art, and quantitative analyses illustrate that our approach can alleviate the domain shift problem in out-of-distribution (OOD) scenarios.
翻訳日:2023-08-17 16:34:30 公開日:2023-08-16
# 教育における人間とaiのハイブリッドエッセイのための境界の自動検出

Towards Automatic Boundary Detection for Human-AI Collaborative Hybrid Essay in Education ( http://arxiv.org/abs/2307.12267v4 )

ライセンス: Link先を確認
Zijie Zeng, Lele Sha, Yuheng Li, Kaixun Yang, Dragan Ga\v{s}evi\'c, Guanliang Chen(参考訳) 最近の大規模言語モデル(llm)、例えばchatgptは、特定の指示が提供されたときに、人間的かつ流動的な応答を生成することができる。 技術進歩によってもたらされる利便性を認める一方で、教育者は、学生がLSMを活用して執筆の課題を完了し、それらを元の作業として引き渡すのではないかと懸念している。 このような懸念から、多くのAIコンテンツ検出研究が実施されているが、これらの先行研究の多くは、テキストが完全に人間書きであるか、完全にAI生成であると仮定して、AIコンテンツ検出を分類問題としてモデル化した。 本研究では,人間と生成的LLM(ハイブリッドテキスト)が共同で検出対象のテキストを書けるような,希少かつ現実的な環境下でのAIコンテンツ検出について検討した。 まず,対象とするハイブリッドテキスト(境界検出)から人書きコンテンツとAI生成コンテンツ間の遷移点を特定することを目的とした。 そこで我々は,(1)エンコーダ訓練中にAI生成コンテンツと人書きコンテンツとを分離する2段階のアプローチを提案し,(2)隣り合う2つのプロトタイプ間の距離を計算し,その境界が互いに最も近い2つのプロトタイプの間に存在すると仮定した。 Through extensive experiments, we observed the following main findings: (1) the proposed approach consistently outperformed the baseline methods across different experiment settings; (2) the encoder training process can significantly boost the performance of the proposed approach; (3) when detecting boundaries for single-boundary hybrid essays, the proposed approach could be enhanced by adopting a relatively large prototype size, leading to a 22% improvement in the In-Domain evaluation and an 18% improvement in the Out-of-Domain evaluation.

The recent large language models (LLMs), e.g., ChatGPT, have been able to generate human-like and fluent responses when provided with specific instructions. While admitting the convenience brought by technological advancement, educators also have concerns that students might leverage LLMs to complete their writing assignments and pass them off as their original work. Although many AI content detection studies have been conducted as a result of such concerns, most of these prior studies modeled AI content detection as a classification problem, assuming that a text is either entirely human-written or entirely AI-generated. In this study, we investigated AI content detection in a rarely explored yet realistic setting where the text to be detected is collaboratively written by human and generative LLMs (i.e., hybrid text). We first formalized the detection task as identifying the transition points between human-written content and AI-generated content from a given hybrid text (boundary detection). Then we proposed a two-step approach where we (1) separated AI-generated content from human-written content during the encoder training process; and (2) calculated the distances between every two adjacent prototypes and assumed that the boundaries exist between the two adjacent prototypes that have the furthest distance from each other. Through extensive experiments, we observed the following main findings: (1) the proposed approach consistently outperformed the baseline methods across different experiment settings; (2) the encoder training process can significantly boost the performance of the proposed approach; (3) when detecting boundaries for single-boundary hybrid essays, the proposed approach could be enhanced by adopting a relatively large prototype size, leading to a 22% improvement in the In-Domain evaluation and an 18% improvement in the Out-of-Domain evaluation.
翻訳日:2023-08-17 16:34:09 公開日:2023-08-16
# スペクトル判別器の知覚品質改善効果について

On the Effectiveness of Spectral Discriminators for Perceptual Quality Improvement ( http://arxiv.org/abs/2307.12027v2 )

ライセンス: Link先を確認
Xin Luo, Yunan Zhu, Shunxin Xu, Dong Liu(参考訳) いくつかの最近の研究は、画像のフーリエスペクトルを生成モデルとして評価するスペクトル判別器の使用を提唱している。 しかし、スペクトル判別器の有効性はまだよく解釈されていない。 我々は、SR画像の品質がスペクトル変化の影響を受けやすいため、知覚画像超解像(GANベースSR)の文脈でスペクトル判別器を調べることでこの問題に対処する。 本分析の結果, スペクトル判別器は, 高周波数域の差を識別する上で, 通常の(空間)判別器よりも優れていることがわかったが, 空間判別器は低周波数域で有利である。 したがって,スペクトルと空間の判別器を同時に使用することを提案する。 さらに、まずパッチワイドフーリエスペクトルを計算し、次にTransformerでスペクトルを集約することでスペクトル判別器を改善する。 提案手法の有効性を2倍に検証する。 一方、スペクトル判別器の追加により、得られたSR画像のスペクトルは実際の画像とよく一致し、PDのトレードオフが良くなる。 一方,アンサンブル識別器は,非参照画像品質評価タスクで実証されているように,知覚品質をより正確に予測する。

Several recent studies advocate the use of spectral discriminators, which evaluate the Fourier spectra of images for generative modeling. However, the effectiveness of the spectral discriminators is not well interpreted yet. We tackle this issue by examining the spectral discriminators in the context of perceptual image super-resolution (i.e., GAN-based SR), as SR image quality is susceptible to spectral changes. Our analyses reveal that the spectral discriminator indeed performs better than the ordinary (a.k.a. spatial) discriminator in identifying the differences in the high-frequency range; however, the spatial discriminator holds an advantage in the low-frequency range. Thus, we suggest that the spectral and spatial discriminators shall be used simultaneously. Moreover, we improve the spectral discriminators by first calculating the patch-wise Fourier spectrum and then aggregating the spectra by Transformer. We verify the effectiveness of the proposed method twofold. On the one hand, thanks to the additional spectral discriminator, our obtained SR images have their spectra better aligned to those of the real images, which leads to a better PD tradeoff. On the other hand, our ensembled discriminator predicts the perceptual quality more accurately, as evidenced in the no-reference image quality assessment task.
翻訳日:2023-08-17 16:33:42 公開日:2023-08-16
# 人間のLLM認知判断

LLM Cognitive Judgements Differ From Human ( http://arxiv.org/abs/2307.11787v2 )

ライセンス: Link先を確認
Sotiris Lamprinidis(参考訳) 大規模言語モデル(LLM)は最近、研究者、ビジネス、消費者の注目を浴びている。 このようなモデルの言語能力は広く研究されているが、認知的対象として研究することへの関心が高まっている。 本研究は,認知科学文献からの限定データ帰納的推論課題におけるGPT-3とChatGPTの機能について検討する。 その結果、これらのモデルの認知的判断は人間に似ていないことが示唆された。

Large Language Models (LLMs) have lately been on the spotlight of researchers, businesses, and consumers alike. While the linguistic capabilities of such models have been studied extensively, there is growing interest in investigating them as cognitive subjects. In the present work I examine GPT-3 and ChatGPT capabilities on an limited-data inductive reasoning task from the cognitive science literature. The results suggest that these models' cognitive judgements are not human-like.
翻訳日:2023-08-17 16:33:22 公開日:2023-08-16
# SEMI-DiffusionInst:半導体欠陥分類とセグメンテーションのための拡散モデルに基づくアプローチ

SEMI-DiffusionInst: A Diffusion Model Based Approach for Semiconductor Defect Classification and Segmentation ( http://arxiv.org/abs/2307.08693v2 )

ライセンス: Link先を確認
Vic De Ridder, Bappaditya Dey, Sandip Halder, Bartel Van Waeyenberge(参考訳) ムーアの法則の継続的進行に伴い、集積回路(IC)デバイスの複雑さも増大している。 走査型電子顕微鏡(sem)画像ベースの広範な欠陥検査と正確な計測抽出は、先進ノード(2nm以上)技術における2つの大きな課題である。 ディープラーニング(DL)アルゴリズムに基づくコンピュータビジョンアプローチは、ここ数年で半導体欠陥検査で人気を博した。 本研究では,新しい半導体欠陥検査フレームワークであるsemi-diffusioninstについて検討し,従来のフレームワークと比較した。 著者の知る限り、この研究は拡散モデルを用いて半導体欠陥パターンを正確に検出し、正確にセグメント化する最初の実証である。 バックボーンとしての異なる特徴抽出ネットワークとデータサンプリング戦略を,精度と計算効率のバランスの取れたトレードオフを達成するために検討した。 提案手法は,mAP全体の従来の成果よりも優れており,ほぼすべての欠陥クラス(クラスAP)に対して比較的良好あるいは同等に動作する。 SEMI-DiffusionInstモデルのバウンディングボックスとセグメンテーションmAPはそれぞれ3.83%と2.10%改善されている。 個々の欠陥タイプのうち, 両欠陥タイプの検出タスクにおいて, 線崩壊精度と薄橋欠陥を約15倍改善した。 また, 推定ハイパーパラメータをチューニングすることにより, モデル精度を損なうことなく, 推定時間を大幅に改善できることが示されている。 最後に,これらを克服するための一定の限界と今後の作業戦略について論じる。

With continuous progression of Moore's Law, integrated circuit (IC) device complexity is also increasing. Scanning Electron Microscope (SEM) image based extensive defect inspection and accurate metrology extraction are two main challenges in advanced node (2 nm and beyond) technology. Deep learning (DL) algorithm based computer vision approaches gained popularity in semiconductor defect inspection over last few years. In this research work, a new semiconductor defect inspection framework "SEMI-DiffusionInst" is investigated and compared to previous frameworks. To the best of the authors' knowledge, this work is the first demonstration to accurately detect and precisely segment semiconductor defect patterns by using a diffusion model. Different feature extractor networks as backbones and data sampling strategies are investigated towards achieving a balanced trade-off between precision and computing efficiency. Our proposed approach outperforms previous work on overall mAP and performs comparatively better or as per for almost all defect classes (per class APs). The bounding box and segmentation mAPs achieved by the proposed SEMI-DiffusionInst model are improved by 3.83% and 2.10%, respectively. Among individual defect types, precision on line collapse and thin bridge defects are improved approximately 15\% on detection task for both defect types. It has also been shown that by tuning inference hyperparameters, inference time can be improved significantly without compromising model precision. Finally, certain limitations and future work strategy to overcome them are discussed.
翻訳日:2023-08-17 16:33:17 公開日:2023-08-16
# LLM比較評価:大規模言語モデルを用いたペアワイズ比較によるゼロショットNLG評価

LLM Comparative Assessment: Zero-shot NLG Evaluation through Pairwise Comparisons using Large Language Models ( http://arxiv.org/abs/2307.07889v2 )

ライセンス: Link先を確認
Adian Liusie, Potsawee Manakul, Mark J. F. Gales(参考訳) 大規模言語モデル(LLM)の現在の開発は、様々な自然言語タスクで印象的なゼロショット機能を実現している。 これらのシステムの興味深い応用として、自然言語生成(NLG)の自動評価がある。 本稿では,ゼロショットNLG評価におけるLCMの創発的能力を活用するための2つの選択肢について検討する。 NLG評価において比較評価は広く研究されていないが、人間は個別に評価するよりも2つの選択肢を比較する方が直感的であることが多い。 本研究は,複数の視点から比較評価を行う: 絶対的な評価と比較する性能,プロンプトにおける位置バイアス,比較数の観点からの効率的なランキング。 LLM比較評価はNLG評価における単純で汎用的で効果的なアプローチであることを示す。 FlanT5 や Llama2-chat のような中規模のオープンソース LLM では、スコアリングよりも比較評価が優れている。 さらに,対数比較を行う場合,llmは位置偏りが強いことを実証し,さらに性能を向上させるデバイアス手法を提案する。

Current developments in large language models (LLMs) have enabled impressive zero-shot capabilities across various natural language tasks. An interesting application of these systems is in the automated assessment of natural language generation (NLG), a highly challenging area with great practical benefit. In this paper, we explore two options for exploiting the emergent abilities of LLMs for zero-shot NLG assessment: absolute score prediction, and comparative assessment which uses relative comparisons between pairs of candidates. Though comparative assessment has not been extensively studied in NLG assessment, we note that humans often find it more intuitive to compare two options rather than scoring each one independently. This work examines comparative assessment from multiple perspectives: performance compared to absolute grading; positional biases in the prompt; and efficient ranking in terms of the number of comparisons. We illustrate that LLM comparative assessment is a simple, general and effective approach for NLG assessment. For moderate-sized open-source LLMs, such as FlanT5 and Llama2-chat, comparative assessment is superior to prompt scoring, and in many cases can achieve performance competitive with state-of-the-art methods. Additionally, we demonstrate that LLMs often exhibit strong positional biases when making pairwise comparisons, and we propose debiasing methods that can further improve performance.
翻訳日:2023-08-17 16:32:54 公開日:2023-08-16
# 室内シーンの凸分解

Convex Decomposition of Indoor Scenes ( http://arxiv.org/abs/2307.04246v3 )

ライセンス: Link先を確認
Vaibhav Vavilala and David Forsyth(参考訳) 本稿では,複雑な室内シーンをプリミティブに解析する方法について述べる。 プリミティブは単純な凸です。 提案手法は,RGBD入力からシーンを一定数の凸に解析するために学習された回帰手法を用いており,任意のセグメンテーションを受け入れて分解を改善することができる。 その結果は下降法で研磨され、凸を調整して非常によくフィットし、強欲に余分な原始物を取り除く。 シーン全体が解析されるので、従来の深さ、正規度、セグメンテーションエラーメトリクスを使って評価できる。 評価手法により, プリミティブ表現からの誤差は, 一つの画像から深度を予測する誤差に匹敵することを示した。

We describe a method to parse a complex, cluttered indoor scene into primitives which offer a parsimonious abstraction of scene structure. Our primitives are simple convexes. Our method uses a learned regression procedure to parse a scene into a fixed number of convexes from RGBD input, and can optionally accept segmentations to improve the decomposition. The result is then polished with a descent method which adjusts the convexes to produce a very good fit, and greedily removes superfluous primitives. Because the entire scene is parsed, we can evaluate using traditional depth, normal, and segmentation error metrics. Our evaluation procedure demonstrates that the error from our primitive representation is comparable to that of predicting depth from a single image.
翻訳日:2023-08-17 16:32:32 公開日:2023-08-16
# 低リソース手話認識のためのロバストな手話埋め込みの抽出に向けて

Towards the extraction of robust sign embeddings for low resource sign language recognition ( http://arxiv.org/abs/2306.17558v2 )

ライセンス: Link先を確認
Mathieu De Coster, Ellen Rushe, Ruth Holmes, Anthony Ventresque, Joni Dambre(参考訳) 孤立手話認識(SLR)はほとんどの場合、限られたシグナーグループによってゆっくりと明確に実行される記号を含むデータセットに適用されている。 しかし、現実のシナリオでは、難しい視覚条件、粗い署名、小さなデータセット、署名者独立モデルの必要性に満足しています。 この難題に対処するためには,手話ビデオの処理に頑健な特徴抽出器が必要である。 人間のポーズ推定が理想的候補になることを期待できる。 しかし、トレーニングセットとのドメインミスマッチや手話での難しいポーズのため、手話データやイメージベースのモデルはキーポイントベースのモデルよりも優れていることが多い。 さらに、画像ベースモデルによる転送学習の一般的な実践は、さらに精度が高いが、キーポイントベースのモデルは、通常、すべてのSLRデータセットをスクラッチからトレーニングする。 これらの因子はSLRの有用性を制限する。 既存の文献から、仮にポーズ推定器がSLRに最適であるかどうかも明らかでない。 我々は、SLRの最も人気のある3つのポーズ推定ツール、OpenPose、MMPose、MediaPipeを比較した。 キーポイント正規化,キーポイントインプテーションの欠如,ポーズ埋め込みの学習により,より優れた結果を得ることができ,転校学習が可能となる。 対象手話言語上のslrモデルの分類層のみを微調整した場合でも、手話言語間を移動でき、競合性能を得ることができる。 さらに,ターゲットの手話でのみトレーニングされたモデルよりも,微調整された組込みによるパフォーマンス向上が期待できる。 埋め込みは多言語で学ぶこともできる。 これらの埋め込みの応用は、将来低リソース手話言語に特に役立つ可能性がある。

Isolated Sign Language Recognition (SLR) has mostly been applied on datasets containing signs executed slowly and clearly by a limited group of signers. In real-world scenarios, however, we are met with challenging visual conditions, coarticulated signing, small datasets, and the need for signer independent models. To tackle this difficult problem, we require a robust feature extractor to process the sign language videos. One could expect human pose estimators to be ideal candidates. However, due to a domain mismatch with their training sets and challenging poses in sign language, they lack robustness on sign language data and image-based models often still outperform keypoint-based models. Furthermore, whereas the common practice of transfer learning with image-based models yields even higher accuracy, keypoint-based models are typically trained from scratch on every SLR dataset. These factors limit their usefulness for SLR. From the existing literature, it is also not clear which, if any, pose estimator performs best for SLR. We compare the three most popular pose estimators for SLR: OpenPose, MMPose and MediaPipe. We show that through keypoint normalization, missing keypoint imputation, and learning a pose embedding, we can obtain significantly better results and enable transfer learning. We show that keypoint-based embeddings contain cross-lingual features: they can transfer between sign languages and achieve competitive performance even when fine-tuning only the classifier layer of an SLR model on a target sign language. We furthermore achieve better performance using fine-tuned transferred embeddings than models trained only on the target sign language. The embeddings can also be learned in a multilingual fashion. The application of these embeddings could prove particularly useful for low resource sign languages in the future.
翻訳日:2023-08-17 16:32:18 公開日:2023-08-16
# 関連エンティティの選択:ゼロショット解析による知識グラフブートストラップ

Relevant Entity Selection: Knowledge Graph Bootstrapping via Zero-Shot Analogical Pruning ( http://arxiv.org/abs/2306.16296v2 )

ライセンス: Link先を確認
Lucas Jarnac, Miguel Couceiro, Pierre Monnin(参考訳) 知識グラフ構築(kgc)は、高品質の核から始まった反復的なプロセスと見なすことができる。 このような核はWikidataのようなオープンなKGに存在する知識から得ることができる。 しかし、そのような汎用kgのサイズのため、それらを全体として統合することは、無関係なコンテンツとスケーラビリティの問題を伴う可能性がある。 我々は,汎用kg に対する興味を持つ種実体から始まり,それらの隣り合う実体を保持または従属するアナロジーに基づくアプローチを提案する。 ウィキデータに対する我々のアプローチは、ドメイン均質または異質なシードエンティティを含む2つの手動ラベル付きデータセットを通して評価する。 我々は,我々の類推に基づくアプローチがLSTM,ランダムフォレスト,SVM,MLPを著しく低いパラメータ数で上回ることを示す。 また,その一般化ポテンシャルを転送学習環境において評価する。 これらの結果は、KGライフサイクルに関連するタスクにおけるアナロジーに基づく推論のさらなる統合を提唱する。

Knowledge Graph Construction (KGC) can be seen as an iterative process starting from a high quality nucleus that is refined by knowledge extraction approaches in a virtuous loop. Such a nucleus can be obtained from knowledge existing in an open KG like Wikidata. However, due to the size of such generic KGs, integrating them as a whole may entail irrelevant content and scalability issues. We propose an analogy-based approach that starts from seed entities of interest in a generic KG, and keeps or prunes their neighboring entities. We evaluate our approach on Wikidata through two manually labeled datasets that contain either domain-homogeneous or -heterogeneous seed entities. We empirically show that our analogy-based approach outperforms LSTM, Random Forest, SVM, and MLP, with a drastically lower number of parameters. We also evaluate its generalization potential in a transfer learning setting. These results advocate for the further integration of analogy-based inference in tasks related to the KG lifecycle.
翻訳日:2023-08-17 16:31:51 公開日:2023-08-16
# asymptotic-preserving convolutional deeponets による多スケール線形輸送方程式の拡散挙動の把握

Capturing the Diffusive Behavior of the Multiscale Linear Transport Equations by Asymptotic-Preserving Convolutional DeepONets ( http://arxiv.org/abs/2306.15891v2 )

ライセンス: Link先を確認
Keke Wu and Xiong-bin Yan and Shi Jin and Zheng Ma(参考訳) 本稿では,マルチスケールの時間依存線形輸送問題に対処するために設計された,漸近保存型畳み込み型深層作用素ネットワーク (apcons) の2つのタイプを提案する。 MLPを改良したバニラ物理インフォームドディープノネットは,所望のマクロな挙動を維持する不安定性を示す可能性がある。 したがって、漸近保存損失関数の利用が必要である。 拡散方程式における熱核からインスピレーションを得たConvolutional Deep Operator Networksという新しいアーキテクチャを提案し,各フィルタ層におけるプールおよびアクティベーション操作とともに,グローバルな熱カーネルの代わりに複数の局所畳み込み演算を用いる。 我々のAPCON法は, グリッドサイズに依存しないパラメータ数を持ち, 線形輸送問題の拡散挙動を捉えることができる。 最後に,本手法の有効性をいくつかの数値例を通して検証する。

In this paper, we introduce two types of novel Asymptotic-Preserving Convolutional Deep Operator Networks (APCONs) designed to address the multiscale time-dependent linear transport problem. We observe that the vanilla physics-informed DeepONets with modified MLP may exhibit instability in maintaining the desired limiting macroscopic behavior. Therefore, this necessitates the utilization of an asymptotic-preserving loss function. Drawing inspiration from the heat kernel in the diffusion equation, we propose a new architecture called Convolutional Deep Operator Networks, which employ multiple local convolution operations instead of a global heat kernel, along with pooling and activation operations in each filter layer. Our APCON methods possess a parameter count that is independent of the grid size and are capable of capturing the diffusive behavior of the linear transport problem. Finally, we validate the effectiveness of our methods through several numerical examples.
翻訳日:2023-08-17 16:31:34 公開日:2023-08-16
# ネットワーク型マルチエージェントマルコフ決定プロセスのための分散TD学習のO.D.E.フレームワーク

An O.D.E. Framework of Distributed TD-Learning for Networked Multi-Agent Markov Decision Processes ( http://arxiv.org/abs/2307.16706v3 )

ライセンス: Link先を確認
Donghwan Lee and Do Wan Kim(参考訳) 本研究の目的は,ネットワーク型マルチエージェントマルコフ決定問題(MAMDP)に対する分散常微分方程式(ODE)と分散時間差(TD)学習アルゴリズムを検討することである。 本研究では,個々のエージェントが自身の報酬のみにアクセスできる分散マルチエージェントフレームワークを採用し,他のエージェントの報酬に対する洞察を欠いている。 さらに、各エージェントは、グラフで表される通信ネットワークを介して、そのパラメータを隣接するエージェントと共有することができる。 私たちの貢献は2つの重要なポイントにまとめることができる。 1) 連続時間領域における平均的なコンセンサス手法に着想を得た新しい分散ODEを導入する。 ODEの収束は制御理論の観点から評価される。 2) 上記のODEに基づいて,新しい分散TD学習アルゴリズムを考案する。 提案する分散 ode の際立った特徴は、2つの独立した動的システム(それぞれ異なる役割を持つ)を組み込むことです。 この特徴は、新しい分散TD学習戦略のステージを設定し、その収束はボルカー・メインの定理を用いて確立することができる。

The primary objective of this paper is to investigate distributed ordinary differential equation (ODE) and distributed temporal difference (TD) learning algorithms for networked multi-agent Markov decision problems (MAMDPs). In our study, we adopt a distributed multi-agent framework where individual agents have access only to their own rewards, lacking insights into the rewards of other agents. Additionally, each agent has the ability to share its parameters with neighboring agents through a communication network, represented by a graph. Our contributions can be summarized in two key points: 1) We introduce novel distributed ODEs, inspired by the averaging consensus method in the continuous-time domain. The convergence of the ODEs is assessed through control theory perspectives. 2) Building upon the aforementioned ODEs, we devise new distributed TD-learning algorithms. A standout feature of one of our proposed distributed ODE is its incorporation of two independent dynamic systems, each with a distinct role. This characteristic sets the stage for a novel distributed TD-learning strategy, the convergence of which can potentially be established using the Borkar-Meyn theorem.
翻訳日:2023-08-17 16:24:31 公開日:2023-08-16
# 非線形逆問題に対する再電流運動量加速度を持つディープアンロールネットワーク

Deep Unrolling Networks with Recurrent Momentum Acceleration for Nonlinear Inverse Problems ( http://arxiv.org/abs/2307.16120v2 )

ライセンス: Link先を確認
Qingping Zhou, Jiayu Qian, Junqi Tang, Jinglai Li(参考訳) モデルベースの反復アルゴリズムとデータ駆動型ディープラーニングソリューションの強みを組み合わせることで、deep unrolling network(dunets)は逆イメージング問題を解決するための一般的なツールとなっている。 DuNetは、多くの線形逆問題に適用されているが、非線形問題は、その手法の性能を損なう傾向がある。 最適化アルゴリズムでよく用いられる運動量加速技術に着想を得て,長期記憶再帰ニューラルネットワーク(LSTM-RNN)を用いて運動量加速過程をシミュレートするリカレント運動量加速(RMA)フレームワークを提案する。 RMAモジュールは、LSTM-RNNが以前の勾配から知識を学び、保持する能力を活用する。 RMAを学習近位勾配降下法(LPGD)と学習原始双対法(LPD)の2つの一般的なDuNetに適用し,それぞれLPGD-RMAとLPD-RMAとなる。 非線形デコンボリューション問題と境界値が制限された電気インピーダンストモグラフィ問題という2つの非線形逆問題に関する実験結果を提供する。 最初の実験で、RMAによる改善は問題の非線形性に関して大きく増加することがわかった。 第2の例の結果はさらに、RMAスキームがDuNetの性能を著しく改善することを示した。

Combining the strengths of model-based iterative algorithms and data-driven deep learning solutions, deep unrolling networks (DuNets) have become a popular tool to solve inverse imaging problems. While DuNets have been successfully applied to many linear inverse problems, nonlinear problems tend to impair the performance of the method. Inspired by momentum acceleration techniques that are often used in optimization algorithms, we propose a recurrent momentum acceleration (RMA) framework that uses a long short-term memory recurrent neural network (LSTM-RNN) to simulate the momentum acceleration process. The RMA module leverages the ability of the LSTM-RNN to learn and retain knowledge from the previous gradients. We apply RMA to two popular DuNets -- the learned proximal gradient descent (LPGD) and the learned primal-dual (LPD) methods, resulting in LPGD-RMA and LPD-RMA respectively. We provide experimental results on two nonlinear inverse problems: a nonlinear deconvolution problem, and an electrical impedance tomography problem with limited boundary measurements. In the first experiment we have observed that the improvement due to RMA largely increases with respect to the nonlinearity of the problem. The results of the second example further demonstrate that the RMA schemes can significantly improve the performance of DuNets in strongly ill-posed problems.
翻訳日:2023-08-17 16:24:12 公開日:2023-08-16
# EnrichEvent: イベント抽出の進化のためのコンテキスト情報によるソーシャルデータ強化

EnrichEvent: Enriching Social Data with Contextual Information for Emerging Event Extraction ( http://arxiv.org/abs/2307.16082v2 )

ライセンス: Link先を確認
Mohammadali Sefidi Esfahani, Mohammad Akbari(参考訳) ソーシャルプラットフォームは、情報を広め、実生活のソーシャルイベントを議論するための重要なプラットフォームとして現れており、研究者が新しいイベント検出フレームワークを設計、実装する素晴らしい機会となっている。 しかし、既存のほとんどのアプローチは、キーワードバーストネスやネットワーク構造を利用して特定されていない事象を検出するだけである。 したがって、しばしばイベントや社会データの困難な性質に関する特定されていない事象を特定することができない。 社会データ、例えばツイートは、ミススペル、不完全さ、単語認識の曖昧さ、不規則な言語、そして意見の側面のバリエーションによって特徴づけられる。 さらに,限られた構造知識を生かしてイベントを進化させる識別的特徴やパターンを抽出することは不可能である。 本論文では,これらの課題に対処するために,ストリーミングソーシャルデータの語彙表現と文脈表現を活用した新しいフレームワークであるenfluenceeventを提案する。 特に,文脈的知識と語彙的知識を活用し,意味的に関連したツイートを検出し,イベント検出手法の有効性を高める。 最終的に、提案フレームワークは各イベントに対してクラスタチェーンを生成し、時間を通じてイベントの変動を示す。 社会イベントの検出と識別において,そのハイパフォーマンスと有効性を検証するため,フレームワークを評価するために広範な実験を行った。

Social platforms have emerged as crucial platforms for disseminating information and discussing real-life social events, which offers an excellent opportunity for researchers to design and implement novel event detection frameworks. However, most existing approaches merely exploit keyword burstiness or network structures to detect unspecified events. Thus, they often fail to identify unspecified events regarding the challenging nature of events and social data. Social data, e.g., tweets, is characterized by misspellings, incompleteness, word sense ambiguation, and irregular language, as well as variation in aspects of opinions. Moreover, extracting discriminative features and patterns for evolving events by exploiting the limited structural knowledge is almost infeasible. To address these challenges, in this thesis, we propose a novel framework, namely EnrichEvent, that leverages the lexical and contextual representations of streaming social data. In particular, we leverage contextual knowledge, as well as lexical knowledge, to detect semantically related tweets and enhance the effectiveness of the event detection approaches. Eventually, our proposed framework produces cluster chains for each event to show the evolving variation of the event through time. We conducted extensive experiments to evaluate our framework, validating its high performance and effectiveness in detecting and distinguishing unspecified social events.
翻訳日:2023-08-17 16:23:45 公開日:2023-08-16
# LLM-Rec:大規模言語モデルによるパーソナライズされたレコメンデーション

LLM-Rec: Personalized Recommendation via Prompting Large Language Models ( http://arxiv.org/abs/2307.15780v2 )

ライセンス: Link先を確認
Hanjia Lyu, Song Jiang, Hanqing Zeng, Qifan Wang, Si Zhang, Ren Chen, Chris Leung, Jiajie Tang, Yinglong Xia, Jiebo Luo(参考訳) 本稿では,大規模言語モデル(LLM)によるパーソナライズされたレコメンデーションパフォーマンス向上のための様々なプロンプト戦略について検討する。 提案手法は,(1)基本プロンプト,(2)レコメンデーション駆動プロンプト,(3)エンゲージメント誘導プロンプト,(4)レコメンデーション駆動+エンゲージメント誘導プロンプトの4つの異なるプロンプト戦略を包含する。 実験の結果,llmで生成した拡張入力テキストを組み込むことにより,レコメンデーション性能が向上することが示された。 レコメンデーション駆動およびエンゲージメント誘導によるプロンプト戦略は、llmのグローバルおよびローカルアイテム特性に対する理解を誘発する。 この発見は、LLMの推奨機能を強化するために多様なプロンプトと入力拡張技術を活用することの重要性を強調している。

We investigate various prompting strategies for enhancing personalized recommendation performance with large language models (LLMs) through input augmentation. Our proposed approach, termed LLM-Rec, encompasses four distinct prompting strategies: (1) basic prompting, (2) recommendation-driven prompting, (3) engagement-guided prompting, and (4) recommendation-driven + engagement-guided prompting. Our empirical experiments show that incorporating the augmented input text generated by LLM leads to improved recommendation performance. Recommendation-driven and engagement-guided prompting strategies are found to elicit LLM's understanding of global and local item characteristics. This finding highlights the importance of leveraging diverse prompts and input augmentation techniques to enhance the recommendation capabilities with LLMs.
翻訳日:2023-08-17 16:23:22 公開日:2023-08-16
# 自然災害用未登録バイテンポラル画像のエンドツーエンドリモートセンシング変化検出

End-to-end Remote Sensing Change Detection of Unregistered Bi-temporal Images for Natural Disasters ( http://arxiv.org/abs/2307.15128v2 )

ライセンス: Link先を確認
Guiqin Zhao, Lianlei Shan, Weiqiang Wang(参考訳) リモートセンシング画像に基づく変化検出は,リモートセンシングの分野で注目されている分野である。 深層ネットワークは,双方向リモートセンシング画像の変化の検出に有意な成功を収め,様々な分野で応用されている。 自然環境の悪化と自然災害の頻発を考慮し, リモートセンシング画像による災害現場の被害建物を的確かつ迅速に同定することが重要である。 本稿では,自然災害に特有な変化検出について検討する。 両時間画像が一致しない現実的なシナリオと一致しない変更検出研究に使用される既存の公開データセットが登録されていることを考慮し、xBD-E2ECDと呼ばれる未登録のエンドツーエンドの変更検出合成データセットを提案する。 さらに、未登録のバイテンポラル画像ペアを入力として、フローフィールド予測結果と変更検出予測結果とを同時に生成するE2ECDNetというエンドツーエンドの変更検出ネットワークを提案する。 e2ecdnetは、登録されていない特別なケースとして、登録された画像ペアの変更検出もサポートしています。 さらに, 前向きなケースを正しく予測する基準を再定義し, 周辺地域による変化検出評価指標を導入する。 実験結果は有意な改善を示した。

Change detection based on remote sensing images has been a prominent area of interest in the field of remote sensing. Deep networks have demonstrated significant success in detecting changes in bi-temporal remote sensing images and have found applications in various fields. Given the degradation of natural environments and the frequent occurrence of natural disasters, accurately and swiftly identifying damaged buildings in disaster-stricken areas through remote sensing images holds immense significance. This paper aims to investigate change detection specifically for natural disasters. Considering that existing public datasets used in change detection research are registered, which does not align with the practical scenario where bi-temporal images are not matched, this paper introduces an unregistered end-to-end change detection synthetic dataset called xBD-E2ECD. Furthermore, we propose an end-to-end change detection network named E2ECDNet, which takes an unregistered bi-temporal image pair as input and simultaneously generates the flow field prediction result and the change detection prediction result. It is worth noting that our E2ECDNet also supports change detection for registered image pairs, as registration can be seen as a special case of non-registration. Additionally, this paper redefines the criteria for correctly predicting a positive case and introduces neighborhood-based change detection evaluation metrics. The experimental results have demonstrated significant improvements.
翻訳日:2023-08-17 16:23:04 公開日:2023-08-16
# シーンテキスト検出のための適応セグメンテーションネットワーク

Adaptive Segmentation Network for Scene Text Detection ( http://arxiv.org/abs/2307.15029v2 )

ライセンス: Link先を確認
Guiqin Zhao(参考訳) 深層畳み込みセグメンテーションアルゴリズムにインスパイアされたシーンテキスト検出器は、データセットのパフォーマンス天井を着実に破壊する。 しかし、これらの手法はしばしばしきい値選択のボトルネックに遭遇し、極端なアスペクト比を持つテキストインスタンスでは性能が劣る。 本稿では,セグメンテーションに基づくテキスト検出のための背景画素とテキスト画素を区別するセグメンテーション閾値を自動的に学習し,さらに時間を要する手動パラメータ調整を低減させる。 また,グローバル情報強化機能ピラミッドネットワーク (ge-fpn) を設計し,マクロサイズと極端アスペクト比でテキストをキャプチャする。 GE-FPNの後、テキストインスタンスをさらに洗練するためにカスケード最適化構造を導入する。 最後に,提案したしきい値学習戦略とテキスト検出構造とともに,シーンテキスト検出のための適応セグメンテーションネットワーク(ASNet)を設計する。 提案したASNetは, ICDAR 2015, MSRA-TD500, ICDAR 2017 MLT, CTW1500の4つのテキスト検出ベンチマークにおいて, 最先端のパフォーマンスを達成できることを示した。 アブレーション実験は,我々の貢献の有効性も検証した。

Inspired by deep convolution segmentation algorithms, scene text detectors break the performance ceiling of datasets steadily. However, these methods often encounter threshold selection bottlenecks and have poor performance on text instances with extreme aspect ratios. In this paper, we propose to automatically learn the discriminate segmentation threshold, which distinguishes text pixels from background pixels for segmentation-based scene text detectors and then further reduces the time-consuming manual parameter adjustment. Besides, we design a Global-information Enhanced Feature Pyramid Network (GE-FPN) for capturing text instances with macro size and extreme aspect ratios. Following the GE-FPN, we introduce a cascade optimization structure to further refine the text instances. Finally, together with the proposed threshold learning strategy and text detection structure, we design an Adaptive Segmentation Network (ASNet) for scene text detection. Extensive experiments are carried out to demonstrate that the proposed ASNet can achieve the state-of-the-art performance on four text detection benchmarks, i.e., ICDAR 2015, MSRA-TD500, ICDAR 2017 MLT and CTW1500. The ablation experiments also verify the effectiveness of our contributions.
翻訳日:2023-08-17 16:22:42 公開日:2023-08-16
# mental-llm:オンラインテキストデータによるメンタルヘルス予測のための大規模言語モデル活用

Mental-LLM: Leveraging Large Language Models for Mental Health Prediction via Online Text Data ( http://arxiv.org/abs/2307.14385v2 )

ライセンス: Link先を確認
Xuhai Xu, Bingshen Yao, Yuanzhe Dong, Saadia Gabriel, Hong Yu, James Hendler, Marzyeh Ghassemi, Anind K. Dey, Dakuo Wang(参考訳) 大規模言語モデル(LLM)の進歩は、様々なアプリケーションに力を与えてきた。 しかし、精神保健分野におけるLSMの能力の理解と向上に関して、研究には依然として大きなギャップがある。 本研究は,アルパカ,アルパカ-ロラ,FLAN-T5,GPT-3.5,GPT-4を含む複数のLSMの様々なメンタルヘルス予測タスクにおけるオンラインテキストデータによる総合的な評価である。 我々は、ゼロショットプロンプト、少数ショットプロンプト、命令微調整など幅広い実験を行っている。 その結果、ゼロショットと数ショットのプロンプトを持つLSMの有望かつ限定的なパフォーマンスが、メンタルヘルスタスクのために設計されていることが示唆された。 さらに重要なことは、命令の微調整が全てのタスクに対するLLMの性能を同時に向上させることを示すことである。 当社の「メンタル・アルパカ」と「メンタル・フラン・t5」は、gpt-3.5(25倍と15倍)のベストプロンプトデザインを10.9%上回り、gpt-4(250倍と150倍)のベストを4.8%上回った。 彼らはまた、最先端のタスク特化言語モデルと同等に機能する。 また,llmsのメンタルヘルス推論能力に関する探索的なケーススタディを実施し,gpt-4などのモデルが有望であることを示す。 本研究は,精神保健業務におけるLCMの能力を高めるための行動ガイドラインのセットにまとめる。 また、人種的偏見や性別的偏見など、現実世界のメンタルヘルス設定において、デプロイ可能性を達成する前に重要な制限を強調します。 この研究に付随する重要な倫理的リスクを強調します。

Advances in large language models (LLMs) have empowered a variety of applications. However, there is still a significant gap in research when it comes to understanding and enhancing the capabilities of LLMs in the field of mental health. In this work, we present the first comprehensive evaluation of multiple LLMs, including Alpaca, Alpaca-LoRA, FLAN-T5, GPT-3.5, and GPT-4, on various mental health prediction tasks via online text data. We conduct a broad range of experiments, covering zero-shot prompting, few-shot prompting, and instruction fine-tuning. The results indicate a promising yet limited performance of LLMs with zero-shot and few-shot prompt designs for the mental health tasks. More importantly, our experiments show that instruction finetuning can significantly boost the performance of LLMs for all tasks simultaneously. Our best-finetuned models, Mental-Alpaca and Mental-FLAN-T5, outperform the best prompt design of GPT-3.5 (25 and 15 times bigger) by 10.9% on balanced accuracy and the best of GPT-4 (250 and 150 times bigger) by 4.8%. They further perform on par with the state-of-the-art task-specific language model. We also conduct an exploratory case study on LLMs' capability on the mental health reasoning tasks, illustrating the promising capability of certain models such as GPT-4. We summarize our findings into a set of action guidelines for potential methods to enhance LLMs' capability for mental health tasks. Meanwhile, we also emphasize the important limitations before achieving deployability in real-world mental health settings, such as known racial and gender bias. We highlight the important ethical risks accompanying this line of research.
翻訳日:2023-08-17 16:22:19 公開日:2023-08-16
# 3dセマンティックサブスペーストラバーサ : 形状編集機能付き3d生成モデルの実現

3D Semantic Subspace Traverser: Empowering 3D Generative Model with Shape Editing Capability ( http://arxiv.org/abs/2307.14051v4 )

ライセンス: Link先を確認
Ruowei Wang, Yu Liu, Pei Su, Jianwei Zhang, Qijun Zhao(参考訳) 形状生成は、3dコンテンツ作成のための様々な表現として3d形状を生成する実践である。 従来の3次元形状生成の研究は、意味情報の重要性を考慮せずに、形状の質と構造に焦点を合わせてきた。 したがって、このような生成モデルは、しばしば、形状構造の意味的一貫性を維持したり、生成中の形状の意味的属性を操作できない。 本稿では,カテゴリ固有の3次元形状の生成と編集に意味属性を利用する3Dセマンティックサブスペーストラバーサという新しい意味生成モデルを提案する。 提案手法は3次元形状表現として暗黙関数を利用し,新しい潜在空間GANと線形部分空間モデルを組み合わせて,局所潜在空間における意味的次元を探索する。 部分空間の各次元は特定の意味属性に対応し、それらの次元の係数をトラバースすることで生成された形状の属性を編集することができる。 実験の結果,提案手法は複雑な構造を持つ妥当な形状を生成でき,意味属性の編集が可能となった。 コードとトレーニングされたモデルはhttps://github.com/trepangcat/3d_semantic_subspace_traverserで入手できる。

Shape generation is the practice of producing 3D shapes as various representations for 3D content creation. Previous studies on 3D shape generation have focused on shape quality and structure, without or less considering the importance of semantic information. Consequently, such generative models often fail to preserve the semantic consistency of shape structure or enable manipulation of the semantic attributes of shapes during generation. In this paper, we proposed a novel semantic generative model named 3D Semantic Subspace Traverser that utilizes semantic attributes for category-specific 3D shape generation and editing. Our method utilizes implicit functions as the 3D shape representation and combines a novel latent-space GAN with a linear subspace model to discover semantic dimensions in the local latent space of 3D shapes. Each dimension of the subspace corresponds to a particular semantic attribute, and we can edit the attributes of generated shapes by traversing the coefficients of those dimensions. Experimental results demonstrate that our method can produce plausible shapes with complex structures and enable the editing of semantic attributes. The code and trained models are available at https://github.com/TrepangCat/3D_Semantic_Subspace_Traverser
翻訳日:2023-08-17 16:21:48 公開日:2023-08-16
# 意思決定型学習:基礎,最先端,ベンチマーク,将来の可能性

Decision-Focused Learning: Foundations, State of the Art, Benchmark and Future Opportunities ( http://arxiv.org/abs/2307.13565v2 )

ライセンス: Link先を確認
Jayanta Mandi, James Kotary, Senne Berden, Maxime Mulamba, Victor Bucarey, Tias Guns and Ferdinando Fioretto(参考訳) 決定中心学習(DFL)は機械学習における新たなパラダイムであり、決定を最適化し、予測と最適化をエンドツーエンドシステムに統合するためにモデルを訓練する。 このパラダイムは、不確実性の下で動作し、これらの決定モデル内の未知のパラメータの推定がしばしば実質的な障害となる多くの現実世界のアプリケーションにおいて、意思決定に革命をもたらすという約束を持っている。 本稿では,DFLの概要を概観する。 機械学習と最適化モデルを統合するために考案された様々な手法を詳細に分析し、独自の特徴によって区別されたDFL手法の分類を導入し、これらの手法の広範な評価を行い、適切なベンチマークデータセットとDFLのためのタスクを提案する。 最後に、この研究は、DFL研究の現在および将来の可能性に関する貴重な知見を提供する。

Decision-focused learning (DFL) is an emerging paradigm in machine learning which trains a model to optimize decisions, integrating prediction and optimization in an end-to-end system. This paradigm holds the promise to revolutionize decision-making in many real-world applications which operate under uncertainty, where the estimation of unknown parameters within these decision models often becomes a substantial roadblock. This paper presents a comprehensive review of DFL. It provides an in-depth analysis of the various techniques devised to integrate machine learning and optimization models, introduces a taxonomy of DFL methods distinguished by their unique characteristics, and conducts an extensive empirical evaluation of these methods proposing suitable benchmark dataset and tasks for DFL. Finally, the study provides valuable insights into current and potential future avenues in DFL research.
翻訳日:2023-08-17 16:21:27 公開日:2023-08-16
# LiDARメタ深度補完

LiDAR Meta Depth Completion ( http://arxiv.org/abs/2307.12761v2 )

ライセンス: Link先を確認
Wolfgang Boettcher, Lukas Hoyer, Ozan Unal, Ke Li, Dengxin Dai(参考訳) 深度推定は、モバイル自律システムを構築する際に対処すべき重要なタスクの1つである。 近年では単眼深度推定法が改良されているが,LiDARなど他のセンサからのスパース深度情報を付加することにより,より正確で信頼性の高い深度マップを提供する。 しかし、現在の方法は1つのLiDARセンサーに対して特別に訓練されている。 センサー間で走査パターンが異なるため、新しいセンサーは、計算効率が悪く柔軟性がない特殊な深度完了モデルを再訓練する必要がある。 そこで本研究では,LiDAR適応深度補修が可能なセンサタイプに,深度補修モデルを動的に適用することを提案する。 具体的には、データから派生したデータパターンを用いてタスクネットワークを学習し、メイン深度完了ネットワークの重みを変更することで、与えられた深度完了タスクを効果的に解決するメタ深度完了ネットワークを提案する。 この方法は、複数のLiDARスキャンパターンに取り組む強力な能力を示し、トレーニング中に目に見えないパターンを一般化する。 単一モデルを用いることで、異なるlidarパターンでトレーニングされた非適応ベースラインよりもはるかに優れた結果が得られる。 非常にスパースなケースでは、LiDAR固有のエキスパートモデルよりも優れています。 これらの利点は、異なるセンサーに単一の深度補完モデルを柔軟に配置することを可能にし、これはまた、固定走査パターンの代わりに適応的なLiDAR技術の入力を処理するのに有用であることも証明できる。

Depth estimation is one of the essential tasks to be addressed when creating mobile autonomous systems. While monocular depth estimation methods have improved in recent times, depth completion provides more accurate and reliable depth maps by additionally using sparse depth information from other sensors such as LiDAR. However, current methods are specifically trained for a single LiDAR sensor. As the scanning pattern differs between sensors, every new sensor would require re-training a specialized depth completion model, which is computationally inefficient and not flexible. Therefore, we propose to dynamically adapt the depth completion model to the used sensor type enabling LiDAR adaptive depth completion. Specifically, we propose a meta depth completion network that uses data patterns derived from the data to learn a task network to alter weights of the main depth completion network to solve a given depth completion task effectively. The method demonstrates a strong capability to work on multiple LiDAR scanning patterns and can also generalize to scanning patterns that are unseen during training. While using a single model, our method yields significantly better results than a non-adaptive baseline trained on different LiDAR patterns. It outperforms LiDAR-specific expert models for very sparse cases. These advantages allow flexible deployment of a single depth completion model on different sensors, which could also prove valuable to process the input of nascent LiDAR technology with adaptive instead of fixed scanning patterns.
翻訳日:2023-08-17 16:21:12 公開日:2023-08-16
# SSL-Auth: 自己教師型学習における事前学習エンコーダのためのFragile Watermarkingによる認証フレームワーク

SSL-Auth: An Authentication Framework by Fragile Watermarking for Pre-trained Encoders in Self-supervised Learning ( http://arxiv.org/abs/2308.04673v2 )

ライセンス: Link先を確認
Xiaobei Li, Changchun Yin, Liming Fang, Run Wang, Chenhao Lin(参考訳) 強力なエンコーダのトレーニングにラベルのないデータセットを使用する自己教師付き学習(SSL)は、最近大きな成功を収めている。 これらのエンコーダは下流タスクの機能抽出器として機能し、かなりのリソースを必要とする。 しかし、エンコーダトレーナーの知的財産保護と、デプロイされたエンコーダの信頼性を確保するという課題は、SSLにおいて大きなギャップを保っている。 さらに、最近の研究は、バックドアや敵攻撃のような事前訓練されたエンコーダに対する脅威を強調している。 これらのギャップに対処するため,事前にトレーニングされたエンコーダ用に設計された最初の認証フレームワークであるSSL-Authを提案する。 特にSSL-Authは、選択されたキーサンプルを透かし情報として利用し、検証ネットワークをトレーニングして透かし情報を再構築し、モデル性能を損なうことなくエンコーダの整合性を検証する。 キーサンプルの復元結果を比較することで、修正エンコーダが元の再構築を模倣しないため、悪意のある修正を検出することができる。 各種エンコーダおよび下流タスクの総合評価は,提案したSSL-Authの有効性と脆弱性を示す。

Self-supervised learning (SSL), utilizing unlabeled datasets for training powerful encoders, has achieved significant success recently. These encoders serve as feature extractors for downstream tasks, requiring substantial resources. However, the challenge of protecting the intellectual property of encoder trainers and ensuring the trustworthiness of deployed encoders remains a significant gap in SSL. Moreover, recent researches highlight threats to pre-trained encoders, such as backdoor and adversarial attacks. To address these gaps, we propose SSL-Auth, the first authentication framework designed specifically for pre-trained encoders. In particular, SSL-Auth utilizes selected key samples as watermark information and trains a verification network to reconstruct the watermark information, thereby verifying the integrity of the encoder without compromising model performance. By comparing the reconstruction results of the key samples, malicious alterations can be detected, as modified encoders won't mimic the original reconstruction. Comprehensive evaluations on various encoders and diverse downstream tasks demonstrate the effectiveness and fragility of our proposed SSL-Auth.
翻訳日:2023-08-17 16:14:00 公開日:2023-08-16
# SeACo-Paraformer:フレキシブルで効果的なホットワードカスタマイズ機能を備えた非自己回帰型ASRシステム

SeACo-Paraformer: A Non-Autoregressive ASR System with Flexible and Effective Hotword Customization Ability ( http://arxiv.org/abs/2308.03266v2 )

ライセンス: Link先を確認
Xian Shi, Yexin Yang, Zerui Li, Shiliang Zhang(参考訳) ホットワードのカスタマイズは、ASRのフィールドに残る重要な問題の1つであり、ASRシステムのユーザーがエンティティ、人、その他のフレーズの名前をカスタマイズできるようにすることに価値がある。 過去数年間、ASRの文脈化のための暗黙的および明示的なモデリング戦略が開発されてきた。 これらのアプローチは十分に機能しているが、有効性の不安定などいくつかの欠点がある。 本稿では,フレキシブルかつ効果的なホットワードカスタマイズ機能を有する新しいnar型asrシステムであるseaco-paraformerを提案する。 AEDベースのモデルの精度、NARモデルの効率、文脈化における優れた性能を組み合わせる。 産業用ビッグデータ実験5万時間において,提案したモデルは,カスタマイズや一般的なASRタスクにおいて,強力なベースラインを達成している。 さらに,大規模にやってくるホットワードを効率よくフィルタリングし,さらなる改善を図る。 提案・比較されたソースコードと産業モデルは、全てオープンであり、2つのホットワードテストセットがある。

Hotword customization is one of the important issues remained in ASR field - it is of value to enable users of ASR systems to customize names of entities, persons and other phrases. The past few years have seen both implicit and explicit modeling strategies for ASR contextualization developed. While these approaches have performed adequately, they still exhibit certain shortcomings such as instability in effectiveness. In this paper we propose Semantic-augmented Contextual-Paraformer (SeACo-Paraformer) a novel NAR based ASR system with flexible and effective hotword customization ability. It combines the accuracy of the AED-based model, the efficiency of the NAR model, and the excellent performance in contextualization. In 50,000 hours industrial big data experiments, our proposed model outperforms strong baselines in customization and general ASR tasks. Besides, we explore an efficient way to filter large scale incoming hotwords for further improvement. The source codes and industrial models proposed and compared are all opened as well as two hotword test sets.
翻訳日:2023-08-17 16:13:40 公開日:2023-08-16
# 物理相互作用の因果配列による物理ベースタスク生成

Physics-Based Task Generation through Causal Sequence of Physical Interactions ( http://arxiv.org/abs/2308.02835v2 )

ライセンス: Link先を確認
Chathura Gamage, Vimukthini Pinto, Matthew Stephenson, Jochen Renz(参考訳) 物理的な環境でタスクを実行することは、現実世界で動作するAIシステムにとって決定的に難しい問題である。 物理シミュレーションに基づくタスクは、この課題に対処する研究を促進するためにしばしば用いられる。 本稿ではまず,物体間の物理的相互作用の因果関係を用いて物理シナリオを定義するための体系的なアプローチを提案する。 そこで,これらのシナリオを入力として,物理シミュレーション環境でタスクを生成する手法を提案する。 本手法は、物理系タスクの解法に必要な粒度力学をよりよく理解し、aiシステムの物理的推論能力の正確な評価を容易にする。 本研究では,物理ベースのパズルゲームangry birdsを用いてタスク生成手法を実証し,物理的安定性,意図した物理的相互作用による可解性,意図しない解を用いた偶発的可解性など,様々な指標を用いて生成タスクを評価する。 提案手法を用いて生成したタスクは,物理推論エージェントの微妙な評価を容易にし,より洗練された実世界のアプリケーションのためのエージェント開発への道を開くことができると考えている。

Performing tasks in a physical environment is a crucial yet challenging problem for AI systems operating in the real world. Physics simulation-based tasks are often employed to facilitate research that addresses this challenge. In this paper, first, we present a systematic approach for defining a physical scenario using a causal sequence of physical interactions between objects. Then, we propose a methodology for generating tasks in a physics-simulating environment using these defined scenarios as inputs. Our approach enables a better understanding of the granular mechanics required for solving physics-based tasks, thereby facilitating accurate evaluation of AI systems' physical reasoning capabilities. We demonstrate our proposed task generation methodology using the physics-based puzzle game Angry Birds and evaluate the generated tasks using a range of metrics, including physical stability, solvability using intended physical interactions, and accidental solvability using unintended solutions. We believe that the tasks generated using our proposed methodology can facilitate a nuanced evaluation of physical reasoning agents, thus paving the way for the development of agents for more sophisticated real-world applications.
翻訳日:2023-08-17 16:13:25 公開日:2023-08-16
# EndoDepthL:CNN変換器を用いた軽量内視鏡的単眼深度推定

EndoDepthL: Lightweight Endoscopic Monocular Depth Estimation with CNN-Transformer ( http://arxiv.org/abs/2308.02716v2 )

ライセンス: Link先を確認
Yangke Li(参考訳) 本研究では,内視鏡画像における深度推定の精度と有効性に関する重要な課題について,特にリアルタイム推論と光反射の影響に注目した。 我々は,畳み込みニューラルネットワーク(CNN)とトランスフォーマーを統合し,マルチスケール深度マップを推定する,EndoDepthLという新しい軽量ソリューションを提案する。 提案手法は,ネットワークアーキテクチャの最適化,マルチスケール拡張畳み込み,マルチチャネルアテンション機構の導入を含む。 また,反射領域の影響を最小限に抑えるため,統計的信頼境界マスクを導入する。 内視鏡画像における単眼深度推定の性能を評価するために,ネットワークパラメータサイズ,浮動小数点演算,毎秒の推論フレームを考慮した新しい複雑性評価指標を提案する。 提案手法を網羅的に評価し,既存のベースラインソリューションと比較する。 その結果,EndoDepthLは軽量構造で深度推定精度を確保できることがわかった。

In this study, we address the key challenges concerning the accuracy and effectiveness of depth estimation for endoscopic imaging, with a particular emphasis on real-time inference and the impact of light reflections. We propose a novel lightweight solution named EndoDepthL that integrates Convolutional Neural Networks (CNN) and Transformers to predict multi-scale depth maps. Our approach includes optimizing the network architecture, incorporating multi-scale dilated convolution, and a multi-channel attention mechanism. We also introduce a statistical confidence boundary mask to minimize the impact of reflective areas. To better evaluate the performance of monocular depth estimation in endoscopic imaging, we propose a novel complexity evaluation metric that considers network parameter size, floating-point operations, and inference frames per second. We comprehensively evaluate our proposed method and compare it with existing baseline solutions. The results demonstrate that EndoDepthL ensures depth estimation accuracy with a lightweight structure.
翻訳日:2023-08-17 16:13:06 公開日:2023-08-16
# 脳を通して見る:人間の脳信号からの視覚知覚のイメージ再構成

Seeing through the Brain: Image Reconstruction of Visual Perception from Human Brain Signals ( http://arxiv.org/abs/2308.02510v2 )

ライセンス: Link先を確認
Yu-Ting Lan, Kan Ren, Yansen Wang, Wei-Long Zheng, Dongsheng Li, Bao-Liang Lu, Lili Qiu(参考訳) しかし、人間の視覚知覚が私たちの認知とどのように絡み合っているかという根本的なメカニズムは、まだ謎のままだ。 最近の神経科学と人工知能の進歩のおかげで、視覚誘発脳の活動を記録し、計算アプローチを通じて視覚知覚能力を模倣することができた。 本稿では,脳波,すなわち脳波データに基づいて観察された画像の再構成を行うことにより,視覚刺激の再建に注意を払う。 脳波信号は時系列形式で動的であり,ノイズの多いことで知られているため,有用な情報を処理し,抽出するためには,より専門的な作業が必要である。 具体的には、与えられた脳波データから複数の粒度の出力を引き出すために、新しいマルチレベル知覚情報デコーディングを組み込む。 遅延拡散モデルは抽出した情報を利用して高解像度の視覚刺激像を再構成する。 実験の結果, 画像再構成の有効性と, 提案手法の定量的評価が得られた。

Seeing is believing, however, the underlying mechanism of how human visual perceptions are intertwined with our cognitions is still a mystery. Thanks to the recent advances in both neuroscience and artificial intelligence, we have been able to record the visually evoked brain activities and mimic the visual perception ability through computational approaches. In this paper, we pay attention to visual stimuli reconstruction by reconstructing the observed images based on portably accessible brain signals, i.e., electroencephalography (EEG) data. Since EEG signals are dynamic in the time-series format and are notorious to be noisy, processing and extracting useful information requires more dedicated efforts; In this paper, we propose a comprehensive pipeline, named NeuroImagen, for reconstructing visual stimuli images from EEG signals. Specifically, we incorporate a novel multi-level perceptual information decoding to draw multi-grained outputs from the given EEG data. A latent diffusion model will then leverage the extracted information to reconstruct the high-resolution visual stimuli images. The experimental results have illustrated the effectiveness of image reconstruction and superior quantitative performance of our proposed method.
翻訳日:2023-08-17 16:12:50 公開日:2023-08-16
# Dual Feature Pool Object Detection を用いた人工皮革の高性能微細欠陥検出

High-Performance Fine Defect Detection in Artificial Leather Using Dual Feature Pool Object Detection ( http://arxiv.org/abs/2307.16751v2 )

ライセンス: Link先を確認
Lin Huang, Weisheng Li, Linlin Shen, Xue Xiao, Suihan Xiao(参考訳) 本研究では, YOLOv5モデルの構造問題について検討した。 人工皮革の微細欠陥の特徴から, DFP, IFF, AMP, EOSの4つの革新的な構造が設計された。 これらの進歩により、YOLODという高性能な人工皮革微細欠陥検出モデルが提案された。 YOLODは人工皮革欠陥データセットに優れた性能を示し、YLOv5と比較してAP_50は11.7%から13.5%、エラー検出レートは5.2%から7.2%と著しく低下した。 さらに、YOLODは一般のMS-COCOデータセットでも、YOLOv5と比較してAPが0.4%から2.6%増加し、YOLOv5に比べてAP_Sが2.5%上昇した。 これらの結果から, 人工皮革欠陥検出および一般物体検出タスクにおいて, ヨロドの優位性が示され, 実世界の応用に極めて効率的かつ効果的なモデルとなる。

In this study, the structural problems of the YOLOv5 model were analyzed emphatically. Based on the characteristics of fine defects in artificial leather, four innovative structures, namely DFP, IFF, AMP, and EOS, were designed. These advancements led to the proposal of a high-performance artificial leather fine defect detection model named YOLOD. YOLOD demonstrated outstanding performance on the artificial leather defect dataset, achieving an impressive increase of 11.7% - 13.5% in AP_50 compared to YOLOv5, along with a significant reduction of 5.2% - 7.2% in the error detection rate. Moreover, YOLOD also exhibited remarkable performance on the general MS-COCO dataset, with an increase of 0.4% - 2.6% in AP compared to YOLOv5, and a rise of 2.5% - 4.1% in AP_S compared to YOLOv5. These results demonstrate the superiority of YOLOD in both artificial leather defect detection and general object detection tasks, making it a highly efficient and effective model for real-world applications.
翻訳日:2023-08-17 16:12:11 公開日:2023-08-16
# i \leftrightarrow -i$対称性が非零と零のヒッグス真空期待値を持つヒッグス相に分裂することによって生じる隠れたセクタダークマター

Hidden Sector Dark Matter Arising from Breaking of $i \leftrightarrow -i$ Symmetry into Higgs Phases with Nonzero and Zero Higgs Vacuum Expectation ( http://arxiv.org/abs/2308.08107v1 )

ライセンス: Link先を確認
Stephen L. Adler(参考訳) 我々は、創発的量子理論が2つのセクタを重力的に結合(あるいはある高統一スケールで非常に弱い)し、1つのセクタが複素単位 $i$ を持ち、もう1つのセクタが複素単位 $-i$ を持つような、トレースダイナミクスに特有ではないが動機付けられたシナリオを提案する。 私は、量子前理論の対称性の結果、2つのセクタを結合しない場合、2つのセクタは、非零と零のヒッグス空隙期待を持つ相の境界に正確に位置するヒッグスポテンシャルを持つと仮定する。 2つのセクター間の結合を断ち切ることで、あるセクターにおけるヒッグスポテンシャルを非ゼロヒッグス期待領域に(可視セクターを)押し込み、もう一方セクターにおけるヒッグスポテンシャルをゼロヒッグス期待領域に(暗セクターを)押し込むことができる。 ダークセクターで最小の質量のバリオンは、自ら相互作用するダークマター粒子の候補となる。

We propose a scenario, motivated by but not exclusive to trace dynamics, in which emergent quantum theory takes the form of two sectors coupled gravitationally (or very weakly at some high unification scale), one sector with complex unit $i$ and the other sector with complex unit $-i$. I postulate that as a result of symmetries of the pre-quantum theory, in the absence of coupling the two sectors both have Higgs potentials that lie precisely at the boundary between phases with nonzero and zero Higgs vaccum expectation. Turning on the coupling between the two sectors can break the degeneracy, pushing the Higgs potential in one sector into the domain of nonzero Higgs expectation (giving the visible sector), and pushing the Higgs potential in the other sector into the domain of zero Higgs expectation (giving the dark sector). The least massive baryon in the dark sector will then be a candidate self-interacting dark matter particle.
翻訳日:2023-08-17 15:16:20 公開日:2023-08-16
# chatlogo: エージェントベースのモデリングとプログラミングのための大規模言語モデル駆動型ハイブリッド自然プログラミング言語インタフェース

ChatLogo: A Large Language Model-Driven Hybrid Natural-Programming Language Interface for Agent-based Modeling and Programming ( http://arxiv.org/abs/2308.08102v1 )

ライセンス: Link先を確認
John Chen, Uri Wilensky(参考訳) Papert (1980) の子どもがコンピュータに話しかけるアイデアに基づいて,エージェントベースのモデリングとプログラミングのためのハイブリッド自然言語インタフェース ChatLogo を提案する。 我々は、ABMとPの学習を足場にし、大規模言語モデル(LLM)を活用して計算プログラミングの学習を支援するための最近の開発に取り組んでいる。 chatlogoは、自然言語とプログラミング言語の混合でコンピュータとの会話をサポートし、初心者向けのよりユーザーフレンドリーなインターフェイスを提供し、技術システムがあらゆる単一のllmに依存しすぎないようにすることを目指している。 私たちはデザインの主要な要素、インテリジェントなコマンドセンター、創造的な表現をサポートする対話型インターフェースを導入しました。 我々はプレゼンテーション形式と今後の作業について議論した。 ABMとPのオープンエンド・コンストラクタ学習とLLMを教育目的に活用することの課題に対応して,計算および複雑なシステム思考を支援するために,最初のコンストラクタLLM駆動インタフェースを提案する。

Building on Papert (1980)'s idea of children talking to computers, we propose ChatLogo, a hybrid natural-programming language interface for agent-based modeling and programming. We build upon previous efforts to scaffold ABM & P learning and recent development in leveraging large language models (LLMs) to support the learning of computational programming. ChatLogo aims to support conversations with computers in a mix of natural and programming languages, provide a more user-friendly interface for novice learners, and keep the technical system from over-reliance on any single LLM. We introduced the main elements of our design: an intelligent command center, and a conversational interface to support creative expression. We discussed the presentation format and future work. Responding to the challenges of supporting open-ended constructionist learning of ABM & P and leveraging LLMs for educational purposes, we contribute to the field by proposing the first constructionist LLM-driven interface to support computational and complex systems thinking.
翻訳日:2023-08-17 15:15:53 公開日:2023-08-16
# S-Mixup: グラフニューラルネットワークの構造混合

S-Mixup: Structural Mixup for Graph Neural Networks ( http://arxiv.org/abs/2308.08097v1 )

ライセンス: Link先を確認
Junghurn Kim, Sukwon Yun, Chanyoung Park(参考訳) グラフへのミックスアップ手法の適用に関する既存の研究は、主にグラフ分類タスクに焦点を当てているが、ノード分類の研究はまだ未検討である。 本稿では,構造ミキサップ(S-Mixup)と呼ばれるノード分類のための新しいミックスアップ拡張を提案する。 中心となるアイデアは、ノードを混合しながら構造情報を考慮することだ。 具体的には、S-Mixupはグラフニューラルネットワーク(GNN)分類器を介して、グラフ内の未ラベルノードの擬似ラベルと予測信頼度を取得する。 これらはクラス間およびクラス内ミックスアップのミックスアッププールの構成基準となる。 さらに,gnnトレーニングから得られたエッジ勾配を利用し,ミックスアップによって生成されたノードに付加されるエッジを選択するための勾配に基づくエッジ選択戦略を提案する。 実世界のベンチマークデータセットに関する広範な実験を通じて、ノード分類タスクで評価されたS-Mixupの有効性を示す。 我々はS-MixupがGNNの堅牢性と一般化性能を高めることを観察した。 S-Mixup のソースコードは \url{https://github.com/SukwonYun/S-Mixup} にある。

Existing studies for applying the mixup technique on graphs mainly focus on graph classification tasks, while the research in node classification is still under-explored. In this paper, we propose a novel mixup augmentation for node classification called Structural Mixup (S-Mixup). The core idea is to take into account the structural information while mixing nodes. Specifically, S-Mixup obtains pseudo-labels for unlabeled nodes in a graph along with their prediction confidence via a Graph Neural Network (GNN) classifier. These serve as the criteria for the composition of the mixup pool for both inter and intra-class mixups. Furthermore, we utilize the edge gradient obtained from the GNN training and propose a gradient-based edge selection strategy for selecting edges to be attached to the nodes generated by the mixup. Through extensive experiments on real-world benchmark datasets, we demonstrate the effectiveness of S-Mixup evaluated on the node classification task. We observe that S-Mixup enhances the robustness and generalization performance of GNNs, especially in heterophilous situations. The source code of S-Mixup can be found at \url{https://github.com/SukwonYun/S-Mixup}
翻訳日:2023-08-17 15:15:34 公開日:2023-08-16
# 偏光カメラを用いたスナップショット高ダイナミックレンジイメージング

Snapshot High Dynamic Range Imaging with a Polarization Camera ( http://arxiv.org/abs/2308.08094v1 )

ライセンス: Link先を確認
Mingyang Xie, Matthew Chan, Christopher Metzler(参考訳) 高ダイナミックレンジ(HDR)画像は、ナビゲーションから消費者写真まで、様々なタスクにおいて重要である。 したがって、多数の特殊なHDRセンサーが開発され、最も成功したのは、画素当たりの可変露光のキャプチャに基づくものである。 基本的に、これらの方法は1ショットで一度に露光ブラケットシーケンス全体をキャプチャする。 本稿では,市販の偏光カメラを高性能hdrカメラに変換するための,単純かつ高効率なアプローチを提案する。 偏光カメラの前に直線偏光子を配置することで、偏光器の向きによって決定される、露出の異なる4つの画像を同時に撮影することができる。 我々は,これらの測定値からHDR画像(一極性)を再構成するための,外乱・自己校正アルゴリズムを開発した。 最後に,本手法の有効性を実世界の実験で実証する。

High dynamic range (HDR) images are important for a range of tasks, from navigation to consumer photography. Accordingly, a host of specialized HDR sensors have been developed, the most successful of which are based on capturing variable per-pixel exposures. In essence, these methods capture an entire exposure bracket sequence at once in a single shot. This paper presents a straightforward but highly effective approach for turning an off-the-shelf polarization camera into a high-performance HDR camera. By placing a linear polarizer in front of the polarization camera, we are able to simultaneously capture four images with varied exposures, which are determined by the orientation of the polarizer. We develop an outlier-robust and self-calibrating algorithm to reconstruct an HDR image (at a single polarity) from these measurements. Finally, we demonstrate the efficacy of our approach with extensive real-world experiments.
翻訳日:2023-08-17 15:15:19 公開日:2023-08-16
# シャフから小麦を分離する:パラメータ効率の良いモジュール操作によるモデル欠陥学習

Separate the Wheat from the Chaff: Model Deficiency Unlearning via Parameter-Efficient Module Operation ( http://arxiv.org/abs/2308.08090v1 )

ライセンス: Link先を確認
Xinshuo Hu, Dongfang Li, Zihao Zheng, Zhenyu Liu, Baotian Hu, Min Zhang(参考訳) 大規模言語モデル(LLM)は様々な用途で広く用いられてきたが、非現実性や毒性に関わる問題に悩まされていることが知られている。 パラメータ効率のよいモジュール(pem)は、モデルに新しいスキルを付与する効果を実証しているが、未学習の欠如に対するpemの活用は未検討のままである。 本研究では,<expert'のPEMと<anti-expert'のPEMを統合して,LLMの真正性と解毒性を高めるために,抽出-before-Subtraction(Ext-Sub)というPEM操作手法を提案する。 注目すべきは、アンチエキスパートのPEMでさえ、言語モデリングと論理的物語能力を必要とする製造されたコンテンツを生成する能力のために、価値ある能力を持っていることである。 提案手法では,パラメータを単に否定するのではなく,汎用性を保ちながら,アンチエキスパートPEM内の機能不足だけを抽出,排除する。 本手法の有効性を評価するために,言語モデリングや数学的推論などの付加的能力を包含して,llmに関する広範囲な実験を行った。 実験結果から,本手法はLLMの基本能力を維持しつつ,真理性と解毒性を効果的に向上することを示す。

Large language models (LLMs) have been widely used in various applications but are known to suffer from issues related to untruthfulness and toxicity. While parameter-efficient modules (PEMs) have demonstrated their effectiveness in equipping models with new skills, leveraging PEMs for deficiency unlearning remains underexplored. In this work, we propose a PEMs operation approach, namely Extraction-before-Subtraction (Ext-Sub), to enhance the truthfulness and detoxification of LLMs through the integration of ``expert'' PEM and ``anti-expert'' PEM. Remarkably, even anti-expert PEM possess valuable capabilities due to their proficiency in generating fabricated content, which necessitates language modeling and logical narrative competence. Rather than merely negating the parameters, our approach involves extracting and eliminating solely the deficiency capability within anti-expert PEM while preserving the general capabilities. To evaluate the effectiveness of our approach in terms of truthfulness and detoxification, we conduct extensive experiments on LLMs, encompassing additional abilities such as language modeling and mathematical reasoning. Our empirical results demonstrate that our approach effectively improves truthfulness and detoxification, while largely preserving the fundamental abilities of LLMs.
翻訳日:2023-08-17 15:15:07 公開日:2023-08-16
# DragNUWA:テキスト・画像・軌道の統合による映像生成におけるきめ細かい制御

DragNUWA: Fine-grained Control in Video Generation by Integrating Text, Image, and Trajectory ( http://arxiv.org/abs/2308.08089v1 )

ライセンス: Link先を確認
Shengming Yin, Chenfei Wu, Jian Liang, Jie Shi, Houqiang Li, Gong Ming, Nan Duan(参考訳) 近年、制御可能なビデオ生成が注目されている。 第一に、既存の作品のほとんどはテキスト、画像、または軌跡に基づく制御に焦点を当てており、ビデオのきめ細かい制御ができない。 第二に、軌道制御の研究はまだ初期段階にあり、ほとんどの実験はHuman3.6Mのような単純なデータセットで行われている。 この制約は、モデルがオープンドメインの画像を処理し、複雑な曲線の軌跡を効果的に扱う能力を制限する。 本稿では,オープンドメイン拡散に基づくビデオ生成モデルであるDragNUWAを提案する。 既存の作品における制御粒度不足の問題に取り組むため,テキスト,画像,軌道情報を同時に導入し,意味的,空間的,時間的視点から映像コンテンツのきめ細かい制御を行う。 本研究における限定的なオープンドメイン軌道制御の課題を解決するために,任意の軌道のオープンドメイン制御を可能にする軌道サンプリング (ts) と,異なる粒度の軌道を制御するマルチスケール融合 (mf) と,軌道追従した一貫したビデオを生成する適応訓練 (at) という3つの側面を持つ軌道モデリングを提案する。 本実験はDragNUWAの有効性を検証し,ビデオ生成における微粒化制御における優れた性能を示した。 ホームページリンクは \url{https://www.microsoft.com/en-us/research/project/dragnuwa/} である。

Controllable video generation has gained significant attention in recent years. However, two main limitations persist: Firstly, most existing works focus on either text, image, or trajectory-based control, leading to an inability to achieve fine-grained control in videos. Secondly, trajectory control research is still in its early stages, with most experiments being conducted on simple datasets like Human3.6M. This constraint limits the models' capability to process open-domain images and effectively handle complex curved trajectories. In this paper, we propose DragNUWA, an open-domain diffusion-based video generation model. To tackle the issue of insufficient control granularity in existing works, we simultaneously introduce text, image, and trajectory information to provide fine-grained control over video content from semantic, spatial, and temporal perspectives. To resolve the problem of limited open-domain trajectory control in current research, We propose trajectory modeling with three aspects: a Trajectory Sampler (TS) to enable open-domain control of arbitrary trajectories, a Multiscale Fusion (MF) to control trajectories in different granularities, and an Adaptive Training (AT) strategy to generate consistent videos following trajectories. Our experiments validate the effectiveness of DragNUWA, demonstrating its superior performance in fine-grained control in video generation. The homepage link is \url{https://www.microsoft.com/en-us/research/project/dragnuwa/}
翻訳日:2023-08-17 15:14:27 公開日:2023-08-16
# Pro-Cap:Hateful Meme検出のための凍結ビジョンランゲージモデルを活用する

Pro-Cap: Leveraging a Frozen Vision-Language Model for Hateful Meme Detection ( http://arxiv.org/abs/2308.08088v1 )

ライセンス: Link先を確認
Rui Cao, Ming Shan Hee, Adriel Kuek, Wen-Haw Chong, Roy Ka-Wei Lee, Jing Jiang(参考訳) ヘイトフルミーム検出は、視覚と言語の両方の理解とクロスモーダルなインタラクションを必要とする、挑戦的なマルチモーダルタスクである。 近年,この課題に対して,事前学習型視覚言語モデル(PVLM)の微調整を試みた。 しかし、モデルのサイズが大きくなるにつれて、単に微調整するのではなく、強力なPVLMを効率的に活用することが重要となる。 最近、研究者は、予測のためにミーム画像をテキストキャプションとプロンプト言語モデルに変換しようと試みている。 このアプローチは優れたパフォーマンスを示しているが、非情報的イメージキャプションに悩まされている。 上記の2つの要因を考慮すると, PVLMをゼロショット視覚質問応答(VQA)方式で活用する探索型キャプション手法を提案する。 具体的には、ヘイトフルなコンテンツ関連質問をし、その回答をイメージキャプション(Pro-Capと呼ぶ)として利用することで、フリーズPVLMを誘導し、ヘイトフルなコンテンツ検出に重要な情報を含むようにします。 3つのベンチマークにおけるpro-capモデルの優れた性能は,提案手法の有効性と一般化を検証する。

Hateful meme detection is a challenging multimodal task that requires comprehension of both vision and language, as well as cross-modal interactions. Recent studies have tried to fine-tune pre-trained vision-language models (PVLMs) for this task. However, with increasing model sizes, it becomes important to leverage powerful PVLMs more efficiently, rather than simply fine-tuning them. Recently, researchers have attempted to convert meme images into textual captions and prompt language models for predictions. This approach has shown good performance but suffers from non-informative image captions. Considering the two factors mentioned above, we propose a probing-based captioning approach to leverage PVLMs in a zero-shot visual question answering (VQA) manner. Specifically, we prompt a frozen PVLM by asking hateful content-related questions and use the answers as image captions (which we call Pro-Cap), so that the captions contain information critical for hateful content detection. The good performance of models with Pro-Cap on three benchmarks validates the effectiveness and generalization of the proposed method.
翻訳日:2023-08-17 15:13:37 公開日:2023-08-16
# 凸最適化によるニューラルネットワークシステムの安全フィルタ設計

Safety Filter Design for Neural Network Systems via Convex Optimization ( http://arxiv.org/abs/2308.08086v1 )

ライセンス: Link先を確認
Shaoru Chen, Kong Yao Chee, Nikolai Matni, M. Ani Hsieh, George J. Pappas(参考訳) データ可用性の向上に伴い、ニューラルネットワーク(NN)がデータ駆動方式で複雑なシステムダイナミクスを正確にキャプチャできることが広く実証されている。 しかし、NNのアーキテクチャ上の複雑さと非線形性は、確実に安全なコントローラの合成を困難にしている。 本研究では, モデル誤差をキャプチャできる付加的外乱に対して, nnシステムの安全性を確保するため, 凸最適化に依存する新しい安全フィルタを提案する。 提案手法は, NN検証から線形境界を持つ過近似NN力学へのツールを応用し, 続いて, 頑健な制約満足度を保証できる制御器の探索に頑健な線形MPCを適用した。 非線形振り子系における提案手法の有効性を数値的に示す。

With the increase in data availability, it has been widely demonstrated that neural networks (NN) can capture complex system dynamics precisely in a data-driven manner. However, the architectural complexity and nonlinearity of the NNs make it challenging to synthesize a provably safe controller. In this work, we propose a novel safety filter that relies on convex optimization to ensure safety for a NN system, subject to additive disturbances that are capable of capturing modeling errors. Our approach leverages tools from NN verification to over-approximate NN dynamics with a set of linear bounds, followed by an application of robust linear MPC to search for controllers that can guarantee robust constraint satisfaction. We demonstrate the efficacy of the proposed framework numerically on a nonlinear pendulum system.
翻訳日:2023-08-17 15:13:17 公開日:2023-08-16
# 半量子鍵分布と半量子秘密共有のための新しいハイブリッドプロトコル

A novel hybrid protocol for semiquantum key distribution and semiquantum secret sharing ( http://arxiv.org/abs/2308.08082v1 )

ライセンス: Link先を確認
Tian-Yu Ye, Xiao Tan(参考訳) 本稿では,GHZライクな状態を用いて,半量子鍵分布(SQKD)と半量子秘密共有(SQSS)のハイブリッドプロトコルを構築した。 このプロトコルは、それぞれ1つの量子パーティと2つの半量子パーティの間に2つの異なるプライベートキーを確立することができ、2つの半量子パーティに量子パーティの別のプライベートキーを共有することができる。 遅延線、パウリ演算、ハダマールゲート、量子エンタングルメントスワップの使用は不要である。 さらに、半量子パーティはいかなる量子メモリも備える必要はない。 我々は,このプロトコルが,トロイの木馬攻撃,アンタングル対策攻撃,ダブルコントロールノー攻撃(CNOT)攻撃,尺度回帰攻撃,インターセプト回帰攻撃など,イブからの様々な攻撃に抵抗することを示す。 我々の知る限り、このプロトコルはSQKDとSQSSの両方の機能を同時に持つ唯一のプロトコルである。

In this paper, a novel hybrid protocol for semiquantum key distribution (SQKD) and semiquantum secret sharing (SQSS) was constructed by using GHZ-like states. This protocol is capable of establishing two different private keys between one quantum party and two semiquantum parties respectively, and making two semiquantum parties share another private key of the quantum party in the meanwhile. The usages of delay lines, Pauli operations, Hadamard gates and quantum entanglement swapping are not required. Moreover, the semiquantum parties are not necessary to be equipped with any quantum memory. We validate in detail that this protocol resists various attacks from Eve, including the Trojan horse attacks, the entangle-measure attack, the double controlled-not (CNOT) attacks, the measure-resend attack and the intercept-resend attack. To our best knowledge, this protocol is the only protocol which possesses the functions of both SQKD and SQSS simultaneously until now.
翻訳日:2023-08-17 15:12:52 公開日:2023-08-16
# 地下不確かさの定量化と解釈を支援する安定化低次元空間の剛性変換

Rigid Transformations for Stabilized Lower Dimensional Space to Support Subsurface Uncertainty Quantification and Interpretation ( http://arxiv.org/abs/2308.08079v1 )

ライセンス: Link先を確認
Ademide O. Mabadeje and Michael J. Pyrcz(参考訳) 地下データセットは、様々な物理的、工学的、地質学的入力からの次元性の呪いによってさらに複雑化され、膨大な量、多様な特徴、高いサンプリング速度などのビッグデータ特性を持つ。 既存の次元減少法 (DR) では, 非線形次元減少法 (NDR) や, 特に距離-多次元スケーリング法 (MDS) が, その複雑さから地下データセットに好まれる。 MDSは本質的なデータ構造を保持し、不確実性を定量化するが、その制限にはユークリッド変換に不変な不安定な一意解や、オフ・オブ・サンプル・ポイント(OOSP)拡張の欠如が含まれる。 地下推論と機械学習のワークフローを強化するためには、データセットをOOSPに対応する安定で縮小された次元表現に変換する必要がある。 我々の解は LDS の安定ユークリッド不変表現に対して剛変換を用いる。 MDS入力の相似性行列を計算し、多重実現に剛性変換を適用することにより、変換不変性を保証し、OOSPを統合する。 このプロセスは凸船体アルゴリズムを利用し、歪み定量化のために損失関数と正規化応力を組み込む。 我々はDuvernay層から得られた合成データ、様々な距離測定値、および実世界の井戸を用いてアプローチを検証する。 その結果,一貫した LDS 表現の達成における本手法の有効性が確認できた。 さらに,提案する「ストレス比」(sr)指標は不確実性に対する洞察を提供し,モデル調整や推論分析に有用である。 その結果,我々のワークフローは,NDRにおける地下エネルギー資源工学と関連するビッグデータワークフローの再現性とコンパラビリティの向上を約束している。

Subsurface datasets inherently possess big data characteristics such as vast volume, diverse features, and high sampling speeds, further compounded by the curse of dimensionality from various physical, engineering, and geological inputs. Among the existing dimensionality reduction (DR) methods, nonlinear dimensionality reduction (NDR) methods, especially Metric-multidimensional scaling (MDS), are preferred for subsurface datasets due to their inherent complexity. While MDS retains intrinsic data structure and quantifies uncertainty, its limitations include unstabilized unique solutions invariant to Euclidean transformations and an absence of out-of-sample points (OOSP) extension. To enhance subsurface inferential and machine learning workflows, datasets must be transformed into stable, reduced-dimension representations that accommodate OOSP. Our solution employs rigid transformations for a stabilized Euclidean invariant representation for LDS. By computing an MDS input dissimilarity matrix, and applying rigid transformations on multiple realizations, we ensure transformation invariance and integrate OOSP. This process leverages a convex hull algorithm and incorporates loss function and normalized stress for distortion quantification. We validate our approach with synthetic data, varying distance metrics, and real-world wells from the Duvernay Formation. Results confirm our method's efficacy in achieving consistent LDS representations. Furthermore, our proposed "stress ratio" (SR) metric provides insight into uncertainty, beneficial for model adjustments and inferential analysis. Consequently, our workflow promises enhanced repeatability and comparability in NDR for subsurface energy resource engineering and associated big data workflows.
翻訳日:2023-08-17 15:12:33 公開日:2023-08-16
# 微細構造を利用したストックファクターの抽出と利用

Microstructure-Empowered Stock Factor Extraction and Utilization ( http://arxiv.org/abs/2308.08135v1 )

ライセンス: Link先を確認
Xianfeng Jiao, Zizhong Li, Chang Xu, Yang Liu, Weiqing Liu and Jiang Bian(参考訳) 高周波量的投資は株式投資の重要な側面である。 特に、注文書からの包括的データやティックレベルでの取引記録など、高周波取引データの中で最も詳細な情報を提供するため、注文フローデータが重要な役割を果たす。 注文フローデータは、トレーダーにインフォームド意思決定に不可欠な洞察を与えるため、市場分析に非常に有用である。 しかし, オーダーフローデータの抽出と有効利用は, 大量のデータと, 主に粗度ストックデータを対象とした従来のファクタマイニング手法の限界により, 課題となっている。 これらの課題に対処するため,我々は,様々な粒度やシナリオにわたる下流タスクの注文フローデータから不可欠な要素を効果的に抽出することを目的とした新しいフレームワークを提案する。 本手法はコンテキストエンコーダと因子エクストラクタから構成される。 Context Encoderは、期待と実際の市場状態の両方を考慮して、現在の順序フローデータセグメントのコンテキストへの埋め込みを学習する。 さらに、因子抽出器は教師なしの学習手法を使用して、与えられたコンテキスト内の多数派とは最も異なる重要なシグナルを選択する。 抽出された因子は下流のタスクに使用される。 実証研究において,提案フレームワークは,様々なシナリオにわたる在庫フローの全年を効率的に処理し,数日間の在庫データに制限された既存のダニレベルのアプローチと比較して,幅広い範囲のアプリケーションを提供する。 本手法は,注文フローデータから優れた因子を抽出し,株価傾向予測と注文実行タスクを2分単位で大幅に改善できることを実証する。

High-frequency quantitative investment is a crucial aspect of stock investment. Notably, order flow data plays a critical role as it provides the most detailed level of information among high-frequency trading data, including comprehensive data from the order book and transaction records at the tick level. The order flow data is extremely valuable for market analysis as it equips traders with essential insights for making informed decisions. However, extracting and effectively utilizing order flow data present challenges due to the large volume of data involved and the limitations of traditional factor mining techniques, which are primarily designed for coarser-level stock data. To address these challenges, we propose a novel framework that aims to effectively extract essential factors from order flow data for diverse downstream tasks across different granularities and scenarios. Our method consists of a Context Encoder and an Factor Extractor. The Context Encoder learns an embedding for the current order flow data segment's context by considering both the expected and actual market state. In addition, the Factor Extractor uses unsupervised learning methods to select such important signals that are most distinct from the majority within the given context. The extracted factors are then utilized for downstream tasks. In empirical studies, our proposed framework efficiently handles an entire year of stock order flow data across diverse scenarios, offering a broader range of applications compared to existing tick-level approaches that are limited to only a few days of stock data. We demonstrate that our method extracts superior factors from order flow data, enabling significant improvement for stock trend prediction and order execution tasks at the second and minute level.
翻訳日:2023-08-17 15:05:17 公開日:2023-08-16
# テキストガイド画像検索におけるランキング認識の不確かさ

Ranking-aware Uncertainty for Text-guided Image Retrieval ( http://arxiv.org/abs/2308.08131v1 )

ライセンス: Link先を確認
Junyang Chen and Hanjiang Lai(参考訳) テキストガイド画像検索は、ユーザの意図をよりよく捉えるために条件付きテキストを組み込むことである。 従来、既存の手法ではソース入力とターゲット画像の間の埋め込み距離を最小化することに重点を置いており、提供されたトリプレット$\langle$source image, source text, target image$\rangle$を用いている。 しかし、このような三重項最適化は、学習された検索モデルを制限して、より詳細なランキング情報を取得することができる。例えば、三重項は1対1の対応であり、フィードバック言語や画像の意味的多様性から生じる多対多対応を考慮できない。 さらにランキング情報を取得するために,与えられた三重項のみを用いて多対多対応をモデル化する新しいランキング認識不確実性アプローチを提案する。 特徴の確率的ランキングリストを学習するために不確実性学習を導入する。 具体的には,(1)ガウス分布とターゲット分布の両方から得られたガウス分布を用いて意味的多様性を捉えることを目的としたサンプル内不確かさ,(2)他のサンプル分布からランキング情報をさらに抽出するサンプル間不確実性,(3)ソース入力とターゲット画像の分布表現を整合する分布正規化の3つの構成要素からなる。 提案手法は,既存の最先端手法と比較して,画像検索のための2つの公開データセットにおいて有意な結果が得られる。

Text-guided image retrieval is to incorporate conditional text to better capture users' intent. Traditionally, the existing methods focus on minimizing the embedding distances between the source inputs and the targeted image, using the provided triplets $\langle$source image, source text, target image$\rangle$. However, such triplet optimization may limit the learned retrieval model to capture more detailed ranking information, e.g., the triplets are one-to-one correspondences and they fail to account for many-to-many correspondences arising from semantic diversity in feedback languages and images. To capture more ranking information, we propose a novel ranking-aware uncertainty approach to model many-to-many correspondences by only using the provided triplets. We introduce uncertainty learning to learn the stochastic ranking list of features. Specifically, our approach mainly comprises three components: (1) In-sample uncertainty, which aims to capture semantic diversity using a Gaussian distribution derived from both combined and target features; (2) Cross-sample uncertainty, which further mines the ranking information from other samples' distributions; and (3) Distribution regularization, which aligns the distributional representations of source inputs and targeted image. Compared to the existing state-of-the-art methods, our proposed method achieves significant results on two public datasets for composed image retrieval.
翻訳日:2023-08-17 15:04:49 公開日:2023-08-16
# 自己監督型プレトレーニングは分子特性予測に有効か?

Is Self-Supervised Pretraining Good for Extrapolation in Molecular Property Prediction? ( http://arxiv.org/abs/2308.08129v1 )

ライセンス: Link先を確認
Shun Takashige, Masatoshi Hanai, Toyotaro Suzumura, Limin Wang and Kenjiro Taura(参考訳) 材料特性の予測は、電池、半導体、触媒、医薬品などの様々な用途における材料の開発と発見において重要な役割を担っている。 近年,従来の理論計算と組み合わせて,機械学習技術を用いてデータ駆動型アプローチを採用することへの関心が高まっている。 物質科学において、一般に外挿(extrapolation)と呼ばれる未観測値の予測は、研究者が利用可能なデータの範囲を超えて材料についての洞察を得ることを可能にするため、特に特性予測において重要である。 しかし、最近の強力な機械学習モデルの進歩にもかかわらず、正確な外挿は依然としてかなり難しい問題として広く認識されている。 一方、自己教師付き事前学習は、ターゲットタスクのラベル付きデータでトレーニングされる前に、比較的単純なプリテキストタスクを使用して、モデルがラベル付きデータでトレーニングされる機械学習技術である。 自己教師付き事前学習は、観測された特性値なしで物質データを効果的に活用できるため、モデルの外挿能力を向上させる可能性がある。 本稿では,このような自己教師型事前学習が外挿性能を向上させる方法を明らかにするとともに,実験モデルでは絶対的な特性値の正確な外挿ができないが,自己教師型事前学習では,観測されていない特性値の相対的傾向を学習し,外挿性能を向上させることができることを実証的に明らかにする。

The prediction of material properties plays a crucial role in the development and discovery of materials in diverse applications, such as batteries, semiconductors, catalysts, and pharmaceuticals. Recently, there has been a growing interest in employing data-driven approaches by using machine learning technologies, in combination with conventional theoretical calculations. In material science, the prediction of unobserved values, commonly referred to as extrapolation, is particularly critical for property prediction as it enables researchers to gain insight into materials beyond the limits of available data. However, even with the recent advancements in powerful machine learning models, accurate extrapolation is still widely recognized as a significantly challenging problem. On the other hand, self-supervised pretraining is a machine learning technique where a model is first trained on unlabeled data using relatively simple pretext tasks before being trained on labeled data for target tasks. As self-supervised pretraining can effectively utilize material data without observed property values, it has the potential to improve the model's extrapolation ability. In this paper, we clarify how such self-supervised pretraining can enhance extrapolation performance.We propose an experimental framework for the demonstration and empirically reveal that while models were unable to accurately extrapolate absolute property values, self-supervised pretraining enables them to learn relative tendencies of unobserved property values and improve extrapolation performance.
翻訳日:2023-08-17 15:04:20 公開日:2023-08-16
# 誤り訂正符号変換器のマスキング方法:体系的および二重マスキング

How to Mask in Error Correction Code Transformer: Systematic and Double Masking ( http://arxiv.org/abs/2308.08128v1 )

ライセンス: Link先を確認
Seong-Joon Park, Hee-Youl Kwak, Sang-Hyo Kim, Sunghwan Kim, Yongjune Kim, Jong-Seon No(参考訳) 通信やストレージシステムでは、エラー訂正符号(ECC)がデータの信頼性を確保する上で重要である。 ディープラーニングの適用範囲がさまざまな領域に広がるにつれて、従来のデコードアルゴリズムを上回るニューラルネットワークベースのデコーダに関する研究が増えている。 これらのニューラルデコーダのうち、誤り訂正符号変換器(ECCT)は最先端のパフォーマンスを達成し、他の手法よりも大きなマージンで性能を上げた。 ecctの性能をさらに高めるために,2つの新しい手法を提案する。 まず,ECCの体系的符号化技術を活用し,ECCTのための新しいマスキング行列を導入し,性能の向上と計算複雑性の低減を図る。 第2に、二重マスクECCTと呼ばれる新しいECCTトランスフォーマーアーキテクチャを提案する。 このアーキテクチャは、2つの異なるマスク行列を並列に使い、マスク付き自己保持ブロックにおけるコードワードビット間の関係のより多様な特徴を学習する。 シミュレーションの結果,提案した二重マス化ECCTは従来のECCTよりも優れており,最先端の復号化性能を高いマージンで達成していることがわかった。

In communication and storage systems, error correction codes (ECCs) are pivotal in ensuring data reliability. As deep learning's applicability has broadened across diverse domains, there is a growing research focus on neural network-based decoders that outperform traditional decoding algorithms. Among these neural decoders, Error Correction Code Transformer (ECCT) has achieved the state-of-the-art performance, outperforming other methods by large margins. To further enhance the performance of ECCT, we propose two novel methods. First, leveraging the systematic encoding technique of ECCs, we introduce a new masking matrix for ECCT, aiming to improve the performance and reduce the computational complexity. Second, we propose a novel transformer architecture of ECCT called a double-masked ECCT. This architecture employs two different mask matrices in a parallel manner to learn more diverse features of the relationship between codeword bits in the masked self-attention blocks. Extensive simulation results show that the proposed double-masked ECCT outperforms the conventional ECCT, achieving the state-of-the-art decoding performance with significant margins.
翻訳日:2023-08-17 15:03:55 公開日:2023-08-16
# Radio2Text:mmWaveラジオ信号を用いたストリーミング音声認識

Radio2Text: Streaming Speech Recognition Using mmWave Radio Signals ( http://arxiv.org/abs/2308.08125v1 )

ライセンス: Link先を確認
Running Zhao, Jiangtao Yu, Hang Zhao and Edith C.H. Ngai(参考訳) ミリ波(mmWave)に基づく音声認識は、会議音声の書き起こしや盗聴など、音声関連の応用の可能性を高める。 しかし、実際のシナリオにおける実用性を考えると、レイテンシと認識可能な語彙サイズは見過ごせない2つの重要な要素である。 本稿では,語彙サイズが13,000語を超える音声認識(asr)をストリーミングする最初のmmwaveベースシステムであるradio2textを提案する。 radio2textは、音声関連機能の表現を効果的に学習し、大きな語彙でasrをストリーミングする方法を提供する、カスタマイズされたストリーミングトランスフォーマーに基づいている。 本研究では,将来の入力全体にアクセスできないストリーミングネットワークの欠如を軽減するため,非ストリーミングトランスフォーマーから重み付け継承により,グローバルコンテキストに関連する特徴知識の伝達を容易にするガイダンス初期化を提案する。 さらに,低品質mm波信号の認識性能への悪影響を軽減すべく,知識蒸留(kd)に基づくクロスモーダル構造であるクロスモーダルkdを提案する。 クロスモーダルなKDでは、オーディオストリーミングトランスフォーマーは、有能で正確な音声情報を継承する機能および応答ガイダンスを提供し、調整された無線ストリーミングトランスフォーマーのトレーニングを監督する。 実験の結果,13,000語以上の語彙の認識において,radio2textは5.7%の文字誤り率と9.4%の単語誤り率を達成できることがわかった。

Millimeter wave (mmWave) based speech recognition provides more possibility for audio-related applications, such as conference speech transcription and eavesdropping. However, considering the practicality in real scenarios, latency and recognizable vocabulary size are two critical factors that cannot be overlooked. In this paper, we propose Radio2Text, the first mmWave-based system for streaming automatic speech recognition (ASR) with a vocabulary size exceeding 13,000 words. Radio2Text is based on a tailored streaming Transformer that is capable of effectively learning representations of speech-related features, paving the way for streaming ASR with a large vocabulary. To alleviate the deficiency of streaming networks unable to access entire future inputs, we propose the Guidance Initialization that facilitates the transfer of feature knowledge related to the global context from the non-streaming Transformer to the tailored streaming Transformer through weight inheritance. Further, we propose a cross-modal structure based on knowledge distillation (KD), named cross-modal KD, to mitigate the negative effect of low quality mmWave signals on recognition performance. In the cross-modal KD, the audio streaming Transformer provides feature and response guidance that inherit fruitful and accurate speech information to supervise the training of the tailored radio streaming Transformer. The experimental results show that our Radio2Text can achieve a character error rate of 5.7% and a word error rate of 9.4% for the recognition of a vocabulary consisting of over 13,000 words.
翻訳日:2023-08-17 15:03:36 公開日:2023-08-16
# 超強結合レジームにおけるラビスタークモデルの解法と解法

Solving and Completing the Rabi-Stark Model in the Ultrastrong Coupling Regime ( http://arxiv.org/abs/2308.08115v1 )

ライセンス: Link先を確認
Gen Li, Hao Zhu, and Guo-Feng Zhang(参考訳) 本研究では,量子ラビ・スタークモデルをjaynes-cummings様モデルに変換するのに最適なパラメータを持つユニタリ変換を用いる。 その後、超強結合系における分析エネルギースペクトルを導出する。 エネルギースペクトルはスペクトル崩壊(spectral collapse)として知られる現象を示し、高結合パラメータでのエネルギーのアンバウンド性に起因するモデルの不安定性を示す。 Rabi-Starkモデルを安定させるために、非線形光子-光子相互作用項を導入する。 次に古典振動子(co)極限における修正モデルと元のモデルを比較する。 興味深いことに、基底状態の平均光子数で規則的な「階段」パターンを観測した。 このパターンは一定の傾斜と等段幅を示し,解析的に決定する。 さらに,元のRabi-Starkモデルと若干異なる位相境界を解析的に決定する。 これらの知見は、スペクトル崩壊の現象により下から無界となる超ラジアント相転移の研究の洞察を与える。

In this work,we employ a unitary transformation with a suitable parameter to convert the quantum Rabi-Stark model into a Jaynes-Cummings-like model. Subsequently, we derive the analytical energy spectra in the ultrastrong coupling regime. The energy spectra exhibit a phenomenon known as spectral collapse, indicating the instability of the model due to the unboundedness of its energy from below at higher coupling parameters. To stabilize the Rabi-Stark model, we introduce a nonlinear photon-photon interaction term. We then compare the modified model with the original model in the classical oscillator (CO) limit. Interestingly, we observe a regular "staircase" pattern in the mean photon number of the ground state. This pattern exhibits a fixed slope and equal step width, which we determine analytically. Moreover, we analytically determine the phase boundary, which slightly differs from that in the original Rabi-Stark model. These findings offer insights into the investigation of those superradiant phase transitions that are unbounded from below due to the phenomenon of spectral collapse.
翻訳日:2023-08-17 15:03:11 公開日:2023-08-16
# OmniZoomer: 高解像度で球体を移動してズームインする学習

OmniZoomer: Learning to Move and Zoom in on Sphere at High-Resolution ( http://arxiv.org/abs/2308.08114v1 )

ライセンス: Link先を確認
Zidong Cao, Hao Ai, Yan-Pei Cao, Ying Shan, Xiaohu Qie, Lin Wang(参考訳) 全方位画像(odis)が人気を博し、その大きな視野(fov)は、仮想現実のような没入環境において、視聴者が自由に視点の方向を選択する機会を提供する。 M\"obius変換は通常、ODIの移動とズームの機会を提供するために使用されるが、画像レベルにそれを適用すると、しばしばぼやけた効果やエイリアス問題が発生する。 本稿では,ODIの移動とズームのためのネットワークにM\"obius変換を組み込むための,新しい深層学習型アプローチである「textbf{OmniZoomer}」を提案する。 異なる条件下で様々な変換された特徴マップを学習することで、ネットワークは増大するエッジ曲率を扱うように拡張され、ぼやけた効果を緩和する。 さらに,エイリアシング問題に対処するために,二つの重要な要素を提案する。 まず,曲線を記述するための画素の欠如を補うため,高分解能(HR)空間における特徴写像を拡張し,空間インデックス生成モジュールを用いて変換インデックスマップを算出する。 第二に、ODIが本質的に球面空間で表現されていることを考慮し、より優れた球面相関を求めるために、インデックスマップとHR特徴写像を組み合わせた球面再サンプリングモジュールを提案する。 変換された特徴写像をデコードしてズームしたODIを出力する。 実験により, 提案手法は, 対象物への移動やズームインを柔軟に行うことで, hrおよび高品質のodisを生成できることを示した。 プロジェクトページはhttp://vlislab22.github.io/OmniZoomer/で公開されている。

Omnidirectional images (ODIs) have become increasingly popular, as their large field-of-view (FoV) can offer viewers the chance to freely choose the view directions in immersive environments such as virtual reality. The M\"obius transformation is typically employed to further provide the opportunity for movement and zoom on ODIs, but applying it to the image level often results in blurry effect and aliasing problem. In this paper, we propose a novel deep learning-based approach, called \textbf{OmniZoomer}, to incorporate the M\"obius transformation into the network for movement and zoom on ODIs. By learning various transformed feature maps under different conditions, the network is enhanced to handle the increasing edge curvatures, which alleviates the blurry effect. Moreover, to address the aliasing problem, we propose two key components. Firstly, to compensate for the lack of pixels for describing curves, we enhance the feature maps in the high-resolution (HR) space and calculate the transformed index map with a spatial index generation module. Secondly, considering that ODIs are inherently represented in the spherical space, we propose a spherical resampling module that combines the index map and HR feature maps to transform the feature maps for better spherical correlation. The transformed feature maps are decoded to output a zoomed ODI. Experiments show that our method can produce HR and high-quality ODIs with the flexibility to move and zoom in to the object of interest. Project page is available at http://vlislab22.github.io/OmniZoomer/.
翻訳日:2023-08-17 15:02:57 公開日:2023-08-16
# 非線形結合とポスト選択による超ハイゼンベルクスケーリング精度の向上

Enhanced super-Heisenberg scaling precision by nonlinear coupling and postselection ( http://arxiv.org/abs/2308.08113v1 )

ライセンス: Link先を確認
Lupei Qin, Jialin Li, Yazhi Niu, Xin-Qi Li(参考訳) 量子精密計測学において、ハイゼンベルク極限スケーリングの有名な結果(プローブ数に1/n$)は、非線形結合測定を考慮すれば超越することができる。 本研究は,最も実践的な二次非線形結合を考察し,プローブの量子的絡み合い状態などの高価な量子資源を用いず,単にpps(pre- and post-selection)技術を用いるだけで,1/n^{\frac{3}{2}}$ super-heisenberg scalingから1/n^2$に拡張できることを示す。

In quantum precision metrology, the famous result of Heisenberg limit scaling as $1/N$ (with $N$ the number of probes) can be surpassed by considering nonlinear coupling measurement. In this work, we consider the most practice-relevant quadratic nonlinear coupling and show that the metrological precision can be enhanced from the $1/N^{\frac{3}{2}}$ super-Heisenberg scaling to $1/N^2$, by simply employing a pre- and post-selection (PPS) technique, but not using any expensive quantum resources such as quantum entangled state of probes.
翻訳日:2023-08-17 15:02:31 公開日:2023-08-16
# 正確なクロスビューローカライゼーションのためのビュー一貫性の浄化

View Consistent Purification for Accurate Cross-View Localization ( http://arxiv.org/abs/2308.08110v1 )

ライセンス: Link先を確認
Shan Wang, Yanhao Zhang, Akhil Perincherry, Ankit Vora and Hongdong Li(参考訳) 本稿では,フレキシブルなオンボードカメラと衛星画像を用いた屋外ロボットの細粒度自己位置推定手法を提案する。 提案手法は,移動物体や季節変動などのノイズ源の処理に苦慮する既存のクロスビューローカライズ手法の制約に対処する。 地上および衛星からの視線と対応する深い特徴を検知し、地上の物体を除去し、2つのビュー間のホモグラフィ変換を確立することにより、動的環境における知覚を高める最初の疎視のみの手法である。 さらに,本提案手法では,カメラ内在・外在情報を利用した空間埋め込み手法により,純視覚マッチングのあいまいさを低減し,特徴マッチングの改善と全体のポーズ推定精度の向上を実現する。 この方法は強い一般化を示し、環境変化に頑健であり、基礎的真理としてジオポスのみを必要とする。 KITTIとFord Multi-AVの季節データを用いた大規模な実験により,提案手法は従来の手法よりも優れており,横方向と縦方向に0.5ドル以下の空間精度誤差と2度以下の方向精度誤差が得られた。

This paper proposes a fine-grained self-localization method for outdoor robotics that utilizes a flexible number of onboard cameras and readily accessible satellite images. The proposed method addresses limitations in existing cross-view localization methods that struggle to handle noise sources such as moving objects and seasonal variations. It is the first sparse visual-only method that enhances perception in dynamic environments by detecting view-consistent key points and their corresponding deep features from ground and satellite views, while removing off-the-ground objects and establishing homography transformation between the two views. Moreover, the proposed method incorporates a spatial embedding approach that leverages camera intrinsic and extrinsic information to reduce the ambiguity of purely visual matching, leading to improved feature matching and overall pose estimation accuracy. The method exhibits strong generalization and is robust to environmental changes, requiring only geo-poses as ground truth. Extensive experiments on the KITTI and Ford Multi-AV Seasonal datasets demonstrate that our proposed method outperforms existing state-of-the-art methods, achieving median spatial accuracy errors below $0.5$ meters along the lateral and longitudinal directions, and a median orientation accuracy error below 2 degrees.
翻訳日:2023-08-17 15:02:14 公開日:2023-08-16
# 導波路qed系における二次元原子の絡み合いの発生

Generation of two-giant-atom entanglement in waveguide-QED systems ( http://arxiv.org/abs/2308.08108v1 )

ライセンス: Link先を確認
Xian-Li Yin, Jie-Qiao Liao(参考訳) 一次元導波路に結合した2つの巨大原子間の量子絡み合いの発生について検討する。 それぞれの巨大原子が2つの異なる結合点で導波路と相互作用するため、2つの原子導波路系には3つの異なる結合構造が存在する。 単一結合点に対するウィグナー・ワイスコプフフレームワーク内では、2つの巨大原子の進化を管理する量子マスター方程式が得られている。 各結合構成について、単一励起状態と二重励起状態の2つの異なる原子初期状態を含む2つの巨大原子の絡み合いダイナミクスを研究する。 生成した絡み合いは結合構成、位相シフト、原子初期状態に依存することが示されている。 単一励起初期状態に対して、これら3つのカップリングには、暗黒状態の出現による定常状態の絡み合いが存在する。 二重励起初期状態において、位相シフトを調整することにより、絡み合い突然の出生が観察される。 特に、ネストカップリングの最大絡み合いは、分離されたカップリングと組み合わされたカップリングのものよりも約1桁大きい。 さらに,原子周波数デチューニングが絡み合い発生に及ぼす影響について検討した。 この研究は、量子情報処理に広く応用可能な巨大原子導波路-qed系に基づく量子ネットワークにおける原子絡みの発生と制御に利用できる。

We study the generation of quantum entanglement between two giant atoms coupled to a one-dimensional waveguide. Since each giant atom interacts with the waveguide at two separate coupling points, there exist three different coupling configurations in the two-atom waveguide system: the separated, braided, and nested couplings. Within the Wigner-Weisskopf framework for single coupling points, the quantum master equations governing the evolution of the two giant atoms are obtained. For each coupling configuration, the entanglement dynamics of the two giant atoms is studied, including the cases of two different atomic initial states: single- and double-excitation states. It is shown that the generated entanglement depends on the coupling configuration, phase shift, and atomic initial state. For the single-excitation initial state, there exists steady-state entanglement for these three couplings due to the appearance of the dark state. For the double-excitation initial state, an entanglement sudden birth is observed via adjusting the phase shift. In particular, the maximal entanglement for the nested coupling is about one order of magnitude larger than those of separate and braided couplings. In addition, the influence of the atomic frequency detuning on the entanglement generation is studied. This work can be utilized for the generation and control of atomic entanglement in quantum networks based on giant-atom waveguide-QED systems, which have wide potential applications in quantum information processing.
翻訳日:2023-08-17 15:01:52 公開日:2023-08-16
# AutoGen:マルチエージェント対話フレームワークによる次世代LLMアプリケーションの実現

AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation Framework ( http://arxiv.org/abs/2308.08155v1 )

ライセンス: Link先を確認
Qingyun Wu, Gagan Bansal, Jieyu Zhang, Yiran Wu, Shaokun Zhang, Erkang Zhu, Beibin Li, Li Jiang, Xiaoyun Zhang, and Chi Wang(参考訳) この技術レポートは、複数のエージェントを使ってタスクを解決し合うLLMアプリケーションの開発を可能にする新しいフレームワークであるAutoGenを提示する。 AutoGenエージェントはカスタマイズ可能で、会話可能で、シームレスに人間の参加を可能にする。 LLM、ヒューマンインプット、ツールを組み合わせた様々なモードで運用することができる。 AutoGenの設計にはいくつかの利点がある。 a) これらのLSMの強大かつ不完全な生成及び推論能力について優雅に航行する。 b) エージェント間の会話を通じて有用な自動化を提供しながら,人間の理解と知性を活用すること。 c) 複雑なLLMワークフローの実装を自動化されたエージェントチャットとして単純化し、統一する。 コーディング、数学、オペレーションリサーチ、エンターテイメント、オンライン意思決定、質問応答など、開発者がAutoGenを使ってタスクを効果的に解決したり、アプリケーションを構築できるさまざまな例を提供しています。

This technical report presents AutoGen, a new framework that enables development of LLM applications using multiple agents that can converse with each other to solve tasks. AutoGen agents are customizable, conversable, and seamlessly allow human participation. They can operate in various modes that employ combinations of LLMs, human inputs, and tools. AutoGen's design offers multiple advantages: a) it gracefully navigates the strong but imperfect generation and reasoning abilities of these LLMs; b) it leverages human understanding and intelligence, while providing valuable automation through conversations between agents; c) it simplifies and unifies the implementation of complex LLM workflows as automated agent chats. We provide many diverse examples of how developers can easily use AutoGen to effectively solve tasks or build applications, ranging from coding, mathematics, operations research, entertainment, online decision-making, question answering, etc.
翻訳日:2023-08-17 14:56:05 公開日:2023-08-16
# 条件付き知覚品質保存画像圧縮

Conditional Perceptual Quality Preserving Image Compression ( http://arxiv.org/abs/2308.08154v1 )

ライセンス: Link先を確認
Tongda Xu, Qian Zhang, Yanghao Li, Dailan He, Zhe Wang, Yuanyuan Wang, Hongwei Qin, Yan Wang, Jingjing Liu, Ya-Qin Zhang(参考訳) 本稿では,ユーザが定義した情報に条件付けすることで,知覚品質の拡張である条件付き知覚品質を提案する。 具体的には、元の知覚品質$d(p_{X},p_{\hat{X}})$を条件付き知覚品質$d(p_{X|Y},p_{\hat{X}|Y})$に拡張します。 条件付き知覚品質は、速度歪み知覚トレードオフ \citep{blau2019rethinking} と同様の理論的性質を持つことを示す。 これらの理論結果に基づき,条件付き知覚品質保存圧縮のための最適枠組みを提案する。 実験の結果,コーデックはあらゆるビットレートにおいて高い知覚品質と意味品質を維持することができた。 さらに、必要となる共通ランダム性の低いバウンドを提供することにより、(条件付き)知覚品質圧縮のためのジェネレータにランダム性を組み込むべきかという従来の議論を解決する。 ソースコードは補助材料で提供される。

We propose conditional perceptual quality, an extension of the perceptual quality defined in \citet{blau2018perception}, by conditioning it on user defined information. Specifically, we extend the original perceptual quality $d(p_{X},p_{\hat{X}})$ to the conditional perceptual quality $d(p_{X|Y},p_{\hat{X}|Y})$, where $X$ is the original image, $\hat{X}$ is the reconstructed, $Y$ is side information defined by user and $d(.,.)$ is divergence. We show that conditional perceptual quality has similar theoretical properties as rate-distortion-perception trade-off \citep{blau2019rethinking}. Based on these theoretical results, we propose an optimal framework for conditional perceptual quality preserving compression. Experimental results show that our codec successfully maintains high perceptual quality and semantic quality at all bitrate. Besides, by providing a lowerbound of common randomness required, we settle the previous arguments on whether randomness should be incorporated into generator for (conditional) perceptual quality compression. The source code is provided in supplementary material.
翻訳日:2023-08-17 14:55:52 公開日:2023-08-16
# データソーティングによるNMTモデルの高速訓練

Fast Training of NMT Model with Data Sorting ( http://arxiv.org/abs/2308.08153v1 )

ライセンス: Link先を確認
Daniela N. Rim, Kimera Richard, Heeyoul Choi(参考訳) Transformerモデルは、Neural Machine Translationのような自然言語処理タスクに革命をもたらし、Transformerアーキテクチャの研究に多くの取り組みが行われ、その効率と精度が向上した。 改善すべき1つの潜在的な領域は、トランスフォーマーが計算した空のトークンを後で捨てるだけで、不要な計算負荷を発生させる。 そこで本研究では, 翻訳文対をバッチ処理前の長さに基づいて分類し, 計算能力の無駄を最小限に抑えるアルゴリズムを提案する。 ソート量が独立かつ同一の分散(i.i.d)データ仮定に違反する可能性があるため、データを部分的にソートする。 実験では,提案手法を英語・韓国語・英語・ルガンダ語対に機械翻訳に適用し,性能を維持しながら計算時間の増加を示す。 本手法はアーキテクチャに依存しないため,柔軟性のあるデータ長を持つ任意のトレーニングプロセスに容易に統合できる。

The Transformer model has revolutionized Natural Language Processing tasks such as Neural Machine Translation, and many efforts have been made to study the Transformer architecture, which increased its efficiency and accuracy. One potential area for improvement is to address the computation of empty tokens that the Transformer computes only to discard them later, leading to an unnecessary computational burden. To tackle this, we propose an algorithm that sorts translation sentence pairs based on their length before batching, minimizing the waste of computing power. Since the amount of sorting could violate the independent and identically distributed (i.i.d) data assumption, we sort the data partially. In experiments, we apply the proposed method to English-Korean and English-Luganda language pairs for machine translation and show that there are gains in computational time while maintaining the performance. Our method is independent of architectures, so that it can be easily integrated into any training process with flexible data lengths.
翻訳日:2023-08-17 14:55:27 公開日:2023-08-16
# 条件付き独立試験による時系列の階層的トポロジカル順序付け

Hierarchical Topological Ordering with Conditional Independence Test for Limited Time Series ( http://arxiv.org/abs/2308.08148v1 )

ライセンス: Link先を確認
Anpeng Wu, Haoxuan Li, Kun Kuang, Keli Zhang, Fei Wu(参考訳) 観測データに基づく因果関係を特定するための有向非巡回グラフ(DAG)の学習は重要であるが、重要な課題も生んでいる。 近年、トポロジに基づく手法は、変数のトポロジ的順序を初めて学習し、余分なエッジを排除し、グラフが非循環であることを保証することによって、DAGを発見するための2段階のアプローチとして登場した。 しかし、1つの制限は、これらの手法がその後の刈り取りを必要とする多くの突発的なエッジを生成することである。 この制限を克服するため,本稿では,時間に隣接せずフレキシブルなタイミングの対象となる2つの断面レコードのみからなる限られた時系列データを導入することで,トポロジに基づく手法の改善を提案する。 条件付きインスツルメンタル変数を外因性介入として組み込むことで,各変数の下位ノードを同定することを目指す。 そこで本稿では,条件付き独立性テスト(HT-CIT)を用いた階層型トポロジ的順序付けアルゴリズムを提案する。 HT-CITアルゴリズムは、刈り取るべきエッジの数を大幅に削減する。 合成および実世界のデータセットから得られた実験結果は,提案したHT-CITアルゴリズムの優位性を示している。

Learning directed acyclic graphs (DAGs) to identify causal relations underlying observational data is crucial but also poses significant challenges. Recently, topology-based methods have emerged as a two-step approach to discovering DAGs by first learning the topological ordering of variables and then eliminating redundant edges, while ensuring that the graph remains acyclic. However, one limitation is that these methods would generate numerous spurious edges that require subsequent pruning. To overcome this limitation, in this paper, we propose an improvement to topology-based methods by introducing limited time series data, consisting of only two cross-sectional records that need not be adjacent in time and are subject to flexible timing. By incorporating conditional instrumental variables as exogenous interventions, we aim to identify descendant nodes for each variable. Following this line, we propose a hierarchical topological ordering algorithm with conditional independence test (HT-CIT), which enables the efficient learning of sparse DAGs with a smaller search space compared to other popular approaches. The HT-CIT algorithm greatly reduces the number of edges that need to be pruned. Empirical results from synthetic and real-world datasets demonstrate the superiority of the proposed HT-CIT algorithm.
翻訳日:2023-08-17 14:55:09 公開日:2023-08-16
# mddial:信頼性評価付き多ターン差分診断対話データセット

MDDial: A Multi-turn Differential Diagnosis Dialogue Dataset with Reliability Evaluation ( http://arxiv.org/abs/2308.08147v1 )

ライセンス: Link先を確認
Srija Macherla, Man Luo, Mihir Parmar, Chitta Baral(参考訳) 自動微分診断(ADD)のための対話システムは、幅広い現実の応用がある。 これらの対話システムは、容易なアクセスと医療費の削減を約束している。 エンドツーエンドのADD対話システムを構築するには、対話トレーニングデータセットが必要である。 しかし、私たちの知る限りでは、英語ではADD対話データセットは公開されていない(非英語のデータセットは存在するが)。 そこで本研究では, エンドツーエンドのADD対話システムの構築と評価を支援する, 英語における最初の差分診断対話データセットであるMDDialを紹介する。 さらに、以前の研究では、個別にまたは重み付けスコアとして診断と症状の精度が示された。 この方法は症状と診断との関係を見落としている。 症状と診断の相互作用を考慮したADDシステムのための統一スコアを導入する。 このスコアはシステムの信頼性を示す。 最終的に、MDDial上で2つの中程度の言語モデルを訓練する。 本研究は,これらの言語モデルが一般領域における対話タスクを含む多くの自然言語理解タスクでうまく機能することを示唆するが,関連する症状や疾患との関連に苦慮し,mdddialでは性能が低下する。 MDDialは、ADD対話研究の研究を支援するために一般公開される。

Dialogue systems for Automatic Differential Diagnosis (ADD) have a wide range of real-life applications. These dialogue systems are promising for providing easy access and reducing medical costs. Building end-to-end ADD dialogue systems requires dialogue training datasets. However, to the best of our knowledge, there is no publicly available ADD dialogue dataset in English (although non-English datasets exist). Driven by this, we introduce MDDial, the first differential diagnosis dialogue dataset in English which can aid to build and evaluate end-to-end ADD dialogue systems. Additionally, earlier studies present the accuracy of diagnosis and symptoms either individually or as a combined weighted score. This method overlooks the connection between the symptoms and the diagnosis. We introduce a unified score for the ADD system that takes into account the interplay between symptoms and diagnosis. This score also indicates the system's reliability. To the end, we train two moderate-size of language models on MDDial. Our experiments suggest that while these language models can perform well on many natural language understanding tasks, including dialogue tasks in the general domain, they struggle to relate relevant symptoms and disease and thus have poor performance on MDDial. MDDial will be released publicly to aid the study of ADD dialogue research.
翻訳日:2023-08-17 14:54:47 公開日:2023-08-16
# SCANet: 音声と音声の分離のための自律的・横断的ネットワーク

SCANet: A Self- and Cross-Attention Network for Audio-Visual Speech Separation ( http://arxiv.org/abs/2308.08143v1 )

ライセンス: Link先を確認
Kai Li, Runxuan Yang, Xiaolin Hu(参考訳) 音声や視覚情報などの様々なモダリティの統合は、周囲の環境に対する人間の認識において重要な役割を果たす。 最近の研究は、音声と視覚の分離のための融合モジュールの設計に大きな進歩をもたらした。 しかし、主にネットワーク内の様々な階層的な位置におけるマルチモーダル融合を包括的に考慮するのではなく、トップまたはボトム位置に位置するマルチモーダル融合アーキテクチャに焦点を当てた。 本稿では,音声・視覚的特徴融合のためのアテンション機構を活用する,自己・クロスアテンションネットワーク(SCANet)という新しいモデルを提案する。 SCANetは、セルフアテンション(SA)とクロスアテンション(CA)の2つのタイプのアテンションブロックで構成されており、CAブロックは、SCANetの上位(TCA)、中間(MCA)、下部(BCA)に分散されている。 これらのブロックは、モダリティ固有の特徴を学習し、オーディオ視覚的特徴から異なる意味を抽出することができる。 3つの標準オーディオ視覚分離ベンチマーク(LRS2, LRS3, VoxCeleb2)の総合的な実験により、SCANetの有効性が実証された。

The integration of different modalities, such as audio and visual information, plays a crucial role in human perception of the surrounding environment. Recent research has made significant progress in designing fusion modules for audio-visual speech separation. However, they predominantly focus on multi-modal fusion architectures situated either at the top or bottom positions, rather than comprehensively considering multi-modal fusion at various hierarchical positions within the network. In this paper, we propose a novel model called self- and cross-attention network (SCANet), which leverages the attention mechanism for efficient audio-visual feature fusion. SCANet consists of two types of attention blocks: self-attention (SA) and cross-attention (CA) blocks, where the CA blocks are distributed at the top (TCA), middle (MCA) and bottom (BCA) of SCANet. These blocks maintain the ability to learn modality-specific features and enable the extraction of different semantics from audio-visual features. Comprehensive experiments on three standard audio-visual separation benchmarks (LRS2, LRS3, and VoxCeleb2) demonstrate the effectiveness of SCANet, outperforming existing state-of-the-art (SOTA) methods while maintaining comparable inference time.
翻訳日:2023-08-17 14:54:29 公開日:2023-08-16
# S2R: 理想的でブラインドな超解法のためのダブルウィン変換器ベースのフレームワーク

S2R: Exploring a Double-Win Transformer-Based Framework for Ideal and Blind Super-Resolution ( http://arxiv.org/abs/2308.08142v1 )

ライセンス: Link先を確認
Minghao She, Wendong Mao, Huihong Shi and Zhongfeng Wang(参考訳) 現在、ディープラーニングに基づく手法は、理想的な超解像(SR)データセット上で印象的な性能を示しているが、これらの手法のほとんどは、予測不能なボケカーネルを持つ現実のSR再構成タスクに直接適用した場合、劇的に性能低下を引き起こす。 この問題を解決するために、ブラインドSR法はランダムなぼかしカーネルの視覚的結果を改善するために提案され、これは理想的な低解像度画像に不満足な再構成効果をもたらす。 本稿では、S2Rと呼ばれる理想的かつ盲目的的なSRタスクのためのダブルウィンフレームワークを提案する。これには、軽量トランスフォーマーベースSRモデル(S2R変換器)と、理想的かつランダムなファジィ条件の両方において優れた視覚的結果が得られる新しい粗い訓練戦略が含まれる。 アルゴリズムレベルでは、S2R変換器は効率よく軽量なブロックを巧みに組み合わせ、比較的少ないパラメータで抽出された特徴の表現能力を向上する。 トレーニング戦略では、まず大規模な外部データセットの助けを借りてネットワークの一般化を改善するために粗いレベルの学習プロセスを行い、その後、画像の内部特徴をマイニングすることで、事前学習されたモデルを実世界のSRタスクに転送する高速な微調整プロセスを開発する。 実験の結果,提案したS2Rは,578Kパラメータしか持たない理想的なSR条件下で,他の単一像SRモデルよりも優れていた。 一方、ブラインドファジィ状態の通常のブラインドSRモデルよりも、300倍の収束速度を向上し、現実の状況下での移動学習プロセスを大幅に加速する10の勾配更新で、より良い視覚結果が得られる。

Nowadays, deep learning based methods have demonstrated impressive performance on ideal super-resolution (SR) datasets, but most of these methods incur dramatically performance drops when directly applied in real-world SR reconstruction tasks with unpredictable blur kernels. To tackle this issue, blind SR methods are proposed to improve the visual results on random blur kernels, which causes unsatisfactory reconstruction effects on ideal low-resolution images similarly. In this paper, we propose a double-win framework for ideal and blind SR task, named S2R, including a light-weight transformer-based SR model (S2R transformer) and a novel coarse-to-fine training strategy, which can achieve excellent visual results on both ideal and random fuzzy conditions. On algorithm level, S2R transformer smartly combines some efficient and light-weight blocks to enhance the representation ability of extracted features with relatively low number of parameters. For training strategy, a coarse-level learning process is firstly performed to improve the generalization of the network with the help of a large-scale external dataset, and then, a fast fine-tune process is developed to transfer the pre-trained model to real-world SR tasks by mining the internal features of the image. Experimental results show that the proposed S2R outperforms other single-image SR models in ideal SR condition with only 578K parameters. Meanwhile, it can achieve better visual results than regular blind SR models in blind fuzzy conditions with only 10 gradient updates, which improve convergence speed by 300 times, significantly accelerating the transfer-learning process in real-world situations.
翻訳日:2023-08-17 14:54:04 公開日:2023-08-16
# gpa-3d: 点雲からの教師なし領域適応型3次元物体検出のための幾何認識プロトタイプアライメント

GPA-3D: Geometry-aware Prototype Alignment for Unsupervised Domain Adaptive 3D Object Detection from Point Clouds ( http://arxiv.org/abs/2308.08140v1 )

ライセンス: Link先を確認
Ziyu Li, Jingming Guo, Tongtong Cao, Liu Bingbing, Wankou Yang(参考訳) LiDARによる3D検出は近年大きな進歩を遂げている。 しかし、3D検出器の性能は、厳しい領域ギャップの問題のため、目に見えない環境での展開では著しく制限されている。 既存の領域適応型3次元検出法は特徴空間における分布差の問題を適切に考慮していないため、領域間の検出器の一般化を妨げている。 本研究では,新しい非教師付きドメイン適応型 \textbf{3D} 検出フレームワーク,すなわち \textbf{G}eometry-aware \textbf{P}rototype \textbf{A}lignment (\textbf{GPA-3D}) を提案する。 具体的には、gpa-3dは、異なる幾何学的構造を持つ雲オブジェクトを指し示すために、一連のカスタマイズされた学習可能なプロトタイプを割り当てる。 それぞれのプロトタイプは、ソースドメインとターゲットドメインの対応するポイントクラウドオブジェクトから派生したbev(bird's-eye-view)機能を調整する。 Waymo, nuScenes, KITTIなどの様々なベンチマークで得られた評価結果は, 異なる適応シナリオに対する最先端アプローチよりもGPA-3Dの方が優れていることを示す。 MindSpore バージョンコードは \url{https://github.com/Liz66666/GPA3D} で公開される。

LiDAR-based 3D detection has made great progress in recent years. However, the performance of 3D detectors is considerably limited when deployed in unseen environments, owing to the severe domain gap problem. Existing domain adaptive 3D detection methods do not adequately consider the problem of the distributional discrepancy in feature space, thereby hindering generalization of detectors across domains. In this work, we propose a novel unsupervised domain adaptive \textbf{3D} detection framework, namely \textbf{G}eometry-aware \textbf{P}rototype \textbf{A}lignment (\textbf{GPA-3D}), which explicitly leverages the intrinsic geometric relationship from point cloud objects to reduce the feature discrepancy, thus facilitating cross-domain transferring. Specifically, GPA-3D assigns a series of tailored and learnable prototypes to point cloud objects with distinct geometric structures. Each prototype aligns BEV (bird's-eye-view) features derived from corresponding point cloud objects on source and target domains, reducing the distributional discrepancy and achieving better adaptation. The evaluation results obtained on various benchmarks, including Waymo, nuScenes and KITTI, demonstrate the superiority of our GPA-3D over the state-of-the-art approaches for different adaptation scenarios. The MindSpore version code will be publicly available at \url{https://github.com/Liz66666/GPA3D}.
翻訳日:2023-08-17 14:53:31 公開日:2023-08-16
# 線形ダイナミクスのためのオンライン制御:データ駆動アプローチ

Online Control for Linear Dynamics: A Data-Driven Approach ( http://arxiv.org/abs/2308.08138v1 )

ライセンス: Link先を確認
Zishun Liu and Yongxin Chen(参考訳) 本稿では,未知ダイナミクス,境界外乱,逆コストを持つ線形時間不変量系のオンライン制御問題を考える。 コントローラの後悔を減らすためのデータ駆動戦略を提案する。 モデルベース手法とは異なり、このアルゴリズムはシステムモデルを識別せず、単一のノイズフリー軌道を利用して外乱の蓄積を計算し、オンライン勾配降下によってパラメータが更新される外乱動作制御器を用いて決定する。 我々のアルゴリズムの後悔は、軽微な仮定の下で$\mathcal{O}(\sqrt{T})$であることが証明され、その性能がモデルベースの手法と同等であることを示唆する。

This paper considers an online control problem over a linear time-invariant system with unknown dynamics, bounded disturbance, and adversarial cost. We propose a data-driven strategy to reduce the regret of the controller. Unlike model-based methods, our algorithm does not identify the system model, instead, it leverages a single noise-free trajectory to calculate the accumulation of disturbance and makes decisions using the accumulated disturbance action controller we design, whose parameters are updated by online gradient descent. We prove that the regret of our algorithm is $\mathcal{O}(\sqrt{T})$ under mild assumptions, suggesting that its performance is on par with model-based methods.
翻訳日:2023-08-17 14:53:02 公開日:2023-08-16
# SYENet: モバイルデバイス上でリアルタイムに動作する複数の低レベル視覚タスクのためのシンプルで効果的なネットワーク

SYENet: A Simple Yet Effective Network for Multiple Low-Level Vision Tasks with Real-time Performance on Mobile Device ( http://arxiv.org/abs/2308.08137v1 )

ライセンス: Link先を確認
Weiran Gou, Ziyao Yi, Yan Xiang, Shaoqing Li, Zibin Liu, Dehui Kong and Ke Xu(参考訳) AIハードウェアアクセラレータの急速な開発に伴い、モバイルデバイス上のさまざまな低レベル視覚タスクを解決するためのディープラーニングベースのアルゴリズムの適用が徐々に可能になっている。 タスク固有のアルゴリズムは、それらを単一のニューラルネットワークアーキテクチャに統合することを難しくし、大量のパラメータは、リアルタイムな推論を達成するのを困難にしている。 これらの問題に対処するため,我々は,モバイル端末上で複数の低レベル視覚タスクをリアルタイムに処理できる,わずか$6kのパラメータを持つ新しいネットワークであるsyenetを提案する。 SYENetは2つの非対称な分岐と単純なビルディングブロックで構成されている。 非対称分岐により結果を効果的に接続するために、擬似接続ユニット(QCU)を提案する。 さらに, 性能向上のため, 画像の処理に新たな外部認識損失が提案されている。 提案手法は,Qualcomm 8 Gen 1 モバイル SoC (System-on-Chip) 上で2K60FPS スループットを持つ画像信号処理 (ISP) や低光強調 (LLE) ,超解像 (SR) などのリアルタイムアプリケーションにおける他のネットワークと比較して,優れたPSNR性能を示す。 特にISPタスクに関しては、SYENetはMAI 2022 Learned smartphone ISP Challengeで最高スコアを獲得した。

With the rapid development of AI hardware accelerators, applying deep learning-based algorithms to solve various low-level vision tasks on mobile devices has gradually become possible. However, two main problems still need to be solved: task-specific algorithms make it difficult to integrate them into a single neural network architecture, and large amounts of parameters make it difficult to achieve real-time inference. To tackle these problems, we propose a novel network, SYENet, with only $~$6K parameters, to handle multiple low-level vision tasks on mobile devices in a real-time manner. The SYENet consists of two asymmetrical branches with simple building blocks. To effectively connect the results by asymmetrical branches, a Quadratic Connection Unit(QCU) is proposed. Furthermore, to improve performance, a new Outlier-Aware Loss is proposed to process the image. The proposed method proves its superior performance with the best PSNR as compared with other networks in real-time applications such as Image Signal Processing(ISP), Low-Light Enhancement(LLE), and Super-Resolution(SR) with 2K60FPS throughput on Qualcomm 8 Gen 1 mobile SoC(System-on-Chip). Particularly, for ISP task, SYENet got the highest score in MAI 2022 Learned Smartphone ISP challenge.
翻訳日:2023-08-17 14:52:49 公開日:2023-08-16
# AATCT-IDS:画像デノイング,セマンティックセグメンテーション,放射線検査のための腹部CT画像データセット

AATCT-IDS: A Benchmark Abdominal Adipose Tissue CT Image Dataset for Image Denoising, Semantic Segmentation, and Radiomics Evaluation ( http://arxiv.org/abs/2308.08172v1 )

ライセンス: Link先を確認
Zhiyu Ma, Chen Li, Tianming Du, Le Zhang, Dechao Tang, Deguo Ma, Shanchuan Huang, Yan Liu, Yihao Sun, Zhihao Chen, Jin Yuan, Qianqing Nie, Marcin Grzegorzek, Hongzan Sun(参考訳) 方法:本研究では,300名の被験者を対象とするベンチマーク「Abdominal Adipose tissue CT Image Dataset}」(AATTCT-IDS)を作成し,公開する。 AATTCT-IDSは、13,732個の生CTスライスを公開し、研究者は、同一スライス距離の3,213個の皮下組織と内臓組織を個別にアノテートし、デノナイズ法、セグメンテーションモデルを訓練し、放射線学を研究する。 本稿では,AATTCT-IDSにおける各種手法の性能を可視化結果と評価データを組み合わせて比較,解析する。 したがって、上記の3種類のタスクにおいて、このデータセットの研究可能性を検証する。 結果: 画像復調法の比較研究において, 平滑化戦略を用いたアルゴリズムは, 画像の詳細を犠牲にして混合雑音を抑制し, より良い評価データを得る。 BM3Dのような手法は、評価データはわずかに低いが、元の画像構造をより良く保存する。 その結果,両群間に有意差が認められた。 腹部脂肪組織のセグメンテーションに関する比較研究では,各モデルによる脂肪組織のセグメンテーション結果が異なる構造的特徴を示した。 中でもBiSeNetは、トレーニング時間が最も短いU-Netよりもわずかに劣るセグメンテーション結果を取得し、小さくて孤立した脂肪組織を効果的に分離する。 さらに, AATTCT-IDSに基づく放射能調査では, 被検体の3つの分布が明らかになった。 結論: AATTCT-IDSは腹部CTスライス中の脂肪組織領域の基礎的真実を含む。 このオープンソースのデータセットは、研究者を惹きつけ、腹部脂肪組織の多次元的特徴を探求し、臨床実習における医師や患者を助ける。 AATCT-IDSは、以下の非商用目的のために無料で公開されている。

Methods: In this study, a benchmark \emph{Abdominal Adipose Tissue CT Image Dataset} (AATTCT-IDS) containing 300 subjects is prepared and published. AATTCT-IDS publics 13,732 raw CT slices, and the researchers individually annotate the subcutaneous and visceral adipose tissue regions of 3,213 of those slices that have the same slice distance to validate denoising methods, train semantic segmentation models, and study radiomics. For different tasks, this paper compares and analyzes the performance of various methods on AATTCT-IDS by combining the visualization results and evaluation data. Thus, verify the research potential of this data set in the above three types of tasks. Results: In the comparative study of image denoising, algorithms using a smoothing strategy suppress mixed noise at the expense of image details and obtain better evaluation data. Methods such as BM3D preserve the original image structure better, although the evaluation data are slightly lower. The results show significant differences among them. In the comparative study of semantic segmentation of abdominal adipose tissue, the segmentation results of adipose tissue by each model show different structural characteristics. Among them, BiSeNet obtains segmentation results only slightly inferior to U-Net with the shortest training time and effectively separates small and isolated adipose tissue. In addition, the radiomics study based on AATTCT-IDS reveals three adipose distributions in the subject population. Conclusion: AATTCT-IDS contains the ground truth of adipose tissue regions in abdominal CT slices. This open-source dataset can attract researchers to explore the multi-dimensional characteristics of abdominal adipose tissue and thus help physicians and patients in clinical practice. AATCT-IDS is freely published for non-commercial purpose at: \url{https://figshare.com/articles/dataset/AATTCT-IDS/23807256}.
翻訳日:2023-08-17 14:44:53 公開日:2023-08-16
# ユーザの嗜好による量子エンタングルメント分布のネットワーク中心性

Network Centralities in Quantum Entanglement Distribution due to User Preferences ( http://arxiv.org/abs/2308.08170v1 )

ライセンス: Link先を確認
Dibakar Das, Shiva Kumar Malapaka, Jyotsna Bapat, Debabrata Das(参考訳) 量子ネットワークは、情報を安全に転送するために量子力学を応用する遅い関心事である。 悪用される重要な特性の1つは、あるネットワークノードから別のネットワークノードへ情報を転送する絡み合いである。 量子テレポーテーションのようなアプリケーションは、関連するノード間の絡み合いに依存する。 したがって、ネットワークノード間の効率的な絡み合い分布が最も重要である。 文献では, 主に属性, 忠実性, リンク層ネットワークトポロジ, プロアクティブ分布などに依存するいくつかの絡み合い分布法が提案されている。 本稿では, 絡み合い(絡み合いグラフ)のリンク層トポロジが, 異なる特徴を持つリモートノード間のピアツーピア接続(接続グラフ)の使用パターンによって駆動される場合のネットワークの中央性について検討する。 2つのノードが同じ分布から選択される接続グラフには、3つの異なる分布(ユニフォーム、ガウス、パワー法則)が考慮される。 絡み合いグラフでは、反応性およびプロアクティブな絡み合いがランダムグラフを形成するために用いられる。 その結果、絡み合いグラフのエッジ中心性(絡み合い分布における個々のエッジの使用頻度として測定される)は電力法則分布に従う一方、接続やノード中心性(ノードの次数)との絡み合いの増加は、ほとんどのシナリオにおいて単分子的に分布することがわかった。 これらの発見は、高い信頼性と低いデコヒーレンス時間を持つ量子技術のような量子資源管理において、高い集中度を持つエッジに割り当てられる可能性がある。

Quantum networks are of great interest of late which apply quantum mechanics to transfer information securely. One of the key properties which are exploited is entanglement to transfer information from one network node to another. Applications like quantum teleportation rely on the entanglement between the concerned nodes. Thus, efficient entanglement distribution among network nodes is of utmost importance. Several entanglement distribution methods have been proposed in the literature which primarily rely on attributes, such as, fidelities, link layer network topologies, proactive distribution, etc. This paper studies the centralities of the network when the link layer topology of entanglements (referred to as entangled graph) is driven by usage patterns of peer-to-peer connections between remote nodes (referred to as connection graph) with different characteristics. Three different distributions (uniform, gaussian, and power law) are considered for the connection graph where the two nodes are selected from the same distribution. For the entangled graph, both reactive and proactive entanglements are employed to form a random graph. Results show that the edge centralities (measured as usage frequencies of individual edges during entanglement distribution) of the entangled graph follow power law distributions whereas the growth in entanglements with connections and node centralities (degrees of nodes) are monomolecularly distributed for most of the scenarios. These findings will help in quantum resource management, e.g., quantum technology with high reliability and lower decoherence time may be allocated to edges with high centralities.
翻訳日:2023-08-17 14:44:20 公開日:2023-08-16
# Retrieval-Augmented End-to-End Task-Oriented System を用いた音声対話シナリオの性能向上

Enhancing Performance on Seen and Unseen Dialogue Scenarios using Retrieval-Augmented End-to-End Task-Oriented System ( http://arxiv.org/abs/2308.08169v1 )

ライセンス: Link先を確認
Jianguo Zhang and Stephen Roller and Kun Qian and Zhiwei Liu and Rui Meng and Shelby Heinecke and Huan Wang and Silvio Savarese and Caiming Xiong(参考訳) エンドツーエンドタスク指向対話(tod)システムは,高度な自然言語理解と自然言語生成機能を活用することで,有望な性能を実現している。 この作業により、単純なキャッシュを通じてより柔軟性のあるTODシステムが可能になる。 キャッシュはTODシステムを動的に更新し、既存の対話シナリオと見えない対話シナリオの両方を扱う柔軟性を提供します。 この目的に向けて,まず検索モジュールを微調整し,最も関連性の高い情報をキャッシュから効果的に検索する。 次に,tod生成中に対話履歴と検索情報の両方を参照および接地できるエンドツーエンドtodモデルを訓練する。 キャッシュの構築は簡単で、TODシステムのバックボーンモデルは既存のトレーニング済み生成モデルと互換性がある。 広範な実験により,提案フレームワークの性能が向上し,非空関節ゴール精度が6.7%向上した。

End-to-end task-oriented dialogue (TOD) systems have achieved promising performance by leveraging sophisticated natural language understanding and natural language generation capabilities of pre-trained models. This work enables the TOD systems with more flexibility through a simple cache. The cache provides the flexibility to dynamically update the TOD systems and handle both existing and unseen dialogue scenarios. Towards this end, we first fine-tune a retrieval module to effectively retrieve the most relevant information entries from the cache. We then train end-to-end TOD models that can refer to and ground on both dialogue history and retrieved information during TOD generation. The cache is straightforward to construct, and the backbone models of TOD systems are compatible with existing pre-trained generative models. Extensive experiments demonstrate the superior performance of our framework, with a notable improvement in non-empty joint goal accuracy by 6.7% compared to strong baselines.
翻訳日:2023-08-17 14:43:57 公開日:2023-08-16
# k-平均に対する量子近似スキーム

A Quantum Approximation Scheme for k-Means ( http://arxiv.org/abs/2308.08167v1 )

ライセンス: Link先を確認
Ragesh Jaiswal(参考訳) QRAMモデルにおける古典的な$k$-meansクラスタリング問題に対して、量子近似スキーム(例えば、$(1 + \varepsilon)$-approximation for every $\varepsilon > 0$)を与える。 具体的には、QRAMデータ構造に格納された$N$のデータセット$V$が与えられた場合、我々の量子アルゴリズムは、時間$\tilde{O} \left(2^{\tilde{O}(\frac{k}{\varepsilon})} \eta^2 d\right)$と、高確率出力のセット$C$の$k$センターを$ cost(V, C) \leq (1+\varepsilon) \cdot cost(V, C_{OPT})$で実行する。 ここで $c_{opt}$ は最適な $k$-centers を表し、$cost(.)$ は標準の $k$-means コスト関数(つまり、最も近い中心への点の2乗距離の和)を表し、$\eta$ はアスペクト比(つまり最大距離と最小距離の比)である。 これは、k$-means問題に対して証明可能な近似値(1+\varepsilon)$を与える多対数実行時間を持つ最初の量子アルゴリズムである。 また、教師なし学習に関する従来の研究とは異なり、量子アルゴリズムでは量子線形代数サブルーチンは必要とせず、そのような手順で現れるパラメータ(例えば条件数)に依存しない実行時間を持つ。

We give a quantum approximation scheme (i.e., $(1 + \varepsilon)$-approximation for every $\varepsilon > 0$) for the classical $k$-means clustering problem in the QRAM model with a running time that has only polylogarithmic dependence on the number of data points. More specifically, given a dataset $V$ with $N$ points in $\mathbb{R}^d$ stored in QRAM data structure, our quantum algorithm runs in time $\tilde{O} \left( 2^{\tilde{O}(\frac{k}{\varepsilon})} \eta^2 d\right)$ and with high probability outputs a set $C$ of $k$ centers such that $cost(V, C) \leq (1+\varepsilon) \cdot cost(V, C_{OPT})$. Here $C_{OPT}$ denotes the optimal $k$-centers, $cost(.)$ denotes the standard $k$-means cost function (i.e., the sum of the squared distance of points to the closest center), and $\eta$ is the aspect ratio (i.e., the ratio of maximum distance to minimum distance). This is the first quantum algorithm with a polylogarithmic running time that gives a provable approximation guarantee of $(1+\varepsilon)$ for the $k$-means problem. Also, unlike previous works on unsupervised learning, our quantum algorithm does not require quantum linear algebra subroutines and has a running time independent of parameters (e.g., condition number) that appear in such procedures.
翻訳日:2023-08-17 14:43:41 公開日:2023-08-16
# 核成長ニューラルガスによって生成されるネットワークの特性

Characteristics of networks generated by kernel growing neural gas ( http://arxiv.org/abs/2308.08163v1 )

ライセンス: Link先を確認
Kazuhisa Fujita(参考訳) 本研究では,成長するニューラルガス(gng)アルゴリズムのカーネル化バージョンであるkernel gngを開発し,kernel gngが生成するネットワークの特徴を調べることを目的とした。 GNGは教師なしの人工知能ニューラルネットワークで、データセットを非指向グラフに変換することで、データセットの特徴をグラフとして抽出することができる。 GNGはベクトル量子化、クラスタリング、3Dグラフィックスで広く使われている。 カーネルメソッドはデータセットを特徴空間にマップするためによく使用され、サポートベクターマシンが最も顕著なアプリケーションである。 本稿ではカーネルGNGのアプローチを紹介し,カーネルGNGが生成するネットワークの特性について検討する。 本研究では,ガウス,ラプラシアン,コーシー,逆マルチクワッドリック,ログカーネルの5つのカーネルが使用されている。

This research aims to develop kernel GNG, a kernelized version of the growing neural gas (GNG) algorithm, and to investigate the features of the networks generated by the kernel GNG. The GNG is an unsupervised artificial neural network that can transform a dataset into an undirected graph, thereby extracting the features of the dataset as a graph. The GNG is widely used in vector quantization, clustering, and 3D graphics. Kernel methods are often used to map a dataset to feature space, with support vector machines being the most prominent application. This paper introduces the kernel GNG approach and explores the characteristics of the networks generated by kernel GNG. Five kernels, including Gaussian, Laplacian, Cauchy, inverse multiquadric, and log kernels, are used in this study.
翻訳日:2023-08-17 14:43:01 公開日:2023-08-16
# 原型部品説明の空間的誤り評価のための解釈可能性ベンチマーク

Interpretability Benchmark for Evaluating Spatial Misalignment of Prototypical Parts Explanations ( http://arxiv.org/abs/2308.08162v1 )

ライセンス: Link先を確認
Miko{\l}aj Sacha, Bartosz Jura, Dawid Rymarczyk, {\L}ukasz Struski, Jacek Tabor, Bartosz Zieli\'nski(参考訳) 原始的な部分ベースのネットワークは、忠実な自己説明によって人気が高まっている。 しかし、それらの類似度マップは、ペナルティファイトネットワーク層で計算される。 したがって、プロトタイプアクティベーション領域の受容野は、しばしばこの領域外の画像の一部に依存するため、誤解を招く解釈につながる可能性がある。 我々は,この非好ましくない行動を空間的説明の誤用とし,この現象を定量化する専用の指標を用いた解釈可能性ベンチマークを導入する。 さらに, 誤り補償手法を提案し, 既存の最先端モデルに適用する。 本ベンチマークの表現力と,提案手法の有効性を広範な実証実験により示す。

Prototypical parts-based networks are becoming increasingly popular due to their faithful self-explanations. However, their similarity maps are calculated in the penultimate network layer. Therefore, the receptive field of the prototype activation region often depends on parts of the image outside this region, which can lead to misleading interpretations. We name this undesired behavior a spatial explanation misalignment and introduce an interpretability benchmark with a set of dedicated metrics for quantifying this phenomenon. In addition, we propose a method for misalignment compensation and apply it to existing state-of-the-art models. We show the expressiveness of our benchmark and the effectiveness of the proposed compensation methodology through extensive empirical studies.
翻訳日:2023-08-17 14:42:48 公開日:2023-08-16
# 圧縮深層学習モデルの逆ロバスト性ベンチマーク

Benchmarking Adversarial Robustness of Compressed Deep Learning Models ( http://arxiv.org/abs/2308.08160v1 )

ライセンス: Link先を確認
Brijesh Vora, Kartik Patwari, Syed Mahbub Hafiz, Zubair Shafiq, Chen-Nee Chuah(参考訳) ディープニューラルネットワーク(dnn)のサイズが大きくなると、特にリソース制約のあるデバイスで使用される場合、モデル圧縮の必要性が高まる。 同時に、敵の攻撃に対するDNNの感受性もまた大きなハードルとなっている。 モデル圧縮と対向ロバスト性の両方についてかなりの研究が行われたが、共同試験は未検討のままである。 本研究は, 基本モデルの逆入力が刈り取られたバージョンに与える影響を理解するために, このギャップを埋めるものである。 この関係を調べるために,様々な敵攻撃とDNNモデルに対する総合的なベンチマークを開発した。 我々は,従来は敵の訓練の対象とされていなかったモデルに注目し,精度と性能に最適化された刈り取り方式を適用した。 解析の結果, 汎用性の向上, 圧縮, 高速な推論時間は維持されているものの, 対向的堅牢性はベースモデルに匹敵することがわかった。 これはモデル圧縮がユニークな利点を提供する一方で、逆の強固さを損なわないことを示唆している。

The increasing size of Deep Neural Networks (DNNs) poses a pressing need for model compression, particularly when employed on resource constrained devices. Concurrently, the susceptibility of DNNs to adversarial attacks presents another significant hurdle. Despite substantial research on both model compression and adversarial robustness, their joint examination remains underexplored. Our study bridges this gap, seeking to understand the effect of adversarial inputs crafted for base models on their pruned versions. To examine this relationship, we have developed a comprehensive benchmark across diverse adversarial attacks and popular DNN models. We uniquely focus on models not previously exposed to adversarial training and apply pruning schemes optimized for accuracy and performance. Our findings reveal that while the benefits of pruning enhanced generalizability, compression, and faster inference times are preserved, adversarial robustness remains comparable to the base model. This suggests that model compression while offering its unique advantages, does not undermine adversarial robustness.
翻訳日:2023-08-17 14:42:39 公開日:2023-08-16
# ランダムデータに欠かせない深部生成的インプットモデル

Deep Generative Imputation Model for Missing Not At Random Data ( http://arxiv.org/abs/2308.08158v1 )

ライセンス: Link先を確認
Jialei Chen, Yuanbo Xu, Pengyang Wang, Yongjian Yang(参考訳) データ分析は通常、無作為な(mnar)問題ではなく、値の欠落の原因が完全には観察されない問題に苦しむ。 ランダム(mcar)問題で完全に欠けているナイーブと比較して、より複雑で挑戦的な現実的シナリオと一致している。 既存の統計手法は、MNAR機構を、完全データと欠損マスクの結合分布の異なる分解によってモデル化する。 しかし、これらの統計手法を直接深層生成モデルに組み込むことは、準最適である。 具体的には、mnarインプテーション過程における再構成マスクの信頼性を無視し、情報の抽出が不十分で、インプテーション品質が低下する。 本稿では,MNAR問題を再考し,完全データと欠落マスクは等しい足場上の不完全データの2つのモダリティであることを示す。 本稿では,2つのモードの分布を並列に表現し,完全なデータと欠落マスクから十分な情報を抽出するために,生成モデル固有の結合確率分解法,結合モデルを提案する。 さらに一歩進めて,実世界の欠落機構を潜在空間で処理し,不完全なデータを同時にインデュートし,欠落したマスクを再構築するために,深い生成的インプテーションモデルであるgnrを利用する。 実験の結果,GNR は最先端の MNAR ベースラインをはるかに上回り (平均 9.9% から 18.8% に改善) , 常にマスク再構成精度が向上し, インキュベーションの原理化が図られた。

Data analysis usually suffers from the Missing Not At Random (MNAR) problem, where the cause of the value missing is not fully observed. Compared to the naive Missing Completely At Random (MCAR) problem, it is more in line with the realistic scenario whereas more complex and challenging. Existing statistical methods model the MNAR mechanism by different decomposition of the joint distribution of the complete data and the missing mask. But we empirically find that directly incorporating these statistical methods into deep generative models is sub-optimal. Specifically, it would neglect the confidence of the reconstructed mask during the MNAR imputation process, which leads to insufficient information extraction and less-guaranteed imputation quality. In this paper, we revisit the MNAR problem from a novel perspective that the complete data and missing mask are two modalities of incomplete data on an equal footing. Along with this line, we put forward a generative-model-specific joint probability decomposition method, conjunction model, to represent the distributions of two modalities in parallel and extract sufficient information from both complete data and missing mask. Taking a step further, we exploit a deep generative imputation model, namely GNR, to process the real-world missing mechanism in the latent space and concurrently impute the incomplete data and reconstruct the missing mask. The experimental results show that our GNR surpasses state-of-the-art MNAR baselines with significant margins (averagely improved from 9.9% to 18.8% in RMSE) and always gives a better mask reconstruction accuracy which makes the imputation more principle.
翻訳日:2023-08-17 14:42:22 公開日:2023-08-16
# テキスト対画像合成における高次テキスト対応のための意味的レイアウト生成の学習

Learning to Generate Semantic Layouts for Higher Text-Image Correspondence in Text-to-Image Synthesis ( http://arxiv.org/abs/2308.08157v1 )

ライセンス: Link先を確認
Minho Park, Jooyeol Yun, Seunghwan Choi, Jaegul Choo(参考訳) 既存のテキスト対画像生成アプローチは、フォトリアリズムやテキスト-画像対応に高い基準を定めており、主に、最大5億対のペアを含むことができるwebスケールのテキスト-イメージデータセットの恩恵を受けている。 しかしながら、都市シーン、医療画像、顔といったドメイン固有のデータセットでトレーニングされたテキスト対画像生成モデルは、テキストと画像のペアが欠如しているため、依然としてテキストと画像の対応が不足している。 さらに、特定のドメインに対する数十億のテキストイメージペアの収集には時間と費用がかかります。 したがって、ウェブスケールのテキスト画像データセットに頼ることなく、高いテキスト画像対応を確保することは難しい課題である。 本稿では、利用可能なセマンティックレイアウトを活用することで、テキスト画像の対応性を高めるための新しいアプローチを提案する。 具体的には,画像と対応するレイアウトペアを同時に生成するガウス分類拡散プロセスを提案する。 実験の結果,各画素のセマンティックラベルを生成するために,異なる画像領域のセマンティクスを認識するために,テキストから画像への生成モデルを誘導できることが判明した。 提案手法は,マルチモーダルのceleba-hqとcityscapesデータセットにおいて,既存のテキスト対画像生成手法と比較して,テキストと画像の対応性が向上することを示す。 コードは、このhttps://pmh9960.github.io/research/GCDPで入手できる。

Existing text-to-image generation approaches have set high standards for photorealism and text-image correspondence, largely benefiting from web-scale text-image datasets, which can include up to 5~billion pairs. However, text-to-image generation models trained on domain-specific datasets, such as urban scenes, medical images, and faces, still suffer from low text-image correspondence due to the lack of text-image pairs. Additionally, collecting billions of text-image pairs for a specific domain can be time-consuming and costly. Thus, ensuring high text-image correspondence without relying on web-scale text-image datasets remains a challenging task. In this paper, we present a novel approach for enhancing text-image correspondence by leveraging available semantic layouts. Specifically, we propose a Gaussian-categorical diffusion process that simultaneously generates both images and corresponding layout pairs. Our experiments reveal that we can guide text-to-image generation models to be aware of the semantics of different image regions, by training the model to generate semantic labels for each pixel. We demonstrate that our approach achieves higher text-image correspondence compared to existing text-to-image generation approaches in the Multi-Modal CelebA-HQ and the Cityscapes dataset, where text-image pairs are scarce. Codes are available in this https://pmh9960.github.io/research/GCDP
翻訳日:2023-08-17 14:41:53 公開日:2023-08-16
# 災害状況におけるサーカズム検出

Sarcasm Detection in a Disaster Context ( http://arxiv.org/abs/2308.08156v1 )

ライセンス: Link先を確認
Tiberiu Sosea, Junyi Jessy Li, Cornelia Caragea(参考訳) 自然災害の間、人々はtwitterのようなソーシャルメディアプラットフォームを使って助けを求め、災害状況に関する情報を提供するか、あるいは展開する出来事や公共の方針やガイドラインに対する反感を表明する。 この侮辱は、皮肉や皮肉として表現される場合もある。 この形式の音声を災害中心の文脈で理解することは、災害関連ツイートの自然言語理解を改善するために不可欠である。 本稿では,意図したサルカズムに注釈を付けた15,000ツイートのデータセットであるHurricaneSARCを紹介し,事前訓練された言語モデルを用いたサルカズム検出の包括的検討を行う。 私たちの最高のモデルは、データセットで最大0.70F1を得ることができます。 また, 中間タスク転送学習の活用により, ハリケーンsarcの性能が向上することを示す。 データとコードはhttps://github.com/tsosea2/hurricanesarcでリリースします。

During natural disasters, people often use social media platforms such as Twitter to ask for help, to provide information about the disaster situation, or to express contempt about the unfolding event or public policies and guidelines. This contempt is in some cases expressed as sarcasm or irony. Understanding this form of speech in a disaster-centric context is essential to improving natural language understanding of disaster-related tweets. In this paper, we introduce HurricaneSARC, a dataset of 15,000 tweets annotated for intended sarcasm, and provide a comprehensive investigation of sarcasm detection using pre-trained language models. Our best model is able to obtain as much as 0.70 F1 on our dataset. We also demonstrate that the performance on HurricaneSARC can be improved by leveraging intermediate task transfer learning. We release our data and code at https://github.com/tsosea2/HurricaneSarc.
翻訳日:2023-08-17 14:41:28 公開日:2023-08-16
# 視覚に基づく駐車スロットの自動検出と作業分類

Automatic Vision-Based Parking Slot Detection and Occupancy Classification ( http://arxiv.org/abs/2308.08192v1 )

ライセンス: Link先を確認
Ratko Grbi\'c, Brando Koch(参考訳) パーキング誘導情報(PGI)システムは、最も近い駐車場と空き駐車場の数に関する情報をドライバーに提供するために使用される。 近年、ビジョンベースのソリューションは、各駐車スロットに装着されたハードウェアセンサーに基づく標準pgiシステムのコスト対効果の高い代替品として見え始めた。 視覚ベースのシステムは、駐車場を記録しているカメラが撮影した画像に基づいて、駐車場の占有状況に関する情報を提供する。 しかし,このようなシステムの開発は,様々な視点,気象条件,物体の閉塞などにより困難である。 もっとも注目すべきは、カメラの角度の変化や交換、メンテナンスに敏感な入力画像内の駐車スロットの配置を手動でラベリングする必要があることだ。 本稿では,入力画像のみに基づいて自動駐車スロット検出・職業分類(APSD-OC)を行うアルゴリズムを提案する。 自動駐車スロット検出は、鳥の視線にクラスタリングを適用して駐車スロットを検出する一連の駐車場画像における車両検出に基づいて行われる。 入力画像に駐車スロットの位置が決定されると、特定訓練されたResNet34深部分類器を用いて、検出された各駐車スロットを占有または空きと分類する。 提案手法は、よく知られた公開データセット(PKLotとCNRPark+EXT)で広範に評価され、駐車スペースの検出と、違法駐車や通過車両の存在に対する堅牢性を示す。 学習型分類器は駐車スロット占有率の分類において高い精度を達成する。

Parking guidance information (PGI) systems are used to provide information to drivers about the nearest parking lots and the number of vacant parking slots. Recently, vision-based solutions started to appear as a cost-effective alternative to standard PGI systems based on hardware sensors mounted on each parking slot. Vision-based systems provide information about parking occupancy based on images taken by a camera that is recording a parking lot. However, such systems are challenging to develop due to various possible viewpoints, weather conditions, and object occlusions. Most notably, they require manual labeling of parking slot locations in the input image which is sensitive to camera angle change, replacement, or maintenance. In this paper, the algorithm that performs Automatic Parking Slot Detection and Occupancy Classification (APSD-OC) solely on input images is proposed. Automatic parking slot detection is based on vehicle detections in a series of parking lot images upon which clustering is applied in bird's eye view to detect parking slots. Once the parking slots positions are determined in the input image, each detected parking slot is classified as occupied or vacant using a specifically trained ResNet34 deep classifier. The proposed approach is extensively evaluated on well-known publicly available datasets (PKLot and CNRPark+EXT), showing high efficiency in parking slot detection and robustness to the presence of illegal parking or passing vehicles. Trained classifier achieves high accuracy in parking slot occupancy classification.
翻訳日:2023-08-17 14:35:45 公開日:2023-08-16
# 自動確率計画による屋内空間でのcovid-19拡散のモデル化

Modelling the Spread of COVID-19 in Indoor Spaces using Automated Probabilistic Planning ( http://arxiv.org/abs/2308.08190v1 )

ライセンス: Link先を確認
Mohamed Harmanani(参考訳) 新型コロナウイルス(covid-19)のパンデミックは3年近く続いており、7億5000万人以上が感染し、執筆時点で全世界で600万人以上が死亡した。 パンデミックの間、医療専門家、政府当局、国際機関によって病気の拡散を制御するいくつかの戦略が議論されてきた。 疾患の潜在的な影響を予測し、異なる緩和戦略の有効性をシミュレートするためには、堅牢な疾患拡散モデルが必要である。 本研究では,室内空間におけるcovid-19の拡散をモデル化するために,確率的計画と動的グラフ解析に基づく新しいアプローチを検討する。 我々は,マスクやワクチンなどの非薬剤的介入(NPI)による感染拡大を抑制する手段をプランナーに与え,これらの設定において,群集と容量制限がCOVID-19の拡散に与える影響を比較した。 確率的計画法は,共有空間で発生する可能性のある感染量の予測に有効であり,自動プランナーは,疾患の拡散を抑えるために有能な介入を設計する可能性があることを実証する。 私たちのコードは完全なオープンソースで、https://github.com/mharmanani/prob-planning-covid19 で利用可能です。

The coronavirus disease 2019 (COVID-19) pandemic has been ongoing for around 3 years, and has infected over 750 million people and caused over 6 million deaths worldwide at the time of writing. Throughout the pandemic, several strategies for controlling the spread of the disease have been debated by healthcare professionals, government authorities, and international bodies. To anticipate the potential impact of the disease, and to simulate the effectiveness of different mitigation strategies, a robust model of disease spread is needed. In this work, we explore a novel approach based on probabilistic planning and dynamic graph analysis to model the spread of COVID-19 in indoor spaces. We endow the planner with means to control the spread of the disease through non-pharmaceutical interventions (NPIs) such as mandating masks and vaccines, and we compare the impact of crowds and capacity limits on the spread of COVID-19 in these settings. We demonstrate that the use of probabilistic planning is effective in predicting the amount of infections that are likely to occur in shared spaces, and that automated planners have the potential to design competent interventions to limit the spread of the disease. Our code is fully open-source and is available at: https://github.com/mharmanani/prob-planning-covid19 .
翻訳日:2023-08-17 14:35:22 公開日:2023-08-16
# アルゴリズムにおける内因性マクロ力学

Endogenous Macrodynamics in Algorithmic Recourse ( http://arxiv.org/abs/2308.08187v1 )

ライセンス: Link先を確認
Patrick Altmeyer, Giovan Angela, Aleksander Buszydlik, Karol Dobiczek, Arie van Deursen, Cynthia C. S. Liem(参考訳) 既存のCE(Counterfactual Explanations)とAR(Progentic Recourse)の研究は、静的環境における個々の個人に焦点を当てている。 このような反事実がデータやモデルドリフトのようなダイナミクスを扱う能力は、ほとんど未解決の研究課題である。 また、ある個人による会話の実践が他の個人にどのように影響するかという、関連する問題に関する驚くべき研究はほとんど行われていない。 この作業を通じて、私たちはそのギャップを埋めることを目指しています。 まず,既存の方法論の多くは一般化されたフレームワークによって総称的に記述できることを示す。 そして、既存のフレームワークはリコースの隠れた外部コストを考慮せず、グループレベルでリコースの内在的なダイナミクスを研究する場合にのみ自己を明かす、と主張する。 様々な最先端の反ファクト生成装置とベンチマークデータセットを含むシミュレーション実験により、多数の反ファクト生成を行い、結果のドメインおよびモデルシフトを研究する。 帰納的シフトは,いくつかの状況においてアルゴリズム・リコースの適用性を阻害するおそれがある。 幸いにも、これらの懸念を軽減するためのさまざまな戦略を見つけています。 リコースダイナミクスを研究するためのシミュレーションフレームワークは高速でオープンソースです。

Existing work on Counterfactual Explanations (CE) and Algorithmic Recourse (AR) has largely focused on single individuals in a static environment: given some estimated model, the goal is to find valid counterfactuals for an individual instance that fulfill various desiderata. The ability of such counterfactuals to handle dynamics like data and model drift remains a largely unexplored research challenge. There has also been surprisingly little work on the related question of how the actual implementation of recourse by one individual may affect other individuals. Through this work, we aim to close that gap. We first show that many of the existing methodologies can be collectively described by a generalized framework. We then argue that the existing framework does not account for a hidden external cost of recourse, that only reveals itself when studying the endogenous dynamics of recourse at the group level. Through simulation experiments involving various state-of the-art counterfactual generators and several benchmark datasets, we generate large numbers of counterfactuals and study the resulting domain and model shifts. We find that the induced shifts are substantial enough to likely impede the applicability of Algorithmic Recourse in some situations. Fortunately, we find various strategies to mitigate these concerns. Our simulation framework for studying recourse dynamics is fast and opensourced.
翻訳日:2023-08-17 14:35:02 公開日:2023-08-16
# テンソルネットワーク法を用いた量子誤り訂正符号の漏洩誤差の効率的なシミュレーション

Efficient Simulation of Leakage Errors in Quantum Error Correcting Codes Using Tensor Network Methods ( http://arxiv.org/abs/2308.08186v1 )

ライセンス: Link先を確認
Hidetaka Manabe, Yasunari Suzuki, Andrew S. Darmawan(参考訳) 量子ビットが量子ビット部分空間の外側のレベルに励起される漏洩エラーは、堅牢な量子コンピュータの開発において重要な障害である。 本稿では,テンソルネットワーク手法,特にマトリックス製品状態(MPS)を用いて量子誤り訂正符号(QECC)の漏洩誤りを研究するための計算効率のよいシミュレーション手法を提案する。 提案手法は, 熱雑音やコヒーレント誤差を含む様々な漏れ過程のシミュレーションを, 論理的誤差率の推定における誤差につながる近似(Pauli twirling近似など)なしで行うことができる。 本手法を2つのQECCに適用する: 1次元 (1D) 反復符号と3-times d$ surface符号である。 エラー訂正プロセス中に発生するごく少量の絡み合いを利用することで、数百クオードまでの大規模システムを多くのコードサイクルで研究することができる。 我々は,超電導量子ビットに関連するリークの現実的なノイズモデルを検討し,コード性能と様々なリーク除去戦略を評価する。 特にコード距離が大きい場合, 適切な漏洩除去が重要であることが示唆された。

Leakage errors, in which a qubit is excited to a level outside the qubit subspace, represent a significant obstacle in the development of robust quantum computers. We present a computationally efficient simulation methodology for studying leakage errors in quantum error correcting codes (QECCs) using tensor network methods, specifically Matrix Product States (MPS). Our approach enables the simulation of various leakage processes, including thermal noise and coherent errors, without approximations (such as the Pauli twirling approximation) that can lead to errors in the estimation of the logical error rate. We apply our method to two QECCs: the one-dimensional (1D) repetition code and a thin $3\times d$ surface code. By leveraging the small amount of entanglement generated during the error correction process, we are able to study large systems, up to a few hundred qudits, over many code cycles. We consider a realistic noise model of leakage relevant to superconducting qubits to evaluate code performance and a variety of leakage removal strategies. Our numerical results suggest that appropriate leakage removal is crucial, especially when the code distance is large.
翻訳日:2023-08-17 14:34:41 公開日:2023-08-16
# ネットワーク安定性解析による教師なし領域適応検出

Unsupervised Domain Adaptive Detection with Network Stability Analysis ( http://arxiv.org/abs/2308.08182v1 )

ライセンス: Link先を確認
Wenzhang Zhou, Heng Fan, Tiejian Luo, Libo Zhang(参考訳) 領域適応検出は、ラベル付きソースドメインから学習した検出器の一般性を改善することを目的としている。 本研究は,ロバストなシステムが外的・内部的にも一貫性を保つ必要があるという制御理論から,安定性の概念から着想を得て,安定解析により教師なし領域適応検出を実現する新しい枠組みを提案する。 具体的には、異なるドメインのイメージと領域間の不一致を外乱として扱い、ドメイン適応のための様々な外乱を考慮した、新しい単純かつ効果的なネットワーク安定性分析(nsa)フレームワークを導入する。 特に,重度および軽度画像レベルの乱れとインスタンスレベルの乱れを含む3種類の摂動について検討する。 各タイプについて、NSAは教師学生モデルを用いて、生画像および摂動画像からの出力に関する外部整合性分析および/または内部整合性分析を行う。 NSAをより高速なR-CNNに統合することで、直ちに最先端の成果が得られます。 特に、都市景観からfoggycityscapesへの52.7%の新記録を設定し、ドメイン適応検出のためのnsaの可能性を示した。 我々のNSAは一般的な目的のために設計されており、実験で示されているように、採用されているもの以外の一段階検出モデル(例えばFCOS)に適用できる。 https://github.com/tiankongzhang/nsa。

Domain adaptive detection aims to improve the generality of a detector, learned from the labeled source domain, on the unlabeled target domain. In this work, drawing inspiration from the concept of stability from the control theory that a robust system requires to remain consistent both externally and internally regardless of disturbances, we propose a novel framework that achieves unsupervised domain adaptive detection through stability analysis. In specific, we treat discrepancies between images and regions from different domains as disturbances, and introduce a novel simple but effective Network Stability Analysis (NSA) framework that considers various disturbances for domain adaptation. Particularly, we explore three types of perturbations including heavy and light image-level disturbances and instancelevel disturbance. For each type, NSA performs external consistency analysis on the outputs from raw and perturbed images and/or internal consistency analysis on their features, using teacher-student models. By integrating NSA into Faster R-CNN, we immediately achieve state-of-the-art results. In particular, we set a new record of 52.7% mAP on Cityscapes-to-FoggyCityscapes, showing the potential of NSA for domain adaptive detection. It is worth noticing, our NSA is designed for general purpose, and thus applicable to one-stage detection model (e.g., FCOS) besides the adopted one, as shown by experiments. https://github.com/tiankongzhang/NSA.
翻訳日:2023-08-17 14:34:20 公開日:2023-08-16
# 中国テレコム「VoxCeleb Speaker Recognition Challenge 2023」

ChinaTelecom System Description to VoxCeleb Speaker Recognition Challenge 2023 ( http://arxiv.org/abs/2308.08181v1 )

ライセンス: Link先を確認
Mengjie Du and Xiang Fang and Jie Li(参考訳) この技術報告では、VoxCeleb2023 Speaker Recognition Challenge (VoxSRC 2023)のトラック1のチャイナテレコムシステムについて述べる。 私たちのシステムは、voxceleb2でのみトレーニングされたresnetのいくつかの変種で構成されています。 スコアキャリブレーションは各変種と融合システムにも適用された。 最終的に、minDCFは0.1066、EERは1.980%に達した。

This technical report describes ChinaTelecom system for Track 1 (closed) of the VoxCeleb2023 Speaker Recognition Challenge (VoxSRC 2023). Our system consists of several ResNet variants trained only on VoxCeleb2, which were fused for better performance later. Score calibration was also applied for each variant and the fused system. The final submission achieved minDCF of 0.1066 and EER of 1.980%.
翻訳日:2023-08-17 14:33:57 公開日:2023-08-16
# 新しいタイプの統一カントールポテンシャルからの量子トンネル

Quantum tunneling from a new type of Unified Cantor Potential ( http://arxiv.org/abs/2308.08180v1 )

ライセンス: Link先を確認
Mohammad Umar, Vibhav Narayan Singh, Mohammad Hasan, Bhabani Prasad Mandal(参考訳) 一般cantor (フラクタルシステム) とgeneral smith-volterra-cantor (非フラクタルシステム) を結合した新しいポテンシャル系を提案する。 我々はこのシステムをUnified Cantor Potential (UCP)システムと呼ぶ。 総スパン$l$のucpシステムは、スケーリングパラメータ$\rho >1$、ステージ$g$、2つの実数$\alpha$と$\beta$によって特徴づけられる。 $\alpha=1$, $\beta=0$ の場合、UCP系は一般カントールポテンシャルを表すが、$\alpha=0$, $\beta=1$ の場合、この系は一般スミス・ボルテラ・カントールポテンシャルを表す。 任意の$\alpha$と$\beta$を$q$-Pochhammerシンボルを用いてUPPシステムから送信確率を近似式で表現する。 このシステムでは散乱のいくつかの新しい特徴が報告されている。 伝送確率$T_{G}(k)$は、このポテンシャルに対して解析的に導出される$k$のスケーリング挙動を示す。 提案方式は,フラクタル系および非フラクタル系を包含する新たなポテンシャル系のさらなる一般化の可能性も開けている。 このシステムからトンネルの解析的な定式化は、システムがフラクタルから非フラクタル領域に遷移する際の透過特性を破壊しきい値で調べるのに役立つ。

We introduce a new type of potential system that combines the families of general Cantor (fractal system) and general Smith-Volterra-Cantor (non-fractal system) potentials. We call this system as Unified Cantor Potential (UCP) system. The UCP system of total span $L$ is characterized by scaling parameter $\rho >1$, stage $G$ and two real numbers $\alpha$ and $\beta$. For $\alpha=1$, $\beta=0$, the UCP system represents general Cantor potential while for $\alpha=0$, $\beta=1$, this system represent general Smith-Volterra-Cantor (SVC) potential. We provide close-form expression of transmission probability from UCP system for arbitrary $\alpha$ and $\beta$ by using $q$-Pochhammer symbol. Several new features of scattering are reported for this system. The transmission probability $T_{G}(k)$ shows a scaling behavior with $k$ which is derived analytically for this potential. The proposed system also opens up the possibility for further generalization of new potential systems that encompass a large class of fractal and non-fractal systems. The analytical formulation of tunneling from this system would help to study the transmission feature at breaking threshold when a system transit from fractal to non-fractal domain.
翻訳日:2023-08-17 14:33:50 公開日:2023-08-16
# rspell: ドメイン適応中国語綴りチェックのための検索型フレームワーク

RSpell: Retrieval-augmented Framework for Domain Adaptive Chinese Spelling Check ( http://arxiv.org/abs/2308.08176v1 )

ライセンス: Link先を確認
Siqi Song, Qi Lv, Lei Geng, Ziqiang Cao, and Guohong Fu(参考訳) 中国語のスペルチェック(英語: Chinese Spelling Check, CSC)は、中国語のテキストにおけるスペルエラーの検出と修正を指す。 現実的なアプリケーションシナリオでは、CSCモデルに異なるドメイン間でエラーを修正する能力を持たせることが重要である。 本稿では,対応するドメイン語を検索し,それをCSCモデルに組み込むRSpellという検索拡張スペルチェックフレームワークを提案する。 具体的には,入力と組み合わせてCSCモデルに入力される用語を検索するために,ピンファジィマッチングを用いる。 次に,外部知識がモデルに与える影響を動的に調整する適応的プロセス制御機構を提案する。 さらに,rspellフレームワークの推論能力を高めるための反復戦略を開発する。 CSCデータセットを3つの領域(法、医学、公式文書作成)で実験した。 その結果、RSpellはゼロショットと微調整の両方のシナリオで最先端の性能を実現し、検索強化CSCフレームワークの有効性を実証した。 私たちのコードはhttps://github.com/477777/rspellで利用可能です。

Chinese Spelling Check (CSC) refers to the detection and correction of spelling errors in Chinese texts. In practical application scenarios, it is important to make CSC models have the ability to correct errors across different domains. In this paper, we propose a retrieval-augmented spelling check framework called RSpell, which searches corresponding domain terms and incorporates them into CSC models. Specifically, we employ pinyin fuzzy matching to search for terms, which are combined with the input and fed into the CSC model. Then, we introduce an adaptive process control mechanism to dynamically adjust the impact of external knowledge on the model. Additionally, we develop an iterative strategy for the RSpell framework to enhance reasoning capabilities. We conducted experiments on CSC datasets in three domains: law, medicine, and official document writing. The results demonstrate that RSpell achieves state-of-the-art performance in both zero-shot and fine-tuning scenarios, demonstrating the effectiveness of the retrieval-augmented CSC framework. Our code is available at https://github.com/47777777/Rspell.
翻訳日:2023-08-17 14:33:25 公開日:2023-08-16
# アーキテクチャ,コンパイラ,パーティションメソッドによるジェネリックグラフニューラルネットワークの高速化

Accelerating Generic Graph Neural Networks via Architecture, Compiler, Partition Method Co-Design ( http://arxiv.org/abs/2308.08174v1 )

ライセンス: Link先を確認
Shuwen Lu, Zhihui Zhang, Cong Guo, Jingwen Leng, Yangjie Zhou, Minyi Guo(参考訳) グラフニューラルネットワーク(GNN)は、さまざまなグラフ学習領域で大幅な精度向上を示し、かなりの研究関心を呼んだ。 これらの精度向上を実用化するためには、GNNモデルの高性能かつ効率的なハードウェアアクセラレーションを開発することが不可欠である。 しかし、GNNアクセラレータの設計には、GNNモデルの高帯域要求とGNNモデルの多様性の2つの根本的な課題がある。 以前の作業では、高帯域幅を実現するために高価なメモリインターフェースを使用することで、最初の課題に対処してきた。 第2の課題として、既存の作業は特定のGNNモデルをサポートするか、ハードウェア利用の貧弱なジェネリックデザインを持っている。 この作業では、両方の課題を同時に取り組む。 まず、GNNの高帯域幅要求を内部的に低減するために、新しいタイプの分割レベル演算子融合を特定する。 次に、異なるハードウェアリソースを利用するグラフ分割の並列処理をスケジュールするために、パーティションレベルのマルチスレッドを導入する。 マルチスレッドで必要となる余分なオンチップメモリを削減するため,より高密度なグラフパーティショニングを生成するための微細なグラフパーティショニングを提案する。 重要な点として、これらの3つの手法は対象のGNNモデルを仮定せず、モデル多様体の課題に対処する。 コンパイラ,グラフパーティショナ,ハードウェアアクセラレータで構成されるSwitchBladeというフレームワークで,これらの手法を実装した。 我々の評価では、SwitchBladeはNVIDIA V100 GPUと比較して平均で1.85\times$と19.03\times$を達成している。 さらに、SwitchBladeは最先端の専門アクセラレータに匹敵するパフォーマンスを提供する。

Graph neural networks (GNNs) have shown significant accuracy improvements in a variety of graph learning domains, sparking considerable research interest. To translate these accuracy improvements into practical applications, it is essential to develop high-performance and efficient hardware acceleration for GNN models. However, designing GNN accelerators faces two fundamental challenges: the high bandwidth requirement of GNN models and the diversity of GNN models. Previous works have addressed the first challenge by using more expensive memory interfaces to achieve higher bandwidth. For the second challenge, existing works either support specific GNN models or have generic designs with poor hardware utilization. In this work, we tackle both challenges simultaneously. First, we identify a new type of partition-level operator fusion, which we utilize to internally reduce the high bandwidth requirement of GNNs. Next, we introduce partition-level multi-threading to schedule the concurrent processing of graph partitions, utilizing different hardware resources. To further reduce the extra on-chip memory required by multi-threading, we propose fine-grained graph partitioning to generate denser graph partitions. Importantly, these three methods make no assumptions about the targeted GNN models, addressing the challenge of model variety. We implement these methods in a framework called SwitchBlade, consisting of a compiler, a graph partitioner, and a hardware accelerator. Our evaluation demonstrates that SwitchBlade achieves an average speedup of $1.85\times$ and energy savings of $19.03\times$ compared to the NVIDIA V100 GPU. Additionally, SwitchBlade delivers performance comparable to state-of-the-art specialized accelerators.
翻訳日:2023-08-17 14:33:09 公開日:2023-08-16
# 逆ロバスト性レンズによるグラフニューラルネットワークの表現性

Expressivity of Graph Neural Networks Through the Lens of Adversarial Robustness ( http://arxiv.org/abs/2308.08173v1 )

ライセンス: Link先を確認
Francesco Campi, Lukas Gosch, Tom Wollschl\"ager, Yan Scholten, Stephan G\"unnemann(参考訳) 従来のMPNN(Message Passing Neural Networks)よりも明らかに強力なグラフニューラルネットワーク(GNN)について,最初の対角的堅牢性研究を行う。 特に,その理論上可能かつ実証的に達成された表現力の間の大きなギャップを明らかにするためのツールとして,敵対的ロバスト性を用いる。 そこで我々は,表現力の確立された尺度である特定のサブグラフパターンをカウントするGNNの能力に着目し,対角的ロバスト性の概念をこの課題に拡張する。 そこで我々は,グラフの数値化に対する効率的な逆数攻撃を開発し,グラフ構造に対する小さな摂動に対しても,より強力なGNNが一般化できないことを示す。 これに基づいて、そのようなアーキテクチャは分布外グラフのサブ構造をカウントできないことを示す。

We perform the first adversarial robustness study into Graph Neural Networks (GNNs) that are provably more powerful than traditional Message Passing Neural Networks (MPNNs). In particular, we use adversarial robustness as a tool to uncover a significant gap between their theoretically possible and empirically achieved expressive power. To do so, we focus on the ability of GNNs to count specific subgraph patterns, which is an established measure of expressivity, and extend the concept of adversarial robustness to this task. Based on this, we develop efficient adversarial attacks for subgraph counting and show that more powerful GNNs fail to generalize even to small perturbations to the graph's structure. Expanding on this, we show that such architectures also fail to count substructures on out-of-distribution graphs.
翻訳日:2023-08-17 14:32:40 公開日:2023-08-16
# medoe:ロングテール意味セグメンテーションのためのマルチエキスパートデコーダと出力アンサンブルフレームワーク

MEDOE: A Multi-Expert Decoder and Output Ensemble Framework for Long-tailed Semantic Segmentation ( http://arxiv.org/abs/2308.08213v1 )

ライセンス: Link先を確認
Junao Shen, Long Chen, Kun Kuang, Fei Wu, Tian Feng, Wei Zhang(参考訳) 従来の手法では無視されることが多いセマンティックカテゴリの長期分布は、セマンティックセマンティックセマンティクスにおける不満足な性能を引き起こす。 本稿では,長い尾のセマンティックセグメンテーションの問題に焦点を当てる。 いくつかの長い尾の認識法(例:再サンプリング/再重み付け)は他の問題でも提案されているが、重要な文脈情報を妥協することは可能であり、したがって長い尾のセマンティックセマンティックセグメンテーションの問題には適応できない。 そこで本研究では,コンテキスト情報アンサンブル・グループ化による長期的セマンティックセグメンテーションのための新しいフレームワークMEDOEを提案する。 提案手法は,マルチエキスパートデコーダ (med) とマルチエキスパート出力アンサンブル (moe) から構成される。 具体的には、MEDにはいくつかの「専門家」が含まれている。 画素周波数分布に基づいて、各専門家は、特定のカテゴリに従ってマスクされたデータセットを入力として取り、分類のために文脈情報を自己適応的に生成する。 モデルに依存しないフレームワークとして、私たちのMEDOEは、様々な人気のあるディープニューラルネットワーク(例えば、DeepLabv3+、OCRNet、PSPNet)と柔軟かつ効率的に結合して、長い尾のセマンティックセグメンテーションのパフォーマンスを向上させることができる。 実験の結果,提案手法はCityscapesとADE20Kの両方のデータセットにおいて,mIoUが1.78%,mAccが5.89%向上していることがわかった。

Long-tailed distribution of semantic categories, which has been often ignored in conventional methods, causes unsatisfactory performance in semantic segmentation on tail categories. In this paper, we focus on the problem of long-tailed semantic segmentation. Although some long-tailed recognition methods (e.g., re-sampling/re-weighting) have been proposed in other problems, they can probably compromise crucial contextual information and are thus hardly adaptable to the problem of long-tailed semantic segmentation. To address this issue, we propose MEDOE, a novel framework for long-tailed semantic segmentation via contextual information ensemble-and-grouping. The proposed two-sage framework comprises a multi-expert decoder (MED) and a multi-expert output ensemble (MOE). Specifically, the MED includes several "experts". Based on the pixel frequency distribution, each expert takes the dataset masked according to the specific categories as input and generates contextual information self-adaptively for classification; The MOE adopts learnable decision weights for the ensemble of the experts' outputs. As a model-agnostic framework, our MEDOE can be flexibly and efficiently coupled with various popular deep neural networks (e.g., DeepLabv3+, OCRNet, and PSPNet) to improve their performance in long-tailed semantic segmentation. Experimental results show that the proposed framework outperforms the current methods on both Cityscapes and ADE20K datasets by up to 1.78% in mIoU and 5.89% in mAcc.
翻訳日:2023-08-17 14:25:45 公開日:2023-08-16
# 拡散MRI信号の構造的コヒーレント連続表現のためのニューラル球高調波

Neural Spherical Harmonics for structurally coherent continuous representation of diffusion MRI signal ( http://arxiv.org/abs/2308.08210v1 )

ライセンス: Link先を確認
Tom Hendriks, Anna Villanova, Maxime Chamberland(参考訳) 本研究では,拡散磁気共鳴画像(dMRI)データセットをモデル化する新しい手法を提案する。 現在の方法は個々のボクセルにおけるdmri信号をモデル化し、ボクセル間のコヒーレンスを無視する。 我々は,ニューラルネットワークを用いて球面調和系(NeSH)をパラメータ化し,角領域と空間領域の両方で連続するHuman Connectome Projectデータセットから単一対象のdMRI信号を表現する。 この方法で再構成されたdmri信号は、より構造的にコヒーレントなデータの表現を示す。 傾斜画像中のノイズを除去し、繊維配向分布関数は繊維路に沿った方向の滑らかな変化を示す。 本稿では, 平均拡散率, 分数異方性, および全繊維密度を計算するために, 再構成をどのように利用できるかを紹介する。 これらの結果は単一のモデルアーキテクチャで実現でき、1つのハイパーパラメータのみをチューニングできる。 本稿では, 角領域と空間領域の両方におけるアップサンプリングが, 既存手法と同等以上の再現性をもたらすことを示す。

We present a novel way to model diffusion magnetic resonance imaging (dMRI) datasets, that benefits from the structural coherence of the human brain while only using data from a single subject. Current methods model the dMRI signal in individual voxels, disregarding the intervoxel coherence that is present. We use a neural network to parameterize a spherical harmonics series (NeSH) to represent the dMRI signal of a single subject from the Human Connectome Project dataset, continuous in both the angular and spatial domain. The reconstructed dMRI signal using this method shows a more structurally coherent representation of the data. Noise in gradient images is removed and the fiber orientation distribution functions show a smooth change in direction along a fiber tract. We showcase how the reconstruction can be used to calculate mean diffusivity, fractional anisotropy, and total apparent fiber density. These results can be achieved with a single model architecture, tuning only one hyperparameter. In this paper we also demonstrate how upsampling in both the angular and spatial domain yields reconstructions that are on par or better than existing methods.
翻訳日:2023-08-17 14:25:12 公開日:2023-08-16
# オーバーコンプリートチェック行列を用いた量子LDPC符号の第四次ニューラルリーフ伝播デコード

Quaternary Neural Belief Propagation Decoding of Quantum LDPC Codes with Overcomplete Check Matrices ( http://arxiv.org/abs/2308.08208v1 )

ライセンス: Link先を確認
Sisi Miao, Alexander Schnerring, Haizheng Li, and Laurent Schmalen(参考訳) 量子低密度パリティチェック(QLDPC)符号は、量子コンピュータにおける誤り訂正の候補として有望である。 量子コンピュータでQLDPCコードを実装する際の大きな課題の1つは、普遍デコーダの欠如である。 本研究では、まず、オーバーコンプリートチェック行列で動作する信念伝搬(BP)デコーダを用いてQLDPC符号をデコードすることを提案する。 次に、qlpdc符号のサブオプティマイズbp復号化のために研究されていたneural bp(nbp)デコーダを第4次bpデコーダに拡張する。 数値シミュレーションの結果、これらの手法と組み合わせにより、複数個の短長から中短長のQLDPC符号に対して、低レイテンシで高性能なデコーダが得られることが示された。

Quantum low-density parity-check (QLDPC) codes are promising candidates for error correction in quantum computers. One of the major challenges in implementing QLDPC codes in quantum computers is the lack of a universal decoder. In this work, we first propose to decode QLDPC codes with a belief propagation (BP) decoder operating on overcomplete check matrices. Then, we extend the neural BP (NBP) decoder, which was originally studied for suboptimal binary BP decoding of QLPDC codes, to quaternary BP decoders. Numerical simulation results demonstrate that both approaches as well as their combination yield a low-latency, high-performance decoder for several short to moderate length QLDPC codes.
翻訳日:2023-08-17 14:24:53 公開日:2023-08-16
# 実験物理のための説明可能な多視点深層ネットワーク手法

Explainable Multi-View Deep Networks Methodology for Experimental Physics ( http://arxiv.org/abs/2308.08206v1 )

ライセンス: Link先を確認
Nadav Schneider, Muriel Tzdaka, Galit Sturm, Guy Lazovski, Galit Bar, Gilad Oren, Raz Gvishi, Gal Oren(参考訳) 物理実験はX線スキャンや顕微鏡画像などの複数の画像表現を含むことが多い。 深層学習モデルはこれらの実験において教師あり分析に広く利用されている。 異なる画像表現を組み合わせることは、適切に分析し決定するためにしばしば必要となる。 その結果、マルチビューデータが出現した - 各サンプルが異なる角度、ソース、モダリティのビューによって記述されるデータセット。 これらの問題は多視点学習の概念で解決される。 深層学習モデルの意思決定プロセスを理解することは信頼性と信頼性のある分析に不可欠である。 したがって、近年多くの説明可能性法が考案されている。 それにもかかわらず、マルチビューモデルには適切な説明ができないため、そのアーキテクチャのために説明が難しい。 本稿では、視覚領域の異なる多視点アーキテクチャを提案し、それぞれ別の問題に適合し、これらのモデルを説明する方法論を提案する。 提案手法の有効性を実証するため,高エネルギー密度物理(HEDP)実験の領域に着目し,複数の画像表現を用いて発泡試料の品質評価を行った。 本手法は,提案するマルチビューアーキテクチャを用いて発泡試料の品質を分類する。 実験の結果,78%から84%,aucが83%から93%の精度で正確なアーキテクチャ選択の改善を示し,性能と説明可能性のトレードオフを示す。 具体的には,本手法が個々の一視点モデルの説明を可能にし,各視点の意思決定プロセスに関する洞察を提供する。 この理解は、全体的なマルチビューモデルの解釈性を高める。 この作業のソースは、https://github.com/Scientific-Computing-Lab-NRCN/Multi-View-Explainabilityにある。

Physical experiments often involve multiple imaging representations, such as X-ray scans and microscopic images. Deep learning models have been widely used for supervised analysis in these experiments. Combining different image representations is frequently required to analyze and make a decision properly. Consequently, multi-view data has emerged - datasets where each sample is described by views from different angles, sources, or modalities. These problems are addressed with the concept of multi-view learning. Understanding the decision-making process of deep learning models is essential for reliable and credible analysis. Hence, many explainability methods have been devised recently. Nonetheless, there is a lack of proper explainability in multi-view models, which are challenging to explain due to their architectures. In this paper, we suggest different multi-view architectures for the vision domain, each suited to another problem, and we also present a methodology for explaining these models. To demonstrate the effectiveness of our methodology, we focus on the domain of High Energy Density Physics (HEDP) experiments, where multiple imaging representations are used to assess the quality of foam samples. We apply our methodology to classify the foam samples quality using the suggested multi-view architectures. Through experimental results, we showcase the improvement of accurate architecture choice on both accuracy - 78% to 84% and AUC - 83% to 93% and present a trade-off between performance and explainability. Specifically, we demonstrate that our approach enables the explanation of individual one-view models, providing insights into the decision-making process of each view. This understanding enhances the interpretability of the overall multi-view model. The sources of this work are available at: https://github.com/Scientific-Computing-Lab-NRCN/Multi-View-Explainability.
翻訳日:2023-08-17 14:24:39 公開日:2023-08-16
# MoCoSA: 構造化事前学習言語モデルによる知識グラフ補完のためのMomentum Contrast

MoCoSA: Momentum Contrast for Knowledge Graph Completion with Structure-Augmented Pre-trained Language Models ( http://arxiv.org/abs/2308.08204v1 )

ライセンス: Link先を確認
Jiabang He, Liu Jia, Lei Wang, Xiyao Li, Xing Xu(参考訳) 知識グラフ補完(kgc)は知識グラフ内の事実を推論し、欠落したリンクを自動的に推測することを目的としている。 既存の手法は主に構造ベースまたは記述ベースに分類される。 一方、構造に基づく手法は、実体埋め込みを用いた知識グラフにおける関係事実を効果的に表現する。 しかし、限られた構造情報のために意味的にリッチな現実世界の実体と格闘し、目に見えない実体に一般化することができない。 一方、記述に基づく手法は、事前学習された言語モデル(PLM)を利用してテキスト情報を理解する。 それらは目に見えない実体に対して強い強固さを示す。 しかし、大きな負のサンプリングでは困難であり、しばしば構造ベースの方法に遅れる。 そこで本研究では,plm が構造エンコーダによって構造情報を知覚できる構造適応型事前学習言語モデル (mocosa) を用いた知識グラフ補完のための運動量コントラストを提案する。 学習効率を向上させるため,モーメント・ハード・ネガティブとイントラリレーション・ネガティブ・サンプリングを提案した。 実験の結果,WN18RRでは2.5%,OpenBG500では21%の改善が得られた。

Knowledge Graph Completion (KGC) aims to conduct reasoning on the facts within knowledge graphs and automatically infer missing links. Existing methods can mainly be categorized into structure-based or description-based. On the one hand, structure-based methods effectively represent relational facts in knowledge graphs using entity embeddings. However, they struggle with semantically rich real-world entities due to limited structural information and fail to generalize to unseen entities. On the other hand, description-based methods leverage pre-trained language models (PLMs) to understand textual information. They exhibit strong robustness towards unseen entities. However, they have difficulty with larger negative sampling and often lag behind structure-based methods. To address these issues, in this paper, we propose Momentum Contrast for knowledge graph completion with Structure-Augmented pre-trained language models (MoCoSA), which allows the PLM to perceive the structural information by the adaptable structure encoder. To improve learning efficiency, we proposed momentum hard negative and intra-relation negative sampling. Experimental results demonstrate that our approach achieves state-of-the-art performance in terms of mean reciprocal rank (MRR), with improvements of 2.5% on WN18RR and 21% on OpenBG500.
翻訳日:2023-08-17 14:23:56 公開日:2023-08-16
# Epicure: シーケンスモデル予測をパターンに拡張する

Epicure: Distilling Sequence Model Predictions into Patterns ( http://arxiv.org/abs/2308.08203v1 )

ライセンス: Link先を確認
Miltiadis Allamanis, Earl T. Barr(参考訳) ほとんどの機械学習モデルは、具体的な出力よりも確率分布を予測し、高いエントロピーシーケンス分布よりも正確に名前を予測するのに苦労する。 ここでは,これらの予測に内在する抽象的かつ高精度なパターンを探索し,レアシーケンスを効果的にキャプチャする抽象的予測を行う。 本稿では,ビーム探索の出力などのシーケンスモデルの予測を単純なパターンに分解する手法であるepicureを提案する。 epicureはモデルの予測を、具体的モデル予測を仮定するより一般的なパターンの格子にマッピングする。 身体のソースコードが与えられた関数の記述的名前を予測し、関数が与えられた異常な名前を検出するタスクにおいて、Epicureは、単に高い確率モデル予測よりも、基底真実にマッチする正確な命名パターンを得られることを示す。 Epicureは10%の誤報率で、最高のモデル予測と比較して61%の地味な名前にマッチするパターンを予測し、高い精度を必要とするシナリオに適している。

Most machine learning models predict a probability distribution over concrete outputs and struggle to accurately predict names over high entropy sequence distributions. Here, we explore finding abstract, high-precision patterns intrinsic to these predictions in order to make abstract predictions that usefully capture rare sequences. In this short paper, we present Epicure, a method that distils the predictions of a sequence model, such as the output of beam search, into simple patterns. Epicure maps a model's predictions into a lattice that represents increasingly more general patterns that subsume the concrete model predictions. On the tasks of predicting a descriptive name of a function given the source code of its body and detecting anomalous names given a function, we show that Epicure yields accurate naming patterns that match the ground truth more often compared to just the highest probability model prediction. For a false alarm rate of 10%, Epicure predicts patterns that match 61% more ground-truth names compared to the best model prediction, making Epicure well-suited for scenarios that require high precision.
翻訳日:2023-08-17 14:23:16 公開日:2023-08-16
# OWL DLオントロジーを用いたオントロジー媒介計画に向けて(拡張版)

Towards Ontology-Mediated Planning with OWL DL Ontologies (Extended Version) ( http://arxiv.org/abs/2308.08200v1 )

ライセンス: Link先を確認
Tobias John and Patrick Koopmann(参考訳) 古典計画言語はクローズドドメインとクローズドワールドを仮定するが、DL推論の拡張には様々なアプローチがあり、通常のオープンワールド意味論の下で解釈される。 DLオントロジーを用いたプランニングの現在のアプローチは、DLを直接計画言語に統合しており、一階書き直しやデータログへの書き直しに基づく実践的なアプローチが開発されている。 ここでは,計画仕様とオントロジーを分離して,インターフェースを用いて相互にリンクする新しいアプローチを提案する。 これにより、計画の専門家は慣れ親しんだ形式で作業できるが、既存のオントロジーは、オントロジーの専門家によって容易に統合され拡張することができる。 これらのオントロジーを介する計画問題に対する計画手法は、比較的小さなドメインの場合に最適化され、OWL DLフラグメント全体をサポートする。 その考え方は、オントロジーによる計画問題を、既存の計画ツールで処理される古典的な計画問題に書き換えることである。 他のアプローチとは異なり、書き換えはデータに依存します。 このアプローチの最初の実験的評価は、このアプローチの可能性と限界を示しています。

While classical planning languages make the closed-domain and closed-world assumption, there have been various approaches to extend those with DL reasoning, which is then interpreted under the usual open-world semantics. Current approaches for planning with DL ontologies integrate the DL directly into the planning language, and practical approaches have been developed based on first-order rewritings or rewritings into datalog. We present here a new approach in which the planning specification and ontology are kept separate, and are linked together using an interface. This allows planning experts to work in a familiar formalism, while existing ontologies can be easily integrated and extended by ontology experts. Our approach for planning with those ontology-mediated planning problems is optimized for cases with comparatively small domains, and supports the whole OWL DL fragment. The idea is to rewrite the ontology-mediated planning problem into a classical planning problem to be processed by existing planning tools. Different to other approaches, our rewriting is data-dependent. A first experimental evaluation of our approach shows the potential and limitations of this approach.
翻訳日:2023-08-17 14:22:47 公開日:2023-08-16
# DeSCo: 汎用的でスケーラブルなディープグラフカウントを目指す

DeSCo: Towards Generalizable and Scalable Deep Subgraph Counting ( http://arxiv.org/abs/2308.08198v1 )

ライセンス: Link先を確認
Tianyu Fu, Chiyue Wei, Yu Wang, Rex Ying(参考訳) サブグラフカウント(Subgraph counting)は、あるクエリグラフの発生を大きなターゲットグラフでカウントする問題である。 大規模サブグラフカウントは、ソーシャルネットワーク分析のためのモチーフカウントや、トランザクションネットワークにおけるマネーロンダリング検出のためのループカウントなど、さまざまなドメインで有用である。 近年,スケーラブルなサブグラフカウントの指数関数的実行複雑性に対処するために,ニューラル手法を提案する。 しかし、既存のニューラルカウントアプローチは3つの側面で不足している。 第一に、同じクエリのカウントは、異なるターゲットグラフ上でゼロから数百万まで様々であり、ほとんどのグラフ回帰タスクよりもはるかに大きな課題を呈する。 第二に、現在のスケーラブルグラフニューラルネットワークは表現力に制限があり、カウント予測においてグラフを効率的に区別できない。 さらに、既存のニューラルアプローチでは、ターゲットグラフにおけるクエリの発生位置を予測できない。 ここでは,1回のトレーニング後に任意のグラフ上でクエリカウントと発生位置を正確に予測することを目的とした,スケーラブルなニューラルディープグラフカウントパイプラインであるDeSCoを設計する。 まず、DeSCoは新しい標準分割を使用し、大きなターゲットグラフを小さな近傍グラフに分割する。 この技術は、欠落やダブルカウントを保証しながら、カウントのバリエーションを大幅に減らす。 第二に、地区カウントは表現的部分グラフに基づく異種グラフニューラルネットワークを用いて、各地区で正確にカウントを行う。 最後に、ゴシップ伝播は、モチーフカウントの帰納バイアスを利用するために、学習可能なゲートで近隣のカウントを伝搬する。 DeSCoは、さまざまなドメインから8つの実世界のデータセットで評価される。 多項式ランタイムの複雑さを維持しつつ、カウント予測の平均二乗誤差を137倍改善することで、最先端のニューラルメソッドよりも優れています。

Subgraph counting is the problem of counting the occurrences of a given query graph in a large target graph. Large-scale subgraph counting is useful in various domains, such as motif counting for social network analysis and loop counting for money laundering detection on transaction networks. Recently, to address the exponential runtime complexity of scalable subgraph counting, neural methods are proposed. However, existing neural counting approaches fall short in three aspects. Firstly, the counts of the same query can vary from zero to millions on different target graphs, posing a much larger challenge than most graph regression tasks. Secondly, current scalable graph neural networks have limited expressive power and fail to efficiently distinguish graphs in count prediction. Furthermore, existing neural approaches cannot predict the occurrence position of queries in the target graph. Here we design DeSCo, a scalable neural deep subgraph counting pipeline, which aims to accurately predict the query count and occurrence position on any target graph after one-time training. Firstly, DeSCo uses a novel canonical partition and divides the large target graph into small neighborhood graphs. The technique greatly reduces the count variation while guaranteeing no missing or double-counting. Secondly, neighborhood counting uses an expressive subgraph-based heterogeneous graph neural network to accurately perform counting in each neighborhood. Finally, gossip propagation propagates neighborhood counts with learnable gates to harness the inductive biases of motif counts. DeSCo is evaluated on eight real-world datasets from various domains. It outperforms state-of-the-art neural methods with 137x improvement in the mean squared error of count prediction, while maintaining the polynomial runtime complexity.
翻訳日:2023-08-17 14:22:29 公開日:2023-08-16
# 低光画像強調のための自己参照深部適応曲線推定

Self-Reference Deep Adaptive Curve Estimation for Low-Light Image Enhancement ( http://arxiv.org/abs/2308.08197v1 )

ライセンス: Link先を確認
Jianyu Wen, Chenhao Wu, Tong Zhang, Yixuan Yu, Piotr Swierczynski(参考訳) 本稿では,自己参照深度適応曲線推定(Self-DACE)と呼ばれる2段階の低照度画像強調手法を提案する。 第1段階では,直感的,軽量,高速,教師なしの輝度強調アルゴリズムを提案する。 このアルゴリズムは、画像の輝度を局所的に増やすために使用できる新しい低光度強調曲線に基づいている。 また,自然画像の色,構造,忠実度を保存するために,物理モデルを単純化した新たな損失関数を提案する。 バニラCNNを用いて各画素を局所的な画像構造を保ちながら、AAC(Adaptive Adjustment Curves)の深部をマッピングする。 第2に,暗黒の潜在雑音を除去すべく,対応する消音方式を導入する。 暗黒環境でのノイズを概ねモデル化し,第1段階以降のノイズを推定および除去するためにDenoising-Netをデプロイする。 探索的定性的および定量的分析により,本手法は複数の実世界のデータセット上で,既存の最先端アルゴリズムよりも優れていることが示された。

In this paper, we propose a 2-stage low-light image enhancement method called Self-Reference Deep Adaptive Curve Estimation (Self-DACE). In the first stage, we present an intuitive, lightweight, fast, and unsupervised luminance enhancement algorithm. The algorithm is based on a novel low-light enhancement curve that can be used to locally boost image brightness. We also propose a new loss function with a simplified physical model designed to preserve natural images' color, structure, and fidelity. We use a vanilla CNN to map each pixel through deep Adaptive Adjustment Curves (AAC) while preserving the local image structure. Secondly, we introduce the corresponding denoising scheme to remove the latent noise in the darkness. We approximately model the noise in the dark and deploy a Denoising-Net to estimate and remove the noise after the first stage. Exhaustive qualitative and quantitative analysis shows that our method outperforms existing state-of-the-art algorithms on multiple real-world datasets.
翻訳日:2023-08-17 14:22:02 公開日:2023-08-16
# 開放光力学系における離散時間結晶

Discrete time crystal in an open optomechanical system ( http://arxiv.org/abs/2308.08196v1 )

ライセンス: Link先を確認
Dongni Chen, Zhengyang Peng, Jiahui Li, Stefano Chesi, and Yingdan Wang(参考訳) 周期的に駆動されるフロッケ系における時間変換対称性の自発的破れは離散時間結晶に繋がる可能性がある。 本稿では, 中間に2つの膜を有する駆動散逸型光学系におけるこのような動的相の発生について検討する。 セルティア条件下では、システムはオープンディッケモデルにマッピングでき、超ラジアント型相転移を実現することができる。 さらに、適切な周期変調駆動を適用することで、系ダイナミクスは熱力学的限界に持続するロバストなサブハーモニック振動を示す。

The spontaneous breaking of time translation symmetry in periodically driven Floquet systems can lead to a discrete time crystal. Here we study the occurrence of such dynamical phase in a driven-dissipative optomechanical system with two membranes in the middle. We find that, under certian conditions, the system can be mapped to an open Dicke model and realizes a superradianttype phase transition. Furthermore, applying a suitable periodically modulated drive, the system dynamics exhibits a robust subharmonic oscillation persistent in the thermodynamic limit.
翻訳日:2023-08-17 14:21:45 公開日:2023-08-16
# MLライフサイクルによるNLPにおけるトランスフォーマーベースマルチタスク学習の課題と可能性

Challenges and Opportunities of Using Transformer-Based Multi-Task Learning in NLP Through ML Lifecycle: A Survey ( http://arxiv.org/abs/2308.08234v1 )

ライセンス: Link先を確認
Lovre Torbarina, Tin Ferkovic, Lukasz Roguski, Velimir Mihelcic, Bruno Sarlija, Zeljko Kraljevic(参考訳) 業界全体で自然言語処理(NLP)モデルの採用が増加し、実践者はこれらのモデルを効率的に扱うために機械学習システムを必要としている。 しかし、トランスフォーマーベースの事前訓練言語モデルを使用する場合、複数のモデルのトレーニング、デプロイ、更新は複雑でコストがかかり、時間を要する可能性がある。 マルチタスク学習(mtl)は、個別のモデルをトレーニングするのではなく、共同トレーニングによる効率とパフォーマンスを改善するための有望なアプローチとして登場した。 そこで我々はまず,NLPにおけるトランスフォーマーベースのMTLアプローチの概要を紹介する。 次に、データエンジニアリング、モデル開発、デプロイメント、監視フェーズに関連する課題に焦点をあて、典型的なMLライフサイクルフェーズを通じてMTLアプローチを使用することの課題と機会について論じる。 この調査はトランスフォーマティブベースのmtlアーキテクチャに焦点を当てており、我々の知る限りでは、nlpにおけるトランスフォーマティブベースのmtlがmlライフサイクルフェーズにどのように適合するかを体系的に分析する点で斬新である。 さらに,本研究は,MTLと継続学習(CL)の関連性に関する研究を動機付けている。 MTLとCLの両方を扱えるモデルを持つことは、定期的にモデルをトレーニングし、分散シフトのために更新し、現実世界の要件を満たす新たな機能を追加する上で、実用的だと考えています。

The increasing adoption of natural language processing (NLP) models across industries has led to practitioners' need for machine learning systems to handle these models efficiently, from training to serving them in production. However, training, deploying, and updating multiple models can be complex, costly, and time-consuming, mainly when using transformer-based pre-trained language models. Multi-Task Learning (MTL) has emerged as a promising approach to improve efficiency and performance through joint training, rather than training separate models. Motivated by this, we first provide an overview of transformer-based MTL approaches in NLP. Then, we discuss the challenges and opportunities of using MTL approaches throughout typical ML lifecycle phases, specifically focusing on the challenges related to data engineering, model development, deployment, and monitoring phases. This survey focuses on transformer-based MTL architectures and, to the best of our knowledge, is novel in that it systematically analyses how transformer-based MTL in NLP fits into ML lifecycle phases. Furthermore, we motivate research on the connection between MTL and continual learning (CL), as this area remains unexplored. We believe it would be practical to have a model that can handle both MTL and CL, as this would make it easier to periodically re-train the model, update it due to distribution shifts, and add new capabilities to meet real-world requirements.
翻訳日:2023-08-17 14:16:08 公開日:2023-08-16
# SCQPTH:凸二次計画のための効率的な微分可能分割法

SCQPTH: an efficient differentiable splitting method for convex quadratic programming ( http://arxiv.org/abs/2308.08232v1 )

ライセンス: Link先を確認
Andrew Butler(参考訳) 凸二次プログラムに対する微分可能な一階分割法であるscqpthを提案する。 SCQPTHフレームワークは、乗算器の交互方向法(ADMM)に基づいており、ソフトウェア実装は、凸二次プログラム(QP)の操作分割解法である最先端技術解決器OSQPによって動機付けられている。 SCQPTHソフトウェアはオープンソースのpythonパッケージとして利用可能であり、行列分解の効率的な再利用、不実現性検出、自動スケーリング、パラメータ選択など、多くの類似した機能を含んでいる。 フォワードパスアルゴリズムは、元の問題空間の次元で演算子分割を行うため、100-1000ドルの決定変数と数千の制約を持つ大規模QPに適している。 バックプロパゲーションはADMM固定点マッピングの暗黙の微分によって実行される。 大規模なQPに対して、SCQPTHは、既存の微分可能QP解法と比較して計算効率を1-10-times$改善できることを示した。

We present SCQPTH: a differentiable first-order splitting method for convex quadratic programs. The SCQPTH framework is based on the alternating direction method of multipliers (ADMM) and the software implementation is motivated by the state-of-the art solver OSQP: an operating splitting solver for convex quadratic programs (QPs). The SCQPTH software is made available as an open-source python package and contains many similar features including efficient reuse of matrix factorizations, infeasibility detection, automatic scaling and parameter selection. The forward pass algorithm performs operator splitting in the dimension of the original problem space and is therefore suitable for large scale QPs with $100-1000$ decision variables and thousands of constraints. Backpropagation is performed by implicit differentiation of the ADMM fixed-point mapping. Experiments demonstrate that for large scale QPs, SCQPTH can provide a $1\times - 10\times$ improvement in computational efficiency in comparison to existing differentiable QP solvers.
翻訳日:2023-08-17 14:15:42 公開日:2023-08-16
# DDF-HO:条件方向距離場を用いたハンドヘルド物体再構成

DDF-HO: Hand-Held Object Reconstruction via Conditional Directed Distance Field ( http://arxiv.org/abs/2308.08231v1 )

ライセンス: Link先を確認
Chenyangguang Zhang, Yan Di, Ruida Zhang, Guangyao Zhai, Fabian Manhardt, Federico Tombari and Xiangyang Ji(参考訳) 単一のRGB画像からハンドヘルドオブジェクトを再構築することは重要かつ困難な問題である。 署名距離場 (Signed Distance Fields, SDF) を利用した既存の作業では, SDF はターゲット近傍でのみ信頼性が高いため, 局所的な手とオブジェクトのキューを同時に符号化することができないため, 複雑な手-物体の相互作用を包括的に捕捉する限界が明らかにされている。 そこで本研究では,DDF(Directed Distance Field)を形状表現として活用した新しいアプローチであるDDF-HOを提案する。 sdfと異なり、ddfは原点と方向からなる3次元空間の光線を対応するddf値にマッピングし、その光線が物体と交わるかどうかを判定するバイナリ可視信号と、原点から目標までの距離を測定する距離値とを含む。 我々はランダムに複数の光線をサンプリングし、新しい2D線に基づく特徴集約スキームと3D交叉対応の手ポーズ埋め込みを導入し、2D-3D特徴とハンドオブジェクトの相互作用をモデル化することで、局所的・グローバルな幾何学的特徴を収集する。 合成および実世界のデータセットに関する大規模な実験により、DFF-HOは、特にChamfer Distanceの下では、すべてのベースラインメソッドを一貫して上回り、約80%が前進している。 コードとトレーニングされたモデルは近くリリースされる。

Reconstructing hand-held objects from a single RGB image is an important and challenging problem. Existing works utilizing Signed Distance Fields (SDF) reveal limitations in comprehensively capturing the complex hand-object interactions, since SDF is only reliable within the proximity of the target, and hence, infeasible to simultaneously encode local hand and object cues. To address this issue, we propose DDF-HO, a novel approach leveraging Directed Distance Field (DDF) as the shape representation. Unlike SDF, DDF maps a ray in 3D space, consisting of an origin and a direction, to corresponding DDF values, including a binary visibility signal determining whether the ray intersects the objects and a distance value measuring the distance from origin to target in the given direction. We randomly sample multiple rays and collect local to global geometric features for them by introducing a novel 2D ray-based feature aggregation scheme and a 3D intersection-aware hand pose embedding, combining 2D-3D features to model hand-object interactions. Extensive experiments on synthetic and real-world datasets demonstrate that DDF-HO consistently outperforms all baseline methods by a large margin, especially under Chamfer Distance, with about 80% leap forward. Codes and trained models will be released soon.
翻訳日:2023-08-17 14:15:26 公開日:2023-08-16
# 費用対効果のあるニューラルネットワークフォールトトレランスのためのWinograd畳み込み探索

Exploring Winograd Convolution for Cost-effective Neural Network Fault Tolerance ( http://arxiv.org/abs/2308.08230v1 )

ライセンス: Link先を確認
Xinghua Xue, Cheng Liu, Bo Liu, Haitong Huang, Ying Wang, Tao Luo, Lei Zhang, Huawei Li, Xiaowei Li(参考訳) winogradは通常、乗算演算の削減による畳み込み性能と計算効率の最適化に利用されるが、winogradによってもたらされる信頼性の問題は通常見逃される。 本研究では,ニューラルネットワーク(NN)の耐障害性向上において,Winograd畳み込みの大きな可能性について考察する。 そこで本研究では,ウィノグラード畳み込みの耐障害性について,モデル,層,操作タイプなどさまざまな粒度から包括的に評価した。 次に,ウィノグラード畳み込みの固有障害耐性を,ソフトエラーに対する費用対効果の高いnn保護に利用することを検討する。 具体的には,三重モジュール冗長性(tmr),フォールトアウェアリトレーニング,制約付きアクティベーション関数など,従来のフォールトトレラント設計手法にウィノグラード畳み込みを効果的に組み込む方法について検討した。 本実験により, 耐故障設計のオーバーヘッドを標準畳み込みに比べて平均55.77\%削減し, さらに, 耐故障性を考慮した場合の計算オーバーヘッドを17.24\%削減できることがわかった。 フォールトアウェアリトレーニングと制約付きアクティベーション関数によって拡張されたフォールトトレラントニューラルネットワークに適用すると、結果として得られたモデルの精度は、一般的に様々な障害の存在下で著しく向上する。

Winograd is generally utilized to optimize convolution performance and computational efficiency because of the reduced multiplication operations, but the reliability issues brought by winograd are usually overlooked. In this work, we observe the great potential of winograd convolution in improving neural network (NN) fault tolerance. Based on the observation, we evaluate winograd convolution fault tolerance comprehensively from different granularities ranging from models, layers, and operation types for the first time. Then, we explore the use of inherent fault tolerance of winograd convolution for cost-effective NN protection against soft errors. Specifically, we mainly investigate how winograd convolution can be effectively incorporated with classical fault-tolerant design approaches including triple modular redundancy (TMR), fault-aware retraining, and constrained activation functions. According to our experiments, winograd convolution can reduce the fault-tolerant design overhead by 55.77\% on average without any accuracy loss compared to standard convolution, and further reduce the computing overhead by 17.24\% when the inherent fault tolerance of winograd convolution is considered. When it is applied on fault-tolerant neural networks enhanced with fault-aware retraining and constrained activation functions, the resulting model accuracy generally shows significant improvement in presence of various faults.
翻訳日:2023-08-17 14:14:56 公開日:2023-08-16
# スパイクニューラルネットワークにおける固有冗長性

Inherent Redundancy in Spiking Neural Networks ( http://arxiv.org/abs/2308.08227v1 )

ライセンス: Link先を確認
Man Yao, Jiakui Hu, Guangshe Zhao, Yaoyuan Wang, Ziyang Zhang, Bo Xu, Guoqi Li(参考訳) スパイキングニューラルネットワーク(SNN)は、従来の人工ニューラルネットワークに代わる有望なエネルギー効率の代替としてよく知られている。 SNNが疎発であるという先入観的な印象を受け、SNNの固有冗長性の解析と最適化は概ね見過ごされ、精度とエネルギー効率におけるスパイクベースのニューロモルフィックコンピューティングの潜在的な利点が妨げられている。 本研究では,SNNにおける固有冗長性に関する3つの重要な疑問に焦点をあてる。 この冗長性はSNNの時空間不変性によって引き起こされるものであり、パラメータ利用の効率を高めるだけでなく、多くのノイズスパイクを招き込む。 さらに, 時空間変動がSNNの時空間ダイナミクスおよびスパイク発火に及ぼす影響を解析した。 そこで本研究では,snsの冗長性を活かし,個別の空間的注意サブモジュールによる膜電位分布を適応的に最適化する前置型空間的注意(asa)モジュールを提案する。 このように、ノイズスパイク特性を正確に調整する。 実験結果から,提案手法は現状のSNNベースラインよりも高い性能でスパイク発射を著しく低減できることが示された。 私たちのコードは \url{https://github.com/BICLab/ASA-SNN} で利用可能です。

Spiking Neural Networks (SNNs) are well known as a promising energy-efficient alternative to conventional artificial neural networks. Subject to the preconceived impression that SNNs are sparse firing, the analysis and optimization of inherent redundancy in SNNs have been largely overlooked, thus the potential advantages of spike-based neuromorphic computing in accuracy and energy efficiency are interfered. In this work, we pose and focus on three key questions regarding the inherent redundancy in SNNs. We argue that the redundancy is induced by the spatio-temporal invariance of SNNs, which enhances the efficiency of parameter utilization but also invites lots of noise spikes. Further, we analyze the effect of spatio-temporal invariance on the spatio-temporal dynamics and spike firing of SNNs. Then, motivated by these analyses, we propose an Advance Spatial Attention (ASA) module to harness SNNs' redundancy, which can adaptively optimize their membrane potential distribution by a pair of individual spatial attention sub-modules. In this way, noise spike features are accurately regulated. Experimental results demonstrate that the proposed method can significantly drop the spike firing with better performance than state-of-the-art SNN baselines. Our code is available in \url{https://github.com/BICLab/ASA-SNN}.
翻訳日:2023-08-17 14:14:31 公開日:2023-08-16
# 能動学習による半監督画像分類における確認バイアスの克服方法

How To Overcome Confirmation Bias in Semi-Supervised Image Classification By Active Learning ( http://arxiv.org/abs/2308.08224v1 )

ライセンス: Link先を確認
Sandra Gilhuber, Rasmus Hvingelby, Mang Ling Ada Fok, Thomas Seidl(参考訳) 積極的な学習が必要ですか? 強力な深層半教師付き手法の台頭は、ラベル付きデータ設定でアクティブラーニングのユーザビリティに疑問を呈する。 これは、半教師付き学習(SSL)手法とラベリングのためのランダム選択を組み合わせることで、既存のアクティブラーニング(AL)技術より優れていることを示す結果から生じる。 しかし、これらの結果は、外部の有効性を過大評価できる、確立されたベンチマークデータセットの実験から得られる。 しかし,本論文では,実データシナリオにおけるアクティブ半教師あり学習手法の性能に関する十分な研究が不足しており,その理解には大きなギャップが残されている。 したがって,実世界のアプリケーションでは,クラス間不均衡,クラス内不均衡,クラス間の類似性という3つの課題が存在する。 これらの課題は、確認バイアスによってSSLのパフォーマンスを損なう可能性がある。 シミュレーションデータ課題についてsslとalを用いて実験を行い、ランダムサンプリングが確認バイアスを軽減せず、場合によっては教師あり学習よりもパフォーマンスが悪くなることを発見した。 対照的に、これらの現実的な環境では、ALがSSLの確認バイアスを克服できることを示す。 本研究は,実世界のアプリケーションで限定されたラベル付きデータを用いた学習において,堅牢な手法が有望な方向性である実世界の課題の存在下で,アクティブな学習と半教師付き学習を組み合わせる可能性に関する洞察を提供する。

Do we need active learning? The rise of strong deep semi-supervised methods raises doubt about the usability of active learning in limited labeled data settings. This is caused by results showing that combining semi-supervised learning (SSL) methods with a random selection for labeling can outperform existing active learning (AL) techniques. However, these results are obtained from experiments on well-established benchmark datasets that can overestimate the external validity. However, the literature lacks sufficient research on the performance of active semi-supervised learning methods in realistic data scenarios, leaving a notable gap in our understanding. Therefore we present three data challenges common in real-world applications: between-class imbalance, within-class imbalance, and between-class similarity. These challenges can hurt SSL performance due to confirmation bias. We conduct experiments with SSL and AL on simulated data challenges and find that random sampling does not mitigate confirmation bias and, in some cases, leads to worse performance than supervised learning. In contrast, we demonstrate that AL can overcome confirmation bias in SSL in these realistic settings. Our results provide insights into the potential of combining active and semi-supervised learning in the presence of common real-world challenges, which is a promising direction for robust methods when learning with limited labeled data in real-world applications.
翻訳日:2023-08-17 14:14:10 公開日:2023-08-16
# HyperSNN:リソース制約制御アプリケーションのための新しい効率的で堅牢なディープラーニングモデル

HyperSNN: A new efficient and robust deep learning model for resource constrained control applications ( http://arxiv.org/abs/2308.08222v1 )

ライセンス: Link先を確認
Zhanglu Yan, Shida Wang, Kaiwen Tang, Wong-Fai Wong(参考訳) 本稿では,インテリジェント家具やロボット工学,スマートホームといった分野におけるエッジコンピューティングの採用が増加していることを踏まえ,スパイクニューラルネットワーク(snn)と超次元コンピューティングを組み合わせた制御タスクの革新的手法であるhypersnnを紹介する。 HyperSNNは高価な32ビット浮動小数点乗算を8ビットの整数加算に置き換え、ロバスト性を高め、精度を向上する。 私たちのモデルは、Cartpole、Acrobot、MountainCar、Lunar Landerなど、AI Gymベンチマークでテストされました。 HyperSNNは従来の機械学習手法と同等の制御精度を達成しているが、エネルギー支出の1.36%から9.96%しか達成していない。 さらに,HyperSNNを用いた場合のロバスト性も向上した。 我々はHyperSNNが特にインタラクティブ、モバイル、ウェアラブルデバイスに適しており、エネルギー効率と堅牢なシステム設計を促進すると考えている。 さらに、実際の産業シナリオにおけるモデル予測制御(MPC)のような複雑なアルゴリズムの実践的な実装の道を開く。

In light of the increasing adoption of edge computing in areas such as intelligent furniture, robotics, and smart homes, this paper introduces HyperSNN, an innovative method for control tasks that uses spiking neural networks (SNNs) in combination with hyperdimensional computing. HyperSNN substitutes expensive 32-bit floating point multiplications with 8-bit integer additions, resulting in reduced energy consumption while enhancing robustness and potentially improving accuracy. Our model was tested on AI Gym benchmarks, including Cartpole, Acrobot, MountainCar, and Lunar Lander. HyperSNN achieves control accuracies that are on par with conventional machine learning methods but with only 1.36% to 9.96% of the energy expenditure. Furthermore, our experiments showed increased robustness when using HyperSNN. We believe that HyperSNN is especially suitable for interactive, mobile, and wearable devices, promoting energy-efficient and robust system design. Furthermore, it paves the way for the practical implementation of complex algorithms like model predictive control (MPC) in real-world industrial scenarios.
翻訳日:2023-08-17 14:13:46 公開日:2023-08-16
# 照明認識ガンマ補正と完全画像モデリングネットワークを用いた低光度画像強調

Low-Light Image Enhancement with Illumination-Aware Gamma Correction and Complete Image Modelling Network ( http://arxiv.org/abs/2308.08220v1 )

ライセンス: Link先を確認
Yinglong Wang, Zhen Liu, Jianzhuang Liu, Songcen Xu, Shuaicheng Liu(参考訳) 本稿では、低照度画像強調問題を解決するために、照明対応ガンマ補正と完全な画像モデリングを備えた新しいネットワーク構造を提案する。 低光環境は、通常、情報量が少なく、低光度画像からの深い表現を直接学習することは、通常の照明の回復には影響しない。 そこで本研究では,ガンマ補正の有効性を深層ネットワークの強力なモデリング能力と一体化することにより,偏光を適応的に知覚することで補正係数ガンマを粗大かつ精巧に学習できることを示す。 指数関数演算は高い計算複雑性をもたらすので、Taylor Series を用いてガンマ補正を近似し、トレーニングと推論速度を高速化する。 暗い領域は通常、低照度画像において大きな規模を占めるが、cnn、swiinirのような局所的なモデリング構造は、低照度画像全体にわたって正確な照明を復元するには不十分である。 本研究では,画像間の全画素の依存関係を局所的・グローバル的階層的アテンション機構によって完全にシミュレートするトランスフォーマーブロックを提案する。 いくつかのベンチマークデータセットにおける広範囲な実験は、我々のアプローチが最先端のメソッドよりも優れていることを示している。

This paper presents a novel network structure with illumination-aware gamma correction and complete image modelling to solve the low-light image enhancement problem. Low-light environments usually lead to less informative large-scale dark areas, directly learning deep representations from low-light images is insensitive to recovering normal illumination. We propose to integrate the effectiveness of gamma correction with the strong modelling capacities of deep networks, which enables the correction factor gamma to be learned in a coarse to elaborate manner via adaptively perceiving the deviated illumination. Because exponential operation introduces high computational complexity, we propose to use Taylor Series to approximate gamma correction, accelerating the training and inference speed. Dark areas usually occupy large scales in low-light images, common local modelling structures, e.g., CNN, SwinIR, are thus insufficient to recover accurate illumination across whole low-light images. We propose a novel Transformer block to completely simulate the dependencies of all pixels across images via a local-to-global hierarchical attention mechanism, so that dark areas could be inferred by borrowing the information from far informative regions in a highly effective manner. Extensive experiments on several benchmark datasets demonstrate that our approach outperforms state-of-the-art methods.
翻訳日:2023-08-17 14:13:29 公開日:2023-08-16
# スパイクニューラルネットワークの表現性

Expressivity of Spiking Neural Networks ( http://arxiv.org/abs/2308.08218v1 )

ライセンス: Link先を確認
Manjot Singh, Adalbert Fono and Gitta Kutyniok(参考訳) 本稿では,ニューロンの発火時間に情報がエンコードされるスパイキングニューラルネットワークの表現力について検討する。 ニューロモルフィックハードウェア上でのスパイクニューラルネットワークの実装は、将来のエネルギー効率の高いAIアプリケーションにとって有望な選択である。 しかし、スパイキングニューロンの計算能力と任意の閾値回路とsgmoidalニューロンを比較した結果は非常に少ない。 さらに、スパイキングニューロンのネットワークが連続的な機能を近似することができることも示されている。 スパイク応答モデルをスパイクニューロンの数学的モデルとし、線形応答関数を仮定することにより、スパイクニューロンのネットワークによって生成された写像が連続的に線形であることを証明する。 また、スパイクニューラルネットワークは、任意の多層ニューラルネットワーク(ReLU)の出力をエミュレートできることを示す。 さらに、スパイクニューロンが生成するリニア領域の最大数は、入力次元に対して指数関数的にスケールすることを示し、これは人工ニューロン(ReLU)と大きく区別する特徴である。 この結果により, スパイクニューラルネットワークの近似特性の理解がさらに深まり, スパイクニューラルネットワークを, 性能損失のない人工ニューラルネットワークの代わりに展開する新たな道が開かれた。

This article studies the expressive power of spiking neural networks where information is encoded in the firing time of neurons. The implementation of spiking neural networks on neuromorphic hardware presents a promising choice for future energy-efficient AI applications. However, there exist very few results that compare the computational power of spiking neurons to arbitrary threshold circuits and sigmoidal neurons. Additionally, it has also been shown that a network of spiking neurons is capable of approximating any continuous function. By using the Spike Response Model as a mathematical model of a spiking neuron and assuming a linear response function, we prove that the mapping generated by a network of spiking neurons is continuous piecewise linear. We also show that a spiking neural network can emulate the output of any multi-layer (ReLU) neural network. Furthermore, we show that the maximum number of linear regions generated by a spiking neuron scales exponentially with respect to the input dimension, a characteristic that distinguishes it significantly from an artificial (ReLU) neuron. Our results further extend the understanding of the approximation properties of spiking neural networks and open up new avenues where spiking neural networks can be deployed instead of artificial neural networks without any performance loss.
翻訳日:2023-08-17 14:13:06 公開日:2023-08-16
# オープン量子システムにおける作業・熱・内部エネルギー:自律システムフレームワークによる4つのアプローチの比較

Work, Heat and Internal Energy in Open Quantum Systems: A Comparison of Four Approaches from the Autonomous System Framework ( http://arxiv.org/abs/2308.08215v1 )

ライセンス: Link先を確認
Anja Seegebrecht and Tanja Schilling(参考訳) オープン量子システムの内部エネルギーの定義と、内部エネルギーをワークとヒートコントリビューションに分割する戦略を、自律システムフレームワークから4つの異なるアプローチで比較する。 我々の議論は、任意の環境(熱浴だけでなく)と量子力学系による運転を可能にする方法に焦点を当てている。 単純なアプリケーションとして、atomを関心のシステムとして、振動子フィールドモードを環境として考えます。 3種類のカップリングが分析される。 定義の曖昧さを議論し、純粋な熱や作業貯水池として機能する環境を構築することを目的とした場合の違いを強調する。 さらに,基礎となるフレームワークによって異なる作業源(コヒーレンス,相関,周波数オフセットなど)を特定する。 最後に、最小の散逸に基づくアプローチを好むための議論を行う。

We compare definitions of the internal energy of an open quantum system and strategies to split the internal energy into work and heat contributions as given by four different approaches from autonomous system framework. Our discussion focuses on methods that allow for arbitrary environments (not just heat baths) and driving by a quantum mechanical system. As a simple application we consider an atom as the system of interest and an oscillator field mode as the environment. Three different types of coupling are analyzed. We discuss ambiguities in the definitions and highlight differences that appear if one aims at constructing environments that act as pure heat or work reservoirs. Further, we identify different sources of work (e.g. coherence, correlations, or frequency offset), depending on the underlying framework. Finally, we give arguments to favour the approach based on minimal dissipation.
翻訳日:2023-08-17 14:12:45 公開日:2023-08-16
# マルチメディア'23: ソーシャルインタラクションにおけるエンゲージメント推定と身体行動認識

MultiMediate'23: Engagement Estimation and Bodily Behaviour Recognition in Social Interactions ( http://arxiv.org/abs/2308.08256v1 )

ライセンス: Link先を確認
Philipp M\"uller, Michal Balazia, Tobias Baur, Michael Dietz, Alexander Heimerl, Dominik Schiller, Mohammed Guermal, Dominike Thomas, Fran\c{c}ois Br\'emond, Jan Alexandersson, Elisabeth Andr\'e, Andreas Bulling(参考訳) 人間の行動の自動分析は、社会的相互作用において人間と効果的に相互作用し支援できる機械を作成するための基本的な前提条件である。 また,MultiMediate'23では,社会的相互作用におけるエンゲージメント推定と身体行動認識という2つの重要な人間行動分析課題を初めて解決した。 本稿ではマルチメディアテ'23の課題について述べるとともに,両タスクに対する新しいアノテーションセットを提案する。 エンゲージメント推定のために、NOvice eXpert Interaction (NOXI)データベース上で新しいアノテーションを収集した。 身体行動認識のために, BBSIアノテーションを用いたMPIIGroupInteraction corpusのアノテート記録を行った。 さらに,両課題に対する基礎的結果も提示する。

Automatic analysis of human behaviour is a fundamental prerequisite for the creation of machines that can effectively interact with- and support humans in social interactions. In MultiMediate'23, we address two key human social behaviour analysis tasks for the first time in a controlled challenge: engagement estimation and bodily behaviour recognition in social interactions. This paper describes the MultiMediate'23 challenge and presents novel sets of annotations for both tasks. For engagement estimation we collected novel annotations on the NOvice eXpert Interaction (NOXI) database. For bodily behaviour recognition, we annotated test recordings of the MPIIGroupInteraction corpus with the BBSI annotation scheme. In addition, we present baseline results for both challenge tasks.
翻訳日:2023-08-17 14:04:29 公開日:2023-08-16
# 文法誘導のためのベンチマークニューラルネットワークの一般化

Benchmarking Neural Network Generalization for Grammar Induction ( http://arxiv.org/abs/2308.08253v1 )

ライセンス: Link先を確認
Nur Lan, Emmanuel Chemla, Roni Katzir(参考訳) ニューラルネットワークはどの程度一般化するのか? 対象の一般化が完全に知られている文法的帰納的タスクであっても、以前の作業は質問をオープンにし、トレーニングセット以上の範囲をテストし、異なる成功基準を用いてテストしている。 完全な形式言語に基づくニューラルネットワークの一般化の尺度を提供する。 モデルと形式文法が与えられた場合、モデルがトレーニングしたデータ量と逆関係のサンプルに対して、モデルがいかにうまく一般化するかを示す一般化スコアを割り当てる。 ベンチマークには、$a^nb^n$, $a^nb^nc^n$, $a^nb^mc^{n+m}$, dyck-1, 2などの言語が含まれている。 このベンチマークを用いて選択したアーキテクチャを評価し,MDL(Minimum Description Length Objective)を用いてトレーニングしたネットワークは,標準損失関数を用いてトレーニングしたネットワークよりも一般化し,少ないデータを使用する。 ベンチマークはhttps://github.com/taucompling/blissで利用可能である。

How well do neural networks generalize? Even for grammar induction tasks, where the target generalization is fully known, previous works have left the question open, testing very limited ranges beyond the training set and using different success criteria. We provide a measure of neural network generalization based on fully specified formal languages. Given a model and a formal grammar, the method assigns a generalization score representing how well a model generalizes to unseen samples in inverse relation to the amount of data it was trained on. The benchmark includes languages such as $a^nb^n$, $a^nb^nc^n$, $a^nb^mc^{n+m}$, and Dyck-1 and 2. We evaluate selected architectures using the benchmark and find that networks trained with a Minimum Description Length objective (MDL) generalize better and using less data than networks trained using standard loss functions. The benchmark is available at https://github.com/taucompling/bliss.
翻訳日:2023-08-17 14:04:20 公開日:2023-08-16
# Description Logicsが2階に -- Universally Quantified ConceptsでELを拡張する

Description Logics Go Second-Order -- Extending EL with Universally Quantified Concepts ( http://arxiv.org/abs/2308.08252v1 )

ライセンス: Link先を確認
Joshua Hirschbrunn and Yevgeny Kazakov(参考訳) 記述論理学の研究は、歴史的に主に一階論理の決定可能な断片に翻訳できる特徴に焦点を当ててきた。 本稿では、この制約を置き去りにし、一階述語論理の外側で有用で決定可能な拡張を求める。 任意の概念に置き換えられる変数の形式を取り、この拡張の2つの意味を定義する普遍的定量化概念を導入する。 スキーマセマンティクスは、特定の言語の概念によってのみ概念変数を置き換えることができ、モーダル論理に似た公理スキーマを与える。 2階のセマンティクスは、概念変数をドメインの任意の部分集合に置き換えることを可能にする。 提案する意味論を研究するために、記述論理 $\mathcal{el}$ の拡張に焦点を当てる。 拡張の有用な断片に対して、異なる意味論による結論が一致することを示し、二階意味論においても古典的な$\mathcal{el}$推論アルゴリズムを使うことができることを示した。 少し小さいが、それでも有用なフラグメントでは、拡張の多項式決定可能性も示せました。 この断片は、特に、KL-ONE から一般化されたロール連鎖公理、正の自己制限、およびいくつかの形式の(局所的な)ロール値写像を、追加のコンストラクタを必要とせずに表現することができる。

The study of Description Logics have been historically mostly focused on features that can be translated to decidable fragments of first-order logic. In this paper, we leave this restriction behind and look for useful and decidable extensions outside first-order logic. We introduce universally quantified concepts, which take the form of variables that can be replaced with arbitrary concepts, and define two semantics of this extension. A schema semantics allows replacements of concept variables only by concepts from a particular language, giving us axiom schemata similar to modal logics. A second-order semantics allows replacement of concept variables with arbitrary subsets of the domain, which is similar to quantified predicates in second-order logic. To study the proposed semantics, we focus on the extension of the description logic $\mathcal{EL}$. We show that for a useful fragment of the extension, the conclusions entailed by the different semantics coincide, allowing us to use classical $\mathcal{EL}$ reasoning algorithms even for the second-order semantics. For a slightly smaller, but still useful, fragment, we were also able to show polynomial decidability of the extension. This fragment, in particular, can express a generalized form of role chain axioms, positive self restrictions, and some forms of (local) role-value-maps from KL-ONE, without requiring any additional constructors.
翻訳日:2023-08-17 14:04:03 公開日:2023-08-16
# 超流動と超伝導における量子幾何

Quantum geometry in superfluidity and superconductivity ( http://arxiv.org/abs/2308.08248v1 )

ライセンス: Link先を確認
Sebastiano Peotta, Kukka-Emilia Huhtinen, P\"aivi T\"orm\"a(参考訳) 本稿では,超流動性と超伝導における量子幾何の役割を理論的に記述し,量子幾何が超電流に対して完全に責任を持つフラットバンドに着目した。 このレビューは、超電流に対する自己整合順序パラメータの依存性を適切に考慮し、平帯の超流動重みは最小量子計量に比例する、という理論の最新の理解に基づくという点で、以前のものと異なる。 基本的な量子幾何量と超流動密度の概念の要約を提供する。 超伝導の幾何学的寄与は、2体問題を考慮して導入される。 マルチバンド系の超流動重みは平均場理論で導出され、平坦なバンド超伝導の位相的境界となる。 ワニエ関数の重なり合いの観点から平面バンド超電流の物理的解釈について議論する。

We review the theoretical description of the role of quantum geometry in superfluidity and superconductivity of multiband systems, with focus on flat bands where quantum geometry is wholly responsible for supercurrents. This review differs from previous ones in that it is based on the most recent understanding of the theory: the dependence of the self-consistent order parameter on the supercurrent is properly taken into account, and the superfluid weight in a flat band becomes proportional to the minimal quantum metric. We provide a recap of basic quantum geometric quantities and the concept of superfluid density. The geometric contribution of superconductivity is introduced via considering the two-body problem. The superfluid weight of a multiband system is derived within mean-field theory, leading to a topological bound of flat band superconductivity. The physical interpretation of the flat band supercurrent in terms of Wannier function overlaps is discussed.
翻訳日:2023-08-17 14:03:39 公開日:2023-08-16
# 最も近傍の分類器のスケーリング法則の2相

Two Phases of Scaling Laws for Nearest Neighbor Classifiers ( http://arxiv.org/abs/2308.08247v1 )

ライセンス: Link先を確認
Pengkun Yang, Jingzhao Zhang(参考訳) スケーリング法則は、トレーニングデータの数が増加するにつれて、モデルの試験性能が向上することを示す。 高速スケーリングの法則は、データとモデルのサイズを単純に増やすことで、機械学習の問題を解決できることを意味する。 しかし、多くの場合、より多くのデータを追加する利点は無視できる。 本研究では,近傍の分類器のスケーリング法則について検討する。 第1相では、一般化誤差はデータ次元に多項式依存し、急速に減少するが、第2相では、誤差はデータ次元に指数関数的に依存し、ゆっくりと減少する。 本分析は,一般化誤差を決定する際のデータ分布の複雑さを明らかにする。 この結果から,近傍の分類器は指数関数的ではなく多項式的にデータ次元に依存する一般化誤差を達成できることが示唆された。

A scaling law refers to the observation that the test performance of a model improves as the number of training data increases. A fast scaling law implies that one can solve machine learning problems by simply boosting the data and the model sizes. Yet, in many cases, the benefit of adding more data can be negligible. In this work, we study the rate of scaling laws of nearest neighbor classifiers. We show that a scaling law can have two phases: in the first phase, the generalization error depends polynomially on the data dimension and decreases fast; whereas in the second phase, the error depends exponentially on the data dimension and decreases slowly. Our analysis highlights the complexity of the data distribution in determining the generalization error. When the data distributes benignly, our result suggests that nearest neighbor classifier can achieve a generalization error that depends polynomially, instead of exponentially, on the data dimension.
翻訳日:2023-08-17 14:03:25 公開日:2023-08-16
# 量子コンピュータを用いた多目的最適化とネットワークルーティング

Multi-Objective Optimization and Network Routing with Near-Term Quantum Computers ( http://arxiv.org/abs/2308.08245v1 )

ライセンス: Link先を確認
Shao-Hen Chiew, Kilian Poirier, Rajesh Mishra, Ulrike Bornheimer, Ewan Munro, Si Han Foon, Christopher Wanru Chen, Wei Sheng Lim, Chee Wei Nga(参考訳) 多目的最適化は、多くの科学・産業分野で自然に発生するユビキタスな問題である。 多目的性能要求によるネットワークルーティング最適化はこの問題クラスに陥り、大規模に高品質なソリューションを見つけることは一般的に困難である。 本研究では,多目的組合せ最適化問題を解くために,短期量子コンピュータを応用できるスキームを考案する。 本稿では,本手法のネットワークルーティング問題への応用について,まず,多目的最短経路問題にマッピングすることで詳細に検討する。 量子近似最適化アルゴリズム(qaoa) - 短期量子コンピュータ上で最適化問題に取り組むためのgo-toアプローチ - に基づく実装にフォーカスし、そのスキームから得られるパレートプロットを調べ、パレート最適解を生成する能力を定性的に分析する。 さらに、QAOAのリソース要件と性能に関する理論的および数値的なスケーリング分析を行い、このアプローチに関連する重要な課題を特定する。 最後に、Amazon Braketを通じて、IonQ Harmony 11-qubit量子コンピュータ上で、我々のスキームの小規模実装を実行します。

Multi-objective optimization is a ubiquitous problem that arises naturally in many scientific and industrial areas. Network routing optimization with multi-objective performance demands falls into this problem class, and finding good quality solutions at large scales is generally challenging. In this work, we develop a scheme with which near-term quantum computers can be applied to solve multi-objective combinatorial optimization problems. We study the application of this scheme to the network routing problem in detail, by first mapping it to the multi-objective shortest path problem. Focusing on an implementation based on the quantum approximate optimization algorithm (QAOA) -- the go-to approach for tackling optimization problems on near-term quantum computers -- we examine the Pareto plot that results from the scheme, and qualitatively analyze its ability to produce Pareto-optimal solutions. We further provide theoretical and numerical scaling analyses of the resource requirements and performance of QAOA, and identify key challenges associated with this approach. Finally, through Amazon Braket we execute small-scale implementations of our scheme on the IonQ Harmony 11-qubit quantum computer.
翻訳日:2023-08-17 14:03:10 公開日:2023-08-16
# 相互相似性を用いたレーン検出のためのコントラスト学習

Contrastive Learning for Lane Detection via cross-similarity ( http://arxiv.org/abs/2308.08242v1 )

ライセンス: Link先を確認
Ali Zoljodi, Sadegh Abadijou, Mina Alibeigi, Masoud Daneshtalab(参考訳) 道路レーンの検出は、不利な状況に弱い複雑なマーキングのため困難である。 レーンマーキングは以前の形状が強いが、視認性は容易に損なわれる。 照明、天気、車両、歩行者、老朽化した色などの要因は、検出に挑戦する。 低可視性に起因する自然変動に耐えられるレーン検出アプローチの訓練には大量のデータが必要である。 これは、多数の車線形状と自然変化が存在するためである。 我々のソリューションであるCLLD(Contrastive Learning for Lane Detection via cross-similarity)は、車線検出モデルレジリエンスを現実の環境に拡張し、車線視認性を低下させる自己教師付き学習手法である。 CLLDは,低可視環境下でも車線検出アプローチを訓練し,局所特徴コントラスト学習(CL)と新たな操作相似性を統合することで,車線検出アプローチを訓練する,新しいマルチタスクコントラスト学習である。 局所的な特徴clは、レーンセグメントをローカライズするために必要な小さな画像部分の抽出に重点を置いているが、クロス類似性は、周囲の不明瞭なレーンセグメントを検出するためにグローバルな特徴をキャプチャする。 入力画像の一部をランダムにマスキングすることで類似性を高める。 ベンチマークデータセットで評価すると、clldは最先端のコントラスト学習、特にシャドウのような可視性障害条件よりも優れている。 教師付き学習と比較して、CLLDは影や混雑したシーンのようなシナリオに優れています。

Detecting road lanes is challenging due to intricate markings vulnerable to unfavorable conditions. Lane markings have strong shape priors, but their visibility is easily compromised. Factors like lighting, weather, vehicles, pedestrians, and aging colors challenge the detection. A large amount of data is required to train a lane detection approach that can withstand natural variations caused by low visibility. This is because there are numerous lane shapes and natural variations that exist. Our solution, Contrastive Learning for Lane Detection via cross-similarity (CLLD), is a self-supervised learning method that tackles this challenge by enhancing lane detection models resilience to real-world conditions that cause lane low visibility. CLLD is a novel multitask contrastive learning that trains lane detection approaches to detect lane markings even in low visible situations by integrating local feature contrastive learning (CL) with our new proposed operation cross-similarity. Local feature CL focuses on extracting features for small image parts, which is necessary to localize lane segments, while cross-similarity captures global features to detect obscured lane segments using their surrounding. We enhance cross-similarity by randomly masking parts of input images for augmentation. Evaluated on benchmark datasets, CLLD outperforms state-of-the-art contrastive learning, especially in visibility-impairing conditions like shadows. Compared to supervised learning, CLLD excels in scenarios like shadows and crowded scenes.
翻訳日:2023-08-17 14:02:52 公開日:2023-08-16
# TEST: LLMの時系列処理能力を活性化するテキストプロトタイプの埋め込み

TEST: Text Prototype Aligned Embedding to Activate LLM's Ability for Time Series ( http://arxiv.org/abs/2308.08241v1 )

ライセンス: Link先を確認
Chenxi Sun and Yaliang Li and Hongyan Li and Shenda Hong(参考訳) LLM-for-TS、TSデータの基本的大モデルの設計と訓練;TS-for-LLM、事前訓練されたLLMがTSデータを処理することができる。 本研究は, TS-for-LLM方式に着目し, LLMに適したTS埋め込み方式を設計することで, LLMのデータ処理能力を活性化することを目的としている。 提案手法はTESTと呼ばれる。 最初はTSをトークン化し、インスタンスワイド、フィーチャーワイド、テキストプロトタイプ整合コントラストでエンコーダを構築し、次にLSMをよりオープンにするためのプロンプトを作成し、最後にTSタスクを実装します。 TS分類および予測タスクにおいて,異なる構造とサイズを持つ8つのLLMを用いて実験を行った。 TSタスク用にカスタマイズされた現在のSOTAモデルでは,LSMをパターンマシンとして扱うことで,言語能力を損なうことなくTSデータの処理能力を向上させることができる。 本論文は,さらなる研究を促す基礎研究として機能することを目的としている。

This work summarizes two strategies for completing time-series (TS) tasks using today's language model (LLM): LLM-for-TS, design and train a fundamental large model for TS data; TS-for-LLM, enable the pre-trained LLM to handle TS data. Considering the insufficient data accumulation, limited resources, and semantic context requirements, this work focuses on TS-for-LLM methods, where we aim to activate LLM's ability for TS data by designing a TS embedding method suitable for LLM. The proposed method is named TEST. It first tokenizes TS, builds an encoder to embed them by instance-wise, feature-wise, and text-prototype-aligned contrast, and then creates prompts to make LLM more open to embeddings, and finally implements TS tasks. Experiments are carried out on TS classification and forecasting tasks using 8 LLMs with different structures and sizes. Although its results cannot significantly outperform the current SOTA models customized for TS tasks, by treating LLM as the pattern machine, it can endow LLM's ability to process TS data without compromising the language ability. This paper is intended to serve as a foundational work that will inspire further research.
翻訳日:2023-08-17 14:02:26 公開日:2023-08-16
# MemoChat: 長期間のオープンドメイン会話にメモを使用するためのLLMのチューニング

MemoChat: Tuning LLMs to Use Memos for Consistent Long-Range Open-Domain Conversation ( http://arxiv.org/abs/2308.08239v1 )

ライセンス: Link先を確認
Junru Lu, Siyu An, Mingbao Lin, Gabriele Pergola, Yulan He, Di Yin, Xing Sun, Yunsheng Wu(参考訳) 我々は,大規模言語モデル (LLM) を効果的に活用し,一貫した長距離オープンドメイン会話を維持するための命令を精錬するためのパイプラインであるMemoChatを提案する。 我々は、反復的な「記憶-記憶-記憶-応答」サイクルによる長距離オープンドメイン会話を実演する。 これにより、異なるステージごとに調整されたチューニング命令を慎重に設計する必要があります。 これらの命令は、公共データセットの集合から再構築され、LCMに構造化されたメモとの過去の対話を記憶し、取り出すように教えられ、将来の会話に参加する際の一貫性が向上する。 長距離会話質問の一貫性を評価するためのテストセットを手動でアノテートするために専門家を招待する。 大規模なオープンソースとAPIアクセス可能なチャットボットを含む3つのテストシナリオの実験は、MemoChatの有効性を検証する。

We propose MemoChat, a pipeline for refining instructions that enables large language models (LLMs) to effectively employ self-composed memos for maintaining consistent long-range open-domain conversations. We demonstrate a long-range open-domain conversation through iterative "memorization-retrieval-response" cycles. This requires us to carefully design tailored tuning instructions for each distinct stage. The instructions are reconstructed from a collection of public datasets to teach the LLMs to memorize and retrieve past dialogues with structured memos, leading to enhanced consistency when participating in future conversations. We invite experts to manually annotate a test set designed to evaluate the consistency of long-range conversations questions. Experiments on three testing scenarios involving both open-source and API-accessible chatbots at scale verify the efficacy of MemoChat, which outperforms strong baselines.
翻訳日:2023-08-17 14:02:04 公開日:2023-08-16
# グラフニューラルネットワークの表現力に関する調査

The Expressive Power of Graph Neural Networks: A Survey ( http://arxiv.org/abs/2308.08235v1 )

ライセンス: Link先を確認
Bingxu Zhang, Changjun Fan, Shixuan Liu, Kuihua Huang, Xiang Zhao, Jincai Huang, Zhong Liu(参考訳) グラフニューラルネットワーク(GNN)は多くのグラフ関連アプリケーションに有効な機械学習モデルである。 実証的な成功にもかかわらず、多くの研究はGNNの理論的限界、すなわちGNNの表現力に焦点を当てている。 この領域における初期の研究は、主にGNNのグラフ同型認識能力の研究に重点を置いており、近年の研究では、グラフカウントや接続学習といった特性を活用して、より実用的で現実世界に近いGNNの表現力を特徴づけようとしている。 しかし、この重要な方向へのモデルを包括的に要約し、議論する調査論文やオープンソースリポジトリは存在しない。 このギャップを埋めるために、異なる形態の定義の下で表現力を高めるモデルの最初の調査を行う。 具体的には,グラフ機能拡張,グラフトポロジ拡張,gnnsアーキテクチャ拡張という3つのカテゴリに基づいて,モデルをレビューする。

Graph neural networks (GNNs) are effective machine learning models for many graph-related applications. Despite their empirical success, many research efforts focus on the theoretical limitations of GNNs, i.e., the GNNs expressive power. Early works in this domain mainly focus on studying the graph isomorphism recognition ability of GNNs, and recent works try to leverage the properties such as subgraph counting and connectivity learning to characterize the expressive power of GNNs, which are more practical and closer to real-world. However, no survey papers and open-source repositories comprehensively summarize and discuss models in this important direction. To fill the gap, we conduct a first survey for models for enhancing expressive power under different forms of definition. Concretely, the models are reviewed based on three categories, i.e., Graph feature enhancement, Graph topology enhancement, and GNNs architecture enhancement.
翻訳日:2023-08-17 14:01:49 公開日:2023-08-16
# GDPRの活用に関する専門家の意見

Expert opinions on making GDPR usable ( http://arxiv.org/abs/2308.08287v1 )

ライセンス: Link先を確認
Johanna Johansen(参考訳) 本稿では,2020年に導入された概念と手法を検証するために実施した研究結果について述べる(johansen and fischer-hubner, 2020)。「gdprの利用性:プライバシのユーザビリティ評価を支援するモデル」は,ifip aict 576, 275-291)。 私たちは、法律やデータ保護/プライバシ、認証と標準化、ユーザビリティ(人間-コンピュータインタラクションの分野での研究)など、これらの概念に関係のある分野で働く専門家のインタビューで、回答者として使用しています。 専門家の4つの新しい概念、すなわち (i)使用可能なプライバシーの定義 (ii)gdpr(european general data protection regulation)の抜粋として特定された30のプライバシ目標 (iii)複数の測定可能なサブクリトリアとともに、使用可能なプライバシー基準に対応する25の組 (iv)これらすべてをeuroprise認定基準と組み合わせ、基準の順序付け、これらの間の相互作用、異なる利害関係者の視点、使用/処理のコンテキストといった認定プロセスのいくつかの側面を明確にすることを目的として、利用可能なプライバシキューブモデル。 専門家の意見は多様で、サンプルが豊富で、前向きで、上記の4つの概念がさらなる発展の基盤として機能するオープンな問題の印象的なリストを提供する。 我々は,理論三角測量を用いて,産学・産学両分野の「認証」「法律」「使用可能性」に分類される3つの専門家グループを表わすデータを分析した。 分析の結果,データ主体の権利を行使し,データ管理者がデータ保護原則に準拠する程度を評価するために,プライバシの評価とユーザビリティの測定の必要性について,専門家の間で合意が得られた。

We present the results of a study done in order to validate concepts and methods that have been introduced in (Johansen and Fischer-Hubner, 2020. "Making GDPR Usable: A Model to Support Usability Evaluations of Privacy." in IFIP AICT 576, 275-291). We use as respondents in our interviews experts working across fields of relevance to these concepts, including law and data protection/privacy, certifications and standardization, and usability (as studied in the field of Human-Computer Interaction). We study the experts' opinions about four new concepts, namely: (i) a definition of Usable Privacy, (ii) 30 Usable Privacy Goals identified as excerpts from the GDPR (European General Data Protection Regulation), (iii) a set of 25 corresponding Usable Privacy Criteria together with their multiple measurable sub-criteria, and (iv) the Usable Privacy Cube model, which puts all these together with the EuroPriSe certification criteria, with the purpose of making explicit several aspects of certification processes such as orderings of criteria, interactions between these, different stakeholder perspectives, and context of use/processing. The expert opinions are varied, example-rich, and forward-looking, which gives a impressive list of open problems where the above four concepts can work as a foundation for further developments. We employed a critical qualitative research, using theory triangulation to analyze the data representing three groups of experts, categorized as 'certifications', 'law', and 'usability', coming both from industry and academia. The results of our analysis show agreement among the experts about the need for evaluations and measuring of usability of privacy in order to allow for exercising data subjects' rights and to evaluate the degree to which data controllers comply with the data protection principles.
翻訳日:2023-08-17 13:56:32 公開日:2023-08-16
# 大規模言語モデルに基づくDense Passage Retrievalのための事前学習

Pre-training with Large Language Model-based Document Expansion for Dense Passage Retrieval ( http://arxiv.org/abs/2308.08285v1 )

ライセンス: Link先を確認
Guangyuan Ma, Xing Wu, Peng Wang, Zijia Lin, Songlin Hu(参考訳) 本稿では,Large Language Model (LLM) を用いた文書拡張による事前学習の可能性について系統的に検討する。 具体的には、文書拡張、すなわちクエリ生成にLLMの能力を活用し、経路検索に適した事前学習戦略を用いて、拡張知識を検索者へ効果的に転送する。 これらの戦略には、対比学習とボトルネック付きクエリ生成が含まれる。 さらに,LLM推論への依存を減らすために,カリキュラム学習戦略を取り入れた。 LLMによる文書拡張による事前学習が大規模Web検索タスクにおける検索性能を大幅に向上させることを示す実験結果を得た。 本研究は,ゼロショット・アウト・オブ・ドメイン検索能力が強く,人間ラベルデータを用いずに初期化した場合の検索に広く適用可能であることを示す。

In this paper, we systematically study the potential of pre-training with Large Language Model(LLM)-based document expansion for dense passage retrieval. Concretely, we leverage the capabilities of LLMs for document expansion, i.e. query generation, and effectively transfer expanded knowledge to retrievers using pre-training strategies tailored for passage retrieval. These strategies include contrastive learning and bottlenecked query generation. Furthermore, we incorporate a curriculum learning strategy to reduce the reliance on LLM inferences. Experimental results demonstrate that pre-training with LLM-based document expansion significantly boosts the retrieval performance on large-scale web-search tasks. Our work shows strong zero-shot and out-of-domain retrieval abilities, making it more widely applicable for retrieval when initializing with no human-labeled data.
翻訳日:2023-08-17 13:56:01 公開日:2023-08-16
# CARE:直腸癌切除のための大規模CT画像データセットと臨床応用ベンチマークモデル

CARE: A Large Scale CT Image Dataset and Clinical Applicable Benchmark Model for Rectal Cancer Segmentation ( http://arxiv.org/abs/2308.08283v1 )

ライセンス: Link先を確認
Hantao Zhang, Weidong Guo, Chenyang Qiu, Shouhong Wan, Bingbing Zou, Wanqin Wang, Peiquan Jin(参考訳) ct画像による直腸癌の分画は,臨床診断,放射線治療,経過観察において重要な役割を担っている。 現在のセグメンテーション法は癌組織を規定する上で有望であるが、高いセグメンテーション精度を達成する上ではまだ課題に直面している。 これらの障害は直腸の複雑な解剖学的構造と直腸癌の鑑別診断の難しさから生じる。 さらに,直腸癌セグメント化のためのCT画像データセットが大規模で微細に付加されていないことも大きな障害である。 これらの課題に対処するため,本研究では,正常直腸と癌直腸の両方にピクセルレベルのアノテーションを付加した,新しい大規模直腸癌CT画像データセットであるCAREを導入する。 さらに,U-SAMと命名された新しい癌病変セグメンテーションベンチマークモデルを提案する。 このモデルは、迅速な情報を取り入れることで、腹部器官の複雑な解剖学的構造がもたらす課題に対処するように設計されている。 U-SAMには、ターゲット領域のローカライゼーションを支援するプロンプト可能な情報(例えば、ポイント)、低レベルの病変の詳細をキャプチャする畳み込みモジュール、符号化復号プロセス中に空間情報の保存と復元を行うスキップ接続という3つの重要なコンポーネントが含まれている。 U-SAMの有効性を評価するため,CAREデータセット上のいくつかの一般的なセグメンテーション手法と比較した。 モデルの一般化は、WORDデータセット上でさらに検証される。 大規模な実験により、提案されたU-SAMは2つのデータセット上で最先端の手法より優れていることが示された。 これらの実験は将来の研究および臨床応用開発の基礎となる。

Rectal cancer segmentation of CT image plays a crucial role in timely clinical diagnosis, radiotherapy treatment, and follow-up. Although current segmentation methods have shown promise in delineating cancerous tissues, they still encounter challenges in achieving high segmentation precision. These obstacles arise from the intricate anatomical structures of the rectum and the difficulties in performing differential diagnosis of rectal cancer. Additionally, a major obstacle is the lack of a large-scale, finely annotated CT image dataset for rectal cancer segmentation. To address these issues, this work introduces a novel large scale rectal cancer CT image dataset CARE with pixel-level annotations for both normal and cancerous rectum, which serves as a valuable resource for algorithm research and clinical application development. Moreover, we propose a novel medical cancer lesion segmentation benchmark model named U-SAM. The model is specifically designed to tackle the challenges posed by the intricate anatomical structures of abdominal organs by incorporating prompt information. U-SAM contains three key components: promptable information (e.g., points) to aid in target area localization, a convolution module for capturing low-level lesion details, and skip-connections to preserve and recover spatial information during the encoding-decoding process. To evaluate the effectiveness of U-SAM, we systematically compare its performance with several popular segmentation methods on the CARE dataset. The generalization of the model is further verified on the WORD dataset. Extensive experiments demonstrate that the proposed U-SAM outperforms state-of-the-art methods on these two datasets. These experiments can serve as the baseline for future research and clinical application development.
翻訳日:2023-08-17 13:55:51 公開日:2023-08-16
# コンピュータビジョンに富む離散的選択モデルと住宅地選択への応用

Computer vision-enriched discrete choice models, with an application to residential location choice ( http://arxiv.org/abs/2308.08276v1 )

ライセンス: Link先を確認
Sander van Cranenburgh and Francisco Garrido-Valenzuela(参考訳) 視覚画像は多くの複数の属性決定状況に不可欠である。 旅行行動研究におけるこのような意思決定の例としては、住宅地選択、車両選択、観光先選択、各種安全関連選択などがある。 しかし、現在の離散選択モデルは画像データを処理できないため、画像に埋め込まれた情報を選択行動の表現に組み込むことはできない。 個別選択モデルの能力とそれがモデル化しようとしている現実世界の振る舞いのギャップは、不完全で、おそらく誤解を招く結果をもたらす。 そこで本研究では,コンピュータビジョン強化離散選択モデル(CV-DCM)を提案する。 CV-DCMはコンピュータビジョンと従来の離散選択モデルを統合することで、数値属性と画像を含む選択タスクを処理できる。 さらに、CV-DCMはランダムなユーティリティ最大化原理に基づいているため、従来の離散選択モデルの固体的な振る舞いの基礎を維持している。 提案するcv-dcmを,住宅地選択を含む新たな選択実験により得られたデータに適用して実証する。 本実験では, 通勤時間, 月次住宅コスト, 街路レベルの条件のトレードオフによる選択課題を画像を用いて提示した。 このように、この研究は、個別選択モデリングと機械学習の統合を目指す旅行行動分野の文学の発展に寄与している。

Visual imagery is indispensable to many multi-attribute decision situations. Examples of such decision situations in travel behaviour research include residential location choices, vehicle choices, tourist destination choices, and various safety-related choices. However, current discrete choice models cannot handle image data and thus cannot incorporate information embedded in images into their representations of choice behaviour. This gap between discrete choice models' capabilities and the real-world behaviour it seeks to model leads to incomplete and, possibly, misleading outcomes. To solve this gap, this study proposes "Computer Vision-enriched Discrete Choice Models" (CV-DCMs). CV-DCMs can handle choice tasks involving numeric attributes and images by integrating computer vision and traditional discrete choice models. Moreover, because CV-DCMs are grounded in random utility maximisation principles, they maintain the solid behavioural foundation of traditional discrete choice models. We demonstrate the proposed CV-DCM by applying it to data obtained through a novel stated choice experiment involving residential location choices. In this experiment, respondents faced choice tasks with trade-offs between commute time, monthly housing cost and street-level conditions, presented using images. As such, this research contributes to the growing body of literature in the travel behaviour field that seeks to integrate discrete choice modelling and machine learning.
翻訳日:2023-08-17 13:55:22 公開日:2023-08-16
# 合成データや実際のデータでオリーブを検出する? olive (複数形 olives)

Detecting Olives with Synthetic or Real Data? Olive the Above ( http://arxiv.org/abs/2308.08271v1 )

ライセンス: Link先を確認
Yianni Karabatis, Xiaomin Lin, Nitin J. Sanket, Michail G. Lagoudakis, Yiannis Aloimonos(参考訳) 現代ロボット工学は、精密農業の収量推定の進歩を可能にした。 しかし、オリーブ産業に適用した場合、オリーブ色の変化と背景の葉の天蓋との類似性は困難である。 セグメンテーションのために数千もの非常に密度の高いオリーブグローブイメージをラベル付けすることは、労働集約的な作業である。 本稿では,手動でラベル付けすることなくオリーブを検出する手法を提案する。 本研究では,合成オリーブツリー画像と実オリーブツリー画像からなる世界最初のオリーブ検出データセットを提示する。 これはオリーブツリーの自動ラベル付きフォトリアリスティック3Dモデルを生成することで達成される。 その幾何学は軽量なレンダリングのために単純化される。 また,合成画像と実画像の組み合わせを用いて実験を行い,実データを用いた場合と比較して,最大66%の改善が得られた。 リアルなラベル付きデータへのアクセスが制限されている場合、ほとんどの合成データと少量のリアルデータの組み合わせによってオリーブ検出が向上する。

Modern robotics has enabled the advancement in yield estimation for precision agriculture. However, when applied to the olive industry, the high variation of olive colors and their similarity to the background leaf canopy presents a challenge. Labeling several thousands of very dense olive grove images for segmentation is a labor-intensive task. This paper presents a novel approach to detecting olives without the need to manually label data. In this work, we present the world's first olive detection dataset comprised of synthetic and real olive tree images. This is accomplished by generating an auto-labeled photorealistic 3D model of an olive tree. Its geometry is then simplified for lightweight rendering purposes. In addition, experiments are conducted with a mix of synthetically generated and real images, yielding an improvement of up to 66% compared to when only using a small sample of real data. When access to real, human-labeled data is limited, a combination of mostly synthetic data and a small amount of real data can enhance olive detection.
翻訳日:2023-08-17 13:55:03 公開日:2023-08-16
# OnUVS:高精細超音波ビデオ合成のためのオンライン機能分離フレームワーク

OnUVS: Online Feature Decoupling Framework for High-Fidelity Ultrasound Video Synthesis ( http://arxiv.org/abs/2308.08269v1 )

ライセンス: Link先を確認
Han Zhou, Dong Ni, Ao Chang, Xinrui Zhou, Rusi Chen, Yanlin Chen, Lian Liu, Jiamin Liang, Yuhao Huang, Tong Han, Zhe Liu, Deng-Ping Fan, Xin Yang(参考訳) 超音波(US)イメージングは臨床には不可欠である。 特定の疾患を診断するためには、ソノグラフィーは対応する動的解剖学的構造を観察して包括的な情報を集める必要がある。 しかし、米国の特定のビデオケースが限られているため、対応する疾患の特定が難しくなり、検出率に影響を及ぼす可能性がある。 アメリカのビデオの合成は、この問題に対する有望な解決策になるかもしれない。 それでも、画像の忠実さを維持しながら、動的解剖学的構造の複雑な動きを正確にアニメーションすることは困難である。 そこで本研究では,高忠実度USビデオ合成のためのオンライン機能分離フレームワークOnUVSを提案する。 私たちのハイライトは4つの側面で要約できる。 まず,キーポイント学習に下位教師付き学習戦略を通じて解剖情報を導入した結果,ラベリング負担を最小限に抑えつつ解剖学的完全性と運動の保存性が向上した。 第2に,画像の完全性とテクスチャ情報の保存性を向上させるため,ジェネレータ内のコンテンツとテキストの特徴を分離するデュアルデコーダを実装した。 第3に,多機能判別器を用いて視覚手がかりの包括的範囲を抽出し,映像のシャープさと細部を向上させた。 第4に,オンライン学習中のキーポイントの動き軌跡を制約し,生成ビデオの流動性を高めた。 心エコー図と骨盤底ビデオの検証とユーザスタディにより,OnUVSは高忠実度でUSビデオを合成することがわかった。

Ultrasound (US) imaging is indispensable in clinical practice. To diagnose certain diseases, sonographers must observe corresponding dynamic anatomic structures to gather comprehensive information. However, the limited availability of specific US video cases causes teaching difficulties in identifying corresponding diseases, which potentially impacts the detection rate of such cases. The synthesis of US videos may represent a promising solution to this issue. Nevertheless, it is challenging to accurately animate the intricate motion of dynamic anatomic structures while preserving image fidelity. To address this, we present a novel online feature-decoupling framework called OnUVS for high-fidelity US video synthesis. Our highlights can be summarized by four aspects. First, we introduced anatomic information into keypoint learning through a weakly-supervised training strategy, resulting in improved preservation of anatomical integrity and motion while minimizing the labeling burden. Second, to better preserve the integrity and textural information of US images, we implemented a dual-decoder that decouples the content and textural features in the generator. Third, we adopted a multiple-feature discriminator to extract a comprehensive range of visual cues, thereby enhancing the sharpness and fine details of the generated videos. Fourth, we constrained the motion trajectories of keypoints during online learning to enhance the fluidity of generated videos. Our validation and user studies on in-house echocardiographic and pelvic floor US videos showed that OnUVS synthesizes US videos with high fidelity.
翻訳日:2023-08-17 13:54:49 公開日:2023-08-16
# 変圧器モデルのためのOOD一般化における謎のパフォーマンス低下の理解

It Ain't That Bad: Understanding the Mysterious Performance Drop in OOD Generalization for Generative Transformer Models ( http://arxiv.org/abs/2308.08268v1 )

ライセンス: Link先を確認
Xingcheng Xu, Zihao Pan, Haipeng Zhang, Yanqing Yang(参考訳) 生成変圧器に基づくモデルは、多様な問題を解決するための優れた技術を達成している。 しかし、その一般化能力は完全には理解されておらず、必ずしも満足するとは限らない。 研究者は、n桁加算や乗法といった基本的な数学的タスクを、一般化の振る舞いを研究する上で重要な視点として捉えている。 皮肉なことに、両方の入力オペランドが n-digit である n-digit 操作(例えば、加算)のトレーニングでは、モデルが未知の n-digit 入力 (in-distriion (ID) generalization) でうまく一般化するが、より長く、神秘的に失敗する(out-of-distriion (OOD) generalization)。 このギャップを,位置埋め込みや微調整,プライミングなどの回避策と,より広範囲な,あるいは指示的なデータで橋渡ししようとする研究もある。 しかし、本質的なメカニズムに対処することなく、これらの解の堅牢性に関する保証はほとんどない。 この説明不能なパフォーマンスの低下に注意を向け、それが純粋にランダムなエラーであるかどうかを問う。 ここでは,モデル解釈性に顕著な成功をおさめた機械学的な研究に目を向ける。 強id一般化は構造化表現に起因するが,ood性能の満足度は低いが,モデルには明快な代数的構造が残っている。 具体的には、これらのモデルは OOD 入力を ID ドメインで等価な関係を持つ出力にマップする。 これらは、一般化を改善するための有用な情報を運ぶモデルの可能性を強調している。

Generative Transformer-based models have achieved remarkable proficiency on solving diverse problems. However, their generalization ability is not fully understood and not always satisfying. Researchers take basic mathematical tasks like n-digit addition or multiplication as important perspectives for investigating their generalization behaviors. Curiously, it is observed that when training on n-digit operations (e.g., additions) in which both input operands are n-digit in length, models generalize successfully on unseen n-digit inputs (in-distribution (ID) generalization), but fail miserably and mysteriously on longer, unseen cases (out-of-distribution (OOD) generalization). Studies try to bridge this gap with workarounds such as modifying position embedding, fine-tuning, and priming with more extensive or instructive data. However, without addressing the essential mechanism, there is hardly any guarantee regarding the robustness of these solutions. We bring this unexplained performance drop into attention and ask whether it is purely from random errors. Here we turn to the mechanistic line of research which has notable successes in model interpretability. We discover that the strong ID generalization stems from structured representations, while behind the unsatisfying OOD performance, the models still exhibit clear learned algebraic structures. Specifically, these models map unseen OOD inputs to outputs with equivalence relations in the ID domain. These highlight the potential of the models to carry useful information for improved generalization.
翻訳日:2023-08-17 13:54:25 公開日:2023-08-16
# ウィグナーの友人設定における古典的情報と崩壊

Classical information and collapse in Wigner's friend setups ( http://arxiv.org/abs/2308.08260v1 )

ライセンス: Link先を確認
Veronika Baumann(参考訳) 有名なウィグナーの友人実験では、友人を量子システムとして扱い、他の量子システムとの相互作用をユニタリダイナミクスとして扱うオブザーバー(友人)とスーパーオブザーバー(スーパーオブザーバー)を考える。 これは、崩壊力学(英語版)を通してこの相互作用を記述する友人と、彼女が測定を考える方法で量子システムと相互作用する場合に異論がある。 これらの異なる記述はウィグナーの友人パラドックスを構成する。 extended wignerのfriend experimentsは、オリジナルの思考実験と非局所的な設定を組み合わせたものである。 これにより、ある拡張されたウィグナーの友人シナリオに対して違反できるベルの定理と同様に、局所的な友情の不等式を導出することができる。 ウィグナーの友人のパラドックスと地元の友人関係の不平等の違反は、古典的記録が存在しないことを必要とし、友人が測定中に観察した結果を明らかにする。 そうでなければ、ウィグナーは彼の友人の説明に同意し、地元の友情の不平等は犯せない。 本稿では,Wigner と友人間の古典的コミュニケーションについて紹介し,Wigner の友人実験のシンプルさと拡張性について論じる。 Wignerと友人間の(準)古典的なコミュニケーションチャネルの特性を制御することにより、友人の測定結果に関する情報がどの程度明らかにされるかを制御することができる。 これにより、パラドックス的記述と局所的な友情の不平等を犯す可能性の間の円滑な遷移と、一方では事実上崩壊するケースが生じる。

The famous Wigner's friend experiment considers an observer -- the friend -- and a superobserver -- Wigner -- who treats the friend as a quantum system and her interaction with other quantum systems as unitary dynamics. This is at odds with the friend describing this interaction via collapse dynamics, if she interacts with the quantum system in a way that she would consider a measurement. These different descriptions constitute the Wigner's friend paradox. Extended Wigner's friend experiments combine the original thought experiment with non-locality setups. This allows for deriving local friendliness inequalities, similar to Bell's theorem, which can be violated for certain extended Wigner's friend scenarios. A Wigner's friend paradox and the violation of local friendliness inequalities require that no classical record exists, which reveals the result the friend observed during her measurement. Otherwise Wigner agrees with his friend's description and no local friendliness inequality can be violated. In this article, I introduce classical communication between Wigner and his friend and discuss its effects on the simple as well as extended Wigner's friend experiments. By controlling the properties of a (quasi) classical communication channel between Wigner and the friend one can regulate how much outcome information about the friend's measurement is revealed. This gives a smooth transition between the paradoxical description and the possibility of violating local friendliness inequalities, on the one hand, and the effectively collapsed case, on the other hand.
翻訳日:2023-08-17 13:53:58 公開日:2023-08-16
# グラフ関係を考慮した連続学習

Graph Relation Aware Continual Learning ( http://arxiv.org/abs/2308.08259v1 )

ライセンス: Link先を確認
Qinghua Shen and Weijieying Ren and Wei Qin(参考訳) 連続グラフ学習(CGL)は、無限列のグラフデータから学習し、歴史的知識を集約し、それを将来のタスクに一般化する問題を研究する。 同時に、現在のグラフデータのみが利用可能である。 このタスクを扱うために最近いくつかの試みが行われたが、まだ2つの潜在的な課題に直面している。 1) 既存の研究の多くは中間グラフの埋め込みのみを扱い、グラフの内在的性質を無視する。 グラフをまたいで転送された情報を区別するのは非自明である。 2)最近の試みでは,時間ステップをまたいで知識を伝達したり,シフトしたグラフ分布を段階的に拡張したりするためのパラメータ共有政策が試みられている。 単一のモデルを学習すると、各グラフタスクの識別情報が失われ、モデル拡張スキームはモデルの複雑さに悩まされる。 本稿では,グラフエッジの背後にある潜在関係が発展するグラフの不変因子として説明され,潜在関係の統計情報が進化することを示す。 エッジの背後にある潜在関係を探索するリレーション・ディスカバリーモジュールと,シフトを考慮したタスク認識マスク分類器で構成される,リレーション・アウェア・アダプティブモデルの設計を行った。 大規模な実験により、RAM-CGはCitationNet、OGBN-arxiv、TWITCHデータセットの最先端結果に対して、それぞれ2.2%、6.9%、および6.6%の精度向上を提供することが示された。

Continual graph learning (CGL) studies the problem of learning from an infinite stream of graph data, consolidating historical knowledge, and generalizing it to the future task. At once, only current graph data are available. Although some recent attempts have been made to handle this task, we still face two potential challenges: 1) most of existing works only manipulate on the intermediate graph embedding and ignore intrinsic properties of graphs. It is non-trivial to differentiate the transferred information across graphs. 2) recent attempts take a parameter-sharing policy to transfer knowledge across time steps or progressively expand new architecture given shifted graph distribution. Learning a single model could loss discriminative information for each graph task while the model expansion scheme suffers from high model complexity. In this paper, we point out that latent relations behind graph edges can be attributed as an invariant factor for the evolving graphs and the statistical information of latent relations evolves. Motivated by this, we design a relation-aware adaptive model, dubbed as RAM-CG, that consists of a relation-discovery modular to explore latent relations behind edges and a task-awareness masking classifier to accounts for the shifted. Extensive experiments show that RAM-CG provides significant 2.2%, 6.9% and 6.6% accuracy improvements over the state-of-the-art results on CitationNet, OGBN-arxiv and TWITCH dataset, respective.
翻訳日:2023-08-17 13:53:30 公開日:2023-08-16
# SceNeRFlow: 一般的な動的シーンの時間持続的再構成

SceNeRFlow: Time-Consistent Reconstruction of General Dynamic Scenes ( http://arxiv.org/abs/2308.08258v1 )

ライセンス: Link先を確認
Edith Tretschk, Vladislav Golyanik, Michael Zollhoefer, Aljaz Bozic, Christoph Lassner, Christian Theobalt(参考訳) 一般的な非剛性物体の4次元再構成のための既存の手法は、新規なビュー合成と無視対応に焦点を当てている。 しかし、時間一貫性は、3D編集、モーション分析、仮想アセット作成といった高度な下流タスクを可能にする。 我々はSceNeRFlowを提案し、時間的一貫性のある方法で一般的な非剛体シーンを再構築する。 我々の動的NeRF法は、静止カメラからのマルチビューRGBビデオと背景画像を、既知のカメラパラメータを入力として取り込む。 その後、オンライン形式で幾何学と外観の推定正準モデルの変形を再構築する。 この標準モデルは時間不変であるため、長期の長距離運動に対しても対応性が得られる。 本手法のコンポーネントをパラメータ化するために,ニューラルシーン表現を用いる。 従来の動的NeRF法と同様に、後方変形モデルを用いる。 変形を強正則化された粗い成分と弱正則化された微細成分に分解し、粗い成分が物体を囲む空間に変形場を拡張し、時間とともに追跡できるようにする。 実験により,小動作のみを扱う先行作業とは異なり,本手法がスタジオスケール動作の再構築を可能にすることを示す。

Existing methods for the 4D reconstruction of general, non-rigidly deforming objects focus on novel-view synthesis and neglect correspondences. However, time consistency enables advanced downstream tasks like 3D editing, motion analysis, or virtual-asset creation. We propose SceNeRFlow to reconstruct a general, non-rigid scene in a time-consistent manner. Our dynamic-NeRF method takes multi-view RGB videos and background images from static cameras with known camera parameters as input. It then reconstructs the deformations of an estimated canonical model of the geometry and appearance in an online fashion. Since this canonical model is time-invariant, we obtain correspondences even for long-term, long-range motions. We employ neural scene representations to parametrize the components of our method. Like prior dynamic-NeRF methods, we use a backwards deformation model. We find non-trivial adaptations of this model necessary to handle larger motions: We decompose the deformations into a strongly regularized coarse component and a weakly regularized fine component, where the coarse component also extends the deformation field into the space surrounding the object, which enables tracking over time. We show experimentally that, unlike prior work that only handles small motion, our method enables the reconstruction of studio-scale motions.
翻訳日:2023-08-17 13:53:01 公開日:2023-08-16
# ECPC-IDS:超代謝領域のセグメンテーションと検出のためのベンチマーク内膜癌PET/CT画像データセット

ECPC-IDS:A benchmark endometrail cancer PET/CT image dataset for evaluation of semantic segmentation and detection of hypermetabolic regions ( http://arxiv.org/abs/2308.08313v1 )

ライセンス: Link先を確認
Dechao Tang, Xuanyi Li, Tianming Du, Deguo Ma, Zhiyu Ma, Hongzan Sun, Marcin Grzegorzek, Huiyan Jiang, Chen Li(参考訳) 子宮内膜癌は女性の生殖系で最も一般的な腫瘍の1つであり、卵巣癌と子宮頸癌の後死を引き起こす3番目に一般的な婦人科悪性腫瘍である。 早期診断は5年生存率を大幅に向上させる。 人工知能の開発により、コンピュータ支援診断は診断の正確性と客観性を向上し、医師の作業量を減らす上で、ますます重要な役割を担っている。 しかし, 子宮内膜癌画像データセットの欠如は, コンピュータ支援診断技術の応用を制限している。本論文では, セマンティックセグメンテーション評価用PET/CT画像データセット(ECPC-IDS)を公表する。 具体的には、セグメンテーション部はPETおよびCT画像を含み、合計7159の画像を複数のフォーマットで表示する。 ECPC-IDSにおけるセグメンテーション手法の有効性を証明するため、画像セグメンテーションタスクをテストするために、5つの古典的なディープラーニングセグメンテーション手法を選択した。 オブジェクト検出部はまた、PETおよびCT画像を含み、合計3579の画像とアノテーション情報付きXMLファイルを含む。 本研究は、深層学習に基づくセマンティックセグメンテーションとオブジェクト検出手法を用いて、ECPC-IDSにおける様々な方法の違いを実証する広範囲な実験を行う。 われわれが知る限り、このデータセットは、多数の画像を持つ子宮内膜癌の最初の公開データセットであり、画像とターゲット検出に必要な大量の情報を含んでいる。 ecpc-idsは、研究者がコンピュータ支援技術を強化する新しいアルゴリズムを探求するのに役立つ。

Endometrial cancer is one of the most common tumors in the female reproductive system and is the third most common gynecological malignancy that causes death after ovarian and cervical cancer. Early diagnosis can significantly improve the 5-year survival rate of patients. With the development of artificial intelligence, computer-assisted diagnosis plays an increasingly important role in improving the accuracy and objectivity of diagnosis, as well as reducing the workload of doctors. However, the absence of publicly available endometrial cancer image datasets restricts the application of computer-assisted diagnostic techniques.In this paper, a publicly available Endometrial Cancer PET/CT Image Dataset for Evaluation of Semantic Segmentation and Detection of Hypermetabolic Regions (ECPC-IDS) are published. Specifically, the segmentation section includes PET and CT images, with a total of 7159 images in multiple formats. In order to prove the effectiveness of segmentation methods on ECPC-IDS, five classical deep learning semantic segmentation methods are selected to test the image segmentation task. The object detection section also includes PET and CT images, with a total of 3579 images and XML files with annotation information. Six deep learning methods are selected for experiments on the detection task.This study conduct extensive experiments using deep learning-based semantic segmentation and object detection methods to demonstrate the differences between various methods on ECPC-IDS. As far as we know, this is the first publicly available dataset of endometrial cancer with a large number of multiple images, including a large amount of information required for image and target detection. ECPC-IDS can aid researchers in exploring new algorithms to enhance computer-assisted technology, benefiting both clinical doctors and patients greatly.
翻訳日:2023-08-17 13:46:42 公開日:2023-08-16
# 数理最適化におけるデータ駆動説明可能性の枠組み

A Framework for Data-Driven Explainability in Mathematical Optimization ( http://arxiv.org/abs/2308.08309v1 )

ライセンス: Link先を確認
Kevin-Martin Aigner, Marc Goerigk, Michael Hartisch, Frauke Liers, Arthur Miehlich(参考訳) 数理プログラミングの進歩により、数十年前には難解と見なされていた大規模な実世界の問題に効率的に取り組めるようになった。 しかし、最適化ソフトウェアをブラックボックスとして認識するため、証明可能な最適解は受け入れられない。 科学者はよく理解しているが、これは実践者にとって容易なアクセシビリティを欠いている。 したがって、目的値の横にある別の評価基準としてソリューションの説明可能性を導入することで、これらの2つの基準間のトレードオフソリューションを見つけることができる。 説明可能性は、過去に同様の状況で実装された(必ずしも最適ではない)ソリューションと比較することによって達成される。 したがって、同様の特徴を示すソリューションが好まれる。 すでに単純な場合では説明可能なモデルはnpハードであることが証明されているが、説明可能な最短経路問題のような関連する多項式可解の場合を特徴付ける。 実世界の道路網と人工道路網の両方に関する数値実験は,パレートフロントの結果を示している。 説明責任を強制するコストは非常に小さいことが分かりました。

Advancements in mathematical programming have made it possible to efficiently tackle large-scale real-world problems that were deemed intractable just a few decades ago. However, provably optimal solutions may not be accepted due to the perception of optimization software as a black box. Although well understood by scientists, this lacks easy accessibility for practitioners. Hence, we advocate for introducing the explainability of a solution as another evaluation criterion, next to its objective value, which enables us to find trade-off solutions between these two criteria. Explainability is attained by comparing against (not necessarily optimal) solutions that were implemented in similar situations in the past. Thus, solutions are preferred that exhibit similar features. Although we prove that already in simple cases the explainable model is NP-hard, we characterize relevant polynomially solvable cases such as the explainable shortest-path problem. Our numerical experiments on both artificial as well as real-world road networks show the resulting Pareto front. It turns out that the cost of enforcing explainability can be very small.
翻訳日:2023-08-17 13:46:10 公開日:2023-08-16
# 曖昧な環境における認知地図学習とアクティブ推論の統合

Integrating cognitive map learning and active inference for planning in ambiguous environments ( http://arxiv.org/abs/2308.08307v1 )

ライセンス: Link先を確認
Toon Van de Maele, Bart Dhoedt, Tim Verbelen, Giovanni Pezzulo(参考訳) 生物は、世界の構造を学ぶための認知マップと、曖昧な環境をナビゲートする課題に対処できる計画メカニズムの両方を取得する必要がある。 これらの領域は独立して大きな進歩を遂げているが、これらを統合する最善の方法はオープンな研究課題である。 本稿では,不確実性下の計画を支援する能動推論エージェントにおける認知地図形成の統計的モデルの統合を提案する。 具体的には,3つの空間的ナビゲーションシナリオにおいて,認知地図形成のクローン構造認知グラフ(cscg)モデルを調べ,ナイーブクローングラフエージェントとアクティブ推論駆動クローングラフエージェントを比較した。 以上の結果から,両エージェントは単純なシナリオでは有効であるが,行動的推論エージェントは難易度の高いシナリオではより効果的であり,感覚観察は位置に関するあいまいな情報を提供する。

Living organisms need to acquire both cognitive maps for learning the structure of the world and planning mechanisms able to deal with the challenges of navigating ambiguous environments. Although significant progress has been made in each of these areas independently, the best way to integrate them is an open research question. In this paper, we propose the integration of a statistical model of cognitive map formation within an active inference agent that supports planning under uncertainty. Specifically, we examine the clone-structured cognitive graph (CSCG) model of cognitive map formation and compare a naive clone graph agent with an active inference-driven clone graph agent, in three spatial navigation scenarios. Our findings demonstrate that while both agents are effective in simple scenarios, the active inference agent is more effective when planning in challenging scenarios, in which sensory observations provide ambiguous information about location.
翻訳日:2023-08-17 13:45:55 公開日:2023-08-16
# ユークリッド関数の最適化に関するワープ幾何情報

Warped geometric information on the optimisation of Euclidean functions ( http://arxiv.org/abs/2308.08305v1 )

ライセンス: Link先を確認
Marcelo Hartmann, Bernardo Williams, Hanlin Yu, Mark Girolami, Alessandro Barp and Arto Klami(参考訳) 多くの機械学習タスクにおける損失関数や統計的推論における確率分布の対数といった、潜在的に高次元ユークリッド空間で定義される実数値関数を最適化する基本的なタスクを考える。 有向リーマン幾何学の概念を用いてユークリッド空間上の函数の最適化問題を有向計量を持つリーマン多様体に再定義し、この多様体に沿って関数の最適を求める。 探索領域に選択された歪んだ計量は、多様体上の測地線曲線に付随する最適な探索方向が計算し易くなる計算フレンドリーな計量テンソルを誘導する。 測地線に沿った最適化の実行は一般に不可能であることが知られているが、この特定の多様体ではテイラー近似を3階まで解析的に導出できることが示される。 一般に、これらの測地線曲線への近似は多様体上には存在しないが、多様体上に引き戻すのに適した引き算写像を構築する。 したがって、近似測地線曲線に沿って効率的に最適化できる。 関連する理論を取り上げ,実用的な最適化アルゴリズムを記述し,挑戦的最適化ベンチマークを用いて実証的に評価する。 提案アルゴリズムは,測地学の3次近似を用いて,収束までの反復回数の点において標準ユークリッド勾配に基づく近似を上回り,ヘッセン系最適化ルーチンの代替手法である。

We consider the fundamental task of optimizing a real-valued function defined in a potentially high-dimensional Euclidean space, such as the loss function in many machine-learning tasks or the logarithm of the probability distribution in statistical inference. We use the warped Riemannian geometry notions to redefine the optimisation problem of a function on Euclidean space to a Riemannian manifold with a warped metric, and then find the function's optimum along this manifold. The warped metric chosen for the search domain induces a computational friendly metric-tensor for which optimal search directions associate with geodesic curves on the manifold becomes easier to compute. Performing optimization along geodesics is known to be generally infeasible, yet we show that in this specific manifold we can analytically derive Taylor approximations up to third-order. In general these approximations to the geodesic curve will not lie on the manifold, however we construct suitable retraction maps to pull them back onto the manifold. Therefore, we can efficiently optimize along the approximate geodesic curves. We cover the related theory, describe a practical optimization algorithm and empirically evaluate it on a collection of challenging optimisation benchmarks. Our proposed algorithm, using third-order approximation of geodesics, outperforms standard Euclidean gradient-based counterparts in term of number of iterations until convergence and an alternative method for Hessian-based optimisation routines.
翻訳日:2023-08-17 13:45:41 公開日:2023-08-16
# エゴセントリックビデオにおける文脈認識予測のためのnext-active objectsの活用

Leveraging Next-Active Objects for Context-Aware Anticipation in Egocentric Videos ( http://arxiv.org/abs/2308.08303v1 )

ライセンス: Link先を確認
Sanket Thakur, Cigdem Beyan, Pietro Morerio, Vittorio Murino, Alessio Del Bue(参考訳) オブジェクトは、人間とオブジェクトの相互作用を理解するのに不可欠である。 関連するオブジェクトを特定することで、これらのオブジェクトで起こりうる潜在的な未来の相互作用やアクションを予測することもできる。 本稿では,短期的物体間相互作用予測 (sta) の問題について検討し,次にアクティブな物体 (nao) を予測し,最終的にモデルにコンテキスト認識の将来行動を予測するためのモデル誘導を行うマルチモーダル・エンドツーエンド・トランスフォーマーネットワークである naogat (next-active-object guided precipation transformer) を提案する。 このタスクは、アクションが発生するオブジェクトと、その相互作用が始まる時間、すなわち、接触する時間(ttc)とともに、将来のアクションを予測する必要があるため、難しい。 アクション予測のための既存のビデオモデリングアーキテクチャと比較して、NAOGATは、オブジェクトとグローバルシーンコンテキストの関係をキャプチャして、次のアクティブなオブジェクトの検出を予測し、これらの検出により関連する将来のアクションを予測する。 実際、我々のアプローチの重要な強みの1つは、与えられたクリップ内のオブジェクトの動作ダイナミクスを利用する能力です。 実験により,我々のモデルが既存の2つのデータセット(ego4dとepickitchens-100(unseen set))上の既存手法を上回っており,時間や接触,次にアクティブなオブジェクトのローカライズなど,いくつかの指標で測定した。 コードは受理後利用可能になる。

Objects are crucial for understanding human-object interactions. By identifying the relevant objects, one can also predict potential future interactions or actions that may occur with these objects. In this paper, we study the problem of Short-Term Object interaction anticipation (STA) and propose NAOGAT (Next-Active-Object Guided Anticipation Transformer), a multi-modal end-to-end transformer network, that attends to objects in observed frames in order to anticipate the next-active-object (NAO) and, eventually, to guide the model to predict context-aware future actions. The task is challenging since it requires anticipating future action along with the object with which the action occurs and the time after which the interaction will begin, a.k.a. the time to contact (TTC). Compared to existing video modeling architectures for action anticipation, NAOGAT captures the relationship between objects and the global scene context in order to predict detections for the next active object and anticipate relevant future actions given these detections, leveraging the objects' dynamics to improve accuracy. One of the key strengths of our approach, in fact, is its ability to exploit the motion dynamics of objects within a given clip, which is often ignored by other models, and separately decoding the object-centric and motion-centric information. Through our experiments, we show that our model outperforms existing methods on two separate datasets, Ego4D and EpicKitchens-100 ("Unseen Set"), as measured by several additional metrics, such as time to contact, and next-active-object localization. The code will be available upon acceptance.
翻訳日:2023-08-17 13:45:16 公開日:2023-08-16
# 多光子損失に対する発振器のフォック状態の自律安定化

Autonomous stabilization of Fock states in an oscillator against multi-photon losses ( http://arxiv.org/abs/2308.08296v1 )

ライセンス: Link先を確認
Sai Li and Zhongchu Ni and Libo Zhang and Yanyan Cai and Jiasheng Mai and Shengcheng Wen and Pan Zheng and Xiaowei Deng and Song Liu and Yuan Xu and Dapeng Yu(参考訳) 発振器内の多くの光子を持つフォック状態は、量子情報科学の幅広い応用を示している。 それでも、その有用性は、避けられない環境による散逸による単光子損失と複数光子損失によって損なわれている。 いくつかの散逸工学手法が、先行する単一光子損失の誤差に対処するために開発されているが、複数の光子損失を回避することは、いまだ解明されていない。 本稿では,超伝導量子回路における選択光子付加操作を用いた多重光子の損失に対して,多光子フォック状態を自律的に安定化する散逸工学手法を実験的に実証する。 振動子状態の光子数およびウィグナートモグラフィーを測定することにより、安定化されたフォック状態に対する量子コヒーレンス特性の長期保存を観測し、約10$〜msでN=1,2,3$で、50~\mu$s未満の固有寿命をはるかに超える。 さらに、ここで実証された散逸エンジニアリング手法は、二項符号化された論理量子ビットをリセットする非単項演算の実装を容易にする。 これらの結果は、多光子ロスエラーに対する誤り訂正量子情報処理の潜在的な応用を浮き彫りにする。

Fock states with a well-defined number of photons in an oscillator have shown a wide range of applications in quantum information science. Nonetheless, their usefulness has been marred by single and multiple photon losses due to unavoidable environment-induced dissipation. Though several dissipation engineering methods have been developed to counteract the leading single-photon loss error, averting multiple photon losses remains elusive. Here, we experimentally demonstrate a dissipation engineering method that autonomously stabilizes multi-photon Fock states against losses of multiple photons using a cascaded selective photon-addition operation in a superconducting quantum circuit. Through measuring the photon-number populations and Wigner tomography of the oscillator states, we observe a prolonged preservation of quantum coherence properties for the stabilized Fock states $\vert N\rangle$ with $N=1,2,3$ for a duration of about $10$~ms, far surpassing their intrinsic lifetimes of less than $50~\mu$s. Furthermore, the dissipation engineering method demonstrated here also facilitates the implementation of a non-unitary operation for resetting a binomially-encoded logical qubit. These results highlight the potential application in error-correctable quantum information processing against multi-photon-loss errors.
翻訳日:2023-08-17 13:44:43 公開日:2023-08-16
# Detoxify言語モデルステップバイステップ

Detoxify Language Model Step-by-Step ( http://arxiv.org/abs/2308.08295v1 )

ライセンス: Link先を確認
Zecheng Tang, Keyan Zhou, Pinzheng Wang, Yuyang Ding, Juntao Li, Minzhang(参考訳) LLMのデトックス化は、生成能力を維持しながら有害なコンテンツの生成を避けるためにモデルを必要とするため、難しい。 世代間の安全性を確保するため、データ分布を変化させたり、異なる側面から世代を制約したりして、1ステップでモデルをデトックス化する。 しかし、これらのアプローチは、言語モデルが有害なプロンプトに沿って生成されがちであり、非毒化手法が反対方向に働くため、言論コヒーレンスや意味的一貫性といったllmの生成品質に劇的に影響を及ぼす。 このような対立に対処するため, 脱トキシ化過程を異なるサブステップに分解し, 脱トキシ化を入力段階に集中させ, 続く連続生成を非毒性プロンプトに基づいて行う。 さらに,上記のサブステップを順序的に接続するdetoxチェーンを設計することで,llmの強力な推論能力を最適化し,テキストのステップバイステップ化を可能にした。 Detox-Chain によるトレーニングにより,1B から 33B までの6つの LLM のスケーリングにより,デトキシ化と生成の大幅な向上が得られた。 コードとデータはhttps://github.com/CODINNLG/Detox-CoT.comで公開されています。 警告: 論文の例には、無検閲の攻撃的内容が含まれている可能性がある。

Detoxification for LLMs is challenging since it requires models to avoid generating harmful content while maintaining the generation capability. To ensure the safety of generations, previous detoxification methods detoxify the models by changing the data distributions or constraining the generations from different aspects in a single-step manner. However, these approaches will dramatically affect the generation quality of LLMs, e.g., discourse coherence and semantic consistency, since language models tend to generate along the toxic prompt while detoxification methods work in the opposite direction. To handle such a conflict, we decompose the detoxification process into different sub-steps, where the detoxification is concentrated in the input stage and the subsequent continual generation is based on the non-toxic prompt. Besides, we also calibrate the strong reasoning ability of LLMs by designing a Detox-Chain to connect the above sub-steps in an orderly manner, which allows LLMs to detoxify the text step-by-step. Automatic and human evaluation on two benchmarks reveals that by training with Detox-Chain, six LLMs scaling from 1B to 33B can obtain significant detoxification and generation improvement. Our code and data are available at https://github.com/CODINNLG/Detox-CoT. Warning: examples in the paper may contain uncensored offensive content.
翻訳日:2023-08-17 13:44:23 公開日:2023-08-16
# ロバストベイズ満足度

Robust Bayesian Satisficing ( http://arxiv.org/abs/2308.08291v1 )

ライセンス: Link先を確認
Artun Saday, Ya\c{s}ar Cahit Y{\i}ld{\i}r{\i}m, Cem Tekin(参考訳) 分散シフトは、現代の機械学習における堅牢性を達成する上で大きな課題となる。 この課題を克服するために、ロバスト満足度(RS)は、所望の閾値を超えるユーティリティを達成しつつ、特定されていない分布シフトに対する堅牢な解決策を求める。 本稿では,コンテキストの真と参照分布に相違がある場合,文脈ベイズ最適化におけるRSの問題に焦点を当てる。 ノイズの多いブラックボックス最適化のためのロバストなベイズ充足アルゴリズムRoBOSを提案する。 本アルゴリズムは, 分布シフト量に一定の仮定の下で, サブリニアな寛大な後悔を保証する。 さらに,本アルゴリズムは,分散シフト量に依存しない部分線形上界を実現するという,ロバスト満足な後悔と呼ばれる,より弱い後悔概念を定義する。 本手法の有効性を示すために,様々な学習問題に適用し,分布的ロバスト最適化など他の手法と比較する。

Distributional shifts pose a significant challenge to achieving robustness in contemporary machine learning. To overcome this challenge, robust satisficing (RS) seeks a robust solution to an unspecified distributional shift while achieving a utility above a desired threshold. This paper focuses on the problem of RS in contextual Bayesian optimization when there is a discrepancy between the true and reference distributions of the context. We propose a novel robust Bayesian satisficing algorithm called RoBOS for noisy black-box optimization. Our algorithm guarantees sublinear lenient regret under certain assumptions on the amount of distribution shift. In addition, we define a weaker notion of regret called robust satisficing regret, in which our algorithm achieves a sublinear upper bound independent of the amount of distribution shift. To demonstrate the effectiveness of our method, we apply it to various learning problems and compare it to other approaches, such as distributionally robust optimization.
翻訳日:2023-08-17 13:44:00 公開日:2023-08-16
# dfedadmm: 分散連合学習のための2重制約制御モデル不整合

DFedADMM: Dual Constraints Controlled Model Inconsistency for Decentralized Federated Learning ( http://arxiv.org/abs/2308.08290v1 )

ライセンス: Link先を確認
Qinglun Li, Li Shen, Guanghao Li, Quanjun Yin, Dacheng Tao(参考訳) 連合学習(fl)に関連する通信負担問題に対処するため、分散連合学習(dfl)は中央サーバを破棄し、各クライアントが隣のクライアントとのみ通信する分散通信ネットワークを構築する。 しかし、既存のDFL法は、局所的不整合と局所的不均一なオーバーフィッティングという2つの大きな課題に悩まされている。 これらの課題に対処するため、新しいDFLアルゴリズムDFedADMMとその拡張版DFedADMM-SAMを提案し、DFLの性能を向上させる。 DFedADMMアルゴリズムは、分散化された不均一なデータ分布から生じるモデル不整合を制御するために、双対変数を利用する原始双対最適化(ADMM)を用いる。 DFedADMM-SAMアルゴリズムは、局所的に平坦なモデルを生成するために勾配摂動を用いて局所的な不均一なオーバーフィッティングを緩和するシャープネス・アウェア最小化(SAM)オプティマイザを用いて、DFedADMMをさらに改善する。 理論的には、$\small \mathcal{O}\Big(\frac{1}{\sqrt{KT}}+\frac{1}{KT(1-\psi)^2}\Big)$と$\small \mathcal{O}\Big(\frac{1}{\sqrt{KT}}+\frac{1}{KT(1-\psi)^2}+ \frac{1}{T^{3/2}K^{1/2}}\Big)$の収束率をDFedADMMとDFedADMM-SAMの非凸設定で導出する。 MNIST, CIFAR10, CIFAR100ラテセットの広範な実験により, このアルゴリズムはDFLの既存のSOTAオプティマイザと比較して, 一般化と収束速度の両方において優れた性能を示した。

To address the communication burden issues associated with federated learning (FL), decentralized federated learning (DFL) discards the central server and establishes a decentralized communication network, where each client communicates only with neighboring clients. However, existing DFL methods still suffer from two major challenges: local inconsistency and local heterogeneous overfitting, which have not been fundamentally addressed by existing DFL methods. To tackle these issues, we propose novel DFL algorithms, DFedADMM and its enhanced version DFedADMM-SAM, to enhance the performance of DFL. The DFedADMM algorithm employs primal-dual optimization (ADMM) by utilizing dual variables to control the model inconsistency raised from the decentralized heterogeneous data distributions. The DFedADMM-SAM algorithm further improves on DFedADMM by employing a Sharpness-Aware Minimization (SAM) optimizer, which uses gradient perturbations to generate locally flat models and searches for models with uniformly low loss values to mitigate local heterogeneous overfitting. Theoretically, we derive convergence rates of $\small \mathcal{O}\Big(\frac{1}{\sqrt{KT}}+\frac{1}{KT(1-\psi)^2}\Big)$ and $\small \mathcal{O}\Big(\frac{1}{\sqrt{KT}}+\frac{1}{KT(1-\psi)^2}+ \frac{1}{T^{3/2}K^{1/2}}\Big)$ in the non-convex setting for DFedADMM and DFedADMM-SAM, respectively, where $1 - \psi$ represents the spectral gap of the gossip matrix. Empirically, extensive experiments on MNIST, CIFAR10 and CIFAR100 datesets demonstrate that our algorithms exhibit superior performance in terms of both generalization and convergence speed compared to existing state-of-the-art (SOTA) optimizers in DFL.
翻訳日:2023-08-17 13:43:45 公開日:2023-08-16
# 双方向生成による視聴覚セグメンテーションの改善

Improving Audio-Visual Segmentation with Bidirectional Generation ( http://arxiv.org/abs/2308.08288v1 )

ライセンス: Link先を確認
Dawei Hao, Yuxin Mao, Bowen He, Xiaodong Han, Yuchao Dai, Yiran Zhong(参考訳) 音声視覚分割(AVS)の目的は、ビデオ内の可聴物体をピクセルレベルまで正確に識別することである。 従来のアプローチでは、それぞれのモダリティの寄与が暗黙的あるいは明示的にモデル化される様々なモダリティからの情報を組み合わせることで、この課題に取り組むことが多い。 それでも、異なるモード間の相互接続は、オーディオ・ビジュアル・モデリングでは見過ごされがちである。 本稿では,物体の音とその視覚的外観を精神的にシミュレートする人間の能力に着想を得て,双方向生成フレームワークを提案する。 このフレームワークは、物体の視覚的特徴と関連する音との堅牢な相関を確立し、AVSの性能を高める。 これを実現するために,オブジェクトセグメンテーションマスクから音声特徴を再構成し,再構成誤差を最小化する視覚から聴覚への投影成分を用いる。 さらに,多くの音が物体の動きに結びついていることを認識し,従来の光学的フロー法で捉えるのが困難な時間的ダイナミクスを扱う暗黙の体積運動推定モジュールを導入する。 提案手法の有効性を示すため,広く知られているAVSBenchベンチマークで包括的な実験と分析を行った。 その結果、AVSベンチマークにおいて、特に複数の音源のセグメント化を伴う挑戦的なMS3サブセットにおいて、新しい最先端性能レベルを確立した。 再現性を高めるため,ソースコードと事前学習モデルの両方をリリースする計画である。

The aim of audio-visual segmentation (AVS) is to precisely differentiate audible objects within videos down to the pixel level. Traditional approaches often tackle this challenge by combining information from various modalities, where the contribution of each modality is implicitly or explicitly modeled. Nevertheless, the interconnections between different modalities tend to be overlooked in audio-visual modeling. In this paper, inspired by the human ability to mentally simulate the sound of an object and its visual appearance, we introduce a bidirectional generation framework. This framework establishes robust correlations between an object's visual characteristics and its associated sound, thereby enhancing the performance of AVS. To achieve this, we employ a visual-to-audio projection component that reconstructs audio features from object segmentation masks and minimizes reconstruction errors. Moreover, recognizing that many sounds are linked to object movements, we introduce an implicit volumetric motion estimation module to handle temporal dynamics that may be challenging to capture using conventional optical flow methods. To showcase the effectiveness of our approach, we conduct comprehensive experiments and analyses on the widely recognized AVSBench benchmark. As a result, we establish a new state-of-the-art performance level in the AVS benchmark, particularly excelling in the challenging MS3 subset which involves segmenting multiple sound sources. To facilitate reproducibility, we plan to release both the source code and the pre-trained model.
翻訳日:2023-08-17 13:42:49 公開日:2023-08-16
# GAEI-UNet: 容器画像セグメンテーションのためのグローバルアテンションと弾性相互作用U-Net

GAEI-UNet: Global Attention and Elastic Interaction U-Net for Vessel Image Segmentation ( http://arxiv.org/abs/2308.08345v1 )

ライセンス: Link先を確認
Ruiqiang Xiao, Zhuoyue Wan, Yang Xiang(参考訳) 血管イメージセグメンテーションは、血管疾患の早期発見と治療を支援する医療診断において重要な役割を担っている。 ディープラーニングに基づくセグメンテーションは有望な結果を示しているが、小さな構造を効果的にセグメンテーションし、相互接続を維持することは依然として難しい。 これらの制約に対処するため,グローバルアテンションと弾性相互作用に基づく手法を組み合わせた新しいモデルGAEI-UNetを提案する。 GAEI-UNetは、グローバル空間およびチャネルコンテキスト情報を活用して、U-Netアーキテクチャ内の高レベルなセマンティック理解を強化し、小型船舶の正確なセグメンテーションを可能にする。 さらに,これらの微細構造間の接続性を改善するために,弾性的相互作用に基づく損失関数を採用する。 ターゲット形状と予測形状のずれによって生じる力を捕捉することにより,本モデルでは,容器ネットワークの正確なトポロジを効果的に学習する。 網膜血管データセットの評価 -- DRIVEは、SEと小さな構造の接続性の観点からGAEI-UNetの優れたパフォーマンスを示すが、計算の複雑さは著しく増大しない。 本研究は, 血管イメージセグメンテーションの分野を進展させ, より正確で信頼性の高い診断ツールを提供することを目的とする。 実装コードはコードで利用可能である。

Vessel image segmentation plays a pivotal role in medical diagnostics, aiding in the early detection and treatment of vascular diseases. While segmentation based on deep learning has shown promising results, effectively segmenting small structures and maintaining connectivity between them remains challenging. To address these limitations, we propose GAEI-UNet, a novel model that combines global attention and elastic interaction-based techniques. GAEI-UNet leverages global spatial and channel context information to enhance high-level semantic understanding within the U-Net architecture, enabling precise segmentation of small vessels. Additionally, we adopt an elastic interaction-based loss function to improve connectivity among these fine structures. By capturing the forces generated by misalignment between target and predicted shapes, our model effectively learns to preserve the correct topology of vessel networks. Evaluation on retinal vessel dataset -- DRIVE demonstrates the superior performance of GAEI-UNet in terms of SE and connectivity of small structures, without significantly increasing computational complexity. This research aims to advance the field of vessel image segmentation, providing more accurate and reliable diagnostic tools for the medical community. The implementation code is available on Code.
翻訳日:2023-08-17 13:37:35 公開日:2023-08-16
# 制御可能なデータ拡張によるグラフアウトオブディストリビューション一般化

Graph Out-of-Distribution Generalization with Controllable Data Augmentation ( http://arxiv.org/abs/2308.08344v1 )

ライセンス: Link先を確認
Bin Lu, Xiaoying Gan, Ze Zhao, Shiyu Liang, Luoyi Fu, Xinbing Wang, Chenghu Zhou(参考訳) グラフニューラルネットワーク(GNN)は,グラフ特性の分類において異常な性能を示した。 しかし、トレーニングとテストデータの選択バイアス(例えば、小さなグラフでのトレーニング、大きなグラフでのテスト、密度の高いグラフでのトレーニング、スパースグラフでのテストなど)により、分散偏差は広く分布する。 さらに重要なことは、一方の偏りのあるデータ分割にもかかわらず、スケールと密度の両方のemph{hybrid structure distribution shift}をよく観察する。 ハイブリッド分布偏差に対する急激な相関は, 従来のGNN法の性能を低下させ, 異なるデータセット間で大きな不安定性を示す。 この問題を緩和するために、計量空間において \emph{controllable data augmentation} で訓練分布を協調的に操作する \texttt{ood-gmixup} を提案する。 具体的には,無関係な情報によるスプリアス相関を解消するために,まずグラフの合理性を抽出する。 次に、グラフ論理表現領域に摂動を持つ仮想サンプルを生成し、潜在的OODトレーニングサンプルを得る。 最後に,仮想サンプルの分布偏差を極値理論を用いて測定するためのood校正を提案し,仮想サンプルの影響を強調することでトレーニング分布を積極的に制御する。 グラフ分類に関するいくつかの実世界のデータセットに関する広範な研究は、提案手法が最先端のベースラインよりも優れていることを示す。

Graph Neural Network (GNN) has demonstrated extraordinary performance in classifying graph properties. However, due to the selection bias of training and testing data (e.g., training on small graphs and testing on large graphs, or training on dense graphs and testing on sparse graphs), distribution deviation is widespread. More importantly, we often observe \emph{hybrid structure distribution shift} of both scale and density, despite of one-sided biased data partition. The spurious correlations over hybrid distribution deviation degrade the performance of previous GNN methods and show large instability among different datasets. To alleviate this problem, we propose \texttt{OOD-GMixup} to jointly manipulate the training distribution with \emph{controllable data augmentation} in metric space. Specifically, we first extract the graph rationales to eliminate the spurious correlations due to irrelevant information. Secondly, we generate virtual samples with perturbation on graph rationale representation domain to obtain potential OOD training samples. Finally, we propose OOD calibration to measure the distribution deviation of virtual samples by leveraging Extreme Value Theory, and further actively control the training distribution by emphasizing the impact of virtual OOD samples. Extensive studies on several real-world datasets on graph classification demonstrate the superiority of our proposed method over state-of-the-art baselines.
翻訳日:2023-08-17 13:37:11 公開日:2023-08-16
# 量子クエンチを用いた長寿命偽真空の検出

Detecting a long lived false vacuum with quantum quenches ( http://arxiv.org/abs/2308.08340v1 )

ライセンス: Link先を確認
Gianluca Lagnese, Federica Maria Surace, Sid Morampudi, Frank Wilczek(参考訳) システムが代替の低エネルギー(局所的に安定)状態 -- 安定(真の真空)と準安定状態(ファルス真空) -- をサポートするかどうかを直接観察することで区別することは、状態の寿命が非常に長いが未知である場合には困難である。 ここでは,移動可能なモデルシステムにおいて,より短い時間スケールで差を診断できる物理的現象が存在することを実証する。 具体的には、傾斜量子イジングモデルにおけるクエンチに続くスペクトル密度について検討し、スペクトル密度の進化が強力な診断であることを示す。 小さな遷移気泡は大きな泡よりも一般的であり、偽の真空崩壊の臨界サイズよりもずっと小さい泡の寿命の大きさ依存性に特徴的な差が見られる。 このような振る舞いは、この種のシステムでは一般的なものになると思います。 離散的シミュレーション可能なモデルと連続体量子論をつなぐスケーリング限界を特定する。

Distinguishing whether a system supports alternate low-energy (locally stable) states -- stable (true vacuum) versus metastable (false vacuum) -- by direct observation can be difficult when the lifetime of the state is very long but otherwise unknown. Here we demonstrate, in a tractable model system, that there are physical phenomena on much shorter time scales that can diagnose the difference. Specifically, we study the spectral density following a quench in the tilted quantum Ising model, and show that the evolution of the spectral density is a powerful diagnostic. Small transition bubbles are more common than large ones, and we see characteristic differences in the size dependence of bubble lifetimes even well below the critical size for false vacuum decay. We expect this sort of behavior to be generic in systems of this kind. We identify a scaling limit that connects the discrete, simulatable model to continuum quantum field theory.
翻訳日:2023-08-17 13:36:45 公開日:2023-08-16
# 異化拡散確率モデルによる網膜画像の生成とセグメンテーション

Denoising Diffusion Probabilistic Model for Retinal Image Generation and Segmentation ( http://arxiv.org/abs/2308.08339v1 )

ライセンス: Link先を確認
Alnur Alimanov, Md Baharul Islam(参考訳) 専門家は網膜画像や血管木を使って様々な眼、血液循環、脳関連疾患を検出し診断する。 しかし、網膜画像の手動分割は高度な専門知識を必要とする時間を要するプロセスであり、プライバシーの問題により困難である。 画像のセグメント化には多くの方法が提案されているが、大きな網膜画像データセットの必要性はこれらの手法の性能を制限している。 いくつかの手法がGAN(Generative Adversarial Networks)に基づいてディープラーニングモデルを合成し、限られたサンプル品種を生成する。 本稿では,画像合成におけるGANよりも優れた新しい拡散確率モデル(DDPM)を提案する。 網膜画像とそれに対応する容器木と、ReTreeデータセットの画像で訓練されたDDPMに基づくセグメンテーションネットワークからなる網膜ツリー(ReTree)データセットを開発した。 第1段階では、標準正規分布に属する乱数から容器木を生成する2段ddpmを開発した。 その後、モデルが導かれ、与えられた容器木から基底画像とランダム分布を生成する。 提案するデータセットは定量的・定性的に評価されている。 定量的評価指標としては、Frechet Inception Distance(FID)スコア、Jaccard類似度係数、CohenのKappa、Matthewの相関係数(MCC)、精度、リコール、F1スコア、精度などがある。 合成データを用いて容器分割モデルを訓練し,データセットの効率を検証した。 開発したデータセットとソースコードはhttps://github.com/aaleka/retree.com/で入手できます。

Experts use retinal images and vessel trees to detect and diagnose various eye, blood circulation, and brain-related diseases. However, manual segmentation of retinal images is a time-consuming process that requires high expertise and is difficult due to privacy issues. Many methods have been proposed to segment images, but the need for large retinal image datasets limits the performance of these methods. Several methods synthesize deep learning models based on Generative Adversarial Networks (GAN) to generate limited sample varieties. This paper proposes a novel Denoising Diffusion Probabilistic Model (DDPM) that outperformed GANs in image synthesis. We developed a Retinal Trees (ReTree) dataset consisting of retinal images, corresponding vessel trees, and a segmentation network based on DDPM trained with images from the ReTree dataset. In the first stage, we develop a two-stage DDPM that generates vessel trees from random numbers belonging to a standard normal distribution. Later, the model is guided to generate fundus images from given vessel trees and random distribution. The proposed dataset has been evaluated quantitatively and qualitatively. Quantitative evaluation metrics include Frechet Inception Distance (FID) score, Jaccard similarity coefficient, Cohen's kappa, Matthew's Correlation Coefficient (MCC), precision, recall, F1-score, and accuracy. We trained the vessel segmentation model with synthetic data to validate our dataset's efficiency and tested it on authentic data. Our developed dataset and source code is available at https://github.com/AAleka/retree.
翻訳日:2023-08-17 13:36:27 公開日:2023-08-16
# 高次抽象化の発見による論理プログラムの学習

Learning Logic Programs by Discovering Higher-Order Abstractions ( http://arxiv.org/abs/2308.08334v1 )

ライセンス: Link先を確認
C\'eline Hocquette, Sebastijan Duman\v{c}i\'c, Andrew Cropper(参考訳) 人間のレベルのAIには、新しい抽象化を見つけることが重要です。 本稿では,マップやフィルタ,折り畳みといった高次抽象概念の発見手法を提案する。 我々は、実例と背景知識から論理プログラムを誘導する帰納的論理プログラミングに焦点を当てる。 我々は高階リファクタリング問題を導入し、高階抽象化を導入して論理プログラムを圧縮することを目的とする。 我々は,高階リファクタリング問題を制約最適化問題として定式化するSTEVIEにアプローチを実装した。 プログラム合成と視覚的推論を含む複数の領域に対する実験結果から,STEVIEはリファクタリングを伴わず,予測精度を27%向上し,学習時間を47%低減できることがわかった。 また、STEVIEは異なるドメインに転送する抽象化を発見できることを示す。

Discovering novel abstractions is important for human-level AI. We introduce an approach to discover higher-order abstractions, such as map, filter, and fold. We focus on inductive logic programming, which induces logic programs from examples and background knowledge. We introduce the higher-order refactoring problem, where the goal is to compress a logic program by introducing higher-order abstractions. We implement our approach in STEVIE, which formulates the higher-order refactoring problem as a constraint optimisation problem. Our experimental results on multiple domains, including program synthesis and visual reasoning, show that, compared to no refactoring, STEVIE can improve predictive accuracies by 27% and reduce learning times by 47%. We also show that STEVIE can discover abstractions that transfer to different domains
翻訳日:2023-08-17 13:35:58 公開日:2023-08-16
# 変圧器の深さ勾配連続性の改善:CNNによる単眼深度推定の比較検討

Improving Depth Gradient Continuity in Transformers: A Comparative Study on Monocular Depth Estimation with CNN ( http://arxiv.org/abs/2308.08333v1 )

ライセンス: Link先を確認
Jiawei Yao, Tong Wu, Xiaofeng Zhang(参考訳) 単眼深度推定はコンピュータビジョンにおいて進行中の課題である。 最近のトランスフォーマーモデルの進歩は、この分野の従来のcnnよりも顕著な利点を示している。 しかし、これらのモデルが2次元画像の異なる領域を優先し、これらの領域が深さ推定性能にどのように影響するかを理解するには、まだギャップがある。 トランスフォーマーとcnnの違いを探るため,我々は,両者の区別を対比的に解析するために,疎画素法を適用した。 以上の結果から,トランスフォーマーはグローバルな文脈や複雑なテクスチャを扱うのに優れるが,CNNより遅れて奥行き勾配の連続性を保っていることが示唆された。 単眼深度推定におけるトランスモデルの性能をさらに高めるために,高次微分,特徴融合,再校正により深さ推定を洗練する深さ勾配補正(dgr)モジュールを提案する。 さらに, 最適輸送理論を活用し, 深度写像を空間確率分布として扱い, 最適輸送距離を損失関数としてモデル最適化を行う。 実験により,DGRモジュールとDGRモジュールを統合したモデルが,複雑さや計算コストを増大させることなく性能を向上させることを示した。 本研究は,トランスフォーマーとCNNの深度推定における区別に関する新たな知見を提供するだけでなく,新しい深度推定手法の道を開く。

Monocular depth estimation is an ongoing challenge in computer vision. Recent progress with Transformer models has demonstrated notable advantages over conventional CNNs in this area. However, there's still a gap in understanding how these models prioritize different regions in 2D images and how these regions affect depth estimation performance. To explore the differences between Transformers and CNNs, we employ a sparse pixel approach to contrastively analyze the distinctions between the two. Our findings suggest that while Transformers excel in handling global context and intricate textures, they lag behind CNNs in preserving depth gradient continuity. To further enhance the performance of Transformer models in monocular depth estimation, we propose the Depth Gradient Refinement (DGR) module that refines depth estimation through high-order differentiation, feature fusion, and recalibration. Additionally, we leverage optimal transport theory, treating depth maps as spatial probability distributions, and employ the optimal transport distance as a loss function to optimize our model. Experimental results demonstrate that models integrated with the plug-and-play Depth Gradient Refinement (DGR) module and the proposed loss function enhance performance without increasing complexity and computational costs. This research not only offers fresh insights into the distinctions between Transformers and CNNs in depth estimation but also paves the way for novel depth estimation methodologies.
翻訳日:2023-08-17 13:35:46 公開日:2023-08-16
# AdaBrowse: 効果的な連続手話認識のための適応型ビデオブラウザ

AdaBrowse: Adaptive Video Browser for Efficient Continuous Sign Language Recognition ( http://arxiv.org/abs/2308.08327v1 )

ライセンス: Link先を確認
Lianyu Hu, Liqing Gao, Zekang Liu, Chi-Man Pun, Wei Feng(参考訳) 生ビデオにはかなりの冗長性があることが証明されており、多くの場合、フレームの一部しか正確な認識の要求を満たしていない。 本稿では,連続手話認識(CSLR)における効率的な推論を容易にするために,このような冗長性を効果的に活用できるかどうかを考察する。 本稿では,本課題を逐次決定タスクとしてモデル化し,入力映像列から最も有益な部分列を動的に選択する新しい適応モデル(adabrowse)を提案する。 具体的には、まず軽量なネットワークを用いて、入力ビデオを素早くスキャンし、粗い特徴を抽出する。 その後、これらの機能はポリシーネットワークに送られ、処理するサブシーケンスをインテリジェントに選択する。 対応する列は、文予測のための正規CSLRモデルによって最終的に推測される。 この処理ではフレームの一部のみが処理されるため、全体の計算量はかなり節約できる。 また, 時間的冗長性に加えて, 空間的冗長性をシームレスに統合して, さらなる効率性, すなわち, AdaBrowse+ と呼ばれる各サンプルに対して, 最小の入力解像度を動的に選択できることにも関心がある。 PHOENIX14, PHOENIX14-T, CSL-Daily, CSLの4つの大規模CSLRデータセットの大規模な実験結果は、AdaBrowseとAdaBrowse+の有効性を1.44$\times$スループットと2.12$\times$より少ないFLOPで同等の精度で示す。 他の一般的な2d cnnおよび適応的効率的な手法との比較は、adabrowseの有効性を検証する。 コードは \url{https://github.com/hulianyuyy/AdaBrowse} で入手できる。

Raw videos have been proven to own considerable feature redundancy where in many cases only a portion of frames can already meet the requirements for accurate recognition. In this paper, we are interested in whether such redundancy can be effectively leveraged to facilitate efficient inference in continuous sign language recognition (CSLR). We propose a novel adaptive model (AdaBrowse) to dynamically select a most informative subsequence from input video sequences by modelling this problem as a sequential decision task. In specific, we first utilize a lightweight network to quickly scan input videos to extract coarse features. Then these features are fed into a policy network to intelligently select a subsequence to process. The corresponding subsequence is finally inferred by a normal CSLR model for sentence prediction. As only a portion of frames are processed in this procedure, the total computations can be considerably saved. Besides temporal redundancy, we are also interested in whether the inherent spatial redundancy can be seamlessly integrated together to achieve further efficiency, i.e., dynamically selecting a lowest input resolution for each sample, whose model is referred to as AdaBrowse+. Extensive experimental results on four large-scale CSLR datasets, i.e., PHOENIX14, PHOENIX14-T, CSL-Daily and CSL, demonstrate the effectiveness of AdaBrowse and AdaBrowse+ by achieving comparable accuracy with state-of-the-art methods with 1.44$\times$ throughput and 2.12$\times$ fewer FLOPs. Comparisons with other commonly-used 2D CNNs and adaptive efficient methods verify the effectiveness of AdaBrowse. Code is available at \url{https://github.com/hulianyuyy/AdaBrowse}.
翻訳日:2023-08-17 13:35:22 公開日:2023-08-16
# ニュース画像キャプションのための視覚的コンテキストモデリング

Visually-Aware Context Modeling for News Image Captioning ( http://arxiv.org/abs/2308.08325v1 )

ライセンス: Link先を確認
Tingyu Qu, Tinne Tuytelaars, Marie-Francine Moens(参考訳) ニュース画像キャプションの目的は、ニュース記事と画像の両方の内容に応じて画像キャプションを生成することである。 視覚情報を効果的に活用するためには、記事やキャプションのコンテキストと画像の関連性を活用することが重要である。 心理学的研究は、画像中の人間の顔がより高い注意を惹きつけることを示している。 それに加えて、既存のNews Image Captioningデータセットで発見された顔名共起パターンによって証明されるように、ニュースストーリーにおいて人間はしばしば中心的な役割を果たす。 そこで,画像中の顔とキャプション/記事中の名前に対する顔認識モジュールをデザインし,より優れた名前埋め込みを学ぶ。 画像領域(顔)に直接リンクできる名前は別として、ニュース画像キャプションには記事にのみ見られるコンテキスト情報が含まれることが多い。 人間は通常、画像に基づいて記事から関連する情報を探すことでこの問題に対処する。 この思考過程をエミュレートするために,CLIPを用いた検索戦略を設計し,画像にセマンティックに近い文を検索する。 フレームワークの有効性を実証するための広範な実験を行う。 2つのニュース画像キャプションデータセットにおける新たな最先端性能を,新たなペアデータを用いずに確立する。 受け入れ次第、コードをリリースします。

The goal of News Image Captioning is to generate an image caption according to the content of both a news article and an image. To leverage the visual information effectively, it is important to exploit the connection between the context in the articles/captions and the images. Psychological studies indicate that human faces in images draw higher attention priorities. On top of that, humans often play a central role in news stories, as also proven by the face-name co-occurrence pattern we discover in existing News Image Captioning datasets. Therefore, we design a face-naming module for faces in images and names in captions/articles to learn a better name embedding. Apart from names, which can be directly linked to an image area (faces), news image captions mostly contain context information that can only be found in the article. Humans typically address this by searching for relevant information from the article based on the image. To emulate this thought process, we design a retrieval strategy using CLIP to retrieve sentences that are semantically close to the image. We conduct extensive experiments to demonstrate the efficacy of our framework. Without using additional paired data, we establish the new state-of-the-art performance on two News Image Captioning datasets, exceeding the previous state-of-the-art by 5 CIDEr points. We will release code upon acceptance.
翻訳日:2023-08-17 13:34:51 公開日:2023-08-16
# 識別的自己教師付き深部視覚表現の安定および因果推論

Stable and Causal Inference for Discriminative Self-supervised Deep Visual Representations ( http://arxiv.org/abs/2308.08321v1 )

ライセンス: Link先を確認
Yuewei Yang, Hai Li, Yiran Chen(参考訳) 近年,識別的自己管理手法は様々な視覚的タスクの進行に大きく貢献している。 データ歪み/オーグメンテーションに頑健なデータエンコーダを学ぶという中心的な考え方は、単純かつ極めて効果的である。 多くの研究が様々な学習手法の実証的な成功を実証しているが、その結果得られた表現は不安定性を示し、下流のパフォーマンスを阻害する可能性がある。 本研究では,これらの不安定な行動を説明するために,因果的視点から識別的自己教師付き手法を分析し,その克服法を提案する。 我々のアプローチは、基礎的真理因果源をある程度分解する識別的自己教師あり手法の能力を実証的に示す先行研究から着想を得ている。 因果性を利用した表現学習に関する従来の研究とは異なり、トレーニングプロセス中にソリューションを適用するのではなく、推論プロセス中に時間効率を改善する。 制御された画像データセットと現実的な画像データセットの両方の実験を通して、制御された合成データで線形変換を誘引する提案手法がこれらの問題に対処するのに有効であることを示す。

In recent years, discriminative self-supervised methods have made significant strides in advancing various visual tasks. The central idea of learning a data encoder that is robust to data distortions/augmentations is straightforward yet highly effective. Although many studies have demonstrated the empirical success of various learning methods, the resulting learned representations can exhibit instability and hinder downstream performance. In this study, we analyze discriminative self-supervised methods from a causal perspective to explain these unstable behaviors and propose solutions to overcome them. Our approach draws inspiration from prior works that empirically demonstrate the ability of discriminative self-supervised methods to demix ground truth causal sources to some extent. Unlike previous work on causality-empowered representation learning, we do not apply our solutions during the training process but rather during the inference process to improve time efficiency. Through experiments on both controlled image datasets and realistic image datasets, we show that our proposed solutions, which involve tempering a linear transformation with controlled synthetic data, are effective in addressing these issues.
翻訳日:2023-08-17 13:34:19 公開日:2023-08-16
# テキスト対ビデオ生成のためのデュアルストリーム拡散ネット

Dual-Stream Diffusion Net for Text-to-Video Generation ( http://arxiv.org/abs/2308.08316v1 )

ライセンス: Link先を確認
Binhui Liu, Xin Liu, Anbo Dai, Zhiyong Zeng, Zhen Cui, Jian Yang(参考訳) 近年の拡散モデルにより、テキスト・ビデオ生成が注目を集めている。 しかし、重要なボトルネックは、生成ビデオがフリックやアーティファクトを運ぶことが多いことだ。 本研究では,ビデオ生成におけるコンテンツ変動の一貫性を改善するために,DSDN(Dual-stream diffusion net)を提案する。 特に、デザインされた2つの拡散ストリーム、ビデオコンテンツとモーションブランチは、パーソナライズされたビデオのバリエーションとコンテンツを生成するために、それぞれのプライベートスペースで個別に実行されるだけでなく、デザインされたクロストランスフォーマーインタラクションモジュールを活用することで、コンテンツとモーションドメインの整合性も向上する。 また,映像の動作をファシリケートする動き分解器とコンバインダも導入する。 定性的かつ定量的な実験により、フリック数が少ない素晴らしい連続ビデオが作成できることを示した。

With the emerging diffusion models, recently, text-to-video generation has aroused increasing attention. But an important bottleneck therein is that generative videos often tend to carry some flickers and artifacts. In this work, we propose a dual-stream diffusion net (DSDN) to improve the consistency of content variations in generating videos. In particular, the designed two diffusion streams, video content and motion branches, could not only run separately in their private spaces for producing personalized video variations as well as content, but also be well-aligned between the content and motion domains through leveraging our designed cross-transformer interaction module, which would benefit the smoothness of generated videos. Besides, we also introduce motion decomposer and combiner to faciliate the operation on video motion. Qualitative and quantitative experiments demonstrate that our method could produce amazing continuous videos with fewer flickers.
翻訳日:2023-08-17 13:33:46 公開日:2023-08-16
# ロングテール認識のためのデュアルブランチ温度スケーリング校正

Dual-Branch Temperature Scaling Calibration for Long-Tailed Recognition ( http://arxiv.org/abs/2308.08366v1 )

ライセンス: Link先を確認
Jialin Guo, Zhenyu Wu, Zhiqiang Zhan, Yang Ji(参考訳) ディープニューラルネットワークの校正は、現在広く注目と研究を受けている。 ミススキャリブレーションは通常、モデルの過信につながる。 長期にわたるデータ分布の条件下では、少数派と多数派におけるサンプルの信頼度が異なるため、不一致の問題はより顕著であり、より深刻な過信をもたらすことになる。 この問題に対処するため、いくつかの研究は温度スケーリング(TS)法に基づいて異なるカテゴリの様々な温度係数を設計している。 しかし,マイノリティクラスでの希少サンプルの場合,温度係数は一般化せず,トレーニングセットの温度係数と検証セットとの間に大きな差がある。 そこで本研究では, 異なるカテゴリーの温度パラメータの多様性と, マイノリティクラスにおける希少試料の温度パラメータの非一般化性を同時に考慮した2分岐温度スケーリング校正モデル(dual-ts)を提案する。 さらに,従来のキャリブレーション評価尺度であるExcepted Calibration Error (ECE) が,マイノリティクラスにおける低信頼度サンプルよりも高い重みを与え,モデルキャリブレーションの不正確な評価につながることに気付いた。 そこで我々は,新しい校正評価指標としてEsbin-ECE(Equal Sample Bin Excepted Calibration Error)を提案する。 実験により,従来のECEとEsbin-ECEの両指標において,我々のモデルが最先端となることを示す。

The calibration for deep neural networks is currently receiving widespread attention and research. Miscalibration usually leads to overconfidence of the model. While, under the condition of long-tailed distribution of data, the problem of miscalibration is more prominent due to the different confidence levels of samples in minority and majority categories, and it will result in more serious overconfidence. To address this problem, some current research have designed diverse temperature coefficients for different categories based on temperature scaling (TS) method. However, in the case of rare samples in minority classes, the temperature coefficient is not generalizable, and there is a large difference between the temperature coefficients of the training set and the validation set. To solve this challenge, this paper proposes a dual-branch temperature scaling calibration model (Dual-TS), which considers the diversities in temperature parameters of different categories and the non-generalizability of temperature parameters for rare samples in minority classes simultaneously. Moreover, we noticed that the traditional calibration evaluation metric, Excepted Calibration Error (ECE), gives a higher weight to low-confidence samples in the minority classes, which leads to inaccurate evaluation of model calibration. Therefore, we also propose Equal Sample Bin Excepted Calibration Error (Esbin-ECE) as a new calibration evaluation metric. Through experiments, we demonstrate that our model yields state-of-the-art in both traditional ECE and Esbin-ECE metrics.
翻訳日:2023-08-17 13:26:31 公開日:2023-08-16
# DeepContrast: 合成データ劣化とOODモデル予測を用いた深部組織コントラスト強調

DeepContrast: Deep Tissue Contrast Enhancement using Synthetic Data Degradations and OOD Model Predictions ( http://arxiv.org/abs/2308.08365v1 )

ライセンス: Link先を確認
Nuno Pimp\~ao Martins, Yannis Kalaidzidis, Marino Zerial, Florian Jug(参考訳) 顕微鏡画像は生命科学研究に不可欠であり、細胞と組織レベルの構造と機能の詳細な検査とキャラクタリゼーションを可能にする。 しかし、顕微鏡データはノイズやぼやけなどの画像劣化によって必然的に影響を受ける。 このような劣化は画像のコントラストの低下にも寄与し、特に厚いサンプルの深い領域では顕著に発音される。 今日では、画像の品質を向上させるための最良の手法は、訓練中に地上真実(GT)データを必要とするディープラーニングアプローチに基づいている。 試料の奥深くを撮像すると、ぼやけやコントラスト損失に対処できないため、このようなクリーンなGTデータの取得は不可能です。 組織内へのぼやけやコントラスト損失の進行過程をモデル化できるという事実は、観察不能なgtデータの問題を回避できる新しい方法を提案することを可能にした。 そこで我々は, 深部組織像の劣化を近似的に予測するモデルを用いて, 顕微鏡画像の品質をさらに低下させた。 そして、生成された生画像と劣化画像から、この劣化機能の逆転を学習するニューラルネットワークを訓練した。 この方法でトレーニングされたネットワークは、顕微鏡で撮像された生データなど、劣化の少ない画像の品質を向上させるために、アウト・オブ・ディストリビューション(OOD)として使用できることを示した。 このような顕微鏡画像における絶対レベルの劣化は, 先行モデルによる付加的劣化よりも強くなるため, 反復予測の効果についても検討した。 ここでは,各イテレーションで測定された画像コントラストが向上し,画像の詳細な構造が徐々に除去されるのを観察した。 したがって、所望の下流分析に依存するため、コントラスト改善と画像詳細の保持のバランスを見いださなければならない。

Microscopy images are crucial for life science research, allowing detailed inspection and characterization of cellular and tissue-level structures and functions. However, microscopy data are unavoidably affected by image degradations, such as noise, blur, or others. Many such degradations also contribute to a loss of image contrast, which becomes especially pronounced in deeper regions of thick samples. Today, best performing methods to increase the quality of images are based on Deep Learning approaches, which typically require ground truth (GT) data during training. Our inability to counteract blurring and contrast loss when imaging deep into samples prevents the acquisition of such clean GT data. The fact that the forward process of blurring and contrast loss deep into tissue can be modeled, allowed us to propose a new method that can circumvent the problem of unobtainable GT data. To this end, we first synthetically degraded the quality of microscopy images even further by using an approximate forward model for deep tissue image degradations. Then we trained a neural network that learned the inverse of this degradation function from our generated pairs of raw and degraded images. We demonstrated that networks trained in this way can be used out-of-distribution (OOD) to improve the quality of less severely degraded images, e.g. the raw data imaged in a microscope. Since the absolute level of degradation in such microscopy images can be stronger than the additional degradation introduced by our forward model, we also explored the effect of iterative predictions. Here, we observed that in each iteration the measured image contrast kept improving while detailed structures in the images got increasingly removed. Therefore, dependent on the desired downstream analysis, a balance between contrast improvement and retention of image details has to be found.
翻訳日:2023-08-17 13:26:05 公開日:2023-08-16
# SummHelper: 協調的な人-コンピュータの要約

SummHelper: Collaborative Human-Computer Summarization ( http://arxiv.org/abs/2308.08363v1 )

ライセンス: Link先を確認
Aviv Slobodkin, Niv Nachum, Shmuel Amar, Ori Shapira, Ido Dagan(参考訳) テキスト要約の現在のアプローチは、主に自動であり、人間の介入やプロセスの制御に限られている。 本稿では,人間と機械の協調を促進するために設計された2相要約アシスタントSummHelperを紹介する。 最初のフェーズでは、潜在的なコンテンツを推薦し、ユーザーが追加の選択を受け入れ、修正し、導入することができる。 その後のフェーズであるコンテンツ統合では、summhelperがこれらの選択からコヒーレントなサマリを生成し、サマリとソーステキスト間の視覚的マッピングを使用して洗練することができる。 参加者は、自動化されたガイダンスと個人入力の機会のバランスを特に認識している。

Current approaches for text summarization are predominantly automatic, with rather limited space for human intervention and control over the process. In this paper, we introduce SummHelper, a 2-phase summarization assistant designed to foster human-machine collaboration. The initial phase involves content selection, where the system recommends potential content, allowing users to accept, modify, or introduce additional selections. The subsequent phase, content consolidation, involves SummHelper generating a coherent summary from these selections, which users can then refine using visual mappings between the summary and the source text. Small-scale user studies reveal the effectiveness of our application, with participants being especially appreciative of the balance between automated guidance and opportunities for personal input.
翻訳日:2023-08-17 13:25:36 公開日:2023-08-16
# 小売中央銀行デジタル通貨と商業銀行通貨間の機能的一貫性

Functional Consistency across Retail Central Bank Digital Currency and Commercial Bank Money ( http://arxiv.org/abs/2308.08362v1 )

ライセンス: Link先を確認
Lee Braine, Shreepad Shukla and Piyush Agrawal(参考訳) 中央銀行は、研究、概念実証、パイロットを通じて中央銀行のデジタル通貨(CBDC)を積極的に調査している。 しかし、リテールcbdcの採用は、リテールcbdcと商業銀行マネーが共通の運用特性を持っていない場合、支払い市場と小売預金の両方を断片化するリスクを負う。 本稿では,イギリスの小売業であるcbdc,「デジタルポンド」,イングランド銀行の「プラットフォームモデル」について考察する。 まず,機能的一貫性の概念が断片化のリスクをいかに軽減するかを検討する。 次に、規制された小売デジタルマネーのあらゆる形態における機能整合性を達成するために必要な共通の運用特性を特定する。 我々は、中央銀行、決済インターフェースプロバイダ(PIP)、技術サービスプロバイダ(TSP)、金融市場インフラ(FMI)によるこれらの共通の運用特性の提供に基づく4つの設計オプションを特定する。 次にアーキテクチャ上重要なユースケースを特定し、これらのユースケースと共通の運用特性をサポートする主要な機能を選択する。 これらの重要な機能を提供し、洞察を引き出すデザインオプションの適合性を評価する。 単一設計オプションがデジタルポンドと商業銀行マネーにまたがって機能的整合性を提供できず、代わりに、各キー能力に適切な設計オプションを組み合わせ、FMIとTSPが提供する共通エコシステムサービスを含める完全なソリューションが必要であると結論付けている。

Central banks are actively exploring central bank digital currencies (CBDCs) by conducting research, proofs of concept and pilots. However, adoption of a retail CBDC can risk fragmenting both payments markets and retail deposits if the retail CBDC and commercial bank money do not have common operational characteristics. In this paper, we focus on a potential UK retail CBDC, the 'digital pound', and the Bank of England's 'platform model'. We first explore how the concept of functional consistency could mitigate the risk of fragmentation. We next identify the common operational characteristics that are required to achieve functional consistency across all forms of regulated retail digital money. We identify four design options based on the provision of these common operational characteristics by the central bank, payment interface providers (PIPs), technical service providers (TSPs) or a financial market infrastructure (FMI). We next identify architecturally-significant use cases and select key capabilities that support these use cases and the common operational characteristics. We evaluate the suitability of the design options to provide these key capabilities and draw insights. We conclude that no single design option could provide functional consistency across digital pounds and commercial bank money and, instead, a complete solution would need to combine the suitable design option(s) for each key capability and include common ecosystem services provided by an FMI and TSPs.
翻訳日:2023-08-17 13:25:24 公開日:2023-08-16
# kernelwarehouse:パラメータ効率の高い動的畳み込みに向けて

KernelWarehouse: Towards Parameter-Efficient Dynamic Convolution ( http://arxiv.org/abs/2308.08361v1 )

ライセンス: Link先を確認
Chao Li, Anbang Yao(参考訳) 動的畳み込み(dynamic convolution)は、サンプル依存の注意を重み付けて、n$静的カーネルの線形混合を学習し、通常の畳み込みよりも優れた性能を示す。 しかし、既存の設計はパラメータ非効率であり、畳み込みパラメータの数をn$で増加させる。 これと最適化の難しさは、動的畳み込みの研究の進展を招き、パフォーマンスバウンダリを前進させるために典型的な$n<10$設定ではなく$n>100$という大きな値を使うことを可能にします。 本稿では,より一般的な動的畳み込み形式である$kernelwarehouse$を提案する。 その鍵となる考え方は、「$kernels$」と「$assembling$ $kernels$」の基本概念をカーネル次元の減少とカーネル数の増加の観点から動的畳み込みにおいて再定義することである。 原則として、KernelWarehouseは、触発的なカーネルパーティションとウェアハウス共有を通じて、同じレイヤ内および連続するレイヤ間の畳み込みパラメータ依存性を強化し、望ましいパラメータ予算に適合する高い自由を提供する。 我々は,異なるConvNetアーキテクチャを持つImageNetおよびMS-COCOデータセット上で本手法の有効性を検証し,その結果が得られたことを示す。 例えば、ResNet18|ResNet50|MobileNetV2|ConvNeXt-Tinyモデルは、ImageNet上でKernelWarehouseでトレーニングされ、76.05%|81.05%|75.52%|82.51%のトップ-1精度に達した。 例えば、36.45%|65.10%のパラメータをベースラインに還元したResNet18モデルは、トップ1の精度に対して2.89%|2.29%の絶対的な改善を示している。

Dynamic convolution learns a linear mixture of $n$ static kernels weighted with their sample-dependent attentions, demonstrating superior performance compared to normal convolution. However, existing designs are parameter-inefficient: they increase the number of convolutional parameters by $n$ times. This and the optimization difficulty lead to no research progress in dynamic convolution that can allow us to use a significant large value of $n$ (e.g., $n>100$ instead of typical setting $n<10$) to push forward the performance boundary. In this paper, we propose $KernelWarehouse$, a more general form of dynamic convolution, which can strike a favorable trade-off between parameter efficiency and representation power. Its key idea is to redefine the basic concepts of "$kernels$" and "$assembling$ $kernels$" in dynamic convolution from the perspective of reducing kernel dimension and increasing kernel number significantly. In principle, KernelWarehouse enhances convolutional parameter dependencies within the same layer and across successive layers via tactful kernel partition and warehouse sharing, yielding a high degree of freedom to fit a desired parameter budget. We validate our method on ImageNet and MS-COCO datasets with different ConvNet architectures, and show that it attains state-of-the-art results. For instance, the ResNet18|ResNet50|MobileNetV2|ConvNeXt-Tiny model trained with KernelWarehouse on ImageNet reaches 76.05%|81.05%|75.52%|82.51% top-1 accuracy. Thanks to its flexible design, KernelWarehouse can even reduce the model size of a ConvNet while improving the accuracy, e.g., our ResNet18 model with 36.45%|65.10% parameter reduction to the baseline shows 2.89%|2.29% absolute improvement to top-1 accuracy.
翻訳日:2023-08-17 13:24:58 公開日:2023-08-16
# プライベートグラフ埋め込みのための独立分布正規化

Independent Distribution Regularization for Private Graph Embedding ( http://arxiv.org/abs/2308.08360v1 )

ライセンス: Link先を確認
Qi Hu, Yangqiu Song(参考訳) グラフ埋め込みの学習は、グラフマイニングタスクにおいて重要なタスクである。 効果的なグラフ埋め込みモデルは、ノード分類やリンク予測など、ダウンストリームアプリケーションによるデータパブリッシングのためのグラフ構造化データから低次元表現を学習することができる。 しかし、最近の研究では、グラフ埋め込みは属性推論攻撃の影響を受けやすく、攻撃者は学習したグラフ埋め込みからプライベートノード属性を推測することができる。 これらの問題に対処するため、プライバシ保護グラフ埋め込み手法が登場し、敵学習によるプライバシ保護とプライバシ保護を同時に検討することを目指している。 しかし、既存のほとんどの手法では、表現モデルはトレーニング段階で事前にすべての機密属性にアクセス可能であると仮定している。 さらに,プライバシ保存型表現学習において一般的に使用される逆学習手法は,不安定なトレーニング問題に苦しむ。 本稿では,独立分散ペナルティを正規化用語として活用した,PVGAE(Private Variational Graph AutoEncoders)と呼ばれる新しい手法を提案する。 具体的には、元の変分グラフオートエンコーダ(VGAE)を2組のエンコーダを用いて、感度および非感度の潜在表現を学習するために分割した。 さらに,エンコーダの独立性を強制する新たな正規化を導入する。 相互情報の観点から正規化の理論的有効性を証明する。 3つの実世界のデータセットに対する実験結果から、PVGAEはユーティリティパフォーマンスとプライバシ保護に関するプライベート埋め込み学習において、他のベースラインよりも優れていることが示された。

Learning graph embeddings is a crucial task in graph mining tasks. An effective graph embedding model can learn low-dimensional representations from graph-structured data for data publishing benefiting various downstream applications such as node classification, link prediction, etc. However, recent studies have revealed that graph embeddings are susceptible to attribute inference attacks, which allow attackers to infer private node attributes from the learned graph embeddings. To address these concerns, privacy-preserving graph embedding methods have emerged, aiming to simultaneously consider primary learning and privacy protection through adversarial learning. However, most existing methods assume that representation models have access to all sensitive attributes in advance during the training stage, which is not always the case due to diverse privacy preferences. Furthermore, the commonly used adversarial learning technique in privacy-preserving representation learning suffers from unstable training issues. In this paper, we propose a novel approach called Private Variational Graph AutoEncoders (PVGAE) with the aid of independent distribution penalty as a regularization term. Specifically, we split the original variational graph autoencoder (VGAE) to learn sensitive and non-sensitive latent representations using two sets of encoders. Additionally, we introduce a novel regularization to enforce the independence of the encoders. We prove the theoretical effectiveness of regularization from the perspective of mutual information. Experimental results on three real-world datasets demonstrate that PVGAE outperforms other baselines in private embedding learning regarding utility performance and privacy protection.
翻訳日:2023-08-17 13:24:18 公開日:2023-08-16
# スパイクニューラルネットワークのための膜電位バッチ正規化

Membrane Potential Batch Normalization for Spiking Neural Networks ( http://arxiv.org/abs/2308.08359v1 )

ライセンス: Link先を確認
Yufei Guo, Yuhan Zhang, Yuanpei Chen, Weihang Peng, Xiaode Liu, Liwen Zhang, Xuhui Huang, Zhe Ma(参考訳) 従来のニューラルネットワーク(CNN)のエネルギー効率の良い代替手段の1つとして、スパイクニューラルネットワーク(SNN)が近年ますます注目を集めている。 深層モデルの訓練には,SNNで有効なバッチ正規化(BN)手法が提案されている。 これらのBNは、通常CNNで行うように、畳み込み層の後に使われることが示唆されている。 しかし、スパイキングニューロンは時空間ダイナミクスとより複雑である。 BN層後における規制されたデータフローは、発射機能前の膜電位更新操作、すなわち非線形活性化によって再び妨害される。 そこで我々は, 膜電位を再び正規化するために, 燃焼関数の前に別のbn層を加えることを推奨する。 また,MPBNの誘導時間コストを削減するため,訓練されたMPBNを発射しきい値に折り畳むトレーニング推論型再パラメータ化手法を提案する。 再パラメータ化手法では、MPBNは推論に余分な時間的負担を伴わない。 さらに、MPBNは要素ワイド形式を採用することもできるが、畳み込み層後のこれらのBNはチャネルワイド形式のみを使用することができる。 実験結果から,MPBNは非スパイキングの静的データセットとニューロモルフィックデータセットの両方で良好に動作することがわかった。 私たちのコードは、 \href{https://github.com/yfguo91/MPBN}{MPBN} でオープンソース化されています。

As one of the energy-efficient alternatives of conventional neural networks (CNNs), spiking neural networks (SNNs) have gained more and more interest recently. To train the deep models, some effective batch normalization (BN) techniques are proposed in SNNs. All these BNs are suggested to be used after the convolution layer as usually doing in CNNs. However, the spiking neuron is much more complex with the spatio-temporal dynamics. The regulated data flow after the BN layer will be disturbed again by the membrane potential updating operation before the firing function, i.e., the nonlinear activation. Therefore, we advocate adding another BN layer before the firing function to normalize the membrane potential again, called MPBN. To eliminate the induced time cost of MPBN, we also propose a training-inference-decoupled re-parameterization technique to fold the trained MPBN into the firing threshold. With the re-parameterization technique, the MPBN will not introduce any extra time burden in the inference. Furthermore, the MPBN can also adopt the element-wised form, while these BNs after the convolution layer can only use the channel-wised form. Experimental results show that the proposed MPBN performs well on both popular non-spiking static and neuromorphic datasets. Our code is open-sourced at \href{https://github.com/yfguo91/MPBN}{MPBN}.
翻訳日:2023-08-17 13:23:54 公開日:2023-08-16
# 非線形単位をもつ2層回帰の収束

Convergence of Two-Layer Regression with Nonlinear Units ( http://arxiv.org/abs/2308.08358v1 )

ライセンス: Link先を確認
Yichuan Deng, Zhao Song, Shenghao Xie(参考訳) ChatGPTやGPT4のような大規模言語モデル(LLM)は、多くの人間のライフタスクにおいて優れたパフォーマンスを示している。 注意計算はLLMのトレーニングにおいて重要な役割を果たす。 ソフトマックスユニットとReLUユニットは注意計算の鍵となる構造である。 それらに触発されて,ソフトマックスReLU回帰問題を提起した。 一般に、我々の目標は、reluユニットを含む回帰問題の最適な解を見つけることである。 本研究では,損失関数のヘッシアンに対する密形式表現を計算する。 ある仮定の下で、我々はリプシッツ連続とヘッセンのpsd性を証明する。 次に,最適解までの距離という意味で収束する近似ニュートン法に基づくグリーディアルゴリズムを提案する。 最後に、リプシッツ条件を緩和し、損失値の意味で収束性を証明する。

Large language models (LLMs), such as ChatGPT and GPT4, have shown outstanding performance in many human life task. Attention computation plays an important role in training LLMs. Softmax unit and ReLU unit are the key structure in attention computation. Inspired by them, we put forward a softmax ReLU regression problem. Generally speaking, our goal is to find an optimal solution to the regression problem involving the ReLU unit. In this work, we calculate a close form representation for the Hessian of the loss function. Under certain assumptions, we prove the Lipschitz continuous and the PSDness of the Hessian. Then, we introduce an greedy algorithm based on approximate Newton method, which converges in the sense of the distance to optimal solution. Last, We relax the Lipschitz condition and prove the convergence in the sense of loss value.
翻訳日:2023-08-17 13:23:31 公開日:2023-08-16
# メタラーニングはレコメンダシステムにおけるコールドスタート問題に対する正しいアプローチか?

Is Meta-Learning the Right Approach for the Cold-Start Problem in Recommender Systems? ( http://arxiv.org/abs/2308.08354v1 )

ライセンス: Link先を確認
Davide Buffelli, Ashish Gupta, Agnieszka Strzalka, Vassilis Plachouras(参考訳) レコメンダシステムは現代のオンライン製品やサービスの基本的な構成要素となり、ユーザエクスペリエンスに大きな影響を与えています。 過去数年間、ディープラーニングの手法は多くの研究を惹きつけており、現代の現実世界のレコメンデーションシステムで広く使われている。 それでも、コールドスタート設定でのレコメンデーション(例えば、ユーザがシステム内で限られたインタラクションを行った場合)を扱うことは、解決には程遠い問題である。 メタラーニング技術、特に最適化に基づくメタラーニングは、最近の学術研究文献において、レコメンダシステムのためのディープラーニングモデルにおけるコールドスタート問題に取り組むための最も一般的なアプローチとなっている。 しかし、現在のメタラーニングアプローチは、数十億のユーザとアイテムと厳格なレイテンシ要件を持つ現実世界のレコメンデーションシステムでは実用的ではない。 本稿では,メタラーニング技術を用いることなく,コールドスタート問題によく使用されるベンチマークにおいて,類似あるいはそれ以上の性能が得られることを示す。 より詳しくは、正しく調整された場合、標準および広く採用されているディープラーニングモデルは、新しいメタ学習モデルと同様に機能することを示す。 さらに, 共通表現学習手法を用いた極めて単純なモジュラーアプローチは, 実際のアプリケーションでより容易にデプロイできる一方で, コールドスタート設定用に特別に設計されたメタ学習手法と相性が良いことを示す。

Recommender systems have become fundamental building blocks of modern online products and services, and have a substantial impact on user experience. In the past few years, deep learning methods have attracted a lot of research, and are now heavily used in modern real-world recommender systems. Nevertheless, dealing with recommendations in the cold-start setting, e.g., when a user has done limited interactions in the system, is a problem that remains far from solved. Meta-learning techniques, and in particular optimization-based meta-learning, have recently become the most popular approaches in the academic research literature for tackling the cold-start problem in deep learning models for recommender systems. However, current meta-learning approaches are not practical for real-world recommender systems, which have billions of users and items, and strict latency requirements. In this paper we show that it is possible to obtaining similar, or higher, performance on commonly used benchmarks for the cold-start problem without using meta-learning techniques. In more detail, we show that, when tuned correctly, standard and widely adopted deep learning models perform just as well as newer meta-learning models. We further show that an extremely simple modular approach using common representation learning techniques, can perform comparably to meta-learning techniques specifically designed for the cold-start setting while being much more easily deployable in real-world applications.
翻訳日:2023-08-17 13:23:21 公開日:2023-08-16
# マウンテンカーの例における量子化政策の反復

Quantum-enhanced policy iteration on the example of a mountain car ( http://arxiv.org/abs/2308.08348v1 )

ライセンス: Link先を確認
Egor E. Nuzhin, Dmitry Yudin(参考訳) 量子プロセッサの実験的な実証の進歩は、近年、量子コンピューティングの実践的実装というアイデアに対する関心の高まりをもたらした。 量子アルゴリズムを用いることで、数値最適化や機械学習における特定の問題に対する解の大幅な高速化が期待できる。 本稿では,強化学習の分野で広く用いられているqepi(quantum-enhanced policy iteration)アルゴリズムを提案し,マウンテンカー問題に着目して検証する。 実際,政策解釈に有益である値反復アルゴリズムのソフトバージョンを詳述し,qepiを目的とし,連続状態強化学習問題の文脈における確率的離散化手法について考察した。 アルゴリズムの複雑さは、密度が高く(典型的な)スパースケースで分析される。 量子エミュレータを用いたマウンテンカーの例による数値計算の結果,開発手順を検証し,QEPI性能をベンチマークした。

Advances in the experimental demonstration of quantum processors have provoked a surge of interest to the idea of practical implementation of quantum computing over last years. It is expected that the use of quantum algorithms will significantly speed up the solution to certain problems in numerical optimization and machine learning. In this paper, we propose a quantum-enhanced policy iteration (QEPI) algorithm as widely used in the domain of reinforcement learning and validate it with the focus on the mountain car problem. In practice, we elaborate on the soft version of the value iteration algorithm, which is beneficial for policy interpretation, and discuss the stochastic discretization technique in the context of continuous state reinforcement learning problems for the purposes of QEPI. The complexity of the algorithm is analyzed for dense and (typical) sparse cases. Numerical results on the example of a mountain car with the use of a quantum emulator verify the developed procedures and benchmark the QEPI performance.
翻訳日:2023-08-17 13:22:57 公開日:2023-08-16
# ニューラルネットワークによるスペント核燃料の高速不確かさ定量

Fast Uncertainty Quantification of Spent Nuclear Fuel with Neural Networks ( http://arxiv.org/abs/2308.08391v1 )

ライセンス: Link先を確認
Arnau Alb\`a, Andreas Adelmann, Lucas M\"unster, Dimitri Rochman, Romana Boiger(参考訳) 使用済み核燃料(SNF)の特性の正確な計算と不確実性の定量化は、核エネルギー生産の安全性、効率、持続可能性、廃棄物管理、原子力安全の確保に重要な役割を果たす。 最先端の物理ベースのモデルは信頼性はあるものの、計算集約的で時間を要する。 本稿では,ニューラルネットワーク(nn)を用いたサーロゲートモデルを用いて,計算コストを低減したsnf特性の予測手法を提案する。 NNは、CASMO5格子計算から生成されたデータを用いて訓練される。 トレーニングNNは、濃縮、バーンアップ、サイクル間の冷却時間、平均ホウ素濃度、燃料温度などの重要な入力パラメータの関数として、SNFの崩壊熱と核種濃度を正確に予測する。 このモデルは、物理ベースの崩壊熱シミュレーションと、2つの異なる加圧水型原子炉の異なる酸化ウラン燃料集合体の測定に対して検証される。 さらに、nnは感度分析と不確実性定量化を行うために用いられる。 結果はCASMO5と非常によく一致しているが、(トレーニングサンプルの生成コストを考慮した)計算コストは10以上削減される。 本研究は, SNFの高速キャラクタリゼーションのためのサロゲートモデルとしてNNを用いる可能性を示し, 核燃料の挙動と関連するリスクを評価する際の計算効率を向上させるための有望な道を提供する。

The accurate calculation and uncertainty quantification of the characteristics of spent nuclear fuel (SNF) play a crucial role in ensuring the safety, efficiency, and sustainability of nuclear energy production, waste management, and nuclear safeguards. State of the art physics-based models, while reliable, are computationally intensive and time-consuming. This paper presents a surrogate modeling approach using neural networks (NN) to predict a number of SNF characteristics with reduced computational costs compared to physics-based models. An NN is trained using data generated from CASMO5 lattice calculations. The trained NN accurately predicts decay heat and nuclide concentrations of SNF, as a function of key input parameters, such as enrichment, burnup, cooling time between cycles, mean boron concentration and fuel temperature. The model is validated against physics-based decay heat simulations and measurements of different uranium oxide fuel assemblies from two different pressurized water reactors. In addition, the NN is used to perform sensitivity analysis and uncertainty quantification. The results are in very good alignment to CASMO5, while the computational costs (taking into account the costs of generating training samples) are reduced by a factor of 10 or more. Our findings demonstrate the feasibility of using NNs as surrogate models for fast characterization of SNF, providing a promising avenue for improving computational efficiency in assessing nuclear fuel behavior and associated risks.
翻訳日:2023-08-17 13:17:17 公開日:2023-08-16
# Continuous Sweep: 改善されたバイナリ量化器

Continuous Sweep: an improved, binary quantifier ( http://arxiv.org/abs/2308.08387v1 )

ライセンス: Link先を確認
Kevin Kloos, Julian D. Karch, Quinten A. Meertens, Mark de Rooij(参考訳) 量子化は教師付き機械学習タスクであり、個々の観察をラベル付けするのではなく、データセットのクラス有病率を推定することに焦点を当てている。 本研究では,メディアスウィープに触発された新しいパラメトリックバイナリ量子化器であるContinuous Sweepを紹介する。 Median Sweepは現在、最高のバイナリ量子化器の1つですが、この量化器を3つの点で変更しました。 1) 経験分布の代わりにパラメトリック類分布を用いる。 2)個別決定ルールを適用せず、決定境界を最適化すること。 3)中央値の代わりに平均を計算する。 一般モデル仮定の下で連続スイープのバイアスと分散に対する解析式を導出する。 これは量子化学習の分野における最初の理論的貢献の1つである。 さらに、これらの導出により最適な決定境界を見つけることができる。 最後に、シミュレーション研究により、Continuous Sweepは幅広い状況でMedian Sweepより優れていることが示された。

Quantification is a supervised machine learning task, focused on estimating the class prevalence of a dataset rather than labeling its individual observations. We introduce Continuous Sweep, a new parametric binary quantifier inspired by the well-performing Median Sweep. Median Sweep is currently one of the best binary quantifiers, but we have changed this quantifier on three points, namely 1) using parametric class distributions instead of empirical distributions, 2) optimizing decision boundaries instead of applying discrete decision rules, and 3) calculating the mean instead of the median. We derive analytic expressions for the bias and variance of Continuous Sweep under general model assumptions. This is one of the first theoretical contributions in the field of quantification learning. Moreover, these derivations enable us to find the optimal decision boundaries. Finally, our simulation study shows that Continuous Sweep outperforms Median Sweep in a wide range of situations.
翻訳日:2023-08-17 13:16:54 公開日:2023-08-16
# 分類のための精度とリコールリジェクト曲線

Precision and Recall Reject Curves for Classification ( http://arxiv.org/abs/2308.08381v1 )

ライセンス: Link先を確認
Lydia Fischer and Patricia Wollstadt(参考訳) いくつかの分類シナリオでは、訓練されたモデルが高い確実性と関連付ける分類インスタンスのみを使用することが望ましい。 このような高精度な実例を得るため、先行研究では精度-再帰曲線が提案されている。 リジェクト曲線は、分類を受け入れたり拒否したりするためのしきい値の範囲で異なる確実性尺度のパフォーマンスを評価し、比較することができる。 しかし、精度は全てのアプリケーションに最も適した評価基準ではなく、代わりに精度やリコールが好ましい。 これは例えば、不均衡なクラス分布を持つデータの場合である。 そこで我々は,精度とリコール,リコール・リジェクト曲線,精度・リジェクト曲線を評価するリジェクション曲線を提案する。 学習ベクトル量子化からプロトタイプベースの分類器を用いて,まず,精度の低下曲線をベースラインとして,人工ベンチマークデータ上で提案した曲線を検証した。 次に,不均衡なベンチマークと医学的実世界のデータを用いて,提案する精度とリコール曲線は,精度の拒絶曲線よりも,分類器の性能に関するより正確な洞察をもたらすことを示す。

For some classification scenarios, it is desirable to use only those classification instances that a trained model associates with a high certainty. To obtain such high-certainty instances, previous work has proposed accuracy-reject curves. Reject curves allow to evaluate and compare the performance of different certainty measures over a range of thresholds for accepting or rejecting classifications. However, the accuracy may not be the most suited evaluation metric for all applications, and instead precision or recall may be preferable. This is the case, for example, for data with imbalanced class distributions. We therefore propose reject curves that evaluate precision and recall, the recall-reject curve and the precision-reject curve. Using prototype-based classifiers from learning vector quantization, we first validate the proposed curves on artificial benchmark data against the accuracy reject curve as a baseline. We then show on imbalanced benchmarks and medical, real-world data that for these scenarios, the proposed precision- and recall-curves yield more accurate insights into classifier performance than accuracy reject curves.
翻訳日:2023-08-17 13:16:41 公開日:2023-08-16
# エキスパートステアリングラベルを使わずにロバストな自動運転車追跡

Robust Autonomous Vehicle Pursuit without Expert Steering Labels ( http://arxiv.org/abs/2308.08380v1 )

ライセンス: Link先を確認
Jiaxin Pan, Changyao Zhou, Mariia Gladkova, Qadeer Khan and Daniel Cremers(参考訳) 本研究では,車両追尾用エゴ車両の横方向および縦方向の動作制御に関する学習手法を提案する。 制御される車両は事前定義された経路を持たず、安全距離を維持しながら目標車両に反応して追従する。 モデルをトレーニングするためには、専門家ドライバから記録されたステアリングラベルに頼るのではなく、従来のコントローラをオフラインラベル生成ツールとして効果的に活用する。 さらに,予測された制御値の誤差を考慮し,制御車両の追尾や破滅的な事故の原因となる可能性がある。 そこで本研究では,目的とする車両の異なるビューを処理可能なネットワークを訓練できる効果的なデータ拡張手法を提案する。 追撃中、ターゲット車両は畳み込みニューラルネットワークを用いて最初に局所化される。 ネットワークは、車両の速度とともに1枚のRGB画像を取得し、エゴ車両に対する目標車両の姿勢を推定する。 この情報は多層パーセプトロンに供給され、ego-vehicleの制御コマンド、すなわちスロットルとステアリングアングルをレグレッシブする。 我々は、CARLAシミュレーターを用いて、幅広い地形におけるアプローチを広範囲に検証した。 提案手法は,未知の軌道や高経路補完など,異なるシナリオに対する実時間性能とロバスト性を示す。 コードとマルチメディアを含むプロジェクトページは、ここで公開することができる。

In this work, we present a learning method for lateral and longitudinal motion control of an ego-vehicle for vehicle pursuit. The car being controlled does not have a pre-defined route, rather it reactively adapts to follow a target vehicle while maintaining a safety distance. To train our model, we do not rely on steering labels recorded from an expert driver but effectively leverage a classical controller as an offline label generation tool. In addition, we account for the errors in the predicted control values, which can lead to a loss of tracking and catastrophic crashes of the controlled vehicle. To this end, we propose an effective data augmentation approach, which allows to train a network capable of handling different views of the target vehicle. During the pursuit, the target vehicle is firstly localized using a Convolutional Neural Network. The network takes a single RGB image along with cars' velocities and estimates the target vehicle's pose with respect to the ego-vehicle. This information is then fed to a Multi-Layer Perceptron, which regresses the control commands for the ego-vehicle, namely throttle and steering angle. We extensively validate our approach using the CARLA simulator on a wide range of terrains. Our method demonstrates real-time performance and robustness to different scenarios including unseen trajectories and high route completion. The project page containing code and multimedia can be publicly accessed here: https://changyaozhou.github.io/Autonomous-Vehicle-Pursuit/.
翻訳日:2023-08-17 13:16:25 公開日:2023-08-16
# 動的センサ選択のための分散ニューラルネットワークアーキテクチャと帯域制限体-センサネットワークへの応用

A distributed neural network architecture for dynamic sensor selection with application to bandwidth-constrained body-sensor networks ( http://arxiv.org/abs/2308.08379v1 )

ライセンス: Link先を確認
Thomas Strypsteen and Alexander Bertrand(参考訳) 本稿では,データセット全体に対する固定的な選択ではなく,特定の入力サンプル毎に最適なセンササブセット選択を導出可能な,ディープニューラルネットワーク(dnn)のための動的センサ選択手法を提案する。 この動的選択は、Gumbel-Softmaxトリックを使ってタスクモデルとエンドツーエンドで共同で学習し、標準的なバックプロパゲーションを通じて決定的な決定を学習できるようにする。 次に、各ノードの送信頻度に制約を課すことで、この動的選択を無線センサネットワーク(wsn)の寿命を増加させる方法を示す。 我々はさらに,タスク-DNNが複数のノードサブセットを扱う必要があるという事実に対して,より堅牢な動的空間フィルタを組み込むことで,パフォーマンスを向上する。 最後に、wsnにおける最適なチャネルの選択がどのようにして異なるノードに分散できるかを説明する。 本手法は,脳波センサネットワークをエミュレートするために,eeg(real electroencephalography)センサデータを用いた体感センサネットワークのユースケースで検証する。 送信負荷とタスク精度のトレードオフを解析した。

We propose a dynamic sensor selection approach for deep neural networks (DNNs), which is able to derive an optimal sensor subset selection for each specific input sample instead of a fixed selection for the entire dataset. This dynamic selection is jointly learned with the task model in an end-to-end way, using the Gumbel-Softmax trick to allow the discrete decisions to be learned through standard backpropagation. We then show how we can use this dynamic selection to increase the lifetime of a wireless sensor network (WSN) by imposing constraints on how often each node is allowed to transmit. We further improve performance by including a dynamic spatial filter that makes the task-DNN more robust against the fact that it now needs to be able to handle a multitude of possible node subsets. Finally, we explain how the selection of the optimal channels can be distributed across the different nodes in a WSN. We validate this method on a use case in the context of body-sensor networks, where we use real electroencephalography (EEG) sensor data to emulate an EEG sensor network. We analyze the resulting trade-offs between transmission load and task accuracy.
翻訳日:2023-08-17 13:16:03 公開日:2023-08-16
# 神経情報検索における生涯学習の進歩--定義、データセット、フレームワーク、経験的評価

Advancing continual lifelong learning in neural information retrieval: definition, dataset, framework, and empirical evaluation ( http://arxiv.org/abs/2308.08378v1 )

ライセンス: Link先を確認
Jingrui Hou and Georgina Cosma and Axel Finke(参考訳) 連続学習とは、学習したタスクのパフォーマンスを損なうことなく、新しい情報を学び、適応する機械学習モデルの能力を指す。 情報検索タスクの連続学習方法に関する研究がいくつか行われているが、明確に定義されたタスクの定式化はまだ不十分であり、この文脈で典型的な学習戦略がどのように機能するかは定かではない。 この課題に対処するため、連続した情報検索をシミュレートするマルチトピックデータセットとともに、連続的な情報検索の体系的なタスク定式化が提示される。 そこで,典型的な検索モデルと連続学習戦略からなる包括的連続神経情報検索フレームワークを提案する。 経験的評価から,提案フレームワークは,ニューラルネットワーク検索における破滅的な忘れ込みを効果的に防止し,以前に学習したタスクの性能向上を図っている。 その結果,組込み型検索モデルは,トピックシフト距離や新たなタスクのデータセット量の増加に伴い,連続学習性能が低下することが示された。 対照的に、事前学習に基づくモデルはそのような相関は示さない。 適切な学習戦略を採用することで、トピックシフトとデータ拡張の効果が軽減される。

Continual learning refers to the capability of a machine learning model to learn and adapt to new information, without compromising its performance on previously learned tasks. Although several studies have investigated continual learning methods for information retrieval tasks, a well-defined task formulation is still lacking, and it is unclear how typical learning strategies perform in this context. To address this challenge, a systematic task formulation of continual neural information retrieval is presented, along with a multiple-topic dataset that simulates continuous information retrieval. A comprehensive continual neural information retrieval framework consisting of typical retrieval models and continual learning strategies is then proposed. Empirical evaluations illustrate that the proposed framework can successfully prevent catastrophic forgetting in neural information retrieval and enhance performance on previously learned tasks. The results indicate that embedding-based retrieval models experience a decline in their continual learning performance as the topic shift distance and dataset volume of new tasks increase. In contrast, pretraining-based models do not show any such correlation. Adopting suitable learning strategies can mitigate the effects of topic shift and data augmentation.
翻訳日:2023-08-17 13:15:43 公開日:2023-08-16
# 走査型電子顕微鏡画像における半導体欠陥の自動検査

Automated Semiconductor Defect Inspection in Scanning Electron Microscope Images: a Systematic Review ( http://arxiv.org/abs/2308.08376v1 )

ライセンス: Link先を確認
Thibault Lechien, Enrique Dehaerne, Bappaditya Dey, Victor Blanco, Stefan De Gendt, Wannes Meert(参考訳) 半導体材料や装置の欠陥を検出するための効率的かつ正確な方法の必要性が高まっている。 これらの欠陥は、重大な故障やウエハ収率の限界を引き起こすため、製造プロセスの効率に有害な影響を及ぼす可能性がある。 ノードやパターンが小さくなるにつれて、走査電子顕微鏡(SEM)のような高解像度イメージング技術でさえ、感度レベルに近い動作や、異なる下層やレジスト材料の物理的特性の変化によるノイズ画像を生成する。 この固有のノイズは、欠陥検査の主要な課題の1つです。 有望なアプローチの1つは、半導体サンプルの欠陥を正確に分類し見つけられるように訓練できる機械学習アルゴリズムの使用である。 近年,畳み込みニューラルネットワークが特に有用であることが証明されている。 この体系的レビューは、最新の技術革新や開発を含む、sem画像における半導体欠陥の自動検査の状況の概要を提供する。 IEEE XploreとSPIEデータベースにインデックスされた38の出版物がこのトピックで選ばれた。 これらのそれぞれについて、アプリケーション、方法論、データセット、結果、制限、今後の作業が要約された。 それらの方法の概要と分析について概説する。 最後に,SEMに基づく欠陥検査の分野における今後の課題について提案する。

A growing need exists for efficient and accurate methods for detecting defects in semiconductor materials and devices. These defects can have a detrimental impact on the efficiency of the manufacturing process, because they cause critical failures and wafer-yield limitations. As nodes and patterns get smaller, even high-resolution imaging techniques such as Scanning Electron Microscopy (SEM) produce noisy images due to operating close to sensitivity levels and due to varying physical properties of different underlayers or resist materials. This inherent noise is one of the main challenges for defect inspection. One promising approach is the use of machine learning algorithms, which can be trained to accurately classify and locate defects in semiconductor samples. Recently, convolutional neural networks have proved to be particularly useful in this regard. This systematic review provides a comprehensive overview of the state of automated semiconductor defect inspection on SEM images, including the most recent innovations and developments. 38 publications were selected on this topic, indexed in IEEE Xplore and SPIE databases. For each of these, the application, methodology, dataset, results, limitations and future work were summarized. A comprehensive overview and analysis of their methods is provided. Finally, promising avenues for future work in the field of SEM-based defect inspection are suggested.
翻訳日:2023-08-17 13:15:24 公開日:2023-08-16
# PDPK:プロセスデータの合成と製造の手続き的知識対応のためのフレームワーク

PDPK: A Framework to Synthesise Process Data and Corresponding Procedural Knowledge for Manufacturing ( http://arxiv.org/abs/2308.08371v1 )

ライセンス: Link先を確認
Richard Nordsieck, Andr\'e Schweizer, Michael Heider, J\"org H\"ahner(参考訳) 手続き的知識は、タスクの達成と問題を緩和する方法を記述する。 このような知識は一般に、品質目標を達成するためにパラメータを調整する製造業者など、ドメインの専門家によって保持される。 我々の知る限りでは、プロセスデータとそれに対応する手続き的知識を含む実世界のデータセットは公開されていない。 したがって、異なるドメインに適応可能な合成データセットを生成するためのフレームワークを提供する。 デザインの選択は、私たちがアクセスできる手続き的知識の2つの現実世界のデータセットにインスパイアされています。 Resource Description Framework (RDF) 準拠の知識グラフに手続き的知識の表現を含むのとは別に、このフレームワークはパラメトリックプロセスをシミュレートし、一貫性のあるプロセスデータを提供する。 既定の埋め込み手法を知識グラフ上で比較し,手続き的知識を表現する可能性について詳述した。 これは、将来の作業の互換性を高めるために使用できるベースラインを提供する。 さらに,実世界のデータセット上で実現可能な結果と比較することにより,合成データセットの全体的な特性を検証する。 フレームワークと評価コード、および評価に使用されるデータセットは、オープンソースである。

Procedural knowledge describes how to accomplish tasks and mitigate problems. Such knowledge is commonly held by domain experts, e.g. operators in manufacturing who adjust parameters to achieve quality targets. To the best of our knowledge, no real-world datasets containing process data and corresponding procedural knowledge are publicly available, possibly due to corporate apprehensions regarding the loss of knowledge advances. Therefore, we provide a framework to generate synthetic datasets that can be adapted to different domains. The design choices are inspired by two real-world datasets of procedural knowledge we have access to. Apart from containing representations of procedural knowledge in Resource Description Framework (RDF)-compliant knowledge graphs, the framework simulates parametrisation processes and provides consistent process data. We compare established embedding methods on the resulting knowledge graphs, detailing which out-of-the-box methods have the potential to represent procedural knowledge. This provides a baseline which can be used to increase the comparability of future work. Furthermore, we validate the overall characteristics of a synthesised dataset by comparing the results to those achievable on a real-world dataset. The framework and evaluation code, as well as the dataset used in the evaluation, are available open source.
翻訳日:2023-08-17 13:15:06 公開日:2023-08-16
# 人間と物体の相互作用検出のための凝集変換器

Agglomerative Transformer for Human-Object Interaction Detection ( http://arxiv.org/abs/2308.08370v1 )

ライセンス: Link先を確認
Danyang Tu, Wei Sun, Guangtao Zhai, Wei Shen(参考訳) 本稿では,Transformer-based Human-object Interaction (HOI) 検出器を単一段階およびエンドツーエンドで柔軟に活用するアグリメティブトランスフォーマを提案する。 AGERは、パッチトークンを動的にクラスタリングし、クラスタセンターをテキストガイダンスでインスタンスにアライメントすることで、インスタンストークンを取得する。 1) 整合性:各インスタンストークンは、インスタンスのすべての識別的特徴領域を含むように奨励され、異なるインスタンスレベルのキューの抽出において大幅な改善が示され、HICO-Det上で36.75mAPのHOI検出の新たな最先端性能がもたらされる。 2) 効率性: 動的クラスタリング機構により、AGERはTransformerエンコーダの機能学習と共同でインスタンストークンを生成でき、それ以前の方法で追加のオブジェクト検出器やインスタンスデコーダを不要にすることで、単一ステージとエンドツーエンドのパイプラインでHOI検出のための望ましい余分なキューを抽出できる。 具体的には、agerはgflopsを8.5%削減し、余分なキュア抽出を伴わないバニラdetrのようなパイプラインと比較してもfpsを36%改善する。

We propose an agglomerative Transformer (AGER) that enables Transformer-based human-object interaction (HOI) detectors to flexibly exploit extra instance-level cues in a single-stage and end-to-end manner for the first time. AGER acquires instance tokens by dynamically clustering patch tokens and aligning cluster centers to instances with textual guidance, thus enjoying two benefits: 1) Integrality: each instance token is encouraged to contain all discriminative feature regions of an instance, which demonstrates a significant improvement in the extraction of different instance-level cues and subsequently leads to a new state-of-the-art performance of HOI detection with 36.75 mAP on HICO-Det. 2) Efficiency: the dynamical clustering mechanism allows AGER to generate instance tokens jointly with the feature learning of the Transformer encoder, eliminating the need of an additional object detector or instance decoder in prior methods, thus allowing the extraction of desirable extra cues for HOI detection in a single-stage and end-to-end pipeline. Concretely, AGER reduces GFLOPs by 8.5% and improves FPS by 36%, even compared to a vanilla DETR-like pipeline without extra cue extraction.
翻訳日:2023-08-17 13:14:47 公開日:2023-08-16
# Diff-CAPTCHA:拡散モデルによるセキュリティ強化によるイメージベースCAPTCHA

Diff-CAPTCHA: An Image-based CAPTCHA with Security Enhanced by Denoising Diffusion Model ( http://arxiv.org/abs/2308.08367v1 )

ライセンス: Link先を確認
Ran Jiang, Sanfeng Zhang, Linfeng Liu, Yanbing Peng(参考訳) CAPTCHAの安全性を高めるために、テキストに干渉線を追加したり、文字をランダムに歪ませたり、複数の文字を重複させたりといった様々な手法が採用されている。 これらの手法は、自動セグメンテーションと認識攻撃の難しさを部分的に増やしている。 しかし、エンドツーエンドの破壊アルゴリズムの急速な開発に直面し、そのセキュリティは大幅に弱まった。 拡散モデルは文字と背景画像の深い融合でテキスト画像を生成することができる新しい画像生成モデルである。 本稿では,Diff-CAPTCHAと呼ばれる画像クリック型CAPTCHA方式を提案する。 captchaの背景画像と文字を全体として扱い、拡散モデルの生成過程を導くことにより、機械学習で使用可能な文字特徴を弱め、captchaの文字特徴の多様性を高め、アルゴリズムを破ることの難しさを増大させる。 本稿では、Diff-CAPTCHAのセキュリティを評価するために、より高速なR-CNNに基づくエンドツーエンド攻撃と2段階攻撃を含むいくつかの攻撃手法を開発し、Diff-CAPTCHAを商用CAPTCHAスキームとセキュリティ強化CAPTCHAスキームの3つのベースラインスキームと比較した。 実験結果から, 拡散モデルによりCAPTCHAの安全性が向上し, 良好なユーザビリティが維持できることが示唆された。

To enhance the security of text CAPTCHAs, various methods have been employed, such as adding the interference lines on the text, randomly distorting the characters, and overlapping multiple characters. These methods partly increase the difficulty of automated segmentation and recognition attacks. However, facing the rapid development of the end-to-end breaking algorithms, their security has been greatly weakened. The diffusion model is a novel image generation model that can generate the text images with deep fusion of characters and background images. In this paper, an image-click CAPTCHA scheme called Diff-CAPTCHA is proposed based on denoising diffusion models. The background image and characters of the CAPTCHA are treated as a whole to guide the generation process of a diffusion model, thus weakening the character features available for machine learning, enhancing the diversity of character features in the CAPTCHA, and increasing the difficulty of breaking algorithms. To evaluate the security of Diff-CAPTCHA, this paper develops several attack methods, including end-to-end attacks based on Faster R-CNN and two-stage attacks, and Diff-CAPTCHA is compared with three baseline schemes, including commercial CAPTCHA scheme and security-enhanced CAPTCHA scheme based on style transfer. The experimental results show that diffusion models can effectively enhance CAPTCHA security while maintaining good usability in human testing.
翻訳日:2023-08-17 13:14:19 公開日:2023-08-16
# 非エルミート平面バンドにおけるラシング、量子幾何学およびコヒーレンス

Lasing, quantum geometry and coherence in non-Hermitian flat bands ( http://arxiv.org/abs/2308.08418v1 )

ライセンス: Link先を確認
Ivan Amelio, Nathan Goldman(参考訳) 本研究では, 単粒子分散が実部と虚部の両方で平坦である場合, ブロッホ状態の幾何学的性質により, 平坦帯格子の発振を安定化できることを示す。 一般射影法を示し,集合励起を計算し,利得,損失,相互作用を含む特異な係数を通じて量子幾何学によって支配される拡散的挙動を示す。 そして, 位相ダイナミクスは, 先頭方向のカルダル・パリ・張非線形性を驚くほどキャンセルしたことを示す。 一次元幾何学におけるkardar-parisi-zhang普遍性の関連性から,本研究はダイヤモンド鎖の研究に焦点をあて,この結果の完全な数値シミュレーションにより確認する。

We show that lasing in flat band lattices can be stabilized by means of the geometrical properties of the Bloch states, in settings where the single-particle dispersion is flat in both its real and imaginary parts. We illustrate a general projection method and compute the collective excitations, which are shown to display a diffusive behavior ruled by quantum geometry through a peculiar coefficient involving gain, losses and interactions. Then, we analytically show that the phase dynamics display a surprising cancellation of the Kardar-Parisi-Zhang nonlinearity at the leading order. Because of the relevance of Kardar-Parisi-Zhang universality in one-dimensional geometries, we focus our study on the diamond chain and provide confirmation of these results through full numerical simulations.
翻訳日:2023-08-17 13:06:24 公開日:2023-08-16
# tem-adapter:ビデオ質問に対する画像テキスト事前学習の適用

Tem-adapter: Adapting Image-Text Pretraining for Video Question Answer ( http://arxiv.org/abs/2308.08414v1 )

ライセンス: Link先を確認
Guangyi Chen, Xiao Liu, Guangrun Wang, Kun Zhang, Philip H.S.Torr, Xiao-Ping Zhang, Yansong Tang(参考訳) ビデオ言語事前学習モデルでは,ビデオ質問応答(VideoQA)タスクの指導に顕著な成功を収めている。 しかし、ビデオシーケンスの長さのため、大規模なビデオベースモデルのトレーニングは、画像ベースモデルのトレーニングよりもかなりコストがかかる。 これは、画像ドメインとビデオドメインの間に明らかなギャップがあるにもかかわらず、イメージベースの事前学習からの知識を活用する動機となります。 そこで本稿では,これらのギャップを埋めるために,視覚テンポラリライナーとテキストセマンティクスライナーによる時間ダイナミクスと複雑なセマンティクスの学習を可能にするtem-adapterを提案する。 ダウンストリームタスクの目的のみに集中する従来の事前訓練された知識適応手法とは異なり、テンポラル・アリグナーは、出来事の進行を記述した歴史的手がかりと言語指導に基づく将来の状態を予測することを目的として、時間的依存の学習を促進することを目的とした言語誘導の自己回帰タスクを導入する。 さらに,意味的ギャップを減らし,より優れたイベント記述のためにテキスト表現を適用するために,まず質問と回答のペアをイベント記述として融合させるテンプレートを設計し,次にビデオシーケンス全体を用いたトランスフォーマーデコーダを改良のガイダンスとして学習するセマンティック・アリグナーを導入する。 我々は,2つのビデオQAベンチマークにおいて,Tem-Adapterと異なる事前列車転送手法を評価し,その性能向上が本手法の有効性を示す。

Video-language pre-trained models have shown remarkable success in guiding video question-answering (VideoQA) tasks. However, due to the length of video sequences, training large-scale video-based models incurs considerably higher costs than training image-based ones. This motivates us to leverage the knowledge from image-based pretraining, despite the obvious gaps between image and video domains. To bridge these gaps, in this paper, we propose Tem-Adapter, which enables the learning of temporal dynamics and complex semantics by a visual Temporal Aligner and a textual Semantic Aligner. Unlike conventional pretrained knowledge adaptation methods that only concentrate on the downstream task objective, the Temporal Aligner introduces an extra language-guided autoregressive task aimed at facilitating the learning of temporal dependencies, with the objective of predicting future states based on historical clues and language guidance that describes event progression. Besides, to reduce the semantic gap and adapt the textual representation for better event description, we introduce a Semantic Aligner that first designs a template to fuse question and answer pairs as event descriptions and then learns a Transformer decoder with the whole video sequence as guidance for refinement. We evaluate Tem-Adapter and different pre-train transferring methods on two VideoQA benchmarks, and the significant performance improvement demonstrates the effectiveness of our method.
翻訳日:2023-08-17 13:05:56 公開日:2023-08-16
# 知識強化マルチラベルFew-Shot製品属性値抽出

Knowledge-Enhanced Multi-Label Few-Shot Product Attribute-Value Extraction ( http://arxiv.org/abs/2308.08413v1 )

ライセンス: Link先を確認
Jiaying Gong, Wei-Te Chen, Hoda Eldardiry(参考訳) 既存の属性値抽出(AVE)モデルは、トレーニングのために大量のラベル付きデータを必要とする。 しかし、新しい属性値ペアを持つ新製品は、現実世界のeコマースで毎日市場に出回っている。 そこで我々は,少数の学習例をもとに,未発見の属性値ペアを抽出することを目的とした,マルチラベル・マイノショット学習 (fsl) において ave を定式化した。 本稿では,生成したラベル記述とカテゴリ情報を利用して,より識別的なプロトタイプを学ぶための知識強化型注意フレームワーク (keaf) を提案する。 さらに、KEAFはハイブリットアテンションと統合してノイズを低減し、ラベル関連およびクエリ関連重みを計算することで、各クラスのより情報的な意味を捉える。 マルチラベル推論を実現するため、keafはサポートセットとクエリセットの両方から意味情報を統合して動的しきい値をさらに学習する。 2つのデータセットを用いたアブレーション実験により、KEAFはFSLにおける情報抽出のために他のSOTAモデルよりも優れていることを示した。 コードは https://github.com/gjiaying/KEAF

Existing attribute-value extraction (AVE) models require large quantities of labeled data for training. However, new products with new attribute-value pairs enter the market every day in real-world e-Commerce. Thus, we formulate AVE in multi-label few-shot learning (FSL), aiming to extract unseen attribute value pairs based on a small number of training examples. We propose a Knowledge-Enhanced Attentive Framework (KEAF) based on prototypical networks, leveraging the generated label description and category information to learn more discriminative prototypes. Besides, KEAF integrates with hybrid attention to reduce noise and capture more informative semantics for each class by calculating the label-relevant and query-related weights. To achieve multi-label inference, KEAF further learns a dynamic threshold by integrating the semantic information from both the support set and the query set. Extensive experiments with ablation studies conducted on two datasets demonstrate that KEAF outperforms other SOTA models for information extraction in FSL. The code can be found at: https://github.com/gjiaying/KEAF
翻訳日:2023-08-17 13:05:06 公開日:2023-08-16
# 表面心電図からの心電気生理学的モデルのデジタルツインニング : 測地学的バックプロパゲーションアプローチ

Digital twinning of cardiac electrophysiology models from the surface ECG: a geodesic backpropagation approach ( http://arxiv.org/abs/2308.08410v1 )

ライセンス: Link先を確認
Thomas Grandits, Jan Verh\"ulsdonk, Gundolf Haase, Alexander Effland, Simone Pezzuto(参考訳) 固有方程式は、心臓の電気的活性化を正確かつ効率的にモデル化するのに欠かせないツールとなっている。 臨床的に記録された心電図と心電図(ECG)を照合することにより、患者固有の心電気生理学的モデルを構築することができる。 それでも、フィッティング手順は難しい課題である。 本研究では,逆固有問題を解くための新しい手法geodesic-bpを提案する。 Geodesic-BPはGPU加速機械学習フレームワークに適しており、固有方程式のパラメータを最適化して所定のECGを再生することができる。 その結果,Geodesic-BPは, モデル不正確な場合であっても, 合成テストケースにおいて, シミュレーション心活性化を高精度に再現できることが示唆された。 さらに,本アルゴリズムをウサギモデルの公開データセットに適用し,非常に肯定的な結果を得た。 パーソナライズされた医療への将来のシフトを考えると、Geodesic-BPは、最先端の心臓モデルの生理的精度を維持しつつ、臨床時間制約を満たす心臓モデルの将来の機能化に役立つ可能性がある。

The eikonal equation has become an indispensable tool for modeling cardiac electrical activation accurately and efficiently. In principle, by matching clinically recorded and eikonal-based electrocardiograms (ECGs), it is possible to build patient-specific models of cardiac electrophysiology in a purely non-invasive manner. Nonetheless, the fitting procedure remains a challenging task. The present study introduces a novel method, Geodesic-BP, to solve the inverse eikonal problem. Geodesic-BP is well-suited for GPU-accelerated machine learning frameworks, allowing us to optimize the parameters of the eikonal equation to reproduce a given ECG. We show that Geodesic-BP can reconstruct a simulated cardiac activation with high accuracy in a synthetic test case, even in the presence of modeling inaccuracies. Furthermore, we apply our algorithm to a publicly available dataset of a rabbit model, with very positive results. Given the future shift towards personalized medicine, Geodesic-BP has the potential to help in future functionalizations of cardiac models meeting clinical time constraints while maintaining the physiological accuracy of state-of-the-art cardiac models.
翻訳日:2023-08-17 13:04:46 公開日:2023-08-16
# Schr\\odingersationによるマクスウェル方程式の量子シミュレーション

Quantum simulation of Maxwell's equations via Schr\"odingersation ( http://arxiv.org/abs/2308.08408v1 )

ライセンス: Link先を確認
Shi Jin and Nana Liu and Chuwen Ma(参考訳) マクスウェル方程式に支配される電磁場に対する量子アルゴリズムを提案する。 アルゴリズムはSchr\"odingersationアプローチに基づいており、これは非ユニタリダイナミクスを持つ線形PDEとODEを、方程式を1つの高次元にマッピングするワープ位相変換を通じて、ユニタリダイナミクスの下で進化するシステムに変換する。 本稿では、我々の量子アルゴリズムは、マクスウェル方程式の直接近似とイェーのアルゴリズムを組み合わせたものか、スペクトルアプローチとアップウインドスキームを組み合わせたリーマン・シルバーシュタインベクトルの項による行列表現に基づいている。 完全導体およびインピーダンス境界を含む物理境界条件でこれらのアルゴリズムを実装した。 また、線形不均一媒質、特に界面問題に対してマクスウェル方程式を解く。 このアプローチの有効性を示すために,いくつかの数値実験を行った。 加えて、量子ビットの代わりに、量子アルゴリズムは連続変数量子フレームワークで定式化することができ、アナログ量子シミュレーションにおけるマクスウェル方程式の量子シミュレーションを可能にする。

We present quantum algorithms for electromagnetic fields governed by Maxwell's equations. The algorithms are based on the Schr\"odingersation approach, which transforms any linear PDEs and ODEs with non-unitary dynamics into a system evolving under unitary dynamics, via a warped phase transformation that maps the equation into one higher dimension. In this paper, our quantum algorithms are based on either a direct approximation of Maxwell's equations combined with Yee's algorithm, or a matrix representation in terms of Riemann-Silberstein vectors combined with a spectral approach and an upwind scheme. We implement these algorithms with physical boundary conditions, including perfect conductor and impedance boundaries. We also solve Maxwell's equations for a linear inhomogeneous medium, specifically the interface problem. Several numerical experiments are performed to demonstrate the validity of this approach. In addition, instead of qubits, the quantum algorithms can also be formulated in the continuous variable quantum framework, which allows the quantum simulation of Maxwell's equations in analog quantum simulation.
翻訳日:2023-08-17 13:04:24 公開日:2023-08-16
# 臨床リスク予測のための説明可能なAI:概念・方法・モダリティの調査

Explainable AI for clinical risk prediction: a survey of concepts, methods, and modalities ( http://arxiv.org/abs/2308.08407v1 )

ライセンス: Link先を確認
Munib Mesinovic, Peter Watkinson, Tingting Zhu(参考訳) 医療へのAI応用の最近の進歩は、診断と疾患の予後において、人間のパフォーマンスを超えるという驚くべき可能性を示している。 しかし、AIモデルの複雑さが増すにつれ、不透明感、潜在的なバイアス、解釈可能性の必要性が懸念される。 aiシステム、特に臨床リスク予測モデルにおける信頼性と信頼性を確保するためには、説明可能性が不可欠となる。 説明可能性は通常、AIシステムの能力として、意思決定ロジックやそれ自身を人間の利害関係者に堅牢な解釈を提供する。 臨床リスク予測では、公平性、バイアス、信頼、透明性といった説明可能性の他の側面も、単に解釈可能性以上の重要な概念を表している。 このレビューでは、これらの概念が一緒に、あるいは交換的に使用される場合が多いため、これらの概念間の関係について論じる。 本総説では, 臨床リスク予測のための説明可能なモデル開発における最近の進歩を考察し, 臨床実践における定量的, 臨床的評価の重要性と, 複数の共通モダリティの検証について述べる。 外部検証の必要性と,信頼と公正性を高めるための多種多様な解釈可能性手法の組み合わせを強調している。 既知の生成要因を持つ合成データセットの使用のような厳密なテストを採用することで、説明可能性法の信頼性をさらに向上することができる。 オープンアクセスとコード共有リソースは透明性と再現性に不可欠であり、説明可能な研究の成長と信頼性を可能にする。 課題はあるが、臨床リスク予測における説明可能性に対するエンドツーエンドのアプローチは、臨床医から開発者へのステークホルダーを取り入れることが成功に不可欠である。

Recent advancements in AI applications to healthcare have shown incredible promise in surpassing human performance in diagnosis and disease prognosis. With the increasing complexity of AI models, however, concerns regarding their opacity, potential biases, and the need for interpretability. To ensure trust and reliability in AI systems, especially in clinical risk prediction models, explainability becomes crucial. Explainability is usually referred to as an AI system's ability to provide a robust interpretation of its decision-making logic or the decisions themselves to human stakeholders. In clinical risk prediction, other aspects of explainability like fairness, bias, trust, and transparency also represent important concepts beyond just interpretability. In this review, we address the relationship between these concepts as they are often used together or interchangeably. This review also discusses recent progress in developing explainable models for clinical risk prediction, highlighting the importance of quantitative and clinical evaluation and validation across multiple common modalities in clinical practice. It emphasizes the need for external validation and the combination of diverse interpretability methods to enhance trust and fairness. Adopting rigorous testing, such as using synthetic datasets with known generative factors, can further improve the reliability of explainability methods. Open access and code-sharing resources are essential for transparency and reproducibility, enabling the growth and trustworthiness of explainable research. While challenges exist, an end-to-end approach to explainability in clinical risk prediction, incorporating stakeholders from clinicians to developers, is essential for success.
翻訳日:2023-08-17 13:04:07 公開日:2023-08-16
# ビデオストリーミングプラットフォームのためのコンテンツベースレコメンデーションエンジン

Content-based Recommendation Engine for Video Streaming Platform ( http://arxiv.org/abs/2308.08406v1 )

ライセンス: Link先を確認
Puskal Khadka and Prabhav Lamichhane(参考訳) 推奨エンジンは、機械学習アルゴリズムを使用してコンテンツ、製品、サービスをユーザに提案する。 本稿では,コンテンツに基づく推薦エンジンを提案する。 TF-IDFテキストベクトル化法を用いて文書中の単語の関連性を決定する。 そして,それらの間のコサイン類似性を計算することにより,各コンテンツ間の類似性を見出す。 最後に、engineは、得られた類似度スコア値に基づいて、ユーザにビデオを推奨する。 さらに,提案システムの精度,リコール,F1コアの計算により,エンジンの性能を計測する。

Recommendation engine suggest content, product or services to the user by using machine learning algorithm. This paper proposed a content-based recommendation engine for providing video suggestion to the user based on their previous interests and choices. We will use TF-IDF text vectorization method to determine the relevance of words in a document. Then we will find out the similarity between each content by calculating cosine similarity between them. Finally, engine will recommend videos to the users based on the obtained similarity score value. In addition, we will measure the engine's performance by computing precision, recall, and F1 core of the proposed system.
翻訳日:2023-08-17 13:03:42 公開日:2023-08-16
# 3次元U-Netセグメンテーションによる頭頸部扁平上皮癌の放射線治療後再発量の予測

Prediction of post-radiotherapy recurrence volumes in head and neck squamous cell carcinoma using 3D U-Net segmentation ( http://arxiv.org/abs/2308.08396v1 )

ライセンス: Link先を確認
Denis Kutn\'ar, Ivan R Vogelius, Katrin Elisabet H{\aa}kansson, Jens Petersen, Jeppe Friborg, Lena Specht, Mogens Bernsdorf, Anita Gothelf, Claus Kristensen, Abraham George Smith(参考訳) 頭頸部扁平上皮癌 (HNSCC) に対して, 局所再発 (LRR) は治療障害の頻発部位である。 術前画像による高リスクサブボリュームの同定は, 放射線治療の鍵となる。 18F-fluorodeoxyglucose positron emission tomography (FDG-PET)/computed tomography (CT) を用いて, コンボリューショナルニューラルネットワーク(CNN)がLRR量を予測できる範囲について検討した。 口腔咽頭扁平上皮癌に対する初回放射線治療を施行した37例に対し,5例の腫瘍学者がctで再発量を調べた。 FDG-PET/CT,GTV,Contoured Relapseの各患者のデータセットをランダムにトレーニング(n=23),検証(n=7),検査(n=7)データセットに分割した。 我々は、スクラッチからトレーニングしたCNN、トレーニング済みCNN、SUVmaxしきい値アプローチ、GTVを直接使用したCNNを比較した。 suvmaxしきい値法では、中央値4.6立方センチメートル (cc) の体積内の7つの再帰点のうち5つを含む。 GTVのコンターとCNNのセグメンテーションでは、それぞれ中央値28ccと18ccの7回のうち6回が再発起源であった。 CNNには同じまたはより多くの再ラプスボリュームPOが含まれ、再ラプスボリュームは大幅に小さくなった。 以上の結果から, cnnはlrrを予測できるが, 臨床的に有用な予測精度を得るためにはデータセット開発がさらに必要であることが示唆された。

Locoregional recurrences (LRR) are still a frequent site of treatment failure for head and neck squamous cell carcinoma (HNSCC) patients. Identification of high risk subvolumes based on pretreatment imaging is key to biologically targeted radiation therapy. We investigated the extent to which a Convolutional neural network (CNN) is able to predict LRR volumes based on pre-treatment 18F-fluorodeoxyglucose positron emission tomography (FDG-PET)/computed tomography (CT) scans in HNSCC patients and thus the potential to identify biological high risk volumes using CNNs. For 37 patients who had undergone primary radiotherapy for oropharyngeal squamous cell carcinoma, five oncologists contoured the relapse volumes on recurrence CT scans. Datasets of pre-treatment FDG-PET/CT, gross tumour volume (GTV) and contoured relapse for each of the patients were randomly divided into training (n=23), validation (n=7) and test (n=7) datasets. We compared a CNN trained from scratch, a pre-trained CNN, a SUVmax threshold approach, and using the GTV directly. The SUVmax threshold method included 5 out of the 7 relapse origin points within a volume of median 4.6 cubic centimetres (cc). Both the GTV contour and best CNN segmentations included the relapse origin 6 out of 7 times with median volumes of 28 and 18 cc respectively. The CNN included the same or greater number of relapse volume POs, with significantly smaller relapse volumes. Our novel findings indicate that CNNs may predict LRR, yet further work on dataset development is required to attain clinically useful prediction accuracy.
翻訳日:2023-08-17 13:03:33 公開日:2023-08-16
# SIGMA:スケール不変グローバルスパース形状マッチング

SIGMA: Scale-Invariant Global Sparse Shape Matching ( http://arxiv.org/abs/2308.08393v1 )

ライセンス: Link先を確認
Maolin Gao, Paul Roetzer, Marvin Eisenberger, Zorah L\"ahner, Michael Moeller, Daniel Cremers, Florian Bernard(参考訳) 非剛体形状の正確なスパース対応を生成するための新しい混合整数プログラミング(MIP)法を提案する。 そこで本研究では,予測対応によって生じる変形品質を測定するために,内在的および外在的幾何情報を組み合わせたラプラス・ベルトラミ演算子(PLBO)を提案する。 我々はPLBOとオリエンテーションを意識した正規表現器を統合し、多くの実用的な問題に対してグローバルな最適性に解決できる新しいMIPの定式化を行う。 従来の手法とは対照的に,本手法は剛性変換や大域的スケーリング,初期化フリー,最適性保証,高分解能メッシュの線形時間へのスケールに対して確実に不変である。 不整合メッシュを用いたデータやメッシュ・ツー・ポイント・クラウドマッチングの応用など,いくつかの困難な3Dデータセット上でのスパース非厳密マッチングの最先端結果を示す。

We propose a novel mixed-integer programming (MIP) formulation for generating precise sparse correspondences for highly non-rigid shapes. To this end, we introduce a projected Laplace-Beltrami operator (PLBO) which combines intrinsic and extrinsic geometric information to measure the deformation quality induced by predicted correspondences. We integrate the PLBO, together with an orientation-aware regulariser, into a novel MIP formulation that can be solved to global optimality for many practical problems. In contrast to previous methods, our approach is provably invariant to rigid transformations and global scaling, initialisation-free, has optimality guarantees, and scales to high resolution meshes with (empirically observed) linear time. We show state-of-the-art results for sparse non-rigid matching on several challenging 3D datasets, including data with inconsistent meshing, as well as applications in mesh-to-point-cloud matching.
翻訳日:2023-08-17 13:02:59 公開日:2023-08-16
# $q$-analog qudit Dicke state

$q$-analog qudit Dicke states ( http://arxiv.org/abs/2308.08392v1 )

ライセンス: Link先を確認
David Raveh and Rafael I. Nepomechie(参考訳) ディック状態は複数の量子ビット(2レベル系)の完全対称状態であり、クディット・ディック状態はその$d$レベル一般化である。 ここでは、量子代数 $su_q(d)$ を用いて、$q$-変形qudit Dicke 状態を定義する。 これらの状態は, 可換数 (inversion number) を含む$q$-factors の置換よりも重み付き和としてコンパクトに表現できることを示す。 この結果を用いて、これらの状態の二部交絡エントロピーを計算する。 また、量子コンピュータ上でのこれらの状態の生成についても論じ、$q$依存性の導入は回路ゲート数を変えないことを示す。

Dicke states are completely symmetric states of multiple qubits (2-level systems), and qudit Dicke states are their $d$-level generalization. We define here $q$-deformed qudit Dicke states using the quantum algebra $su_q(d)$. We show that these states can be compactly expressed as a weighted sum over permutations with $q$-factors involving the so-called inversion number, an important permutation statistic in Combinatorics. We use this result to compute the bipartite entanglement entropy of these states. We also discuss the preparation of these states on a quantum computer, and show that introducing a $q$-dependence does not change the circuit gate count.
翻訳日:2023-08-17 13:02:41 公開日:2023-08-16
# 二項場分布の崩壊と再生

Collapse and revivals for the binomial field distribution ( http://arxiv.org/abs/2308.08444v1 )

ライセンス: Link先を確認
S.I. Pavlik(参考訳) ハンケル輪郭上の積分としてのJaynes-Cummingsモデルにおける原子反転の正確な表現を用いる。 二項状態のフィールドに対して、この積分はsaddle point法を用いて評価される。 崩壊と再生に関する単純な近似解析式が得られた。

The exact representation of the atomic inversion in the Jaynes-Cummings model as an integral over the Hankel contour is used. For a field in a binomial state, the integral is evaluated using the saddle point method. Simple approximate analytical expressions for collapse and revivals are obtained.
翻訳日:2023-08-17 12:55:49 公開日:2023-08-16
# 2段階プロンプトエンハンスメントによる高忠実度レイク抽出:新しいベースラインとベンチマークの確立

High-Fidelity Lake Extraction via Two-Stage Prompt Enhancement: Establishing a Novel Baseline and Benchmark ( http://arxiv.org/abs/2308.08443v1 )

ライセンス: Link先を確認
Ben Chen, Xuechao Zou, Kai Li, Yu Zhang, Junliang Xing, Pin Tao(参考訳) リモートセンシング画像からの湖の抽出は,湖の形状やデータノイズが多岐にわたるため,複雑な課題である。 現在の方法はマルチスペクトル画像データセットに依存しているため、湖の特徴を正確にピクセル配置から学ぶことは困難である。 これは、モデル学習と正確なセグメンテーションマスクの作成に影響を与える。 本稿では,ポイント,ボックス,マスクプロンプトを用いて近似湖の位置を提供する,プロンプトに基づくデータセット構築手法を提案する。 また,トレーニング中のプロンプトベースおよびプロンプトフリーステージを含む2段階プロンプト拡張フレームワークleprompterを提案する。 プロンプトベースのステージは、プロンプトエンコーダを使用して、事前情報を抽出し、プロンプトデコーダ内の自己およびクロスアテンションを通じてプロンプトトークンとイメージ埋め込みを統合する。 モデルが推論中に独立性を確保するために訓練されると、プロンプトは非活性化される。 表層水と清海・チベット高原のデータセットの評価は,従来の最先端手法と比較して一貫した性能向上を示した。 LEPrompterは、追加パラメータやGFLOPを導入することなく、各データセットでmIoUスコアが91.48%、97.43%に達する。 補助材料はソースコード、事前訓練されたモデル、詳細なユーザー研究を提供する。

The extraction of lakes from remote sensing images is a complex challenge due to the varied lake shapes and data noise. Current methods rely on multispectral image datasets, making it challenging to learn lake features accurately from pixel arrangements. This, in turn, affects model learning and the creation of accurate segmentation masks. This paper introduces a unified prompt-based dataset construction approach that provides approximate lake locations using point, box, and mask prompts. We also propose a two-stage prompt enhancement framework, LEPrompter, which involves prompt-based and prompt-free stages during training. The prompt-based stage employs a prompt encoder to extract prior information, integrating prompt tokens and image embeddings through self- and cross-attention in the prompt decoder. Prompts are deactivated once the model is trained to ensure independence during inference, enabling automated lake extraction. Evaluations on Surface Water and Qinghai-Tibet Plateau Lake datasets show consistent performance improvements compared to the previous state-of-the-art method. LEPrompter achieves mIoU scores of 91.48% and 97.43% on the respective datasets without introducing additional parameters or GFLOPs. Supplementary materials provide the source code, pre-trained models, and detailed user studies.
翻訳日:2023-08-17 12:55:46 公開日:2023-08-16
# 文レベルGrapheme-to-Phoneme(G2P)トランスダクションにおける露光バイアスの緩和

Mitigating the Exposure Bias in Sentence-Level Grapheme-to-Phoneme (G2P) Transduction ( http://arxiv.org/abs/2308.08442v1 )

ライセンス: Link先を確認
Eunseop Yoon, Hee Suk Yoon, Dhananjaya Gowda, SooHwan Eom, Daehyeok Kim, John Harvill, Heting Gao, Mark Hasegawa-Johnson, Chanwoo Kim, Chang D. Yoo(参考訳) Text-to-Text Transfer Transformer (T5)は、最近Grapheme-to-Phoneme (G2P)トランスダクションとして検討されている。 ByT5と呼ばれるT5に基づくトークンフリーバイトレベルモデルでは,最近,各入力文字を対応するUTF-8エンコーディングで表現することで,単語レベルのG2P変換に有望な結果が得られた。 文レベルのG2Pや段落レベルのG2Pは、異名や単語間の音声のリンクに適しているため、現実世界のアプリケーションでは使い勝手を向上できると一般的に理解されているが、これらのシナリオにByT5を使用することは簡単ではない。 ByT5は文字レベルで動作するため、より長い復号ステップを必要とするため、自動回帰生成モデルでよく見られる露光バイアスにより性能が低下する。 本稿では, 文レベルと段落レベルのG2Pの性能を, 損失に基づくサンプリング手法を用いて緩和することで改善できることを示す。

Text-to-Text Transfer Transformer (T5) has recently been considered for the Grapheme-to-Phoneme (G2P) transduction. As a follow-up, a tokenizer-free byte-level model based on T5 referred to as ByT5, recently gave promising results on word-level G2P conversion by representing each input character with its corresponding UTF-8 encoding. Although it is generally understood that sentence-level or paragraph-level G2P can improve usability in real-world applications as it is better suited to perform on heteronyms and linking sounds between words, we find that using ByT5 for these scenarios is nontrivial. Since ByT5 operates on the character level, it requires longer decoding steps, which deteriorates the performance due to the exposure bias commonly observed in auto-regressive generation models. This paper shows that the performance of sentence-level and paragraph-level G2P can be improved by mitigating such exposure bias using our proposed loss-based sampling method.
翻訳日:2023-08-17 12:55:25 公開日:2023-08-16
# ASRデータ拡張のためのDysarthric Speechの高精度合成

Accurate synthesis of Dysarthric Speech for ASR data augmentation ( http://arxiv.org/abs/2308.08438v1 )

ライセンス: Link先を確認
Mohammad Soleymanpour, Michael T. Johnson, Rahim Soleymanpour, Jeffrey Berry(参考訳) Dysarthria は、しばしば発声筋の緩やかで非協調的な制御によって発声能力の低下を特徴とする運動性発声障害である。 自動音声認識 (ASR) システムは、難聴者のより効果的なコミュニケーションを支援する。 しかし、頑健な変形性障害特異的なASRにはかなりの量の訓練音声が必要である。 本稿では,ASRトレーニングデータ拡張を目的とした新しい音声合成法を提案する。 各種重症度における変形性自然発話の韻律的・音響的特徴の相違は、変形性音声モデリング、合成、拡張にとって重要な要素である。 変形性音声合成には、変形性重度レベル係数と停止挿入モデルを加えて、修正型ニューラルマルチストーカーTSを実装し、重度レベルに応じて変形性音声を合成する。 asrの訓練データ合成の有効性を評価するために, 構音障害特異的音声認識を用いた。 以上の結果から,DNN-HMMモデルでは基幹よりもWERが12.2%向上し,重度レベルと停止挿入制御の付加によりWERが6.5%減少し,これらのパラメータを追加する効果が示された。 TORGOデータベースの総合的な結果は, 変形性合成音声を用いて, 変形性ASRシステムに有意な影響を及ぼすことを示す。 また,合成音声の構音性および類似性を評価するために主観的評価を行った。 我々の主観的評価は、合成音声の知覚的解離性は真の解離性音声と類似していることを示している。

Dysarthria is a motor speech disorder often characterized by reduced speech intelligibility through slow, uncoordinated control of speech production muscles. Automatic Speech recognition (ASR) systems can help dysarthric talkers communicate more effectively. However, robust dysarthria-specific ASR requires a significant amount of training speech, which is not readily available for dysarthric talkers. This paper presents a new dysarthric speech synthesis method for the purpose of ASR training data augmentation. Differences in prosodic and acoustic characteristics of dysarthric spontaneous speech at varying severity levels are important components for dysarthric speech modeling, synthesis, and augmentation. For dysarthric speech synthesis, a modified neural multi-talker TTS is implemented by adding a dysarthria severity level coefficient and a pause insertion model to synthesize dysarthric speech for varying severity levels. To evaluate the effectiveness for synthesis of training data for ASR, dysarthria-specific speech recognition was used. Results show that a DNN-HMM model trained on additional synthetic dysarthric speech achieves WER improvement of 12.2% compared to the baseline, and that the addition of the severity level and pause insertion controls decrease WER by 6.5%, showing the effectiveness of adding these parameters. Overall results on the TORGO database demonstrate that using dysarthric synthetic speech to increase the amount of dysarthric-patterned speech for training has significant impact on the dysarthric ASR systems. In addition, we have conducted a subjective evaluation to evaluate the dysarthric-ness and similarity of synthesized speech. Our subjective evaluation shows that the perceived dysartrhic-ness of synthesized speech is similar to that of true dysarthric speech, especially for higher levels of dysarthria
翻訳日:2023-08-17 12:55:07 公開日:2023-08-16
# 階層を用いた画像検索のための視覚的・意味的類似性の統合

Integrating Visual and Semantic Similarity Using Hierarchies for Image Retrieval ( http://arxiv.org/abs/2308.08431v1 )

ライセンス: Link先を確認
Aishwarya Venkataramanan and Martin Laviale and C\'edric Pradalier(参考訳) コンテンツベース画像検索(cbir)の研究のほとんどは、クエリに視覚的に類似した画像データベースからインスタンスを効果的に検索できる堅牢な特徴表現の開発に焦点を当てている。 しかし、検索された画像は、クエリに意味的に関連しない結果を含むことがある。 そこで本研究では,視覚階層を用いて視覚と意味の類似性を捉えるcbir手法を提案する。 階層構造は、重なり合うクラスが高い視覚的および意味的類似性を共有することを前提として、分類のために訓練されたディープニューラルネットワークの潜在空間に重なり合う特徴を持つクラスをマージすることによって構築される。 最後に、構築された階層構造を類似性探索のための距離計算メトリックに統合する。 CUB-200-2011 と CIFAR100 の標準データセット実験と珪藻顕微鏡画像を用いた実時間利用実験により,既存の画像検索法に比べて優れた性能を示した。

Most of the research in content-based image retrieval (CBIR) focus on developing robust feature representations that can effectively retrieve instances from a database of images that are visually similar to a query. However, the retrieved images sometimes contain results that are not semantically related to the query. To address this, we propose a method for CBIR that captures both visual and semantic similarity using a visual hierarchy. The hierarchy is constructed by merging classes with overlapping features in the latent space of a deep neural network trained for classification, assuming that overlapping classes share high visual and semantic similarities. Finally, the constructed hierarchy is integrated into the distance calculation metric for similarity search. Experiments on standard datasets: CUB-200-2011 and CIFAR100, and a real-life use case using diatom microscopy images show that our method achieves superior performance compared to the existing methods on image retrieval.
翻訳日:2023-08-17 12:54:37 公開日:2023-08-16
# ALIP: 合成キャプションによる適応型言語画像事前学習

ALIP: Adaptive Language-Image Pre-training with Synthetic Caption ( http://arxiv.org/abs/2308.08428v1 )

ライセンス: Link先を確認
Kaicheng Yang, Jiankang Deng, Xiang An, Jiawei Li, Ziyong Feng, Jia Guo, Jing Yang, Tongliang Liu(参考訳) 対照的な言語イメージプリトレーニング(clip)は、webから収集した画像テキストペアでデータセットをスケールアップすることで、さまざまな視覚言語タスクのパフォーマンスを大幅に向上させた。 しかし、Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習の性能に影響を及ぼす可能性がある。 この問題に対処するために,まずofaモデルを用いて画像コンテンツに焦点をあてた合成キャプションを生成する。 生成されたキャプションには、事前学習に有用な補完情報が含まれている。 そこで本研究では,原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-training (ALIP)を提案する。 ALIPのコアコンポーネントとして、Language Consistency Gate(LCG)とDescription Consistency Gate(DCG)は、トレーニングプロセス中にサンプルと画像-テキスト/カプセルの重みを動的に調整する。 一方、適応的なコントラスト損失はノイズデータの影響を効果的に低減し、事前トレーニングデータの効率を向上させることができる。 モデルの異なるスケールと事前学習データセットの実験によりALIPを検証する。 実験の結果、ALIPはゼロショット画像テキスト検索や線形プローブを含む複数の下流タスクにおいて、最先端の性能を達成することがわかった。 将来の研究を容易にするため、コードと事前訓練されたモデルはhttps://github.com/deepglint/ALIP.comでリリースされる。

Contrastive Language-Image Pre-training (CLIP) has significantly boosted the performance of various vision-language tasks by scaling up the dataset with image-text pairs collected from the web. However, the presence of intrinsic noise and unmatched image-text pairs in web data can potentially affect the performance of representation learning. To address this issue, we first utilize the OFA model to generate synthetic captions that focus on the image content. The generated captions contain complementary information that is beneficial for pre-training. Then, we propose an Adaptive Language-Image Pre-training (ALIP), a bi-path model that integrates supervision from both raw text and synthetic caption. As the core components of ALIP, the Language Consistency Gate (LCG) and Description Consistency Gate (DCG) dynamically adjust the weights of samples and image-text/caption pairs during the training process. Meanwhile, the adaptive contrastive loss can effectively reduce the impact of noise data and enhances the efficiency of pre-training data. We validate ALIP with experiments on different scales of models and pre-training datasets. Experiments results show that ALIP achieves state-of-the-art performance on multiple downstream tasks including zero-shot image-text retrieval and linear probe. To facilitate future research, the code and pre-trained models are released at https://github.com/deepglint/ALIP.
翻訳日:2023-08-17 12:54:20 公開日:2023-08-16
# 対話型質問による逆強化学習によるリスク回避

Eliciting Risk Aversion with Inverse Reinforcement Learning via Interactive Questioning ( http://arxiv.org/abs/2308.08427v1 )

ライセンス: Link先を確認
Ziteng Cheng and Anthony Coache and Sebastian Jaimungal(参考訳) 本稿では,対話型質問を用いたエージェントのリスク回避のための新しいフレームワークを提案する。 本研究は,一周期の場合と無限水平の場合の2つのシナリオで実施する。 一時期の場合、エージェントのリスク回避は、状態のコスト関数と歪みリスク測度によって特徴づけられると仮定する。 無限地平線の場合、追加成分である割引係数を用いてリスク回避をモデル化する。 エージェントの真のリスク回避を含む有限の候補セットへのアクセスを仮定すると、エージェントに、そのエージェントのリスク回避を識別するための効果的な手段として、さまざまな環境において彼女の最適なポリシーを示すように依頼することが示される。 具体的には、エージェントのリスク回避は、質問の数が無限になりがちであり、質問がランダムに設計されていることを証明します。 また,最適質問の設計アルゴリズムを開発し,シミュレーションにおいてランダムに設計された質問よりもリスク回避がはるかに早く学習できることを実証的に証明する。 我々のフレームワークはロボアドバイスに重要な応用があり、エージェントのリスク嗜好を特定するための新しいアプローチを提供する。

This paper proposes a novel framework for identifying an agent's risk aversion using interactive questioning. Our study is conducted in two scenarios: a one-period case and an infinite horizon case. In the one-period case, we assume that the agent's risk aversion is characterized by a cost function of the state and a distortion risk measure. In the infinite horizon case, we model risk aversion with an additional component, a discount factor. Assuming the access to a finite set of candidates containing the agent's true risk aversion, we show that asking the agent to demonstrate her optimal policies in various environment, which may depend on their previous answers, is an effective means of identifying the agent's risk aversion. Specifically, we prove that the agent's risk aversion can be identified as the number of questions tends to infinity, and the questions are randomly designed. We also develop an algorithm for designing optimal questions and provide empirical evidence that our method learns risk aversion significantly faster than randomly designed questions in simulations. Our framework has important applications in robo-advising and provides a new approach for identifying an agent's risk preferences.
翻訳日:2023-08-17 12:53:56 公開日:2023-08-16
# 確率環境における量子ウォーク

Quantum walk in stochastic environment ( http://arxiv.org/abs/2308.08419v1 )

ライセンス: Link先を確認
Ben Avnit, Doron Cohen(参考訳) ランダム環境におけるランダムウォーキング」のためのシナイ・デリダモデルの量子化バージョンを考える。 このモデルはリンドブラッドマスター方程式によって定義される。 環幾何(周期的な境界条件を持つ鎖)に対して、非局所化遷移は臨界値を超えてバイアスが増大し、緩和が弱くなることを意味する。 直観的には、コヒーレントホッピングにより有効障害が増強される。 この拡張とそのモデルパラメータ依存性を詳細に分析した。 リンドブラジアンスペクトルのコヒーレント遷移速度に対する非単調依存性を強調する。

We consider a quantized version of the Sinai-Derrida model for "random walk in random environment". The model is defined in terms of a Lindblad master equation. For a ring geometry (a chain with periodic boundary condition) it features a delocalization-transition as the bias in increased beyond a critical value, indicating that the relaxation becomes under-damped. Counter intuitively, the effective disorder is enhanced due to coherent hopping. We analyze in detail this enhancement and its dependence on the model parameters. The non-monotonic dependence of the Lindbladian spectrum on the rate of the coherent transitions is highlighted.
翻訳日:2023-08-17 12:53:36 公開日:2023-08-16
# LLM4TS:LLMによる時系列予測のための2段階ファインチューニング

LLM4TS: Two-Stage Fine-Tuning for Time-Series Forecasting with Pre-Trained LLMs ( http://arxiv.org/abs/2308.08469v1 )

ライセンス: Link先を確認
Ching Chang, Wen-Chih Peng, Tien-Fu Chen(参考訳) 本研究では,事前学習されたLarge Language Models(LLM)を利用して時系列予測を強化する。 自然言語処理とコンピュータビジョンの統一モデルへの関心の高まりを反映し,長期時系列予測のための類似モデルの作成を想定する。 強靭な基礎モデルを構築するための大規模時系列データが少ないため,本手法では,事前学習したLLMの強みを活用することに重点を置いている。 時系列パッチングとテンポラリエンコーディングを組み合わせることで,時系列データを効果的に処理できるllmの能力を高めた。 まずは、llmを時系列データに向き付けるための教師付き微調整を行い、次にタスク固有の下流の微調整を行います。 さらに,パラメータ調整を行なわずに事前学習したLLMの柔軟性を解放するために,パラメータ効率の良い細調整(PEFT)技術を採用した。 これらの革新に基づき、LLM4TSは長期的な予測において最先端の結果を得た。 我々のモデルは、事前学習されたLLMから受け継がれた知識のおかげで、頑健な表現学習者および効果的な数ショット学習者としての優れた能力も示している。

In this work, we leverage pre-trained Large Language Models (LLMs) to enhance time-series forecasting. Mirroring the growing interest in unifying models for Natural Language Processing and Computer Vision, we envision creating an analogous model for long-term time-series forecasting. Due to limited large-scale time-series data for building robust foundation models, our approach LLM4TS focuses on leveraging the strengths of pre-trained LLMs. By combining time-series patching with temporal encoding, we have enhanced the capability of LLMs to handle time-series data effectively. Inspired by the supervised fine-tuning in chatbot domains, we prioritize a two-stage fine-tuning process: first conducting supervised fine-tuning to orient the LLM towards time-series data, followed by task-specific downstream fine-tuning. Furthermore, to unlock the flexibility of pre-trained LLMs without extensive parameter adjustments, we adopt several Parameter-Efficient Fine-Tuning (PEFT) techniques. Drawing on these innovations, LLM4TS has yielded state-of-the-art results in long-term forecasting. Our model has also shown exceptional capabilities as both a robust representation learner and an effective few-shot learner, thanks to the knowledge transferred from the pre-trained LLM.
翻訳日:2023-08-17 12:45:55 公開日:2023-08-16
# 物理に変形したニューラルネットワークの訓練に関する専門家ガイド

An Expert's Guide to Training Physics-informed Neural Networks ( http://arxiv.org/abs/2308.08468v1 )

ライセンス: Link先を確認
Sifan Wang, Shyam Sankaran, Hanwen Wang, Paris Perdikaris(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、観測データと偏微分方程式(PDE)制約をシームレスに合成できるディープラーニングフレームワークとして普及している。 しかし、その実用性は、病理の訓練によって阻害されるだけでなく、深層学習の専門知識を欠いたユーザーによる不適切な選択によってしばしば妨げられる。 本稿では,PINNのトレーニング効率と全体的な精度を大幅に向上させる一連のベストプラクティスを提案する。 私たちはまた、ピンのトレーニングの最も顕著な困難を浮き彫りにした一連の挑戦的なベンチマーク問題を提示し、異なるアーキテクチャの選択とトレーニング戦略が結果のモデルのテスト精度にどのように影響するかを示す包括的かつ完全に再現可能なアブレーション研究を提示した。 本研究で提示された手法と指導原則が最先端の成果につながり,今後の研究が比較目的に使用するべき強固なベースラインを提供することを示す。 この目的のために、我々は、本論文で報告されたすべての結果を再現し、将来の研究研究を可能にし、新しいユースケースシナリオへの適応を容易にするために使用できる、jaxの高度に最適化されたライブラリもリリースします。

Physics-informed neural networks (PINNs) have been popularized as a deep learning framework that can seamlessly synthesize observational data and partial differential equation (PDE) constraints. Their practical effectiveness however can be hampered by training pathologies, but also oftentimes by poor choices made by users who lack deep learning expertise. In this paper we present a series of best practices that can significantly improve the training efficiency and overall accuracy of PINNs. We also put forth a series of challenging benchmark problems that highlight some of the most prominent difficulties in training PINNs, and present comprehensive and fully reproducible ablation studies that demonstrate how different architecture choices and training strategies affect the test accuracy of the resulting models. We show that the methods and guiding principles put forth in this study lead to state-of-the-art results and provide strong baselines that future studies should use for comparison purposes. To this end, we also release a highly optimized library in JAX that can be used to reproduce all results reported in this paper, enable future research studies, as well as facilitate easy adaptation to new use-case scenarios.
翻訳日:2023-08-17 12:45:33 公開日:2023-08-16
# ニューラル量子支援ベクトルマシンについて

On Neural Quantum Support Vector Machines ( http://arxiv.org/abs/2308.08467v1 )

ライセンス: Link先を確認
Lars Simon and Manuel Radons(参考訳) cite{simon2023algorithms}では、ニューラルサポートベクターマシン(nsvm)のトレーニングのための4つのアルゴリズムを導入し、その実現可能性を示した。 本稿では、ニューラル量子サポートベクターマシン、すなわち量子カーネルを持つnsvmを紹介し、その結果をこの設定に拡張する。

In \cite{simon2023algorithms} we introduced four algorithms for the training of neural support vector machines (NSVMs) and demonstrated their feasibility. In this note we introduce neural quantum support vector machines, that is, NSVMs with a quantum kernel, and extend our results to this setting.
翻訳日:2023-08-17 12:45:12 公開日:2023-08-16
# 医用画像分割ネットワークにおける階層的不確かさ推定

Hierarchical Uncertainty Estimation for Medical Image Segmentation Networks ( http://arxiv.org/abs/2308.08465v1 )

ライセンス: Link先を確認
Xinyu Bai, Wenjia Bai(参考訳) 医用画像分割モデルの学習は本質的に曖昧な作業であり、画像(ノイズ)と手動のアノテーション(ヒューマンエラーとバイアス)の両方に不確実性が存在する。 信頼できる画像分割モデルを構築するためには、その性能を評価するだけでなく、モデル予測の不確実性を評価することが重要である。 多くの最先端の画像セグメンテーションネットワークは階層エンコーダアーキテクチャを採用しており、細部から粗部まで様々な解像度の画像を抽出している。 本研究では,この階層的画像表現を活用し,複数レベルで不確かさを簡易かつ効果的に推定する手法を提案する。 マルチレベル不確実性はスキップ接続モジュールを介してモデル化され、次にサンプリングされ、予測画像セグメンテーションの不確実性マップを生成する。 このような階層的不確実性推定モジュールを実装した場合、u-netのようなディープラーニングセグメンテーションネットワークは高いセグメンテーション性能を達成できると同時に、分散検出に使用できる有意義な不確実性マップを提供する。

Learning a medical image segmentation model is an inherently ambiguous task, as uncertainties exist in both images (noise) and manual annotations (human errors and bias) used for model training. To build a trustworthy image segmentation model, it is important to not just evaluate its performance but also estimate the uncertainty of the model prediction. Most state-of-the-art image segmentation networks adopt a hierarchical encoder architecture, extracting image features at multiple resolution levels from fine to coarse. In this work, we leverage this hierarchical image representation and propose a simple yet effective method for estimating uncertainties at multiple levels. The multi-level uncertainties are modelled via the skip-connection module and then sampled to generate an uncertainty map for the predicted image segmentation. We demonstrate that a deep learning segmentation network such as U-net, when implemented with such hierarchical uncertainty estimation module, can achieve a high segmentation performance, while at the same time provide meaningful uncertainty maps that can be used for out-of-distribution detection.
翻訳日:2023-08-17 12:45:05 公開日:2023-08-16
# スパースビューCTのためのグローバル表現の拡散学習

Learning to Distill Global Representation for Sparse-View CT ( http://arxiv.org/abs/2308.08463v1 )

ライセンス: Link先を確認
Zilong Li, Chenglong Ma, Jie Chen, Junping Zhang and Hongming shan(参考訳) CT (Sparse-view Computed Tomography) は、少量のプロジェクションを用いて、患者の放射線線量を大幅に減少させ、データ取得を加速させる。 しかし、復元された画像は強力なアーティファクトに苦しめられ、診断価値が大幅に制限された。 スパースビューCTの最近の傾向は、情報回復のために生データに目を向ける。 結果として得られた二重ドメインメソッドは、特に超スパースなビューシナリオにおいて二次的なアーティファクトに悩まされ、他のスキャナやプロトコールへの一般化は非常に制限されている。 重要な疑問が生まれます: 画像後処理メソッドは限界に達しましたか? 私たちの答えはまだだ。 本稿では,画像ポストプロセッシング手法を柔軟に活用し,sparse-view ctのためのグローバル表現(glore)蒸留フレームワークglorediを提案する。 まず,Fourier畳み込みによるGloReの学習を提案する。 第2に,全視点画像のみを監督に使用する手法と異なり,従来の文献では見当たらない中間視点画像からグロアを蒸留する手法を提案する。 GloReの蒸留の成功は、GloReの方向を整列する表現方向蒸留と、臨床的に重要な詳細を得るためのバンドパス特異的コントラスト蒸留の2つの重要な要素に起因している。 広汎な実験は、二重ドメインを含む最先端の手法よりもGloReDiの方が優れていることを示した。 ソースコードはhttps://github.com/longzilicart/GloReDiで入手できる。

Sparse-view computed tomography (CT) -- using a small number of projections for tomographic reconstruction -- enables much lower radiation dose to patients and accelerated data acquisition. The reconstructed images, however, suffer from strong artifacts, greatly limiting their diagnostic value. Current trends for sparse-view CT turn to the raw data for better information recovery. The resultant dual-domain methods, nonetheless, suffer from secondary artifacts, especially in ultra-sparse view scenarios, and their generalization to other scanners/protocols is greatly limited. A crucial question arises: have the image post-processing methods reached the limit? Our answer is not yet. In this paper, we stick to image post-processing methods due to great flexibility and propose global representation (GloRe) distillation framework for sparse-view CT, termed GloReDi. First, we propose to learn GloRe with Fourier convolution, so each element in GloRe has an image-wide receptive field. Second, unlike methods that only use the full-view images for supervision, we propose to distill GloRe from intermediate-view reconstructed images that are readily available but not explored in previous literature. The success of GloRe distillation is attributed to two key components: representation directional distillation to align the GloRe directions, and band-pass-specific contrastive distillation to gain clinically important details. Extensive experiments demonstrate the superiority of the proposed GloReDi over the state-of-the-art methods, including dual-domain ones. The source code is available at https://github.com/longzilicart/GloReDi.
翻訳日:2023-08-17 12:44:46 公開日:2023-08-16
# 自動走行・駐車用自己監視型オンラインカメラキャリブレーション

Self-Supervised Online Camera Calibration for Automated Driving and Parking Applications ( http://arxiv.org/abs/2308.08495v1 )

ライセンス: Link先を確認
Ciar\'an Hogan, Ganesh Sistu, Ciar\'an Eising(参考訳) カメラベースの知覚システムは、現代の自動運転車において中心的な役割を果たす。 これらのカメラベースの知覚アルゴリズムは、実世界の距離を画像ピクセルにマッピングするために正確なキャリブレーションを必要とする。 実際には、キャリブレーションは特別なデータ収集と注意深いチューニングを必要とする面倒な手順である。 このプロセスは、自動運転車で頻繁に発生するカメラのパラメータが変わるたびに繰り返す必要がある。 そのため、カメラの精度を保証するために、一定間隔で調整する必要がある。 提案するディープラーニングフレームワークは,カメラ内在および外在的なキャリブレーションをリアルタイムで学習する。 フレームワークは自己管理されており、キャリブレーションパラメータを学ぶためにラベル付けや監督を必要としない。 フレームワークは、物理的目標を必要とせずにキャリブレーションを学習し、特別な平面面上で車を駆動する。

Camera-based perception systems play a central role in modern autonomous vehicles. These camera based perception algorithms require an accurate calibration to map the real world distances to image pixels. In practice, calibration is a laborious procedure requiring specialised data collection and careful tuning. This process must be repeated whenever the parameters of the camera change, which can be a frequent occurrence in autonomous vehicles. Hence there is a need to calibrate at regular intervals to ensure the camera is accurate. Proposed is a deep learning framework to learn intrinsic and extrinsic calibration of the camera in real time. The framework is self-supervised and doesn't require any labelling or supervision to learn the calibration parameters. The framework learns calibration without the need for any physical targets or to drive the car on special planar surfaces.
翻訳日:2023-08-17 12:36:58 公開日:2023-08-16
# LLMにおける時間旅行:大規模言語モデルにおけるデータ汚染の追跡

Time Travel in LLMs: Tracing Data Contamination in Large Language Models ( http://arxiv.org/abs/2308.08493v1 )

ライセンス: Link先を確認
Shahriar Golchin, Mihai Surdeanu(参考訳) データ汚染、すなわち、大規模言語モデル(LLM)のトレーニングデータにおける下流タスクからのテストデータの存在は、他のタスクにおけるLLMの有効性を理解する上で潜在的に大きな問題である。 LLM内のデータ汚染を簡易かつ効果的に識別する手法を提案する。 その中心となるアプローチは、小さなランダムサンプルから引き出された個々のインスタンスの潜在的汚染を特定することから始まり、この情報を用いて、データセットのパーティション全体が汚染されているかどうかを評価する。 個別インスタンスの汚染を推定するために、データセット名、パーティションタイプ、参照インスタンスの初期セグメントからなるプロンプト「誘導命令:」を使用し、LCMにそれを完了するように要求する。 LLMの出力が参照の後半部分と正確にあるいは密接に一致した場合、インスタンスは汚染されるとフラグ付けされる。 パーティション全体が汚染されているかどうかを理解するために,2つのアイデアを提案する。 最初のアイデアは、参照インスタンスと平均オーバーラップスコア(ROUGEまたはBLEURTで測定される)が、データセットとパーティション名を含まない一般的な命令よりも統計的に有意に優れている場合、データセット分割が汚染されたことを示す。 第2のアイデアは、GPT-4に基づく分類器がコンテキスト内学習を促進させ、複数のインスタンスが汚染された場合にデータセットが汚染されたことを示す。 提案手法は,人間エキスパートによる手作業による評価と対比して,列車や試験・評価の分割を含む7つのデータセットでllmが汚染されているかどうかを92%から100%の精度で検出できる。 さらに, GPT-4はAG News, WNLI, XSumデータセットで汚染されていることが示唆された。

Data contamination, i.e., the presence of test data from downstream tasks in the training data of large language models (LLMs), is a potential major issue in understanding LLMs' effectiveness on other tasks. We propose a straightforward yet effective method for identifying data contamination within LLMs. At its core, our approach starts by identifying potential contamination in individual instances that are drawn from a small random sample; using this information, our approach then assesses if an entire dataset partition is contaminated. To estimate contamination of individual instances, we employ "guided instruction:" a prompt consisting of the dataset name, partition type, and the initial segment of a reference instance, asking the LLM to complete it. An instance is flagged as contaminated if the LLM's output either exactly or closely matches the latter segment of the reference. To understand if an entire partition is contaminated, we propose two ideas. The first idea marks a dataset partition as contaminated if the average overlap score with the reference instances (as measured by ROUGE or BLEURT) is statistically significantly better with the guided instruction vs. a general instruction that does not include the dataset and partition name. The second idea marks a dataset as contaminated if a classifier based on GPT-4 with in-context learning prompting marks multiple instances as contaminated. Our best method achieves an accuracy between 92% and 100% in detecting if an LLM is contaminated with seven datasets, containing train and test/validation partitions, when contrasted with manual evaluation by human expert. Further, our findings indicate that GPT-4 is contaminated with AG News, WNLI, and XSum datasets.
翻訳日:2023-08-17 12:36:45 公開日:2023-08-16
# 不完全検出下における監視量子システムのエントロピー生成とゆらぎ定理

Entropy production and fluctuation theorems for monitored quantum systems under imperfect detection ( http://arxiv.org/abs/2308.08491v1 )

ライセンス: Link先を確認
Mar Ferri-Cort\'es, Jose A. Almanza-Marrero, Rosa L\'opez, Roberta Zambrini and Gonzalo Manzano(参考訳) マルコフ開量子系の熱力学的挙動は、連続的なモニタリング手法を用いて変動のレベルで記述することができる。 しかし, 熱力学量の定義が微妙になり, 普遍的なゆらぎ関係が不明な不完全検出手法を実用化するには, 不完全検出方式の評価が必要である。 ここでは、理想的かつ非効率なモニタリング設定でエントロピー生成をリンクする普遍的ゆらぎ関係を導出することにより、このギャップを埋める。 単一軌道のレベルで、基礎となるエントロピー生成を低くする不完全な検出記録を用いて、散逸の適切な推定器を提供する。 量子ジャンプトラジェクタに追従した2レベル駆動システムを用いて実験を行った。

The thermodynamic behavior of Markovian open quantum systems can be described at the level of fluctuations by using continuous monitoring approaches. However, practical applications require assessing imperfect detection schemes, where the definition of main thermodynamic quantities becomes subtle and universal fluctuation relations are unknown. Here we fill this gap by deriving a universal fluctuation relation that links entropy production in ideal and in inefficient monitoring setups. This provides a suitable estimator of dissipation using imperfect detection records that lower bounds the underlying entropy production at the level of single trajectories. We illustrate our findings with a driven-dissipative two-level system following quantum jump trajectories.
翻訳日:2023-08-17 12:36:18 公開日:2023-08-16
# フォトプレチスモグラム信号を用いた不均衡クラスにおけるアーチファクト検出のためのラベル伝搬手法

Label Propagation Techniques for Artifact Detection in Imbalanced Classes using Photoplethysmogram Signals ( http://arxiv.org/abs/2308.08480v1 )

ライセンス: Link先を確認
Clara Macabiau, Thanh-Dung Le, Kevin Albert, Philippe Jouvet, Rita Noumeir(参考訳) photoplethysmogram (ppg) 信号はバイタルサインのモニタリングに広く使われているが、不正確な解釈につながる運動アーチファクトに影響を受けやすい。 本研究では, PPG サンプル間でラベルを伝搬するラベル伝搬技術について検討し, クリーンな PPG サンプルがアーティファクト汚染試料によって著しく劣る不均衡クラスシナリオについて検討した。 91%の精度、90%のリコール、90%のf1スコアのアーチファクトのないクラスでは、クリーンなサンプルであっても、医療データセットのラベル付けに効果があることが示されている。 アーティファクトの分類については,従来の分類器やニューラルネットワーク (MLP, Transformer, FCN) などの教師付き分類器と半教師付きラベル伝搬アルゴリズムを比較した。 89%の精度、95%のリコール、F1スコア92%の精度で、KNNの教師付きモデルでは良い結果が得られるが、半教師付きアルゴリズムはアーティファクトの検出に優れていた。 その結果,半教師付きアルゴリズムラベルの伝搬はPPG信号のアーティファクト検出の可能性を保ち,実世界のアプリケーションにおけるPPGベースの健康モニタリングシステムの信頼性を高めることが示唆された。

Photoplethysmogram (PPG) signals are widely used in healthcare for monitoring vital signs, but they are susceptible to motion artifacts that can lead to inaccurate interpretations. In this study, the use of label propagation techniques to propagate labels among PPG samples is explored, particularly in imbalanced class scenarios where clean PPG samples are significantly outnumbered by artifact-contaminated samples. With a precision of 91%, a recall of 90% and an F1 score of 90% for the class without artifacts, the results demonstrate its effectiveness in labeling a medical dataset, even when clean samples are rare. For the classification of artifacts our study compares supervised classifiers such as conventional classifiers and neural networks (MLP, Transformers, FCN) with the semi-supervised label propagation algorithm. With a precision of 89%, a recall of 95% and an F1 score of 92%, the KNN supervised model gives good results, but the semi-supervised algorithm performs better in detecting artifacts. The findings suggest that the semi-supervised algorithm label propagation hold promise for artifact detection in PPG signals, which can enhance the reliability of PPG-based health monitoring systems in real-world applications.
翻訳日:2023-08-17 12:34:45 公開日:2023-08-16
# DeDoDe: Detect, Don't Describe -- Describe, Don't Detect for Local Feature Matching

DeDoDe: Detect, Don't Describe -- Describe, Don't Detect for Local Feature Matching ( http://arxiv.org/abs/2308.08479v1 )

ライセンス: Link先を確認
Johan Edstedt, Georg B\"okman, M{\aa}rten Wadenb\"ack, Michael Felsberg(参考訳) キーポイント検出は、3次元再構成において重要なステップであり、シーンの各ビューで(最大)k点の集合を検出する。 重要なことに、検出された点は、ビュー、すなわちシーン内の同じ3Dポイント間で一致する必要がある。 キーポイント検出の主な課題の1つは、学習目標の定式化である。 従来の学習に基づく手法は、典型的には、キーポイントとディスクリプタを共同で学習し、キーポイント検出を隣り合う隣人の二項分類タスクとして扱う。 しかし、記述子近傍のキーポイント検出はプロキシタスクであり、3D一貫性のあるキーポイントを生成することが保証されていない。 さらに、これはキーポイントを特定の記述子に結び付け、下流の使用を複雑にする。 この作業では、3d一貫性から直接キーポイントを学習します。 この目的のために,検出器を訓練し,大規模sfmからのトラックを検出する。 これらの点はしばしば過小評価されるため、半教師付き2視点検出目的を導出して、この集合を所望の数に拡張する。 ディクリプタをトレーニングするために、キーポイント上の互いに近接する目的を個別のネットワークで最大化する。 結果は,複数の幾何ベンチマークにおいて,dedodeアプローチが有意な向上を達成したことを示している。 コードはhttps://github.com/Parskatt/DeDoDeで提供されている。

Keypoint detection is a pivotal step in 3D reconstruction, whereby sets of (up to) K points are detected in each view of a scene. Crucially, the detected points need to be consistent between views, i.e., correspond to the same 3D point in the scene. One of the main challenges with keypoint detection is the formulation of the learning objective. Previous learning-based methods typically jointly learn descriptors with keypoints, and treat the keypoint detection as a binary classification task on mutual nearest neighbours. However, basing keypoint detection on descriptor nearest neighbours is a proxy task, which is not guaranteed to produce 3D-consistent keypoints. Furthermore, this ties the keypoints to a specific descriptor, complicating downstream usage. In this work, we instead learn keypoints directly from 3D consistency. To this end, we train the detector to detect tracks from large-scale SfM. As these points are often overly sparse, we derive a semi-supervised two-view detection objective to expand this set to a desired number of detections. To train a descriptor, we maximize the mutual nearest neighbour objective over the keypoints with a separate network. Results show that our approach, DeDoDe, achieves significant gains on multiple geometry benchmarks. Code is provided at https://github.com/Parskatt/DeDoDe .
翻訳日:2023-08-17 12:34:20 公開日:2023-08-16
# アクティブ深部物体検出のための分類委員会

Classification Committee for Active Deep Object Detection ( http://arxiv.org/abs/2308.08476v1 )

ライセンス: Link先を確認
Lei Zhao, Bo Li, Xingxing Wei(参考訳) オブジェクト検出では、画像内の複数のオブジェクトのカテゴリを確認するだけでなく、各オブジェクトの境界ボックスを正確に決定する必要があるため、ラベル付けのコストが非常に高い。 したがって、アクティブラーニングをオブジェクト検出に統合することは、かなりポジティブな意味を持つ。 本稿では,複数の分類器の識別機構を導入して,物体検出の訓練を行うためのアクティブディープオブジェクト検出手法の分類委員会を提案する。 モデルには主検出器と分類委員会が含まれている。 主検出器は、選択された情報画像からなるラベル付きプールから訓練された対象物体検出器を表す。 分類委員会の役割は、事例の相違と代表性に重点を置く分類の観点から、その不確実性値に応じて最も有益な画像を選択することである。 具体的には,MCDGL(Maximum Classifiers Discrepancy Group Loss)によって事前訓練された委員会による,画像内の特定インスタンスの不確実性を測定する。 最も情報性の高い画像は、多くの不確実なインスタンスを持つものを選択することで最終的に決定される。 さらに、干渉インスタンスの影響を軽減するため、私たちは、委員会が代表インスタンスに自動的に焦点を合わせ、同じインスタンスに対するそれらの不一致を正確にエンコードできるように、ポジティブインスタンス損失(fpil)に焦点を当てます。 パスカルVOCとCOCOデータセットで、いくつかの一般的な物体検出器に対して実験が行われた。 また,本手法は,提案手法の有効性を検証した最先端の能動学習法よりも優れていることを示す。

In object detection, the cost of labeling is much high because it needs not only to confirm the categories of multiple objects in an image but also to accurately determine the bounding boxes of each object. Thus, integrating active learning into object detection will raise pretty positive significance. In this paper, we propose a classification committee for active deep object detection method by introducing a discrepancy mechanism of multiple classifiers for samples' selection when training object detectors. The model contains a main detector and a classification committee. The main detector denotes the target object detector trained from a labeled pool composed of the selected informative images. The role of the classification committee is to select the most informative images according to their uncertainty values from the view of classification, which is expected to focus more on the discrepancy and representative of instances. Specifically, they compute the uncertainty for a specified instance within the image by measuring its discrepancy output by the committee pre-trained via the proposed Maximum Classifiers Discrepancy Group Loss (MCDGL). The most informative images are finally determined by selecting the ones with many high-uncertainty instances. Besides, to mitigate the impact of interference instances, we design a Focus on Positive Instances Loss (FPIL) to make the committee the ability to automatically focus on the representative instances as well as precisely encode their discrepancies for the same instance. Experiments are conducted on Pascal VOC and COCO datasets versus some popular object detectors. And results show that our method outperforms the state-of-the-art active learning methods, which verifies the effectiveness of the proposed method.
翻訳日:2023-08-17 12:33:58 公開日:2023-08-16
# パッチレベルの知覚と意味的信用割り当てを用いた確率に基づくテキストから画像への評価

Likelihood-Based Text-to-Image Evaluation with Patch-Level Perceptual and Semantic Credit Assignment ( http://arxiv.org/abs/2308.08525v1 )

ライセンス: Link先を確認
Qi Chen, Chaorui Deng, Zixiong Huang, Bowen Zhang, Mingkui Tan, Qi Wu(参考訳) テキストと画像の合成は進歩を奨励し、最近は大衆の注目を集めている。 しかし、Inception ScoreやFr'echet Inception Distanceのようなこの分野で人気のある評価指標は、いくつかの問題を引き起こしている。 まず、生成された画像の知覚的品質を明示的に評価することができず、各テキストイメージペアのセマンティックアライメントを十分に反映できない。 また、効率が悪く、何千もの画像をサンプリングして評価結果を安定させる必要がある。 本稿では,事前学習した確率ベーステキストから画像への生成モデルを用いて,生成画像の確率を直接推定することにより,テキストから画像への生成性能を評価することを提案する。 生成画像の非致死的部分に支配される可能性を回避するため,画像パッチの意味的および知覚的意義に基づく信用代入戦略を開発するための新しい設計を提案する。 実験では、複数の人気テキスト・画像生成モデルとデータセットを用いて、知覚品質とテキスト・画像アライメントの両方にアクセスするためのメトリクスの評価を行った。 さらに、数百のサンプルでこれらのモデルの生成能力を評価するのに成功し、実際は非常に効率的である。

Text-to-image synthesis has made encouraging progress and attracted lots of public attention recently. However, popular evaluation metrics in this area, like the Inception Score and Fr'echet Inception Distance, incur several issues. First of all, they cannot explicitly assess the perceptual quality of generated images and poorly reflect the semantic alignment of each text-image pair. Also, they are inefficient and need to sample thousands of images to stabilise their evaluation results. In this paper, we propose to evaluate text-to-image generation performance by directly estimating the likelihood of the generated images using a pre-trained likelihood-based text-to-image generative model, i.e., a higher likelihood indicates better perceptual quality and better text-image alignment. To prevent the likelihood of being dominated by the non-crucial part of the generated image, we propose several new designs to develop a credit assignment strategy based on the semantic and perceptual significance of the image patches. In the experiments, we evaluate the proposed metric on multiple popular text-to-image generation models and datasets in accessing both the perceptual quality and the text-image alignment. Moreover, it can successfully assess the generation ability of these models with as few as a hundred samples, making it very efficient in practice.
翻訳日:2023-08-17 12:26:08 公開日:2023-08-16
# 画家: 自動回帰言語モデルを使ってスケッチを描く

Painter: Teaching Auto-regressive Language Models to Draw Sketches ( http://arxiv.org/abs/2308.08520v1 )

ライセンス: Link先を確認
Reza Pourreza, Apratim Bhattacharyya, Sunny Panchal, Mingu Lee, Pulkit Madan, Roland Memisevic(参考訳) 大規模言語モデル(llm)は自然言語理解において大きな進歩を遂げており、コンピュータビジョン、ロボティクス、強化学習など他の領域でもうまく採用されている。 本研究では,仮想ブラシストロークを直接生成して画像を描くことで,画像生成タスクにLLMを適用する。 本研究では,テキスト記述形式でユーザプロンプトをスケッチに変換し,対応するブラシストロークを自動回帰的に生成するLLMについて述べる。 言語理解機能を保ちつつ,新しいタスクで微調整することで,大きなテキストコーパスで事前学習された既定のllmに基づく画家を構築する。 複数のオブジェクトタイプとタスクをカバーするテキストプロンプトと組み合わせた多種多様なマルチオブジェクトスケッチのデータセットを作成します。 painterはテキスト記述からスケッチを生成し、canvasからオブジェクトを削除し、スケッチ内のオブジェクトを検出し分類することができる。 自動回帰画像生成にLSMを使うことは、前例のない先駆的な試みであるが、結果は大いに奨励されている。

Large language models (LLMs) have made tremendous progress in natural language understanding and they have also been successfully adopted in other domains such as computer vision, robotics, reinforcement learning, etc. In this work, we apply LLMs to image generation tasks by directly generating the virtual brush strokes to paint an image. We present Painter, an LLM that can convert user prompts in text description format to sketches by generating the corresponding brush strokes in an auto-regressive way. We construct Painter based on off-the-shelf LLM that is pre-trained on a large text corpus, by fine-tuning it on the new task while preserving language understanding capabilities. We create a dataset of diverse multi-object sketches paired with textual prompts that covers several object types and tasks. Painter can generate sketches from text descriptions, remove objects from canvas, and detect and classify objects in sketches. Although this is an unprecedented pioneering work in using LLMs for auto-regressive image generation, the results are very encouraging.
翻訳日:2023-08-17 12:25:45 公開日:2023-08-16
# 双方向予測に基づく6次元物体ポーズ推定における視点注意の活用

Exploiting Point-Wise Attention in 6D Object Pose Estimation Based on Bidirectional Prediction ( http://arxiv.org/abs/2308.08518v1 )

ライセンス: Link先を確認
Yuhao Yang, Jun Wu, Guangjian Zhang and Rong Xiong(参考訳) 従来の幾何的登録に基づく推定手法はCADモデルのみを暗黙的に利用し,観察品質や排他的欠陥への依存を招き,この問題に対処するために,点認識機構を備えた双方向対応予測ネットワークを提案する。 このネットワークは、対応を予測するためにモデルポイントを必要とするだけでなく、観測と先行モデルの幾何学的類似性を明示的にモデル化する。 重要な洞察は、各モデルポイントとシーンポイントの相関が、ポイントペアマッチの学習に不可欠な情報を提供するということです。 特徴分布のばらつきによる相関ノイズにさらに対処するため,LineMOD,YCB-Video,Occ-LineMODの公開データセットにおける実験結果から,提案手法が他の最先端手法よりも高い性能を実現することを示す。 ポーズ推定におけるロバスト性は,特に重症咬合環境において著しく改善されている。

Traditional geometric registration based estimation methods only exploit the CAD model implicitly, which leads to their dependence on observation quality and deficiency to occlusion.To address the problem,the paper proposes a bidirectional correspondence prediction network with a point-wise attention-aware mechanism. This network not only requires the model points to predict the correspondence but also explicitly models the geometric similarities between observations and the model prior.} Our key insight is that the correlations between each model point and scene point provide essential information for learning point-pair matches. To further tackle the correlation noises brought by feature distribution divergence, we design a simple but effective pseudo-siamese network to improve feature homogeneity.Experimental results on the public datasets of LineMOD, YCB-Video, and Occ-LineMOD show that the proposed method achieves better performance than other state-of-the-art methods under the same evaluation criteria. Its robustness in estimating poses is greatly improved, especially in an environment with severe occlusions.
翻訳日:2023-08-17 12:25:27 公開日:2023-08-16
# 量子状態再構成によるクリロフ部分空間の量子化作用素拡散とカオス

Quantifying operator spreading and chaos in Krylov subspaces with quantum state reconstruction ( http://arxiv.org/abs/2308.08513v1 )

ライセンス: Link先を確認
Abinash Sahu, Naga Dileep Varikuti, Bishal Kumar Das, and Vaibhav Madhok(参考訳) 本研究では,多体量子システムにおいて,量子トモグラフィにおける情報完全測定記録を生成できる可能性について検討する。 我々はこの目的で連続弱計測トモグラフィーを採用する。 観測記録は, 期待するダイナミクスの下で進化する観測可能性の一連の期待値として生成し, 可積分性から完全なカオスへの遷移を示す。 量子トモグラフィーにおける忠実度によって定量化された演算子の拡散量は、系のカオスの度合いとともに増加する。 また, ダイナミクスが可積分から非可積分へと変化すると, 情報利得の著しい増加が観察される。 演算子拡散の定量化のアプローチは、Krylov複雑性よりも一貫性のある量子カオスの指標であることが分かっています。 我々は、傾斜磁場を持つイジングスピン鎖と積分性破壊磁場を持つハイゼンベルクXXZスピン鎖の2つのモデルに対する情報ゲインの様々な指標を通して議論を支持する。 本研究は,量子カオスに拡散する演算子に対する操作的解釈を与える。

We study operator spreading in many-body quantum systems by its potential to generate an informationally complete measurement record in quantum tomography. We adopt continuous weak measurement tomography for this purpose. We generate the measurement record as a series of expectation values of an observable evolving under the desired dynamics, which can show a transition from integrability to full chaos. We find that the amount of operator spreading, as quantified by the fidelity in quantum tomography, increases with the degree of chaos in the system. We also observe a remarkable increase in information gain when the dynamics transitions from integrable to non-integrable. We find our approach in quantifying operator spreading is a more consistent indicator of quantum chaos than Krylov complexity as the latter may correlate/anti-correlate or show no clear behavior with the level of chaos in the dynamics. We support our argument through various metrics of information gain for two models; the Ising spin chain with a tilted magnetic field and the Heisenberg XXZ spin chain with an integrability breaking field. Our study gives an operational interpretation for operator spreading in quantum chaos.
翻訳日:2023-08-17 12:25:05 公開日:2023-08-16
# 2次半次スコアモデルによる3次元Ill-posed逆問題の解法

Two-and-a-half Order Score-based Model for Solving 3D Ill-posed Inverse Problems ( http://arxiv.org/abs/2308.08511v1 )

ライセンス: Link先を確認
Zirong Li, Yanyang Wang, Jianjia Zhang and Weiwen Wu, Hengyong Yu(参考訳) CT(CT)とMRI(MRI)は医療画像の分野で重要な技術である。 スコアベースモデルは、スパースビューCTや高速MRI再構成など、CTやMRIで発生する様々な逆問題に対処するのに有効であることが証明されている。 しかし、これらのモデルは正確な3次元(3次元)体積再構成を達成する上で困難に直面している。 既存のスコアベースモデルは主に2次元(2次元)データ分布の再構成に焦点を合わせており、再構成された3次元ボリューム画像の隣接スライス間の不整合をもたらす。 この制限を克服するために、新しい2次半スコアベースモデル(TOSM)を提案する。 トレーニング期間中、TOSMは2次元空間のデータ分布を学習し、3次元ボリュームで直接作業するよりも、トレーニングの複雑さを低減する。 しかし、再構成段階では、TOSMは3次元空間のデータ分布を更新し、3方向(矢状、コロナ、横軸)の相補的なスコアを利用してより正確な再構成を行う。 TOSMの開発は堅牢な理論原理に基づいており、信頼性と有効性を保証する。 大規模なスパークビューCTと高速MRIデータセットの広範囲な実験を通じて,本手法は顕著な進歩を示し,3次元不規則逆問題に対する最先端の結果を得る。 特に,TOSMはスライス不整合問題に対処し,高品質な3次元ボリューム再構成を実現する。

Computed Tomography (CT) and Magnetic Resonance Imaging (MRI) are crucial technologies in the field of medical imaging. Score-based models have proven to be effective in addressing different inverse problems encountered in CT and MRI, such as sparse-view CT and fast MRI reconstruction. However, these models face challenges in achieving accurate three dimensional (3D) volumetric reconstruction. The existing score-based models primarily focus on reconstructing two dimensional (2D) data distribution, leading to inconsistencies between adjacent slices in the reconstructed 3D volumetric images. To overcome this limitation, we propose a novel two-and-a-half order score-based model (TOSM). During the training phase, our TOSM learns data distributions in 2D space, which reduces the complexity of training compared to directly working on 3D volumes. However, in the reconstruction phase, the TOSM updates the data distribution in 3D space, utilizing complementary scores along three directions (sagittal, coronal, and transaxial) to achieve a more precise reconstruction. The development of TOSM is built on robust theoretical principles, ensuring its reliability and efficacy. Through extensive experimentation on large-scale sparse-view CT and fast MRI datasets, our method demonstrates remarkable advancements and attains state-of-the-art results in solving 3D ill-posed inverse problems. Notably, the proposed TOSM effectively addresses the inter-slice inconsistency issue, resulting in high-quality 3D volumetric reconstruction.
翻訳日:2023-08-17 12:24:43 公開日:2023-08-16
# ソフトタッチを自動エンコードして陸上から水中への把握を学ぶ

Autoencoding a Soft Touch to Learn Grasping from On-land to Underwater ( http://arxiv.org/abs/2308.08510v1 )

ライセンス: Link先を確認
Ning Guo, Xudong Han, Xiaobo Liu, Shuqiao Zhong, Zhiyuan Zhou, Jian Lin, Jiansheng Dai, Fang Wan, Chaoyang Song(参考訳) ロボットは、海洋探査において人間のオペレーターの物理的エージェントとして重要な役割を果たす。 しかし, 指と物体表面の触覚機構の流体干渉が原因で, 可視光がほとんどない高度に加圧された水環境下において, 完全に沈み込みつつ, 安定的に物体をつかむことは依然として困難である。 本研究は,6次元力とトルク(FT)をスーパーバイザード変分オートエンコーダ(SVAE)を用いて学習する視覚ロボット指を用いて,陸上から水中への知識の伝達可能性について検討した。 高フレームのカメラが全身の変形を捉え、ソフトロボットの指が地上や水中の物理的物体と相互作用する。 その結果, 訓練されたSVAEモデルは, 陸から水へ移動可能なソフトメカニクスの一連の潜伏表現を学習し, 商用FTセンサに対する環境変化に優れた適応性を示した。 触覚知能によって実現されるソフトで繊細でリアクティブな把持は、グリッパーの水中での相互作用を強化し、信頼性とロバスト性を大幅に削減し、環境と海洋研究における基本的な科学的発見を支援するために学習ベースの知的把持の道を開く。

Robots play a critical role as the physical agent of human operators in exploring the ocean. However, it remains challenging to grasp objects reliably while fully submerging under a highly pressurized aquatic environment with little visible light, mainly due to the fluidic interference on the tactile mechanics between the finger and object surfaces. This study investigates the transferability of grasping knowledge from on-land to underwater via a vision-based soft robotic finger that learns 6D forces and torques (FT) using a Supervised Variational Autoencoder (SVAE). A high-framerate camera captures the whole-body deformations while a soft robotic finger interacts with physical objects on-land and underwater. Results show that the trained SVAE model learned a series of latent representations of the soft mechanics transferrable from land to water, presenting a superior adaptation to the changing environments against commercial FT sensors. Soft, delicate, and reactive grasping enabled by tactile intelligence enhances the gripper's underwater interaction with improved reliability and robustness at a much-reduced cost, paving the path for learning-based intelligent grasping to support fundamental scientific discoveries in environmental and ocean research.
翻訳日:2023-08-17 12:24:19 公開日:2023-08-16
# 原子性omlは

Completely hereditarily atomic OMLs ( http://arxiv.org/abs/2308.08508v1 )

ライセンス: Link先を確認
John Harding, Andre Kornell(参考訳) 無限高さの既約完全原子型 OML は代数的かつ被覆性を持つことができない。 しかし、カルムバッハの構成は代数的で 2-被覆性を持つような OML の例を示し、ケラーの構成は被覆性を持ち、完全に遺伝学的にアトミックであるような OML の例を提供する。 完全に遺伝的にアトミックなOMLは、量子述語論理に相応しい代数的OMLを一般化する。

An irreducible complete atomic OML of infinite height cannot both be algebraic and have the covering property. However, Kalmbach's construction provides an example of such an OML that is algebraic and has the 2-covering property, and Keller's construction provides an example of such an OML that has the covering property and is completely hereditarily atomic. Completely hereditarily atomic OMLs generalize algebraic OMLs suitably to quantum predicate logic.
翻訳日:2023-08-17 12:23:55 公開日:2023-08-16
# ResBuilder: 残留構造を持つ深さの自動学習

ResBuilder: Automated Learning of Depth with Residual Structures ( http://arxiv.org/abs/2308.08504v1 )

ライセンス: Link先を確認
Julian Burghoff, Matthias Rottmann, Jill von Conta, Sebastian Schoenen, Andreas Witte, Hanno Gottschalk(参考訳) 本研究では,resbuilderと呼ばれるニューラルネットワーク探索アルゴリズムを開発した。resnetアーキテクチャをスクラッチから開発し,適度な計算コストで高い精度を実現する。 既存のアーキテクチャの変更にも使用可能で、resnetブロックを削除して挿入する機能を備えている。 画像分類データセットの異なる実験において、Resbuilderは、市販のResNetと比較して計算コストを削減しつつ、最先端の性能に近い性能を達成する。 注目すべきは、パラメータをCIFAR10にチューニングすることで、他のすべてのデータセットに対して適切なデフォルト選択が得られます。 本手法は,プロプライエタリな不正検出データセットにデフォルトパラメータを適用することで,産業アプリケーションにおいても一般化できることを実証する。

In this work, we develop a neural architecture search algorithm, termed Resbuilder, that develops ResNet architectures from scratch that achieve high accuracy at moderate computational cost. It can also be used to modify existing architectures and has the capability to remove and insert ResNet blocks, in this way searching for suitable architectures in the space of ResNet architectures. In our experiments on different image classification datasets, Resbuilder achieves close to state-of-the-art performance while saving computational cost compared to off-the-shelf ResNets. Noteworthy, we once tune the parameters on CIFAR10 which yields a suitable default choice for all other datasets. We demonstrate that this property generalizes even to industrial applications by applying our method with default parameters on a proprietary fraud detection dataset.
翻訳日:2023-08-17 12:23:48 公開日:2023-08-16
# TeCH: テキスト誘導による生活着衣の復元

TeCH: Text-guided Reconstruction of Lifelike Clothed Humans ( http://arxiv.org/abs/2308.08545v1 )

ライセンス: Link先を確認
Yangyi Huang, Hongwei Yi, Yuliang Xiu, Tingting Liao, Jiaxiang Tang, Deng Cai, Justus Thies(参考訳) 単一の画像から衣服を復元する研究の進歩にもかかわらず、「見えない領域」を高いレベルで正確に復元することは、注意を欠く未解決の課題である。 既存の方法は、ぼやけたテクスチャで非常に滑らかな裏面を生成することが多い。 しかし、個々の視覚属性を単一の画像から効果的に捉えるには、見えない領域(例えば、バックビュー)を再構築するのに十分か? 基礎モデルの力に触発され、TeCHは3D人間を再構築する 1) 記述的テキストプロンプト(例えば、衣服、色、髪型)は、衣服解析モデルと視覚質問回答(VQA)を介して自動的に生成される。 2)「説明不能」な外観を学習するパーソナライズされたテキスト・ツー・イメージ拡散モデル(t2i)。 高分解能な3d服を着た人間を安価に表現するために,dmtetに基づくハイブリッド3d表現を提案する。 記述的プロンプト+パーソナライズされたT2I拡散モデルによって導かれる3次元人間の形状とテクスチャは、マルチビュースコア蒸留サンプリング(SDS)と元の観測に基づく復元損失により最適化される。 TeCHは、一貫性と繊細なテクスチャと詳細なフルボディ形状を備えた高忠実な3D衣服を生産する。 定量的および定性的実験により、TeCHは再現精度とレンダリング品質の点で最先端の手法より優れていることが示された。 コードは研究目的でhttps://huangyangyi.github.io/techで公開される予定だ。

Despite recent research advancements in reconstructing clothed humans from a single image, accurately restoring the "unseen regions" with high-level details remains an unsolved challenge that lacks attention. Existing methods often generate overly smooth back-side surfaces with a blurry texture. But how to effectively capture all visual attributes of an individual from a single image, which are sufficient to reconstruct unseen areas (e.g., the back view)? Motivated by the power of foundation models, TeCH reconstructs the 3D human by leveraging 1) descriptive text prompts (e.g., garments, colors, hairstyles) which are automatically generated via a garment parsing model and Visual Question Answering (VQA), 2) a personalized fine-tuned Text-to-Image diffusion model (T2I) which learns the "indescribable" appearance. To represent high-resolution 3D clothed humans at an affordable cost, we propose a hybrid 3D representation based on DMTet, which consists of an explicit body shape grid and an implicit distance field. Guided by the descriptive prompts + personalized T2I diffusion model, the geometry and texture of the 3D humans are optimized through multi-view Score Distillation Sampling (SDS) and reconstruction losses based on the original observation. TeCH produces high-fidelity 3D clothed humans with consistent & delicate texture, and detailed full-body geometry. Quantitative and qualitative experiments demonstrate that TeCH outperforms the state-of-the-art methods in terms of reconstruction accuracy and rendering quality. The code will be publicly available for research purposes at https://huangyangyi.github.io/tech
翻訳日:2023-08-17 12:18:44 公開日:2023-08-16
# MeViS:モーション表現付きビデオセグメンテーションのための大規模ベンチマーク

MeViS: A Large-scale Benchmark for Video Segmentation with Motion Expressions ( http://arxiv.org/abs/2308.08544v1 )

ライセンス: Link先を確認
Henghui Ding, Chang Liu, Shuting He, Xudong Jiang, Chen Change Loy(参考訳) 本稿では,物体の動作を記述する文に基づく映像コンテンツ中の物体のセグメンテーションに焦点をあてた映像セグメンテーションについて述べる。 既存の参照ビデオオブジェクトデータセットは、通常、サルエントオブジェクトに注目し、ターゲットオブジェクトを単一のフレームで識別する可能性のある過剰な静的属性を含む言語表現を使用する。 これらのデータセットは、言語誘導ビデオオブジェクトセグメンテーションにおける動画コンテンツにおける動きの重要性を軽視する。 映像中の物体のグラウンドやセグメンテーションに動作表現を用いることの可能性を検討するため,複雑な環境下で対象物を示すために多数の動作表現を含む大規模データセットMeViSを提案する。 既存の5つの参照ビデオオブジェクトセグメンテーション(RVOS)手法をベンチマークし,MeViSデータセットの総合的な比較を行った。 その結果,現在のRVOS方式では,動画セグメント化を効果的に処理できないことがわかった。 さらに課題を分析し,提案するMeViSデータセットのベースラインアプローチを提案する。 本ベンチマークの目的は,複雑な映像シーンにおけるオブジェクトセグメンテーションの一次キューとして動作表現を利用する,効果的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。 提案されたMeViSデータセットはhttps://henghuiding.github.io/MeViSでリリースされた。

This paper strives for motion expressions guided video segmentation, which focuses on segmenting objects in video content based on a sentence describing the motion of the objects. Existing referring video object datasets typically focus on salient objects and use language expressions that contain excessive static attributes that could potentially enable the target object to be identified in a single frame. These datasets downplay the importance of motion in video content for language-guided video object segmentation. To investigate the feasibility of using motion expressions to ground and segment objects in videos, we propose a large-scale dataset called MeViS, which contains numerous motion expressions to indicate target objects in complex environments. We benchmarked 5 existing referring video object segmentation (RVOS) methods and conducted a comprehensive comparison on the MeViS dataset. The results show that current RVOS methods cannot effectively address motion expression-guided video segmentation. We further analyze the challenges and propose a baseline approach for the proposed MeViS dataset. The goal of our benchmark is to provide a platform that enables the development of effective language-guided video segmentation algorithms that leverage motion expressions as a primary cue for object segmentation in complex video scenes. The proposed MeViS dataset has been released at https://henghuiding.github.io/MeViS.
翻訳日:2023-08-17 12:18:16 公開日:2023-08-16
# insightmapper: ベクトル化高定義写像のインナーインテンス情報について

InsightMapper: A Closer Look at Inner-instance Information for Vectorized High-Definition Mapping ( http://arxiv.org/abs/2308.08543v1 )

ライセンス: Link先を確認
Zhenhua Xu, Kenneth K.Y. Wong, Hengshuang Zhao(参考訳) ベクトル化高精細地図(Vectorized High-definition (HD) map) には周囲の道路要素に関する詳細な情報が含まれている。 近年の研究では,ベクトル化HDマップを点集合予測タスクとして直接検出することが試みられ,検出性能が大幅に向上した。 しかし、これらの手法は予測点間の内在相関の分析と利用に失敗し、さらなる進歩を妨げる。 これらの課題に対処するため、ベクトル化 h$\textbf{IGH}$-definition mapping through $\textbf{T}$ransformers に対する内積$\textbf{INS}$tance情報の利用を調査し、InsightMapper を導入する。 本稿では,内在性情報を利用した内在性情報生成,内在性クエリ融合,内在性特徴集約の3つの新しい手法を提案する。 比較実験はnuscenesデータセット上で行われ,提案手法の優位性を示した。 InsightMapperは従来の最先端(SOTA)メソッドを5.78mAPと5.12TOPOで上回り、トポロジの正確性を評価する。 同時にInsightMapperは、トレーニングと推論フェーズの両方で高い効率を維持しており、非常に包括的なパフォーマンスを実現している。 この作業のプロジェクトページはhttps://tonyxuqaq.github.io/projects/InsightMapper で公開されている。

Vectorized high-definition (HD) maps contain detailed information about surrounding road elements, which are crucial for various downstream tasks in modern autonomous driving vehicles, such as vehicle planning and control. Recent works have attempted to directly detect the vectorized HD map as a point set prediction task, resulting in significant improvements in detection performance. However, these approaches fail to analyze and exploit the inner-instance correlations between predicted points, impeding further advancements. To address these challenges, we investigate the utilization of inner-$\textbf{INS}$tance information for vectorized h$\textbf{IGH}$-definition mapping through $\textbf{T}$ransformers and introduce InsightMapper. This paper presents three novel designs within InsightMapper that leverage inner-instance information in distinct ways, including hybrid query generation, inner-instance query fusion, and inner-instance feature aggregation. Comparative experiments are conducted on the NuScenes dataset, showcasing the superiority of our proposed method. InsightMapper surpasses previous state-of-the-art (SOTA) methods by 5.78 mAP and 5.12 TOPO, which assess topology correctness. Simultaneously, InsightMapper maintains high efficiency during both training and inference phases, resulting in remarkable comprehensive performance. The project page for this work is available at https://tonyxuqaq.github.io/projects/InsightMapper .
翻訳日:2023-08-17 12:17:55 公開日:2023-08-16
# 干渉局所状態をもつ2光子限界における全光スイッチング

All-optical switching at the two-photon limit with interference-localized states ( http://arxiv.org/abs/2308.08542v1 )

ライセンス: Link先を確認
Ville A. J. Pyykk\"onen, Grazia Salerno, Jaakko K\"ah\"ar\"a, and P\"aivi T\"orm\"a(参考訳) 格子上の干渉局在状態と相互作用による非局在化に基づく単一光子対単光子全光スイッチの概念を提案する。 開放」動作では、スイッチは単一光子を停止し、光子対はスイッチを通過することができる。 あるいは、「閉じた」操作では、スイッチは幾何学的に1光子と2光子の状態を分離する。 3サイトスタブユニットセルとダイヤモンド鎖を用いた概念を実証する。 システムはボース=ハバード・ハミルトニアンによってモデル化され、ダイナミクスはリンドブラッド・マスター方程式による正確な対角化によって解かれる。 非線形性を持つフォトニック格子,超伝導量子ビットアレイ,超低温原子を用いたスイッチの実現について論じる。 スイッチは任意の「オン/オフ」コントラストを許容し、同時に現代のフォトニック材料との単一光子切替エネルギーでピコ秒切替時間を実現する。

We propose a single-photon-by-single-photon all-optical switch concept based on interference-localized states on lattices and their delocalization by interaction. In its 'open' operation, the switch stops single photons while allows photon pairs to pass the switch. Alternatively, in the 'closed' operation, the switch geometrically separates single-photon and two-photon states. We demonstrate the concept using a three-site Stub unit cell and the diamond chain. The systems are modeled by Bose-Hubbard Hamiltonians, and the dynamics is solved by exact diagonalization with Lindblad master equation. We discuss realization of the switch using photonic lattices with nonlinearities, superconductive qubit arrays, and ultracold atoms. We show that the switch allows arbitrary 'ON'/'OFF' contrast while achieving picosecond switching time at the single-photon switching energy with contemporary photonic materials.
翻訳日:2023-08-17 12:16:48 公開日:2023-08-16
# 一様制御ゲートとブール関数の定数深さ回路と量子メモリ回路への応用

Constant-depth circuits for Uniformly Controlled Gates and Boolean functions with application to quantum memory circuits ( http://arxiv.org/abs/2308.08539v1 )

ライセンス: Link先を確認
Jonathan Allcock, Jinge Bao, Jo\~ao F. Doriguello, Alessandro Luongo, Miklos Santha(参考訳) 本研究では,Ising型ハミルトニアンが生成する非有界ファンアウトゲートとGlobal Tunableゲートのパワーを探索し,量子メモリデバイスに特に注目する。 本稿では,一様制御ゲート実装のための2種類の定数深度構造を提案する。 これらのゲートには、$|x\rangle|b\rangle\mapsto |x\rangle|b\oplus f(x)\rangle$ for $x\in\{0,1\}^n$ と $b\in\{0,1\}$ で定義されるファンインゲートが含まれる。 最初の構成は、制御レジスタ $|x\rangle$ の1ホットエンコーディングの計算に基づいていますが、もう1つはブール解析に基づいており、フーリエ展開のような異なる$f$の表現を利用しています。 これらの構成により、メモリサイズ$n$の量子ランダムアクセスメモリ(QRAM)と量子ランダムアクセスゲート(QRAG)の、リードオンリーおよびリードライトメモリデバイスに対して、一定の深さの回路を得る。 1ホットエンコーディングに基づく実装には、$O(n\log{n}\log\log{n})$ ancillaeと$O(n\log{n})$ Fan-Out gatesか$O(n\log{n})$ ancillaeと$6$ Global Tunable gatesが必要である。 一方、Boolean解析に基づく実装は、$O(n^2)$ ancillaeを犠牲にして、Global Tunable Gatesを2ドルしか必要としない。

We explore the power of the unbounded Fan-Out gate and the Global Tunable gates generated by Ising-type Hamiltonians in constructing constant-depth quantum circuits, with particular attention to quantum memory devices. We propose two types of constant-depth constructions for implementing Uniformly Controlled Gates. These gates include the Fan-In gates defined by $|x\rangle|b\rangle\mapsto |x\rangle|b\oplus f(x)\rangle$ for $x\in\{0,1\}^n$ and $b\in\{0,1\}$, where $f$ is a Boolean function. The first of our constructions is based on computing the one-hot encoding of the control register $|x\rangle$, while the second is based on Boolean analysis and exploits different representations of $f$ such as its Fourier expansion. Via these constructions, we obtain constant-depth circuits for the quantum counterparts of read-only and read-write memory devices -- Quantum Random Access Memory (QRAM) and Quantum Random Access Gate (QRAG) -- of memory size $n$. The implementation based on one-hot encoding requires either $O(n\log{n}\log\log{n})$ ancillae and $O(n\log{n})$ Fan-Out gates or $O(n\log{n})$ ancillae and $6$ Global Tunable gates. On the other hand, the implementation based on Boolean analysis requires only $2$ Global Tunable gates at the expense of $O(n^2)$ ancillae.
翻訳日:2023-08-17 12:16:24 公開日:2023-08-16
# ソフト多面体ネットワークを用いた固有受容学習

Proprioceptive Learning with Soft Polyhedral Networks ( http://arxiv.org/abs/2308.08538v1 )

ライセンス: Link先を確認
Xiaobo Liu, Xudong Han, Wei Hong, Fang Wan, Chaoyang Song(参考訳) プロピオセプション(proprioception)は、運動ニューロンによる四肢の姿勢を検出する「第6の感覚」である。 筋肉骨格系と感覚受容体との自然な統合が必要であり、軽量で適応的でセンシティブなデザインを低コストで実現しようとする現代ロボットの間では難しい。 本稿では,身体的相互作用の視覚を組み込んだソフト多面体ネットワークについて述べる。 この設計により、全方向のインタラクションへの受動的適応が可能となり、プロテアーゼ学習のために内蔵された小型の高速モーショントラッキングシステムによって視覚的にキャプチャされる。 その結果,ソフトネットワークは動的相互作用において0.25/0.24/0.35N,0.025/0.034/0.006Nmの精度でリアルタイム6D力とトルクを推定できることがわかった。 また, 静止適応中に粘弾性を取り入れ, クリープ緩和修飾剤を添加して予測結果を改善した。 提案するソフトネットワークは、デザインの単純さ、全適応性、および固有感覚センシングを高精度に組み合わせ、ロボット工学の汎用ソリューションとなり、100万回以上の作業サイクル(感度、競合性把握、タッチベースの形状再構成など)を低コストで実現する。 本研究は,適応的把持,ソフト操作,人間とロボットのインタラクションにおけるソフトロボットの視覚に基づく受容に関する新たな知見を提供する。

Proprioception is the "sixth sense" that detects limb postures with motor neurons. It requires a natural integration between the musculoskeletal systems and sensory receptors, which is challenging among modern robots that aim for lightweight, adaptive, and sensitive designs at a low cost. Here, we present the Soft Polyhedral Network with an embedded vision for physical interactions, capable of adaptive kinesthesia and viscoelastic proprioception by learning kinetic features. This design enables passive adaptations to omni-directional interactions, visually captured by a miniature high-speed motion tracking system embedded inside for proprioceptive learning. The results show that the soft network can infer real-time 6D forces and torques with accuracies of 0.25/0.24/0.35 N and 0.025/0.034/0.006 Nm in dynamic interactions. We also incorporate viscoelasticity in proprioception during static adaptation by adding a creep and relaxation modifier to refine the predicted results. The proposed soft network combines simplicity in design, omni-adaptation, and proprioceptive sensing with high accuracy, making it a versatile solution for robotics at a low cost with more than 1 million use cycles for tasks such as sensitive and competitive grasping, and touch-based geometry reconstruction. This study offers new insights into vision-based proprioception for soft robots in adaptive grasping, soft manipulation, and human-robot interaction.
翻訳日:2023-08-17 12:15:45 公開日:2023-08-16
# 変圧器は未知系の最適フィルタリングを学習できるか?

Can Transformers Learn Optimal Filtering for Unknown Systems? ( http://arxiv.org/abs/2308.08536v1 )

ライセンス: Link先を確認
Haldun Balim, Zhe Du, Samet Oymak, Necmiye Ozay(参考訳) トランスフォーマーは自然言語処理において顕著な成功を収めてきたが、力学系で発生する問題に対して、そのポテンシャルはほとんど探索されていない。 本研究では,過去の全ての出力予測を生成するトランスを用いた最適出力推定問題について検討する。 先行分布から引き出された各種システムを用いて変圧器を訓練し、それ以前の未確認システムの性能を同一分布から評価する。 その結果、得られた変換器は、文脈内で学習し、異なるシステムに対して迅速に適応し、予測する予測アルゴリズムのように振る舞う。 MOPは、モデルにアクセスできないにもかかわらず、ほとんどの線形力学系に対して、カルマンフィルタに基づく最適出力推定器の性能と一致する。 我々は,mopが非i.i.d.ノイズ,時変ダイナミクス,未知パラメータを持つ二次系のような非線形力学において,挑戦的シナリオにおいても有効であることを広範囲な数値実験を通じて観察する。 さらに,本論文の第2部では,mopの性能を統計的に保証し,必要なトレーニング量を定量化し,テスト期間中に所望の過大リスクを達成する。 最後に、MOPがうまく機能しない2つのクラスを特定することで、MOPのいくつかの制限を指摘し、制御と推定にトランスフォーマーを使用する場合の注意が必要であることを強調した。

Transformers have demonstrated remarkable success in natural language processing; however, their potential remains mostly unexplored for problems arising in dynamical systems. In this work, we investigate the optimal output estimation problem using transformers, which generate output predictions using all the past ones. We train the transformer using various systems drawn from a prior distribution and then evaluate its performance on previously unseen systems from the same distribution. As a result, the obtained transformer acts like a prediction algorithm that learns in-context and quickly adapts to and predicts well for different systems - thus we call it meta-output-predictor (MOP). MOP matches the performance of the optimal output estimator, based on Kalman filter, for most linear dynamical systems even though it does not have access to a model. We observe via extensive numerical experiments that MOP also performs well in challenging scenarios with non-i.i.d. noise, time-varying dynamics, and nonlinear dynamics like a quadrotor system with unknown parameters. To further support this observation, in the second part of the paper, we provide statistical guarantees on the performance of MOP and quantify the required amount of training to achieve a desired excess risk during test-time. Finally, we point out some limitations of MOP by identifying two classes of problems MOP fails to perform well, highlighting the need for caution when using transformers for control and estimation.
翻訳日:2023-08-17 12:15:20 公開日:2023-08-16
# 一般化測定による修正オットーサイクルと修正スワップによる冷凍

Refrigeration by modified Otto cycles and modified swaps through generalized measurements ( http://arxiv.org/abs/2308.08532v1 )

ライセンス: Link先を確認
Naghi Behzadi(参考訳) そこで本研究では,Ottoサイクル冷凍機を一般化した測定チャネルで改良し,熱力学的冷凍サイクルを2種類導入した。 これらの冷凍機は、測定ベースストロークの前(第1種)および後(第2種)の活性化に対応し、関連するオットーサイクルにおける冷蔵装置による冷却媒体の完全熱化を行う。 我々は, 既知のオットーサイクル冷凍機の古典冷却以上の測定強度パラメータで, 第一種冷凍機の性能係数が線形に増加することを示した。 第2のタイプは、修正サイクルに沿って測定チャネルによって誘導される量子エンジンによって供給される別の自律冷凍機を興味深い形で導入する。 また,検討した測定チャネルにより,スワップ冷凍機にこのような修正を加える。 得られた改良スワップ冷凍機の熱力学的特性はそれぞれ改良ottoサイクルのものと同一であることが観察された。

We introduce two types of thermodynamic refrigeration cycles obtained through modification of the Otto cycle refrigerator by a generalized measurement channel. These refrigerators are corresponding to the activation of the measurement-based stroke before (first type) and after (second type) the full thermalization of the cooling medium by the cold reservoir in the related familiar Otto cycle. We show that the coefficient of performance for the first type modified refrigerator increases linearly in terms of measurement strength parameter, beyond the classical cooling of the known Otto cycle refrigerator. The second type interestingly introduces another autonomous refrigerator whose supplying work is provided by a quantum engine induced by the measurement channel along the modified cycle. By the considered measurement channel, we also establish such modifications on the swap refrigerator. It is observed that the thermodynamic properties of the obtained modified swap refrigerators are the same as of the modified Otto cycle ones respectively.
翻訳日:2023-08-17 12:14:55 公開日:2023-08-16
# ref-dvgo:リフレクションシーン再構築における品質効率向上のためのリフレクションアウェア直接ボクセルグリッド最適化

Ref-DVGO: Reflection-Aware Direct Voxel Grid Optimization for an Improved Quality-Efficiency Trade-Off in Reflective Scene Reconstructio ( http://arxiv.org/abs/2308.08530v1 )

ライセンス: Link先を確認
Georgios Kouros and Minye Wu and Sushruth Nagesh and Shubham Shrivastava and Punarjay Chakravarty and Tinne Tuytelaars(参考訳) ニューラル・ラミアンス・フィールド(nerfs)は、目覚ましい性能を示す新しい視点合成の分野に革命をもたらした。 しかし、反射オブジェクトのモデリングとレンダリングは依然として困難な問題である。 近年の手法は, 効率を犠牲にしながらも, 反射シーンの処理において, ベースラインよりも大幅に改善されている。 この作業では、効率と品質のバランスを取ることを目指しています。 そこで本研究では,従来のボリュームレンダリングに基づく暗黙的探索手法を用いて,復元品質の向上とトレーニングとレンダリングプロセスを高速化する。 我々は高効率密度グリッド表現を採用し、パイプライン内の反射放射率を再パラメータ化する。 提案手法は, 競合する手法と比較して, 競合する品質効率のトレードオフを実現する。 実験結果に基づいて, 反射物体を再構成する密度法の結果に影響を及ぼす要因に関する仮説を提案し, 議論する。 ソースコードは、https://github.com/gkouros/ref-dvgoで入手できる。

Neural Radiance Fields (NeRFs) have revolutionized the field of novel view synthesis, demonstrating remarkable performance. However, the modeling and rendering of reflective objects remain challenging problems. Recent methods have shown significant improvements over the baselines in handling reflective scenes, albeit at the expense of efficiency. In this work, we aim to strike a balance between efficiency and quality. To this end, we investigate an implicit-explicit approach based on conventional volume rendering to enhance the reconstruction quality and accelerate the training and rendering processes. We adopt an efficient density-based grid representation and reparameterize the reflected radiance in our pipeline. Our proposed reflection-aware approach achieves a competitive quality efficiency trade-off compared to competing methods. Based on our experimental results, we propose and discuss hypotheses regarding the factors influencing the results of density-based methods for reconstructing reflective objects. The source code is available at: https://github.com/gkouros/ref-dvgo
翻訳日:2023-08-17 12:14:40 公開日:2023-08-16
# 人物体相互作用検出器の診断

Diagnosing Human-object Interaction Detectors ( http://arxiv.org/abs/2308.08529v1 )

ライセンス: Link先を確認
Fangrui Zhu, Yiming Xie, Weidi Xie, Huaizu Jiang(参考訳) 平均的精度(平均的精度)が高まるにつれて,人間と物体の相互作用(HOI)の検出が著しく進歩しているのに,1つのmAPスコアが正確すぎるため,モデルの性能や,あるアプローチが他の方法よりも優れている理由が理解できない。 本稿では,既存のHOI検出モデルの誤り源を解析するための診断ツールボックスを提案する。 まず、人間と物体のペア検出と相互作用分類からなるHOI検出パイプラインの総合的研究を行った。 エラーのセットと,それぞれを修正するためのオーラクルを定義します。 オラクルを用いて誤りの修正から得られたmAPの改善を計測することにより、異なる誤りの意義を詳細に分析することができる。 次に、対象物の検出と相互作用の分類を探索し、モデルの振る舞いを確認する。 初回検出作業では,リコールと精度の両面について検討し,人間と物体の対の接地率と,検出時のノイズレベルを測定した。 第2の分類タスクでは、検出スコアを考慮せずに、相互作用分類のためのmAPを計算する。 また,AP(Average Precision)スコアを用いて,人間と物体のペアを実際の相互作用なしで区別する際のモデルの性能を測定した。 当社のツールボックスは、さまざまなデータセットにまたがるさまざまなメソッドに適用可能で、https://github.com/neu-vi/diag-hoiで利用可能です。

Although we have witnessed significant progress in human-object interaction (HOI) detection with increasingly high mAP (mean Average Precision), a single mAP score is too concise to obtain an informative summary of a model's performance and to understand why one approach is better than another. In this paper, we introduce a diagnosis toolbox for analyzing the error sources of the existing HOI detection models. We first conduct holistic investigations in the pipeline of HOI detection, consisting of human-object pair detection and then interaction classification. We define a set of errors and the oracles to fix each of them. By measuring the mAP improvement obtained from fixing an error using its oracle, we can have a detailed analysis of the significance of different errors. We then delve into the human-object detection and interaction classification, respectively, and check the model's behavior. For the first detection task, we investigate both recall and precision, measuring the coverage of ground-truth human-object pairs as well as the noisiness level in the detections. For the second classification task, we compute mAP for interaction classification only, without considering the detection scores. We also measure the performance of the models in differentiating human-object pairs with and without actual interactions using the AP (Average Precision) score. Our toolbox is applicable for different methods across different datasets and available at https://github.com/neu-vi/Diag-HOI.
翻訳日:2023-08-17 12:14:22 公開日:2023-08-16
# ACTIVE:Universal and Robust Vehicle Evasionのための高伝達性3D物理カモフラージュを目指して

ACTIVE: Towards Highly Transferable 3D Physical Camouflage for Universal and Robust Vehicle Evasion ( http://arxiv.org/abs/2308.07009v2 )

ライセンス: Link先を確認
Naufal Suryanto, Yongsu Kim, Harashta Tatimma Larasati, Hyoeun Kang, Thi-Thu-Huong Le, Yoonyoung Hong, Hunmin Yang, Se-Yoon Oh, Howon Kim(参考訳) 敵対的なカモフラージュは、物体の表面全体を覆い隠して、あらゆる視点から物体検出器を攻撃する能力に注意を向けている。 しかし、トランスファー可能性の側面が見過ごされているため、既存のメソッドの普遍性と堅牢性はしばしば不足し、性能が制限された特定のターゲットにのみアプリケーションを制限する。 これらの課題に対処するために、我々は、あらゆる3D車両を検出器から隠蔽できる普遍的で堅牢な対向カモフラージュを生成するように設計された最先端の物理的カモフラージュ攻撃フレームワーク、Transferable and Intensive Vehicle Evasion (ACTIVE)を提示する。 本フレームワークは,特定のテクスチャマップに拘束されることなく,異なる車両に共通テクスチャを適用可能な改良されたテクスチャレンダリング,車両を検出不能にする新たなステルスロス,対向カモフラージュの自然性を高めるスムーズでカモフラージュロスなど,普遍性とロバスト性を高める革新的な技術を備えている。 我々の15の異なるモデルに関する広範な実験は、最新のyolov7を含む様々なパブリック検出器の既存の作品を一貫して上回っていることを示している。 特に、私たちの普遍性評価は、他の車種、タスク(セグメンテーションモデル)、そして現実世界への有望な転送可能性を明らかにします。

Adversarial camouflage has garnered attention for its ability to attack object detectors from any viewpoint by covering the entire object's surface. However, universality and robustness in existing methods often fall short as the transferability aspect is often overlooked, thus restricting their application only to a specific target with limited performance. To address these challenges, we present Adversarial Camouflage for Transferable and Intensive Vehicle Evasion (ACTIVE), a state-of-the-art physical camouflage attack framework designed to generate universal and robust adversarial camouflage capable of concealing any 3D vehicle from detectors. Our framework incorporates innovative techniques to enhance universality and robustness, including a refined texture rendering that enables common texture application to different vehicles without being constrained to a specific texture map, a novel stealth loss that renders the vehicle undetectable, and a smooth and camouflage loss to enhance the naturalness of the adversarial camouflage. Our extensive experiments on 15 different models show that ACTIVE consistently outperforms existing works on various public detectors, including the latest YOLOv7. Notably, our universality evaluations reveal promising transferability to other vehicle classes, tasks (segmentation models), and the real world, not just other vehicles.
翻訳日:2023-08-17 10:31:43 公開日:2023-08-16
# クラスタ型木構造パルゼン推定によるディープニューラルネットワークの感度・アウェア混合精度量子化と幅最適化

Sensitivity-Aware Mixed-Precision Quantization and Width Optimization of Deep Neural Networks Through Cluster-Based Tree-Structured Parzen Estimation ( http://arxiv.org/abs/2308.06422v2 )

ライセンス: Link先を確認
Seyedarmin Azizi, Mahdi Nazemi, Arash Fayyazi, Massoud Pedram(参考訳) ディープラーニングモデルの複雑さと計算需要が高まるにつれて、ニューラルネットワーク設計の効果的な最適化方法の必要性が最重要視される。 本稿では,個々のニューラルネットワーク層に対して最善のビット幅と層幅を自動的に選択する革新的な探索機構を提案する。 これにより、ディープニューラルネットワークの効率が著しく向上する。 探索領域はヘッセン式プルーニングを利用することで戦略的に低減され、非地殻パラメータの除去が保証される。 その後、クラスタベース木構造Parzen推定器を用いて、好ましくない結果に対するサロゲートモデルの開発について詳述する。 この戦略は、アーキテクチャの可能性の合理化とトップパフォーマンス設計の迅速な特定を可能にする。 既知のデータセットに対する厳密なテストを通じて,本手法は既存の手法に対して明確な優位性を証明している。 先行圧縮戦略と比較して,本手法は,精度を損なうことなく,モデルサイズが20%減少した。 さらに,提案手法は,現在利用可能な最善の検索戦略と比較して検索時間を12倍短縮する。 その結果,提案手法はニューラルネットワーク設計の最適化の飛躍的な進歩を示し,限られたリソースでモデル設計と実装を迅速に行えるようにすることで,スケーラブルなディープラーニングソリューションの可能性を高めることができる。

As the complexity and computational demands of deep learning models rise, the need for effective optimization methods for neural network designs becomes paramount. This work introduces an innovative search mechanism for automatically selecting the best bit-width and layer-width for individual neural network layers. This leads to a marked enhancement in deep neural network efficiency. The search domain is strategically reduced by leveraging Hessian-based pruning, ensuring the removal of non-crucial parameters. Subsequently, we detail the development of surrogate models for favorable and unfavorable outcomes by employing a cluster-based tree-structured Parzen estimator. This strategy allows for a streamlined exploration of architectural possibilities and swift pinpointing of top-performing designs. Through rigorous testing on well-known datasets, our method proves its distinct advantage over existing methods. Compared to leading compression strategies, our approach records an impressive 20% decrease in model size without compromising accuracy. Additionally, our method boasts a 12x reduction in search time relative to the best search-focused strategies currently available. As a result, our proposed method represents a leap forward in neural network design optimization, paving the way for quick model design and implementation in settings with limited resources, thereby propelling the potential of scalable deep learning solutions.
翻訳日:2023-08-17 10:30:54 公開日:2023-08-16
# セマンティックスを超えて:自己教師型学習による行動強化関連モデル学習

Beyond Semantics: Learning a Behavior Augmented Relevance Model with Self-supervised Learning ( http://arxiv.org/abs/2308.05379v3 )

ライセンス: Link先を確認
Zeyuan Chen, Wei Chen, Jia Xu, Zhongyi Liu, Wei Zhang(参考訳) 関連モデリングは,検索エンジンがユーザエクスペリエンスを確保する上で重要な,対応するクエリに対して望ましい項目を見つけることを目的としている。 ほとんどの従来の手法では、クエリとアイテム間のセマンティックな類似性を評価することでこの問題に対処するが、純粋なセマンティックマッチングは、すべてではない。

Relevance modeling aims to locate desirable items for corresponding queries, which is crucial for search engines to ensure user experience. Although most conventional approaches address this problem by assessing the semantic similarity between the query and item, pure semantic matching is not everything.
翻訳日:2023-08-17 10:30:34 公開日:2023-08-16
# samflow: segment anythingモデルによる光フローのフラグメンテーションの排除

SAMFlow: Eliminating Any Fragmentation in Optical Flow with Segment Anything Model ( http://arxiv.org/abs/2307.16586v3 )

ライセンス: Link先を確認
Shili Zhou, Ruian He, Weimin Tan and Bo Yan(参考訳) 光フロー推定は、2つのフレーム間の2次元密度運動場を求めることを目的としている。 モデル構造とトレーニングデータセットの制限のため、既存の手法はしばしば局所的な手がかりに頼りすぎ、オブジェクトの整合性を無視し、断片化された動き推定をもたらす。 理論解析により,事前学習された大視野モデルが光フロー推定に有用であることを見出し,最近有名になったsegment anything model (sam) が,フラグメンテーション問題を解決するのに適した完全物体を分割する強力な能力を示していることに気付いた。 そこで我々は,凍結したSAMイメージエンコーダをFlowFormerに埋め込んでオブジェクト認識を強化する方法を提案する。 本稿では,光フロー推定などの非セグメント化タスクにおいてSAMを奥行き利用することの課題に対処するため,光フローコンテキストエンコーダとSAMエンコーダを融合するContext Fusion Moduleと,光フロータスクのSAM特徴をLearted Task-Specific Embeddingで適応させるContext Adaption Moduleを含む光フロータスク特化適応スキームを提案する。 提案したSAMFlowモデルは,SintelおよびKITTI-15トレーニングセットで0.86/2.10クリーン/ファイナルEPEと3.55/12.32EPE/F1-allに達し,Flowformerの8.5%/9.9%,13.2%/16.3%を上回った。 さらに,本モデルでは,Sintel と KITTI-15 ベンチマークの最先端性能を達成し,Sintel のクリーンパスにおける2フレーム手法の上位にランクインした。

Optical Flow Estimation aims to find the 2D dense motion field between two frames. Due to the limitation of model structures and training datasets, existing methods often rely too much on local clues and ignore the integrity of objects, resulting in fragmented motion estimation. Through theoretical analysis, we find the pre-trained large vision models are helpful in optical flow estimation, and we notice that the recently famous Segment Anything Model (SAM) demonstrates a strong ability to segment complete objects, which is suitable for solving the fragmentation problem. We thus propose a solution to embed the frozen SAM image encoder into FlowFormer to enhance object perception. To address the challenge of in-depth utilizing SAM in non-segmentation tasks like optical flow estimation, we propose an Optical Flow Task-Specific Adaption scheme, including a Context Fusion Module to fuse the SAM encoder with the optical flow context encoder, and a Context Adaption Module to adapt the SAM features for optical flow task with Learned Task-Specific Embedding. Our proposed SAMFlow model reaches 0.86/2.10 clean/final EPE and 3.55/12.32 EPE/F1-all on Sintel and KITTI-15 training set, surpassing Flowformer by 8.5%/9.9% and 13.2%/16.3%. Furthermore, our model achieves state-of-the-art performance on the Sintel and KITTI-15 benchmarks, ranking #1 among all two-frame methods on Sintel clean pass.
翻訳日:2023-08-17 10:30:28 公開日:2023-08-16
# Task-Conditioned Hypernetwork に基づくマルチタスクエピソードメモリによる深層強化学習

Deep Reinforcement Learning with Multitask Episodic Memory Based on Task-Conditioned Hypernetwork ( http://arxiv.org/abs/2306.10698v4 )

ライセンス: Link先を確認
Yonggang Jin, Chenxu Wang, Liuyu Xiang, Yaodong Yang, Junge Zhang, Jie Fu and Zhaofeng He(参考訳) 深層強化学習アルゴリズムは通常、正確な意思決定能力を得るために環境と複数の相互作用に依存する非効率のサンプリングによって妨げられる。 対照的に、人間は海馬を頼りに、関連するタスクの過去の経験から関連する情報を取得し、環境の相互作用にのみ依存するのではなく、新しいタスクを学ぶ際の意思決定を導く。 それにもかかわらず、過去の経験を確立された強化学習アルゴリズムに組み込むエージェントのための海馬のようなモジュールの設計には、2つの課題がある。 第1の課題は、現在のタスクに最も関連する過去の経験を選択することであり、第2の課題は、そのような経験を意思決定ネットワークに統合することである。 これらの課題に対処するために,タスク条件付きハイパーネットワークに基づく検索ネットワークを用いて,検索ネットワークのパラメータをタスクに応じて適応させる新しい手法を提案する。 同時に,動的修正機構により,検索ネットワークと意思決定ネットワークの協調作業が促進される。 提案手法をMiniGrid環境上で評価し,提案手法が強いベースラインを著しく上回ることを示す実験結果を得た。

Deep reinforcement learning algorithms are usually impeded by sampling inefficiency, heavily depending on multiple interactions with the environment to acquire accurate decision-making capabilities. In contrast, humans rely on their hippocampus to retrieve relevant information from past experiences of relevant tasks, which guides their decision-making when learning a new task, rather than exclusively depending on environmental interactions. Nevertheless, designing a hippocampus-like module for an agent to incorporate past experiences into established reinforcement learning algorithms presents two challenges. The first challenge involves selecting the most relevant past experiences for the current task, and the second challenge is integrating such experiences into the decision network. To address these challenges, we propose a novel method that utilizes a retrieval network based on task-conditioned hypernetwork, which adapts the retrieval network's parameters depending on the task. At the same time, a dynamic modification mechanism enhances the collaborative efforts between the retrieval and decision networks. We evaluate the proposed method on the MiniGrid environment.The experimental results demonstrate that our proposed method significantly outperforms strong baselines.
翻訳日:2023-08-17 10:29:36 公開日:2023-08-16
# ゼロショットタスク一般化のためのwebスケール音声モデルの隠れた人材育成

Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization ( http://arxiv.org/abs/2305.11095v3 )

ライセンス: Link先を確認
Puyuan Peng, Brian Yan, Shinji Watanabe, David Harwath(参考訳) 本稿では,最近提案されたWebスケール音声モデルのWhisperの創発的能力について検討する。 音声視覚音声認識(AVSR)、コードスイッチト音声認識(CS-ASR)、音声翻訳(ST)の3つのタスクを選択した。 タスク固有のプロンプトを、別の大規模モデルを活用するか、あるいはデフォルトのプロンプトで特別なトークンを操作するだけで設計する。 実験の結果、デフォルトのプロンプトと比較して、3つのゼロショットタスクで10%から45%のパフォーマンスが向上し、いくつかのデータセットでsata教師付きモデルよりも優れています。 さらに,本実験では,発話に対する頑健性,アクセントの偏り,潜在空間における多言語理解など,whisperの多くの興味深い特徴が明らかにされている。 コードはhttps://github.com/jasonppy/promptingwhisperで入手できる。

We investigate the emergent abilities of the recently proposed web-scale speech model Whisper, by adapting it to unseen tasks with prompt engineering. We selected three tasks: audio-visual speech recognition (AVSR), code-switched speech recognition (CS-ASR), and speech translation (ST) on unseen language pairs. We design task-specific prompts, by either leveraging another large-scale model, or simply manipulating the special tokens in the default prompts. Experiments show that compared to the default prompts, our proposed prompts improve performance by 10% to 45% on the three zero-shot tasks, and even outperform SotA supervised models on some datasets. In addition, our experiments reveal many interesting properties of Whisper, including its robustness to prompts, bias on accents, and the multilingual understanding in its latent space. Code is available at https://github.com/jasonppy/PromptingWhisper
翻訳日:2023-08-17 10:29:18 公開日:2023-08-16
# 密林天蓋下リアルタイムセマンティックスラムを用いた大規模自律飛行

Large-scale Autonomous Flight with Real-time Semantic SLAM under Dense Forest Canopy ( http://arxiv.org/abs/2109.06479v6 )

ライセンス: Link先を確認
Xu Liu, Guilherme V. Nardari, Fernando Cladera Ojeda, Yuezhan Tao, Alex Zhou, Thomas Donnelly, Chao Qu, Steven W. Chen, Roseli A. F. Romero, Camillo J. Taylor, Vijay Kumar(参考訳) セマンティックマップは、セマンティックな意味のあるオブジェクトの集合を使って環境を表現する。 この表現は、ストレージ効率が良く、曖昧で、より情報に富むもので、大規模な自律性と、高度に非構造化されたGPS環境での実行可能な情報の取得を容易にする。 本稿では,大規模自律飛行とリアルタイムセマンティックマッピングを,挑戦的なアンダーキャノピー環境下で実現可能な統合システムを提案する。 lidarデータから樹幹と地上面を検出しモデル化し,スキャンに関連付けられ,ロボットのポーズや樹幹モデルに制約を与える。 自律ナビゲーションモジュールは、マルチレベル計画およびマッピングフレームワークを使用し、UAVがユーザの定義した関心領域のセマンティックマップを計算的かつ効率的な方法で構築する、動的に実現可能な軌道を計算する。 ドリフト補償機構は、プランナー最適性とコントローラ安定性を維持しつつ、セマンティックSLAM出力を用いたドリフトをリアルタイムで最小化するように設計されている。 これによりUAVは、そのミッションを正確かつ安全に実施することができる。

Semantic maps represent the environment using a set of semantically meaningful objects. This representation is storage-efficient, less ambiguous, and more informative, thus facilitating large-scale autonomy and the acquisition of actionable information in highly unstructured, GPS-denied environments. In this letter, we propose an integrated system that can perform large-scale autonomous flights and real-time semantic mapping in challenging under-canopy environments. We detect and model tree trunks and ground planes from LiDAR data, which are associated across scans and used to constrain robot poses as well as tree trunk models. The autonomous navigation module utilizes a multi-level planning and mapping framework and computes dynamically feasible trajectories that lead the UAV to build a semantic map of the user-defined region of interest in a computationally and storage efficient manner. A drift-compensation mechanism is designed to minimize the odometry drift using semantic SLAM outputs in real time, while maintaining planner optimality and controller stability. This leads the UAV to execute its mission accurately and safely at scale.
翻訳日:2023-08-17 10:28:59 公開日:2023-08-16
# SciRE-Solver:再帰微分推定を用いたスコア積分解法による拡散確率モデルの効率的なサンプリング

SciRE-Solver: Efficient Sampling of Diffusion Probabilistic Models by Score-integrand Solver with Recursive Derivative Estimation ( http://arxiv.org/abs/2308.07896v2 )

ライセンス: Link先を確認
Shigui Li, Wei Chen, Delu Zeng(参考訳) diffusion probabilistic models (dpms) は高忠実度画像サンプルを生成する能力で知られる強力な生成モデルである。 DPMの実装における大きな課題は、遅いサンプリングプロセスである。 本研究では,DPMの高効率サンプリングを行う。 具体的には、DPMのサンプリングプロセスに対応する拡散ODEに対するスコアベース正確な解法パラダイムを提案し、拡散ODEを解くための数値アルゴリズムの開発に新たな視点を導入する。 効率的なサンプル作成を実現するために,再帰的微分推定 (rde) 法を提案する。 提案した解法パラダイムとRDE法を用いて,拡散ODEを解くための効率的な解法(SciRE-Solver)として収束順序保証を用いたスコア積分解法を提案する。 SciRE-Solverは、既存のトレーニング不要サンプリングアルゴリズムと比較して、離散時間および連続時間DPMのスコア関数評価(NFE)を限定して、最先端サンプリング性能を得る。 このようにして、CIFAR10上の連続DPMに対して、120ドルNFEで3.48ドルFID、20ドルNFEで2.42ドルFIDを得る。 他のサンプルと異なり、SciRE-Solverは、小さなNFEを持つ事前訓練されたモデルのオリジナルの論文で達成されたFIDを超える有望な可能性を秘めている。 例えば、SOTA値が$2.40$、NFEが$100、FIDが$3.15$、CIFAR-10で$84$、FIDが$2.17$($2.02$)で$18$($50$)で$18$($50$)で$CelebA 64$\times$64である。

Diffusion probabilistic models (DPMs) are a powerful class of generative models known for their ability to generate high-fidelity image samples. A major challenge in the implementation of DPMs is the slow sampling process. In this work, we bring a high-efficiency sampler for DPMs. Specifically, we propose a score-based exact solution paradigm for the diffusion ODEs corresponding to the sampling process of DPMs, which introduces a new perspective on developing numerical algorithms for solving diffusion ODEs. To achieve an efficient sampler, we propose a recursive derivative estimation (RDE) method to reduce the estimation error. With our proposed solution paradigm and RDE method, we propose the score-integrand solver with the convergence order guarantee as efficient solver (SciRE-Solver) for solving diffusion ODEs. The SciRE-Solver attains state-of-the-art (SOTA) sampling performance with a limited number of score function evaluations (NFE) on both discrete-time and continuous-time DPMs in comparison to existing training-free sampling algorithms. Such as, we achieve $3.48$ FID with $12$ NFE and $2.42$ FID with $20$ NFE for continuous-time DPMs on CIFAR10, respectively. Different from other samplers, SciRE-Solver has the promising potential to surpass the FIDs achieved in the original papers of some pre-trained models with a small NFEs. For example, we reach SOTA value of $2.40$ FID with $100$ NFE for continuous-time DPM and of $3.15$ FID with $84$ NFE for discrete-time DPM on CIFAR-10, as well as of $2.17$ ($2.02$) FID with $18$ ($50$) NFE for discrete-time DPM on CelebA 64$\times$64.
翻訳日:2023-08-17 10:24:31 公開日:2023-08-16
# SPM:構造的事前学習とマッチングアーキテクチャによる関係モデリング

SPM: Structured Pretraining and Matching Architectures for Relevance Modeling in Meituan Search ( http://arxiv.org/abs/2308.07711v2 )

ライセンス: Link先を確認
Wen Zan, Yaopeng Han, Xiaotian Jiang, Yao Xiao, Yang Yang, Dayao Chen, Sheng Chen(参考訳) eコマース検索では,クエリとドキュメントの関連性はユーザエクスペリエンスを満たす上で必須である。 製品を提供する従来のeコマースプラットフォームとは異なり、ユーザは主に製品提供者向けのmeituanのようなライフサービスプラットフォームで検索する。 1) 構造化文書の異なる分野に言語分布の相違があるため, BERT のような既製の事前学習言語モデルに基づく手法を直接採用することは困難である。 2) 異なる分野が重要であり,その長さが大きく異なるため,関連性マッチングに役立つ文書情報の抽出が困難である。 そこで本稿では,リッチな構造化文書とのマッチングのために,新しい2段階事前学習とマッチングアーキテクチャを提案する。 事前学習段階では,クエリフィールドと文書の複数のフィールドの両方を入力として使用し,長大なフィールドに対する効果的な情報圧縮手法を含む効果的な事前学習手法を提案する。 関連度マッチングの段階では,検索クエリにおけるドメイン知識を活用して,関連度スコアリングのためのより効果的な文書表現を生成する新しいマッチング手法を提案する。 数百万人のユーザに対する大規模なオフライン実験とオンラインA/Bテストにより、提案したアーキテクチャが妥当性モデリングのパフォーマンスを効果的に向上することを確認した。 モデルはすでにオンラインで展開されており、Meituanの検索トラフィックを1年以上にわたって提供している。

In e-commerce search, relevance between query and documents is an essential requirement for satisfying user experience. Different from traditional e-commerce platforms that offer products, users search on life service platforms such as Meituan mainly for product providers, which usually have abundant structured information, e.g. name, address, category, thousands of products. Modeling search relevance with these rich structured contents is challenging due to the following issues: (1) there is language distribution discrepancy among different fields of structured document, making it difficult to directly adopt off-the-shelf pretrained language model based methods like BERT. (2) different fields usually have different importance and their length vary greatly, making it difficult to extract document information helpful for relevance matching. To tackle these issues, in this paper we propose a novel two-stage pretraining and matching architecture for relevance matching with rich structured documents. At pretraining stage, we propose an effective pretraining method that employs both query and multiple fields of document as inputs, including an effective information compression method for lengthy fields. At relevance matching stage, a novel matching method is proposed by leveraging domain knowledge in search query to generate more effective document representations for relevance scoring. Extensive offline experiments and online A/B tests on millions of users verify that the proposed architectures effectively improve the performance of relevance modeling. The model has already been deployed online, serving the search traffic of Meituan for over a year.
翻訳日:2023-08-17 10:23:54 公開日:2023-08-16
# DiffGuard: 事前学習拡散モデルを用いた意味的ミスマッチ誘導分布検出

DiffGuard: Semantic Mismatch-Guided Out-of-Distribution Detection using Pre-trained Diffusion Models ( http://arxiv.org/abs/2308.07687v2 )

ライセンス: Link先を確認
Ruiyuan Gao, Chenchen Zhao, Lanqing Hong, Qiang Xu(参考訳) 分類器が与えられた場合、semantic out-of-distribution (ood) サンプルの固有の特性は、それらの内容がすべての法的なクラス、すなわち意味的ミスマッチと異なることである。 画像空間における意味的ミスマッチを拡大するために、条件付き生成逆数ネットワーク(cGAN)を利用するOOD検出に直接適用する研究が最近行われている。 小さなデータセットで優れたOOD検出性能を実現する一方で、入力画像とラベルの両方を条件としてcGANをトレーニングすることが困難であるため、ImageNetスケールデータセットには適用できない。 拡散モデルは,cGANと比較して訓練が容易であり,様々な条件に適応できるため,本研究では,意味ミスマッチ誘導OOD検出のための事前学習拡散モデルDiffGuardを提案する。 具体的には、OOD入力画像と予測ラベルが分類器から与えられた場合、これらの条件下で再構成されたOOD画像と元の入力画像との意味的差異を拡大しようと試みる。 また,これらの違いをさらに強めるために,いくつかのテストタイム手法を提案する。 実験の結果,DiffGuardは大規模なImageNetのCifar-10とハードケースの両方で有効であり,既存のOOD検出技術と組み合わせて最先端のOOD検出結果が得られることがわかった。

Given a classifier, the inherent property of semantic Out-of-Distribution (OOD) samples is that their contents differ from all legal classes in terms of semantics, namely semantic mismatch. There is a recent work that directly applies it to OOD detection, which employs a conditional Generative Adversarial Network (cGAN) to enlarge semantic mismatch in the image space. While achieving remarkable OOD detection performance on small datasets, it is not applicable to ImageNet-scale datasets due to the difficulty in training cGANs with both input images and labels as conditions. As diffusion models are much easier to train and amenable to various conditions compared to cGANs, in this work, we propose to directly use pre-trained diffusion models for semantic mismatch-guided OOD detection, named DiffGuard. Specifically, given an OOD input image and the predicted label from the classifier, we try to enlarge the semantic difference between the reconstructed OOD image under these conditions and the original input image. We also present several test-time techniques to further strengthen such differences. Experimental results show that DiffGuard is effective on both Cifar-10 and hard cases of the large-scale ImageNet, and it can be easily combined with existing OOD detection techniques to achieve state-of-the-art OOD detection results.
翻訳日:2023-08-17 10:23:27 公開日:2023-08-16
# 量子状態に対するベイズ的モデリングアプローチ - 究極のガウス的プロセス状態ハンドブック

Bayesian Modelling Approaches for Quantum States -- The Ultimate Gaussian Process States Handbook ( http://arxiv.org/abs/2308.07669v2 )

ライセンス: Link先を確認
Yannic Rath(参考訳) マルチボディシステムの構成要素間の相関関係を正確に捉えることは、量子力学的基礎に基礎を置いている様々なシステムの適切な記述の鍵となる課題の1つである。 この論文では、量子多体波動関数の(古典的な)モデリングのための新しいツールと技術について論じ、システム特性を効率的に抽出できる正確な表現を見つけるための普遍的な枠組みを導入することを究極の目標としている。 厳密なベイズ回帰手法を用いて、最も関連する本質的特徴の自動推論を可能にするために、標準機械学習アプローチとの相乗効果をどのように活用するかを概説する。 ガウス過程状態(Gaussian Process State)を創始したアンザッツの基盤を形成する確率的枠組みに基づいて,確率的スキーム内の関連する対象状態の数値的に実行可能な表現を抽出する。 直感的に動機づけられた設計原則に従うことにより、結果として得られるモデルは高い解釈可能性を持ち、強い内在的相関によりシミュレーションが難しいことを含む量子系の数値研究に容易に適用可能なツールを提供する。 ガウス過程状態フレームワークの実用的適用性は、特に原型量子格子モデルに対する基底状態近似、フェルミ-Hubbardモデルと$J_1-J_2$モデル、および単純なab-initio量子化学系において証明される。

Capturing the correlation emerging between constituents of many-body systems accurately is one of the key challenges for the appropriate description of various systems whose properties are underpinned by quantum mechanical fundamentals. This thesis discusses novel tools and techniques for the (classical) modelling of quantum many-body wavefunctions with the ultimate goal to introduce a universal framework for finding accurate representations from which system properties can be extracted efficiently. It is outlined how synergies with standard machine learning approaches can be exploited to enable an automated inference of the most relevant intrinsic characteristics through rigorous Bayesian regression techniques. Based on the probabilistic framework forming the foundation of the introduced ansatz, coined the Gaussian Process State, different compression techniques are explored to extract numerically feasible representations of relevant target states within stochastic schemes. By following intuitively motivated design principles, the resulting model carries a high degree of interpretability and offers an easily applicable tool for the numerical study of quantum systems, including ones which are notoriously difficult to simulate due to a strong intrinsic correlation. The practical applicability of the Gaussian Process States framework is demonstrated within several benchmark applications, in particular, ground state approximations for prototypical quantum lattice models, Fermi-Hubbard models and $J_1-J_2$ models, as well as simple ab-initio quantum chemical systems.
翻訳日:2023-08-17 10:22:59 公開日:2023-08-16
# 時間グラフニューラルネットワークを用いた対話型パーソナライズド自動車軌道予測

Interaction-Aware Personalized Vehicle Trajectory Prediction Using Temporal Graph Neural Networks ( http://arxiv.org/abs/2308.07439v2 )

ライセンス: Link先を確認
Amr Abdelraouf, Rohit Gupta, Kyungtae Han(参考訳) 車両軌道の正確な予測は、先進運転支援システムや自動運転車にとって不可欠である。 既存の手法は主に、個々のドライバーのパーソナライズされた運転パターンを見渡すために、大きなデータセットから派生した一般的な軌道予測に依存している。 このギャップに対処するために,時間グラフニューラルネットワークを組み込んだ対話型自動車軌道予測手法を提案する。 本稿では,グラフ畳み込みネットワーク(GCN)とLong Short-Term Memory(LSTM)を用いて,車両とその周辺交通の時空間相互作用をモデル化する。 予測をパーソナライズするために、トランスファー学習を利用するパイプラインを確立する。まず、モデルは大規模な軌道データセットで事前トレーニングされ、その後、それぞれの運転者に特定の運転データを使用して微調整される。 ループ内人間シミュレーションを用いて,パーソナライズされた自然走行軌跡とその周辺車両軌跡を収集する。 実験により, パーソナライズされたGCN-LSTMモデルの性能は, 汎用モデルと比較して, より長い予測地平線に対して優れていることが示された。 さらに、パーソナライズされたモデルは事前トレーニングなしで作成した個々のモデルよりも優れており、オーバーフィッティングを避けるために大規模なデータセットで事前トレーニングを行うことの重要性を強調している。 パーソナライゼーションの導入により, 軌道予測精度が向上する。

Accurate prediction of vehicle trajectories is vital for advanced driver assistance systems and autonomous vehicles. Existing methods mainly rely on generic trajectory predictions derived from large datasets, overlooking the personalized driving patterns of individual drivers. To address this gap, we propose an approach for interaction-aware personalized vehicle trajectory prediction that incorporates temporal graph neural networks. Our method utilizes Graph Convolution Networks (GCN) and Long Short-Term Memory (LSTM) to model the spatio-temporal interactions between target vehicles and their surrounding traffic. To personalize the predictions, we establish a pipeline that leverages transfer learning: the model is initially pre-trained on a large-scale trajectory dataset and then fine-tuned for each driver using their specific driving data. We employ human-in-the-loop simulation to collect personalized naturalistic driving trajectories and corresponding surrounding vehicle trajectories. Experimental results demonstrate the superior performance of our personalized GCN-LSTM model, particularly for longer prediction horizons, compared to its generic counterpart. Moreover, the personalized model outperforms individual models created without pre-training, emphasizing the significance of pre-training on a large dataset to avoid overfitting. By incorporating personalization, our approach enhances trajectory prediction accuracy.
翻訳日:2023-08-17 10:22:33 公開日:2023-08-16
# 量子最適速度と精度によるサブ回折物体の変化検出

Detecting changes to sub-diffraction objects with quantum-optimal speed and accuracy ( http://arxiv.org/abs/2308.07262v2 )

ライセンス: Link先を確認
Michael R Grace, Saikat Guha, Zachary Dutton(参考訳) 動的シーンのパッシブサブディフュージョンイメージングでは、オブジェクトが変化しても検出することが難しい。 サブ回折非コヒーレントイメージングの文脈において、ある任意の物体モデルから別の物体への変化を検出するための応答性と精度の最良のトレードオフを考える。 有限2次元アパーチャによって収集された光学場の物理的に許容されるすべての測定を最適化し、固定された偽アラームレートに対して最適な平均レイテンシを解析的に評価する。 入射光強度の直接焦点平面検出は、最良な平均レイテンシと比較すると、サブ最適検出遅延を達成するが、よく知られたcusumアルゴリズムを用いたオンライン統計処理と連動して、3モード空間モード多重化測定により、このサブディフュージョンオブジェクトの量子限界が達成される。 変化検出手順のモンテカルロシミュレーションによりこれらの結果を検証し, 物体の回折限界が増大するにつれて, 従来と量子光学受信機とのギャップを定量化する。

Detecting if and when objects change is difficult in passive sub-diffraction imaging of dynamic scenes. We consider the best possible tradeoff between responsivity and accuracy for detecting a change from one arbitrary object model to another in the context of sub-diffraction incoherent imaging. We analytically evaluate the best possible average latency, for a fixed false alarm rate, optimizing over all physically allowed measurements of the optical field collected by a finite 2D aperture. We find that direct focal-plane detection of the incident optical intensity achieves sub-optimal detection latencies compared to the best possible average latency, but that a three-mode spatial-mode demultiplexing measurement in concert with on-line statistical processing using the well-known CUSUM algorithm achieves this quantum limit for sub-diffraction objects. We verify these results via Monte Carlo simulation of the change detection procedure and quantify a growing gap between the conventional and quantum-optimal receivers as the objects are more and more diffraction-limited.
翻訳日:2023-08-17 10:21:50 公開日:2023-08-16
# ハイパースパースニューラルネットワーク:適応正規化による探索から搾取への移行

HyperSparse Neural Networks: Shifting Exploration to Exploitation through Adaptive Regularization ( http://arxiv.org/abs/2308.07163v2 )

ライセンス: Link先を確認
Patrick Glandorf and Timo Kaiser and Bodo Rosenhahn(参考訳) スパースニューラルネットワークは、リソース効率のよい機械学習アプリケーションを開発する上で重要な要素である。 本稿では,分散ネットワークに密圧縮する新しい,かつ強力なスパース学習手法である適応正規化学習(art)を提案する。 モデルの重量を減らすためにトレーニング中によく使われるバイナリマスクの代わりに、私たちは、重みの正規化を増加させながら、反復的に重みをゼロに縮小する。 本手法は,事前学習したモデル知識を最大重みに圧縮する。 そこで本研究では,重みの探索能力を維持しながら最大重みを生かすハイパースパースという新しい正規化損失を導入する。 CIFARとTinyImageNetの大規模な実験により、我々の手法は他のスパーシフィケーション法と比較して顕著な性能向上をもたらすことが示されている。 さらなる調査は、大きな大きさの重みでエンコードされるパターンに対する新たな洞察を提供する。

Sparse neural networks are a key factor in developing resource-efficient machine learning applications. We propose the novel and powerful sparse learning method Adaptive Regularized Training (ART) to compress dense into sparse networks. Instead of the commonly used binary mask during training to reduce the number of model weights, we inherently shrink weights close to zero in an iterative manner with increasing weight regularization. Our method compresses the pre-trained model knowledge into the weights of highest magnitude. Therefore, we introduce a novel regularization loss named HyperSparse that exploits the highest weights while conserving the ability of weight exploration. Extensive experiments on CIFAR and TinyImageNet show that our method leads to notable performance gains compared to other sparsification methods, especially in extremely high sparsity regimes up to 99.8 percent model sparsity. Additional investigations provide new insights into the patterns that are encoded in weights with high magnitudes.
翻訳日:2023-08-17 10:21:15 公開日:2023-08-16
# 産業・ロボティクス領域における神経放射領域:応用,研究の機会とユースケース

Neural radiance fields in the industrial and robotics domain: applications, research opportunities and use cases ( http://arxiv.org/abs/2308.07118v2 )

ライセンス: Link先を確認
Eugen \v{S}lapak, Enric Pardo, Mat\'u\v{s} Dopiriak, Taras Maksymyuk and Juraj Gazda(参考訳) 拡張現実(XR)のような技術の普及は、高品質な3次元グラフィカル表現の需要を増大させてきた。 産業用3Dアプリケーションは、コンピュータ支援設計(CAD)、有限要素解析(FEA)、走査、ロボット工学を含む。 しかし, 産業用3d表現に用いられている手法は, 高い実装コストと, 正確な3dモデリングのための手作業による入力に依存する。 これらの課題に対処するために、ニューラルネットワーク(NeRF)は、提供されたトレーニング2D画像に基づいて3Dシーン表現を学習するための有望なアプローチとして登場した。 NeRFへの関心が高まりつつあるにもかかわらず、様々な産業サブドメインでの潜在的な応用はいまだ研究されていない。 本稿では,NeRF産業応用の総合的な検討と今後の研究の方向性について述べる。 産業領域におけるNeRFの可能性を示す一連の概念実証実験も提示する。 これらの実験には、NeRFに基づくビデオ圧縮技術や、衝突回避の文脈における3次元運動推定にNeRFを用いている。 ビデオ圧縮実験では,1920x1080 および 300x168 の解像度に対して最大 48\% と 74\% の圧縮削減効果を示した。 運動推定実験では、ロボットアームの3Dアニメーションを用いてダイナミック・ネRF(D-NeRF)を訓練し、23dBの値と構造類似度指数(SSIM)0.97の差分マップの平均ピーク信号-雑音比(PSNR)を達成した。

The proliferation of technologies, such as extended reality (XR), has increased the demand for high-quality three-dimensional (3D) graphical representations. Industrial 3D applications encompass computer-aided design (CAD), finite element analysis (FEA), scanning, and robotics. However, current methods employed for industrial 3D representations suffer from high implementation costs and reliance on manual human input for accurate 3D modeling. To address these challenges, neural radiance fields (NeRFs) have emerged as a promising approach for learning 3D scene representations based on provided training 2D images. Despite a growing interest in NeRFs, their potential applications in various industrial subdomains are still unexplored. In this paper, we deliver a comprehensive examination of NeRF industrial applications while also providing direction for future research endeavors. We also present a series of proof-of-concept experiments that demonstrate the potential of NeRFs in the industrial domain. These experiments include NeRF-based video compression techniques and using NeRFs for 3D motion estimation in the context of collision avoidance. In the video compression experiment, our results show compression savings up to 48\% and 74\% for resolutions of 1920x1080 and 300x168, respectively. The motion estimation experiment used a 3D animation of a robotic arm to train Dynamic-NeRF (D-NeRF) and achieved an average peak signal-to-noise ratio (PSNR) of disparity map with the value of 23 dB and an structural similarity index measure (SSIM) 0.97.
翻訳日:2023-08-17 10:20:59 公開日:2023-08-16