このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230820となっている論文です。

PDF登録状況(公開日: 20230820)

TitleAuthorsAbstract論文公表日・翻訳日
# to healthier ethereum: 包括的で反復的なスマートコントラクトの弱点列挙

To Healthier Ethereum: A Comprehensive and Iterative Smart Contract Weakness Enumeration ( http://arxiv.org/abs/2308.10227v1 )

ライセンス: Link先を確認
Jiachi Chen, Mingyuan Huang, Zewei Lin, Peilin Zheng and Zibin Zheng(参考訳) 暗号通貨やブロックチェーン技術の人気が高まり、スマートコントラクトは分散アプリケーションの開発において重要な特徴となっている。 しかし、これらのスマートコントラクトは、ハッカーが悪用できる脆弱性の影響を受けやすいため、大きな損失をもたらす。 この懸念に応えて、様々なイニシアティブが生まれている。 特にSWC脆弱性リストは、スマートコントラクトの弱点の認識と理解を高める上で重要な役割を担った。 しかし、SWCリストはメンテナンスが欠如しており、2020年以来新しい脆弱性で更新されていない。 このギャップに対処するために、2023年までの包括的で実用的な脆弱性リストであるSmart Contract Weakness Enumeration (SWE)を紹介します。 86の会議論文およびジャーナル論文から273の脆弱性記述を収集し,これらの記述を重複・分類するためにオープンカードソート技術を用いた。 このプロセスは40の共通契約の弱点を識別し、徹底的な議論と分析を通じて20のサブリサーチ分野に分類する。 SWEはスマートコントラクトの脆弱性の体系的かつ包括的なリストを提供しており、ここ数年で既存の脆弱性と出現する脆弱性をカバーしている。 さらに、SWEはスケーラブルで継続的な反復型プログラムである。 我々は,sweのメンテナンスのための2つの更新機構を提案する。 定期的な更新には、将来のトップペーパーから新たな脆弱性が含まれているが、不規則な更新では、個人がレビューやSWEへの潜在的な追加のために、新たな脆弱性を報告できる。

With the increasing popularity of cryptocurrencies and blockchain technology, smart contracts have become a prominent feature in developing decentralized applications. However, these smart contracts are susceptible to vulnerabilities that hackers can exploit, resulting in significant financial losses. In response to this growing concern, various initiatives have emerged. Notably, the SWC vulnerability list played an important role in raising awareness and understanding of smart contract weaknesses. However, the SWC list lacks maintenance and has not been updated with new vulnerabilities since 2020. To address this gap, this paper introduces the Smart Contract Weakness Enumeration (SWE), a comprehensive and practical vulnerability list up until 2023. We collect 273 vulnerability descriptions from 86 top conference papers and journal papers, employing open card sorting techniques to deduplicate and categorize these descriptions. This process results in the identification of 40 common contract weaknesses, which are further classified into 20 sub-research fields through thorough discussion and analysis. SWE provides a systematic and comprehensive list of smart contract vulnerabilities, covering existing and emerging vulnerabilities in the last few years. Moreover, SWE is a scalable, continuously iterative program. We propose two update mechanisms for the maintenance of SWE. Regular updates involve the inclusion of new vulnerabilities from future top papers, while irregular updates enable individuals to report new weaknesses for review and potential addition to SWE.
翻訳日:2023-10-23 13:31:00 公開日:2023-08-20
# 自律システムのための動的認証方式の将来展望

Future Vision of Dynamic Certification Schemes for Autonomous Systems ( http://arxiv.org/abs/2308.10340v1 )

ライセンス: Link先を確認
Dasa Kusnirakova and Barbora Buhnova(参考訳) ソフトウェアが自動運転のような重要な領域に普及するにつれて、新たな課題が発生し、システムエンジニアリングアプローチの再検討が必要になる。 自律運転による全ての重要な運転機能の段階的な乗っ取りは、これらのシステムの認証の複雑さを増す。 すなわち、認定手続きは将来の自律システムのダイナミズムと予測不能に完全には対応せず、これらのシステムに課される要件の遵守を完全に保証するものではない。 本稿では,安全性の重大なリスクをもたらす可能性のある,現在の認定戦略に関するいくつかの問題点を指摘した。 例えば、絶えず進化するシステムにおけるソフトウェア変更の不十分な反映と、協調動作を管理するために必要なシステムの協調サポートの欠如を強調する。 その他の欠点としては、認定の焦点が狭く、自律的なソフトウェアシステムの倫理的振る舞いを無視することが挙げられる。 この論文の貢献は3倍である。 まず、認証プロセスで使用される既存の国際標準を、動的ソフトウェアエコシステムや自律システム自体の要件と関連づけて分析し、それらの欠点を特定する。 第2に,特定問題に対する包括的解決策を育むための認証の再検討に関する6つの提案について概説する。 第3に、自律的なエコシステムと関連するプロセスのための堅牢なガバナンス構造を確立するために、将来の認証スキームを含む概念的多層信頼ガバナンスフレームワークが導入された。 このフレームワークは、自律システムの安全かつ倫理的な運用をサポートする3つのレイヤで構成されている。

As software becomes increasingly pervasive in critical domains like autonomous driving, new challenges arise, necessitating rethinking of system engineering approaches. The gradual takeover of all critical driving functions by autonomous driving adds to the complexity of certifying these systems. Namely, certification procedures do not fully keep pace with the dynamism and unpredictability of future autonomous systems, and they may not fully guarantee compliance with the requirements imposed on these systems. In this paper, we have identified several issues with the current certification strategies that could pose serious safety risks. As an example, we highlight the inadequate reflection of software changes in constantly evolving systems and the lack of support for systems' cooperation necessary for managing coordinated movements. Other shortcomings include the narrow focus of awarded certification, neglecting aspects such as the ethical behavior of autonomous software systems. The contribution of this paper is threefold. First, we analyze the existing international standards used in certification processes in relation to the requirements derived from dynamic software ecosystems and autonomous systems themselves, and identify their shortcomings. Second, we outline six suggestions for rethinking certification to foster comprehensive solutions to the identified problems. Third, a conceptual Multi-Layer Trust Governance Framework is introduced to establish a robust governance structure for autonomous ecosystems and associated processes, including envisioned future certification schemes. The framework comprises three layers, which together support safe and ethical operation of autonomous systems.
翻訳日:2023-10-23 13:16:07 公開日:2023-08-20
# Androidアプリのシーン駆動探索とGUIモデリング

Scene-Driven Exploration and GUI Modeling for Android Apps ( http://arxiv.org/abs/2308.10228v1 )

ライセンス: Link先を確認
Xiangyu Zhang, Lingling Fan, Sen Chen, Yucheng Su, Boyuan Li(参考訳) 競争環境のため、モバイルアプリは通常、複雑な機能やuiページの多いプレッシャー下で生成される。 したがって、様々な役割がこれらのアプリを設計、理解、テスト、保守することが困難である。 atg、wtg、stgなどのアプリから抽出された遷移グラフは、遷移範囲が低く粒度が粗いため、ui探索による既存のグラフィカルユーザインタフェース(gui)モデリングの方法が制限される。 そこで本稿では,スマート探索,状態ファジング,間接起動戦略といった一連の新しい手法を統合し,guiシーンを動的に抽出するシーン駆動探索手法であるscenedroidを提案する。 GUIシーンをシーン遷移グラフ(SceneTG)として提示し、高いトランジションカバレッジを持つアプリのGUIをモデル化します。 粒度の細かい粒度。 既存のGUIモデリングツールと比較すると、SceneDroidは168.74%のトランジションペアと162.42%のシーン抽出で改善されている。 SceneDroidの有効性の評価とは別に、アプリ開発、リバースエンジニアリング、GUI回帰テストをサポートする基本的な機能として、SceneDroidの将来の可能性についても説明します。

Due to the competitive environment, mobile apps are usually produced under pressure with lots of complicated functionality and UI pages. Therefore, it is challenging for various roles to design, understand, test, and maintain these apps. The extracted transition graphs for apps such as ATG, WTG, and STG have a low transition coverage and coarse-grained granularity, which limits the existing methods of graphical user interface (GUI) modeling by UI exploration. To solve these problems, in this paper, we propose SceneDroid, a scene-driven exploration approach to extracting the GUI scenes dynamically by integrating a series of novel techniques including smart exploration, state fuzzing, and indirect launching strategies. We present the GUI scenes as a scene transition graph (SceneTG) to model the GUI of apps with high transition coverage and fine? grained granularity. Compared with the existing GUI modeling tools, SceneDroid has improved by 168.74% in the coverage of transition pairs and 162.42% in scene extraction. Apart from the effectiveness evaluation of SceneDroid, we also illustrate the future potential of SceneDroid as a fundamental capability to support app development, reverse engineering, and GUI regression testing.
翻訳日:2023-10-23 13:15:45 公開日:2023-08-20
# 外乱検出のためのQuantile-based Maximum Likelihood Training

Quantile-based Maximum Likelihood Training for Outlier Detection ( http://arxiv.org/abs/2310.06085v1 )

ライセンス: Link先を確認
Masoud Taghikhah, Nishant Kumar, Sini\v{s}a \v{S}egvi\'c, Abouzar Eslami, Stefan Gumhold(参考訳) 判別学習は、画像分類のための真のオブジェクトクラスを効果的に予測する。 しかし、これは多くの場合、自動走行やビデオ監視システムといったアプリケーションに重大な懸念を呈する、オフレーヤに対する偽陽性をもたらす。 この課題に対処する以前の試みは、実際のアウトレイアデータを使用したコントラスト学習や、自己教師型学習のためのアウトレイアの合成によるイメージ分類器の訓練であった。 さらに、画素空間における不整合の教師なし生成モデリングは、外乱検出に限られた成功を示してきた。 そこで本研究では,不規則分布を学習し,推論中の外れ値分離を改善するために,分位数に基づく最大度目標を提案する。 本手法は,事前学習した判別特徴に正規化フローを適合させ,評価したログ類似度に応じて外れ値を検出する。 実験評価は, 異常検出のための最先端の教師なし手法の性能を上回って, 提案手法の有効性を実証する。 結果はまた、最近の自己教師付きアプローチによる異常検出と比べても競争力がある。 私たちの研究は、医学診断やリモートセンシングといった領域において特に重要な、十分にサンプリングされた負のトレーニングデータへの依存を減らすことが可能です。

Discriminative learning effectively predicts true object class for image classification. However, it often results in false positives for outliers, posing critical concerns in applications like autonomous driving and video surveillance systems. Previous attempts to address this challenge involved training image classifiers through contrastive learning using actual outlier data or synthesizing outliers for self-supervised learning. Furthermore, unsupervised generative modeling of inliers in pixel space has shown limited success for outlier detection. In this work, we introduce a quantile-based maximum likelihood objective for learning the inlier distribution to improve the outlier separation during inference. Our approach fits a normalizing flow to pre-trained discriminative features and detects the outliers according to the evaluated log-likelihood. The experimental evaluation demonstrates the effectiveness of our method as it surpasses the performance of the state-of-the-art unsupervised methods for outlier detection. The results are also competitive compared with a recent self-supervised approach for outlier detection. Our work allows to reduce dependency on well-sampled negative training data, which is especially important for domains like medical diagnostics or remote sensing.
翻訳日:2023-10-23 03:56:02 公開日:2023-08-20
# 自由な対向協調フィルタリング

Adversarial Collaborative Filtering for Free ( http://arxiv.org/abs/2308.13541v1 )

ライセンス: Link先を確認
Huiyuan Chen, Xiaoting Li, Vivian Lai, Chin-Chia Michael Yeh, Yujie Fan, Yan Zheng, Mahashweta Das, Hao Yang(参考訳) コラボレーティブフィルタリング(cf)は、ユーザが関心のあるアイテムを発見するのに役立つ。 それでも、既存のCFメソッドはノイズの多いデータ問題に悩まされ、リコメンデーションの品質に悪影響を及ぼす。 この問題に対処するために、多くの先行研究では、ユーザ/イテムの表現を正規化するために、敵対学習を活用し、一般化性と堅牢性の両方を改善している。 これらの手法は、しばしば min-max 最適化フレームワークの下で逆摂動とモデルパラメータを学習する。 しかし、大きな欠点は2つある。 1) 既存手法は,摂動付加がモデル一般化性とロバスト性を改善する理由に関する理論的保証を欠いている。 2) min-max最適化の解決には時間を要する。 モデルパラメータの更新に加えて、各イテレーションでは摂動を更新するためにさらなる計算が必要であるため、業界規模のデータセットには拡張性がない。 本稿では,ベースオプティマイザに余分な計算コストを伴わずに対角訓練を行う,単純かつ効果的なSharpness-Aware Collaborative Filtering(SharpCF)を提案する。 この目的を達成するために、我々はまず既存の対向的協調フィルタリングを再考し、最近のシャープネス認識最小化との関係について論じる。 この分析は、敵の訓練が、一様に損失値の低い最適モデルパラメータの近傍にあるモデルパラメータを実際に求めており、結果としてより一般化可能であることを示している。 計算オーバーヘッドを削減するため、sharpcfは現在の重みと過去の重みのアライメントを測定するために新しい軌道損失を導入する。 実世界のデータセットに対する実験結果から, SharpCFは, 対向学習と比較して計算コストをほぼゼロにすることで, 優れた性能を達成できることが示された。

Collaborative Filtering (CF) has been successfully used to help users discover the items of interest. Nevertheless, existing CF methods suffer from noisy data issue, which negatively impacts the quality of recommendation. To tackle this problem, many prior studies leverage adversarial learning to regularize the representations of users/items, which improves both generalizability and robustness. Those methods often learn adversarial perturbations and model parameters under min-max optimization framework. However, there still have two major drawbacks: 1) Existing methods lack theoretical guarantees of why adding perturbations improve the model generalizability and robustness; 2) Solving min-max optimization is time-consuming. In addition to updating the model parameters, each iteration requires additional computations to update the perturbations, making them not scalable for industry-scale datasets. In this paper, we present Sharpness-aware Collaborative Filtering (SharpCF), a simple yet effective method that conducts adversarial training without extra computational cost over the base optimizer. To achieve this goal, we first revisit the existing adversarial collaborative filtering and discuss its connection with recent Sharpness-aware Minimization. This analysis shows that adversarial training actually seeks model parameters that lie in neighborhoods around the optimal model parameters having uniformly low loss values, resulting in better generalizability. To reduce the computational overhead, SharpCF introduces a novel trajectory loss to measure the alignment between current weights and past weights. Experimental results on real-world datasets demonstrate that our SharpCF achieves superior performance with almost zero additional computational cost comparing to adversarial training.
翻訳日:2023-09-03 21:45:01 公開日:2023-08-20
# 大きなトランスフォーマーは脳波を学習する

Large Transformers are Better EEG Learners ( http://arxiv.org/abs/2308.11654v1 )

ライセンス: Link先を確認
Bingxin Wang, Xiaowen Fu, Yuan Lan, Luchan Zhang, and Yang Xiang(参考訳) 事前訓練された大型トランスフォーマーモデルは、自然言語処理とコンピュータビジョンの分野で顕著な性能を達成した。 脳波(EEG)データの大きさは、テキストや画像データよりもはるかに小さいため、GPT-4 100Tほどの大きさの脳波から事前学習したトランスフォーマーモデルでは、このアーキテクチャの可能性を完全に解き放つことは困難である。 本稿では,画像やテキストから事前学習したトランスフォーマーを,脳波に基づく予測タスクで直接微調整できることを示す。 私たちは、脳波データを画像だけでなくテキスト形式に変換するためのプラグアンドプレイアダプタであるadaceを、事前訓練されたビジョンと言語トランスフォーマーに設計しました。 提案したAdaCEモジュールは,各種脳波予測タスクにおける最先端性能を達成しつつ,事前学習したトランスフォーマーの微調整に極めて有効である。 例えば、事前訓練されたSwin-Transformer上のAdaCEは、人間の活動認識の脳波復号タスク(UCI HAR)において99.6%、絶対的な9.2%の改善を達成した。 さらに,提案したAdaCEを大規模な事前学習モデルの微調整に適用することにより,脳波に基づく予測タスクの性能が向上し,さらに大きなトランスフォーマーに対するアダプタの可能性を示す。 プラグアンドプレイのAdaCEモジュールは、一般的なトレーニング済みトランスフォーマーのほとんどを、EEGデータや使用しているモデルに限らず、複数のチャンネルを持つ他の多くの時系列データで微調整することができる。 私たちのコードはhttps://github.com/wangbxj1234/adaceで利用可能です。

Pre-trained large transformer models have achieved remarkable performance in the fields of natural language processing and computer vision. Since the magnitude of available labeled electroencephalogram (EEG) data is much lower than that of text and image data, it is difficult for transformer models pre-trained from EEG to be developed as large as GPT-4 100T to fully unleash the potential of this architecture. In this paper, we show that transformers pre-trained from images as well as text can be directly fine-tuned for EEG-based prediction tasks. We design AdaCE, plug-and-play Adapters for Converting EEG data into image as well as text forms, to fine-tune pre-trained vision and language transformers. The proposed AdaCE module is highly effective for fine-tuning pre-trained transformers while achieving state-of-the-art performance on diverse EEG-based prediction tasks. For example, AdaCE on the pre-trained Swin-Transformer achieves 99.6%, an absolute improvement of 9.2%, on the EEG-decoding task of human activity recognition (UCI HAR). Furthermore, we empirically show that applying the proposed AdaCE to fine-tune larger pre-trained models can achieve better performance on EEG-based predicting tasks, indicating the potential of our adapters for even larger transformers. The plug-and-play AdaCE module can be applied to fine-tuning most of the popular pre-trained transformers on many other time-series data with multiple channels, not limited to EEG data and the models we use. Our code will be available at https://github.com/wangbxj1234/AdaCE.
翻訳日:2023-08-24 17:27:32 公開日:2023-08-20
# 連続スペクトル定常状態の正規化に関する定理

A theorem for the normalization of continuous spectrum stationary states ( http://arxiv.org/abs/2308.11653v1 )

ライセンス: Link先を確認
G. K\"albermann (Soil and Water dept.(Emeritus), Faculty of Agriculture, Rehovot, Israel)(参考訳) ここで開発された単純な解析式は、1次元シュリンガー方程式の連続スペクトル定常状態の正規化の計算を大幅に単純化する。

A simple analytic formula developed here greatly simplifies the calculation of the normalization of continuous spectrum stationary states of the one-dimensional Schr\"odinger equation.
翻訳日:2023-08-24 17:27:00 公開日:2023-08-20
# ビジュアル予測符号化による仮想環境の自動マッピング

Automated mapping of virtual environments with visual predictive coding ( http://arxiv.org/abs/2308.10913v1 )

ライセンス: Link先を確認
James Gornet and Matthew Thomson(参考訳) 人間は、明示的な座標や距離測定システムにアクセスせずに、感覚入力から直接環境の内部認知マップを構築する。 SLAMのような機械学習アルゴリズムは、視覚的特徴を識別し空間マップを構築するために特殊な視覚的推論手法を使用しているが、脳内の認知マップの一般的な性質は、聴覚、触覚、言語入力に一般化可能な統合マッピングアルゴリズム戦略を提案する。 本稿では,予測符号化が,知覚データを用いた空間マップ構築のための自然で汎用的なニューラルネットワークアルゴリズムを提供することを示す。 本稿では,自律型畳み込みニューラルネットワークを用いて視覚的予測コーディングを行いながら,エージェントが仮想環境をナビゲートするフレームワークを提案する。 次の画像予測タスクを学習しながら、エージェントは、距離を定量的に反映する環境の内部表現を自動的に構築する。 この内部マップにより、エージェントは視覚情報のみを用いてランドマークに対して位置を特定でき、この予測符号化ネットワークは、各潜在空間ユニットが環境内の局所的に重なり合う近傍をデライン化するベクトルナビゲーションをサポートする環境のベクトル化符号化を生成する。 広義には,聴覚,感覚運動,言語入力のマッピングに自然に拡張可能な認知地図を構築するための統一的なアルゴリズムフレームワークとして,予測符号化を導入する。

Humans construct internal cognitive maps of their environment directly from sensory inputs without access to a system of explicit coordinates or distance measurements. While machine learning algorithms like SLAM utilize specialized visual inference procedures to identify visual features and construct spatial maps from visual and odometry data, the general nature of cognitive maps in the brain suggests a unified mapping algorithmic strategy that can generalize to auditory, tactile, and linguistic inputs. Here, we demonstrate that predictive coding provides a natural and versatile neural network algorithm for constructing spatial maps using sensory data. We introduce a framework in which an agent navigates a virtual environment while engaging in visual predictive coding using a self-attention-equipped convolutional neural network. While learning a next image prediction task, the agent automatically constructs an internal representation of the environment that quantitatively reflects distances. The internal map enables the agent to pinpoint its location relative to landmarks using only visual information.The predictive coding network generates a vectorized encoding of the environment that supports vector navigation where individual latent space units delineate localized, overlapping neighborhoods in the environment. Broadly, our work introduces predictive coding as a unified algorithmic framework for constructing cognitive maps that can naturally extend to the mapping of auditory, sensorimotor, and linguistic inputs.
翻訳日:2023-08-23 20:20:05 公開日:2023-08-20
# 出現を説明する

Explaining Emergence ( http://arxiv.org/abs/2308.10912v1 )

ライセンス: Link先を確認
Herv\'e Zwirn(参考訳) 出現は様々な分野で妊娠している。 現象が意外に現れるという事実であり、一見するとその出現を予測できないように思われる。 そのため、出現は観察者に対する主観的な性質であるとしばしば言われてきた。 非常に単純で決定論的な規則を持つ数学系の中には創発的な振る舞いを示すものもある。 これらのシステムの研究は、その主題に新しい光を与え、それらをシミュレートすることなく完全に決定論的であるにもかかわらず予測できない行動を扱う新しい概念、計算既約性(compute irreducibility)を定義することができる。 計算的既約性は、観測者の言及を必要としない客観的視点から創発的現象を理解するための鍵となる。

Emergence is a pregnant property in various fields. It is the fact for a phenomenon to appear surprisingly and to be such that it seems at first sight that it is not possible to predict its apparition. That is the reason why it has often been said that emergence is a subjective property relative to the observer. Some mathematical systems having very simple and deterministic rules nevertheless show emergent behavior. Studying these systems shed a new light on the subject and allows to define a new concept, computational irreducibility, which deals with behaviors that even though they are totally deterministic cannot be predicted without simulating them. Computational irreducibility is then a key for understanding emergent phenomena from an objective point of view that does not need the mention of any observer.
翻訳日:2023-08-23 20:19:42 公開日:2023-08-20
# 不完全多モードMRI再構成のためのフェデレート擬似モダリティ生成

Federated Pseudo Modality Generation for Incomplete Multi-Modal MRI Reconstruction ( http://arxiv.org/abs/2308.10910v1 )

ライセンス: Link先を確認
Yunlu Yan, Chun-Mei Feng, Yuexiang Li, Rick Siow Mong Goh, Lei Zhu(参考訳) マルチモーダル学習はMRI再建に広く用いられているが、実際の臨床シナリオでは取得が困難であるペア化されたマルチモーダルデータに依存している。 特に連合環境では、いくつかの医療機関は単一モーダルデータしか持たず、モダリティの欠落問題と呼ばれた。 したがって、そのような状況下で標準のフェデレーション学習フレームワークをデプロイすることは不可能である。 本稿では,フェデレーション型マルチモーダルMRI再構成におけるモダリティの欠如に対処するための,コミュニケーション効率の高い新しいフェデレーション学習フレームワークであるFed-PMGを提案する。 具体的には、周波数空間における振幅スペクトルの分布情報を共有することにより、各シングルモーダルクライアントの欠落モダリティを回復する擬似モダリティ生成機構を利用する。 しかし、元の振幅スペクトルを共有するステップは、通信コストを増大させる。 通信コストを低減すべく,振幅スペクトルのセットを有限クラスタセンタロイドに投影し,それらをクライアント間で共有するクラスタリング方式を提案する。 このような精巧な設計によって、我々のアプローチは、許容できる通信コスト内で、欠けているモダリティを効果的に完了することができる。 広範な実験により,提案手法が理想のシナリオ,すなわちすべてのクライアントが完全なモダリティを持つ場合と同等の性能を達成できることが証明された。 ソースコードはリリースされます。

While multi-modal learning has been widely used for MRI reconstruction, it relies on paired multi-modal data which is difficult to acquire in real clinical scenarios. Especially in the federated setting, the common situation is that several medical institutions only have single-modal data, termed the modality missing issue. Therefore, it is infeasible to deploy a standard federated learning framework in such conditions. In this paper, we propose a novel communication-efficient federated learning framework, namely Fed-PMG, to address the missing modality challenge in federated multi-modal MRI reconstruction. Specifically, we utilize a pseudo modality generation mechanism to recover the missing modality for each single-modal client by sharing the distribution information of the amplitude spectrum in frequency space. However, the step of sharing the original amplitude spectrum leads to heavy communication costs. To reduce the communication cost, we introduce a clustering scheme to project the set of amplitude spectrum into finite cluster centroids, and share them among the clients. With such an elaborate design, our approach can effectively complete the missing modality within an acceptable communication cost. Extensive experiments demonstrate that our proposed method can attain similar performance with the ideal scenario, i.e., all clients have the full set of modalities. The source code will be released.
翻訳日:2023-08-23 20:19:31 公開日:2023-08-20
# legalbench: 大きな言語モデルで法的推論を測定するための共同開発したベンチマーク

LegalBench: A Collaboratively Built Benchmark for Measuring Legal Reasoning in Large Language Models ( http://arxiv.org/abs/2308.11462v1 )

ライセンス: Link先を確認
Neel Guha, Julian Nyarko, Daniel E. Ho, Christopher R\'e, Adam Chilton, Aditya Narayana, Alex Chohlas-Wood, Austin Peters, Brandon Waldon, Daniel N. Rockmore, Diego Zambrano, Dmitry Talisman, Enam Hoque, Faiz Surani, Frank Fagan, Galit Sarfaty, Gregory M. Dickinson, Haggai Porat, Jason Hegland, Jessica Wu, Joe Nudell, Joel Niklaus, John Nay, Jonathan H. Choi, Kevin Tobia, Margaret Hagan, Megan Ma, Michael Livermore, Nikon Rasumov-Rahe, Nils Holzenberger, Noam Kolt, Peter Henderson, Sean Rehaag, Sharad Goel, Shang Gao, Spencer Williams, Sunny Gandhi, Tom Zur, Varun Iyer, and Zehua Li(参考訳) 大規模言語モデル(LLMs)の出現と法的なコミュニティによる採用は、LLMがどのような法的理由付けを行うことができるのかという疑問を引き起こしている。 この問題をより深く研究するために,6種類の法的推論をカバーする162のタスクからなる共同構築された法的推論ベンチマークであるLegalBenchを提案する。 legalbenchは、法務専門家が設計し、手作りのタスクを収集する、学際的なプロセスを通じて構築されました。 これらの主題の専門家は建設において主導的な役割を担っていたため、実質的に有用な法的推論能力を測定するか、弁護士が興味深いと思う推論スキルを測定するかのどちらかである。 法律におけるLLMに関する学際的な会話を可能にするために、法的な推論を記述するための一般的な法的枠組みが、その多くの形態を区別する)LegalBenchタスクとどのように対応するかを示す。 本稿では legalbench について述べるとともに,オープンソースおよび商用の llm 20 について実証的な評価を行い, legalbench が実現可能な研究形態について述べる。

The advent of large language models (LLMs) and their adoption by the legal community has given rise to the question: what types of legal reasoning can LLMs perform? To enable greater study of this question, we present LegalBench: a collaboratively constructed legal reasoning benchmark consisting of 162 tasks covering six different types of legal reasoning. LegalBench was built through an interdisciplinary process, in which we collected tasks designed and hand-crafted by legal professionals. Because these subject matter experts took a leading role in construction, tasks either measure legal reasoning capabilities that are practically useful, or measure reasoning skills that lawyers find interesting. To enable cross-disciplinary conversations about LLMs in the law, we additionally show how popular legal frameworks for describing legal reasoning -- which distinguish between its many forms -- correspond to LegalBench tasks, thus giving lawyers and LLM developers a common vocabulary. This paper describes LegalBench, presents an empirical evaluation of 20 open-source and commercial LLMs, and illustrates the types of research explorations LegalBench enables.
翻訳日:2023-08-23 17:48:23 公開日:2023-08-20
# データ分類のためのSVM法に代わる方法

An alternative to SVM Method for Data Classification ( http://arxiv.org/abs/2308.11579v1 )

ライセンス: Link先を確認
Lakhdar Remaki(参考訳) サポートベクトルマシン (SVM) は、データ分類のための一般的なカーネル手法であり、多種多様な実用用途でその効率を実証している。 しかし、この手法は、時間処理、高次元の場合の最適化プロセスの失敗のリスク、多クラスへの一般化、不均衡クラス、動的分類などの弱点に悩まされている。 本稿では,上記の欠点を敏感に改善しつつ,同様の性能を持つ代替手法を提案する。 新しい方法は、マップされた元のクラスを含む最適な部分空間への最小距離に基づいている。

Support vector machine (SVM), is a popular kernel method for data classification that demonstrated its efficiency for a large range of practical applications. The method suffers, however, from some weaknesses including; time processing, risk of failure of the optimization process for high dimension cases, generalization to multi-classes, unbalanced classes, and dynamic classification. In this paper an alternative method is proposed having a similar performance, with a sensitive improvement of the aforementioned shortcomings. The new method is based on a minimum distance to optimal subspaces containing the mapped original classes.
翻訳日:2023-08-23 17:19:31 公開日:2023-08-20
# 量子力学から見た量子化に基づく最適化

Quantization-based Optimization with Perspective of Quantum Mechanics ( http://arxiv.org/abs/2308.11594v1 )

ライセンス: Link先を確認
Jinwuk Seok, and Changsik Cho(参考訳) 熱力学に基づく統計的・確率的解析は、確率的大域的最適化の主要な分析フレームワークである。 近年,グローバル最適化のための量子アニーリングや量子トンネリングアルゴリズムが登場し,グローバル最適化アルゴリズムのための新たな研究フレームワークが求められている。 本稿では、量子力学のどの性質が大域的最適化を可能にするかを明らかにするために、Schr\"odinger方程式に基づく量子化に基づく最適化の解析を行う。 量子化に基づく最適化におけるschr\"odinger方程式によるトンネル効果は,局所最小値の回避を可能にする。 さらに, このトンネル効果が, 量子力学に基づく大域的最適化に含まれるのと同じ性質であることを確認した。 標準マルチモーダルベンチマーク関数を用いた実験は,提案手法が有効であることを示す。

Statistical and stochastic analysis based on thermodynamics has been the main analysis framework for stochastic global optimization. Recently, appearing quantum annealing or quantum tunneling algorithm for global optimization, we require a new researching framework for global optimization algorithms. In this paper, we provide the analysis for quantization-based optimization based on the Schr\"odinger equation to reveal what property in quantum mechanics enables global optimization. We present that the tunneling effect derived by the Schr\"odinger equation in quantization-based optimization enables to escape of a local minimum. Additionally, we confirm that this tunneling effect is the same property included in quantum mechanics-based global optimization. Experiments with standard multi-modal benchmark functions represent that the proposed analysis is valid.
翻訳日:2023-08-23 17:08:20 公開日:2023-08-20
# DiffPrep: タブラルデータによる学習のためのデータ前処理パイプライン探索

DiffPrep: Differentiable Data Preprocessing Pipeline Search for Learning over Tabular Data ( http://arxiv.org/abs/2308.10915v1 )

ライセンス: Link先を確認
Peng Li, Zhiyi Chen, Xu Chu, Kexin Rong(参考訳) データ前処理は、生データを下流MLモデルのより有用なフォーマットに変換する機械学習プロセスにおける重要なステップである。 しかし、コストと時間がかかり、しばしばドメインエキスパートの専門知識を必要とします。 既存の機械学習(AutoML)フレームワークは、データ前処理を自動化する。 しかしながら、パフォーマンス向上の可能性を制限するデータプリプロセッシングパイプラインの制限された検索スペースを使用することが多く、mlモデルを複数回トレーニングする必要があるため、遅すぎることが多い。 本稿では,与えられた表型データセットのデータプリプロセッシングパイプラインと,mlモデルの性能を最大化する微分可能なmlモデルを自動的にかつ効率的に探索する手法であるdiffprepを提案する。 我々は、二段階最適化問題として、データ前処理パイプライン探索の問題を定式化する。 この問題を効率的に解決するために、離散的な非微分探索空間を連続的かつ微分可能な空間に変換して緩和し、MLモデルのみをトレーニングすることで勾配勾配を用いたパイプライン探索を行う。 実験の結果、diffprepは18個の実世界のデータセットのうち15個で最高のテスト精度を達成し、モデルのテスト精度を最大6.6ポイント向上させた。

Data preprocessing is a crucial step in the machine learning process that transforms raw data into a more usable format for downstream ML models. However, it can be costly and time-consuming, often requiring the expertise of domain experts. Existing automated machine learning (AutoML) frameworks claim to automate data preprocessing. However, they often use a restricted search space of data preprocessing pipelines which limits the potential performance gains, and they are often too slow as they require training the ML model multiple times. In this paper, we propose DiffPrep, a method that can automatically and efficiently search for a data preprocessing pipeline for a given tabular dataset and a differentiable ML model such that the performance of the ML model is maximized. We formalize the problem of data preprocessing pipeline search as a bi-level optimization problem. To solve this problem efficiently, we transform and relax the discrete, non-differential search space into a continuous and differentiable one, which allows us to perform the pipeline search using gradient descent with training the ML model only once. Our experiments show that DiffPrep achieves the best test accuracy on 15 out of the 18 real-world datasets evaluated and improves the model's test accuracy by up to 6.6 percentage points.
翻訳日:2023-08-23 14:24:33 公開日:2023-08-20
# 3年にわたるNASAのPOWERの統計分析に基づくガーナの主要都市における地球温暖化

Global Warming In Ghana's Major Cities Based on Statistical Analysis of NASA's POWER Over 3-Decades ( http://arxiv.org/abs/2308.10909v1 )

ライセンス: Link先を確認
Joshua Attih(参考訳) 地球温暖化が世界の様々な地域で高温に与える影響が懸念されている。 本研究では,異なる気候帯を示す4大ガーナ都市の長期気温変動について検討した。 NASAの地球規模のエネルギー資源予測(POWER)データを用いて、局所的な温暖化とその影響を評価する統計分析を行った。 線形回帰傾向解析とeXtreme Gradient Boosting (XGBoost)機械学習による温度変動予測 RSLabプラットフォームから生成されたランドサーフェス(LST)プロファイルマップは精度を高める。 その結果,特に工業化アクラにおける温暖化傾向が明らかになった。 人口統計学的要因は重要ではない。 XGBoostモデルの低根平均角誤差(RMSE)スコアは、温度パターンの捕捉に有効であることを示す。 倭は予想外平均気温が高い。 2023年半ばの平均気温は、Acra 27.86{\deg}C、Kumasi 27.15{\deg}C、Kete-Krachi 29.39{\deg}C、Wa 30.76{\deg}Cである。 これらの知見は、政策立案者や地域社会の温暖化に関する理解を改善し、気候変動戦略を支援する。

Global warming's impact on high temperatures in various parts of the world has raised concerns. This study investigates long-term temperature trends in four major Ghanaian cities representing distinct climatic zones. Using NASA's Prediction of Worldwide Energy Resource (POWER) data, statistical analyses assess local climate warming and its implications. Linear regression trend analysis and eXtreme Gradient Boosting (XGBoost) machine learning predict temperature variations. Land Surface Temperature (LST) profile maps generated from the RSLab platform enhance accuracy. Results reveal local warming trends, particularly in industrialized Accra. Demographic factors aren't significant. XGBoost model's low Root Mean Square Error (RMSE) scores demonstrate effectiveness in capturing temperature patterns. Wa unexpectedly has the highest mean temperature. Estimated mean temperatures for mid-2023 are: Accra 27.86{\deg}C, Kumasi 27.15{\deg}C, Kete-Krachi 29.39{\deg}C, and Wa 30.76{\deg}C. These findings improve understanding of local climate warming for policymakers and communities, aiding climate change strategies.
翻訳日:2023-08-23 14:24:13 公開日:2023-08-20
# XLSR-53を用いたインドネシア語自動音声認識

Indonesian Automatic Speech Recognition with XLSR-53 ( http://arxiv.org/abs/2308.11589v1 )

ライセンス: Link先を確認
Panji Arisaputra, Amalia Zahra(参考訳) 本研究では,XLSR-53事前学習モデルを用いたインドネシア語自動音声認識(ASR)の開発に焦点を当てた。 このXLSR-53事前訓練モデルは、競争力のあるワードエラー率(WER)を達成するのに必要な英語以外の言語でのトレーニングデータの量を大幅に削減する。 本研究で使用されるデータ総量は,(1)TITML-IDN 14時間31分,(2)Magic Data 3時間33分,(3)Common Voice 6時間14分1秒である。 20%のWERで、この研究で構築されたモデルは、Common Voiceデータセット分割テストを使用して同様のモデルと競合することができる。 WERは言語モデルを使用して約8%削減でき、結果としてWERは20%から12%に減少する。 このようにして,本研究の結果は,少ないデータ量でより優れたインドネシアのASRの作成に寄与する以前の研究の完成に成功している。

This study focuses on the development of Indonesian Automatic Speech Recognition (ASR) using the XLSR-53 pre-trained model, the XLSR stands for cross-lingual speech representations. The use of this XLSR-53 pre-trained model is to significantly reduce the amount of training data in non-English languages required to achieve a competitive Word Error Rate (WER). The total amount of data used in this study is 24 hours, 18 minutes, and 1 second: (1) TITML-IDN 14 hours and 31 minutes; (2) Magic Data 3 hours and 33 minutes; and (3) Common Voice 6 hours, 14 minutes, and 1 second. With a WER of 20%, the model built in this study can compete with similar models using the Common Voice dataset split test. WER can be decreased by around 8% using a language model, resulted in WER from 20% to 12%. Thus, the results of this study have succeeded in perfecting previous research in contributing to the creation of a better Indonesian ASR with a smaller amount of data.
翻訳日:2023-08-23 13:05:22 公開日:2023-08-20
# 連続評価を伴う複数秘密・オンライン線形計画問題における対数回帰

Logarithmic Regret in Multisecretary and Online Linear Programming Problems with Continuous Valuations ( http://arxiv.org/abs/1912.08917v5 )

ライセンス: Link先を確認
Robert L. Bray(参考訳) 私は、$n$の顧客が$n$の期間に順次到着する一般的な収益管理問題を研究します。 期間を満たせば、ユーティリティ$ u_{t} \in \mathbb{r}_{+} $ となり、在庫持ち分を$ a_{t} \in \mathbb{r}_{+}^{m} $ に減らす。 顧客ベクトル $ (u_{t}, a_{t}')' は i.i.d. で、$ u_{t} $ は有限平均連続分布から、$ a_{t} $ は有界離散分布または連続分布から引き出される。 私はこのシステムの後悔を研究しています。それは、あなたがすぐに決定する必要がない場合に得られる追加のユーティリティです。 初期在庫が$n$で線形にスケールした場合、期待される後悔は$ \Theta(\log(n)) $ as $ n \rightarrow \infty $である。 この$ \Theta(\log(n)) $ regret rate を達成するためのシンプルなポリシーを提供します。 最後に、私はこの結果をarlotto氏とgurich氏(2019)のマルチセクタリー問題に拡張します。

I study a general revenue management problem in which $ n $ customers arrive sequentially over $ n $ periods, and you must dynamically decide which to satisfy. Satisfying the period-$ t $ customer yields utility $ u_{t} \in \mathbb{R}_{+} $ and decreases your inventory holdings by $ A_{t} \in \mathbb{R}_{+}^{M} $. The customer vectors, $ (u_{t}, A_{t}')' $, are i.i.d., with $ u_{t} $ drawn from a finite-mean continuous distribution and $ A_{t} $ drawn from a bounded discrete or continuous distribution. I study this system's regret, which is the additional utility you could get if you didn't have to make decisions on the fly. I show that if your initial inventory endowment scales linearly with $ n $ then your expected regret is $ \Theta(\log(n)) $ as $ n \rightarrow \infty $. I provide a simple policy that achieves this $ \Theta(\log(n)) $ regret rate. Finally, I extend this result to Arlotto and Gurich's (2019) multisecretary problem with uniformly distributed secretary valuations.
翻訳日:2023-08-23 03:41:55 公開日:2023-08-20
# DeepTransport:交通条件予測のための時空間依存学習

DeepTransport: Learning Spatial-Temporal Dependency for Traffic Condition Forecasting ( http://arxiv.org/abs/1709.09585v4 )

ライセンス: Link先を確認
Xingyi Cheng, Ruiqing Zhang, Jie Zhou, Wei Xu(参考訳) 近年,交通渋滞の緩和策として交通状況の予測が検討されている。 いくつかの先駆的なアプローチは、目標の場所とその隣接地域の交通観測に基づいて提案されているが、鉱業道路のトポロジーの欠如により、ある程度の精度が得られた。 効果減衰問題に対処するために,周辺地域(隣接範囲よりも広い)の交通量を考慮することを提案する。 本稿では,CNN(Convolutional Neural Networks)とRNN(Recurrent Neural Networks)を用いて,交通ネットワークトポロジ内の時空間トラフィック情報を取得するDeepTransportというエンドツーエンドフレームワークを提案する。 また,空間情報と時間情報とを整合させるために注意機構を導入する。 さらに,5分間の解像度で実世界の大規模交通条件データセットを構築し,リリースした。 このデータセットを用いた実験により,時間領域と空間領域の複雑な関係を捉えることができる。 従来の統計手法と最先端の深層学習法を大きく上回っている。

Predicting traffic conditions has been recently explored as a way to relieve traffic congestion. Several pioneering approaches have been proposed based on traffic observations of the target location as well as its adjacent regions, but they obtain somewhat limited accuracy due to a lack of mining road topology. To address the effect attenuation problem, we suggest taking into account the traffic of surrounding locations(wider than the adjacent range). We propose an end-to-end framework called DeepTransport, in which Convolutional Neural Networks (CNN) and Recurrent Neural Networks (RNN) are utilized to obtain spatial-temporal traffic information within a transport network topology. In addition, an attention mechanism is introduced to align spatial and temporal information. Moreover, we constructed and released a real-world large traffic condition dataset with a 5-minute resolution. Our experiments on this dataset demonstrate our method captures the complex relationship in the temporal and spatial domains. It significantly outperforms traditional statistical methods and a state-of-the-art deep learning method.
翻訳日:2023-08-23 03:41:08 公開日:2023-08-20
# 仮想試着用布型インタラクティブトランス

Cloth Interactive Transformer for Virtual Try-On ( http://arxiv.org/abs/2104.05519v2 )

ライセンス: Link先を確認
Bin Ren, Hao Tang, Fanyang Meng, Runwei Ding, Philip H.S. Torr, Nicu Sebe(参考訳) 2D画像ベースの仮想試行は、その巨大な商用価値のために、マルチメディアやコンピュータビジョンの分野からの関心が高まっている。 それにもかかわらず、既存のイメージベース仮想試着アプローチは、相互相関を考慮せずに、個人同一性表現とショップ内衣服を直接組み合わせている。 さらに、これらの手法は入力画素間の長距離相関を捉えるのが簡単ではない純粋畳み込みニューラルネットワーク(CNN)アーキテクチャ上で一般的に確立されている。 その結果、一般的に一貫性のない結果が得られる。 本稿では,これらの問題を緩和するために,仮想試行作業のための新しい2段階対話型布布トランス (CIT) 法を提案する。 第1段階では, 衣服非依存者情報と店舗内布情報との長距離相関を正確に把握するために, citマッチングブロックを設計する。 その結果、歪んだ洋服の外観がより自然に見えてくる。 第2段階では,人物表現のグローバルな相互相互依存関係を確立するためのCIT推論ブロック,整形衣料品,およびそれに対応する整形布マスクを作成した。 相互依存に基づく実証結果は、最終的な試行結果がより現実的であることを示す。 パブリックなファッションデータセットにおける実質的な経験的結果は、提案されたCITが競争力のあるバーチャルトライオンパフォーマンスを達成したことを示している。

The 2D image-based virtual try-on has aroused increased interest from the multimedia and computer vision fields due to its enormous commercial value. Nevertheless, most existing image-based virtual try-on approaches directly combine the person-identity representation and the in-shop clothing items without taking their mutual correlations into consideration. Moreover, these methods are commonly established on pure convolutional neural networks (CNNs) architectures which are not simple to capture the long-range correlations among the input pixels. As a result, it generally results in inconsistent results. To alleviate these issues, in this paper, we propose a novel two-stage cloth interactive transformer (CIT) method for the virtual try-on task. During the first stage, we design a CIT matching block, aiming to precisely capture the long-range correlations between the cloth-agnostic person information and the in-shop cloth information. Consequently, it makes the warped in-shop clothing items look more natural in appearance. In the second stage, we put forth a CIT reasoning block for establishing global mutual interactive dependencies among person representation, the warped clothing item, and the corresponding warped cloth mask. The empirical results, based on mutual dependencies, demonstrate that the final try-on results are more realistic. Substantial empirical results on a public fashion dataset illustrate that the suggested CIT attains competitive virtual try-on performance.
翻訳日:2023-08-23 03:35:00 公開日:2023-08-20
# UAVリモートセンシングにおける深層学習の展望

A Review on Deep Learning in UAV Remote Sensing ( http://arxiv.org/abs/2101.10861v4 )

ライセンス: Link先を確認
Lucas Prado Osco, Jos\'e Marcato Junior, Ana Paula Marques Ramos, L\'ucio Andr\'e de Castro Jorge, Sarah Narges Fatholahi, Jonathan de Andrade Silva, Edson Takashi Matsubara, Hemerson Pistori, Wesley Nunes Gon\c{c}alves, Jonathan Li(参考訳) Deep Neural Networks(DNN)は、印象的な能力でデータから表現を学び、画像、時系列、自然言語、オーディオ、ビデオなどの処理に重要なブレークスルーをもたらした。 リモートセンシング分野では,DNNアルゴリズムの応用に関する調査と文献の改訂が,そのサブフィールドで生成された情報の量を要約するために行われている。 近年,無人航空機(UAV)の応用が空中センシング研究を支配している。 しかし,「深層学習」と「UAVリモートセンシング」を併用した文献改訂はまだ行われていない。 本研究の動機は,UAV画像に適用されたディープラーニング(DL)の基礎を包括的にレビューすることであった。 本稿では,UAV取得データを用いた最近の応用における分類・回帰手法について述べる。 そのために、国際科学雑誌データベースに掲載された合計232の論文が調査された。 得られた資料を収集し, 応用, センサ, 技術に関する特性評価を行った。 本稿では,有望な結果をDLが提示し,UAV画像データに関連するタスクを処理できる可能性について述べる。 最後に,UAVリモートセンシング分野における顕著なDLパスについて解説し,今後の展望を提案する。 我々のリビジョンは、リモートセンシングの様々なサブフィールドにおけるDNNアルゴリズムによるUAVベースの画像応用の最先端を紹介、解説、要約し、環境、都市、農業の文脈でグループ化するためのフレンドリーなアプローチで構成されている。

Deep Neural Networks (DNNs) learn representation from data with an impressive capability, and brought important breakthroughs for processing images, time-series, natural language, audio, video, and many others. In the remote sensing field, surveys and literature revisions specifically involving DNNs algorithms' applications have been conducted in an attempt to summarize the amount of information produced in its subfields. Recently, Unmanned Aerial Vehicles (UAV) based applications have dominated aerial sensing research. However, a literature revision that combines both "deep learning" and "UAV remote sensing" thematics has not yet been conducted. The motivation for our work was to present a comprehensive review of the fundamentals of Deep Learning (DL) applied in UAV-based imagery. We focused mainly on describing classification and regression techniques used in recent applications with UAV-acquired data. For that, a total of 232 papers published in international scientific journal databases was examined. We gathered the published material and evaluated their characteristics regarding application, sensor, and technique used. We relate how DL presents promising results and has the potential for processing tasks associated with UAV-based image data. Lastly, we project future perspectives, commentating on prominent DL paths to be explored in the UAV remote sensing field. Our revision consists of a friendly-approach to introduce, commentate, and summarize the state-of-the-art in UAV-based image applications with DNNs algorithms in diverse subfields of remote sensing, grouping it in the environmental, urban, and agricultural contexts.
翻訳日:2023-08-23 03:34:02 公開日:2023-08-20
# 潜在空間操作を用いた軽度認知障害からアルツハイマー病への転換の検討

Investigating Conversion from Mild Cognitive Impairment to Alzheimer's Disease using Latent Space Manipulation ( http://arxiv.org/abs/2111.08794v2 )

ライセンス: Link先を確認
Deniz Sezin Ayvaz and Inci M. Baytas(参考訳) アルツハイマー病は世界中で何百万もの生命に影響を及ぼす認知症の最も一般的な原因である。 アルツハイマー病の根本原因とリスク要因を調べることは、その進行を防ぐために不可欠である。 軽度認知障害(MCI)はアルツハイマー病の中間段階と考えられている。 MCIからアルツハイマー病への転換の早期予測は、進行を減速させ適切な治療法を開発するために必要な予防措置をとることが重要である。 本研究では,mciからアルツハイマー病への変換の識別子である変数を発見するための深層学習フレームワークを提案する。 特に、MCIおよびアルツハイマー病患者で訓練された変異型オートエンコーダネットワークの潜時空間を操作し、MCIからアルツハイマー病への転換につながる重要な属性を取得し、それらの振る舞いを解読する。 生成型デコーダとアルツハイマー病の診断に繋がる寸法を利用して、データセット中のMCI患者から合成認知症患者を生成する。 実験の結果,最も広く用いられているアルツハイマー病の神経画像データセットの1つについて,有望な定量的および質的な結果が得られた。

Alzheimer's disease is the most common cause of dementia that affects millions of lives worldwide. Investigating the underlying causes and risk factors of Alzheimer's disease is essential to prevent its progression. Mild Cognitive Impairment (MCI) is considered an intermediate stage before Alzheimer's disease. Early prediction of the conversion from the MCI to Alzheimer's is crucial to take necessary precautions for decelerating the progression and developing suitable treatments. In this study, we propose a deep learning framework to discover the variables which are identifiers of the conversion from MCI to Alzheimer's disease. In particular, the latent space of a variational auto-encoder network trained with the MCI and Alzheimer's patients is manipulated to obtain the significant attributes and decipher their behavior that leads to the conversion from MCI to Alzheimer's disease. By utilizing a generative decoder and the dimensions that lead to the Alzheimer's diagnosis, we generate synthetic dementia patients from MCI patients in the dataset. Experimental results show promising quantitative and qualitative results on one of the most extensive and commonly used Alzheimer's disease neuroimaging datasets in literature.
翻訳日:2023-08-23 03:25:37 公開日:2023-08-20
# ExtremeBB: オンラインHate、Harassment、Manosphere、Extremismに関する大規模研究のためのデータベース

ExtremeBB: A Database for Large-Scale Research into Online Hate, Harassment, the Manosphere and Extremism ( http://arxiv.org/abs/2111.04479v3 )

ライセンス: Link先を確認
Anh V. Vu, Lydia Wilson, Yi Ting Chua, Ilia Shumailov, Ross Anderson(参考訳) オンラインヘイト、ハラスメント、マノスフィア、その他の過激主義を奨励する12の極右掲示板フォーラムにおいて、38.5kユーザーによる535万以上の投稿のテキストデータベースであるextremebbを紹介する。 ヘイトスピーチと毒性を測定すること、過激主義イデオロギーの異なる鎖の進化を追跡すること、オンラインのサブカルチャー、過激主義の行動と現実世界の暴力の関係を追跡すること、そして過激主義のコミュニティをほぼリアルタイムで監視することである。 これは問題となるイデオロギーの広がりだけでなく、介入の有効性にも光を当てることができる。 ExtremeBBには堅牢な倫理的データ共有体制があり、世界中の学者とデータを共有できる。 2020年以降、12の機関から16の研究グループに49のライセンスが与えられている。

We introduce ExtremeBB, a textual database of over 53.5M posts made by 38.5k users on 12 extremist bulletin board forums promoting online hate, harassment, the manosphere and other forms of extremism. It enables large-scale analyses of qualitative and quantitative historical trends going back two decades: measuring hate speech and toxicity; tracing the evolution of different strands of extremist ideology; tracking the relationships between online subcultures, extremist behaviours, and real-world violence; and monitoring extremist communities in near real time. This can shed light not only on the spread of problematic ideologies but also the effectiveness of interventions. ExtremeBB comes with a robust ethical data-sharing regime that allows us to share data with academics worldwide. Since 2020, access has been granted to 49 licensees in 16 research groups from 12 institutions.
翻訳日:2023-08-23 03:25:18 公開日:2023-08-20
# 一般化線形逆問題に対する最適センシング行列の設計に向けて

Towards Designing Optimal Sensing Matrices for Generalized Linear Inverse Problems ( http://arxiv.org/abs/2111.03237v3 )

ライセンス: Link先を確認
Junjie Ma, Ji Xu, Arian Maleki(参考訳) 逆問題 $\mathbf{y}= f(\mathbf{ax})$ を考えると、ここでは$\mathbf{x}\in\mathbb{r}^n$ が興味の信号、$\mathbf{a}$ がセンシング行列、$f$ が非線形関数、$\mathbf{y} \in \mathbb{r}^m$ が測定ベクトルである。 多くのアプリケーションでは、センシングマトリックス $\mathbf{a}$ を設計する自由度がある程度あり、そのような状況では、より優れた復元性能を達成するために$\mathbf{a}$を最適化することができる。 最適設計への第一歩として、センシング行列が$\mathbf{x}$を$\mathbf{y}$から回収する困難さに与える影響を理解することが重要である。 本稿では,最も成功したリカバリ手法,すなわち期待伝播(ep)アルゴリズムの性能について検討する。 我々は、$\bmmathbfA}$のスペクトルに対するスパイキネスの概念を定義し、EPのパフォーマンスに対するこの尺度の重要性を示す。 spikierのスペクトルが傷つくか、リカバリのパフォーマンスを助けるかは、$f$にかかっている。 筆者らの枠組みから, 位相検索問題では, スパイカースペクトルの行列はEPの方がよいが, 1ビット圧縮センシング問題ではスパイカースペクトルの少ない方が性能がよいことを示すことができる。 本結果はガウス行列と直交行列を比較した既存の結果を統一し,実質的に一般化し,最適センシングシステムの設計のためのプラットフォームを提供する。

We consider an inverse problem $\mathbf{y}= f(\mathbf{Ax})$, where $\mathbf{x}\in\mathbb{R}^n$ is the signal of interest, $\mathbf{A}$ is the sensing matrix, $f$ is a nonlinear function and $\mathbf{y} \in \mathbb{R}^m$ is the measurement vector. In many applications, we have some level of freedom to design the sensing matrix $\mathbf{A}$, and in such circumstances we could optimize $\mathbf{A}$ to achieve better reconstruction performance. As a first step towards optimal design, it is important to understand the impact of the sensing matrix on the difficulty of recovering $\mathbf{x}$ from $\mathbf{y}$. In this paper, we study the performance of one of the most successful recovery methods, i.e., the expectation propagation (EP) algorithm. We define a notion of spikiness for the spectrum of $\bmmathbfA}$ and show the importance of this measure for the performance of EP. We show that whether a spikier spectrum can hurt or help the recovery performance depends on $f$. Based on our framework, we are able to show that, in phase-retrieval problems, matrices with spikier spectrums are better for EP, while in 1-bit compressed sensing problems, less spiky spectrums lead to better performance. Our results unify and substantially generalize existing results that compare Gaussian and orthogonal matrices, and provide a platform towards designing optimal sensing systems.
翻訳日:2023-08-23 03:25:00 公開日:2023-08-20
# ブートストラップによるブラックボックス選択推論

Black-box Selective Inference via Bootstrapping ( http://arxiv.org/abs/2203.14504v2 )

ライセンス: Link先を確認
Sifan Liu, Jelena Markovic-Voronov, Jonathan Taylor(参考訳) 条件選択推論は選択イベントの正確な特徴を必要とするが、ラッソのようないくつかの例を除いてしばしば利用できない。 本研究は,選択イベントを推定するための汎用的アプローチを導入し,選択イベントを条件とした実現可能な推論を容易にすることで,この課題に対処した。 ブートストラップデータを繰り返し生成し、新しいデータセット上で選択アルゴリズムを実行する。 選択アルゴリズムの出力を用いて、選択確率を特定の要約統計量の関数として推定することができる。 これにより、選択イベントに基づいて条件付けされたデータの分布が推定され、条件付き選択推論の基礎となる。 関係統計の漸近正規性と選択確率の正確な推定の両方を仮定する理論的保証を提供する。 提案手法の適用性は,条件付き選択推論が従来不可能であった選択の正確な特徴を欠いた様々な問題を通じて実証された。

Conditional selective inference requires an exact characterization of the selection event, which is often unavailable except for a few examples like the lasso. This work addresses this challenge by introducing a generic approach to estimate the selection event, facilitating feasible inference conditioned on the selection event. The method proceeds by repeatedly generating bootstrap data and running the selection algorithm on the new datasets. Using the outputs of the selection algorithm, we can estimate the selection probability as a function of certain summary statistics. This leads to an estimate of the distribution of the data conditioned on the selection event, which forms the basis for conditional selective inference. We provide a theoretical guarantee assuming both asymptotic normality of relevant statistics and accurate estimation of the selection probability. The applicability of the proposed method is demonstrated through a variety of problems that lack exact characterizations of selection, where conditional selective inference was previously infeasible.
翻訳日:2023-08-23 03:16:17 公開日:2023-08-20
# 量子空間のローレンツとゲージ不変性

Lorentz and gauge invariance of quantum space ( http://arxiv.org/abs/2203.11699v2 )

ライセンス: Link先を確認
Ahmed Farag Ali, Barun Majumder, Prabir Rudra(参考訳) 一般化された不確実性原理により、線形GAP補正項とディラック方程式における電磁相互作用項の同値性を設定することにより、ローレンツ対称性とゲージ対称性を尊重する空間の離散像を導出する。 この等価性を満たす波動関数解を導出した。 この離散性は、自然界で異なるエネルギースケールで観察される結晶構造と準結晶構造を説明することができる。

Motivated by generalized uncertainty principle, we derive a discrete picture of the space that respects Lorentz symmetry as well as gauge symmetry through setting an equivalency between linear GUP correction term and electromagnetic interaction term in Dirac equation. We derived a wavefunction solution that satisfies this equivalency. This discreteness may explain the crystal and quasicrystal structures observed in nature at different energy scales.
翻訳日:2023-08-23 03:15:36 公開日:2023-08-20
# ゼロディレイ平滑化スプライン補間への学習可能なアプローチ

A Trainable Approach to Zero-delay Smoothing Spline Interpolation ( http://arxiv.org/abs/2203.03776v4 )

ライセンス: Link先を確認
Emilio Ruiz-Moreno, Luis Miguel L\'opez-Ramos, Baltasar Beferull-Lozano(参考訳) ストリームデータから信号サンプルの形でスムーズな信号を再構成する作業は,様々な応用に現れる。 この作業は、ゼロ遅延応答の対象となるタスクに対処する。つまり、スムーズな信号は、データサンプルが利用可能で、その後のデータにアクセスできないと、順次再構成されなければならない。 最先端のアプローチはスプラインを用いて連続データサンプルを補間することでこの問題を解決する。 ここで、各補間ステップは、コストメトリック(典型的には正方形残差と微分に基づく滑らか度測定の間の重み付け和)を最小化しながら、滑らかな信号再構成を保証するピースを生成する。 その結果、すべてのデータサンプルの補間と比較して、ほぼ確実に累積コストの増大と引き換えにゼロディレイ補間が達成される。 本稿では,この累積コストを平均でさらに削減するための新しい手法を提案する。 まず, 逐次的意思決定の観点からゼロ遅延平滑化スプライン補間問題を定式化し, 平均累積コストに対する各補間片の将来の影響をモデル化する。 次に,ストリームデータサンプル間の時間依存性を利用した補間手法を提案する。 本手法はリカレントニューラルネットワークによって支援され,再建対象の信号を生成する同一信号源から収集したサンプルデータに対して,平均して蓄積したコストを低減させる訓練を行う。 最後に, 合成および実データに対する実験結果について, 上記の最先端技術よりも優れた結果が得られた。

The task of reconstructing smooth signals from streamed data in the form of signal samples arises in various applications. This work addresses such a task subject to a zero-delay response; that is, the smooth signal must be reconstructed sequentially as soon as a data sample is available and without having access to subsequent data. State-of-the-art approaches solve this problem by interpolating consecutive data samples using splines. Here, each interpolation step yields a piece that ensures a smooth signal reconstruction while minimizing a cost metric, typically a weighted sum between the squared residual and a derivative-based measure of smoothness. As a result, a zero-delay interpolation is achieved in exchange for an almost certainly higher cumulative cost as compared to interpolating all data samples together. This paper presents a novel approach to further reduce this cumulative cost on average. First, we formulate a zero-delay smoothing spline interpolation problem from a sequential decision-making perspective, allowing us to model the future impact of each interpolated piece on the average cumulative cost. Then, an interpolation method is proposed to exploit the temporal dependencies between the streamed data samples. Our method is assisted by a recurrent neural network and accordingly trained to reduce the accumulated cost on average over a set of example data samples collected from the same signal source generating the signal to be reconstructed. Finally, we present extensive experimental results for synthetic and real data showing how our approach outperforms the abovementioned state-of-the-art.
翻訳日:2023-08-23 03:14:30 公開日:2023-08-20
# 信頼性の特定について

On Specifying for Trustworthiness ( http://arxiv.org/abs/2206.11421v2 )

ライセンス: Link先を確認
Dhaminda B. Abeywickrama, Amel Bennaceur, Greg Chance, Yiannis Demiris, Anastasia Kordoni, Mark Levine, Luke Moffat, Luc Moreau, Mohammad Reza Mousavi, Bashar Nuseibeh, Subramanian Ramamoorthy, Jan Oliver Ringert, James Wilson, Shane Windsor, Kerstin Eder(参考訳) 自律システム(AS)が私たちの日常生活の一部になるにつれて、信頼の確保が不可欠です。 ASの信頼性を示すために、まずは、ASが信頼できるとみなすために必要なものを特定する必要がある。 本稿では,英国研究・イノベーション(UKRI)の信頼に値する自律システム(TAS)プログラムの一環として開催される「信頼の特定」ワークショップにおいて,ASにおける信頼の特定に関する重要な課題を明らかにする。 私たちは、ASのレジリエンス、信頼、機能、検証可能性、セキュリティ、ガバナンスと規制を考慮して、様々なASドメインを調査し、これらのドメインの主要な仕様課題をいくつか特定します。 次に、ASの信頼性の特定にかかわる知的課題を強調し、ASが運用する必要がある環境にかかわる本質的な不確実性によって悪化する。

As autonomous systems (AS) increasingly become part of our daily lives, ensuring their trustworthiness is crucial. In order to demonstrate the trustworthiness of an AS, we first need to specify what is required for an AS to be considered trustworthy. This roadmap paper identifies key challenges for specifying for trustworthiness in AS, as identified during the "Specifying for Trustworthiness" workshop held as part of the UK Research and Innovation (UKRI) Trustworthy Autonomous Systems (TAS) programme. We look across a range of AS domains with consideration of the resilience, trust, functionality, verifiability, security, and governance and regulation of AS and identify some of the key specification challenges in these domains. We then highlight the intellectual challenges that are involved with specifying for trustworthiness in AS that cut across domains and are exacerbated by the inherent uncertainty involved with the environments in which AS need to operate.
翻訳日:2023-08-23 03:05:45 公開日:2023-08-20
# カーネルスタインのフーリエ表現と有限次元ヒルベルト空間上の測度に対するグッドネス・オブ・フィットテストへの応用

A Fourier representation of kernel Stein discrepancy with application to Goodness-of-Fit tests for measures on infinite dimensional Hilbert spaces ( http://arxiv.org/abs/2206.04552v3 )

ライセンス: Link先を確認
George Wynne, Miko{\l}aj Kasprzak, Andrew B. Duncan(参考訳) Kernel Stein discrepancy (KSD) は、確率測度間の不一致のカーネルベースの測度である。 これは、ユーザが候補確率測度からサンプルを収集し、指定された目標確率測度と比較したい場合によく用いられる。 KSDは、適合性試験、パラメトリック推論、MCMC出力評価、生成モデルなど、様々な設定で採用されている。 しかし、今のところは有限次元のデータに制限されている。 分離可能なヒルベルト空間(例えば関数データ)にあるデータの一般性において、ksdの最初の解析を提供する。 主な結果は、測度方程式の理論と核法を組み合わせることで得られる ksd の新たなフーリエ表現である。 これにより、KSDが測定を分離できることを証明できるので、実際は有効である。 さらに,カーネルとスタイン演算子の効果を分離することにより,KSDの解釈可能性を向上させる。 本稿では,様々なガウス関数モデルと非ガウス関数モデルの適合性テストを行い,提案手法の有効性を実証する。

Kernel Stein discrepancy (KSD) is a widely used kernel-based measure of discrepancy between probability measures. It is often employed in the scenario where a user has a collection of samples from a candidate probability measure and wishes to compare them against a specified target probability measure. KSD has been employed in a range of settings including goodness-of-fit testing, parametric inference, MCMC output assessment and generative modelling. However, so far the method has been restricted to finite-dimensional data. We provide the first analysis of KSD in the generality of data lying in a separable Hilbert space, for example functional data. The main result is a novel Fourier representation of KSD obtained by combining the theory of measure equations with kernel methods. This allows us to prove that KSD can separate measures and thus is valid to use in practice. Additionally, our results improve the interpretability of KSD by decoupling the effect of the kernel and Stein operator. We demonstrate the efficacy of the proposed methodology by performing goodness-of-fit tests for various Gaussian and non-Gaussian functional models in a number of synthetic data experiments.
翻訳日:2023-08-23 03:04:46 公開日:2023-08-20
# 単一点監視による3次元インスタンスセグメンテーションのための複数インスタンスグラフの協調的伝播

Collaborative Propagation on Multiple Instance Graphs for 3D Instance Segmentation with Single-point Supervision ( http://arxiv.org/abs/2208.05110v3 )

ライセンス: Link先を確認
Shichao Dong, Ruibo Li, Jiacheng Wei, Fayao Liu, Guosheng Lin(参考訳) 3dポイントクラウド上のインスタンスセグメンテーションは、その幅広い応用、特にシーン理解領域によって、注目を集めている。 しかし、既存の手法のほとんどは完全に注釈付きデータで動作し、手動で接地ラベルをポイントレベルで作成するのは面倒で手間がかかる。 この問題に対処するため,我々は,一つのオブジェクトを一つのポイントでラベリングするだけでよい,新しい弱教師付きメソッドrwsegを提案する。 これらの疎弱なラベルを用いて,セマンティクスとインスタンス情報をそれぞれ未知の領域に伝達する2つの分岐を持つ統一フレームワークを自己アテンションとクロスグラフランダムウォーク法を用いて導入する。 具体的には,近接配置されたオブジェクトにおけるあいまいさを解消し,インスタンス割り当て精度を向上させるために,異なるインスタンスグラフ間の競合を促進するクロスグラフ競合ランダムウォーク(crw)アルゴリズムを提案する。 RWSegは高品質なインスタンスレベルの擬似ラベルを生成する。 ScanNet-v2 と S3DIS データセットによる実験結果から,本手法は完全教師付き手法と同等の性能を示し,従来の弱教師付き手法よりも大幅に優れていた。

Instance segmentation on 3D point clouds has been attracting increasing attention due to its wide applications, especially in scene understanding areas. However, most existing methods operate on fully annotated data while manually preparing ground-truth labels at point-level is very cumbersome and labor-intensive. To address this issue, we propose a novel weakly supervised method RWSeg that only requires labeling one object with one point. With these sparse weak labels, we introduce a unified framework with two branches to propagate semantic and instance information respectively to unknown regions using self-attention and a cross-graph random walk method. Specifically, we propose a Cross-graph Competing Random Walks (CRW) algorithm that encourages competition among different instance graphs to resolve ambiguities in closely placed objects, improving instance assignment accuracy. RWSeg generates high-quality instance-level pseudo labels. Experimental results on ScanNet-v2 and S3DIS datasets show that our approach achieves comparable performance with fully-supervised methods and outperforms previous weakly-supervised methods by a substantial margin.
翻訳日:2023-08-23 02:56:10 公開日:2023-08-20
# グラフコントラスト学習によるdp-satisfied federated settingsにおけるパフォーマンス犠牲の軽減

Mitigating the Performance Sacrifice in DP-Satisfied Federated Settings through Graph Contrastive Learning ( http://arxiv.org/abs/2207.11836v3 )

ライセンス: Link先を確認
Haoran Yang, Xiangyu Zhao, Muyang Li, Hongxu Chen, Guandong Xu(参考訳) 現在、グラフ学習モデルは、研究者がグラフ構造化データを調べるのに不可欠なツールである。 アカデミアでは、十分なトレーニングデータを使用して1つのデバイスでグラフモデルを最適化することは、有能なグラフ学習モデルをトレーニングするための典型的なアプローチである。 しかし、プライバシー上の懸念から、現実のシナリオではそうすることは不可能である。 フェデレーション学習は、グラフエッジに差分プライバシー(DP)など、さまざまなプライバシ保護メカニズムを導入することで、この制限に対処する実用的な手段を提供する。 しかし、グラフ学習におけるDPはグラフに表されるセンシティブな情報のセキュリティを確保することができるが、通常はグラフ学習モデルの性能を低下させる。 本稿では,グラフエッジ上でDPをどのように実装できるかを考察し,実験における性能低下を観察する。 さらに,グラフエッジ上のdpは,グラフの近接度をゆるめる雑音をもたらし,グラフコントラスト学習におけるグラフ拡張の一つである。 そこで本研究では,dpによる性能低下を軽減するために,グラフコントラスト学習の活用を提案する。 5つのベンチマークデータセットにおける4つの代表グラフモデルによる広範囲な実験は、対照的な学習がモデルのdpによるパフォーマンス低下を緩和していることを示している。

Currently, graph learning models are indispensable tools to help researchers explore graph-structured data. In academia, using sufficient training data to optimize a graph model on a single device is a typical approach for training a capable graph learning model. Due to privacy concerns, however, it is infeasible to do so in real-world scenarios. Federated learning provides a practical means of addressing this limitation by introducing various privacy-preserving mechanisms, such as differential privacy (DP) on the graph edges. However, although DP in federated graph learning can ensure the security of sensitive information represented in graphs, it usually causes the performance of graph learning models to degrade. In this paper, we investigate how DP can be implemented on graph edges and observe a performance decrease in our experiments. In addition, we note that DP on graph edges introduces noise that perturbs graph proximity, which is one of the graph augmentations in graph contrastive learning. Inspired by this, we propose leveraging graph contrastive learning to alleviate the performance drop resulting from DP. Extensive experiments conducted with four representative graph models on five widely used benchmark datasets show that contrastive learning indeed alleviates the models' DP-induced performance drops.
翻訳日:2023-08-23 02:55:19 公開日:2023-08-20
# KD-MVS:多視点ステレオのための知識蒸留に基づく自己教師型学習

KD-MVS: Knowledge Distillation Based Self-supervised Learning for Multi-view Stereo ( http://arxiv.org/abs/2207.10425v2 )

ライセンス: Link先を確認
Yikang Ding, Qingtian Zhu, Xiangyue Liu, Wentao Yuan, Haotian Zhang and Chi Zhang(参考訳) supervised multi-view stereo (mvs) 法は復元品質において著しい進歩を遂げてきたが、大規模な地下深度の収集に苦しむ。 本稿では,知識蒸留に基づくMVSの自己指導型学習パイプラインKD-MVSを提案する。 具体的には、教師モデルは、フォトメトリックと特徴メトリックの整合性の両方を用いて、自己指導型で訓練される。 次に,教師モデルの知識を,確率的知識伝達を通じて生徒モデルに蒸留する。 検証された知識の監督により、生徒モデルは教師を大きな利益率で上回ることができる。 複数のデータセットで行った広範囲な実験によって、この手法は教師ありメソッドよりも優れています。

Supervised multi-view stereo (MVS) methods have achieved remarkable progress in terms of reconstruction quality, but suffer from the challenge of collecting large-scale ground-truth depth. In this paper, we propose a novel self-supervised training pipeline for MVS based on knowledge distillation, termed KD-MVS, which mainly consists of self-supervised teacher training and distillation-based student training. Specifically, the teacher model is trained in a self-supervised fashion using both photometric and featuremetric consistency. Then we distill the knowledge of the teacher model to the student model through probabilistic knowledge transferring. With the supervision of validated knowledge, the student model is able to outperform its teacher by a large margin. Extensive experiments performed on multiple datasets show our method can even outperform supervised methods.
翻訳日:2023-08-23 02:54:38 公開日:2023-08-20
# 四足歩行のための弾性アクチュエータの爆発学習

Learning to Exploit Elastic Actuators for Quadruped Locomotion ( http://arxiv.org/abs/2209.07171v3 )

ライセンス: Link先を確認
Antonin Raffin, Daniel Seidel, Jens Kober, Alin Albu-Sch\"affer, Jo\~ao Silv\'erio, Freek Stulp(参考訳) 足の移動におけるスプリングベースのアクチュエータは、エネルギー効率と性能の向上を提供するが、コントローラ設計の難しさは増す。 これまでの研究は,このようなシステムの最適制御器を見つけるための広範なモデリングとシミュレーションに焦点を当ててきたが,実ロボット上でモデルフリーの制御器を直接学習することを提案する。 提案手法では,まず中央パターン生成器(CPG)を用いて歩行を合成し,パラメータを最適化し,効率的な移動を実現するオープンループ制御器を迅速に得る。 そして、このコントローラをより堅牢にし、性能をさらに向上させるために、強化学習を用いてループを閉じ、CPG上の修正動作を学習する。 dlr弾性四重項 bert について提案手法を評価した。 その結果,スプリングアクチュエータの動力学の活用は,動的動作の最適化から自然に出現し,特にモデルフリーであるにもかかわらず,bertで記録された歩行速度が最も速い歩行歩数となることがわかった。 このプロセス全体は、実際のロボットに1.5時間しかかからず、自然に見えます。

Spring-based actuators in legged locomotion provide energy-efficiency and improved performance, but increase the difficulty of controller design. While previous work has focused on extensive modeling and simulation to find optimal controllers for such systems, we propose to learn model-free controllers directly on the real robot. In our approach, gaits are first synthesized by central pattern generators (CPGs), whose parameters are optimized to quickly obtain an open-loop controller that achieves efficient locomotion. Then, to make this controller more robust and further improve the performance, we use reinforcement learning to close the loop, to learn corrective actions on top of the CPGs. We evaluate the proposed approach on the DLR elastic quadruped bert. Our results in learning trotting and pronking gaits show that exploitation of the spring actuator dynamics emerges naturally from optimizing for dynamic motions, yielding high-performing locomotion, particularly the fastest walking gait recorded on bert, despite being model-free. The whole process takes no more than 1.5 hours on the real robot and results in natural-looking gaits.
翻訳日:2023-08-23 02:46:10 公開日:2023-08-20
# PreSTU: シーンテキスト理解のための事前トレーニング

PreSTU: Pre-Training for Scene-Text Understanding ( http://arxiv.org/abs/2209.05534v3 )

ライセンス: Link先を確認
Jihyung Kil, Soravit Changpinyo, Xi Chen, Hexiang Hu, Sebastian Goodman, Wei-Lun Chao, and Radu Soricut(参考訳) 視覚入力に埋め込まれたテキストを認識して推論する能力は、ヴィジュアル・アンド・ランゲージ(v&l)モデルにはしばしば欠けている。 本稿では,シーンテキスト理解(STU)に特化した新しい事前学習レシピであるPreSTUを提案する。 PreSTUは、OCR対応の事前学習目標を導入し、モデルが画像からテキストを認識し、残りの画像コンテンツに接続することを奨励する。 簡単な変換器ベースのエンコーダデコーダアーキテクチャを用いてPreSTUを実装し,大規模な画像テキストデータセットとオフザシェルOCRシステムから得られたシーンテキストを組み合わせる。 8つの視覚的質問応答と4つの画像キャプションベンチマークに対する事前学習手法の有効性を実証的に実証した。

The ability to recognize and reason about text embedded in visual inputs is often lacking in vision-and-language (V&L) models, perhaps because V&L pre-training methods have often failed to include such an ability in their training objective. In this paper, we propose PreSTU, a novel pre-training recipe dedicated to scene-text understanding (STU). PreSTU introduces OCR-aware pre-training objectives that encourage the model to recognize text from an image and connect it to the rest of the image content. We implement PreSTU using a simple transformer-based encoder-decoder architecture, combined with large-scale image-text datasets with scene text obtained from an off-the-shelf OCR system. We empirically demonstrate the effectiveness of this pre-training approach on eight visual question answering and four image captioning benchmarks.
翻訳日:2023-08-23 02:45:50 公開日:2023-08-20
# 運動画像分類のためのSPD多様体上のグラフニューラルネットワーク:時間周波数解析からの展望

Graph Neural Networks on SPD Manifolds for Motor Imagery Classification: A Perspective from the Time-Frequency Analysis ( http://arxiv.org/abs/2211.02641v4 )

ライセンス: Link先を確認
Ce Ju and Cuntai Guan(参考訳) 運動画像(MI)分類は脳脳波(EEG)に基づく脳-コンピュータインターフェースにおいて顕著な研究課題となっている。 過去数十年間、MI-EEG分類器の性能は徐々に向上してきた。 本研究では、時間周波数解析の観点から幾何学的深層学習に基づくMI-EEG分類を増幅し、Graph-CSPNetと呼ばれる新しいアーキテクチャを導入する。 我々はこの分類器のカテゴリを幾何学的分類器と呼び、EEG空間共分散行列から生じる微分幾何学の基礎を明らかにする。 Graph-CSPNetは、新しい多様体値グラフ畳み込み技術を用いて、時間周波数領域における脳波の特徴を捉え、局所的なゆらぎを捉えるための信号セグメンテーションの柔軟性を高める。 Graph-CSPNetの有効性を評価するために、一般に利用可能な5つのMI-EEGデータセットを使用し、11シナリオ中9シナリオでほぼ最適な分類精度を達成する。 Pythonリポジトリはhttps://github.com/GeometricBCI/Tensor-CSPNet-and-Graph-CSPNetで見ることができる。

The motor imagery (MI) classification has been a prominent research topic in brain-computer interfaces based on electroencephalography (EEG). Over the past few decades, the performance of MI-EEG classifiers has seen gradual enhancement. In this study, we amplify the geometric deep learning-based MI-EEG classifiers from the perspective of time-frequency analysis, introducing a new architecture called Graph-CSPNet. We refer to this category of classifiers as Geometric Classifiers, highlighting their foundation in differential geometry stemming from EEG spatial covariance matrices. Graph-CSPNet utilizes novel manifold-valued graph convolutional techniques to capture the EEG features in the time-frequency domain, offering heightened flexibility in signal segmentation for capturing localized fluctuations. To evaluate the effectiveness of Graph-CSPNet, we employ five commonly-used publicly available MI-EEG datasets, achieving near-optimal classification accuracies in nine out of eleven scenarios. The Python repository can be found at https://github.com/GeometricBCI/Tensor-CSPNet-and-Graph-CSPNet.
翻訳日:2023-08-23 02:37:24 公開日:2023-08-20
# Fant\^omas: 顔の匿名化の可逆性を理解する

Fant\^omas: Understanding Face Anonymization Reversibility ( http://arxiv.org/abs/2210.10651v2 )

ライセンス: Link先を確認
Julian Todt, Simon Hanisch, Thorsten Strufe(参考訳) 顔画像は、個人を特定し、それらの個人情報を推測するのに使用できる豊富な情報源である。 このプライバシーリスクを軽減するため、匿名化では、透明な画像に変換を適用して機密情報を隠蔽する。 印象的な主張で出版されているが、説得力のある方法論で評価されないこともある。 匿名化画像の反転は、実際の入力に似せていて、顔認識アプローチによって識別されることもある。 いくつかの最近の結果は、いくつかのアプローチでこれが可能であることを実際に示している。 しかし、どのアプローチが可逆であり、なぜなのかはよく理解されていない。 本稿では,顔の匿名化の可逆性の現象を徹底的に調査する。 15の顔の匿名化のうち11の顔は少なくとも部分的には可逆的であり、再構成と逆転が逆転を可能にする基盤となるプロセスであることを示す。

Face images are a rich source of information that can be used to identify individuals and infer private information about them. To mitigate this privacy risk, anonymizations employ transformations on clear images to obfuscate sensitive information, all while retaining some utility. Albeit published with impressive claims, they sometimes are not evaluated with convincing methodology. Reversing anonymized images to resemble their real input -- and even be identified by face recognition approaches -- represents the strongest indicator for flawed anonymization. Some recent results indeed indicate that this is possible for some approaches. It is, however, not well understood, which approaches are reversible, and why. In this paper, we provide an exhaustive investigation in the phenomenon of face anonymization reversibility. Among other things, we find that 11 out of 15 tested face anonymizations are at least partially reversible and highlight how both reconstruction and inversion are the underlying processes that make reversal possible.
翻訳日:2023-08-23 02:36:09 公開日:2023-08-20
# FS-DETR-Few-Shot Detection TRansformer の高速化と再トレーニングなし

FS-DETR: Few-Shot DEtection TRansformer with prompting and without re-training ( http://arxiv.org/abs/2210.04845v2 )

ライセンス: Link先を確認
Adrian Bulat and Ricardo Guerrero and Brais Martinez and Georgios Tzimiropoulos(参考訳) 本稿では,Few-Shot Object Detection (FSOD) について述べる。Few-Shot Object Detection (FSOD) には,新しいクラス(トレーニング中は見えない)を描写したテンプレート(サンプル)がいくつか用意されている。 実用的な観点からは、fsodシステムは以下のデシデラタを満たす必要がある。 (a)テスト時に微調整を必要とせず、そのまま使用しなければならない。 (b)各クラスから任意の数の例をサポートしながら、任意の数の新規オブジェクトを同時に処理できなければならない。 (c) クローズドシステムに匹敵する精度を達成する必要がある。 満たすために (a)- c) 本研究では,まず,デシデラタの双方に対応可能な視覚プロンプトに基づいて,単純かつ強力で少数ショット検出トランスフォーマ(fs-detr)を導入する。 (a)及び (b) このシステムはdetrフレームワークを基盤として,(1)新規クラスの提供されたビジュアルテンプレートをテスト期間中に視覚的にプロンプトとして与える,(2)疑似クラス埋め込み(ソフトプロンプトと同じような)でこれらのプロンプトを ``stamp''' する,という2つの重要なアイデアに基づいて拡張する。 重要なのは,我々のシステムは既存の手法よりも柔軟であるだけでなく,デシデラトゥムを満たすための一歩を踏み出したことである。 (c)。 具体的には、最もよく確立されたベンチマーク (PASCAL VOC & MSCOCO) 上での最先端の微調整手法よりもはるかに正確である。

This paper is on Few-Shot Object Detection (FSOD), where given a few templates (examples) depicting a novel class (not seen during training), the goal is to detect all of its occurrences within a set of images. From a practical perspective, an FSOD system must fulfil the following desiderata: (a) it must be used as is, without requiring any fine-tuning at test time, (b) it must be able to process an arbitrary number of novel objects concurrently while supporting an arbitrary number of examples from each class and (c) it must achieve accuracy comparable to a closed system. Towards satisfying (a)-(c), in this work, we make the following contributions: We introduce, for the first time, a simple, yet powerful, few-shot detection transformer (FS-DETR) based on visual prompting that can address both desiderata (a) and (b). Our system builds upon the DETR framework, extending it based on two key ideas: (1) feed the provided visual templates of the novel classes as visual prompts during test time, and (2) ``stamp'' these prompts with pseudo-class embeddings (akin to soft prompting), which are then predicted at the output of the decoder. Importantly, we show that our system is not only more flexible than existing methods, but also, it makes a step towards satisfying desideratum (c). Specifically, it is significantly more accurate than all methods that do not require fine-tuning and even matches and outperforms the current state-of-the-art fine-tuning based methods on the most well-established benchmarks (PASCAL VOC & MSCOCO).
翻訳日:2023-08-23 02:35:53 公開日:2023-08-20
# ベイズ型プロンプト学習による画像言語モデル一般化

Bayesian Prompt Learning for Image-Language Model Generalization ( http://arxiv.org/abs/2210.02390v3 )

ライセンス: Link先を確認
Mohammad Mahdi Derakhshani, Enrique Sanchez, Adrian Bulat, Victor Guilherme Turrisi da Costa, Cees G. M. Snoek, Georgios Tzimiropoulos and Brais Martinez(参考訳) 基礎画像言語モデルは、迅速な学習による下流タスクへの効率的な適応により、かなりの関心を集めている。 プロンプト学習は、言語モデルの入力の一部を、残りを凍結しながら学習可能として扱い、経験的リスク最小化目標を最適化する。 しかし、経験的リスクの最小化は分布の変化に苦しむことが知られており、訓練中に無意識に促す一般化を損なう。 ベイズ法の正規化能力を利用することで、ベイズ的視点からプロンプト学習をフレーム化し、変分推論問題として定式化する。 提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。 本フレームワークは,入力プロンプト空間を確率論的にモデル化し,画像上不条件あるいは条件付きである素早い学習手法と互換性のある事前分布として実装する。 ベイジアン・プロンプト・ラーニングがプロンプト空間の適切なカバレッジを提供し、スプリアスな特徴の学習を防止し、転送可能な不変な特徴を活用できる15のベンチマークを実証的に示した。 これにより、異なるデータセットやドメインであっても、目に見えないプロンプトをより一般化できる。 https://github.com/saic-fi/Bayesian-Prompt-Learning

Foundational image-language models have generated considerable interest due to their efficient adaptation to downstream tasks by prompt learning. Prompt learning treats part of the language model input as trainable while freezing the rest, and optimizes an Empirical Risk Minimization objective. However, Empirical Risk Minimization is known to suffer from distributional shifts which hurt generalizability to prompts unseen during training. By leveraging the regularization ability of Bayesian methods, we frame prompt learning from the Bayesian perspective and formulate it as a variational inference problem. Our approach regularizes the prompt space, reduces overfitting to the seen prompts and improves the prompt generalization on unseen prompts. Our framework is implemented by modeling the input prompt space in a probabilistic manner, as an a priori distribution which makes our proposal compatible with prompt learning approaches that are unconditional or conditional on the image. We demonstrate empirically on 15 benchmarks that Bayesian prompt learning provides an appropriate coverage of the prompt space, prevents learning spurious features, and exploits transferable invariant features. This results in better generalization of unseen prompts, even across different datasets and domains. Code available at: https://github.com/saic-fi/Bayesian-Prompt-Learning
翻訳日:2023-08-23 02:35:03 公開日:2023-08-20
# smiletrack: 咬合を検知する複数物体追跡のための類似性学習

SMILEtrack: SiMIlarity LEarning for Occlusion-Aware Multiple Object Tracking ( http://arxiv.org/abs/2211.08824v3 )

ライセンス: Link先を確認
Yu-Hsiang Wang, Jun-Wei Hsieh, Ping-Yang Chen, Ming-Ching Chang, Hung Hin So, Xin Li(参考訳) 最近のMOT(Multiple Object Tracking)の進歩にもかかわらず、オクルージョンや類似のオブジェクト、複雑なシーンといったいくつかの障害は未解決の課題である。 一方で、一般的なトラッキングバイ検出パラダイムに対するコストパフォーマンストレードオフに関する体系的な研究は、いまだに不足している。 本稿では,SLM(Siamese Network-based similarity Learning Module)と効率的なオブジェクト検出器を統合することで,これらの課題に効果的に対応する革新的なオブジェクトトラッカーSMILEtrackを紹介する。 SMILETrackの技術的貢献は2つある。 まず,2つのオブジェクト間の外観類似性を計算し,分離検出および埋め込み(SDE)モデルにおける特徴記述子の限界を克服するSLMを提案する。 SLMは視覚変換器にインスパイアされたPatch Self-Attention (PSA)ブロックを組み込み、正確な類似性マッチングのための信頼性の高い特徴を生成する。 第2に、連続するビデオフレーム間の堅牢なオブジェクトマッチングのための新しいGATE機能を備えた類似マッチングカスケード(SMC)モジュールを開発し、MOT性能をさらに向上する。 これらの革新によってSMILETrackはコスト(例えば、実行速度)とパフォーマンス(例えば、BYTETrackメソッドを含むいくつかの既存の最先端ベンチマーク)の間のトレードオフを改善することができる。 SMILETrack は BYTETrack を 0.4-0.8 MOTA で、MOT17 と MOT20 のデータセットで 2.1-2.2 HOTA で上回っている。 コードはhttps://github.com/pingyang1117/SMILEtrack_Officialで公開されている。

Despite recent progress in Multiple Object Tracking (MOT), several obstacles such as occlusions, similar objects, and complex scenes remain an open challenge. Meanwhile, a systematic study of the cost-performance tradeoff for the popular tracking-by-detection paradigm is still lacking. This paper introduces SMILEtrack, an innovative object tracker that effectively addresses these challenges by integrating an efficient object detector with a Siamese network-based Similarity Learning Module (SLM). The technical contributions of SMILETrack are twofold. First, we propose an SLM that calculates the appearance similarity between two objects, overcoming the limitations of feature descriptors in Separate Detection and Embedding (SDE) models. The SLM incorporates a Patch Self-Attention (PSA) block inspired by the vision Transformer, which generates reliable features for accurate similarity matching. Second, we develop a Similarity Matching Cascade (SMC) module with a novel GATE function for robust object matching across consecutive video frames, further enhancing MOT performance. Together, these innovations help SMILETrack achieve an improved trade-off between the cost ({\em e.g.}, running speed) and performance (e.g., tracking accuracy) over several existing state-of-the-art benchmarks, including the popular BYTETrack method. SMILETrack outperforms BYTETrack by 0.4-0.8 MOTA and 2.1-2.2 HOTA points on MOT17 and MOT20 datasets. Code is available at https://github.com/pingyang1117/SMILEtrack_Official
翻訳日:2023-08-23 02:23:47 公開日:2023-08-20
# オブジェクト認識を超えて: オブジェクト概念学習のための新しいベンチマーク

Beyond Object Recognition: A New Benchmark towards Object Concept Learning ( http://arxiv.org/abs/2212.02710v3 )

ライセンス: Link先を確認
Yong-Lu Li, Yue Xu, Xinyu Xu, Xiaohan Mao, Yuan Yao, Siqi Liu, Cewu Lu(参考訳) オブジェクトを理解することは人工知能の中心的な構成要素であり、特に具体化されたAIのためのものである。 オブジェクト認識はディープラーニングで優れているが、現在のマシンは、オブジェクトが持つ属性やオブジェクトで何ができるかといった、高度な知識を学ぶのに苦労している。 本稿では,オブジェクト理解の包含性を高めるための挑戦的オブジェクト概念学習(ocl)タスクを提案する。 マシンは、オブジェクトアフォーアンスを推論し、同時に理由を与える必要がある: オブジェクトがアフォーアンスを持つ属性は何か。 OCLをサポートするために,3段階のオブジェクト概念(カテゴリ,属性,アベイランス)と3段階の因果関係を含む,多彩な注釈付き知識ベースを構築した。 OCLの因果構造を解析することにより,OCRN(Object Concept Reasoning Network)のベースラインを提示する。 因果関係に従う3つのレベルを推測するために因果的介入と概念のインスタンス化を利用する。 実験では、OCRNは因果関係をうまく追従しながらオブジェクトの知識を効果的に推論する。 私たちのデータとコードはhttps://mvig-rhos.com/ocl.org/で利用可能です。

Understanding objects is a central building block of artificial intelligence, especially for embodied AI. Even though object recognition excels with deep learning, current machines still struggle to learn higher-level knowledge, e.g., what attributes an object has, and what can we do with an object. In this work, we propose a challenging Object Concept Learning (OCL) task to push the envelope of object understanding. It requires machines to reason out object affordances and simultaneously give the reason: what attributes make an object possesses these affordances. To support OCL, we build a densely annotated knowledge base including extensive labels for three levels of object concept (category, attribute, affordance), and the causal relations of three levels. By analyzing the causal structure of OCL, we present a baseline, Object Concept Reasoning Network (OCRN). It leverages causal intervention and concept instantiation to infer the three levels following their causal relations. In experiments, OCRN effectively infers the object knowledge while following the causalities well. Our data and code are available at https://mvig-rhos.com/ocl.
翻訳日:2023-08-23 02:17:35 公開日:2023-08-20
# 説明可能な土地被覆図作成に向けて : 対人的戦略

Towards Explainable Land Cover Mapping: a Counterfactual-based Strategy ( http://arxiv.org/abs/2301.01520v2 )

ライセンス: Link先を確認
Cassio F. Dantas, Diego Marcos, Dino Ienco(参考訳) counterfactual descriptionsは、ディープラーニングモデルの解釈性を高めるための新しいツールだ。 サンプルが与えられた場合、これらのメソッドは決定境界を越えて類似したサンプルを見つけて表示しようとする。 本論文では,陸域被覆分類タスクのための多クラス設定において,衛星画像時系列に対する生成的逆実逆法を提案する。 提案手法の特徴の1つは、ある対実的説明に対する対象クラスに対する事前の仮定の欠如である。 この固有の柔軟性は、土地被覆クラス間の関係に関する興味深い情報の発見を可能にする。 もう1つの特徴は、反事実を元のサンプルと違い、小さくてコンパクトな時間的セグメントのみにすることを奨励することである。 これらの時間の連続的な摂動は、多くのスペーサーと解釈可能な解を可能にする。 さらに, 提案した対角的学習戦略を通じて, 生成した対実的説明の妥当性・現実性を検証した。

Counterfactual explanations are an emerging tool to enhance interpretability of deep learning models. Given a sample, these methods seek to find and display to the user similar samples across the decision boundary. In this paper, we propose a generative adversarial counterfactual approach for satellite image time series in a multi-class setting for the land cover classification task. One of the distinctive features of the proposed approach is the lack of prior assumption on the targeted class for a given counterfactual explanation. This inherent flexibility allows for the discovery of interesting information on the relationship between land cover classes. The other feature consists of encouraging the counterfactual to differ from the original sample only in a small and compact temporal segment. These time-contiguous perturbations allow for a much sparser and, thus, interpretable solution. Furthermore, plausibility/realism of the generated counterfactual explanations is enforced via the proposed adversarial learning strategy.
翻訳日:2023-08-23 01:55:40 公開日:2023-08-20
# 臨界状態と局所状態の間の排他的新しいモビリティエッジ

Exact new mobility edges between critical and localized states ( http://arxiv.org/abs/2212.14285v3 )

ライセンス: Link先を確認
Xin-Chi Zhou, Yongjian Wang, Ting-Fung Jeffrey Poon, Qi Zhou and Xiong-Jun Liu(参考訳) 障害系は、拡張状態、局所状態、臨界状態として知られる3種類の基本的な量子状態を持ち、臨界状態の探索は少ないままである。 本稿では, 局所状態とロバスト臨界状態とを分離した新しいタイプの正確なモビリティエッジ(ME)をホストする, 正確な可解モデルのクラスを提案し, 実験的実現を提案する。 ここでのロバスト性は、単粒子摂動と少数体状態における相互作用の両方に対する安定性を指す。 正確に解ける1次元モデルは、ホッピング項とオンサイトポテンシャルの両方の準周期モザイク型によって特徴付けられる。 解析結果から,注意深い有限サイズのスケーリングを含む厳密な数値検証が必要となる臨界状態を得ることができた。 臨界状態と新しいMEは、熱力学的限界における準周期ホッピング項のゼロによって保護されるという一般的なメカニズムをここで明らかにしている。 さらに、Rydberg Raman superarrayにおいて、正確に解けるモデルと新しいMEを実現するための新しい実験手法を提案する。 この研究は、臨界状態と実験可能な新しいME物理を正確に探求する道を開くかもしれない。

The disorder systems host three types of fundamental quantum states, known as the extended, localized, and critical states, of which the critical states remain being much less explored. Here we propose a class of exactly solvable models which host a novel type of exact mobility edges (MEs) separating localized states from robust critical states, and propose experimental realization. Here the robustness refers to the stability against both single-particle perturbation and interactions in the few-body regime. The exactly solvable one-dimensional models are featured by quasiperiodic mosaic type of both hopping terms and on-site potentials. The analytic results enable us to unambiguously obtain the critical states which otherwise require arduous numerical verification including the careful finite size scalings. The critical states and new MEs are shown to be robust, illustrating a generic mechanism unveiled here that the critical states are protected by zeros of quasiperiodic hopping terms in the thermodynamic limit. Further, we propose a novel experimental scheme to realize the exactly solvable model and the new MEs in an incommensurate Rydberg Raman superarray. This work may pave a way to precisely explore the critical states and new ME physics with experimental feasibility.
翻訳日:2023-08-23 01:54:35 公開日:2023-08-20
# トランスフォーマーを用いたデータ拡張とアラビア文字分類改善のための類似度対策

Data Augmentation using Transformers and Similarity Measures for Improving Arabic Text Classification ( http://arxiv.org/abs/2212.13939v3 )

ライセンス: Link先を確認
Dania Refai, Saleh Abo-Soud, Mohammad Abdel-Rahman(参考訳) 学習モデルの性能は、トレーニングデータの可用性と妥当性に大きく依存している。 データセットの妥当性問題に対処するため、研究者はデータ拡張(DA)を有望なアプローチとして広く研究してきた。 DAは利用可能なデータに適用された変換を通じて新しいデータインスタンスを生成し、データセットのサイズと可変性を高める。 このアプローチはモデル性能と精度を高め、特に分類タスクにおけるクラス不均衡問題に対処する。 しかしながら、パラフラージングやノミジングに基づく手法のような伝統的なアプローチに依存する、アラビア語のdaを探求する研究はほとんどない。 本稿では,AraGPT-2と呼ばれる最近の強力なモデリング手法を応用したアラビアDA法を提案する。 生成された文は、ユークリッド、コサイン、ジャカード、BLEU距離を用いて、文脈、意味、多様性、新規性の観点から評価される。 最後に、アラビアデータセットの分類性能を評価するために、感情分類タスクにAraBERT変換器を用いる。 AraSarcasm, ASTD, ATT, MOVIEの4つの感情アラビアデータセットを用いて実験を行った。 選択されたデータセットはサイズ、ラベル番号、不均衡クラスによって異なる。 提案手法により,全データセットのアラビア語感情テキスト分類が向上し,アラサルカズムではf1得点が4%,astdでは6%,attでは9%,映画では13%増加した。

The performance of learning models heavily relies on the availability and adequacy of training data. To address the dataset adequacy issue, researchers have extensively explored data augmentation (DA) as a promising approach. DA generates new data instances through transformations applied to the available data, thereby increasing dataset size and variability. This approach has enhanced model performance and accuracy, particularly in addressing class imbalance problems in classification tasks. However, few studies have explored DA for the Arabic language, relying on traditional approaches such as paraphrasing or noising-based techniques. In this paper, we propose a new Arabic DA method that employs the recent powerful modeling technique, namely the AraGPT-2, for the augmentation process. The generated sentences are evaluated in terms of context, semantics, diversity, and novelty using the Euclidean, cosine, Jaccard, and BLEU distances. Finally, the AraBERT transformer is used on sentiment classification tasks to evaluate the classification performance of the augmented Arabic dataset. The experiments were conducted on four sentiment Arabic datasets: AraSarcasm, ASTD, ATT, and MOVIE. The selected datasets vary in size, label number, and unbalanced classes. The results show that the proposed methodology enhanced the Arabic sentiment text classification on all datasets with an increase in F1 score by 4% in AraSarcasm, 6% in ASTD, 9% in ATT, and 13% in MOVIE.
翻訳日:2023-08-23 01:54:13 公開日:2023-08-20
# リアルタイム触覚テクスチャレンダリングのための学習モデルの開発と評価

Development and Evaluation of a Learning-based Model for Real-time Haptic Texture Rendering ( http://arxiv.org/abs/2212.13332v2 )

ライセンス: Link先を確認
Negin Heravi, Heather Culbertson, Allison M. Okamura, Jeannette Bohg(参考訳) 現在のバーチャルリアリティ(VR)環境は、表面上の横移動中のテクスチャの感覚など、人間が現実の相互作用で経験する豊かな触覚信号が欠如している。 VR環境に現実的な触覚テクスチャを追加するには、ユーザのインタラクションのバリエーションや、世界中のさまざまな既存のテクスチャに一般化するモデルが必要です。 触覚テクスチャレンダリングの現在の手法は存在するが、通常はテクスチャ毎に1つのモデルを開発する。 本研究では,触覚テクスチャレンダリングのための深層学習に基づく行動条件モデルを提案する。 このモデルは、すべての材料に統一され、視覚ベースの触覚センサ(GelSight)からのデータを用いて、ユーザの動作に適切な表面をリアルタイムでレンダリングする。 テクスチャのレンダリングには,3dシステムタッチデバイスに取り付けられた高帯域幅振動トランスデューサを使用する。 その結果,学習に基づく手法は,テクスチャごとに異なるモデルを学習することなく,最先端の手法と同等あるいは優れた品質の高頻度テクスチャレンダリングを生成できることがわかった。 さらに, この手法は, 表面のGelSight画像のみを用いて, 未確認のテクスチャを描画できることを示す。

Current Virtual Reality (VR) environments lack the rich haptic signals that humans experience during real-life interactions, such as the sensation of texture during lateral movement on a surface. Adding realistic haptic textures to VR environments requires a model that generalizes to variations of a user's interaction and to the wide variety of existing textures in the world. Current methodologies for haptic texture rendering exist, but they usually develop one model per texture, resulting in low scalability. We present a deep learning-based action-conditional model for haptic texture rendering and evaluate its perceptual performance in rendering realistic texture vibrations through a multi part human user study. This model is unified over all materials and uses data from a vision-based tactile sensor (GelSight) to render the appropriate surface conditioned on the user's action in real time. For rendering texture, we use a high-bandwidth vibrotactile transducer attached to a 3D Systems Touch device. The result of our user study shows that our learning-based method creates high-frequency texture renderings with comparable or better quality than state-of-the-art methods without the need for learning a separate model per texture. Furthermore, we show that the method is capable of rendering previously unseen textures using a single GelSight image of their surface.
翻訳日:2023-08-23 01:53:52 公開日:2023-08-20
# NeSyFOLD: 解釈可能な画像分類のためのニューロシンボリックフレームワーク

NeSyFOLD: Neurosymbolic Framework for Interpretable Image Classification ( http://arxiv.org/abs/2301.12667v3 )

ライセンス: Link先を確認
Parth Padalkar, Huaduo Wang, Gopal Gupta(参考訳) cnnのようなディープラーニングモデルは、画像分類などのコンピュータビジョンタスクで人間のパフォーマンスを上回っている。 しかし、その高度さにもかかわらず、これらのモデルは解釈可能性に欠けており、データの既存の偏見を反映するバイアスのある結果をもたらす可能性がある。 我々はCNNが解釈可能な予測を行うことを目指している。 そこで我々はNeSyFOLDと呼ばれる新しいフレームワークを提案し、画像分類タスクのためのニューロシンボリック(NeSy)モデルを作成する。 モデルはCNNであり、最後の畳み込み層に続くすべてのレイヤが階層化された回答セットプログラム(ASP.NET)に置き換えられている。 FOLD-SE-Mと呼ばれるルールベースの機械学習アルゴリズムを用いて、最終畳み込み層の二項化フィルタアクティベーションから階層化解集合プログラムを導出する。 回答セットプログラムはルールセットと見なすことができ、各述語の真理値はcnn内の対応するカーネルの活性化に依存する。 ルールセットはモデルのグローバルな説明として機能し、解釈可能である。 NeSyモデルによる予測の正当化は、ASPインタープリタを使って得ることができる。 また、我々はNeSyFOLDフレームワークを、Elite BackProp (EBP)と呼ばれるスパースカーネル学習技術を用いて訓練されたCNNで使用しています。 これにより、精度や忠実さを損なうことなくルールセットのサイズが大幅に削減され、nesyモデルのスケーラビリティとルールセットの解釈性が向上した。 評価は、さまざまな複雑さとサイズを持つデータセットで行われる。 ルールセットをより直感的に理解できるように、各カーネルの対応する述語をルールセットにラベル付けするアルゴリズムを、学習した意味概念と組み合わせて提案する。 我々は,NeSyモデルとNeSy-EBPモデルの両方に対するセマンティックラベリングの有効性を評価するために,セマンティックラベリングアルゴリズムの性能を評価する。

Deep learning models such as CNNs have surpassed human performance in computer vision tasks such as image classification. However, despite their sophistication, these models lack interpretability which can lead to biased outcomes reflecting existing prejudices in the data. We aim to make predictions made by a CNN interpretable. Hence, we present a novel framework called NeSyFOLD to create a neurosymbolic (NeSy) model for image classification tasks. The model is a CNN with all layers following the last convolutional layer replaced by a stratified answer set program (ASP). A rule-based machine learning algorithm called FOLD-SE-M is used to derive the stratified answer set program from binarized filter activations of the last convolutional layer. The answer set program can be viewed as a rule-set, wherein the truth value of each predicate depends on the activation of the corresponding kernel in the CNN. The rule-set serves as a global explanation for the model and is interpretable. A justification for the predictions made by the NeSy model can be obtained using an ASP interpreter. We also use our NeSyFOLD framework with a CNN that is trained using a sparse kernel learning technique called Elite BackProp (EBP). This leads to a significant reduction in rule-set size without compromising accuracy or fidelity thus improving scalability of the NeSy model and interpretability of its rule-set. Evaluation is done on datasets with varied complexity and sizes. To make the rule-set more intuitive to understand, we propose a novel algorithm for labelling each kernel's corresponding predicate in the rule-set with the semantic concept(s) it learns. We evaluate the performance of our "semantic labelling algorithm" to quantify the efficacy of the semantic labelling for both the NeSy model and the NeSy-EBP model.
翻訳日:2023-08-23 01:44:33 公開日:2023-08-20
# CircNet: 中心検出による3次元点雲のメッシュ化

CircNet: Meshing 3D Point Clouds with Circumcenter Detection ( http://arxiv.org/abs/2301.09253v2 )

ライセンス: Link先を確認
Huan Lei, Ruitao Leng, Liang Zheng, Hongdong Li(参考訳) 3次元点雲を三角形メッシュに再構成することは、計算幾何学と表面再構成の重要な問題である。 点雲三角測量は入力点にエッジ情報を提供することでこの問題を解決する。 頂点補間は関与しないので、表面の鋭い詳細を保存することは有益である。 三角測量における学習に基づく手法を利用すると、既存の手法では候補三角形の完全な組み合わせを列挙する。 本稿では,三角形と円心の双対性を利用して,円心を検知して点クラウド三角測量を実現するディープニューラルネットワークを提案する。 具体的には,各点の近傍空間を分割するために複数のアンカープリエントを導入する。 次にニューラルネットワークが学習し、アンカーの指導のもと、周辺施設の存在と位置を予測する。 検出した円周に双対な三角形を抽出して原始メッシュを形成し、そこからエッジマニフォールドメッシュを単純な後処理で生成する。 既存の学習に基づく三角法とは異なり,提案手法は三角形の組み合わせと局所表面パラメータ化の包括列挙をバイパスする。 我々は,水密面と開面面の両方の顕著なデータセットに対して,本手法の有効性,一般化,ロバスト性を検証した。 コードとトレーニングされたモデルはhttps://github.com/EnyaHermite/CircNetで提供されている。

Reconstructing 3D point clouds into triangle meshes is a key problem in computational geometry and surface reconstruction. Point cloud triangulation solves this problem by providing edge information to the input points. Since no vertex interpolation is involved, it is beneficial to preserve sharp details on the surface. Taking advantage of learning-based techniques in triangulation, existing methods enumerate the complete combinations of candidate triangles, which is both complex and inefficient. In this paper, we leverage the duality between a triangle and its circumcenter, and introduce a deep neural network that detects the circumcenters to achieve point cloud triangulation. Specifically, we introduce multiple anchor priors to divide the neighborhood space of each point. The neural network then learns to predict the presences and locations of circumcenters under the guidance of those anchors. We extract the triangles dual to the detected circumcenters to form a primitive mesh, from which an edge-manifold mesh is produced via simple post-processing. Unlike existing learning-based triangulation methods, the proposed method bypasses an exhaustive enumeration of triangle combinations and local surface parameterization. We validate the efficiency, generalization, and robustness of our method on prominent datasets of both watertight and open surfaces. The code and trained models are provided at https://github.com/EnyaHermite/CircNet.
翻訳日:2023-08-23 01:43:32 公開日:2023-08-20
# ハイブリッドスペクトル法と高調波振動子に基づく時空間ガウス過程の非分離共分散カーネル

Non-separable Covariance Kernels for Spatiotemporal Gaussian Processes based on a Hybrid Spectral Method and the Harmonic Oscillator ( http://arxiv.org/abs/2302.09580v2 )

ライセンス: Link先を確認
Dionissios T.Hristopulos(参考訳) ガウス過程は、高次元空間における関数の近似に対する柔軟で非パラメトリックな枠組みを提供する。 共分散カーネルはガウス過程の主エンジンであり、予測分布の基盤となる相関を取り入れている。 時空間データセットを持つアプリケーションでは、適切なカーネルはジョイント空間と時間依存をモデル化する必要がある。 分離可能な時空間共分散カーネルは単純性と計算効率を提供する。 しかし、分離不能なカーネルには、観測された相関をよりよく捉える時空相互作用が含まれる。 明示的な表現を認めるほとんどの非分離カーネルは、第一原理の導出よりも数学的考察(許容条件)に基づいている。 物理引数に基づく共分散カーネルを生成するためのハイブリッドスペクトル手法を提案する。 このアプローチは、確率、線形、減衰、高調波発振器(LDHO)にルーツを持つ、物理的に動機づけられた非分離性共分散カーネルの新たなクラスを導出するために用いられる。 新しいカーネルは、時空相関の単調および振動減衰の両方の関数を含む。 LDHO共分散核は、振動子係数を変調する分散関係によって導入された時空相互作用を含む。 3つの振動子系(アンダーダンピング、臨界ダンピング、オーバーダンピング)における時空間共分散核の明示的な関係を導出し、それらの性質を調べる。

Gaussian processes provide a flexible, non-parametric framework for the approximation of functions in high-dimensional spaces. The covariance kernel is the main engine of Gaussian processes, incorporating correlations that underpin the predictive distribution. For applications with spatiotemporal datasets, suitable kernels should model joint spatial and temporal dependence. Separable space-time covariance kernels offer simplicity and computational efficiency. However, non-separable kernels include space-time interactions that better capture observed correlations. Most non-separable kernels that admit explicit expressions are based on mathematical considerations (admissibility conditions) rather than first-principles derivations. We present a hybrid spectral approach for generating covariance kernels which is based on physical arguments. We use this approach to derive a new class of physically motivated, non-separable covariance kernels which have their roots in the stochastic, linear, damped, harmonic oscillator (LDHO). The new kernels incorporate functions with both monotonic and oscillatory decay of space-time correlations. The LDHO covariance kernels involve space-time interactions which are introduced by dispersion relations that modulate the oscillator coefficients. We derive explicit relations for the spatiotemporal covariance kernels in the three oscillator regimes (underdamping, critical damping, overdamping) and investigate their properties.
翻訳日:2023-08-23 01:34:50 公開日:2023-08-20
# videoflow: 時間的手がかりを利用した多フレーム光流推定

VideoFlow: Exploiting Temporal Cues for Multi-frame Optical Flow Estimation ( http://arxiv.org/abs/2303.08340v3 )

ライセンス: Link先を確認
Xiaoyu Shi, Zhaoyang Huang, Weikang Bian, Dasong Li, Manyuan Zhang, Ka Chun Cheung, Simon See, Hongwei Qin, Jifeng Dai, Hongsheng Li(参考訳) ビデオのための新しい光フロー推定フレームワークであるVideoFlowを紹介する。 2つのフレームから光の流れを推定することを学ぶ従来の方法とは対照的に、videoflowは時間的手がかりを十分に活用してビデオで利用可能な複数のフレームの双方向光フローを同時推定する。 まず、TRiフレーム光フロー(TROF)モジュールを提案し、3フレーム方式で中央フレームの双方向光フローを推定する。 フレームトリプルトの情報は、中心フレームに反復的に融合される。 より多くのフレームを扱うためのTROFを拡張するために,複数のTROFをブリッジし,隣接するTROF間での動作特徴を伝搬するMOPモジュールを提案する。 反復流量推定補正により、個々のTROFに融合した情報をMOPを介して全シーケンスに伝播することができる。 ビデオ情報を効果的に活用することで、VideoFlowは素晴らしいパフォーマンスを示し、すべての公開ベンチマークで1位にランクインする。 sintelベンチマークでは、videoflow は最終パスとクリーンパスで 1.649 と 0.991 の end-point-error (aepe) を達成し、ベストパブリッシング結果 (flowformer++ による 1.943 と 1.073 ) から 15.1% と 7.6% のエラー低減を達成した。 KITTI-2015ベンチマークでは、VideoFlowがF1-allエラーを3.65%達成し、最高の結果から19.2%エラーを削減した(FlowFormer++の4.52%)。 コードは \url{https://github.com/xiaoyushi97/videoflow} でリリースされる。

We introduce VideoFlow, a novel optical flow estimation framework for videos. In contrast to previous methods that learn to estimate optical flow from two frames, VideoFlow concurrently estimates bi-directional optical flows for multiple frames that are available in videos by sufficiently exploiting temporal cues. We first propose a TRi-frame Optical Flow (TROF) module that estimates bi-directional optical flows for the center frame in a three-frame manner. The information of the frame triplet is iteratively fused onto the center frame. To extend TROF for handling more frames, we further propose a MOtion Propagation (MOP) module that bridges multiple TROFs and propagates motion features between adjacent TROFs. With the iterative flow estimation refinement, the information fused in individual TROFs can be propagated into the whole sequence via MOP. By effectively exploiting video information, VideoFlow presents extraordinary performance, ranking 1st on all public benchmarks. On the Sintel benchmark, VideoFlow achieves 1.649 and 0.991 average end-point-error (AEPE) on the final and clean passes, a 15.1% and 7.6% error reduction from the best-published results (1.943 and 1.073 from FlowFormer++). On the KITTI-2015 benchmark, VideoFlow achieves an F1-all error of 3.65%, a 19.2% error reduction from the best-published result (4.52% from FlowFormer++). Code is released at \url{https://github.com/XiaoyuShi97/VideoFlow}.
翻訳日:2023-08-23 01:25:23 公開日:2023-08-20
# NeTO:自己閉塞を意識した透明物体のニューラル再構築

NeTO:Neural Reconstruction of Transparent Objects with Self-Occlusion Aware Refraction-Tracing ( http://arxiv.org/abs/2303.11219v3 )

ライセンス: Link先を確認
Zongcheng Li, Xiaoxiao Long, Yusen Wang, Tuo Cao, Wenping Wang, Fei Luo and Chunxia Xiao(参考訳) 本稿では,2次元画像から立体透明物体の3次元形状をボリュームレンダリングにより捉えるnetoという新しい手法を提案する。 透明物体の再構成は非常に困難な作業であり、光輸送現象による汎用的な再構築技術には不適当である。 この課題のために特別に設計された既存の屈折トラッキングベースの手法は印象的な結果をもたらすが、彼らが採用した明示的な表面表現は最適化が困難であり、自己遮蔽問題は屈折トラッシングでは無視されるため、依然として不安定な最適化と細部の減少に苦しむ。 本稿では,暗黙的符号距離関数(SDF)を表面表現として活用し,自己閉塞型屈折線トレーシングによるボリュームレンダリングによるSDFフィールドの最適化を提案する。 暗黙的表現により,限られた画像でも高品質な再構築が可能となり,自己排他的認識戦略により,自己排他的領域を正確に再構築することが可能となった。 実験により,本手法が忠実な再構築結果を達成し,先行研究よりも大きなマージンで上回ることを示した。 プロジェクトページは \url{https://www.xxlong.site/NeTO/} にある。

We present a novel method, called NeTO, for capturing 3D geometry of solid transparent objects from 2D images via volume rendering. Reconstructing transparent objects is a very challenging task, which is ill-suited for general-purpose reconstruction techniques due to the specular light transport phenomena. Although existing refraction-tracing based methods, designed specially for this task, achieve impressive results, they still suffer from unstable optimization and loss of fine details, since the explicit surface representation they adopted is difficult to be optimized, and the self-occlusion problem is ignored for refraction-tracing. In this paper, we propose to leverage implicit Signed Distance Function (SDF) as surface representation, and optimize the SDF field via volume rendering with a self-occlusion aware refractive ray tracing. The implicit representation enables our method to be capable of reconstructing high-quality reconstruction even with a limited set of images, and the self-occlusion aware strategy makes it possible for our method to accurately reconstruct the self-occluded regions. Experiments show that our method achieves faithful reconstruction results and outperforms prior works by a large margin. Visit our project page at \url{https://www.xxlong.site/NeTO/}
翻訳日:2023-08-23 00:47:21 公開日:2023-08-20
# stylediffusion:テキストベースの編集のためのプロンプトエンベディングインバージョン

StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing ( http://arxiv.org/abs/2303.15649v2 )

ライセンス: Link先を確認
Senmao Li, Joost van de Weijer, Taihang Hu, Fahad Shahbaz Khan, Qibin Hou, Yaxing Wang, Jian Yang(参考訳) 重要な研究は、画像編集のための事前訓練された拡散モデルの驚くべきキャパシティを活用することに焦点を当てている。 彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。 しかし,(1)選抜地域における不満足な結果と,非選抜地域における予期せぬ変化の2つの問題に苦しむ。 2) 入力画像にすべての視覚オブジェクトを含める場合には, 注意深いテキストプロンプトの編集が必要である。 そこで本研究では,(1)有向層における値線形ネットワークの入力を最適化するだけで,実画像の再構成に十分強力である,という2つの改良点を提案する。 2) 対象に類似した注意図を編集後保存するための注意規則化を提案し, 重要な構造的変化を招くことなく, 正確なスタイルの編集を行えるようにした。 さらに,分類器なし指導の無条件分岐に用いる編集技術や,p2pが使用する条件分岐技術も改良した。 様々な画像に対する広範囲な実験的なプロンプト編集結果から,本手法が既存および同時処理よりも優れた編集能力を有することを示す。

A significant research effort is focused on exploiting the amazing capacities of pretrained diffusion models for the editing of images. They either finetune the model, or invert the image in the latent space of the pretrained model. However, they suffer from two problems: (1) Unsatisfying results for selected regions, and unexpected changes in nonselected regions. (2) They require careful text prompt editing where the prompt should include all visual objects in the input image. To address this, we propose two improvements: (1) Only optimizing the input of the value linear network in the cross-attention layers, is sufficiently powerful to reconstruct a real image. (2) We propose attention regularization to preserve the object-like attention maps after editing, enabling us to obtain accurate style editing without invoking significant structural changes. We further improve the editing technique which is used for the unconditional branch of classifier-free guidance, as well as the conditional one as used by P2P. Extensive experimental prompt-editing results on a variety of images, demonstrate qualitatively and quantitatively that our method has superior editing capabilities than existing and concurrent works.
翻訳日:2023-08-23 00:25:33 公開日:2023-08-20
# 分布シフトを考慮した学習率スケジュール

Learning Rate Schedules in the Presence of Distribution Shift ( http://arxiv.org/abs/2303.15634v2 )

ライセンス: Link先を確認
Matthew Fahrbach, Adel Javanmard, Vahab Mirrokni, Pratik Worah(参考訳) 我々は,SGDに基づくオンライン学習において,変化するデータ分布の存在下での後悔を最小限に抑える学習率スケジュールを設計する。 確率微分方程式を用いた新しい解析により,オンライン線形回帰に対する最適学習率スケジュールを特徴付ける。 一般凸損失関数に対して,分布シフトに頑健な新しい学習率スケジュールを提案し,定数によってのみ異なる後悔に対して上限と下限を与える。 非凸損失関数に対しては、推定モデルの勾配ノルムに基づいて後悔の概念を定義し、予想される全後悔の上限を最小化する学習スケジュールを提案する。 直感的には、より多くの探索を必要とするような損失景観の変化を期待し、最適学習率スケジュールが典型的には分布シフトの有無で増加することを確認します。 最後に,高次元回帰モデルとニューラルネットワークに関する実験を行い,学習率のスケジュールとその累積的後悔を説明する。

We design learning rate schedules that minimize regret for SGD-based online learning in the presence of a changing data distribution. We fully characterize the optimal learning rate schedule for online linear regression via a novel analysis with stochastic differential equations. For general convex loss functions, we propose new learning rate schedules that are robust to distribution shift and we give upper and lower bounds for the regret that only differ by constants. For non-convex loss functions, we define a notion of regret based on the gradient norm of the estimated models and propose a learning schedule that minimizes an upper bound on the total expected regret. Intuitively, one expects changing loss landscapes to require more exploration, and we confirm that optimal learning rate schedules typically increase in the presence of distribution shift. Finally, we provide experiments for high-dimensional regression models and neural networks to illustrate these learning rate schedules and their cumulative regret.
翻訳日:2023-08-23 00:25:13 公開日:2023-08-20
# 運動的不確実性関係のためのSLDフィッシャー情報

SLD Fisher information for kinetic uncertainty relations ( http://arxiv.org/abs/2303.13417v3 )

ライセンス: Link先を確認
Satoshi Nakajima and Yasuhiro Utsumi(参考訳) 我々は、GKSL量子マスター方程式で記述されたオープン量子系の運動不確実性関係(KUR)に対する対称対数微分(SLD)フィッシャー情報について、詳細なバランス条件を伴わずに検討する。 Vu と Saito [Phys. Lett. 128, 140602 (2022)] によって導かれる量子論的不確実性関係では、時間再スケーリングパラメータを持つ量子軌道の確率のフィッシャー情報が重要な役割を果たす。 この漁師情報は、sldフィッシャー情報によって上限されている。 有限時間および任意の初期状態において、二重時間積分であり、結合した一階微分方程式を解くことで計算できるSLD Fisher情報の簡潔な表現を導出する。 また、量子軌道のフィッシャー情報の単純な下限も導出する。 また, 長谷川によるマンデルスタム・タム関係(14, 2828 (2023))に基づいて, SLD Fisher の情報も速度限界に現れることを指摘した。 ジャンプ作用素がハミルトニアン系の固有状態と接続すると、相互作用図のバーズ角は、古典的なものと対照的な、短時間の力学活性の平方根によって上界に有界であることを示す。

We investigate a symmetric logarithmic derivative (SLD) Fisher information for kinetic uncertainty relations (KURs) of open quantum systems described by the GKSL quantum master equation with and without the detailed balance condition. In a quantum kinetic uncertainty relation derived by Vu and Saito [Phys. Rev. Lett. 128, 140602 (2022)], the Fisher information of probability of quantum trajectory with a time-rescaling parameter plays an essential role. This Fisher information is upper bounded by the SLD Fisher information. For a finite time and arbitrary initial state, we derive a concise expression of the SLD Fisher information, which is a double time integral and can be calculated by solving coupled first-order differential equations. We also derive a simple lower bound of the Fisher information of quantum trajectory. We point out that the SLD Fisher information also appears in the speed limit based on the Mandelstam-Tamm relation by Hasegawa [Nat. Commun. 14, 2828 (2023)]. When the jump operators connect eigenstates of the system Hamiltonian, we show that the Bures angle in the interaction picture is upper bounded by the square root of the dynamical activity at short times, which contrasts with the classical counterpart.
翻訳日:2023-08-23 00:23:16 公開日:2023-08-20
# Tetra-NeRF:Tetrahedraを用いたニューラルラジアンスフィールドの表現

Tetra-NeRF: Representing Neural Radiance Fields Using Tetrahedra ( http://arxiv.org/abs/2304.09987v3 )

ライセンス: Link先を確認
Jonas Kulhanek and Torsten Sattler(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、新しいビュー合成と3次元再構成の問題に対して、非常に最近かつ非常にポピュラーなアプローチである。 NeRFの一般的なシーン表現は、シーンの均一なボクセルベースのサブディビジョンとMPPを組み合わせることである。 本稿では,シーンの(スパース)点雲がしばしば利用できるという観測に基づいて,一様部分分割や点ベース表現の代わりに,デラウネー三角法により得られるテトラヘドラに基づく適応表現を提案する。 このような表現が効率的なトレーニングを可能にし,最先端の成果をもたらすことを示す。 提案手法は, 3次元幾何処理, 三角形ベースのレンダリング, 現代のニューラル放射場の概念をエレガントに組み合わせる。 voxelベースの表現と比較すると、私達は表面に近いと思われるシーンの一部についてより詳細な情報を提供している。 点ベース表現と比較して,本手法は性能が向上する。 ソースコードは、https://jkulhanek.com/tetra-nerf.comで公開されている。

Neural Radiance Fields (NeRFs) are a very recent and very popular approach for the problems of novel view synthesis and 3D reconstruction. A popular scene representation used by NeRFs is to combine a uniform, voxel-based subdivision of the scene with an MLP. Based on the observation that a (sparse) point cloud of the scene is often available, this paper proposes to use an adaptive representation based on tetrahedra obtained by Delaunay triangulation instead of uniform subdivision or point-based representations. We show that such a representation enables efficient training and leads to state-of-the-art results. Our approach elegantly combines concepts from 3D geometry processing, triangle-based rendering, and modern neural radiance fields. Compared to voxel-based representations, ours provides more detail around parts of the scene likely to be close to the surface. Compared to point-based representations, our approach achieves better performance. The source code is publicly available at: https://jkulhanek.com/tetra-nerf.
翻訳日:2023-08-23 00:14:42 公開日:2023-08-20
# DiffFacto: クロス拡散による制御可能なパーツベース3Dポイントクラウド生成

DiffFacto: Controllable Part-Based 3D Point Cloud Generation with Cross Diffusion ( http://arxiv.org/abs/2305.01921v3 )

ライセンス: Link先を確認
Kiyohiro Nakayama, Mikaela Angelina Uy, Jiahui Huang, Shi-Min Hu, Ke Li, Leonidas J Guibas(参考訳) 3dポイントクラウド生成のコミュニティは近年大きな成長を遂げているものの、生成プロセスにおいて直感的なユーザ制御を可能にする効果的な方法が不足しているため、そのような方法の汎用性が制限されている。 形状を直感的に分解する方法はその部分を通して行われるので,制御可能な部分ベースの点雲生成の課題に取り組むことを提案する。 DiffFactoは,部品レベルの制御で形状の分布を学習する新しい確率的生成モデルである。 本稿では,独立な部分分布と部分構成の分布をモデル化した因子化を提案し,提案する因子化の下で整合性および可塑性形状を生成できる新しい相互拡散ネットワークを提案する。 実験により,複数軸の制御により新たな形状を生成できることが確認された。 最先端の部品レベルの生成品質を実現し、形状補間、混合、変換編集といった様々な下流編集アプリケーションを可能にしながら、妥当でコヒーレントな形状を生成する。 プロジェクトwebサイト: https://difffacto.github.io/

While the community of 3D point cloud generation has witnessed a big growth in recent years, there still lacks an effective way to enable intuitive user control in the generation process, hence limiting the general utility of such methods. Since an intuitive way of decomposing a shape is through its parts, we propose to tackle the task of controllable part-based point cloud generation. We introduce DiffFacto, a novel probabilistic generative model that learns the distribution of shapes with part-level control. We propose a factorization that models independent part style and part configuration distributions and presents a novel cross-diffusion network that enables us to generate coherent and plausible shapes under our proposed factorization. Experiments show that our method is able to generate novel shapes with multiple axes of control. It achieves state-of-the-art part-level generation quality and generates plausible and coherent shapes while enabling various downstream editing applications such as shape interpolation, mixing, and transformation editing. Project website: https://difffacto.github.io/
翻訳日:2023-08-23 00:06:49 公開日:2023-08-20
# FedAVO:アフリカの変数最適化によるフェデレーション学習におけるコミュニケーション効率の向上

FedAVO: Improving Communication Efficiency in Federated Learning with African Vultures Optimizer ( http://arxiv.org/abs/2305.01154v2 )

ライセンス: Link先を確認
Md Zarif Hossain, Ahmed Imteaj(参考訳) 分散機械学習技術であるfederated learning(fl)は最近、ユーザデータのプライバシを重視した人気が高まっている。 しかし、FLの分散計算は制約のある通信と引き抜き学習プロセスをもたらし、クライアント・サーバ間の通信コストの最適化を必要とする。 選択したクライアントの比率とローカルトレーニングパスの量は、FL性能に大きな影響を及ぼす2つのハイパーパラメータである。 様々なアプリケーションで異なるトレーニング好みを持つため、fl実践者がそのようなハイパーパラメータを手動で選択することは困難である。 本稿では,アフリカ・ヴァルチャー・オプティマイザ(AVO)を利用した最適なハイパーパラメータを選択することで,通信効率を向上させる新しいFLアルゴリズムであるFedAVOを紹介する。 本研究は,FL の過パラメータ調整に AVO を採用することにより,FL 操作に関連する通信コストを大幅に削減できることを実証する。 ベンチマークデータセット上でのFedAVOの広範な評価を通じて、FedAVOはモデル精度と通信ラウンドにおいて、特に非IIDデータセットの現実的なケースにおいて、大幅な改善を実現していることを示す。 FedAVOアルゴリズムの広範な評価により、ベンチマークデータセットに適切に適合する最適なハイパーパラメータを特定し、最終的には最先端のFLアルゴリズム(FedAvg、FedProx、FedPSOなど)と比較して、グローバルモデルの精度を6%向上する。

Federated Learning (FL), a distributed machine learning technique has recently experienced tremendous growth in popularity due to its emphasis on user data privacy. However, the distributed computations of FL can result in constrained communication and drawn-out learning processes, necessitating the client-server communication cost optimization. The ratio of chosen clients and the quantity of local training passes are two hyperparameters that have a significant impact on FL performance. Due to different training preferences across various applications, it can be difficult for FL practitioners to manually select such hyperparameters. In our research paper, we introduce FedAVO, a novel FL algorithm that enhances communication effectiveness by selecting the best hyperparameters leveraging the African Vulture Optimizer (AVO). Our research demonstrates that the communication costs associated with FL operations can be substantially reduced by adopting AVO for FL hyperparameter adjustment. Through extensive evaluations of FedAVO on benchmark datasets, we show that FedAVO achieves significant improvement in terms of model accuracy and communication round, particularly with realistic cases of Non-IID datasets. Our extensive evaluation of the FedAVO algorithm identifies the optimal hyperparameters that are appropriately fitted for the benchmark datasets, eventually increasing global model accuracy by 6% in comparison to the state-of-the-art FL algorithms (such as FedAvg, FedProx, FedPSO, etc.).
翻訳日:2023-08-23 00:06:31 公開日:2023-08-20
# MPI-rical:データ駆動型MPI分散並列処理支援

MPI-rical: Data-Driven MPI Distributed Parallelism Assistance with Transformers ( http://arxiv.org/abs/2305.09438v2 )

ライセンス: Link先を確認
Nadav Schneider, Tal Kadosh, Niranjan Hasabnis, Timothy Mattson, Yuval Pinter, Gal Oren(参考訳) 共有および分散メモリシステムのためのシリアルコードのソース間自動並列化は、高性能コンピューティングにおいて難しい課題である。 シリアルコードを共有メモリ環境(通常openmpを使用する)のために並列コードに変換する多くの試みが行われたが、分散メモリ環境ではそうはならなかった。 本稿では,約25,000個のシリアルコードスニペットと対応する5万以上のコードスニペット(MPICodeCorpus)でトレーニングされたトランスフォーマベースモデルを用いて,MPI-ricalと呼ばれる新しいMPIコード生成手法を提案する。 モデルの性能を評価するために、まずシリアルコードをMPIベースの並列コード変換問題に分解し、2つのサブプロブレムに分割し、ソースコード中の与えられた位置として定義されたコード補完、その位置のためのMPI関数の予測、ソースコード内の位置とともにMPI関数の予測として定義されたコード翻訳の2つの研究目標を開発する。 MPICodeCorpusデータセットと実世界の科学的コードベンチマークでMPI-ricalを評価し、コード補完と翻訳タスクのパフォーマンスを比較した。 実験の結果、MPI-ricalはコード翻訳タスクよりもコード補完タスクの方が優れているが、後者は実世界のプログラミング支援に適しており、ツールは事前の知識に関係なくMPI関数の必要性を示唆している。 全体として、我々のアプローチは、分散メモリシステムのためのシリアルコードの並列化を自動化するための重要な一歩であり、ソフトウェア開発者や研究者にとって貴重な時間とリソースを節約できます。 この作業で使用されたソースコードと他の関連するソースは、https://github.com/Scientific-Computing-Lab-NRCN/MPI-rical.comで公開されている。

Automatic source-to-source parallelization of serial code for shared and distributed memory systems is a challenging task in high-performance computing. While many attempts were made to translate serial code into parallel code for a shared memory environment (usually using OpenMP), none has managed to do so for a distributed memory environment. In this paper, we propose a novel approach, called MPI-rical, for automated MPI code generation using a transformer-based model trained on approximately 25,000 serial code snippets and their corresponding parallelized MPI code out of more than 50,000 code snippets in our corpus (MPICodeCorpus). To evaluate the performance of the model, we first break down the serial code to MPI-based parallel code translation problem into two sub-problems and develop two research objectives: code completion defined as given a location in the source code, predict the MPI function for that location, and code translation defined as predicting an MPI function as well as its location in the source code. We evaluate MPI-rical on MPICodeCorpus dataset and on real-world scientific code benchmarks and compare its performance between the code completion and translation tasks. Our experimental results show that while MPI-rical performs better on the code completion task than the code translation task, the latter is better suited for real-world programming assistance, in which the tool suggests the need for an MPI function regardless of prior knowledge. Overall, our approach represents a significant step forward in automating the parallelization of serial code for distributed memory systems, which can save valuable time and resources for software developers and researchers. The source code used in this work, as well as other relevant sources, are available at: https://github.com/Scientific-Computing-Lab-NRCN/MPI-rical
翻訳日:2023-08-22 23:54:42 公開日:2023-08-20
# Pairwise Degradation Feature Vector Guidanceによる低照度画像のアンロック

Unlocking Low-Light-Rainy Image Restoration by Pairwise Degradation Feature Vector Guidance ( http://arxiv.org/abs/2305.03997v2 )

ライセンス: Link先を確認
Xin Lin and Jingtong Yue and Sixian Ding and Chao Ren and Chun-Le Guo and Chongyi Li(参考訳) 暗闇の中の雨は一般的な自然現象である。 このような状態で撮影された写真は、自律運転、監視システム、夜間撮影など、様々な夜間活動のパフォーマンスに大きな影響を及ぼす。 既成の低光度増光・減光は有望な性能を示すが、低光度化と降雨除去を同時に行うには限界がある。 さらに,「低照度化」などのカスケード手法を用いることで,降雨パターンや過度にぼやけた画像や過度に露出した画像の処理が困難になる可能性がある。 これらの制約を克服するために、低照度化とデライニングを両立できる$L^{2}RIRNet$というエンドツーエンドネットワークを提案する。 我々のネットワークは主に、Pairwise Degradation Feature Vector extract Network (P-Net)とRecovery Network (R-Net)を含む。 P-Netは、画像復元プロセスのガイドとしてコントラスト学習を用いて、暗黒領域と光領域の劣化特徴ベクトルを別々に学習することができる。 R-Netはイメージの復元に責任がある。 また, 劣化情報ではなく, テクスチャの詳細情報に焦点をあてたディテール画像を用いて, 画像復元を誘導するFast Fourier - ResNet Detail Guidance Module (FFR-DG) を導入する。 さらに,合成および実世界の低照度画像を含むデータセットも提供した。 広範な実験によって、$l^{2}rirnet$は、合成と複雑な実世界のシナリオの両方において既存のメソッドよりも優れています。

Rain in the dark is a common natural phenomenon. Photos captured in such a condition significantly impact the performance of various nighttime activities, such as autonomous driving, surveillance systems, and night photography. While existing methods designed for low-light enhancement or deraining show promising performance, they have limitations in simultaneously addressing the task of brightening low light and removing rain. Furthermore, using a cascade approach, such as ``deraining followed by low-light enhancement'' or vice versa, may lead to difficult-to-handle rain patterns or excessively blurred and overexposed images. To overcome these limitations, we propose an end-to-end network called $L^{2}RIRNet$ which can jointly handle low-light enhancement and deraining. Our network mainly includes a Pairwise Degradation Feature Vector Extraction Network (P-Net) and a Restoration Network (R-Net). P-Net can learn degradation feature vectors on the dark and light areas separately, using contrastive learning to guide the image restoration process. The R-Net is responsible for restoring the image. We also introduce an effective Fast Fourier - ResNet Detail Guidance Module (FFR-DG) that initially guides image restoration using detail image that do not contain degradation information but focus on texture detail information. Additionally, we contribute a dataset containing synthetic and real-world low-light-rainy images. Extensive experiments demonstrate that our $L^{2}RIRNet$ outperforms existing methods in both synthetic and complex real-world scenarios.
翻訳日:2023-08-22 23:53:20 公開日:2023-08-20
# 透かしを用いたAI生成コンテンツの検出

Evading Watermark based Detection of AI-Generated Content ( http://arxiv.org/abs/2305.03807v2 )

ライセンス: Link先を確認
Zhengyuan Jiang, Jinghuai Zhang, Neil Zhenqiang Gong(参考訳) 生成可能なAIモデルは、極めて現実的なコンテンツを生成することができ、情報の信頼性に対する課題が増大する。 この課題に対処するために、透かしを利用してAI生成コンテンツを検出する。 具体的には、リリース前にAI生成コンテンツに透かしを埋め込む。 類似の透かしをデコードできれば、コンテンツはAI生成として検出される。 本研究では,このような透かしに基づくAI生成コンテンツ検出の堅牢性に関する系統的研究を行う。 AI生成画像に焦点を当てる。 本研究は,視覚品質を維持したまま検出を回避できるような,人間に知覚できない小さな摂動を加えることで,後処理が可能なことを示す。 理論的にも経験的にも攻撃の有効性を示す。 さらに,検出を回避するために,AI生成画像の摂動をはるかに小さくし,JPEG圧縮やガウスアンボケ,明度/コントラストといった一般的な後処理方法よりも視覚的品質を向上する。 我々の研究は、既存の透かしに基づくAI生成コンテンツの検出が不十分であることを示し、新しい方法の緊急性を強調している。 我々のコードは公開されています: \url{https://github.com/zhengyuan-jiang/WEvade}。

A generative AI model can generate extremely realistic-looking content, posing growing challenges to the authenticity of information. To address the challenges, watermark has been leveraged to detect AI-generated content. Specifically, a watermark is embedded into an AI-generated content before it is released. A content is detected as AI-generated if a similar watermark can be decoded from it. In this work, we perform a systematic study on the robustness of such watermark-based AI-generated content detection. We focus on AI-generated images. Our work shows that an attacker can post-process a watermarked image via adding a small, human-imperceptible perturbation to it, such that the post-processed image evades detection while maintaining its visual quality. We show the effectiveness of our attack both theoretically and empirically. Moreover, to evade detection, our adversarial post-processing method adds much smaller perturbations to AI-generated images and thus better maintain their visual quality than existing popular post-processing methods such as JPEG compression, Gaussian blur, and Brightness/Contrast. Our work shows the insufficiency of existing watermark-based detection of AI-generated content, highlighting the urgent needs of new methods. Our code is publicly available: \url{https://github.com/zhengyuan-jiang/WEvade}.
翻訳日:2023-08-22 23:52:49 公開日:2023-08-20
# 表データによる深部異常検出のための個別入力

Beyond Individual Input for Deep Anomaly Detection on Tabular Data ( http://arxiv.org/abs/2305.15121v3 )

ライセンス: Link先を確認
Hugo Thimonier, Fabrice Popineau, Arpad Rimmel and Bich-Li\^en Doan(参考訳) 異常検出は金融、医療、サイバーセキュリティなど様々な分野において不可欠である。 本稿では,教師付きタスクのために最初に提案された非パラメトリックトランスフォーマ(npts)を利用して,特徴量とサンプル値の両方の依存関係をキャプチャする,新しい深層異常検出法を提案する。 再構成に基づくフレームワークでは,NPTをトレーニングし,通常のサンプルのマスキング特徴を再構築する。 非パラメトリックな方法では、推論中にトレーニングセット全体を活用し、マスクした特徴を再構成して異常スコアを生成するモデルの能力を利用する。 我々の知る限り,提案手法は,表付きデータセットにおける異常検出のための特徴特徴とサンプルサンプルの依存関係をうまく組み合わせる最初の方法である。 本手法は,31の表型データセットの広範なベンチマークで評価し,f1-score と auroc に基づく既存の最先端手法よりも優れた性能を示す。

Anomaly detection is crucial in various domains, such as finance, healthcare, and cybersecurity. In this paper, we propose a novel deep anomaly detection method for tabular data that leverages Non-Parametric Transformers (NPTs), a model initially proposed for supervised tasks, to capture both feature-feature and sample-sample dependencies. In a reconstruction-based framework, we train the NPT to reconstruct masked features of normal samples. In a non-parametric fashion, we leverage the whole training set during inference and use the model's ability to reconstruct the masked features to generate an anomaly score. To the best of our knowledge, our proposed method is the first to successfully combine feature-feature and sample-sample dependencies for anomaly detection on tabular datasets. We evaluate our method on an extensive benchmark of 31 tabular datasets and demonstrate that our approach outperforms by a significant margin existing state-of-the-art methods based on the F1-score and AUROC.
翻訳日:2023-08-22 23:45:26 公開日:2023-08-20
# 対話からのテキスト生成における話者名の感度の低減

Reducing Sensitivity on Speaker Names for Text Generation from Dialogues ( http://arxiv.org/abs/2305.13833v2 )

ライセンス: Link先を確認
Qi Jia, Haifeng Tang, Kenny Q. Zhu(参考訳) 対話を通して一貫して話者名を変更することは、対話からテキストを生成するための意味や対応する出力に影響を与えてはならない。 しかし、対話処理タスクのバックボーンとして機能する事前訓練された言語モデルはニュアンスに敏感であることが示されている。 これは現実世界のアプリケーションで不公平になる可能性がある。 この問題に関する包括的分析は過去に行われていない。 そこで本研究では,話者名に対するモデルの感度を定量的に測定し,話者名の感度を低減するための既知の手法を包括的に評価することを提案する。 複数のデータセットに対する大規模な実験は、この問題に対するベンチマークを提供し、感度低下と生成品質における我々のアプローチの好ましい性能を示す。

Changing speaker names consistently throughout a dialogue should not affect its meaning and corresponding outputs for text generation from dialogues. However, pre-trained language models, serving as the backbone for dialogue-processing tasks, have shown to be sensitive to nuances. This may result in unfairness in real-world applications. No comprehensive analysis of this problem has been done in the past. In this work, we propose to quantitatively measure a model's sensitivity on speaker names, and comprehensively evaluate a number of known methods for reducing speaker name sensitivity, including a novel approach of our own. Extensive experiments on multiple datasets provide a benchmark for this problem and show the favorable performance of our approach in sensitivity reduction and quality of generation.
翻訳日:2023-08-22 23:44:44 公開日:2023-08-20
# ログ解析:ChatGPTはどこまで使えるのか?

Log Parsing: How Far Can ChatGPT Go? ( http://arxiv.org/abs/2306.01590v2 )

ライセンス: Link先を確認
Van-Hoang Le and Hongyu Zhang(参考訳) ソフトウェアログは、しばしばランタイム情報の唯一のソースであるため、大規模ソフトウェアシステムの信頼性と保守性を保証する上で重要な役割を果たす。 生ログメッセージを構造化データに変換するログ解析は、下流ログ分析への重要なステップである。 最近の研究では、現在の最先端の大規模言語モデル(LLM)であるChatGPTが、幅広いソフトウェアエンジニアリングタスクに広く適用されている。 しかし、自動ログ解析のパフォーマンスは未だに不明である。 本稿では,ChatGPTが2つの研究課題に対処してログ解析を行う能力を評価する。 1) ChatGPT はログを効果的に解析できるか? (2) ChatGPTは、異なるプロンプトメソッドでどのように動作するか? 以上の結果から,ChatGPTはログ解析において,特に数発のプロンプトで,適切なプロンプトで有望な結果が得られることがわかった。 本稿では,ChatGPTに基づくログ解析の課題と可能性について概説する。

Software logs play an essential role in ensuring the reliability and maintainability of large-scale software systems, as they are often the sole source of runtime information. Log parsing, which converts raw log messages into structured data, is an important initial step towards downstream log analytics. In recent studies, ChatGPT, the current cutting-edge large language model (LLM), has been widely applied to a wide range of software engineering tasks. However, its performance in automated log parsing remains unclear. In this paper, we evaluate ChatGPT's ability to undertake log parsing by addressing two research questions. (1) Can ChatGPT effectively parse logs? (2) How does ChatGPT perform with different prompting methods? Our results show that ChatGPT can achieve promising results for log parsing with appropriate prompts, especially with few-shot prompting. Based on our findings, we outline several challenges and opportunities for ChatGPT-based log parsing.
翻訳日:2023-08-22 23:35:00 公開日:2023-08-20
# NeuroGF: 高速測地距離と経路クエリのためのニューラル表現

NeuroGF: A Neural Representation for Fast Geodesic Distance and Path Queries ( http://arxiv.org/abs/2306.00658v2 )

ライセンス: Link先を確認
Qijian Zhang, Junhui Hou, Yohanes Yudhi Adikusuma, Wenping Wang, Ying He(参考訳) 測地学は幾何処理の多くの応用において必須である。 しかし、3dメッシュモデル上で測地距離や経路を計算する従来のアルゴリズムはしばしば非効率で遅い。 これにより、任意の点から点への測地線を広範囲に問合せする必要のあるシナリオでは実用的でない。 ニューラル暗示表現は3次元形状の幾何学を表現する一般的な方法として現れているが、深い暗示関数を持つ測地学を表現する研究はいまだにない。 このギャップを埋めるために,ニューラル暗黙関数を用いた3次元メッシュモデル上での測地学の表現を初めて試みる。 具体的には,与えられたメッシュの全ペア測地線を表現するために学習されるニューラルジオデシックフィールド(neurogfs)を導入する。 ニューロgfを用いることで,従来のアルゴリズムの限界を克服し,任意の測地距離と経路の問合せを効率的に正確に解くことができる。 一般的な3Dモデルによる評価では、NeuroGFsは単一ソースのオールデスティネーション(SSAD)とポイント・ツー・ポイントのジオデシクスを解くのに優れた性能を示し、常に高い精度を達成する。 さらに、NeuroGFsは3次元幾何学と測地学の両方を統一表現で符号化するユニークな利点も提供する。 さらに、形状特徴エンコーダを追加することにより、NuroGFの一般化可能な学習フレームワークをさらに拡張し、不明瞭な形状やカテゴリに対して満足な性能を示す。 コードはhttps://github.com/keeganhk/neurogf/tree/masterで入手できる。

Geodesics are essential in many geometry processing applications. However, traditional algorithms for computing geodesic distances and paths on 3D mesh models are often inefficient and slow. This makes them impractical for scenarios that require extensive querying of arbitrary point-to-point geodesics. Although neural implicit representations have emerged as a popular way of representing 3D shape geometries, there is still no research on representing geodesics with deep implicit functions. To bridge this gap, this paper presents the first attempt to represent geodesics on 3D mesh models using neural implicit functions. Specifically, we introduce neural geodesic fields (NeuroGFs), which are learned to represent the all-pairs geodesics of a given mesh. By using NeuroGFs, we can efficiently and accurately answer queries of arbitrary point-to-point geodesic distances and paths, overcoming the limitations of traditional algorithms. Evaluations on common 3D models show that NeuroGFs exhibit exceptional performance in solving the single-source all-destination (SSAD) and point-to-point geodesics, and achieve high accuracy consistently. Besides, NeuroGFs also offer the unique advantage of encoding both 3D geometry and geodesics in a unified representation. Moreover, we further extend generalizable learning frameworks of NeuroGFs by adding shape feature encoders, which also show satisfactory performances for unseen shapes and categories. Code is made available at https://github.com/keeganhk/NeuroGF/tree/master.
翻訳日:2023-08-22 23:33:50 公開日:2023-08-20
# 二重機械学習推定器の速度二重燃焼度推定リーンファルシフィケーション試験

Assumption-lean falsification tests of rate double-robustness of double-machine-learning estimators ( http://arxiv.org/abs/2306.10590v3 )

ライセンス: Link先を確認
Lin Liu and Rajarshi Mukherjee and James M. Robins(参考訳) Rotnitzky et al. (2021) によって研究された二重ロバスト(DR)関数のクラスは、経済学と生物統計学において中心的な重要性を持つ。 厳密には、(i) chernozhukovらによって研究された条件付き期待のアフィン汎関数の期待として書ける平均二乗連続汎函数のクラス(2022b)と、robinsらによって研究された函数のクラス(2008年)の両方を含む。 現在、DR関数の最先端推定器$\psi$はダブルマシンラーニング(DML)推定器である(Chernozhukov et al., 2018)。 DML 推定器 $\widehat{\psi}_{1}$ of $\psi$ は、推定値 $\widehat{p} (x)$ と $\widehat{b} (x)$ の2つのニュアンス関数 $p(x)$ と $b(x)$ に依存する。 達成可能ならば、我々の科学的目標は、$\widehat{\psi}_{1}$を中心として、名目$(1 - \alpha)$ Wald confidence interval (CI)の妥当性の、有効な仮定リーン(すなわち、$b$または$p$の複雑性を減少させる仮定)を構築することであった。 しかし、これはバイアスのテストが$o (n^{-1/2})$でなければならず、それは存在しないことを示すことができる。 したがって、可能であればアナリストが報告された$(1 - \alpha)$ wald ci が有効であるという主張を正当化するという野心的でない目標を採用する。 多くの場合、アナリストは複雑性を減少させる仮定を$b$と$p$に課すことで、彼女の主張を正当化する。 ここでは、H_{0}$: "rate double-robustness hold" の仮定型テストが有効で、ある代替品に対して自明なパワーを持つことを示す。 もし$H_{0}$が却下されたら、彼女の正当化を偽造する。 しかし、我々のものを含め、$H_{0}$の仮定リーンテストは、一貫したテストではあり得ない。 したがって、テストの拒絶の失敗は$h_{0}$に有利な意味のある証拠ではない。

The class of doubly-robust (DR) functionals studied by Rotnitzky et al. (2021) is of central importance in economics and biostatistics. It strictly includes both (i) the class of mean-square continuous functionals that can be written as an expectation of an affine functional of a conditional expectation studied by Chernozhukov et al. (2022b) and the class of functionals studied by Robins et al. (2008). The present state-of-the-art estimators for DR functionals $\psi$ are double-machine-learning (DML) estimators (Chernozhukov et al., 2018). A DML estimator $\widehat{\psi}_{1}$ of $\psi$ depends on estimates $\widehat{p} (x)$ and $\widehat{b} (x)$ of a pair of nuisance functions $p(x)$ and $b(x)$, and is said to satisfy "rate double-robustness" if the Cauchy--Schwarz upper bound of its bias is $o (n^{- 1/2})$. Were it achievable, our scientific goal would have been to construct valid, assumption-lean (i.e. no complexity-reducing assumptions on $b$ or $p$) tests of the validity of a nominal $(1 - \alpha)$ Wald confidence interval (CI) centered at $\widehat{\psi}_{1}$. But this would require a test of the bias to be $o (n^{-1/2})$, which can be shown not to exist. We therefore adopt the less ambitious goal of falsifying, when possible, an analyst's justification for her claim that the reported $(1 - \alpha)$ Wald CI is valid. In many instances, an analyst justifies her claim by imposing complexity-reducing assumptions on $b$ and $p$ to ensure "rate double-robustness". Here we exhibit valid, assumption-lean tests of $H_{0}$: "rate double-robustness holds", with non-trivial power against certain alternatives. If $H_{0}$ is rejected, we will have falsified her justification. However, no assumption-lean test of $H_{0}$, including ours, can be a consistent test. Thus, the failure of our test to reject is not meaningful evidence in favor of $H_{0}$.
翻訳日:2023-08-22 23:26:01 公開日:2023-08-20
# 局所固有次元を用いた深部拡散モデルによる画像の検出

Detecting Images Generated by Deep Diffusion Models using their Local Intrinsic Dimensionality ( http://arxiv.org/abs/2307.02347v5 )

ライセンス: Link先を確認
Peter Lorenz, Ricard Durall and Janis Keuper(参考訳) 近年,非常にリアルな画像の視覚的合成に拡散モデルが適用されている。 これにより、悪質な目的に対する潜在的な懸念が高まる。 本稿では,合成画像の自動検出とそれに基づく生成ネットワークの同定のために,元来,敵対例の検出の文脈で開発された軽量なマルチローカル固有次元(multiLID)を提案する。 GAN生成画像に対してのみ動作する多くの既存の検出手法とは対照的に,提案手法は現実的なユースケースの多くにおいて,ほぼ完璧な検出結果を提供する。 既知のデータセットと新たに作成されたデータセットに関する広範な実験は、提案手法が拡散検出とモデル同定において優れていることを示している。 生成画像の検出に関する最近の出版物の実証的評価は、主に「lsun-bedroom」データセットに焦点を当てているため、画像サイズが異なる複数の拡散モデルからのサンプルを含む拡散生成画像の検出に関する包括的なベンチマークを確立する。

Diffusion models recently have been successfully applied for the visual synthesis of strikingly realistic appearing images. This raises strong concerns about their potential for malicious purposes. In this paper, we propose using the lightweight multi Local Intrinsic Dimensionality (multiLID), which has been originally developed in context of the detection of adversarial examples, for the automatic detection of synthetic images and the identification of the according generator networks. In contrast to many existing detection approaches, which often only work for GAN-generated images, the proposed method provides close to perfect detection results in many realistic use cases. Extensive experiments on known and newly created datasets demonstrate that the proposed multiLID approach exhibits superiority in diffusion detection and model identification. Since the empirical evaluations of recent publications on the detection of generated images are often mainly focused on the "LSUN-Bedroom" dataset, we further establish a comprehensive benchmark for the detection of diffusion-generated images, including samples from several diffusion models with different image sizes.
翻訳日:2023-08-22 23:15:51 公開日:2023-08-20
# 複数のカメラビューからの監視映像におけるMILによる異常検出

A MIL Approach for Anomaly Detection in Surveillance Videos from Multiple Camera Views ( http://arxiv.org/abs/2307.00562v2 )

ライセンス: Link先を確認
Silas Santiago Lopes Pereira, Jos\'e Everardo Bessa Maia(参考訳) 閉塞と乱れは、監視ビデオで異常を検出するのが難しくなる2つのシーン状態である。 さらに、異常事象は稀であり、結果として、クラス不均衡とラベル付き異常データの欠如もこの課題の重要な特徴である。 そのため、この用途には弱い教師付き手法が深く研究されている。 本稿では、ラベルの欠如に対処するためにMIL(Multiple Instance Learning)とMC(Multiple Camera Views)を組み合わせることで、監視ビデオにおける異常検出の典型的な問題に取り組む。 得られたMC-MILアルゴリズムでは、SultaniのMILランキング関数を用いた回帰ネットワークのトレーニングに多重カメラ複合損失関数を適用した。 ここで最初に提案されたMC-MILアルゴリズムを評価するために、複数のカメラビューからの異常検出タスクに対して、複数のカメラPETS-2009ベンチマークデータセットを再ラベルした。 その結果、シングルカメラ構成に比べてF1スコアが大幅に向上した。

Occlusion and clutter are two scene states that make it difficult to detect anomalies in surveillance video. Furthermore, anomaly events are rare and, as a consequence, class imbalance and lack of labeled anomaly data are also key features of this task. Therefore, weakly supervised methods are heavily researched for this application. In this paper, we tackle these typical problems of anomaly detection in surveillance video by combining Multiple Instance Learning (MIL) to deal with the lack of labels and Multiple Camera Views (MC) to reduce occlusion and clutter effects. In the resulting MC-MIL algorithm we apply a multiple camera combined loss function to train a regression network with Sultani's MIL ranking function. To evaluate the MC-MIL algorithm first proposed here, the multiple camera PETS-2009 benchmark dataset was re-labeled for the anomaly detection task from multiple camera views. The result shows a significant performance improvement in F1 score compared to the single-camera configuration.
翻訳日:2023-08-22 23:15:00 公開日:2023-08-20
# Rapid-INR: 命令型ニューラル表現を用いたCPUフリーDNNトレーニング

Rapid-INR: Storage Efficient CPU-free DNN Training Using Implicit Neural Representation ( http://arxiv.org/abs/2306.16699v2 )

ライセンス: Link先を確認
Hanqiu Chen, Hang Yang, Stephen Fitzmeyer, Cong Hao(参考訳) Implicit Neural Representation (INR) は、複雑な形状や物体を、その形状や表面構造を明確に定義せずに表現するための革新的なアプローチである。 INRはオブジェクトを連続関数として表現する。 従来の研究では、画像圧縮のINRとしてニューラルネットワークを使用することの有効性が実証されており、JPEGのような従来の手法に匹敵する性能を示している。 しかし、INRは画像圧縮以外の様々な応用の可能性を秘めている。 本稿では、画像のエンコーディングと圧縮にINRを利用する新しいアプローチであるRapid-INRを紹介し、コンピュータビジョンタスクにおけるニューラルネットワークトレーニングを高速化する。 我々の手法では、トレーニング中のCPUとGPU間の重要なデータ通信オーバーヘッドを軽減するため、データセット全体をGPU上でINR形式で直接保存する。 さらに、INRからRGBフォーマットへの復号処理は高度に並列化され、オンザフライで実行される。 圧縮をさらに強化するため,従来の作業に基づいて,反復的かつ動的プルーニングとレイヤワイド量子化を提案する。 resnet-18バックボーンネットワークと、画像サイズが異なる3つのデータセットを用いて、画像分類タスクにおけるフレームワークを評価した。 rapid-inrは、オリジナルのデータセットサイズのわずか5%のメモリ消費を削減し、pytorchトレーニングパイプライン上で最大6$\times$のスピードアップを達成し、daliトレーニングパイプライン上で最大1.2倍のスピードアップを実現している。 重要なことに、Rapid-INRは他のコンピュータビジョンタスクやバックボーンネットワークに適切なエンジニアリング努力で容易に適用できる。 実装コードはhttps://github.com/sharc-lab/Rapid-INR.comで公開されています。

Implicit Neural Representation (INR) is an innovative approach for representing complex shapes or objects without explicitly defining their geometry or surface structure. Instead, INR represents objects as continuous functions. Previous research has demonstrated the effectiveness of using neural networks as INR for image compression, showcasing comparable performance to traditional methods such as JPEG. However, INR holds potential for various applications beyond image compression. This paper introduces Rapid-INR, a novel approach that utilizes INR for encoding and compressing images, thereby accelerating neural network training in computer vision tasks. Our methodology involves storing the whole dataset directly in INR format on a GPU, mitigating the significant data communication overhead between the CPU and GPU during training. Additionally, the decoding process from INR to RGB format is highly parallelized and executed on-the-fly. To further enhance compression, we propose iterative and dynamic pruning, as well as layer-wise quantization, building upon previous work. We evaluate our framework on the image classification task, utilizing the ResNet-18 backbone network and three commonly used datasets with varying image sizes. Rapid-INR reduces memory consumption to only 5% of the original dataset size and achieves a maximum 6$\times$ speedup over the PyTorch training pipeline, as well as a maximum 1.2x speedup over the DALI training pipeline, with only a marginal decrease in accuracy. Importantly, Rapid-INR can be readily applied to other computer vision tasks and backbone networks with reasonable engineering efforts. Our implementation code is publicly available at https://github.com/sharc-lab/Rapid-INR.
翻訳日:2023-08-22 23:14:42 公開日:2023-08-20
# 計算制約強化学習としての連続学習

Continual Learning as Computationally Constrained Reinforcement Learning ( http://arxiv.org/abs/2307.04345v2 )

ライセンス: Link先を確認
Saurabh Kumar, Henrik Marklund, Ashish Rao, Yifan Zhu, Hong Jun Jeon, Yueyang Liu, and Benjamin Van Roy(参考訳) 知識を効率的に蓄積し、長年にわたってますます高度なスキルを開発するエージェントは、人工知能能力のフロンティアを前進させることができる。 このようなエージェントの設計は、人工知能の長年にわたる課題であり、継続的な学習の主題によって対処されている。 このモノグラフは継続学習の概念を明確にし、さらなる研究を促進するためのフレームワークとツールセットを導入する。

An agent that efficiently accumulates knowledge to develop increasingly sophisticated skills over a long lifetime could advance the frontier of artificial intelligence capabilities. The design of such agents, which remains a long-standing challenge of artificial intelligence, is addressed by the subject of continual learning. This monograph clarifies and formalizes concepts of continual learning, introducing a framework and set of tools to stimulate further research.
翻訳日:2023-08-22 23:04:49 公開日:2023-08-20
# アダプタを用いた文埋め込みの効率的なドメイン適応

Efficient Domain Adaptation of Sentence Embeddings Using Adapters ( http://arxiv.org/abs/2307.03104v4 )

ライセンス: Link先を確認
Tim Schopf, Dennis N. Schneider, Florian Matthes(参考訳) 文埋め込みにより、短いテキストの意味的類似性を捉えることができる。 ほとんどの文埋め込みモデルは、一般的な意味的テキストの類似性タスクのために訓練される。 したがって、特定のドメインに文を埋め込むには、良い結果を得るためにモデルを適用する必要がある。 通常、これは関心領域の文埋め込みモデル全体を微調整することによって行われる。 このアプローチは最先端の結果をもたらすが、モデルの重みはすべて微調整中に更新され、このメソッドはリソース集約的になる。 したがって,各対象領域の文埋め込みモデル全体を個別に微調整するのではなく,軽量アダプタのトレーニングを提案する。 これらのドメイン固有のアダプタは、基礎となるすべての文埋め込みモデルパラメータを微調整する必要はない。 代わりに、基礎となる文埋め込みモデルの重みを固定しながら、少数の追加パラメータのみをトレーニングします。 ドメイン固有のアダプタのトレーニングでは、常に同じベースモデルを使用することができ、特定のドメインに文の埋め込みを適用するためにのみドメイン固有のアダプタを交換することができる。 文埋め込みのパラメータ効率のよいドメイン適応のためのアダプタを用いることで、約3.6%のパラメータをトレーニングしながら、ドメイン適応された完全に微調整された文埋め込みモデルの1%以内の競争性能が得られることを示す。

Sentence embeddings enable us to capture the semantic similarity of short texts. Most sentence embedding models are trained for general semantic textual similarity tasks. Therefore, to use sentence embeddings in a particular domain, the model must be adapted to it in order to achieve good results. Usually, this is done by fine-tuning the entire sentence embedding model for the domain of interest. While this approach yields state-of-the-art results, all of the model's weights are updated during fine-tuning, making this method resource-intensive. Therefore, instead of fine-tuning entire sentence embedding models for each target domain individually, we propose to train lightweight adapters. These domain-specific adapters do not require fine-tuning all underlying sentence embedding model parameters. Instead, we only train a small number of additional parameters while keeping the weights of the underlying sentence embedding model fixed. Training domain-specific adapters allows always using the same base model and only exchanging the domain-specific adapters to adapt sentence embeddings to a specific domain. We show that using adapters for parameter-efficient domain adaptation of sentence embeddings yields competitive performance within 1% of a domain-adapted, entirely fine-tuned sentence embedding model while only training approximately 3.6% of the parameters.
翻訳日:2023-08-22 23:04:33 公開日:2023-08-20
# クロネッカーグラフに基づくスケーラブルなマルチエージェント被覆オプション発見

Scalable Multi-agent Covering Option Discovery based on Kronecker Graphs ( http://arxiv.org/abs/2307.11629v2 )

ライセンス: Link先を確認
Jiayu Chen, Jingdi Chen, Tian Lan, Vaneet Aggarwal(参考訳) 被覆技術(オプション)は、状態遷移グラフのフィドラーベクトルによって提供される埋め込み空間の最も遠い状態を接続することで、スパース報酬信号を持つ単一エージェントシナリオにおけるRLの探索を改善するために開発された。 ジョイントステートスペースはマルチエージェントシステムのエージェント数とともに指数関数的に増加するので、既存の研究はシングルエージェントのスキル発見に依存しているため、ジョイントステートスペースの接続性を改善するジョイントスキルを直接発見することができない。 本稿では,分解が容易なマルチエージェントスキル発見法を提案する。 我々の重要なアイデアは、個々のエージェントの遷移グラフのラプラシアンスペクトルを用いて直接そのフィドラーベクトルを推定できるクロネッカーグラフとして合同状態空間を近似することである。 さらに,ラプラシアンスペクトルを直接計算することは,無限大の状態空間を持つタスクでは難解であると考え,nnに基づく表現学習手法を用いて固有関数を推定することで,この手法の深層学習拡張を提案する。 Mujocoのようなシミュレータで構築されたマルチエージェントタスクの評価は、提案アルゴリズムがマルチエージェントスキルの同定に成功し、最先端のタスクよりも大幅に優れていることを示す。 コードは以下の通り:https://github.itap.purdue.edu/Clan-labs/Scalable_MAOD_via_KP。

Covering skill (a.k.a., option) discovery has been developed to improve the exploration of RL in single-agent scenarios with sparse reward signals, through connecting the most distant states in the embedding space provided by the Fiedler vector of the state transition graph. Given that joint state space grows exponentially with the number of agents in multi-agent systems, existing researches still relying on single-agent skill discovery either become prohibitive or fail to directly discover joint skills that improve the connectivity of the joint state space. In this paper, we propose multi-agent skill discovery which enables the ease of decomposition. Our key idea is to approximate the joint state space as a Kronecker graph, based on which we can directly estimate its Fiedler vector using the Laplacian spectrum of individual agents' transition graphs. Further, considering that directly computing the Laplacian spectrum is intractable for tasks with infinite-scale state spaces, we further propose a deep learning extension of our method by estimating eigenfunctions through NN-based representation learning techniques. The evaluation on multi-agent tasks built with simulators like Mujoco, shows that the proposed algorithm can successfully identify multi-agent skills, and significantly outperforms the state-of-the-art. Codes are available at: https://github.itap.purdue.edu/Clan-labs/Scalable_MAOD_via_KP.
翻訳日:2023-08-22 22:56:10 公開日:2023-08-20
# 自然言語処理研究の展望を探る

Exploring the Landscape of Natural Language Processing Research ( http://arxiv.org/abs/2307.10652v2 )

ライセンス: Link先を確認
Tim Schopf, Karim Arabi, Florian Matthes(参考訳) 自然言語テキストを理解し,生成し,処理するための効率的なアプローチとして,近年,自然言語処理(NLP)の研究が急速に広まり,広く採用されている。 この分野での研究が増加していることを踏まえ、NLP関連のいくつかのアプローチが研究コミュニティで調査されている。 しかし、確立したトピックを分類し、傾向を特定し、今後の研究分野を概説する総合的な研究は残っていない。 このギャップを埋めるため,aclアンソロジーにおける研究論文を体系的に分類・分析した。 その結果,研究景観の構造化的概観,nlpにおける研究分野の分類,nlpにおける最近の展開の分析,知見の要約,今後の課題の方向性を強調する。

As an efficient approach to understand, generate, and process natural language texts, research in natural language processing (NLP) has exhibited a rapid spread and wide adoption in recent years. Given the increasing research work in this area, several NLP-related approaches have been surveyed in the research community. However, a comprehensive study that categorizes established topics, identifies trends, and outlines areas for future research remains absent. Contributing to closing this gap, we have systematically classified and analyzed research papers in the ACL Anthology. As a result, we present a structured overview of the research landscape, provide a taxonomy of fields of study in NLP, analyze recent developments in NLP, summarize our findings, and highlight directions for future work.
翻訳日:2023-08-22 22:55:22 公開日:2023-08-20
# ethosight:ジョイントエンベディングと文脈ラベル親和性に基づくニュアンス知覚のための推論誘導反復学習システム

Ethosight: A Reasoning-Guided Iterative Learning System for Nuanced Perception based on Joint-Embedding & Contextual Label Affinity ( http://arxiv.org/abs/2307.10577v3 )

ライセンス: Link先を確認
Hugo Latapie, Shan Yu, Patrick Hammer, Kristinn R. Thorisson, Vahagn Petrosyan, Brandon Kynoch, Alind Khare, Payman Behnam, Alexey Tumanov, Aksheit Saxena, Anish Aralikatti, Hanning Chen, Mohsen Imani, Mike Archbold, Tangrui Li, Pei Wang, Justin Hart(参考訳) 従来のコンピュータビジョンモデルは、広範なデータ取得、アノテーション、検証を必要とすることが多い。 これらのモデルは、しばしば現実世界のアプリケーションで苦労し、高い偽陽性と負の率をもたらし、新しいシナリオへの適応性が低く、しばしばコストのかかる再訓練を必要とする。 この問題に対処するため,我々は,フレキシブルで適応可能なゼロショットビデオ分析システムであるethosightを提案する。 Ethosightは、自然言語やキーワードで指定されたユーザ定義のビデオ分析に基づいてクリーンなスレートから始まり、WordNetやConceptNetといったオントロジーによって通知される共同埋め込みモデルと推論メカニズムを活用する。 ethosightは低コストのエッジデバイス上で効果的に動作し、ランタイム適応の強化をサポートする。 Ethosightの有望な有効性は、多種多様な複雑なユースケースにまたがって実証的に検証し、さらなる改善の領域を強調します。 この研究の重要な貢献は、完全な再現性を実現し、研究領域と商業領域の両方でさらなるイノベーションを促進するために、すべてのソースコードとデータセットのリリースである。

Traditional computer vision models often necessitate extensive data acquisition, annotation, and validation. These models frequently struggle in real-world applications, resulting in high false positive and negative rates, and exhibit poor adaptability to new scenarios, often requiring costly retraining. To address these issues, we present Ethosight, a flexible and adaptable zero-shot video analytics system. Ethosight begins from a clean slate based on user-defined video analytics, specified through natural language or keywords, and leverages joint embedding models and reasoning mechanisms informed by ontologies such as WordNet and ConceptNet. Ethosight operates effectively on low-cost edge devices and supports enhanced runtime adaptation, thereby offering a new approach to continuous learning without catastrophic forgetting. We provide empirical validation of Ethosight's promising effectiveness across diverse and complex use cases, while highlighting areas for further improvement. A significant contribution of this work is the release of all source code and datasets to enable full reproducibility and to foster further innovation in both the research and commercial domains.
翻訳日:2023-08-22 22:55:09 公開日:2023-08-20
# ウェルログ曲線合成のための効率的な選択的注意LSTM

Efficient selective attention LSTM for well log curve synthesis ( http://arxiv.org/abs/2307.10253v2 )

ライセンス: Link先を確認
Yuankai Zhou, Huanyu Li, Hu liu(参考訳) 非コア掘削は徐々に地質工学における主要な探査方法となり、地質情報の主要担体として伐採曲線の重要性が高まっている。 しかし, 地質環境, 伐採装置, ボーリングホール品質, 予期せぬ事象などの要因は, いずれも, 坑井伐採曲線の質に影響を与える可能性がある。 以前の再ログインや手作業による修正の方法は、高いコストと低い効率に関係している。 本稿では,既存のデータを用いて坑井の伐採曲線を推定する機械学習手法を提案し,その有効性と妥当性を実験により検証した。 提案手法は,データ空間依存性を分析する自己認識機構を組み込むことで,従来の長短期記憶(LSTM)ニューラルネットワーク上に構築する。 LSTMに支配的な計算結果を選択的に含み、計算複雑性をO(n^2)からO(nlogn)に低減し、モデル効率を向上させる。 実験の結果,提案手法はFCNNとLSTMに基づく従来の曲線合成法と比較して精度が高いことがわかった。 この正確で効率的でコスト効率の良い予測方法は、工学的応用において実用的な価値を持っている。

Non-core drilling has gradually become the primary exploration method in geological engineering, and well logging curves have increasingly gained importance as the main carriers of geological information. However, factors such as geological environment, logging equipment, borehole quality, and unexpected events can all impact the quality of well logging curves. Previous methods of re-logging or manual corrections have been associated with high costs and low efficiency. This paper proposes a machine learning method that utilizes existing data to predict missing well logging curves, and its effectiveness and feasibility have been validated through experiments. The proposed method builds upon the traditional Long Short-Term Memory (LSTM) neural network by incorporating a self-attention mechanism to analyze the spatial dependencies of the data. It selectively includes the dominant computational results in the LSTM, reducing the computational complexity from O(n^2) to O(nlogn) and improving model efficiency. Experimental results demonstrate that the proposed method achieves higher accuracy compared to traditional curve synthesis methods based on Fully Connected Neural Networks (FCNN) and LSTM. This accurate, efficient, and cost-effective prediction method holds practical value in engineering applications.
翻訳日:2023-08-22 22:54:47 公開日:2023-08-20
# 様々なクエンチダイナミクス:キブル・ズレーク、飽和、および前飽和状態

Varying quench dynamics: the Kibble-Zurek, saturated, and pre-saturated regimes ( http://arxiv.org/abs/2307.08599v2 )

ライセンス: Link先を確認
Han-Chuan Kou and Peng Li(参考訳) kibble-zurek機構によれば、臨界点を通過する遅い線形クエンチ中の欠陥密度とクエンチ速度の間には普遍的なパワーロー関係が存在する。 一般に、高速なクエンチは、キブルズレークのスケーリング法則から逸脱し、欠陥密度の飽和台地を形成することが受け入れられている。 緩やかな限界から非常に速い限界まで、クエンチ速度が変化するため、クエンチダイナミクスの遷移にフォーカスしています。 我々は,飽和状態とキブル・ズレーク状態の中間に位置する前飽和状態を特定する。 この結論は断熱的インパルス近似によって解明され、横方向イジング鎖の厳密な解析によって検証される。 飽和状態から飽和前の状態への遷移点に近づくと、スケーリング則の変化に気付き、初期横磁場の増加とともに飽和状態が消滅するまで縮小する。 キブル・ズールクから前飽和状態への別の遷移では、デフォーカス効果の減衰と、ガウス崩壊から指数的崩壊へのキンクキンク相関関数の挙動の変化が観察される。 最後に、クエンチ後のコヒーレント多体振動について検討し、これら3つの状態の異なる挙動を示し、S型とPS型の間でのスケーリング挙動の顕著な遷移を示す。

According to the Kibble-Zurek mechanism, there is a universal power-law relationship between the defect density and the quench rate during a slow linear quench through a critical point. It is generally accepted that a fast quench results in a deviation from the Kibble-Zurek scaling law and leads to the formation of a saturated plateau in the defect density. Our focus is on the transitions of quench dynamics as quench rates vary from slow to very fast limits. We identify a pre-saturated regime that lies between the saturated and Kibble-Zurek regimes. This conclusion is elucidated through the adiabatic-impulse approximation and verified by a rigorous analysis on the transverse Ising chain. As we approach the transition point from the saturated to pre-saturated regimes, we notice a change in scaling laws and, with an increase in the initial transverse field, a shrinking of the saturated regime until it disappears. During another transition from the Kibble-Zurek to pre-saturated regimes, we observe an attenuation of the dephasing effect and a change in the behavior of the kink-kink correlation function from a Gaussian decay to an exponential decay. Finally, the coherent many-body oscillation after quench is investigated, which shows different behaviors in the three regimes and demonstrates a significant transition of scaling behavior between the S and PS regimes.
翻訳日:2023-08-22 22:54:02 公開日:2023-08-20
# 時間グラフベンチマークの実証評価

An Empirical Evaluation of Temporal Graph Benchmark ( http://arxiv.org/abs/2307.12510v2 )

ライセンス: Link先を確認
Le Yu(参考訳) 本稿では,動的グラフライブラリ(DyGLib)をTGBに拡張することにより,時間グラフベンチマーク(TGB)の実証評価を行う。 TGBと比較して、より徹底的な比較のための11の人気のある動的グラフ学習方法を含む。 実験の結果,(1)様々なデータセットにおける性能変化をそれぞれ異なるモデルで表現し,(2)dyglibを用いた場合,tgbで報告された結果と比較して,いくつかのベースラインの性能が著しく向上することがわかった。 本研究は,TGB上での動的グラフ学習手法の評価における研究者の取り組みの容易化と,フォローアップ研究に直接参照可能な結果の提供を目的とする。 このプロジェクトで使われるリソースはすべてhttps://github.com/yule-BUAA/DyGLib_TGBで公開されている。 この作業は進行中であり、コミュニティからのフィードバックは改善に歓迎されています。

In this paper, we conduct an empirical evaluation of Temporal Graph Benchmark (TGB) by extending our Dynamic Graph Library (DyGLib) to TGB. Compared with TGB, we include eleven popular dynamic graph learning methods for more exhaustive comparisons. Through the experiments, we find that (1) different models depict varying performance across various datasets, which is in line with previous observations; (2) the performance of some baselines can be significantly improved over the reported results in TGB when using DyGLib. This work aims to ease the researchers' efforts in evaluating various dynamic graph learning methods on TGB and attempts to offer results that can be directly referenced in the follow-up research. All the used resources in this project are publicly available at https://github.com/yule-BUAA/DyGLib_TGB. This work is in progress, and feedback from the community is welcomed for improvements.
翻訳日:2023-08-22 22:44:48 公開日:2023-08-20
# カリブ海の屋根分類のためのVHR後航空画像とLiDARデータの利用

Fusing VHR Post-disaster Aerial Imagery and LiDAR Data for Roof Classification in the Caribbean ( http://arxiv.org/abs/2307.16177v3 )

ライセンス: Link先を確認
Isabelle Tingzon, Nuala Margaret Cowan, Pierre Chrzanowski(参考訳) 建築特性の正確かつ最新の情報は、脆弱性評価に不可欠であるが、災害リスク管理に必要な重要な露光データセットを得るには、従来の調査実施に伴う高コストと長期の時間枠が障害となる可能性がある。 本研究では,2017年のハリケーン・マリアに続いてドミニカで得られた高解像度の正光線と空中LiDARデータから屋根特性の自動分類に深層学習技術を活用する。 マルチモーダル地球観測データの融合は、単一のデータソースのみを使用するよりも優れていることを示す。 提案手法を用いて, 屋根材分類におけるF1スコアの0.93と0.92をそれぞれ達成した。 この研究は、政府がカリブ海の回復力と災害対応を改善するための、よりタイムリーな情報構築を支援することを目的としている。

Accurate and up-to-date information on building characteristics is essential for vulnerability assessment; however, the high costs and long timeframes associated with conducting traditional field surveys can be an obstacle to obtaining critical exposure datasets needed for disaster risk management. In this work, we leverage deep learning techniques for the automated classification of roof characteristics from very high-resolution orthophotos and airborne LiDAR data obtained in Dominica following Hurricane Maria in 2017. We demonstrate that the fusion of multimodal earth observation data performs better than using any single data source alone. Using our proposed methods, we achieve F1 scores of 0.93 and 0.92 for roof type and roof material classification, respectively. This work is intended to help governments produce more timely building information to improve resilience and disaster response in the Caribbean.
翻訳日:2023-08-22 22:33:03 公開日:2023-08-20
# ディジタル病理における全スライド画像解析のための高性能データ管理

High-performance Data Management for Whole Slide Image Analysis in Digital Pathology ( http://arxiv.org/abs/2308.05784v2 )

ライセンス: Link先を確認
Haoju Leng, Ruining Deng, Shunxing Bao, Dazheng Fang, Bryan A. Millis, Yucheng Tang, Haichun Yang, Xiao Wang, Yifan Peng, Lipeng Wan, Yuankai Huo(参考訳) 全スライディング画像におけるギガピクセルのデジタル病理を扱う場合、データ記録の顕著な割合は、解析操作毎に関連性を有する。 例えば、全スライド画像(WSI)に画像解析アルゴリズムをデプロイする場合、計算のボトルネックは入出力(I/O)システムにあることが多い。 特に、パッチレベルの処理は、コンピュータシステムにかなりのI/O負荷をもたらす。 しかし、パッチレベルのイメージプロセスが異なるパッチにまたがる典型的な独立性を考慮すると、このデータ管理プロセスはさらに並列化することができる。 本稿では,adaptable io system version 2 (adios2) の実装によるデータアクセス課題への取り組みについて述べる。 私たちの焦点は、adios2を使用して、デジタル病理中心のパイプラインを構築し、リリースすることにあります。 さらに,データの検索時間を短縮する戦略も開発した。 パフォーマンス評価は、(1)純粋なCPUベースの画像解析シナリオ(CPUシナリオ)と(2)GPUベースのディープラーニングフレームワークシナリオ(GPUシナリオ)の2つの主要なシナリオを含む。 我々の発見は注目すべき結果を示している。 CPUのシナリオでは、ADIOS2はブルートフォースのアプローチに比べて2倍のスピードアップを示している。 GPUシナリオでは、そのパフォーマンスは最先端のGPU I/OアクセラレーションフレームワークであるNVIDIA Magnum IO GPU Direct Storage (GDS)と同等である。 私たちが知る限り、これはデジタル病理学の分野でadios2を利用する最初の例の1つに思える。 ソースコードはhttps://github.com/hrlblab/adiosで公開されている。

When dealing with giga-pixel digital pathology in whole-slide imaging, a notable proportion of data records holds relevance during each analysis operation. For instance, when deploying an image analysis algorithm on whole-slide images (WSI), the computational bottleneck often lies in the input-output (I/O) system. This is particularly notable as patch-level processing introduces a considerable I/O load onto the computer system. However, this data management process could be further paralleled, given the typical independence of patch-level image processes across different patches. This paper details our endeavors in tackling this data access challenge by implementing the Adaptable IO System version 2 (ADIOS2). Our focus has been constructing and releasing a digital pathology-centric pipeline using ADIOS2, which facilitates streamlined data management across WSIs. Additionally, we've developed strategies aimed at curtailing data retrieval times. The performance evaluation encompasses two key scenarios: (1) a pure CPU-based image analysis scenario ("CPU scenario"), and (2) a GPU-based deep learning framework scenario ("GPU scenario"). Our findings reveal noteworthy outcomes. Under the CPU scenario, ADIOS2 showcases an impressive two-fold speed-up compared to the brute-force approach. In the GPU scenario, its performance stands on par with the cutting-edge GPU I/O acceleration framework, NVIDIA Magnum IO GPU Direct Storage (GDS). From what we know, this appears to be among the initial instances, if any, of utilizing ADIOS2 within the field of digital pathology. The source code has been made publicly available at https://github.com/hrlblab/adios.
翻訳日:2023-08-22 22:16:43 公開日:2023-08-20
# テンポラル・ディノ:アクション予測を強化する自己監督型ビデオ戦略

Temporal DINO: A Self-supervised Video Strategy to Enhance Action Prediction ( http://arxiv.org/abs/2308.04589v2 )

ライセンス: Link先を確認
Izzeddin Teeti, Rongali Sai Bhargav, Vivek Singh, Andrew Bradley, Biplab Banerjee, Fabio Cuzzolin(参考訳) 行動予測の分野は、自律運転、アクティビティ分析、人間とコンピュータの相互作用など、様々なコンピュータビジョンアプリケーションにおいて重要な役割を果たす。 大幅な進歩にもかかわらず、ビデオデータに固有の高次元性、複雑なダイナミクス、不確実性のために、将来の行動を正確に予測することは難しい問題である。 従来の教師付きアプローチでは大量のラベル付きデータが必要です。 本稿では,DINO (self-distillation with labels) にインスパイアされた行動予測を強化するための,新たな自己教師型ビデオ戦略を提案する。 テンポラル・ディノのアプローチでは、過去のフレームを「学生」処理する2つのモデルと、過去と将来のフレームの両方を「教師」処理することで、より広い時間的コンテキストを実現する。 授業中、教師は過去のフレームだけを観察して将来の文脈を学ぶよう指導する。 この戦略は3D-ResNet, Transformer, LSTMアーキテクチャを用いて, アクション予測下流タスクのためのROADデータセット上で評価される。 提案手法は,9.9%の精度ポイント(PP)を平均的に向上させるとともに,長期的依存関係を捕捉するバックボーンの能力向上に有効であることを示す。 さらに,本手法は,事前学習データセットのサイズと必要エポック数の効率性を示す。 この方法は、様々なバックボーンアーキテクチャを考慮し、複数の予測水平線に対処し、手作りの強化への依存を減らし、事前学習プロセスを単一のステージに合理化することを含む、他のアプローチにおける制限を克服する。 これらの結果は,行動認識,運動計画,シーン理解など,多様な映像ベースタスクにおけるアプローチの可能性を強調した。

The emerging field of action prediction plays a vital role in various computer vision applications such as autonomous driving, activity analysis and human-computer interaction. Despite significant advancements, accurately predicting future actions remains a challenging problem due to high dimensionality, complex dynamics and uncertainties inherent in video data. Traditional supervised approaches require large amounts of labelled data, which is expensive and time-consuming to obtain. This paper introduces a novel self-supervised video strategy for enhancing action prediction inspired by DINO (self-distillation with no labels). The Temporal-DINO approach employs two models; a 'student' processing past frames; and a 'teacher' processing both past and future frames, enabling a broader temporal context. During training, the teacher guides the student to learn future context by only observing past frames. The strategy is evaluated on ROAD dataset for the action prediction downstream task using 3D-ResNet, Transformer, and LSTM architectures. The experimental results showcase significant improvements in prediction performance across these architectures, with our method achieving an average enhancement of 9.9% Precision Points (PP), highlighting its effectiveness in enhancing the backbones' capabilities of capturing long-term dependencies. Furthermore, our approach demonstrates efficiency regarding the pretraining dataset size and the number of epochs required. This method overcomes limitations present in other approaches, including considering various backbone architectures, addressing multiple prediction horizons, reducing reliance on hand-crafted augmentations, and streamlining the pretraining process into a single stage. These findings highlight the potential of our approach in diverse video-based tasks such as activity recognition, motion planning, and scene understanding.
翻訳日:2023-08-22 22:15:26 公開日:2023-08-20
# LATR:トランスを用いた単眼画像からの3次元レーン検出

LATR: 3D Lane Detection from Monocular Images with Transformer ( http://arxiv.org/abs/2308.04583v2 )

ライセンス: Link先を確認
Yueru Luo, Chaoda Zheng, Xu Yan, Tang Kun, Chao Zheng, Shuguang Cui, Zhen Li(参考訳) 単眼画像からの3次元車線検出は、自動運転の基本的な課題である。 最近の進歩は主に、フロントビューの画像特徴とカメラパラメータから構築された構造的な3dサロゲート(鳥の目視など)に依存している。 しかし, 単眼画像の奥行きの曖昧さは, 構築したサロゲート特徴写像と原画像との相違を必然的に引き起こし, 正確な車線検出には大きな課題となる。 上記の課題に対処するため, 3D 対応のフロントビュー特徴を用いた3次元レーン検出システムである LATR モデルを提案する。 具体的には、LATRはクエリとキーと値のペアに基づいて3次元レーンを検出し、車線対応クエリジェネレータと動的3次元地上位置埋め込みを用いて構築する。 一方、各クエリは2次元車線認識機能に基づいて生成され、車線情報を強化するためにハイブリッド埋め込みを採用する。 一方、3D空間情報は、反復的に更新された3D地上面から位置埋め込みとして注入される。 LATRは、合成アポロ、現実的なOpenLane、ONCE-3DLaneの双方で従来の最先端の手法よりも大きなマージン(例えば、OpenLaneのF1スコアの11.4ゲイン)で優れている。 コードはhttps://github.com/JMoonr/LATR でリリースされる。

3D lane detection from monocular images is a fundamental yet challenging task in autonomous driving. Recent advances primarily rely on structural 3D surrogates (e.g., bird's eye view) built from front-view image features and camera parameters. However, the depth ambiguity in monocular images inevitably causes misalignment between the constructed surrogate feature map and the original image, posing a great challenge for accurate lane detection. To address the above issue, we present a novel LATR model, an end-to-end 3D lane detector that uses 3D-aware front-view features without transformed view representation. Specifically, LATR detects 3D lanes via cross-attention based on query and key-value pairs, constructed using our lane-aware query generator and dynamic 3D ground positional embedding. On the one hand, each query is generated based on 2D lane-aware features and adopts a hybrid embedding to enhance lane information. On the other hand, 3D space information is injected as positional embedding from an iteratively-updated 3D ground plane. LATR outperforms previous state-of-the-art methods on both synthetic Apollo, realistic OpenLane and ONCE-3DLanes by large margins (e.g., 11.4 gain in terms of F1 score on OpenLane). Code will be released at https://github.com/JMoonr/LATR .
翻訳日:2023-08-22 22:14:57 公開日:2023-08-20
# GAEI-UNet: 容器画像セグメンテーションのためのグローバルアテンションと弾性相互作用U-Net

GAEI-UNet: Global Attention and Elastic Interaction U-Net for Vessel Image Segmentation ( http://arxiv.org/abs/2308.08345v2 )

ライセンス: Link先を確認
Ruiqiang Xiao, Zhuoyue Wan, Yang Xiang(参考訳) 血管イメージセグメンテーションは、血管疾患の早期発見と治療を支援する医療診断において重要な役割を担っている。 ディープラーニングに基づくセグメンテーションは有望な結果を示しているが、小さな構造を効果的にセグメンテーションし、相互接続を維持することは依然として難しい。 これらの制約に対処するため,グローバルアテンションと弾性相互作用に基づく手法を組み合わせた新しいモデルGAEI-UNetを提案する。 GAEI-UNetは、グローバル空間およびチャネルコンテキスト情報を活用して、U-Netアーキテクチャ内の高レベルなセマンティック理解を強化し、小型船舶の正確なセグメンテーションを可能にする。 さらに,これらの微細構造間の接続性を改善するために,弾性的相互作用に基づく損失関数を採用する。 ターゲット形状と予測形状のずれによって生じる力を捕捉することにより,本モデルでは,容器ネットワークの正確なトポロジを効果的に学習する。 網膜血管データセットの評価 -- DRIVEは、SEと小さな構造の接続性の観点からGAEI-UNetの優れたパフォーマンスを示すが、計算の複雑さは著しく増大しない。 本研究は, 血管イメージセグメンテーションの分野を進展させ, より正確で信頼性の高い診断ツールを提供することを目的とする。 実装コードはコードで利用可能である。

Vessel image segmentation plays a pivotal role in medical diagnostics, aiding in the early detection and treatment of vascular diseases. While segmentation based on deep learning has shown promising results, effectively segmenting small structures and maintaining connectivity between them remains challenging. To address these limitations, we propose GAEI-UNet, a novel model that combines global attention and elastic interaction-based techniques. GAEI-UNet leverages global spatial and channel context information to enhance high-level semantic understanding within the U-Net architecture, enabling precise segmentation of small vessels. Additionally, we adopt an elastic interaction-based loss function to improve connectivity among these fine structures. By capturing the forces generated by misalignment between target and predicted shapes, our model effectively learns to preserve the correct topology of vessel networks. Evaluation on retinal vessel dataset -- DRIVE demonstrates the superior performance of GAEI-UNet in terms of SE and connectivity of small structures, without significantly increasing computational complexity. This research aims to advance the field of vessel image segmentation, providing more accurate and reliable diagnostic tools for the medical community. The implementation code is available on Code.
翻訳日:2023-08-22 20:17:27 公開日:2023-08-20
# ExpeL: LLMエージェントは経験的学習者

ExpeL: LLM Agents Are Experiential Learners ( http://arxiv.org/abs/2308.10144v1 )

ライセンス: Link先を確認
Andrew Zhao, Daniel Huang, Quentin Xu, Matthieu Lin, Yong-Jin Liu, Gao Huang(参考訳) 大規模言語モデル(LLM)を意思決定タスクに適用することに対する最近の研究の関心の高まりは、LLMに埋め込まれた広範囲な世界知識を活用することで繁栄している。 カスタムな意思決定タスクのためにLLMをカスタマイズする需要は増えているが、特定のタスクのためにそれらを微調整することはリソース集約であり、モデルの一般化能力を低下させる可能性がある。 さらに、GPT-4やClaudeのような最先端の言語モデルは、主にAPIコールを通じてアクセス可能である。 このシナリオは、パラメトリック更新を必要とせずにエージェントエクスペリエンスから学習できる新しい方法論の必要性の高まりを強調している。 これらの問題に対処するためにexperiential learning (expel)エージェントを紹介する。 エージェントは、経験を自律的に収集し、訓練タスクの集合から自然言語を用いた知識を抽出する。 推論において、エージェントは抽出された洞察と過去の経験をリコールし、情報的決定を行う。 実験の結果,ExpeLエージェントの堅牢な学習効果が強調され,経験を蓄積するにつれて,その性能が一貫した向上であることが示唆された。 我々はさらに,質的観察と追加実験を通じて,expelエージェントの新たな能力と伝達学習能力について検討する。

The recent surge in research interest in applying large language models (LLMs) to decision-making tasks has flourished by leveraging the extensive world knowledge embedded in LLMs. While there is a growing demand to tailor LLMs for custom decision-making tasks, finetuning them for specific tasks is resource-intensive and may diminish the model's generalization capabilities. Moreover, state-of-the-art language models like GPT-4 and Claude are primarily accessible through API calls, with their parametric weights remaining proprietary and unavailable to the public. This scenario emphasizes the growing need for new methodologies that allow learning from agent experiences without requiring parametric updates. To address these problems, we introduce the Experiential Learning (ExpeL) agent. Our agent autonomously gathers experiences and extracts knowledge using natural language from a collection of training tasks. At inference, the agent recalls its extracted insights and past experiences to make informed decisions. Our empirical results highlight the robust learning efficacy of the ExpeL agent, indicating a consistent enhancement in its performance as it accumulates experiences. We further explore the emerging capabilities and transfer learning potential of the ExpeL agent through qualitative observations and additional experiments.
翻訳日:2023-08-22 17:40:33 公開日:2023-08-20
# 頚部癌線量分布予測のための重合型特徴量領域適応法

Polymerized Feature-based Domain Adaptation for Cervical Cancer Dose Map Prediction ( http://arxiv.org/abs/2308.10142v1 )

ライセンス: Link先を確認
Jie Zeng, Zeyu Han, Xingchen Peng, Jianghong Xiao, Peng Wang, Yan Wang(参考訳) 近年,深層学習 (dl) は正確な線量分布を予測し,臨床放射線治療 (rt) 計画の自動化と促進を行っている。 しかし、ほとんどのdlベースの線量マップ予測手法はデータ駆動であり、少量のデータしか利用できない頸がんには適用できない。 この問題を解決するため,本研究では,同一の走査領域と臨床的に利用可能なデータを有する直腸癌から得られた豊富な知識を伝達し,領域適応による頸がんの線量マップ予測性能を向上させることを提案する。 ソース(直腸癌)とターゲット(頸部癌)との先天性領域ギャップを埋めるため,トランスフォーマーをベースとした効果的な重合機能モジュール(PFM)を開発し,最適な重合特性分布を生成して2つの入力分布を円滑に整列させる。 2つの社内臨床データセットによる実験結果から,提案手法が最先端の手法に比べて優れていることが示された。

Recently, deep learning (DL) has automated and accelerated the clinical radiation therapy (RT) planning significantly by predicting accurate dose maps. However, most DL-based dose map prediction methods are data-driven and not applicable for cervical cancer where only a small amount of data is available. To address this problem, this paper proposes to transfer the rich knowledge learned from another cancer, i.e., rectum cancer, which has the same scanning area and more clinically available data, to improve the dose map prediction performance for cervical cancer through domain adaptation. In order to close the congenital domain gap between the source (i.e., rectum cancer) and the target (i.e., cervical cancer) domains, we develop an effective Transformer-based polymerized feature module (PFM), which can generate an optimal polymerized feature distribution to smoothly align the two input distributions. Experimental results on two in-house clinical datasets demonstrate the superiority of the proposed method compared with state-of-the-art methods.
翻訳日:2023-08-22 17:39:57 公開日:2023-08-20
# March in Chat: リモート・エボダイド参照表現のためのインタラクティブ・プロンプティング

March in Chat: Interactive Prompting for Remote Embodied Referring Expression ( http://arxiv.org/abs/2308.10141v1 )

ライセンス: Link先を確認
Yanyuan Qiao, Yuankai Qi, Zheng Yu, Jing Liu, Qi Wu(参考訳) VLN(Vision-and-Language Navigation)タスクは、ルームベースからオブジェクトベース、屋内、屋外まで、近年提案されている。 REVERIE(Remote Embodied Referring Expression)は、実際に人間の命令に近いエージェントに高レベルな命令のみを提供するため、興味深い。 しかしながら、これは他のVLNタスクよりも多くの課題を引き起こす。 大規模言語モデル(LLM)は適切なプロンプトを提供することでロボットの行動計画に大きな可能性を示す。 しかし、この戦略はREVERIE設定下では検討されていない。 新しい課題がいくつかある。 例えば、現在の視覚観察に基づいてナビゲーション計画を調整できるように、llmは環境対応でなければならない。 さらに、LSMの計画されたアクションは、より大きくより複雑なREVERIE環境に適応するべきである。 本稿では,新たに提案されたRoom-and-Object Aware Scene Perceiver (ROASP) に基づいて,LLMとリアルタイムで対話し,動的に計画を行うことができる3-in-Chat(MiC)モデルを提案する。 私たちのmicモデルはreverieベンチマークのsplとrgsplの指標で、これまでの最先端を上回っています。

Many Vision-and-Language Navigation (VLN) tasks have been proposed in recent years, from room-based to object-based and indoor to outdoor. The REVERIE (Remote Embodied Referring Expression) is interesting since it only provides high-level instructions to the agent, which are closer to human commands in practice. Nevertheless, this poses more challenges than other VLN tasks since it requires agents to infer a navigation plan only based on a short instruction. Large Language Models (LLMs) show great potential in robot action planning by providing proper prompts. Still, this strategy has not been explored under the REVERIE settings. There are several new challenges. For example, the LLM should be environment-aware so that the navigation plan can be adjusted based on the current visual observation. Moreover, the LLM planned actions should be adaptable to the much larger and more complex REVERIE environment. This paper proposes a March-in-Chat (MiC) model that can talk to the LLM on the fly and plan dynamically based on a newly proposed Room-and-Object Aware Scene Perceiver (ROASP). Our MiC model outperforms the previous state-of-the-art by large margins by SPL and RGSPL metrics on the REVERIE benchmark.
翻訳日:2023-08-22 17:39:11 公開日:2023-08-20
# objective-driven artificial intelligence のレビュー

A Review on Objective-Driven Artificial Intelligence ( http://arxiv.org/abs/2308.10135v1 )

ライセンス: Link先を確認
Apoorv Singh(参考訳) 人工知能は急速に進歩する一方で、現在のAI技術の本質的な限界と認識の理解のために、人間の知性に欠けています。 人間は、会話の文脈、ニュアンス、微妙な手がかりを理解する生まれつきの能力を持ち、ジョーク、皮肉、メタファーを理解することができる。 機械はそのような文脈情報を正確に解釈するのに苦労する。 人間は、世界に関する論理的推論や予測を行うのに役立つ、常識的な知識の膨大なリポジトリを持っています。 機械はこの本質的な理解を欠き、しばしば人間が自明に感じる状況の理解に苦しむ。 本稿では、今後の機械学習候補、Yann LeCun教授によるレビュー、およびこの人間とマシンインテリジェンスの間のギャップを埋めるための他の研究についてレビューする。 具体的には、教師付き学習、強化学習、自己教師型学習など、現在のAI技術に欠けているものについて話します。 次に,階層的計画に基づくアプローチが,そのギャップを狭くし,エネルギーベースの潜在変数型手法と統合埋め込み型予測型アーキテクチャ手法に深く入り込む上でどのように役立つかを示す。

While advancing rapidly, Artificial Intelligence still falls short of human intelligence in several key aspects due to inherent limitations in current AI technologies and our understanding of cognition. Humans have an innate ability to understand context, nuances, and subtle cues in communication, which allows us to comprehend jokes, sarcasm, and metaphors. Machines struggle to interpret such contextual information accurately. Humans possess a vast repository of common-sense knowledge that helps us make logical inferences and predictions about the world. Machines lack this innate understanding and often struggle with making sense of situations that humans find trivial. In this article, we review the prospective Machine Intelligence candidates, a review from Prof. Yann LeCun, and other work that can help close this gap between human and machine intelligence. Specifically, we talk about what's lacking with the current AI techniques such as supervised learning, reinforcement learning, self-supervised learning, etc. Then we show how Hierarchical planning-based approaches can help us close that gap and deep-dive into energy-based, latent-variable methods and Joint embedding predictive architecture methods.
翻訳日:2023-08-22 17:38:34 公開日:2023-08-20
# AutoReP: 高速プライベートネットワーク推論のための自動ReLU置換

AutoReP: Automatic ReLU Replacement for Fast Private Network Inference ( http://arxiv.org/abs/2308.10134v1 )

ライセンス: Link先を確認
Hongwu Peng, Shaoyi Huang, Tong Zhou, Yukui Luo, Chenghong Wang, Zigeng Wang, Jiahui Zhao, Xi Xie, Ang Li, Tony Geng, Kaleel Mahmood, Wujie Wen, Xiaolin Xu, Caiwen Ding(参考訳) MLaaS(Machine-Learning-As-Service)市場の成長は、クライアントのデータプライバシとセキュリティの問題を強調している。 暗号プリミティブを用いたプライベート推論(PI)技術はソリューションを提供するが、特にReLUのような非線形演算子では高い計算と通信コストがかかる。 relu操作を減らす試みは数多く存在するが、ヒューリスティックなしきい値の選択やかなりの精度の損失を引き起こす可能性がある。 この研究は、非線形演算子を小さくし、これらの問題を緩和するための勾配ベースのアプローチであるAutoRePを導入している。 ReLUと多項式関数の選択を自動化し、PIアプリケーションを高速化し、分布対応多項式近似(DaPa)を導入し、ReLUを正確に近似しながらモデル表現性を維持する。 実験の結果,現在のsnl法に比べて6.12% (94.31%, 12.9k relu budget, cifar-10), 8.39% (74.92%, 12.9k relu budget, cifar-100), 9.45% (63.69%, 55k relu budget, tiny-imagenet) の精度が有意に向上した。 さらに、AutoRePはImageNetデータセット上のEfficientNet-B2に適用され、75.55%の精度でReLUの176.1倍の予算削減を達成した。

The growth of the Machine-Learning-As-A-Service (MLaaS) market has highlighted clients' data privacy and security issues. Private inference (PI) techniques using cryptographic primitives offer a solution but often have high computation and communication costs, particularly with non-linear operators like ReLU. Many attempts to reduce ReLU operations exist, but they may need heuristic threshold selection or cause substantial accuracy loss. This work introduces AutoReP, a gradient-based approach to lessen non-linear operators and alleviate these issues. It automates the selection of ReLU and polynomial functions to speed up PI applications and introduces distribution-aware polynomial approximation (DaPa) to maintain model expressivity while accurately approximating ReLUs. Our experimental results demonstrate significant accuracy improvements of 6.12% (94.31%, 12.9K ReLU budget, CIFAR-10), 8.39% (74.92%, 12.9K ReLU budget, CIFAR-100), and 9.45% (63.69%, 55K ReLU budget, Tiny-ImageNet) over current state-of-the-art methods, e.g., SNL. Morever, AutoReP is applied to EfficientNet-B2 on ImageNet dataset, and achieved 75.55% accuracy with 176.1 times ReLU budget reduction.
翻訳日:2023-08-22 17:38:16 公開日:2023-08-20
# TransFace: データ中心から見た顔認識のための校正型トランスフォーマートレーニング

TransFace: Calibrating Transformer Training for Face Recognition from a Data-Centric Perspective ( http://arxiv.org/abs/2308.10133v1 )

ライセンス: Link先を確認
Jun Dan, Yang Liu, Haoyu Xie, Jiankang Deng, Haoran Xie, Xuansong Xie and Baigui Sun(参考訳) 視覚変換器(ViT)は、その本質的なデータ・ハングリーの性質により、様々な視覚タスクにおいて強力な表現能力を示す。 しかし、非常に大きなデータセットを持つ顔認識(FR)のシナリオに適用すると、予期せぬ結果が得られる。 そこで本研究では,既存のデータ拡張手法とハードサンプルマイニング戦略が,顔構造情報の保存と各局所トークン情報の活用に配慮していないため,vitsベースのfrバックボーンとは相容れないことを発見した。 本稿では,DPAP というパッチレベルのデータ拡張戦略と EHSM というハードサンプルマイニング戦略を併用した,TransFace という優れたFRモデルを提案する。 特にDPAPは、優勢なパッチの振幅情報をランダムに乱してサンプルの多様性を拡大し、ViTのオーバーフィッティング問題を効果的に軽減する。 EHSMは、ローカルトークンにおける情報エントロピーを利用して、トレーニング中に簡単で硬いサンプルの重み付けを動的に調整し、より安定した予測をもたらす。 いくつかのベンチマークの実験は、TransFaceの優位性を示しています。 コードとモデルはhttps://github.com/danjun6737/transfaceで入手できる。

Vision Transformers (ViTs) have demonstrated powerful representation ability in various visual tasks thanks to their intrinsic data-hungry nature. However, we unexpectedly find that ViTs perform vulnerably when applied to face recognition (FR) scenarios with extremely large datasets. We investigate the reasons for this phenomenon and discover that the existing data augmentation approach and hard sample mining strategy are incompatible with ViTs-based FR backbone due to the lack of tailored consideration on preserving face structural information and leveraging each local token information. To remedy these problems, this paper proposes a superior FR model called TransFace, which employs a patch-level data augmentation strategy named DPAP and a hard sample mining strategy named EHSM. Specially, DPAP randomly perturbs the amplitude information of dominant patches to expand sample diversity, which effectively alleviates the overfitting problem in ViTs. EHSM utilizes the information entropy in the local tokens to dynamically adjust the importance weight of easy and hard samples during training, leading to a more stable prediction. Experiments on several benchmarks demonstrate the superiority of our TransFace. Code and models are available at https://github.com/DanJun6737/TransFace.
翻訳日:2023-08-22 17:37:48 公開日:2023-08-20
# 粗大なPET再建のための補助ガイド付きコントラスト拡散モデル

Contrastive Diffusion Model with Auxiliary Guidance for Coarse-to-Fine PET Reconstruction ( http://arxiv.org/abs/2308.10157v1 )

ライセンス: Link先を確認
Zeyu Han, Yuhan Wang, Luping Zhou, Peng Wang, Binyu Yan, Jiliu Zhou, Yan Wang, Dinggang Shen(参考訳) 人体への放射線被曝を低減しつつ、高品質のポジトロンエミッショントモグラフィ(pet)スキャンを得るため、低線量pet(lpet)画像から標準線量pet(spet)画像を再構成する様々な手法が提案されている。 GAN (Generative Adversarial Network) が広く採用されている手法のひとつだが,近年,GAN (Generative Adversarial Network) と比較して,サンプル品質の向上とログライクなスコアの向上により,拡散確率モデル (DPM) が魅力的な代替手段として出現している。 それにもかかわらず、DPMは実際の臨床環境では2つの大きな欠点、すなわち計算コストのかかるサンプリングプロセスと条件付きPET画像と再構成PET画像との対応性の不十分な保存に悩まされている。 そこで本研究では, 粗い予測モジュール (CPM) と反復的修正モジュール (IRM) から構成される粗大なPET再構成フレームワークを提案する。 CPMは決定論的プロセスを介して粗いPET画像を生成し、IRMは残留反復をサンプリングする。 計算オーバーヘッドの大部分をCPMに委譲することで,本手法のサンプリング速度を大幅に向上させることができる。 さらに, LPET画像とRTP画像との対応性を向上し, 臨床信頼性の向上を図るために, 補助ガイダンス戦略とコントラスト拡散戦略という2つの追加戦略が提案され, 再建プロセスに統合されている。 2つのヒト脳PETデータセットに対する大規模な実験により、我々の手法は最先端のPET再構成法よりも優れていることが示された。 ソースコードは \url{https://github.com/show-han/pet-reconstruction} で入手できる。

To obtain high-quality positron emission tomography (PET) scans while reducing radiation exposure to the human body, various approaches have been proposed to reconstruct standard-dose PET (SPET) images from low-dose PET (LPET) images. One widely adopted technique is the generative adversarial networks (GANs), yet recently, diffusion probabilistic models (DPMs) have emerged as a compelling alternative due to their improved sample quality and higher log-likelihood scores compared to GANs. Despite this, DPMs suffer from two major drawbacks in real clinical settings, i.e., the computationally expensive sampling process and the insufficient preservation of correspondence between the conditioning LPET image and the reconstructed PET (RPET) image. To address the above limitations, this paper presents a coarse-to-fine PET reconstruction framework that consists of a coarse prediction module (CPM) and an iterative refinement module (IRM). The CPM generates a coarse PET image via a deterministic process, and the IRM samples the residual iteratively. By delegating most of the computational overhead to the CPM, the overall sampling speed of our method can be significantly improved. Furthermore, two additional strategies, i.e., an auxiliary guidance strategy and a contrastive diffusion strategy, are proposed and integrated into the reconstruction process, which can enhance the correspondence between the LPET image and the RPET image, further improving clinical reliability. Extensive experiments on two human brain PET datasets demonstrate that our method outperforms the state-of-the-art PET reconstruction methods. The source code is available at \url{https://github.com/Show-han/PET-Reconstruction}.
翻訳日:2023-08-22 17:30:42 公開日:2023-08-20
# SSMG:自由形レイアウト画像生成のための空間意味マップ誘導拡散モデル

SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form Layout-to-Image Generation ( http://arxiv.org/abs/2308.10156v1 )

ライセンス: Link先を確認
Chengyou Jia, Minnan Luo, Zhuohang Dang, Guang Dai, Xiaojun Chang, Mengmeng Wang, Jingdong Wang(参考訳) text-to-image (t2i)生成モデルの大幅な進歩にもかかわらず、長い複雑なテキスト記述でさえ、詳細な制御を伝えるのに苦労している。 対照的に、ユーザ指定レイアウトから現実的で複雑なシーン画像を生成するLayout-to-Image(L2I)生成が注目されている。 しかし、既存の手法では、レイアウト情報をトークンまたはrgbイメージに変換して生成プロセスの条件付き制御を行うため、個々のインスタンスの空間的および意味的制御性が不十分になる。 これらの制約に対処するために,レイアウトから派生した特徴マップをガイダンスとして採用した空間意味マップガイド(SSMG)拡散モデルを提案する。 良く設計された特徴マップにカプセル化された豊富な空間的・意味的な情報により、SSMGは以前の作品と比べて十分な空間的・意味的制御性を持つ優れた生成品質を達成する。 また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。 前者はシーン内の複数のオブジェクト間の関係をモデル化することを目的としており、後者はガイダンスに埋め込まれた空間情報に対するモデルの感度を高めるように設計されている。 広範な実験により、SSMGは極めて有望な結果が得られ、忠実さ、多様性、制御性を含む様々な指標に新しい最先端技術が確立された。

Despite significant progress in Text-to-Image (T2I) generative models, even lengthy and complex text descriptions still struggle to convey detailed controls. In contrast, Layout-to-Image (L2I) generation, aiming to generate realistic and complex scene images from user-specified layouts, has risen to prominence. However, existing methods transform layout information into tokens or RGB images for conditional control in the generative process, leading to insufficient spatial and semantic controllability of individual instances. To address these limitations, we propose a novel Spatial-Semantic Map Guided (SSMG) diffusion model that adopts the feature map, derived from the layout, as guidance. Owing to rich spatial and semantic information encapsulated in well-designed feature maps, SSMG achieves superior generation quality with sufficient spatial and semantic controllability compared to previous works. Additionally, we propose the Relation-Sensitive Attention (RSA) and Location-Sensitive Attention (LSA) mechanisms. The former aims to model the relationships among multiple objects within scenes while the latter is designed to heighten the model's sensitivity to the spatial information embedded in the guidance. Extensive experiments demonstrate that SSMG achieves highly promising results, setting a new state-of-the-art across a range of metrics encompassing fidelity, diversity, and controllability.
翻訳日:2023-08-22 17:30:10 公開日:2023-08-20
# 階層的拡張を用いた一側的コントラスト学習による異常検出

Unilaterally Aggregated Contrastive Learning with Hierarchical Augmentation for Anomaly Detection ( http://arxiv.org/abs/2308.10155v1 )

ライセンス: Link先を確認
Guodong Wang, Yunhong Wang, Jie Qin, Dongming Zhang, Xiuguo Bao, Di Huang(参考訳) トレーニング分布から逸脱するサンプルを見つけることを目的とした異常検出(AD)は、安全クリティカルなアプリケーションに不可欠である。 近年の自己教師型学習に基づく試みは,仮想外れ値の生成によって有望な結果が得られたが,そのトレーニング目的は,集中した不利値分布と分散外れ値分布を必要とするADに忠実でない。 本稿では,上述の要件を考慮に入れた階層的強化(unicon-ha)を用いた,一方的なコントラスト学習を提案する。 具体的には,教師付きコントラスト損失と教師なしコントラスト損失により,イナリアの集中と仮想外れ値の分散を明示的に推奨する。 正の視点を生成するための標準の対比データ拡張が外れ値を引き起こす可能性があることを考慮し、さらに、拡張したイリアーをイリアー分布からのずれに応じて再重み付けし、純度の高い濃度を確保するためのソフトメカニズムを導入する。 さらに、カリキュラム学習に触発された高集中化を促すために、難解な階層的拡張戦略を採用し、データ拡張の強みに基づいて、ネットワークの異なる深さでコントラスト的集約を行う。 提案手法は,ラベルなしのワンクラス,ラベルなしのマルチクラス,ラベル付きマルチクラスを含む3つの広告設定の下で評価され,他の競合に対して一貫した優位性を示す。

Anomaly detection (AD), aiming to find samples that deviate from the training distribution, is essential in safety-critical applications. Though recent self-supervised learning based attempts achieve promising results by creating virtual outliers, their training objectives are less faithful to AD which requires a concentrated inlier distribution as well as a dispersive outlier distribution. In this paper, we propose Unilaterally Aggregated Contrastive Learning with Hierarchical Augmentation (UniCon-HA), taking into account both the requirements above. Specifically, we explicitly encourage the concentration of inliers and the dispersion of virtual outliers via supervised and unsupervised contrastive losses, respectively. Considering that standard contrastive data augmentation for generating positive views may induce outliers, we additionally introduce a soft mechanism to re-weight each augmented inlier according to its deviation from the inlier distribution, to ensure a purified concentration. Moreover, to prompt a higher concentration, inspired by curriculum learning, we adopt an easy-to-hard hierarchical augmentation strategy and perform contrastive aggregation at different depths of the network based on the strengths of data augmentation. Our method is evaluated under three AD settings including unlabeled one-class, unlabeled multi-class, and labeled multi-class, demonstrating its consistent superiority over other competitors.
翻訳日:2023-08-22 17:29:48 公開日:2023-08-20
# 分散学習のための資源適応ニュートン法

Resource-Adaptive Newton's Method for Distributed Learning ( http://arxiv.org/abs/2308.10154v1 )

ライセンス: Link先を確認
Shuzhen Chen, Yuan Yuan, Youming Tao, Zhipeng Cai and Dongxiao Yu(参考訳) ニュートン法に基づく分散確率最適化法は、曲率情報を利用して性能を向上させることで一階法よりも大きな利点をもたらす。 しかし, ニュートン法の適用性は, ヘッセン行列に付随する高い計算と通信コスト, サブモデル多様性, トレーニングにおける安定性, データの異質性といった課題により, 大規模かつ異質な学習環境において阻害される。 これらの課題に対処するために,簡単なヘッセン初期化と訓練領域の適応的割り当てを用いて,ニュートンの手法の限界を克服するRANLというアルゴリズムを提案する。 このアルゴリズムは、確率最適化の標準的な仮定の下で厳密に解析される印象的な収束特性を示す。 この理論解析は、RANLが利用可能な資源に効果的に適応し、高い効率を維持しながら線形収束率を達成することを証明している。 従来の一階法とは異なり、ranlは問題の条件数から顕著な独立性を示し、複雑なパラメータチューニングの必要性をなくす。 これらの利点により、ranlは実用的なシナリオにおいて分散確率最適化に有望なアプローチとなる。

Distributed stochastic optimization methods based on Newton's method offer significant advantages over first-order methods by leveraging curvature information for improved performance. However, the practical applicability of Newton's method is hindered in large-scale and heterogeneous learning environments due to challenges such as high computation and communication costs associated with the Hessian matrix, sub-model diversity, staleness in training, and data heterogeneity. To address these challenges, this paper introduces a novel and efficient algorithm called RANL, which overcomes the limitations of Newton's method by employing a simple Hessian initialization and adaptive assignments of training regions. The algorithm demonstrates impressive convergence properties, which are rigorously analyzed under standard assumptions in stochastic optimization. The theoretical analysis establishes that RANL achieves a linear convergence rate while effectively adapting to available resources and maintaining high efficiency. Unlike traditional first-order methods, RANL exhibits remarkable independence from the condition number of the problem and eliminates the need for complex parameter tuning. These advantages make RANL a promising approach for distributed stochastic optimization in practical scenarios.
翻訳日:2023-08-22 17:29:22 公開日:2023-08-20
# ゴールデン回路切断点のオンライン検出

Online Detection of Golden Circuit Cutting Points ( http://arxiv.org/abs/2308.10153v1 )

ライセンス: Link先を確認
Daniel T. Chen and Ethan H. Hansen and Xinpeng Li and Aaron Orenstein and Vinooth Kulkarni and Vipin Chaudhary and Qiang Guan and Ji Liu and Yang Zhang and Shuai Xu(参考訳) 量子回路切断は、小さな量子マシンの集合を用いて大きな量子回路をシミュレートする有望な方法として登場した。 低キュービットの"サーキットフラグメント"を実行することで、短期ハードウェアのサイズ制限を克服できるだけでなく、シミュレーションの信頼性も向上する。 しかし、計測統計の再構築には、カット数で指数関数的に増加する古典的・量子的な計算資源が必要である。 本論文では、再構築時に不要な基底成分を識別し、関連する下流計算を避ける黄金切断点の概念を紹介する。 そこで本研究では,ゴールデンカット点を同定するための仮説検証手法を提案する。 最後に,Qiskit の Aer シミュレータに提案手法の適用性を実証し,壁面時間の短縮を観測し,古くなった測定値の特定と回避を図った。

Quantum circuit cutting has emerged as a promising method for simulating large quantum circuits using a collection of small quantum machines. Running low-qubit "circuit fragments" not only overcomes the size limitation of near-term hardware, but it also increases the fidelity of the simulation. However, reconstructing measurement statistics requires computational resources - both classical and quantum - that grow exponentially with the number of cuts. In this manuscript, we introduce the concept of a golden cutting point, which identifies unnecessary basis components during reconstruction and avoids related down-stream computation. We propose a hypothesis-testing scheme for identifying golden cutting points, and provide robustness results in the case of the test failing with low probability. Lastly, we demonstrate the applicability of our method on Qiskit's Aer simulator and observe a reduced wall time from identifying and avoiding obsolete measurements.
翻訳日:2023-08-22 17:29:04 公開日:2023-08-20
# 大規模言語モデルの公平性に関する調査

A Survey on Fairness in Large Language Models ( http://arxiv.org/abs/2308.10149v1 )

ライセンス: Link先を確認
Yingji Li, Mengnan Du, Rui Song, Xin Wang, Ying Wang(参考訳) 大規模言語モデル(LLM)は、強力なパフォーマンスと開発見通しを示し、現実世界に広くデプロイされている。 しかし、LLMは未処理のトレーニングデータから社会的バイアスを捕捉し、下流のタスクにバイアスを伝達することができる。 LLMシステムは望ましくない社会的影響と潜在的な害がある。 本稿では,LLMの公平性に関する総合的な研究について概説する。 まず,中規模LCMにおいて,内在バイアスと外在バイアスの観点から評価指標と脱バイアス法を導入する。 次に, 大規模LLMにおいて, 公平性評価, バイアスの原因, 偏りの除去方法などの最近の公正性研究を紹介する。 最後に,LLMの公平性向上に向けた課題と今後の方向性について考察し,考察する。

Large language models (LLMs) have shown powerful performance and development prospect and are widely deployed in the real world. However, LLMs can capture social biases from unprocessed training data and propagate the biases to downstream tasks. Unfair LLM systems have undesirable social impacts and potential harms. In this paper, we provide a comprehensive review of related research on fairness in LLMs. First, for medium-scale LLMs, we introduce evaluation metrics and debiasing methods from the perspectives of intrinsic bias and extrinsic bias, respectively. Then, for large-scale LLMs, we introduce recent fairness research, including fairness evaluation, reasons for bias, and debiasing methods. Finally, we discuss and provide insight on the challenges and future directions for the development of fairness in LLMs.
翻訳日:2023-08-22 17:28:48 公開日:2023-08-20
# サウジアラビアにおけるgoogleの個人アカウント保有者のプライバシー意識と行動

Privacy Perceptions and Behaviors of Google Personal Account Holders in Saudi Arabia ( http://arxiv.org/abs/2308.10148v1 )

ライセンス: Link先を確認
Eman Alashwali and Lorrie Faith Cranor(参考訳) 西洋社会ではプライバシーの認識や行動が研究されているが、非西洋社会ではこれらの問題についてはほとんど分かっていない。 このギャップを埋めるために、私たちはサウジアラビアの30人のGoogleアカウント所有者に、Googleが保存するアクティビティデータに対するプライバシーの認識(認識、態度、嗜好、関心)と、Googleのコレクションやこのデータの使用を制御するためのあらゆるステップについてインタビューしました。 我々の研究は、ユーザーがWeb & App Activity、Location History、YouTube Historyを保存できるかどうかを制御できるGoogleのActivity Controlsに焦点を当てている。 その結果、ほとんどの参加者はgoogleのデータプラクティスとアクティビティコントロールについてある程度の認識を持っているが、多くはあいまいな意識しか持たず、大多数は利用可能なコントロールを使用していないことがわかった。 参加者が保存した活動データを見たとき、多くの人が救われたことに驚いた。 多くの参加者は、Googleが提供したサービスを改善するためにデータを使用することを容認しているが、大多数は広告目的でデータを使用することを容認できないと考えている。 サウジの参加者は、米国の研究で見つかったものと同様に、プライバシーの意識、態度、好み、懸念、行動に類似した傾向とパターンを示しています。 しかし、本研究は米国研究の複製ではなく、米国とサウジアラビアの参加者を直接比較するためにはさらなる研究が必要である。 その結果,(1)アカウント登録時のプライバシ設定をユーザに通知し,ユーザに対して設定を思い出させ,プライバシ設定に対する意識を高める技術の改善,(2)多くのユーザが設定を変更するのを妨げるコストを削減するためのプライバシ設定インターフェースの改善,(3)欧米以外の文化におけるプライバシに関するさらなる研究の必要性が強調された。

While privacy perceptions and behaviors have been investigated in Western societies, little is known about these issues in non-Western societies. To bridge this gap, we interviewed 30 Google personal account holders in Saudi Arabia about their privacy perceptions (awareness, attitudes, preferences, and concerns) regarding the activity data that Google saves about them, as well as any steps they take to control Google's collection or use of this data. Our study focuses on Google's Activity Controls, which enable users to control whether, and how, Google saves their Web & App Activity, Location History, and YouTube History. Our results show that although most participants have some level of awareness about Google's data practices and the Activity Controls, many have only vague awareness, and the majority have not used the available controls. When participants viewed their saved activity data, many were surprised by what had been saved. While many participants find Google's use of their data to improve the services provided to them acceptable, the majority find the use of their data for ad purposes unacceptable. We observe that our Saudi participants exhibit similar trends and patterns in privacy awareness, attitudes, preferences, concerns, and behaviors to what has been found in studies in the US. However, our study is not a replication of any of the US studies, and further research is needed to directly compare US and Saudi participants. Our results emphasize the need for: (1) improved techniques to inform users about privacy settings during account sign-up, to remind users about their settings, and to raise awareness about privacy settings; (2) improved privacy setting interfaces to reduce the costs that deter many users from changing the settings; and (3) further research to explore privacy concerns in non-Western cultures.
翻訳日:2023-08-22 17:28:37 公開日:2023-08-20
# ESTextSpotter: トランスフォーマーの明示的なシナジーによるシーンテキストスポッティングの改善

ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy in Transformer ( http://arxiv.org/abs/2308.10147v1 )

ライセンス: Link先を確認
Mingxin Huang, Jiaxin Zhang, Dezhi Peng, Hao Lu, Can Huang, Yuliang Liu, Xiang Bai, Lianwen Jin(参考訳) 近年、エンドツーエンドのシーンテキストスポッティングアプローチがTransformerベースのフレームワークに進化している。 これまでの研究では、テキスト検出と認識の間に内在するシナジーの重要性が示されているが、トランスフォーマティブベースの手法の最近の進歩は、通常、共有クエリを伴う暗黙的なシナジー戦略を採用しており、これら2つの対話的タスクの可能性を完全には認識できない。 本稿では,テキスト検出と認識の異なる特徴を考慮に入れた明示的な相乗効果が,パフォーマンステキストスポッティングを著しく向上させることを論じる。 そこで本研究では,テキスト検出と認識のための識別的,インタラクティブな特徴を単一デコーダ内でモデル化することにより,明示的なシナジーを実現する,Explicit Synergy-based Text Spotting Transformer framework (ESTextSpotter) を提案する。 具体的には、従来の共有クエリを、テキストポリゴンとコンテンツのタスク対応クエリに分解する。 提案する視覚言語通信モジュールを用いたデコーダにより,テキスト検出と認識の識別パターンを保ちながら,クエリ同士を明示的な方法で対話し,性能を著しく向上させる。 さらに,安定したトレーニングを実現するタスク対応クエリ初期化スキームを提案する。 実験の結果,本モデルが従来の最先端手法を大きく上回ることがわかった。 コードはhttps://github.com/mxin262/estextspotterで入手できる。

In recent years, end-to-end scene text spotting approaches are evolving to the Transformer-based framework. While previous studies have shown the crucial importance of the intrinsic synergy between text detection and recognition, recent advances in Transformer-based methods usually adopt an implicit synergy strategy with shared query, which can not fully realize the potential of these two interactive tasks. In this paper, we argue that the explicit synergy considering distinct characteristics of text detection and recognition can significantly improve the performance text spotting. To this end, we introduce a new model named Explicit Synergy-based Text Spotting Transformer framework (ESTextSpotter), which achieves explicit synergy by modeling discriminative and interactive features for text detection and recognition within a single decoder. Specifically, we decompose the conventional shared query into task-aware queries for text polygon and content, respectively. Through the decoder with the proposed vision-language communication module, the queries interact with each other in an explicit manner while preserving discriminative patterns of text detection and recognition, thus improving performance significantly. Additionally, we propose a task-aware query initialization scheme to ensure stable training. Experimental results demonstrate that our model significantly outperforms previous state-of-the-art methods. Code is available at https://github.com/mxin262/ESTextSpotter.
翻訳日:2023-08-22 17:28:05 公開日:2023-08-20
# OCHID-Fi:RF-Visionによる3次元の閉塞・腐食性ハンドポース推定

OCHID-Fi: Occlusion-Robust Hand Pose Estimation in 3D via RF-Vision ( http://arxiv.org/abs/2308.10146v1 )

ライセンス: Link先を確認
Shujie Zhang, Tianyue Zheng, Zhe Chen, Jingzhi Hu, Abdelwahed Khamis, Jiajun Liu and Jun Luo(参考訳) HPE(Hand Pose Estimation)は多くの応用において重要であるが、従来のカメラベースのCM-HPE法は、カメラが隠蔽対象を捕捉できないため、Line-of-Sight(LoS)に完全に従属する。 本稿では,遮蔽hpeを実現するために障害物をバイパスする無線周波数ビジョン(rf-vision)を活用し,3次元ポーズ推定能力を持つ最初のrf-hpe法としてocd-fiを導入する。 OCHID-Fiは、スマートデバイス(例えばiPhone)で広く利用可能な広帯域RFセンサーを使用して、3Dの手のポーズを探索し、障害物の背後にある骨格を抽出する。 人間の理解不能な性質からRFイメージングのラベル付けの課題を克服するため、OCHID-Fiはクロスモダリティとクロスドメイントレーニングプロセスを採用している。 事前訓練されたCM-HPEネットワークと同期されたCM/RFデータセットを使用して、複雑な値のRF-HPEネットワークをLoS条件下でトレーニングする。 さらに、ラベル付きLoSドメインから学習した知識を、敵の学習を通じてラベルなしの隠蔽ドメインに転送する。 実験により, OCHID-Fiの精度は通常の条件下ではCM-HPEと同等であり, 隠蔽シナリオにおいてもその精度を維持し, 新領域への一般化性を示す実証的証拠が得られた。

Hand Pose Estimation (HPE) is crucial to many applications, but conventional cameras-based CM-HPE methods are completely subject to Line-of-Sight (LoS), as cameras cannot capture occluded objects. In this paper, we propose to exploit Radio-Frequency-Vision (RF-vision) capable of bypassing obstacles for achieving occluded HPE, and we introduce OCHID-Fi as the first RF-HPE method with 3D pose estimation capability. OCHID-Fi employs wideband RF sensors widely available on smart devices (e.g., iPhones) to probe 3D human hand pose and extract their skeletons behind obstacles. To overcome the challenge in labeling RF imaging given its human incomprehensible nature, OCHID-Fi employs a cross-modality and cross-domain training process. It uses a pre-trained CM-HPE network and a synchronized CM/RF dataset, to guide the training of its complex-valued RF-HPE network under LoS conditions. It further transfers knowledge learned from labeled LoS domain to unlabeled occluded domain via adversarial learning, enabling OCHID-Fi to generalize to unseen occluded scenarios. Experimental results demonstrate the superiority of OCHID-Fi: it achieves comparable accuracy to CM-HPE under normal conditions while maintaining such accuracy even in occluded scenarios, with empirical evidence for its generalizability to new domains.
翻訳日:2023-08-22 17:27:40 公開日:2023-08-20
# 条件分布のためのwasserstein測地線発生器

Wasserstein Geodesic Generator for Conditional Distributions ( http://arxiv.org/abs/2308.10145v1 )

ライセンス: Link先を確認
Young-geun Kim, Kyungbok Lee, Youngwon Choi, Joong-Ho Won, Myunghee Cho Paik(参考訳) 特定のラベルが与えられたサンプルを生成するには、条件分布を推定する必要がある。 条件分布間のワッサーシュタイン距離のトラクタブルな上限を導出し、条件分布を学習するための理論的な基礎となる。 この結果に基づいて,統計的距離によって定義される距離空間によって条件分布が完全に特徴づけられる新しい条件生成アルゴリズムを提案する。 最適輸送理論を用いて,ワッサースタイン測地学を学習する新しい条件生成器である \textit{wasserstein geodesic generator} を提案する。 提案手法は観測領域の条件分布とそれらの間の最適輸送マップの両方を学習する。 観測されていない中間領域が与えられた条件分布は、2つの観測された領域ラベルが与えられた条件分布の間のワッサーシュタイン測地線上にある。 ドメインラベルとして光条件の顔画像を用いた実験により,提案手法の有効性が示された。

Generating samples given a specific label requires estimating conditional distributions. We derive a tractable upper bound of the Wasserstein distance between conditional distributions to lay the theoretical groundwork to learn conditional distributions. Based on this result, we propose a novel conditional generation algorithm where conditional distributions are fully characterized by a metric space defined by a statistical distance. We employ optimal transport theory to propose the \textit{Wasserstein geodesic generator}, a new conditional generator that learns the Wasserstein geodesic. The proposed method learns both conditional distributions for observed domains and optimal transport maps between them. The conditional distributions given unobserved intermediate domains are on the Wasserstein geodesic between conditional distributions given two observed domain labels. Experiments on face images with light conditions as domain labels demonstrate the efficacy of the proposed method.
翻訳日:2023-08-22 17:27:08 公開日:2023-08-20
# FoodGPT: インクリメンタル事前学習と知識グラフによる食品試験領域における大規模言語モデル

FoodGPT: A Large Language Model in Food Testing Domain with Incremental Pre-training and Knowledge Graph Prompt ( http://arxiv.org/abs/2308.10173v1 )

ライセンス: Link先を確認
Zhixiao Qi, Yijiong Yu, Meiqi Tu, Junyi Tan, Yongfeng Huang(参考訳) 現在、特定のドメインにおける大きな言語モデルの構築は、ベースモデルの微調整によって行われる。 事前トレーニングを必要とせずに知識ベースを組み込むモデルもある。 これは、ベースモデルが事前トレーニングプロセス中に既にドメイン固有の知識を含んでいるためです。 食品テストのための大きな言語モデルを構築しています。 上記のアプローチとは異なり、このドメイン内のかなりの量のデータは、ドメイン標準ドキュメントのスキャニング形式に存在する。 さらに、訓練されていない構造化知識も大量に存在する。 そこで我々は,この知識を大規模言語モデルに注入するための段階的な事前学習手順を導入する。 本稿では,構造化知識とスキャンされた文書を漸進的事前学習で扱う手法を提案する。 機械幻覚の問題を克服するために,大規模言語モデルにおける検索支援のための外部知識ベースとして機能する知識グラフを構築した。 この論文は、プレリリースバージョンのテクニカルレポートであり、今後のバージョンの具体的な実験データを報告することに留意しておきたい。

Currently, the construction of large language models in specific domains is done by fine-tuning on a base model. Some models also incorporate knowledge bases without the need for pre-training. This is because the base model already contains domain-specific knowledge during the pre-training process. We build a large language model for food testing. Unlike the above approach, a significant amount of data in this domain exists in Scanning format for domain standard documents. In addition, there is a large amount of untrained structured knowledge. Therefore, we introduce an incremental pre-training step to inject this knowledge into a large language model. In this paper, we propose a method for handling structured knowledge and scanned documents in incremental pre-training. To overcome the problem of machine hallucination, we constructe a knowledge graph to serve as an external knowledge base for supporting retrieval in the large language model. It is worth mentioning that this paper is a technical report of our pre-release version, and we will report our specific experimental data in future versions.
翻訳日:2023-08-22 17:19:56 公開日:2023-08-20
# VLN-PETL:視覚・言語ナビゲーションのためのパラメータ効率の良い伝達学習

VLN-PETL: Parameter-Efficient Transfer Learning for Vision-and-Language Navigation ( http://arxiv.org/abs/2308.10172v1 )

ライセンス: Link先を確認
Yanyuan Qiao, Zheng Yu, Qi Wu(参考訳) Vision-and-Language Navigation~(VLN)タスクのパフォーマンスは、大規模な事前学習された視覚・言語モデルを使用することで、最近急速に進歩している。 しかしながら、下流のVLNタスクごとに事前訓練されたモデルの完全な微調整は、相当なモデルサイズのためにコストがかかる。 近年のPETL(パラメータ効率変換学習)のホットスポットは,パラメータの最小セットのみをチューニングしながら,事前学習モデルに入力される表現知識のほとんどを利用する共通CVおよびNLPタスクに対して,大規模な事前学習モデルを効率的にチューニングする大きな可能性を示している。 しかし、より困難なVLNタスクに既存のPETLメソッドを単純に利用すれば、パフォーマンスに非自明な劣化をもたらす可能性がある。 そこで本研究では,VLNタスクのためのPETL法を初めて検討し,VLN固有のPETL法であるVLN-PETLを提案する。 具体的には,ヒストリカル・インタラクション・ブースター (HIB) とクロスモーダル・インタラクション・ブースター (CIB) の2つのPETLモジュールを設計する。 次に、これらの2つのモジュールを、VLN-PETLとして既存のPETLメソッドと組み合わせる。 4つの主要なVLNタスク(R2R, REVERIE, NDH, RxR)の大規模な実験結果から,VLN-PETLと同等あるいはそれ以上の性能を達成し,他のPETL法よりも有望なマージンで優れることを示す。

The performance of the Vision-and-Language Navigation~(VLN) tasks has witnessed rapid progress recently thanks to the use of large pre-trained vision-and-language models. However, full fine-tuning the pre-trained model for every downstream VLN task is becoming costly due to the considerable model size. Recent research hotspot of Parameter-Efficient Transfer Learning (PETL) shows great potential in efficiently tuning large pre-trained models for the common CV and NLP tasks, which exploits the most of the representation knowledge implied in the pre-trained model while only tunes a minimal set of parameters. However, simply utilizing existing PETL methods for the more challenging VLN tasks may bring non-trivial degeneration to the performance. Therefore, we present the first study to explore PETL methods for VLN tasks and propose a VLN-specific PETL method named VLN-PETL. Specifically, we design two PETL modules: Historical Interaction Booster (HIB) and Cross-modal Interaction Booster (CIB). Then we combine these two modules with several existing PETL methods as the integrated VLN-PETL. Extensive experimental results on four mainstream VLN tasks (R2R, REVERIE, NDH, RxR) demonstrate the effectiveness of our proposed VLN-PETL, where VLN-PETL achieves comparable or even better performance to full fine-tuning and outperforms other PETL methods with promising margins.
翻訳日:2023-08-22 17:19:42 公開日:2023-08-20
# FashionNTM: カスケードメモリによるマルチターンファッション画像検索

FashionNTM: Multi-turn Fashion Image Retrieval via Cascaded Memory ( http://arxiv.org/abs/2308.10170v1 )

ライセンス: Link先を確認
Anwesan Pal, Sahil Wadhwa, Ayush Jaiswal, Xu Zhang, Yue Wu, Rakesh Chada, Pradeep Natarajan, and Henrik I. Christensen(参考訳) マルチターンのテキストフィードバックに基づくファッション画像検索は、ユーザーが全ての要求に合致するアイテムを見つけるまで、検索結果を洗練するための情報を反復的に提供できる現実の環境に焦点を当てている。 本稿では,このようなマルチターンシステムのための新しいメモリベース手法であるfaspentmを提案する。 我々のフレームワークは、暗黙的な状態管理のための新しいカスケードメモリニューラルチューリングマシン(CM-NTM)アプローチを取り入れており、それによって過去のすべてのターンにまたがる情報を学習して、与えられたターンに新しい画像を取得する。 バニラニューラルチューリングマシン(NTM)とは異なり、CM-NTMは複数の入力で動作し、個々の読み書きヘッドを介してそれぞれのメモリと相互作用し、複雑な関係を学ぶ。 広範な評価結果から,提案手法は,本研究で作成したシングルターンシューズデータセットの拡張であるマルチターン・ファッショナリデータセットの相対的改善に加えて,既存のマルチターン・ファッションデータセットであるマルチターン・ファッショナリiqにおいて,従来の最先端アルゴリズムを50.5%上回った。 実世界のインタラクティブな環境でのモデルのさらなる分析は、ターン間のメモリ保持と、非矛盾的なフィードバックの順序を変えることの不可知性の2つの重要な機能を示す。 最後に、ユーザ調査の結果、FashionNTMで取得した画像は他のマルチターンモデルよりも83.1%好まれていた。 プロジェクトページ: https://sites.google.com/eng.ucsd.edu/fashionntm

Multi-turn textual feedback-based fashion image retrieval focuses on a real-world setting, where users can iteratively provide information to refine retrieval results until they find an item that fits all their requirements. In this work, we present a novel memory-based method, called FashionNTM, for such a multi-turn system. Our framework incorporates a new Cascaded Memory Neural Turing Machine (CM-NTM) approach for implicit state management, thereby learning to integrate information across all past turns to retrieve new images, for a given turn. Unlike vanilla Neural Turing Machine (NTM), our CM-NTM operates on multiple inputs, which interact with their respective memories via individual read and write heads, to learn complex relationships. Extensive evaluation results show that our proposed method outperforms the previous state-of-the-art algorithm by 50.5%, on Multi-turn FashionIQ -- the only existing multi-turn fashion dataset currently, in addition to having a relative improvement of 12.6% on Multi-turn Shoes -- an extension of the single-turn Shoes dataset that we created in this work. Further analysis of the model in a real-world interactive setting demonstrates two important capabilities of our model -- memory retention across turns, and agnosticity to turn order for non-contradictory feedback. Finally, user study results show that images retrieved by FashionNTM were favored by 83.1% over other multi-turn models. Project page: https://sites.google.com/eng.ucsd.edu/fashionntm
翻訳日:2023-08-22 17:19:12 公開日:2023-08-20
# 動的シナリオにおける自己進化型粒子群最適化による効率的なリアルタイム経路計画

Efficient Real-time Path Planning with Self-evolving Particle Swarm Optimization in Dynamic Scenarios ( http://arxiv.org/abs/2308.10169v1 )

ライセンス: Link先を確認
Jinghao Xin, Zhi Li, Yang Zhang, and Ning Li(参考訳) Particle Swarm Optimization (PSO) は静的経路計画問題に対する有効性を示した。 しかしながら、このような動的シナリオへの応用は、PSOの計算効率の低さと早めの収束の低さによって著しく妨げられている。 これらの制約に対処するため、粒子の操作をテンソル操作に変換するテンソル演算形式(TOF)を提案し、計算効率を向上した。 自己進化粒子群最適化 (SEPSO) として指定された PSO の変種である TOF の計算上の優位性を強調した。 SEPSOは、自身のハイパーパラメータの自律的な最適化を可能にする、新しい階層的自己進化フレームワーク(HSEF)によって支えられている。 さらに, 動的経路計画問題に対するSEPSOのリアルタイム性能を大幅に向上させる, 優先初期化(PI)機構と自動トラニケーション(AT)機構を導入した。 4つの広く使われているベンチマーク最適化関数に関する総合的な実験は、SEPSOの有効性を裏付けるために始められた。 次に,移動開始/目標点と動的/静的障害を含む動的シミュレーション環境を用いて,動的経路計画問題に対するSEPSOの有効性を評価する。 シミュレーションの結果,提案手法は,従来の方法と対照的に,実時間性能(通常のデスクトップコンピュータでは毎秒67経路計画計算)の優れた経路を生成することができることがわかった。 この論文のコードはここでアクセスできます。

Particle Swarm Optimization (PSO) has demonstrated efficacy in addressing static path planning problems. Nevertheless, such application on dynamic scenarios has been severely precluded by PSO's low computational efficiency and premature convergence downsides. To address these limitations, we proposed a Tensor Operation Form (TOF) that converts particle-wise manipulations to tensor operations, thereby enhancing computational efficiency. Harnessing the computational advantage of TOF, a variant of PSO, designated as Self-Evolving Particle Swarm Optimization (SEPSO) was developed. The SEPSO is underpinned by a novel Hierarchical Self-Evolving Framework (HSEF) that enables autonomous optimization of its own hyper-parameters to evade premature convergence. Additionally, a Priori Initialization (PI) mechanism and an Auto Truncation (AT) mechanism that substantially elevates the real-time performance of SEPSO on dynamic path planning problems were introduced. Comprehensive experiments on four widely used benchmark optimization functions have been initially conducted to corroborate the validity of SEPSO. Following this, a dynamic simulation environment that encompasses moving start/target points and dynamic/static obstacles was employed to assess the effectiveness of SEPSO on the dynamic path planning problem. Simulation results exhibit that the proposed SEPSO is capable of generating superior paths with considerably better real-time performance (67 path planning computations per second in a regular desktop computer) in contrast to alternative methods. The code of this paper can be accessed here.
翻訳日:2023-08-22 17:18:41 公開日:2023-08-20
# Head-to-Tail: 大規模言語モデル(LLM)はどの程度の知識があるか? LLMは知識グラフを置き換えるのか?

Head-to-Tail: How Knowledgeable are Large Language Models (LLM)? A.K.A. Will LLMs Replace Knowledge Graphs? ( http://arxiv.org/abs/2308.10168v1 )

ライセンス: Link先を確認
Kai Sun, Yifan Ethan Xu, Hanwen Zha, Yue Liu, Xin Luna Dong(参考訳) 近年のLLM(Large Language Models)の隆盛以降、LLM応答からの幻覚の低減方法、LLMの現実性の向上方法、世界知識を象徴的な形で保存する知識グラフ(KG)をLLMに置き換えるかどうかなど、議論が交わされている。 本稿では,これらの疑問に新たな角度から答えようとする。 LLMはどの程度の知識があるのか? この疑問に答えるために、我々は、頭、胴体、尾の事実に関する18Kの質問回答(QA)ペアからなるベンチマークであるHead-to-Tailを構築した。 我々はLLMが自信を持って内在する知識を密に近似する自動評価法とメトリクスのセットを設計した。 14のLLMの総合的な評価を通じて,既存のLCMは,事実知識の把握,特に胴体とテールの実体の事実に関して,まだ完璧ではないことを示す。

Since the recent prosperity of Large Language Models (LLMs), there have been interleaved discussions regarding how to reduce hallucinations from LLM responses, how to increase the factuality of LLMs, and whether Knowledge Graphs (KGs), which store the world knowledge in a symbolic form, will be replaced with LLMs. In this paper, we try to answer these questions from a new angle: How knowledgeable are LLMs? To answer this question, we constructed Head-to-Tail, a benchmark that consists of 18K question-answer (QA) pairs regarding head, torso, and tail facts in terms of popularity. We designed an automated evaluation method and a set of metrics that closely approximate the knowledge an LLM confidently internalizes. Through a comprehensive evaluation of 14 publicly available LLMs, we show that existing LLMs are still far from being perfect in terms of their grasp of factual knowledge, especially for facts of torso-to-tail entities.
翻訳日:2023-08-22 17:18:21 公開日:2023-08-20
# crohn病における細胞空間解析 : グラフを用いた局所細胞配置パターンの明らかに

Cell Spatial Analysis in Crohn's Disease: Unveiling Local Cell Arrangement Pattern with Graph-based Signatures ( http://arxiv.org/abs/2308.10166v1 )

ライセンス: Link先を確認
Shunxing Bao, Sichen Zhu, Vasantha L Kolachala, Lucas W. Remedios, Yeonjoo Hwang, Yutong Sun, Ruining Deng, Can Cui, Yike Li, Jia Li, Joseph T. Roland, Qi Liu, Ken S. Lau, Subra Kugathasan, Peng Qiu, Keith T. Wilson, Lori A. Coburn, Bennett A. Landman, Yuankai Huo(参考訳) クローン病(Crohn's disease, CD)は、慢性的に再発する炎症性疾患である。 CD活性は組織学的所見、特にヘマトキシリンおよびエオシン染色(H&E)画像上で観察される好中球の密度によって決定される。 しかし、細胞数と組織形態以外の広範な形態計測と局所細胞配置を理解することは依然として困難である。 そこで我々は,H&E画像から6種類の異なる細胞を特徴付け,各細胞の局所的空間的シグネチャに対する新しいアプローチを開発した。 具体的には、各セルの隣接セル配置を表す10細胞近傍マトリックスを作成する。 散乱プロットとカーネル密度推定の輪郭プロットフォーマットにおける非線形空間投影にt-SNEを用いて,アクティブCDとコントロールグループ間の空間パターンのオッズ比に伴う細胞環境差のパターンを調べた。 この分析は2つの研究所で収集されたデータに基づいている。 この結果から, 細胞集合の特異な傾向を呈し, 特に直腸領域に焦点をあてた異種近縁パターンが明らかとなった。 これらの変異は、cd患者の細胞空間配置に対するデータの多様性の影響を強調する。 さらに, 両研究施設間の空間分布格差は, 医療機関間の協調作業の重要性を浮き彫りにしている。 すべての研究分析パイプラインツールはhttps://github.com/MASILab/cellNN.comで入手できる。

Crohn's disease (CD) is a chronic and relapsing inflammatory condition that affects segments of the gastrointestinal tract. CD activity is determined by histological findings, particularly the density of neutrophils observed on Hematoxylin and Eosin stains (H&E) imaging. However, understanding the broader morphometry and local cell arrangement beyond cell counting and tissue morphology remains challenging. To address this, we characterize six distinct cell types from H&E images and develop a novel approach for the local spatial signature of each cell. Specifically, we create a 10-cell neighborhood matrix, representing neighboring cell arrangements for each individual cell. Utilizing t-SNE for non-linear spatial projection in scatter-plot and Kernel Density Estimation contour-plot formats, our study examines patterns of differences in the cellular environment associated with the odds ratio of spatial patterns between active CD and control groups. This analysis is based on data collected at the two research institutes. The findings reveal heterogeneous nearest-neighbor patterns, signifying distinct tendencies of cell clustering, with a particular focus on the rectum region. These variations underscore the impact of data heterogeneity on cell spatial arrangements in CD patients. Moreover, the spatial distribution disparities between the two research sites highlight the significance of collaborative efforts among healthcare organizations. All research analysis pipeline tools are available at https://github.com/MASILab/cellNN.
翻訳日:2023-08-22 17:18:01 公開日:2023-08-20
# 伝送路の痕跡のない反事実通信

Counterfactual communication without a trace in the transmission channel ( http://arxiv.org/abs/2308.10165v1 )

ライセンス: Link先を確認
Wei-Wei Pan, Xiao Liu, Xiao-Ye Xu, Qin-Qin Wang, Ze-Di Cheng, Jian Wang, Zhao-Di Liu, Geng Chen, Zong-Quan Zhou, Chuan-Feng Li, Guang-Can Guo, Justin Dressel and Lev Vaidman(参考訳) 本稿では,伝送路を通過する光子による支配的環境トレースを除去した修正反事実通信プロトコルを実験的に実現する。 過去の粒子経路を推定するホイーラーの基準と比較すると、我々のトレース基準は通信の反事実性の主張を強く支持する。 干渉計装置の伝搬アームを異なる周波数シフトでタグ付けすることで送信光子が残した痕跡の欠如を検証し、収集した光子が伝送チャネルに対応する周波数シフトを持たないことを発見した。 原則の証明として、携帯電話でスキャンするのに十分な忠実度で、クイックレスポンスコード画像を事実上転送します。

We report an experimental realization of a modified counterfactual communication protocol that eliminates the dominant environmental trace left by photons passing through the transmission channel. Compared to Wheeler's criterion for inferring past particle paths, as used in prior protocols, our trace criterion provide stronger support for the claim of the counterfactuality of the communication. We verify the lack of trace left by transmitted photons via tagging the propagation arms of an interferometric device by distinct frequency-shifts and finding that the collected photons have no frequency shift which corresponds to the transmission channel. As a proof of principle, we counterfactually transfer a quick response code image with sufficient fidelity to be scanned with a cell phone.
翻訳日:2023-08-22 17:17:38 公開日:2023-08-20
# フェデレートラーニングにおけるクライアントドリフトの再考:ロジット・パースペクティブ

Rethinking Client Drift in Federated Learning: A Logit Perspective ( http://arxiv.org/abs/2308.10162v1 )

ライセンス: Link先を確認
Yunlu Yan, Chun-Mei Feng, Mang Ye, Wangmeng Zuo, Ping Li, Rick Siow Mong Goh, Lei Zhu, C. L. Philip Chen(参考訳) フェデレーション学習(fl)は、複数のクライアントが分散方法で協調的に学習し、プライバシ保護を可能にする。 しかし、実世界の非IIDデータは、FLの性能を劣化させるクライアントドリフトに繋がる。 興味深いことに、モデルが継続的に更新されるにつれて局所モデルとグローバルモデルとのロジット差が増大し、FL性能が著しく低下する。 これは主に、クライアント間のデータの異質性によって引き起こされる破滅的な忘れが原因である。 この問題を軽減するため,我々は,局所モデルとグローバルモデルを整合させるフェデレーションフレームワークにおける類似度蒸留のクラスプロトタイプであるfecsdという新しいアルゴリズムを提案する。 過度に訓練されたグローバルモデルは信頼できる知識、すなわちクラス類似情報を提供できず、間違ったソフトラベルはローカルモデルの最適化を誤解してしまうため、fecsdは単にグローバル知識をローカルクライアントに転送するわけではない。 具体的には、FedCSDは、局所ロジットと局所ロジットとグローバルプロトタイプとの類似性によって重み付けされた改良されたグローバルロジットとを整合させるために、クラスプロトタイプの類似度蒸留を導入する。 グローバルロジットの品質を高めるため、FedCSDは適応マスクを採用し、グローバルモデルのひどいソフトラベルをフィルタリングし、局所最適化を誤解させるのを防ぐ。 様々な異種環境下での最先端のフェデレーション学習手法よりも,本手法が優れていることを示す。 ソースコードはリリースされます。

Federated Learning (FL) enables multiple clients to collaboratively learn in a distributed way, allowing for privacy protection. However, the real-world non-IID data will lead to client drift which degrades the performance of FL. Interestingly, we find that the difference in logits between the local and global models increases as the model is continuously updated, thus seriously deteriorating FL performance. This is mainly due to catastrophic forgetting caused by data heterogeneity between clients. To alleviate this problem, we propose a new algorithm, named FedCSD, a Class prototype Similarity Distillation in a federated framework to align the local and global models. FedCSD does not simply transfer global knowledge to local clients, as an undertrained global model cannot provide reliable knowledge, i.e., class similarity information, and its wrong soft labels will mislead the optimization of local models. Concretely, FedCSD introduces a class prototype similarity distillation to align the local logits with the refined global logits that are weighted by the similarity between local logits and the global prototype. To enhance the quality of global logits, FedCSD adopts an adaptive mask to filter out the terrible soft labels of the global models, thereby preventing them to mislead local optimization. Extensive experiments demonstrate the superiority of our method over the state-of-the-art federated learning approaches in various heterogeneous settings. The source code will be released.
翻訳日:2023-08-22 17:17:26 公開日:2023-08-20
# ThermRad: 混在条件下でのロバスト3次元物体検出のためのマルチモーダルデータセット

ThermRad: A Multi-modal Dataset for Robust 3D Object Detection under Challenging Conditions ( http://arxiv.org/abs/2308.10161v1 )

ライセンス: Link先を確認
Qiao Yan, Yihan Wang(参考訳) 極度の天候と照明条件下でのロバストな3D物体検出は難しい課題である。 レーダーとサーマルカメラはこれらの条件に対する弾力性で知られているが、対応するデータセットがないため、レーダー熱融合の研究はほとんど行われていない。 このギャップに対処するために、まず3D LiDAR、4Dレーダー、RGBカメラ、サーマルカメラを含む、ThermRadと呼ばれる新しいマルチモーダルデータセットを提示する。 このデータセットは、極度の気象条件下で4つのセンサー全てからのデータを含んでいるため、この領域における将来の研究に貴重なリソースを提供する。 そこで本研究では, RTDF-RCNNと呼ばれる, 4次元レーダとサーマルカメラの相補的強度を利用して, 物体検出性能を向上させるマルチモーダル融合法を提案する。 提案手法の有効性をさらに証明するため, 評価のためのベンチマークとして, データセット上にSOTA(State-of-the-art)3D検出器を再実装した。 提案手法は,車,歩行者,自転車の検知において,それぞれ7.98%,24.27%,27.15%以上の改善を達成し,LiDARによるアプローチと同等の結果を得た。 ThermRadデータセットと新しいマルチモーダル融合法への我々の貢献は、悪天候や照明条件下での堅牢な3次元物体検出に新しいアプローチを提供する。 ThermRadデータセットがリリースされる。

Robust 3D object detection in extreme weather and illumination conditions is a challenging task. While radars and thermal cameras are known for their resilience to these conditions, few studies have been conducted on radar-thermal fusion due to the lack of corresponding datasets. To address this gap, we first present a new multi-modal dataset called ThermRad, which includes a 3D LiDAR, a 4D radar, an RGB camera and a thermal camera. This dataset is unique because it includes data from all four sensors in extreme weather conditions, providing a valuable resource for future research in this area. To validate the robustness of 4D radars and thermal cameras for 3D object detection in challenging weather conditions, we propose a new multi-modal fusion method called RTDF-RCNN, which leverages the complementary strengths of 4D radars and thermal cameras to boost object detection performance. To further prove the effectiveness of our proposed framework, we re-implement state-of-the-art (SOTA) 3D detectors on our dataset as benchmarks for evaluation. Our method achieves significant enhancements in detecting cars, pedestrians, and cyclists, with improvements of over 7.98%, 24.27%, and 27.15%, respectively, while achieving comparable results to LiDAR-based approaches. Our contributions in both the ThermRad dataset and the new multi-modal fusion method provide a new approach to robust 3D object detection in adverse weather and illumination conditions. The ThermRad dataset will be released.
翻訳日:2023-08-22 17:16:58 公開日:2023-08-20
# HODN:HOI検出のためのヒューマンオブジェクト機能

HODN: Disentangling Human-Object Feature for HOI Detection ( http://arxiv.org/abs/2308.10158v1 )

ライセンス: Link先を確認
Shuman Fang, Zhiwen Lin, Ke Yan, Jie Li, Xianming Lin, Rongrong Ji(参考訳) 人間と物体の相互作用(hoi:human-object interaction)検出のタスクは、人間とその周囲の物体との相互作用を検出することである。 しかし、これらの方法は人間、物体、相互作用の関係を無視する。 1) 人的特徴は,対話予測に対する対象的特徴よりも帰属的である。 2)対話的情報は物体の検出を妨害するが,人間の検出を助ける。 本稿では,Human and Object Disentangling Network (HODN) を提案する。Human and Object Disentangling Network (HODN) は,Human and Object Disentangling Network (HOI) の関係を明示的にモデル化する。 人間の特徴がよりインタラクションに寄与することを考えると,人間の特徴を組み込んだ人間中心領域に対話デコーダを集中させるヒューマンガイドリンク手法を提案する。 人間と物体との相互作用の反対の影響に対処するために、相互作用勾配が物体検出の最適化を妨げ、人間の検出を最適化するストップグレードのメカニズムを提案する。 提案手法は,V-COCOデータセットとHICO-Detデータセットの競合性能を実現する。 最新の結果を得るために、既存のメソッドと簡単に組み合わせることができる。

The task of Human-Object Interaction (HOI) detection is to detect humans and their interactions with surrounding objects, where transformer-based methods show dominant advances currently. However, these methods ignore the relationship among humans, objects, and interactions: 1) human features are more contributive than object ones to interaction prediction; 2) interactive information disturbs the detection of objects but helps human detection. In this paper, we propose a Human and Object Disentangling Network (HODN) to model the HOI relationships explicitly, where humans and objects are first detected by two disentangling decoders independently and then processed by an interaction decoder. Considering that human features are more contributive to interaction, we propose a Human-Guide Linking method to make sure the interaction decoder focuses on the human-centric regions with human features as the positional embeddings. To handle the opposite influences of interactions on humans and objects, we propose a Stop-Gradient Mechanism to stop interaction gradients from optimizing the object detection but to allow them to optimize the human detection. Our proposed method achieves competitive performance on both the V-COCO and the HICO-Det datasets. It can be combined with existing methods easily for state-of-the-art results.
翻訳日:2023-08-22 17:16:32 公開日:2023-08-20
# WMFormer++: 命令型共同学習による可視な透かし除去のためのNested Transformer

WMFormer++: Nested Transformer for Visible Watermark Removal via Implict Joint Learning ( http://arxiv.org/abs/2308.10195v1 )

ライセンス: Link先を確認
Dongjian Huo, Zehong Zhang, Hanjing Su, Guanbin Li, Chaowei Fang, Qingyao Wu(参考訳) ウォーターマーキングはメディア著作権を保護するために広く採用されているアプローチである。 並行して、研究の焦点は透かし除去技術にまで拡張され、透かしの堅牢性を高め、透かし分野の進歩を促進するための敵対手段が提供された。 既存のウォーターマーク除去方法は、複数のデコーダブランチを持つunetアーキテクチャに依存することが多い。 これらの手法は、各タスクの情報フローをガイドする複雑なモジュール設計を含んでおり、最適化性能と過度に煩雑なモデルに繋がる可能性がある。 既存のフレームワークを単純化するために, 統一デコーダブランチを用いた新しいトランスフォーマー方式を提案し, 透かし抽出と背景復元を単一タスクとして処理し, 人工的なデザインパターンを使わずに情報フローを学習できるようにした。 さらに、ネスト構造を用いてマルチスケールの機能融合を促進し、UNetを構成するネスト構造の並列アンサンブルを形成する。 すべてのレベルにわたる知識学習を促進するために、さまざまな深さのunetsに対して監督が適用される。 提案手法の有効性を検証するため,様々な試行錯誤試験を行った。 その結果,本手法は最先端の性能を達成し,高品質な画像を生成することを示す。

Watermarking serves as a widely adopted approach to safeguard media copyright. In parallel, the research focus has extended to watermark removal techniques, offering an adversarial means to enhance watermark robustness and foster advancements in the watermarking field. Existing watermark removal methods often rely on UNet architectures with multiple decoder branches -- one for watermark localization and the other for background image restoration. These methods involve complex module designs to guide information flow for respective tasks, which can lead to suboptimal performance and an overly cumbersome model. To simplify the existing framework, we propose a novel Transformer-based approach with a unified decoder branch, treating watermark extraction and background restoration as a single task and allowing thenetwork to learn information flow between them without artificial design patterns. Additionally, we utilize nested structures to facilitate multi-scale feature fusion, forming a parallel ensemble of nested structures that constitute the UNet. Supervision is applied to UNets with varying depths to facilitate knowledge learning across all levels. Extensive experiments are conducted on various challenging benchmarks to validate the effectiveness of our proposed method. The results demonstrate that our approach achieves state-of-the-art performance and produces high-quality images.
翻訳日:2023-08-22 17:11:18 公開日:2023-08-20
# ProSpire: 深層学習を用いた無線環境の能動的空間予測

ProSpire: Proactive Spatial Prediction of Radio Environment Using Deep Learning ( http://arxiv.org/abs/2308.10193v1 )

ライセンス: Link先を確認
Shamik Sarkar, Dongning Guo, Danijela Cabric(参考訳) 送信機の電波伝搬環境の空間的予測は、無線ネットワークの様々な側面を支援し改善することができる。 この領域でのほとんどの研究は「反応性」な空間予測に分類することができ、無線環境が予測されるアクティブな送信機からの小さな測定結果に基づいて予測を行うことができる。 新たなスペクトル共有パラダイムは、計測されていない送信機に対して空間予測を行う必要がある無線環境の「積極的に」空間予測の恩恵を受ける。 本稿では,プロアクティブな空間予測のアイデアを活かしてスペクトル共有を実現する,新しい教師付きディープラーニングフレームワークprospireを提案する。 ProSpireでは、学習のためのトレーニングデータを便利に収集するフレームワークを設計し、高速に予測を行い、エリアマップのない操作を可能にし、予測が望ましくない干渉を生じさせないようにするなど、いくつかの課題に慎重に対処している。 ProSpireは上記の課題に対処するために、通常の運用中に送信機と受信機のクラウドソーシングに頼っている。 ProSpireのコアコンポーネントは、RSSu-netと呼ばれる深層学習に基づく画像から画像への変換手法である。 レイトレーシングソフトウェアを用いて様々なデータセットを生成し,ProSpireを数値評価する。 評価の結果,rssu-netは信号強度予測において,他の手法の平均誤差に匹敵する5db平均絶対誤差を有意に有意な性能を示した。 重要なことに、rssu-netの利点により、prospireは送信機周辺でプロアクティブな境界を作り、97%の確率で干渉を起こさないように活性化する。 この点において、RSSu-netの性能は他の同等の手法よりも19%良い。

Spatial prediction of the radio propagation environment of a transmitter can assist and improve various aspects of wireless networks. The majority of research in this domain can be categorized as 'reactive' spatial prediction, where the predictions are made based on a small set of measurements from an active transmitter whose radio environment is to be predicted. Emerging spectrum-sharing paradigms would benefit from 'proactive' spatial prediction of the radio environment, where the spatial predictions must be done for a transmitter for which no measurement has been collected. This paper proposes a novel, supervised deep learning-based framework, ProSpire, that enables spectrum sharing by leveraging the idea of proactive spatial prediction. We carefully address several challenges in ProSpire, such as designing a framework that conveniently collects training data for learning, performing the predictions in a fast manner, enabling operations without an area map, and ensuring that the predictions do not lead to undesired interference. ProSpire relies on the crowdsourcing of transmitters and receivers during their normal operations to address some of the aforementioned challenges. The core component of ProSpire is a deep learning-based image-to-image translation method, which we call RSSu-net. We generate several diverse datasets using ray tracing software and numerically evaluate ProSpire. Our evaluations show that RSSu-net performs reasonably well in terms of signal strength prediction, 5 dB mean absolute error, which is comparable to the average error of other relevant methods. Importantly, due to the merits of RSSu-net, ProSpire creates proactive boundaries around transmitters such that they can be activated with 97% probability of not causing interference. In this regard, the performance of RSSu-net is 19% better than that of other comparable methods.
翻訳日:2023-08-22 17:10:56 公開日:2023-08-20
# EDDense-Net: オプティカルカップとディスクの同時分割のための完全高密度エンコーダデコーダネットワーク

EDDense-Net: Fully Dense Encoder Decoder Network for Joint Segmentation of Optic Cup and Disc ( http://arxiv.org/abs/2308.10192v1 )

ライセンス: Link先を確認
Mehwish Mehmood, Khuram Naveed, Haroon Ahmed Khan, Syed S. Naqvi(参考訳) 緑内障(英: Glaucoma)は、視神経に損傷を与える眼疾患であり、視覚障害と永久盲眼を引き起こす。 したがって、早期緑内障検出は永久盲目を避けるために重要である。 緑内障の診断には、光ディスク(OD)検査におけるカップ・ツー・ディスク比(CDR)の推定が用いられる。 本稿では,OCとODの結合分割のためのEDDense-Netセグメンテーションネットワークを提案する。 このネットワークのエンコーダとデコーダは、各ブロックにグループ化された畳み込み層を持つ密ブロックで構成されており、同時にネットワークの複雑さを低減しつつ、画像から空間情報を取得、伝達することができる。 空間情報損失を低減するため,全ての畳み込み層におけるフィルタの最適数を利用した。 セマンティックセグメンテーションでは、クラス不均衡の問題を軽減するためにデコーダにダイスピクセル分類を用いる。 提案するネットワークは2つの公開データセットで評価され、精度と効率の点で既存の最先端手法を上回っていた。 緑内障の診断と解析には、医用眼科医を支援するための第2の意見システムとして使用できる。

Glaucoma is an eye disease that causes damage to the optic nerve, which can lead to visual loss and permanent blindness. Early glaucoma detection is therefore critical in order to avoid permanent blindness. The estimation of the cup-to-disc ratio (CDR) during an examination of the optical disc (OD) is used for the diagnosis of glaucoma. In this paper, we present the EDDense-Net segmentation network for the joint segmentation of OC and OD. The encoder and decoder in this network are made up of dense blocks with a grouped convolutional layer in each block, allowing the network to acquire and convey spatial information from the image while simultaneously reducing the network's complexity. To reduce spatial information loss, the optimal number of filters in all convolution layers were utilised. In semantic segmentation, dice pixel classification is employed in the decoder to alleviate the problem of class imbalance. The proposed network was evaluated on two publicly available datasets where it outperformed existing state-of-the-art methods in terms of accuracy and efficiency. For the diagnosis and analysis of glaucoma, this method can be used as a second opinion system to assist medical ophthalmologists.
翻訳日:2023-08-22 17:10:27 公開日:2023-08-20
# 支配を模倣する: マルチエージェント競争ゲームの成功のための模倣学習戦略

Mimicking To Dominate: Imitation Learning Strategies for Success in Multiagent Competitive Games ( http://arxiv.org/abs/2308.10188v1 )

ライセンス: Link先を確認
The Viet Bui and Tien Mai and Thanh Hong Nguyen(参考訳) マルチエージェント競技におけるトレーニングエージェントは,その複雑な性質から,大きな課題を呈する。 これらの課題は、環境だけでなく、相手の戦略にも影響されるダイナミクスによって悪化する。 既存の手法は、しばしば緩やかな収束と不安定に苦しむ。 これに対処するために,模倣学習の可能性を活用し,対戦相手の行動を理解・予測し,ゲームダイナミクスに関する不確実性を緩和する。 私たちの重要な貢献は (i) 対戦者の次の動きを予測するための新しいマルチエージェント模倣学習モデル -- 我々のモデルは、隠れた相手の行動と局所的な観察で動作する。 (ii)模倣学習モデルと政策訓練を1つの訓練プロセスに統合した新しい多エージェント強化学習アルゴリズム (III)Star-Craft Multi-agent Challenge(SMACv2)の高度なバージョンを含む3つの挑戦的なゲーム環境における広範な実験。 実験結果から,本手法は既存のマルチエージェントRLアルゴリズムと比較して性能が優れていることがわかった。

Training agents in multi-agent competitive games presents significant challenges due to their intricate nature. These challenges are exacerbated by dynamics influenced not only by the environment but also by opponents' strategies. Existing methods often struggle with slow convergence and instability. To address this, we harness the potential of imitation learning to comprehend and anticipate opponents' behavior, aiming to mitigate uncertainties with respect to the game dynamics. Our key contributions include: (i) a new multi-agent imitation learning model for predicting next moves of the opponents -- our model works with hidden opponents' actions and local observations; (ii) a new multi-agent reinforcement learning algorithm that combines our imitation learning model and policy training into one single training process; and (iii) extensive experiments in three challenging game environments, including an advanced version of the Star-Craft multi-agent challenge (i.e., SMACv2). Experimental results show that our approach achieves superior performance compared to existing state-of-the-art multi-agent RL algorithms.
翻訳日:2023-08-22 17:10:06 公開日:2023-08-20
# スパイキング拡散:スパイキングニューラルネットワークを用いたベクトル量子離散拡散モデル

Spiking-Diffusion: Vector Quantized Discrete Diffusion Model with Spiking Neural Networks ( http://arxiv.org/abs/2308.10187v1 )

ライセンス: Link先を確認
Mingxuan Liu, Rui Wen, and Hong Chen(参考訳) スパイキングニューラルネットワーク(SNN)は、そのバイナリとイベント駆動アーキテクチャにより、エネルギー効率のよいニューロモルフィックチップに多大な可能性を持っている。 SNNは主に分類タスクで使用されているが、画像生成タスクの探索は限られている。 このギャップを埋めるために,ベクトル量子化離散拡散モデルに基づくスパイキング拡散モデルを提案する。 まず,SNN(VQ-SVAE)を用いたベクトル量子化変分オートエンコーダを開発し,画像の離散潜在空間を学習する。 VQ-SVAEでは、画像特徴はスパイク発火速度とシナプス後電位の両方を用いて符号化され、適応スパイク発生器はスパイク列車の形で埋め込み特徴を復元するように設計されている。 次に、離散潜在空間における吸収状態拡散を行い、SNNを用いて拡散画像デコーダを構築し、画像に雑音を与える。 私たちの仕事は、SNN層から完全に拡散モデルを構築する最初のものです。 MNIST,FMNIST,KMNIST,Realsの実験結果から,スパイキング拡散が既存のSNN生成モデルより優れていることが示された。 上記のデータセットでは, 58.60\%, 18.75\%, 64.51\%, 29.75\%のFIDをそれぞれ37.50, 91.98, 59.23, 67.41とする。

Spiking neural networks (SNNs) have tremendous potential for energy-efficient neuromorphic chips due to their binary and event-driven architecture. SNNs have been primarily used in classification tasks, but limited exploration on image generation tasks. To fill the gap, we propose a Spiking-Diffusion model, which is based on the vector quantized discrete diffusion model. First, we develop a vector quantized variational autoencoder with SNNs (VQ-SVAE) to learn a discrete latent space for images. With VQ-SVAE, image features are encoded using both the spike firing rate and postsynaptic potential, and an adaptive spike generator is designed to restore embedding features in the form of spike trains. Next, we perform absorbing state diffusion in the discrete latent space and construct a diffusion image decoder with SNNs to denoise the image. Our work is the first to build the diffusion model entirely from SNN layers. Experimental results on MNIST, FMNIST, KMNIST, and Letters demonstrate that Spiking-Diffusion outperforms the existing SNN-based generation model. We achieve FIDs of 37.50, 91.98, 59.23 and 67.41 on the above datasets respectively, with reductions of 58.60\%, 18.75\%, 64.51\%, and 29.75\% in FIDs compared with the state-of-art work.
翻訳日:2023-08-22 17:09:51 公開日:2023-08-20
# ViT-Lens:Omni-modal Representationを目指して

ViT-Lens: Towards Omni-modal Representations ( http://arxiv.org/abs/2308.10185v1 )

ライセンス: Link先を確認
Weixian Lei, Yixiao Ge, Jianfeng Zhang, Dylan Sun, Kun Yi, Ying Shan, Mike Zheng Shou(参考訳) ヴィジュアル言語モデルにおけるCLIPベースのトレーニングレシピの成功にもかかわらず、それらの拡張性(3D、オーディオなど)は大規模データに限られており、これは高価または稀なモダリティには適用できない。 本稿では,事前学習された vit で新しい様相を知覚し,事前定義された空間に整列することにより,効率的な全様表現学習を容易にする vit-lens を提案する。 具体的には、モダリティ特異的レンズは、共有埋め込み空間にマルチモーダル信号を投影するように調整され、その後、トレーニング済みの画像知識を伝達する強力なViTによって処理される。 符号化されたマルチモーダル表現は、オフザシェルフ基礎モデルによって事前に定義されたモダル非依存空間との整合性に最適化される。 ViTバックボーンを備えたよく訓練されたレンズは、これらの基礎モデルの1つとして機能し、その後のモダリティの学習を監督する可能性がある。 ViT-Lensは、2つの魅力的な利点を持つモダリティ増加の表現学習のための統一されたソリューションを提供する。 一 効率的なデータ体制により、業務及び領域にまたがる訓練済みのViTを効果的に実施すること。 (ii)モダリティアライメント空間により,新規モダリティの創発的下流能力が実証される。 初期検証として3Dの文脈でViT-Lensを評価した。 ゼロショット3D分類では、ViT-Lensは従来の最先端技術よりも大幅に改善され、Objaverse-LVISでは52.0%、ModelNet40では87.4%、ScanObjectNNでは60.6%の精度で精度が向上した。 さらに,訓練された3dレンズを無適応でインストラクトブリップモデルに統合することにより,ゼロショット3d質問応答を可能にする。 近い将来、さらなるモダリティに関するViT-Lensの結果を公表します。

Though the success of CLIP-based training recipes in vision-language models, their scalability to more modalities (e.g., 3D, audio, etc.) is limited to large-scale data, which is expensive or even inapplicable for rare modalities. In this paper, we present ViT-Lens that facilitates efficient omni-modal representation learning by perceiving novel modalities with a pretrained ViT and aligning to a pre-defined space. Specifically, the modality-specific lens is tuned to project multimodal signals to the shared embedding space, which are then processed by a strong ViT that carries pre-trained image knowledge. The encoded multimodal representations are optimized toward aligning with the modal-independent space, pre-defined by off-the-shelf foundation models. A well-trained lens with a ViT backbone has the potential to serve as one of these foundation models, supervising the learning of subsequent modalities. ViT-Lens provides a unified solution for representation learning of increasing modalities with two appealing benefits: (i) Exploiting the pretrained ViT across tasks and domains effectively with efficient data regime; (ii) Emergent downstream capabilities of novel modalities are demonstrated due to the modality alignment space. We evaluate ViT-Lens in the context of 3D as an initial verification. In zero-shot 3D classification, ViT-Lens achieves substantial improvements over previous state-of-the-art, showing 52.0% accuracy on Objaverse-LVIS, 87.4% on ModelNet40, and 60.6% on ScanObjectNN. Furthermore, we enable zero-shot 3D question-answering by simply integrating the trained 3D lens into the InstructBLIP model without any adaptation. We will release the results of ViT-Lens on more modalities in the near future.
翻訳日:2023-08-22 17:09:26 公開日:2023-08-20
# 一般リウィリア行列化過程に対する散逸的量子フィッシャー情報

Dissipative quantum Fisher information for a general Liouvillian parameterized process ( http://arxiv.org/abs/2308.10183v1 )

ライセンス: Link先を確認
Jia-Xin Peng, Baiqiang Zhu, Weiping Zhang, and Keye Zhang(参考訳) 開量子系における一般パラメータを持つ動的マップに対する散逸的量子フィッシャー情報(DQFI)について検討し、リウヴィル空間における量子フィッシャー情報(QFI)の類似と見なすことができる。 まず、リウヴィル空間における一般散逸発生器を導出し、その分解形式に基づいて、2つの部分からDQFIを導出する。 1つは、リウヴィリアン超行列の固有値が推定パラメータに依存することであり、これは時間に対する線形依存を示す。 もう1つは、推定パラメータによる固有ベクトルの変動である。 この部分と時間の関係は、高調波振動、純粋な指数的な利得と減衰、および特にリウヴィルスペクトルの性質に依存する指数的な利得と減衰を含む豊富な特性を示す。 これは、振動依存のみが見られる従来のジェネレータとは対照的である。 さらに, スピンフリップノイズを持つ2レベルシステムであるトイモデルを用いて, 理論を説明する。 特に、DQFIを用いて、リウヴィリアの例外点において、例外的な推定精度が得られないことを実証した。

The dissipative quantum Fisher information (DQFI) for a dynamic map with a general parameter in an open quantum system is investigated, which can be regarded as an analog of the quantum Fisher information (QFI) in the Liouville space. We first derive a general dissipative generator in the Liouville space, and based on its decomposition form, find the DQFI stems from two parts. One is the dependence of eigenvalues of the Liouvillian supermatrix on the estimated parameter, which shows a linear dependence on time. The other is the variation of the eigenvectors with the estimated parameter. The relationship between this part and time presents rich characteristics, including harmonic oscillation, pure exponential gain and attenuation, as well as exponential gain and attenuation of oscillatory type, which depend specifically on the properties of the Liouville spectrum. This is in contrast to that of the conventional generator, where only oscillatory dependencies are seen. Further, we illustrate the theory through a toy model: a two-level system with spin-flip noise. Especially, by using the DQFI, we demonstrated that the exceptional estimation precision cannot be obtained at the Liouvillian exceptional point.
翻訳日:2023-08-22 17:08:55 公開日:2023-08-20
# トラップイオン量子プロセッサを用いたプログラマブルジオメトリの量子ビット

Qubits on programmable geometries with a trapped-ion quantum processor ( http://arxiv.org/abs/2308.10179v1 )

ライセンス: Link先を確認
Qiming Wu, Yue Shi and Jiehang Zhang(参考訳) 幾何学と次元性は自然の基本的な法則を理解する上で重要な役割を担い、例えば、一般相対性理論における曲線付き時空から量子重力の理論までである。 量子多体系における絡み合い構造は、構成成分が異なる接続によって変化し、相関成長と古典的コンピュータが大規模システムのシミュレートを困難にするための境界が変化する。 汎用量子コンピュータはデジタルシミュレーションを行うことができるが、アナログ-デジタルハイブリッド量子プロセッサは並列性などの利点を提供する。 ここでは,8キュービットまでの線形一次元イオン鎖を用いて,可換ハミルトニアンのストロボスコピック列を経由する高次元イジング相互作用のクラスを考案する。 %であり,誤差源と目標ハミルトニアンからの偏差を十分に把握した。 さらに、この手法を非可換回路に拡張し、可変対称性を持つFloquet周期駆動を用いた量子XYとHeisenbergモデルを実証する。 高次元スピンモデルの実現は、物質や量子スピングラスの位相相の研究から将来のフォールトトレラント量子計算まで、新しい機会を提供する。

Geometry and dimensionality have played crucial roles in our understanding of the fundamental laws of nature, with examples ranging from curved space-time in general relativity to modern theories of quantum gravity. In quantum many-body systems, the entanglement structure can change if the constituents are connected differently, leading to altered bounds for correlation growth and difficulties for classical computers to simulate large systems. While a universal quantum computer can perform digital simulations, an analog-digital hybrid quantum processor offers advantages such as parallelism. Here, we engineer a class of high-dimensional Ising interactions using a linear one-dimensional (1D) ion chain with up to 8 qubits through stroboscopic sequences of commuting Hamiltonians. %with a thorough understanding of the error sources and deviation from the target Hamiltonian. In addition, we extend this method to non-commuting circuits and demonstrate the quantum XY and Heisenberg models using Floquet periodic drives with tunable symmetries. The realization of higher dimensional spin models offers new opportunities ranging from studying topological phases of matter or quantum spin glasses to future fault-tolerant quantum computation.
翻訳日:2023-08-22 17:08:35 公開日:2023-08-20
# BAVS:基礎知識の統合によるオーディオ・ビジュアルセグメンテーションのブートストラップ

BAVS: Bootstrapping Audio-Visual Segmentation by Integrating Foundation Knowledge ( http://arxiv.org/abs/2308.10175v1 )

ライセンス: Link先を確認
Chen Liu, Peike Li, Hu Zhang, Lincheng Li, Zi Huang, Dadong Wang, and Xin Yu(参考訳) オーディオと視覚のペアが与えられた場合、オーディオと視覚のセグメンテーション(AVS)は、ピクセルワイズマップを予測して音源を見つけることを目的としている。 従来の方法では、音声信号の各音成分が常に画像に視覚的に対応するものであると仮定している。 しかし、この仮定は、スクリーン外の音や背景ノイズが実際のシナリオでオーディオ録音を汚染することが多いことを見逃している。 AVSモデルの音声と視覚信号の一貫性のあるセマンティックマッピングを構築する上で、重要な課題を課し、正確な音像定位を阻害する。 本研究では,マルチモーダル基礎知識を取り入れた2段階の音声視覚分割フレームワークを提案する。 簡単に言えば、BAVSは、音声と視覚の対応を明示的に確立することにより、セグメント化における背景雑音やオフスクリーン音の干渉を取り除くように設計されている。 第1段階では、汚染された音声信号の影響を受けずに、視覚データから潜在的聴覚オブジェクトをローカライズするためにセグメンテーションモデルを用いる。 また,音声のセマンティクスを識別するために,基本音声分類モデルを用いる。 オーディオファウンデーションモデルが提供するオーディオタグはノイズが多いため、オブジェクトマスクとオーディオタグを関連付けることは簡単ではない。 そこで,第2段階では,音響-視覚的セマンティック統合戦略 (AVIS) を開発し,音像の局所化を行う。 そこで我々は,音と対象カテゴリーの階層的対応に基づく視覚木を構築する。 次に,局所化オブジェクトと分類音声タグとのラベルの並行性について,音声視覚木をトレースすることで検討する。 AVISでは、実音のオブジェクトを効果的にセグメント化できる。 大規模な実験により、AVSデータセット、特に背景雑音を含むシナリオにおいて、我々の手法が優れていることが示された。 プロジェクトのWebサイトはhttps://yenanliu.github.io/AVSS.github.io/です。

Given an audio-visual pair, audio-visual segmentation (AVS) aims to locate sounding sources by predicting pixel-wise maps. Previous methods assume that each sound component in an audio signal always has a visual counterpart in the image. However, this assumption overlooks that off-screen sounds and background noise often contaminate the audio recordings in real-world scenarios. They impose significant challenges on building a consistent semantic mapping between audio and visual signals for AVS models and thus impede precise sound localization. In this work, we propose a two-stage bootstrapping audio-visual segmentation framework by incorporating multi-modal foundation knowledge. In a nutshell, our BAVS is designed to eliminate the interference of background noise or off-screen sounds in segmentation by establishing the audio-visual correspondences in an explicit manner. In the first stage, we employ a segmentation model to localize potential sounding objects from visual data without being affected by contaminated audio signals. Meanwhile, we also utilize a foundation audio classification model to discern audio semantics. Considering the audio tags provided by the audio foundation model are noisy, associating object masks with audio tags is not trivial. Thus, in the second stage, we develop an audio-visual semantic integration strategy (AVIS) to localize the authentic-sounding objects. Here, we construct an audio-visual tree based on the hierarchical correspondence between sounds and object categories. We then examine the label concurrency between the localized objects and classified audio tags by tracing the audio-visual tree. With AVIS, we can effectively segment real-sounding objects. Extensive experiments demonstrate the superiority of our method on AVS datasets, particularly in scenarios involving background noise. Our project website is https://yenanliu.github.io/AVSS.github.io/.
翻訳日:2023-08-22 17:08:17 公開日:2023-08-20
# ニューラルインタラクティブキーポイント検出

Neural Interactive Keypoint Detection ( http://arxiv.org/abs/2308.10174v1 )

ライセンス: Link先を確認
Jie Yang, Ailing Zeng, Feng Li, Shilong Liu, Ruimao Zhang, Lei Zhang(参考訳) この研究は、Click-Poseと呼ばれるエンドツーエンドの対話型キーポイント検出フレームワークを提案し、手動のみのアノテーションと比較して、2Dキーポイントアノテーションのラベル付けコストを10倍以上削減できる。 Click-Pose氏は、より高速で効果的なアノテーションプロセスのために、ユーザのフィードバックがニューラルキーポイント検出器と協調して、予測キーポイントをインタラクティブな方法で修正する方法について検討している。 具体的には、デコーダに4つの典型的なポーズ誤りを組み合わし、モデルに正しいポーズを再構築するよう訓練し、モデルの自己補正能力を向上するポーズ誤りモデリング戦略を設計する。 次に,ユーザのクリックを受信して1つまたは複数のキーポイントを訂正し,反復的に他のすべてのキーポイントを最小クリック数(noc)で更新して効率的なアノテーションを行う対話型ヒューマンフィードバックループを付加する。 我々はClick-Poseをドメイン内、ドメイン外、キーポイント適応の新しいタスクで検証する。 Click-Pose は COCO と Human-Art で 1.97 と 6.45 NoC@95 (精度95%) しか必要とせず、手動修正による SOTA モデル (ViTPose) よりも 31.4% と 36.3% の労力を削減している。 さらに、ユーザクリックなしで、Click-Poseは以前のエンドツーエンドモデルを、COCOで1.4 AP、Human-Artで3.0 APで上回っている。 コードはhttps://github.com/IDEA-Research/Click-Poseで公開されている。

This work proposes an end-to-end neural interactive keypoint detection framework named Click-Pose, which can significantly reduce more than 10 times labeling costs of 2D keypoint annotation compared with manual-only annotation. Click-Pose explores how user feedback can cooperate with a neural keypoint detector to correct the predicted keypoints in an interactive way for a faster and more effective annotation process. Specifically, we design the pose error modeling strategy that inputs the ground truth pose combined with four typical pose errors into the decoder and trains the model to reconstruct the correct poses, which enhances the self-correction ability of the model. Then, we attach an interactive human-feedback loop that allows receiving users' clicks to correct one or several predicted keypoints and iteratively utilizes the decoder to update all other keypoints with a minimum number of clicks (NoC) for efficient annotation. We validate Click-Pose in in-domain, out-of-domain scenes, and a new task of keypoint adaptation. For annotation, Click-Pose only needs 1.97 and 6.45 NoC@95 (at precision 95%) on COCO and Human-Art, reducing 31.4% and 36.3% efforts than the SOTA model (ViTPose) with manual correction, respectively. Besides, without user clicks, Click-Pose surpasses the previous end-to-end model by 1.4 AP on COCO and 3.0 AP on Human-Art. The code is available at https://github.com/IDEA-Research/Click-Pose.
翻訳日:2023-08-22 17:07:47 公開日:2023-08-20
# 原子中の高調波発生のアナログシミュレーション

Analog simulation of high harmonic generation in atoms ( http://arxiv.org/abs/2308.10223v1 )

ライセンス: Link先を確認
Javier Arg\"uello-Luengo, Javier Rivera-Dean, Philipp Stammer, Andrew S. Maxwell, David M. Weld, Marcelo F. Ciappina and Maciej Lewenstein(参考訳) 材料の超高速ダイナミックスへの実験的アクセスの要求は、印加された強いレーザー場に対する電子応答の理解に挑戦する。 本研究では,非常に制御可能なポテンシャルを持つ極低温原子が,より容易にアクセス可能で12桁の速度の遅いシナリオにおいて,現象を記述できるツールとなることを示す。 本研究の目的は,原子シミュレータとアトピープラットフォームとのマッピングを特徴付けることであり,これまでにコールド原子シミュレーションが展開されてきたハイ・ハーモニック・ジェネレーションの放射収率をシミュレートするための実験的プロトコルを提案することである。 これらのシミュレータによって提供されるベンチマークは、拡張核ポテンシャルと短核ポテンシャルの変換効率と、適用された楕円偏波場や超短周期パルスに対する応答に関する新たな洞察を与えることができる。

The demanding experimental access to the ultrafast dynamics of materials challenges our understanding of their electronic response to applied strong laser fields. In this work, we show that trapped ultracold atoms with highly controllable potentials can become an enabling tool to describe phenomena in a scenario where some effects are more easily accessible and twelve orders of magnitude slower. For this purpose, we characterize the mapping between the attoscience platform and atomic simulators, and propose an experimental protocol to simulate the emission yield of High Harmonic Generation, a regime that has so far been elusive to cold atom simulation. As we illustrate, the benchmark offered by these simulators can provide new insights on the conversion efficiency of extended and short nuclear potentials, as well as the response to applied elliptical polarized fields or ultrashort few-cycle pulses.
翻訳日:2023-08-22 16:59:29 公開日:2023-08-20
# nmr量子力学の基礎を改革する:磁場勾配におけるスピン1/2進化

Reformulating the NMR Quantum Mechanics Fundamental Aspects: Spin 1/2 Evolution in Magnetic Field Gradients ( http://arxiv.org/abs/2308.10218v1 )

ライセンス: Link先を確認
Tarek Khalil and Daniel Grucker(参考訳) スピン1/2集合の磁化は個々の波動関数によって決定される。 量子力学の基本公理に基づく理論的処理と明示的なシュリンガー方程式の解法は、磁場によって駆動されるスピン1/2系の進化を与える。 この研究では、スピン系のエネルギーが磁場と相互作用し、エネルギーの他の全ての部分が一定の貯水池であると考える。 この完全ハミルトニアンを解くことは、従来のNMR実験と比較して核スピンノイズスペクトルの測定値の変化と、高周波磁場を伴わないNMR画像を作成する可能性を説明することができる。 RF磁場を使わずにNMR画像を作る可能性は、絡み合ったスピン1/2状態が磁場勾配によって操作できることを示し、NMRによる量子計算を行う新しい方法を開くことである。

Magnetization of a spin1/2 set is determined by means of their individual wave function. The theoretical treatment based on the fundamental axioms of quantum mechanics and solving explicitly Schr\"odinger equation gives the evolution of spin1/2 system driven by magnetic fields. In this work we consider the energy of the spin system interacting with magnetic fields and all the other parts of the energy as a constant reservoir. Solving this complete Hamiltonian can explain the measured sign change of nuclear spin noise spectra compared to conventional NMR experiments and the possibility to make NMR images without radio frequency magnetic fields. The possibility to make NMR images without RF magnetic fields is an indication that entangled spin1/2 states can be manipulated by magnetic field gradients, opening a new way to perform quantum computation by NMR.
翻訳日:2023-08-22 16:59:14 公開日:2023-08-20
# iii-vナノワイヤ/sinハイブリッド積分を用いたオンチップ光子

On-chip indistinguishable photons using III-V nanowire/SiN hybrid integration ( http://arxiv.org/abs/2308.10215v1 )

ライセンス: Link先を確認
Edith Yeung, David B. Northeast, Jeongwan Jin, Patrick Laferri\`ere, Marek Korkusinski, Philip J. Poole, Robin L. Williams, Dan Dalacu(参考訳) ナノワイヤ量子ドットによる識別不能光子のオンチップ生成を実証する。 位置制御された単一ドットナノワイヤの配列を含む成長基板から,Si基チップ上に作製したSiN導波路上に配置した単一ナノワイヤを選択する。 量子ドットのSiN導波路への結合は、テーパーされたナノワイヤのエバネッセントモードを介して行われる。 連続波励起を用いた後2光子干渉振動率と点のp殻は100%であり, 無視可能な多重光子放出確率を持つ単一光子源と一致していた。 パルス励起により測定された光子波束全体の可視性は, 準共鳴的に励起すると5倍, 上バンド励起では10倍に低下した。 発光光子のコヒーレンスと直線幅の付加測定により, 励起タイミングジッタ, スペクトル拡散, 純劣化が光子の時間的範囲における可視性を制限する役割について検討した。

We demonstrate on-chip generation of indistinguishable photons based on a nanowire quantum dot. From a growth substrate containing arrays of positioned-controlled single dot nanowires, we select a single nanowire which is placed on a SiN waveguide fabricated on a Si-based chip. Coupling of the quantum dot emission to the SiN waveguide is via the evanescent mode in the tapered nanowire. Post-selected two-photon interference visibilities using continuous wave excitation above-band and into a p-shell of the dot were 100%, consistent with a single photon source having negligible multi-photon emission probability. Visibilities over the entire photon wavepacket, measured using pulsed excitation, were reduced by a factor of 5 when exciting quasi-resonantly and by a factor of 10 for above-band excitation. The role of excitation timing jitter, spectral diffusion and pure dephasing in limiting visibilities over the temporal extent of the photon is investigated using additional measurements of the coherence and linewidth of the emitted photons.
翻訳日:2023-08-22 16:59:01 公開日:2023-08-20
# リアルタイム正規表現マッチング

Real-time Regular Expression Matching ( http://arxiv.org/abs/2308.10208v1 )

ライセンス: Link先を確認
Alexandra Bernadotte(参考訳) 本稿では,有限状態オートマトン,正規表現マッチング,パターン認識,指数関数ブローアップ問題について述べる。 本稿では,ネットワーク侵入検知システムの動作に重大な制約を生じさせるような,正規言語の複雑なクラスに対する指数的爆破問題に対する理論的およびハードウェア的解法を提案する。 この記事は、正しさと複雑性に関する定理でこの解を支持している。

This paper is devoted to finite state automata, regular expression matching, pattern recognition, and the exponential blow-up problem, which is the growing complexity of automata exponentially depending on regular expression length. This paper presents a theoretical and hardware solution to the exponential blow-up problem for some complicated classes of regular languages, which caused severe limitations in Network Intrusion Detection Systems work. The article supports the solution with theorems on correctness and complexity.
翻訳日:2023-08-22 16:58:43 公開日:2023-08-20
# GeT: ドメイン適応のための生成ターゲット構造デバイアス

GeT: Generative Target Structure Debiasing for Domain Adaptation ( http://arxiv.org/abs/2308.10205v1 )

ライセンス: Link先を確認
Can Zhang and Gim Hee Lee(参考訳) ドメイン適応(DA)は、ドメインシフトの下で、完全にラベル付けされたソースからほとんどラベル付けされていない、または完全にラベル付けされていないターゲットに知識を転送することを目的としています。 近年,擬似ラベリングを利用した半教師付き学習(SSL)技術がDAでますます普及している。 競合する性能にもかかわらず、これらの擬似ラベリング手法は、ターゲットドメインの擬似ラベリングを生成するためにソースドメインに大きく依存しているため、依然としてソースデータのバイアスに悩まされている。 さらに、ターゲットドメイン内のクラス分布バイアスも擬似ラベル生成では無視されることが多いため、パフォーマンスがさらに低下する。 本稿では,高品質な擬似ラベルを用いた非バイアス対象埋め込み分布を学習するGeTを提案する。 具体的には、オンラインターゲット生成分類器を定式化し、クラスが重み付けする独自のガウス成分にターゲット分布を誘導し、ソースデータのバイアスを緩和し、ターゲットクラス識別性を高める。 さらに,対象クラス分布バイアスを緩和し,対象クラス識別性を改善する構造類似性正規化フレームワークを提案する。 実験の結果,提案したGeTは,クラス分布バイアスを伴わず,様々なDA設定下で一貫した改善を実現していることがわかった。 私たちのコードは以下の通りです。

Domain adaptation (DA) aims to transfer knowledge from a fully labeled source to a scarcely labeled or totally unlabeled target under domain shift. Recently, semi-supervised learning-based (SSL) techniques that leverage pseudo labeling have been increasingly used in DA. Despite the competitive performance, these pseudo labeling methods rely heavily on the source domain to generate pseudo labels for the target domain and therefore still suffer considerably from source data bias. Moreover, class distribution bias in the target domain is also often ignored in the pseudo label generation and thus leading to further deterioration of performance. In this paper, we propose GeT that learns a non-bias target embedding distribution with high quality pseudo labels. Specifically, we formulate an online target generative classifier to induce the target distribution into distinctive Gaussian components weighted by their class priors to mitigate source data bias and enhance target class discriminability. We further propose a structure similarity regularization framework to alleviate target class distribution bias and further improve target class discriminability. Experimental results show that our proposed GeT is effective and achieves consistent improvements under various DA settings with and without class distribution bias. Our code is available at: https://lulusindazc.github.io/getproject/.
翻訳日:2023-08-22 16:58:35 公開日:2023-08-20
# ChatEDA:EDAのための大規模言語モデル駆動自律エージェント

ChatEDA: A Large Language Model Powered Autonomous Agent for EDA ( http://arxiv.org/abs/2308.10204v1 )

ライセンス: Link先を確認
Zhuolun He, Haoyuan Wu, Xinyun Zhang, Xufeng Yao, Su Zheng, Haisheng Zheng, Bei Yu(参考訳) 電子設計自動化(eda)ツールの複雑なセットの統合は、回路設計者にとって重要な関心事である。 大規模言語モデル(LLM)の最近の進歩は、自然言語処理と理解において、EDAツールと対面する新しいアプローチを提供する、優れた能力を示した。 本稿では,大規模な言語モデルであるAutoMageによって強化されたEDAの自律エージェントであるChatEDAを紹介し,エグゼクタとしてのEDAツールを補完する。 ChatEDAは、タスク計画、スクリプト生成、タスク実行を効果的に管理することで、登録-転送レベル(RTL)からグラフデータシステムバージョンII(GDSII)への設計フローを合理化する。 総合的な実験評価を通じて,ChatEDAは多様な要求に対処する能力を示し,我々の微調整オートマージモデルはGPT-4や他のLLMと比較して優れた性能を示した。

The integration of a complex set of Electronic Design Automation (EDA) tools to enhance interoperability is a critical concern for circuit designers. Recent advancements in large language models (LLMs) have showcased their exceptional capabilities in natural language processing and comprehension, offering a novel approach to interfacing with EDA tools. This research paper introduces ChatEDA, an autonomous agent for EDA empowered by a large language model, AutoMage, complemented by EDA tools serving as executors. ChatEDA streamlines the design flow from the Register-Transfer Level (RTL) to the Graphic Data System Version II (GDSII) by effectively managing task planning, script generation, and task execution. Through comprehensive experimental evaluations, ChatEDA has demonstrated its proficiency in handling diverse requirements, and our fine-tuned AutoMage model has exhibited superior performance compared to GPT-4 and other similar LLMs.
翻訳日:2023-08-22 16:58:12 公開日:2023-08-20
# soft decomposed policy-critic: 離散rlによる効果的な連続制御のためのギャップの橋渡し

Soft Decomposed Policy-Critic: Bridging the Gap for Effective Continuous Control with Discrete RL ( http://arxiv.org/abs/2308.10203v1 )

ライセンス: Link先を確認
Yechen Zhang, Jian Sun, Gang Wang, Zhuo Li, Wei Chen(参考訳) 離散強化学習(RL)アルゴリズムは、アタリゲームのような離散的なアクション空間で逐次決定タスクを解く際、例外的な性能を示した。 しかし, その効果は, 連続制御問題に適用した場合, 次元爆発の課題により阻害される。 本稿では,この制限を克服するために,ソフト rl とアクター-クリティック技術と離散 rl 手法を組み合わせた soft decomposed policy-critic (sdpc) アーキテクチャを提案する。 sdpcは各アクション次元を独立に離散化し、共有批判ネットワークを用いてソフト$q$-関数を最大化する。 この新しいアプローチにより、SDPCは2種類のポリシーをサポートすることができる: ソフトデコンプリート・アクター・クリティカル(SDAC)アルゴリズムに導かれる分解アクターと、ボルツマン軟探査ポリシーを生成する$Q$-networks、そしてソフトデコンプリート・クリティカルQ(SDCQ)アルゴリズムをもたらす。 提案手法は,MujocoのHumanoidやBox2dのBipedalWalkerなど,さまざまな連続制御タスクにおいて,最先端の連続RLアルゴリズムよりも優れていることを示す。 これらの実験結果は、SDPCアーキテクチャが継続的制御に関わる課題に対処する上での有効性を検証するものである。

Discrete reinforcement learning (RL) algorithms have demonstrated exceptional performance in solving sequential decision tasks with discrete action spaces, such as Atari games. However, their effectiveness is hindered when applied to continuous control problems due to the challenge of dimensional explosion. In this paper, we present the Soft Decomposed Policy-Critic (SDPC) architecture, which combines soft RL and actor-critic techniques with discrete RL methods to overcome this limitation. SDPC discretizes each action dimension independently and employs a shared critic network to maximize the soft $Q$-function. This novel approach enables SDPC to support two types of policies: decomposed actors that lead to the Soft Decomposed Actor-Critic (SDAC) algorithm, and decomposed $Q$-networks that generate Boltzmann soft exploration policies, resulting in the Soft Decomposed-Critic Q (SDCQ) algorithm. Through extensive experiments, we demonstrate that our proposed approach outperforms state-of-the-art continuous RL algorithms in a variety of continuous control tasks, including Mujoco's Humanoid and Box2d's BipedalWalker. These empirical results validate the effectiveness of the SDPC architecture in addressing the challenges associated with continuous control.
翻訳日:2023-08-22 16:57:53 公開日:2023-08-20
# 毒殺攻撃によるイベントシーケンスデータ内のバックドアの隠蔽

Hiding Backdoors within Event Sequence Data via Poisoning Attacks ( http://arxiv.org/abs/2308.10201v1 )

ライセンス: Link先を確認
Elizaveta Kovtun, Alina Ermilova, Dmitry Berestnev, and Alexey Zaytsev(参考訳) 金融業界は重要な意思決定を行うためのディープラーニングモデルに依存している。 この採用は、深いブラックボックスモデルが敵の攻撃に弱いことが知られているため、新たな危険をもたらす。 コンピュータビジョンでは、トレーニング中にモデルにバックドアを導入することで、毒殺と呼ばれる敵の攻撃を行うことで、推論中に出力を形成することができる。 顧客の金融取引のシーケンスでは、モデルがより複雑なシーケンスの離散空間上で動作し、不確かさの体系的なチェックを行うため、バックドアの挿入は実行が難しい。 隠れたバックドアを導入し、汚染されていないデータの機能を変更せずに脆弱性を発生させる方法を提供する。 これを実現するため,バックドアの有効性を認識し,その知識を生かしたクリーンモデルと有毒モデルとを置き換えた。 我々の最も難しい攻撃は、テスト中にアクティベートされた有毒なデータの教師付き検出ステップの追加か、よく隠されたモデルウェイト修正のいずれかです。 実験研究は、これらの効果がさまざまなデータセット、アーキテクチャ、およびモデルコンポーネントにどのように変化するかに関する洞察を提供する。 蒸留型正規化などの代替方法やベースラインも検討されているが、効率は低いことが判明している。 LSTM、CNN、Transformerを含む3つのオープントランザクションデータセットとアーキテクチャに基づいて、我々の発見は、現代のモデルの脆弱性を照らすだけでなく、より堅牢なシステムの構築を促進することができる。

The financial industry relies on deep learning models for making important decisions. This adoption brings new danger, as deep black-box models are known to be vulnerable to adversarial attacks. In computer vision, one can shape the output during inference by performing an adversarial attack called poisoning via introducing a backdoor into the model during training. For sequences of financial transactions of a customer, insertion of a backdoor is harder to perform, as models operate over a more complex discrete space of sequences, and systematic checks for insecurities occur. We provide a method to introduce concealed backdoors, creating vulnerabilities without altering their functionality for uncontaminated data. To achieve this, we replace a clean model with a poisoned one that is aware of the availability of a backdoor and utilize this knowledge. Our most difficult for uncovering attacks include either additional supervised detection step of poisoned data activated during the test or well-hidden model weight modifications. The experimental study provides insights into how these effects vary across different datasets, architectures, and model components. Alternative methods and baselines, such as distillation-type regularization, are also explored but found to be less efficient. Conducted on three open transaction datasets and architectures, including LSTM, CNN, and Transformer, our findings not only illuminate the vulnerabilities in contemporary models but also can drive the construction of more robust systems.
翻訳日:2023-08-22 16:57:29 公開日:2023-08-20
# 人工住宅エネルギー管理のための深層強化学習

Deep Reinforcement Learning for Artificial Upwelling Energy Management ( http://arxiv.org/abs/2308.10199v1 )

ライセンス: Link先を確認
Yiyuan Zhang, Wei Fan(参考訳) 近年, 養分豊富な底水を持ち上げ, 海藻の成長を刺激し, 海洋炭素の沈降を促進させる手段として, 人工隆起(AU)の可能性が高まっている。 このことが、中国初の太陽エネルギー・空力AUシステム(AUS)の開発につながった。 しかしながら, 空気注入システムの効率的なスケジューリングは, AUSの運用において重要な課題であり, システム効率を著しく向上させる可能性を秘めている。 規則やモデルに基づく従来のアプローチは、海洋環境の複雑で異質な性質と関連する障害のため、しばしば実践的ではない。 そこで本研究では,深層強化学習(drl)アルゴリズムを応用した新しいエネルギー管理手法を提案する。 広範なシミュレーションにより,本アルゴリズムの性能を評価し,従来のルールベース手法や他のdrlアルゴリズムと比較して,ausの安定かつ効率的な動作を保証しつつ,エネルギーのウェーブステージを減少させる効果を示す。 その結果, DRLを基盤としたアプローチは, AUS の効率向上と海藻栽培の持続可能性の向上, および海洋における炭素沈降の持続可能性向上に有効であることが示唆された。

The potential of artificial upwelling (AU) as a means of lifting nutrient-rich bottom water to the surface, stimulating seaweed growth, and consequently enhancing ocean carbon sequestration, has been gaining increasing attention in recent years. This has led to the development of the first solar-powered and air-lifted AU system (AUS) in China. However, efficient scheduling of air injection systems remains a crucial challenge in operating AUS, as it holds the potential to significantly improve system efficiency. Conventional approaches based on rules or models are often impractical due to the complex and heterogeneous nature of the marine environment and its associated disturbances. To address this challenge, we propose a novel energy management approach that utilizes deep reinforcement learning (DRL) algorithm to develop efficient strategies for operating AUS. Through extensive simulations, we evaluate the performance of our algorithm and demonstrate its superior effectiveness over traditional rule-based approaches and other DRL algorithms in reducing energy wastage while ensuring the stable and efficient operation of AUS. Our findings suggest that a DRL-based approach offers a promising way for improving the efficiency of AUS and enhancing the sustainability of seaweed cultivation and carbon sequestration in the ocean.
翻訳日:2023-08-22 16:57:04 公開日:2023-08-20
# 辞書案内トランスフォーマによるアンダーディスプレイカメラのブラインドフェース復元

Blind Face Restoration for Under-Display Camera via Dictionary Guided Transformer ( http://arxiv.org/abs/2308.10196v1 )

ライセンス: Link先を確認
Jingfan Tan, Xiaoxu Chen, Tao Wang, Kaihao Zhang, Wenhan Luo, Xiaocun Cao(参考訳) 前面カメラをディスプレイパネルの下に隠すことで、Under-Display Camera(UDC)はフルスクリーン体験を提供する。 しかし, ディスプレイの特性から, UDCで撮影した画像は品質劣化に悩まされている。 UDC画像復元のための手法が提案され、進歩が達成されている。 UDCの顔画像の復元には特別な方法やデータセットはいまだに存在しないが、UDCのシーンで最も一般的な問題かもしれない。 そこで本研究では,udcの撮像過程におけるカラーフィルタリング,輝度減衰,回折を考慮し,udc-dmnetと呼ばれる2段ネットワークudc劣化モデルネットワークを提案し,udcイメージングの過程をモデル化してudc画像を合成する。 次に、UDC-DMNetとFFHQとCelebA-Testの高品質な顔画像を使用して、UDCの顔トレーニングデータセットFFHQ-P/TとテストデータセットCelebA-Test-P/Tを作成し、UDCの顔復元に利用します。 dgformer という新しい辞書案内トランスフォーマーネットワークを提案する。 修復における顔成分辞書の導入とUDC画像の特徴により、DGFormerはUDCシナリオにおけるブラインドフェイス復元に対処できる。 DGFormer と UDC-DMNet が最先端の性能を発揮することを示す実験を行った。

By hiding the front-facing camera below the display panel, Under-Display Camera (UDC) provides users with a full-screen experience. However, due to the characteristics of the display, images taken by UDC suffer from significant quality degradation. Methods have been proposed to tackle UDC image restoration and advances have been achieved. There are still no specialized methods and datasets for restoring UDC face images, which may be the most common problem in the UDC scene. To this end, considering color filtering, brightness attenuation, and diffraction in the imaging process of UDC, we propose a two-stage network UDC Degradation Model Network named UDC-DMNet to synthesize UDC images by modeling the processes of UDC imaging. Then we use UDC-DMNet and high-quality face images from FFHQ and CelebA-Test to create UDC face training datasets FFHQ-P/T and testing datasets CelebA-Test-P/T for UDC face restoration. We propose a novel dictionary-guided transformer network named DGFormer. Introducing the facial component dictionary and the characteristics of the UDC image in the restoration makes DGFormer capable of addressing blind face restoration in UDC scenarios. Experiments show that our DGFormer and UDC-DMNet achieve state-of-the-art performance.
翻訳日:2023-08-22 16:56:43 公開日:2023-08-20
# StableLLaVA: 合成画像ダイアログデータによるビジュアルインストラクションチューニングの強化

StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data ( http://arxiv.org/abs/2308.10253v1 )

ライセンス: Link先を確認
Yanda Li, Chi Zhang, Gang Yu, Zhibin Wang, Bin Fu, Guosheng Lin, Chunhua Shen, Ling Chen, Yunchao Wei(参考訳) OpenAIのGPT-4で実証された顕著なマルチモーダル機能は、マルチモーダルなLarge Language Models (LLM) の開発に大きな関心を呼んだ。 このようなモデルの主な研究目的は、人間の指示を解釈しながら視覚とテキストのモダリティを効果的に整列させることである。 現在の方法論は、LLMのインストラクションチューニングと同様に、トレーニング目的のために画像対話データセットを構築するために、ベンチマークデータセットから派生したアノテーションに依存していることが多い。 しかし、これらのデータセットはしばしばドメインバイアスを示し、モデルの生成能力を制限する可能性がある。 これらの制約を緩和するために,視覚インストラクションチューニングのために画像と対話を同期的に合成する新しいデータ収集手法を提案する。 このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力を組み合わせることで、さまざまな画像コンテンツを持つ多種多様な制御可能なデータセットを生成する。 これは既存の方法論よりも柔軟性が向上するだけでなく、いくつかのモデル能力を大幅に向上させる。 本研究は,提案するパイプラインのテストベッドとして,オープンソースのllavaモデルを用いた各種データセット上での包括的な実験を含む。 我々の結果は、一般的に評価された10以上の能力にまたがって強化された。

The remarkable multimodal capabilities demonstrated by OpenAI's GPT-4 have sparked significant interest in the development of multimodal Large Language Models (LLMs). A primary research objective of such models is to align visual and textual modalities effectively while comprehending human instructions. Current methodologies often rely on annotations derived from benchmark datasets to construct image-dialogue datasets for training purposes, akin to instruction tuning in LLMs. However, these datasets often exhibit domain bias, potentially constraining the generative capabilities of the models. In an effort to mitigate these limitations, we propose a novel data collection methodology that synchronously synthesizes images and dialogues for visual instruction tuning. This approach harnesses the power of generative models, marrying the abilities of ChatGPT and text-to-image generative models to yield a diverse and controllable dataset with varied image content. This not only provides greater flexibility compared to existing methodologies but also significantly enhances several model capabilities. Our research includes comprehensive experiments conducted on various datasets using the open-source LLAVA model as a testbed for our proposed pipeline. Our results underscore marked enhancements across more than ten commonly assessed capabilities,
翻訳日:2023-08-22 16:53:11 公開日:2023-08-20
# lmtuner: 大きな言語モデルを微調整するための、ユーザフレンドリーで高機能なトレーニングフレームワーク

LMTuner: An user-friendly and highly-integrable Training Framework for fine-tuning Large Language Models ( http://arxiv.org/abs/2308.10252v1 )

ライセンス: Link先を確認
Yixuan Weng, Zhiqi Wang, Huanxuan Liao, Shizhu He, Shengping Liu, Kang Liu, Jun Zhao(参考訳) 大規模言語モデル(LLM)の分野での急成長に伴い、特定の産業やドメインに合わせた効率的なインクリメンタルトレーニングの需要が増加し続けている。 現在、主に採用されているフレームワークにはモジュラ設計が欠けているため、llmのトレーニングを開始するには多くのコーディング作業が必要になる。 そこで本稿では,LDMを迅速かつ最小限のユーザインプットでトレーニングするための,高度に使いやすく,統合可能でスケーラブルなシステムであるLMTunerを提案する。 LMTunerは、Interaction, Training, Inference Modulesという3つの主要なモジュールから構成されている。 我々は,LMTunerのユーザビリティと積分性が,大規模言語モデルの訓練における複雑さを軽減することを提唱する。 注目すべきは、初心者でも5分以内に大きな言語モデルのトレーニングを開始できることだ。 さらに、DeepSpeedフレームワークを統合し、LoRA(Loor Rank Adaptation)やQuantized LoRA(QLoRA)などの効率的なファインチューニング方法論をサポートし、単一のサーバを使用して3億から130Bのパラメータをスケールする言語モデルのトレーニングを可能にする。 LMTunerのホームページ(https://wengsyx.github.io/LMTuner/)とスクリーンキャストビデオ(https://youtu.be/nsXmWOmN3rE)が公開されている。

With the burgeoning development in the realm of large language models (LLMs), the demand for efficient incremental training tailored to specific industries and domains continues to increase. Currently, the predominantly employed frameworks lack modular design, it often takes a lot of coding work to kickstart the training of LLM. To address this, we present "LMTuner", a highly usable, integrable, and scalable system for training LLMs expeditiously and with minimal user-input. LMTuner comprises three main modules - the Interaction, Training, and Inference Modules. We advocate that LMTuner's usability and integrality alleviate the complexities in training large language models. Remarkably, even a novice user could commence training large language models within five minutes. Furthermore, it integrates DeepSpeed frameworks and supports Efficient Fine-Tuning methodologies like Low Rank Adaptation (LoRA), Quantized LoRA (QLoRA), etc., enabling the training of language models scaling from 300M to a whopping 130B parameters using a single server. The LMTuner's homepage (https://wengsyx.github.io/LMTuner/)and screencast video (https://youtu.be/nsXmWOmN3rE) are now publicly available.
翻訳日:2023-08-22 16:52:51 公開日:2023-08-20
# アクティベーションの追加: 最適化なしのステアリング言語モデル

Activation Addition: Steering Language Models Without Optimization ( http://arxiv.org/abs/2308.10248v1 )

ライセンス: Link先を確認
Alex Turner, Lisa Thiergart, David Udell, Gavin Leech, Ulisse Mini, Monte MacDiarmid(参考訳) 大規模言語モデル(LLM)の振る舞いを確実に制御することは、オープンな問題である。 既存の方法には、教師付き微調整、人間フィードバックからの強化学習(rlhf)、プロンプトエンジニアリング、ガイドデコードなどがある。 モデル動作を予測可能に変更するために、推論時にアクティベーションを変更する。 特に、自然言語で暗黙的に指定された「ステアリングベクトル」を追加して前方通過をバイアスする。 これらのステアリングベクトル(Subramani、Suresh、Peters 2022、Hernandez、Li、Andreas 2023)を学習した過去の研究とは異なり、我々のアクティベーション加算法(ActAdd)は一連のプロンプトから得られるアクティベーション差を計算している。 我々は OpenWebText と ConceptNet 上で GPT-2 上の ActAdd を実証する。 我々の推論時間アプローチは出力の高レベルな特性を制御し、ターゲット外のモデル性能を保ちます。 微調整やRLHFよりもはるかに少ない計算と実装の労力で、ユーザは自然言語の仕様を提供し、そのオーバーヘッドはモデルのサイズとともに自然にスケールできる。

Reliably controlling the behavior of large language models (LLMs) is a pressing open problem. Existing methods include supervised finetuning, reinforcement learning from human feedback (RLHF), prompt engineering and guided decoding. We instead investigate activation engineering: modifying activations at inference time to predictably alter model behavior. In particular, we bias the forward pass with an added 'steering vector' implicitly specified through natural language. Unlike past work which learned these steering vectors (Subramani, Suresh, and Peters 2022; Hernandez, Li, and Andreas 2023), our Activation Addition (ActAdd) method computes them by taking the activation differences that result from pairs of prompts. We demonstrate ActAdd on GPT-2 on OpenWebText and ConceptNet. Our inference-time approach yields control over high-level properties of output and preserves off-target model performance. It involves far less compute and implementation effort compared to finetuning or RLHF, allows users to provide natural language specifications, and its overhead scales naturally with model size.
翻訳日:2023-08-22 16:52:30 公開日:2023-08-20
# 組織におけるビジネスインテリジェンスの実践の受容をナビゲートする:システムダイナミクスアプローチ

Navigating the acceptance of implementing business intelligence in organizations: A system dynamics approach ( http://arxiv.org/abs/2308.10244v1 )

ライセンス: Link先を確認
Mehrdad Maghsoudi, Navid Nezafati(参考訳) 情報技術の台頭はビジネスの状況を変え、組織は膨大な量のデータを収集し保存するために情報システムに頼るようになった。 競争力を維持するためには、企業はこのデータを活用して、市場に対応するために行動の最適化を行う必要がある。 ビジネスインテリジェンス(BI)は、データ駆動による洞察をよりよい意思決定に活用するためのアプローチだが、BIの実装には独自の課題が伴う。 したがって、成功に寄与する重要な要素を理解することが重要です。 本研究は,biプロジェクトの実施に影響する要因について,システムダイナミクスモデリングを用いてこれらの因子間の相互作用を分析することにより検討する。 この研究は、5人のBI専門家とのインタビューと、効果的な実装戦略を特定するための背景文献のレビューに基づいている。 具体的には、従来型とセルフサービスの実装アプローチを比較し、BIの組織的受容に対するそれぞれの影響をシミュレートする。 その結果,2つのアプローチが組織的受容を生み出すのに等しく有効であることが示唆され,その後,自己サービス戦略が従来の戦略よりもはるかに高い受容レベルを生み出した。 実際、60ヶ月後、セルフサービスアプローチは従来のアプローチよりも30%の組織的受け入れの増加と関連付けられました。 また,両実装戦略におけるBIの受容度を高めるための勧告も提示した。 本研究は、BI導入の成功に影響を及ぼす重要な要因を特定し、対処することの重要性を強調し、今日の競争力のあるビジネス環境においてBIの力を活用しようとする組織に実践的なガイダンスを提供する。

The rise of information technology has transformed the business landscape, with organizations increasingly relying on information systems to collect and store vast amounts of data. To stay competitive, businesses must harness this data to make informed decisions that optimize their actions in response to the market. Business intelligence (BI) is an approach that enables organizations to leverage data-driven insights for better decision-making, but implementing BI comes with its own set of challenges. Accordingly, understanding the key factors that contribute to successful implementation is crucial. This study examines the factors affecting the implementation of BI projects by analyzing the interactions between these factors using system dynamics modeling. The research draws on interviews with five BI experts and a review of the background literature to identify effective implementation strategies. Specifically, the study compares traditional and self-service implementation approaches and simulates their respective impacts on organizational acceptance of BI. The results show that the two approaches were equally effective in generating organizational acceptance until the twenty-fifth month of implementation, after which the self-service strategy generated significantly higher levels of acceptance than the traditional strategy. In fact, after 60 months, the self-service approach was associated with a 30% increase in organizational acceptance over the traditional approach. The paper also provides recommendations for increasing the acceptance of BI in both implementation strategies. Overall, this study underscores the importance of identifying and addressing key factors that impact BI implementation success, offering practical guidance to organizations seeking to leverage the power of BI in today's competitive business environment.
翻訳日:2023-08-22 16:52:07 公開日:2023-08-20
# 重み付き関連性蓄積によるジェネリックアテンションモデル説明可能性

Generic Attention-model Explainability by Weighted Relevance Accumulation ( http://arxiv.org/abs/2308.10240v1 )

ライセンス: Link先を確認
Yiming Huang, Aozhe Jia, Xiaodan Zhang, Jiawei Zhang(参考訳) 注意に基づくトランスフォーマーモデルは、視覚的質問応答のようなマルチモーダルタスクにおいて顕著な進歩を遂げている。 近年,注目層間の関連性を蓄積することにより,注目トークンの内部的変化を説明できるなど,注目ベースの手法の説明可能性に注目が集まっている。 現在の方法は、注意プロセスの前後でトークンの関連性を等しく蓄積することで、単に関連性を更新している。 しかし、トークン値の重要性は通常、関連性の蓄積時に異なる。 本稿では,トークン値の重要性を考慮に入れた重み付き関連性戦略を提案する。 提案手法を評価するために,CLIPエンコーダと後続のマッパーを用いたビジョン・アンド・ランゲージタスク処理のためのCLIPベースの2段階モデルであるCLIPmapperを提案する。 クリップマッパーは自己着脱,クロス着脱,シングルモダリティ,クロスモダリティの注意からなり,汎用的な説明可能性の評価に適している。 視覚的質問応答と画像キャプションの広汎な摂動試験により,本手法が既存手法より優れていることを確認した。

Attention-based transformer models have achieved remarkable progress in multi-modal tasks, such as visual question answering. The explainability of attention-based methods has recently attracted wide interest as it can explain the inner changes of attention tokens by accumulating relevancy across attention layers. Current methods simply update relevancy by equally accumulating the token relevancy before and after the attention processes. However, the importance of token values is usually different during relevance accumulation. In this paper, we propose a weighted relevancy strategy, which takes the importance of token values into consideration, to reduce distortion when equally accumulating relevance. To evaluate our method, we propose a unified CLIP-based two-stage model, named CLIPmapper, to process Vision-and-Language tasks through CLIP encoder and a following mapper. CLIPmapper consists of self-attention, cross-attention, single-modality, and cross-modality attention, thus it is more suitable for evaluating our generic explainability method. Extensive perturbation tests on visual question answering and image captioning validate that our explainability method outperforms existing methods.
翻訳日:2023-08-22 16:51:39 公開日:2023-08-20
# グローバルからローカルへ:マルチスケール分散検出

From Global to Local: Multi-scale Out-of-distribution Detection ( http://arxiv.org/abs/2308.10239v1 )

ライセンス: Link先を確認
Ji Zhang, Lianli Gao, Bingguang Hao, Hao Huang, Jingkuan Song, Hengtao Shen(参考訳) out-of-distribution(ood)検出は、id(in-distribution)トレーニングプロセス中にラベルが見られていない"未知"データを検出することを目的としている。 近年の表現学習の進歩は,IDクラスの訓練データとの相対的距離に応じて,入力をID/OODとして認識する距離に基づくOOD検出がもたらされている。 従来のアプローチでは、大域的な画像表現のみに依存するペアワイズ距離を計算しており、これは避けられない背景クラッタとして最適であり、クラス内の変動は、与えられた表現空間において同じIDクラスから遠く離れたイメージレベル表現を駆動することができる。 本研究では,OOD検出の最大化のために,グローバルな視覚情報と画像の局所的な詳細の両方を活用する第1のフレームワークであるMODE(Multi-scale OOD Detectction)を提案する。 具体的には,既存のモデルが既往のクロスエントロピーや対照的な損失によって事前訓練されている場合,IDトレーニングとOOD検出プロセスのスケール差により,MODEの貴重な局所表現を捕捉できないことが最初に明らかになった。 この問題を緩和し,IDトレーニングにおける局所的な識別的表現を促進するために,対象対象の局所領域を相互に整列し強調するクロスアテンション機構を利用したトレーニング可能な目標である注意ベースローカルプロパゲーション(ALPA)を提案する。 テスト時間OOD検出において、ID/OODデータをより忠実に識別するために、最も識別性の高いマルチスケール表現に対して、クロススケール決定(CSD)関数がさらに考案される。 我々は、いくつかのベンチマークにおいて、MODEの有効性と柔軟性を実証する。平均して、MODEは、FPRで19.24%、AUROCで2.77%、過去の最先端よりも優れている。 コードはhttps://github.com/JimZAI/MODE-OOD.comで入手できる。

Out-of-distribution (OOD) detection aims to detect "unknown" data whose labels have not been seen during the in-distribution (ID) training process. Recent progress in representation learning gives rise to distance-based OOD detection that recognizes inputs as ID/OOD according to their relative distances to the training data of ID classes. Previous approaches calculate pairwise distances relying only on global image representations, which can be sub-optimal as the inevitable background clutter and intra-class variation may drive image-level representations from the same ID class far apart in a given representation space. In this work, we overcome this challenge by proposing Multi-scale OOD DEtection (MODE), a first framework leveraging both global visual information and local region details of images to maximally benefit OOD detection. Specifically, we first find that existing models pretrained by off-the-shelf cross-entropy or contrastive losses are incompetent to capture valuable local representations for MODE, due to the scale-discrepancy between the ID training and OOD detection processes. To mitigate this issue and encourage locally discriminative representations in ID training, we propose Attention-based Local PropAgation (ALPA), a trainable objective that exploits a cross-attention mechanism to align and highlight the local regions of the target objects for pairwise examples. During test-time OOD detection, a Cross-Scale Decision (CSD) function is further devised on the most discriminative multi-scale representations to distinguish ID/OOD data more faithfully. We demonstrate the effectiveness and flexibility of MODE on several benchmarks -- on average, MODE outperforms the previous state-of-the-art by up to 19.24% in FPR, 2.77% in AUROC. Code is available at https://github.com/JimZAI/MODE-OOD.
翻訳日:2023-08-22 16:51:18 公開日:2023-08-20
# マルチアーメッドバンドの実値組合せ純粋探索のためのトンプソンサンプリング

Thompson Sampling for Real-Valued Combinatorial Pure Exploration of Multi-Armed Bandit ( http://arxiv.org/abs/2308.10238v1 )

ライセンス: Link先を確認
Shintaro Nakamura, Masashi Sugiyama(参考訳) 本稿では,マルチアームバンディット(R-CPE-MAB)問題の実測値について検討する。 R-CPE-MABでは、プレイヤーは確率的な腕を$d$与えられ、各アームの報酬は$s\in\{1, \ldots, d\}$が平均$\mu_s$の未知分布に従う。 各タイムステップで、プレイヤーは片方の腕を引っ張り、その報酬を観察する。 プレイヤーのゴールは、最適な \emph{action} $\boldsymbol{\pi}^{*} = \argmax_{\boldsymbol{\pi} \in \mathcal{A}} \boldsymbol{\mu}^{\top}\boldsymbol{\pi}$を有限サイズの実数値の \emph{action set} $\mathcal{A}\subset \mathbb{R}^{d}$から極小のアームプルで識別することである。 R-CPE-MAB の以前の方法では、アクションセット $\mathcal{A}$ のサイズは$d$ の多項式である。 一般トンプソンサンプリング探索法(GenTS-Explore)と呼ばれるアルゴリズムを導入する。これはアクションセットのサイズが指数関数的に$d$で大きい場合でも動作する最初のアルゴリズムである。 また,R-CPE-MAB問題に対して,新たな問題依存型サンプル複雑性を低い境界で導入し,GenTS-Exploreアルゴリズムが問題依存定数係数まで最適なサンプル複雑性を実現することを示す。

We study the real-valued combinatorial pure exploration of the multi-armed bandit (R-CPE-MAB) problem. In R-CPE-MAB, a player is given $d$ stochastic arms, and the reward of each arm $s\in\{1, \ldots, d\}$ follows an unknown distribution with mean $\mu_s$. In each time step, a player pulls a single arm and observes its reward. The player's goal is to identify the optimal \emph{action} $\boldsymbol{\pi}^{*} = \argmax_{\boldsymbol{\pi} \in \mathcal{A}} \boldsymbol{\mu}^{\top}\boldsymbol{\pi}$ from a finite-sized real-valued \emph{action set} $\mathcal{A}\subset \mathbb{R}^{d}$ with as few arm pulls as possible. Previous methods in the R-CPE-MAB assume that the size of the action set $\mathcal{A}$ is polynomial in $d$. We introduce an algorithm named the Generalized Thompson Sampling Explore (GenTS-Explore) algorithm, which is the first algorithm that can work even when the size of the action set is exponentially large in $d$. We also introduce a novel problem-dependent sample complexity lower bound of the R-CPE-MAB problem, and show that the GenTS-Explore algorithm achieves the optimal sample complexity up to a problem-dependent constant factor.
翻訳日:2023-08-22 16:50:42 公開日:2023-08-20
# FedSIS: プライバシ保存型汎用顔提示攻撃検出のための中間表現サンプリングによるフェデレーションスプリット学習

FedSIS: Federated Split Learning with Intermediate Representation Sampling for Privacy-preserving Generalized Face Presentation Attack Detection ( http://arxiv.org/abs/2308.10236v1 )

ライセンス: Link先を確認
Naif Alkhunaizi, Koushik Srivatsan, Faris Almalik, Ibrahim Almakky, Karthik Nandakumar(参考訳) unseen domain/attacksへの一般化の欠如は、ほとんどのface presentation attack detection (facepad)アルゴリズムのアキレス腱である。 FacePADソリューションの一般化性を高めるための既存の試みは、複数のソースドメインからのデータが単一のエンティティで利用可能であることを前提としている。 実際には、異なるソースドメインからのデータは、法律やプライバシーの制約により共有できないさまざまなエンティティによって収集される可能性がある。 フェデレートラーニング(FL)のような協調学習パラダイムはこの問題を克服できるが、標準的なFLメソッドは、トレーニング中に非IDクライアントデータ分散を処理し、推論中に見知らぬドメインに一般化するという2つの課題を克服するのに苦労するため、ドメインの一般化に不適である。 本稿では,プライバシ保護ドメインの一般化のために,中間表現サンプリング(fedsis)を用いたフェデレーション分割学習(federated split learning)と呼ばれる新しいフレームワークを提案する。 フェデシスでは、ハイブリッドビジョントランスフォーマー(vit)アーキテクチャをflとスプリットラーニングの組み合わせを用いて学習し、生データを共有することなく(プライバシーを保ちながら)クライアントデータ分布の統計的不均一性に対する堅牢性を達成する。 未検出領域の一般化をさらに改善するため、中間表現サンプリングと呼ばれる新しい特徴増強戦略を採用し、共有アダプタネットワークを用いてvitの中間ブロックからの判別情報を蒸留する。 FedSISのアプローチは、クロスドメインFacePADのよく知られた2つのベンチマークで評価され、データ共有なしで最先端の一般化性能を達成可能であることを示した。 コード:https://github.com/Naiftt/FedSIS

Lack of generalization to unseen domains/attacks is the Achilles heel of most face presentation attack detection (FacePAD) algorithms. Existing attempts to enhance the generalizability of FacePAD solutions assume that data from multiple source domains are available with a single entity to enable centralized training. In practice, data from different source domains may be collected by diverse entities, who are often unable to share their data due to legal and privacy constraints. While collaborative learning paradigms such as federated learning (FL) can overcome this problem, standard FL methods are ill-suited for domain generalization because they struggle to surmount the twin challenges of handling non-iid client data distributions during training and generalizing to unseen domains during inference. In this work, a novel framework called Federated Split learning with Intermediate representation Sampling (FedSIS) is introduced for privacy-preserving domain generalization. In FedSIS, a hybrid Vision Transformer (ViT) architecture is learned using a combination of FL and split learning to achieve robustness against statistical heterogeneity in the client data distributions without any sharing of raw data (thereby preserving privacy). To further improve generalization to unseen domains, a novel feature augmentation strategy called intermediate representation sampling is employed, and discriminative information from intermediate blocks of a ViT is distilled using a shared adapter network. The FedSIS approach has been evaluated on two well-known benchmarks for cross-domain FacePAD to demonstrate that it is possible to achieve state-of-the-art generalization performance without data sharing. Code: https://github.com/Naiftt/FedSIS
翻訳日:2023-08-22 16:49:57 公開日:2023-08-20
# karma:causal sequence modelingによる適応型ビデオストリーミング

Karma: Adaptive Video Streaming via Causal Sequence Modeling ( http://arxiv.org/abs/2308.10230v1 )

ライセンス: Link先を確認
Bowei Xu, Hao Chen and Zhan Ma(参考訳) 最適適応ビットレート (ABR) の決定は、環境観測、リターン、行動を含む時間的相互関係のモダリティを含む状態遷移の包括的特徴づけに依存する。 しかし、最先端の学習ベースのABRアルゴリズムは、次のアクションを決定するために過去の観測にのみ依存している。 このパラダイムは、不慣れな観察に遭遇したときの最適動作からの逸脱の連鎖を引き起こす傾向があり、結果としてモデルの一般化を損なう。 本稿では,過去観測,帰納,行動間の相互因果関係を把握し,偏差発生時の時間的精錬動作を一般化するために,因果系列モデルを用いたabrアルゴリズムであるkarmaを提案する。 直接観測から行動へのマッピングとは異なり、カルマは入力として多次元の観測、返却、行動を繰り返し維持し、決定トランスフォーマを介して因果系列モデリングを用いて次の動作を決定する。 入力シーケンスでは、現在のネットワーク条件と再生状態に基づいて定期的に推定される拡張戻り信号として、最大累積将来の品質(QoE、QoE-to-go)を使用する。 トレース駆動シミュレーションと実世界のフィールドテストによりカルマを評価し、既存の最先端のabrアルゴリズムよりも優れた性能を示し、ネットワーク条件における平均qoe改善率は10.8%から18.7%であった。 さらに、カルマは強力な一般化能力を示し、シミュレーションと実世界のテストの両方において、未知のネットワーク下で主要な性能を示す。

Optimal adaptive bitrate (ABR) decision depends on a comprehensive characterization of state transitions that involve interrelated modalities over time including environmental observations, returns, and actions. However, state-of-the-art learning-based ABR algorithms solely rely on past observations to decide the next action. This paradigm tends to cause a chain of deviations from optimal action when encountering unfamiliar observations, which consequently undermines the model generalization. This paper presents Karma, an ABR algorithm that utilizes causal sequence modeling to improve generalization by comprehending the interrelated causality among past observations, returns, and actions and timely refining action when deviation occurs. Unlike direct observation-to-action mapping, Karma recurrently maintains a multi-dimensional time series of observations, returns, and actions as input and employs causal sequence modeling via a decision transformer to determine the next action. In the input sequence, Karma uses the maximum cumulative future quality of experience (QoE) (a.k.a, QoE-to-go) as an extended return signal, which is periodically estimated based on current network conditions and playback status. We evaluate Karma through trace-driven simulations and real-world field tests, demonstrating superior performance compared to existing state-of-the-art ABR algorithms, with an average QoE improvement ranging from 10.8% to 18.7% across diverse network conditions. Furthermore, Karma exhibits strong generalization capabilities, showing leading performance under unseen networks in both simulations and real-world tests.
翻訳日:2023-08-22 16:48:52 公開日:2023-08-20
# 機械学習を利用した Combinatorial Clockオークション

Machine Learning-powered Combinatorial Clock Auction ( http://arxiv.org/abs/2308.10226v1 )

ライセンス: Link先を確認
Ermis Soumalias, Jakob Weissteiner, Jakob Heiss, Sven Seuken(参考訳) 本稿では,イテレーティブ組合せオークション (ICA) の設計について検討する。 この領域の主な課題は、バンドル空間がアイテム数で指数関数的に増加することである。 これを解決するために、いくつかの論文が最近、入札者から最も重要な情報のみを引き出すことを目的とした機械学習(ML)ベースの選好推論アルゴリズムを提案している。 しかし、実際的な見地からすると、この先行研究の主な欠点は、これらの設計が値クエリ(つまり、バンドル $\{A,B\}$?'' に対して ``What is your value for the bundle $\{A,B\}$?'' )を介して入札者の好みを引き出すことである。 ほとんどの現実世界のicaドメインでは、価値クエリは非現実的な高い認知的負担を入札者に課すため、実用的でないとみなされている。 本稿では,ML を利用したコンビナタリアルクロックオークションを設計し,需要クエリのみを通じて入札者から情報を取得することで,この欠点に対処する(‘At price $p$, your most preferred bundle of items?’)。 まず、要求クエリに基づいてMLモデルをトレーニングするための新しい手法を提案する。 第2に、これらの訓練されたMLモデルに基づいて、要求クエリを高いクリア化ポテンシャルで決定する効率的な方法を導入し、理論的基盤を提供する。 いくつかのスペクトルオークションドメインでMLベースの要求クエリメカニズムを実験的に評価し、最も確立された実世界のICAである組合せクロックオークション(CCA)と比較した。 我々のメカニズムはすべてのドメインの効率の点でccaを著しく上回り、ラウンド数を大幅に削減することで高い効率を実現し、線形価格を用いることで、非常に高いクリアリングポテンシャルを示す。 そこで,本論文では,研究と実践のギャップを橋渡しし,最初の実用的なml駆動icaを提案する。

We study the design of iterative combinatorial auctions (ICAs). The main challenge in this domain is that the bundle space grows exponentially in the number of items. To address this, several papers have recently proposed machine learning (ML)-based preference elicitation algorithms that aim to elicit only the most important information from bidders. However, from a practical point of view, the main shortcoming of this prior work is that those designs elicit bidders' preferences via value queries (i.e., ``What is your value for the bundle $\{A,B\}$?''). In most real-world ICA domains, value queries are considered impractical, since they impose an unrealistically high cognitive burden on bidders, which is why they are not used in practice. In this paper, we address this shortcoming by designing an ML-powered combinatorial clock auction that elicits information from the bidders only via demand queries (i.e., ``At prices $p$, what is your most preferred bundle of items?''). We make two key technical contributions: First, we present a novel method for training an ML model on demand queries. Second, based on those trained ML models, we introduce an efficient method for determining the demand query with the highest clearing potential, for which we also provide a theoretical foundation. We experimentally evaluate our ML-based demand query mechanism in several spectrum auction domains and compare it against the most established real-world ICA: the combinatorial clock auction (CCA). Our mechanism significantly outperforms the CCA in terms of efficiency in all domains, it achieves higher efficiency in a significantly reduced number of rounds, and, using linear prices, it exhibits vastly higher clearing potential. Thus, with this paper we bridge the gap between research and practice and propose the first practical ML-powered ICA.
翻訳日:2023-08-22 16:48:01 公開日:2023-08-20
# SBSM-Pro:タンパク質のバイオシーケンスマシンをサポート

SBSM-Pro: Support Bio-sequence Machine for Proteins ( http://arxiv.org/abs/2308.10275v1 )

ライセンス: Link先を確認
Yizheng Wang, Yixiao Zhai, Yijie Ding, Quan Zou(参考訳) タンパク質は生物学的システムにおいて重要な役割を果たす。 タンパク質の分類に機械学習アルゴリズムを使用することで、生物実験を補助し、ガイドすることもできる。 本稿では,生物配列分類に特化して設計されたタンパク質のバイオシーケンスマシンを提案する。 このモデルは生の配列から始まり、その物理化学的性質に基づいてアミノ酸をグループ化する。 これは、タンパク質間の類似性を測定するために配列アライメントを組み込んでおり、新しいmklアプローチを用いて様々な種類の情報を統合し、サポートベクターマシンを使用して分類予測を行う。 以上の結果から,タンパク質機能同定と翻訳後修飾の点から,本モデルが10データセットにまたがる可換性を示すことが示された。 この研究は、タンパク質の分類における最先端の研究を示すだけでなく、この領域における新しい方向への道のりも示しており、生物学的配列分類に適したプラットフォームの開発において有益であることを示している。 SBSM-Proはhttp://lab.malab.cn/soft/SBSM-Pro/からアクセスできる。

Proteins play a pivotal role in biological systems. The use of machine learning algorithms for protein classification can assist and even guide biological experiments, offering crucial insights for biotechnological applications. We propose a support bio-sequence machine for proteins, a model specifically designed for biological sequence classification. This model starts with raw sequences and groups amino acids based on their physicochemical properties. It incorporates sequence alignment to measure the similarities between proteins and uses a novel MKL approach to integrate various types of information, utilizing support vector machines for classification prediction. The results indicate that our model demonstrates commendable performance across 10 datasets in terms of the identification of protein function and posttranslational modification. This research not only showcases state-of-the-art work in protein classification but also paves the way for new directions in this domain, representing a beneficial endeavour in the development of platforms tailored for biological sequence classification. SBSM-Pro is available for access at http://lab.malab.cn/soft/SBSM-Pro/.
翻訳日:2023-08-22 16:39:35 公開日:2023-08-20
# 廃棄物を湿潤化する - 連続条件生成対向ネットワークの強化のための低品質サンプルの活用

Turning Waste into Wealth: Leveraging Low-Quality Samples for Enhancing Continuous Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2308.10273v1 )

ライセンス: Link先を確認
Xin Ding and Yongwei Wang and Zuheng Xu(参考訳) Continuous Conditional Generative Adversarial Networks (CcGANs) は、連続スカラー変数 (termed regression labels) に基づく生成的モデリングを可能にする。 しかし、トレーニングデータに制限があるため、偽画像も生成できる。 負データ拡張(NDA)は、実際のトレーニング画像に異常を導入し、低品質の出力からGANを誘導することにより、非条件およびクラス条件のGANを効果的に強化するが、CcGANサンプリング中に発生する負のサンプルを複製できないため、そのCcGANへの影響は限定的である。 この問題に対処するために,CcGAN に適した新しい NDA アプローチである Dual-NDA を提案する。 Dual-NDAは、事前訓練されたCcGANから生成された視覚的に非現実的なイメージと、実画像のラベルを操作することによって生成されたラベル一貫性のないイメージの2つのタイプの負のサンプルを使用している。 これらの負のサンプルを活用し,修正ccganトレーニングアルゴリズムと並行して,新たな判別対象を導入する。 UTKFace と Steering Angle の実証分析により、Dual-NDA は CcGAN が生成した偽画像の視覚的忠実度とラベルの一貫性を一貫して向上し、バニラ NDA よりもかなりの性能向上を示した。 さらに、Dual-NDAを適用することで、CcGANsは最先端の条件付きGANと拡散モデルの能力を超える顕著な進歩を示し、新しい性能のパイナクルを確立した。

Continuous Conditional Generative Adversarial Networks (CcGANs) enable generative modeling conditional on continuous scalar variables (termed regression labels). However, they can produce subpar fake images due to limited training data. Although Negative Data Augmentation (NDA) effectively enhances unconditional and class-conditional GANs by introducing anomalies into real training images, guiding the GANs away from low-quality outputs, its impact on CcGANs is limited, as it fails to replicate negative samples that may occur during the CcGAN sampling. We present a novel NDA approach called Dual-NDA specifically tailored for CcGANs to address this problem. Dual-NDA employs two types of negative samples: visually unrealistic images generated from a pre-trained CcGAN and label-inconsistent images created by manipulating real images' labels. Leveraging these negative samples, we introduce a novel discriminator objective alongside a modified CcGAN training algorithm. Empirical analysis on UTKFace and Steering Angle reveals that Dual-NDA consistently enhances the visual fidelity and label consistency of fake images generated by CcGANs, exhibiting a substantial performance gain over the vanilla NDA. Moreover, by applying Dual-NDA, CcGANs demonstrate a remarkable advancement beyond the capabilities of state-of-the-art conditional GANs and diffusion models, establishing a new pinnacle of performance.
翻訳日:2023-08-22 16:39:19 公開日:2023-08-20
# 非直線視覚イメージングのための領域縮小戦略

Domain Reduction Strategy for Non Line of Sight Imaging ( http://arxiv.org/abs/2308.10269v1 )

ライセンス: Link先を確認
Hyunbo Shim, In Cho, Daekyu Kwon, Seon Joo Kim(参考訳) 本稿では,様々な環境下で隠れたシーンを再構築することを目的とした,非線形画像(NLOS)の新たな最適化手法を提案する。 本手法は,隠れた表面間の相互作用が自明に無視される場合,隠れた体積の各点から戻る光子を独立に計算できることを示す。 一般化光伝搬関数をモデル化し、これらの関数の線形結合としてトランジェントを正確に表現する。 さらに,提案手法は,伝搬関数の集合から隠れたボリュームの空領域を除外し,最適化の計算効率を向上させるための領域縮小手順を含む。 非平面リレー壁,スパース走査パターン,共焦点および非共焦点,表面形状再構成など,様々なnlosシナリオにおいて本手法の有効性を示す。 合成データと実世界のデータの両方で行った実験は、一般的なNLOSシナリオにおける提案手法の優位性と効率性を明確に裏付けるものである。

This paper presents a novel optimization-based method for non-line-of-sight (NLOS) imaging that aims to reconstruct hidden scenes under various setups. Our method is built upon the observation that photons returning from each point in hidden volumes can be independently computed if the interactions between hidden surfaces are trivially ignored. We model the generalized light propagation function to accurately represent the transients as a linear combination of these functions. Moreover, our proposed method includes a domain reduction procedure to exclude empty areas of the hidden volumes from the set of propagation functions, thereby improving computational efficiency of the optimization. We demonstrate the effectiveness of the method in various NLOS scenarios, including non-planar relay wall, sparse scanning patterns, confocal and non-confocal, and surface geometry reconstruction. Experiments conducted on both synthetic and real-world data clearly support the superiority and the efficiency of the proposed method in general NLOS scenarios.
翻訳日:2023-08-22 16:38:49 公開日:2023-08-20
# グラフ上の量子コード

Quantum Codes on Graphs ( http://arxiv.org/abs/2308.10264v1 )

ライセンス: Link先を確認
M. B. Hastings(参考訳) 様々なグラフを用いて構築されたコードに関するいくつかの疑問,特に2次元あるいは3次元の格子ではないグラフに焦点をあてる。 We begin by considering Floquet codes which can be constructed using ``emergent fermions". Here, we are considering codes that in some sense generalize the honeycomb code[1] to more general, non-planar graphs. We then consider a class of these codes that is related to (generalized) toric codes on $2$-complexes. For (generalized) toric codes on $2$-complexes, the following question arises: can the distance of these codes grow faster than square-root? We answer the question negatively, and remark on recent systolic inequalities[2]. We then turn to the case that of planar codes with vacancies, or ``dead qubits", and consider the statistical mechanics of decoding in this setting. しきい値の証明はできないが、この結果は低誤差確率と高次復号グラフ(低誤差確率の前に高次に取られる)に対して漸近的に正しいはずである。 付録では、平面量子符号における空洞のおもちゃモデルについて議論し、`super-stabilizers' が測定されない場合のエラーがどのように発生するかという現象論的議論を行い、別個の付録ではフロケット符号とチェインマップの関係について論じる。

We consider some questions related to codes constructed using various graphs, in particular focusing on graphs which are not lattices in two or three dimensions. We begin by considering Floquet codes which can be constructed using ``emergent fermions". Here, we are considering codes that in some sense generalize the honeycomb code[1] to more general, non-planar graphs. We then consider a class of these codes that is related to (generalized) toric codes on $2$-complexes. For (generalized) toric codes on $2$-complexes, the following question arises: can the distance of these codes grow faster than square-root? We answer the question negatively, and remark on recent systolic inequalities[2]. We then turn to the case that of planar codes with vacancies, or ``dead qubits", and consider the statistical mechanics of decoding in this setting. Although we do not prove a threshold, our results should be asymptotically correct for low error probability and high degree decoding graphs (high degree taken before low error probability). In an appendix, we discuss a toy model of vacancies in planar quantum codes, giving a phenomenological discussion of how errors occur when ``super-stabilizers" are not measured, and in a separate appendix we discuss a relation between Floquet codes and chain maps.
翻訳日:2023-08-22 16:38:35 公開日:2023-08-20
# 深部NLPモデルにおける潜在概念のスケールアップ

Scaled-up Discovery of Latent Concepts in Deep NLP Models ( http://arxiv.org/abs/2308.10263v1 )

ライセンス: Link先を確認
Majd Hawasly, Fahim Dalvi and Nadir Durrani(参考訳) 事前学習された言語モデル(pLM)は、膨大なテキストデータに対する教師なし学習を通じて複雑なパターンとコンテキスト依存を学習し、NLPタスク全体のブレークスルーを駆動する。 これらの成果にもかかわらず、これらのモデルはブラックボックスのままであり、意思決定プロセスを理解する研究が必要である。 最近の研究は、事前学習されたモデルにおける潜在空間のクラスタリングによる表現解析を探求している。 しかし,これらの手法はクラスタリングアルゴリズムの計算コストが高いため,スケーラビリティや解釈範囲に制限がある。 本研究は、plmからの表現の符号化概念発見をスケーリングするためにクラスタリングアルゴリズムを比較することに焦点を当てる。 具体的には,包括的階層的クラスタリング,リーダアルゴリズム,k-meansクラスタリングの3つのアルゴリズムを比較して,符号化された概念を人間定義のオントロジーにアライメントすることで明らかにする。 その結果、k-meansは、非常に大きなデータセットにスケールする可能性があり、単語とフレーズのレベルでリッチな潜在概念発見が可能となった。

Pre-trained language models (pLMs) learn intricate patterns and contextual dependencies via unsupervised learning on vast text data, driving breakthroughs across NLP tasks. Despite these achievements, these models remain black boxes, necessitating research into understanding their decision-making processes. Recent studies explore representation analysis by clustering latent spaces within pre-trained models. However, these approaches are limited in terms of scalability and the scope of interpretation because of high computation costs of clustering algorithms. This study focuses on comparing clustering algorithms for the purpose of scaling encoded concept discovery of representations from pLMs. Specifically, we compare three algorithms in their capacity to unveil the encoded concepts through their alignment to human-defined ontologies: Agglomerative Hierarchical Clustering, Leaders Algorithm, and K-Means Clustering. Our results show that K-Means has the potential to scale to very large datasets, allowing rich latent concept discovery, both on the word and phrase level.
翻訳日:2023-08-22 16:38:08 公開日:2023-08-20
# リアルタイムUAV追跡のための相互情報の最大化による遠交表現の学習

Learning Disentangled Representation with Mutual Information Maximization for Real-Time UAV Tracking ( http://arxiv.org/abs/2308.10262v1 )

ライセンス: Link先を確認
Xucheng Wang, Xiangyang Yang, Hengzhou Ye, Shuiwang Li(参考訳) 効率性は、計算資源の制限、バッテリー容量、無人航空機の最大負荷のために、UAVトラッキングにおいて重大な問題となっている。 判別相関フィルタ (DCF) に基づくトラッカーは, 高い効率でこの分野に普及しているが, 最近, モデル圧縮を用いた軽量深層学習 (DL) ベースのトラッカーを提案すると, CPU効率と精度が著しく向上した。 残念なことに、これらの研究で利用されるモデル圧縮法は単純ではあるが、高い圧縮速度で追従精度を満足できない。 本稿では,相互情報最大化(DR-MIM)による非絡み合い表現学習を活用し,DLベーストラッカーの精度向上とUAV追跡の効率化を図ることを目的とする。 提案した不整合表現は、特徴をアイデンティティ関連およびアイデンティティ非関連の特徴に分離する。 後者のみが使用され、その後の分類と回帰タスクにおける特徴表現の有効性を高める。 UAV123@10fps、DTB70、UAVDT、VisDrone2018を含む4つのUAVベンチマークの大規模な実験は、我々のDR-MIMトラッカーが最先端のUAVトラッキング方法を大幅に上回っていることを示している。

Efficiency has been a critical problem in UAV tracking due to limitations in computation resources, battery capacity, and unmanned aerial vehicle maximum load. Although discriminative correlation filters (DCF)-based trackers prevail in this field for their favorable efficiency, some recently proposed lightweight deep learning (DL)-based trackers using model compression demonstrated quite remarkable CPU efficiency as well as precision. Unfortunately, the model compression methods utilized by these works, though simple, are still unable to achieve satisfying tracking precision with higher compression rates. This paper aims to exploit disentangled representation learning with mutual information maximization (DR-MIM) to further improve DL-based trackers' precision and efficiency for UAV tracking. The proposed disentangled representation separates the feature into an identity-related and an identity-unrelated features. Only the latter is used, which enhances the effectiveness of the feature representation for subsequent classification and regression tasks. Extensive experiments on four UAV benchmarks, including UAV123@10fps, DTB70, UAVDT and VisDrone2018, show that our DR-MIM tracker significantly outperforms state-of-the-art UAV tracking methods.
翻訳日:2023-08-22 16:37:48 公開日:2023-08-20
# 分散検出における大規模言語モデルはどの程度優れているか?

How Good Are Large Language Models at Out-of-Distribution Detection? ( http://arxiv.org/abs/2308.10261v1 )

ライセンス: Link先を確認
Bo Liu, Liming Zhan, Zexin Lu, Yujie Feng, Lei Xue, Xiao-Ming Wu(参考訳) アウト・オブ・ディストリビューション(OOD)検出は、機械学習(ML)モデルの信頼性を高める上で重要な役割を果たす。 大規模言語モデル(LLM)の出現は、MLコミュニティ内のパラダイムシフトを触媒し、さまざまな自然言語処理タスクにまたがる優れた能力を示している。 既存の研究は、BERTやRoBERTaのようなエンコーダベースの小さなトランスフォーマーを用いたOOD検出を調査しているが、スケール、事前学習目標、推論パラダイムの違いは、これらの発見がLLMに適用可能であることを疑問視している。 本稿では, LLM 領域における OOD 検出の先駆的な研究に着手し, 7B から 65B までの LLaMA シリーズに着目した。 我々は,一般用OOD検出器を徹底的に評価し,ゼログレードおよび微調整のシナリオにおいて,その性能を精査した。 特に,LLMの事前学習目標を下流タスクと整合させて,従来の識別的in-distribution fine-tuningを生成的微調整に変更した。 以上の結果から, 簡易なコサイン距離OOD検出器は優れた有効性を示し, その他のOOD検出器よりも優れていた。 本研究では, LLM の埋め込み空間の等方性を強調し, より小さな BERT 系モデルで観測される異方性と明確に対比して, この現象の興味深い説明を行う。 この新たな洞察は、LDMがOODデータを検出する方法の理解を深め、動的環境における適合性と信頼性を高める。

Out-of-distribution (OOD) detection plays a vital role in enhancing the reliability of machine learning (ML) models. The emergence of large language models (LLMs) has catalyzed a paradigm shift within the ML community, showcasing their exceptional capabilities across diverse natural language processing tasks. While existing research has probed OOD detection with smaller encoder-based Transformers like BERT and RoBERTa, the stark differences in scales, pre-training objectives, and inference paradigms call into question the applicability of these findings to LLMs. This paper embarks on a pioneering empirical investigation of OOD detection in the domain of LLMs, focusing on LLaMA series ranging from 7B to 65B in size. We thoroughly evaluate commonly-used OOD detectors, scrutinizing their performance in both zero-grad and fine-tuning scenarios. Notably, we alter previous discriminative in-distribution fine-tuning into generative fine-tuning, aligning the pre-training objective of LLMs with downstream tasks. Our findings unveil that a simple cosine distance OOD detector demonstrates superior efficacy, outperforming other OOD detectors. We provide an intriguing explanation for this phenomenon by highlighting the isotropic nature of the embedding spaces of LLMs, which distinctly contrasts with the anisotropic property observed in smaller BERT family models. The new insight enhances our understanding of how LLMs detect OOD data, thereby enhancing their adaptability and reliability in dynamic environments.
翻訳日:2023-08-22 16:37:23 公開日:2023-08-20
# Make-It-4D: 単一画像から長時間のダイナミックシーン映像を合成する

Make-It-4D: Synthesizing a Consistent Long-Term Dynamic Scene Video from a Single Image ( http://arxiv.org/abs/2308.10257v1 )

ライセンス: Link先を確認
Liao Shen, Xingyi Li, Huiqiang Sun, Juewen Peng, Ke Xian, Zhiguo Cao, Guosheng Lin(参考訳) 本研究では,1枚の画像のみから長期動的映像を合成する問題について検討する。 大きなカメラの動きに対して一貫した視覚コンテンツの動きを必要とするため、これは難しい。 既存の方法は、一貫性のない永遠の視点を幻覚するか、長いカメラの軌跡に苦しむかのどちらかである。 これらの問題に対処するためには、基礎となる4D(3次元幾何学やシーンモーションを含む)を推定し、閉塞領域を埋めることが不可欠である。 この目的のために,単一の画像から一貫した長期ダイナミックビデオを生成する新しい手法であるMake-It-4Dを提案する。 一方、シーンを表すために層状深度画像(LDI)を使用し、特徴点雲を形成するために計画されていない。 映像コンテンツをアニメーションするために、動き推定と対応するカメラポーズから得られるシーンフローに基づいて特徴点雲を変位させる。 このような4D表現により、生成したダイナミックビデオのグローバルな一貫性を維持することができる。 一方,事前学習した拡散モデルを用いて入力画像の塗り出し・塗り出しを行うことにより,オクルード領域を埋める。 これにより,大型カメラ動作下での動作が可能となった。 我々の設計の利点により、この手法はトレーニングフリーであり、かなりのトレーニング時間を節約できる。 提案手法の有効性を実験的に検証し, 有意なレンダリング結果を示した。

We study the problem of synthesizing a long-term dynamic video from only a single image. This is challenging since it requires consistent visual content movements given large camera motions. Existing methods either hallucinate inconsistent perpetual views or struggle with long camera trajectories. To address these issues, it is essential to estimate the underlying 4D (including 3D geometry and scene motion) and fill in the occluded regions. To this end, we present Make-It-4D, a novel method that can generate a consistent long-term dynamic video from a single image. On the one hand, we utilize layered depth images (LDIs) to represent a scene, and they are then unprojected to form a feature point cloud. To animate the visual content, the feature point cloud is displaced based on the scene flow derived from motion estimation and the corresponding camera pose. Such 4D representation enables our method to maintain the global consistency of the generated dynamic video. On the other hand, we fill in the occluded regions by using a pretrained diffusion model to inpaint and outpaint the input image. This enables our method to work under large camera motions. Benefiting from our design, our method can be training-free which saves a significant amount of training time. Experimental results demonstrate the effectiveness of our approach, which showcases compelling rendering results.
翻訳日:2023-08-22 16:36:53 公開日:2023-08-20
# 2次元中心ポテンシャルと量子古典対応におけるスピン軌道カップリングモデルの厳密解

Exact solutions of a spin-orbit coupling model in two-dimensional central-potentials and quantum-classical correspondence ( http://arxiv.org/abs/2308.10256v1 )

ライセンス: Link先を確認
Jun-Li Xin, Jiu-Qing Liang(参考訳) 本稿では、円柱対称電場を持つ2次元中心ポテンシャルに拘束された中性スピン粒子の古典的および量子的周期軌道と、スピン軌道結合によって生成される効果的な非可換ゲージ場の両方を示す。 ゼロエネルギー条件で明示的に得られる軌道角関数のコヒーレント重ね合わせは、古典軌道と量子波動関数の空間パターンの正確な一致の意味における量子古典的対応を示し、その結果、量子軌道と古典軌道の同じ回転対称性の要求により軌道角-運動量の分数量子化が生じる。 非可換なanyon-モデルが自然に現れる。

In this paper we present both the classical and quantum periodic-orbits of a neutral spinning particle constrained in two-dimensional central-potentials with a cylindrically symmetric electric-field in addition which leads to an effective non-Abelian gauge field generated by the spin-orbit coupling. Coherent superposition of orbital angular-eigenfunctions obtained explicitly at the condition of zero-energy exhibits the quantum-classical correspondence in the meaning of exact coincidence between classical orbits and spatial patterns of quantum wave-functions, which as a consequence results in the fractional quantization of orbital angular-momentum by the requirement of the same rotational symmetry of quantum and classical orbits. A non-Abelian anyon-model emerges in a natural way.
翻訳日:2023-08-22 16:36:32 公開日:2023-08-20
# ieee 802.1タイムセンシティブネットワークのためのデータセットの合成に向けて

Towards Synthesizing Datasets for IEEE 802.1 Time-sensitive Networking ( http://arxiv.org/abs/2308.10255v1 )

ライセンス: Link先を確認
Do\u{g}analp Ergen\c{c}, Nuref\c{s}an Sertba\c{s} B\"ulb\"ul, Lisa Maile, Anna Arestova, Mathias Fischer(参考訳) IEEE 802.1 Time-sensitive Networking (TSN)プロトコルは、最近、様々なミッションクリティカルシステム(MCS)にまたがるレガシーネットワーク技術を置き換えるために提案されている。 MCSにおけるTSNの設計、構成、保守は、これらのシステムの高度に複雑で相互接続された性質に取り組むための高度な手法を必要とする。 したがって、人工知能(AI)と機械学習(ML)モデルは、そのような手法を開発する上で最も顕著な手段である。 しかし、モデルトレーニングには大量のデータが必要であるため、簡単にはアクセスできない。 本稿では、TSNシステムのためのAI/ML技術の研究を盛んにするために、TSNデータセットの必要性を再カプセル化することを目的とする。 さらに、現実的なデータセットを合成するためのtsnプラットフォームを構築するための主な要件と代替設計を分析する。

IEEE 802.1 Time-sensitive Networking (TSN) protocols have recently been proposed to replace legacy networking technologies across different mission-critical systems (MCSs). Design, configuration, and maintenance of TSN within MCSs require advanced methods to tackle the highly complex and interconnected nature of those systems. Accordingly, artificial intelligence (AI) and machine learning (ML) models are the most prominent enablers to develop such methods. However, they usually require a significant amount of data for model training, which is not easily accessible. This short paper aims to recapitulate the need for TSN datasets to flourish research on AI/ML-based techniques for TSN systems. Moreover, it analyzes the main requirements and alternative designs to build a TSN platform to synthesize realistic datasets.
翻訳日:2023-08-22 16:36:17 公開日:2023-08-20
# Efficient-VRNet: ビジョンの非対称フェアフュージョンと4Dmm波レーダに基づく河川路パノプティクス知覚のための精密核融合ネットワーク

Efficient-VRNet: An Exquisite Fusion Network for Riverway Panoptic Perception based on Asymmetric Fair Fusion of Vision and 4D mmWave Radar ( http://arxiv.org/abs/2308.10287v1 )

ライセンス: Link先を確認
Runwei Guan, Shanliang Yao, Xiaohui Zhu, Ka Lok Man, Yong Yue, Jeremy Smith, Eng Gee Lim, Yutao Yue(参考訳) 自律航法には、無人表面車両(USV)にパノプティクス認識が不可欠である。 現在の汎視知覚方式は、主に視覚のみに基づいており、カメラセンサに基づいてオブジェクト検出とセマンティックセグメンテーションを同時に行う。 それでも、カメラとレーダーセンサーの融合は、純粋な視覚的手法を代替できる有望な方法と考えられているが、ほとんどすべてが物体検出のみに焦点を当てている。 したがって、視覚とレーダーの特徴を最大限かつ微妙に融合して、検出とセグメンテーションの両方を改善する方法が課題である。 本稿では,usvsに基づく河川のパンオプティカル知覚に着目し,道路のパンオプティカル知覚に比べ,かなり未探索の分野である。 本研究では、コンテキストクラスタリング(CoC)に基づくモデルであるEfficient-VRNetと、視覚とレーダーの両方を公平に扱う4D mmWaveレーダの非対称融合を提案する。 効率的なvrnetは,河川物体の検出とセグメンテーションとドリブル領域セグメンテーションを同時に行うことができる。 さらに,不確実性に基づく汎視知覚訓練戦略を採用し,高能率VRNetを訓練する。 実験では,他のユニモーダルモデル,特に照明条件の悪い悪天候や環境において,収集したデータセットの性能が向上した。 私たちのコードとモデルは、 \url{https://github.com/GuanRunwei/Efficient-VRNet}で利用可能です。

Panoptic perception is essential to unmanned surface vehicles (USVs) for autonomous navigation. The current panoptic perception scheme is mainly based on vision only, that is, object detection and semantic segmentation are performed simultaneously based on camera sensors. Nevertheless, the fusion of camera and radar sensors is regarded as a promising method which could substitute pure vision methods, but almost all works focus on object detection only. Therefore, how to maximize and subtly fuse the features of vision and radar to improve both detection and segmentation is a challenge. In this paper, we focus on riverway panoptic perception based on USVs, which is a considerably unexplored field compared with road panoptic perception. We propose Efficient-VRNet, a model based on Contextual Clustering (CoC) and the asymmetric fusion of vision and 4D mmWave radar, which treats both vision and radar modalities fairly. Efficient-VRNet can simultaneously perform detection and segmentation of riverway objects and drivable area segmentation. Furthermore, we adopt an uncertainty-based panoptic perception training strategy to train Efficient-VRNet. In the experiments, our Efficient-VRNet achieves better performances on our collected dataset than other uni-modal models, especially in adverse weather and environment with poor lighting conditions. Our code and models are available at \url{https://github.com/GuanRunwei/Efficient-VRNet}.
翻訳日:2023-08-22 16:30:36 公開日:2023-08-20
# DomainDrop: ドメイン一般化のためのドメイン感性チャネルの抑制

DomainDrop: Suppressing Domain-Sensitive Channels for Domain Generalization ( http://arxiv.org/abs/2308.10285v1 )

ライセンス: Link先を確認
Jintao Guo, Lei Qi and Yinghuan Shi(参考訳) ディープニューラルネットワークは様々な視覚的タスクでかなりの成功を収めている。 しかしながら、目に見えないテストデータセットに適用する場合、最先端のモデルはドメインシフトによってパフォーマンスが低下することが多い。 本稿では,特徴写像から領域シフトへのチャネルの堅牢性向上という新たな視点から,領域一般化のための新しいアプローチを提案する。 ソースドメインでトレーニングされたモデルには、異なるドメイン間で不安定なアクティベーションを示すチャネルがかなり多く含まれており、ドメイン固有の特徴を捉え、目に見えないターゲットドメインに露出すると異常に振る舞う傾向にある。 この問題に対処するために,ドメイン識別器を用いて各ネットワーク層の特徴マップ内の不安定なチャネルを識別・ドロップする,ドメインシフトに対するチャネルロバスト性を継続的に向上するDomainDropフレームワークを提案する。 理論的には、我々のフレームワークは一般化境界を効果的に低くすることができる。 いくつかのベンチマークにおいて、我々のフレームワークは競合する他の手法と比較して最先端の性能を達成することを示す。 私たちのコードはhttps://github.com/lingeringlight/domaindropで利用可能です。

Deep Neural Networks have exhibited considerable success in various visual tasks. However, when applied to unseen test datasets, state-of-the-art models often suffer performance degradation due to domain shifts. In this paper, we introduce a novel approach for domain generalization from a novel perspective of enhancing the robustness of channels in feature maps to domain shifts. We observe that models trained on source domains contain a substantial number of channels that exhibit unstable activations across different domains, which are inclined to capture domain-specific features and behave abnormally when exposed to unseen target domains. To address the issue, we propose a DomainDrop framework to continuously enhance the channel robustness to domain shifts, where a domain discriminator is used to identify and drop unstable channels in feature maps of each network layer during forward propagation. We theoretically prove that our framework could effectively lower the generalization bound. Extensive experiments on several benchmarks indicate that our framework achieves state-of-the-art performance compared to other competing methods. Our code is available at https://github.com/lingeringlight/DomainDrop.
翻訳日:2023-08-22 16:30:10 公開日:2023-08-20
# フォーショットコーディネーションに向けて:ハナビゲームにおけるアドホックチームプレイチャレンジの再考

Towards Few-shot Coordination: Revisiting Ad-hoc Teamplay Challenge In the Game of Hanabi ( http://arxiv.org/abs/2308.10284v1 )

ライセンス: Link先を確認
Hadi Nekoei, Xutong Zhao, Janarthanan Rajendran, Miao Liu, Sarath Chandar(参考訳) 近年,ZSC(Zero-Shot Coordination)を用いたMARL(Multi-Adnt Reinforcement Learning)アルゴリズムが注目されている。 ZSCは、独立に訓練されたエージェントとゼロショット(追加の相互作用経験なしで)を調整できるエージェントの能力を指す。 ZSCは協調的なMARLエージェントには不可欠であるが、複雑なタスクや環境変更には不可能かもしれない。 エージェントは他のエージェントとの最小限のインタラクションでパフォーマンスを適応し改善する必要がある。 本研究では,現在最先端のZSCアルゴリズムが,異なる学習手法で訓練されたエージェントとペアを組むと性能が低下し,新たなパートナーに適応するためには数百万のインタラクションサンプルが必要であることを実証的に示す。 そこで我々は,MARL手法の適応性を評価するために,ハナビと呼ばれる人気協調型マルチエージェントゲームに基づくフレームワークを正式に定義した。 特に,事前学習したエージェントの多種多様なセットを作成し,ZSCのパフォーマンス上のパートナーの保持プールと組み合わせることで,エージェントが効率よく適応し,調整性能を向上させる能力を測定するための適応後悔と呼ばれる新しい指標を定義した。 我々のフレームワークを用いていくつかのsomaアルゴリズムを評価した後、実験により、大抵の場合、naive independent q-learning (iql)エージェントはsoma zscアルゴリズムのオフ・ベリーフ学習 (obl) と同じくらい迅速に適応することが判明した。 この発見は興味深い研究課題を提起する: ZSC 性能の高い MARL アルゴリズムを設計し、未知のパートナーに迅速に適応する方法。 最初のステップとして,現在のMARLアルゴリズムの適応性に対する,異なるハイパーパラメータの役割と設計選択について検討した。 実験の結果,訓練データの多様性と最適化プロセスを制御するハイパーパラメータの2つのカテゴリが,ハナビエージェントの適応性に大きな影響を与えることがわかった。

Cooperative Multi-agent Reinforcement Learning (MARL) algorithms with Zero-Shot Coordination (ZSC) have gained significant attention in recent years. ZSC refers to the ability of agents to coordinate zero-shot (without additional interaction experience) with independently trained agents. While ZSC is crucial for cooperative MARL agents, it might not be possible for complex tasks and changing environments. Agents also need to adapt and improve their performance with minimal interaction with other agents. In this work, we show empirically that state-of-the-art ZSC algorithms have poor performance when paired with agents trained with different learning methods, and they require millions of interaction samples to adapt to these new partners. To investigate this issue, we formally defined a framework based on a popular cooperative multi-agent game called Hanabi to evaluate the adaptability of MARL methods. In particular, we created a diverse set of pre-trained agents and defined a new metric called adaptation regret that measures the agent's ability to efficiently adapt and improve its coordination performance when paired with some held-out pool of partners on top of its ZSC performance. After evaluating several SOTA algorithms using our framework, our experiments reveal that naive Independent Q-Learning (IQL) agents in most cases adapt as quickly as the SOTA ZSC algorithm Off-Belief Learning (OBL). This finding raises an interesting research question: How to design MARL algorithms with high ZSC performance and capability of fast adaptation to unseen partners. As a first step, we studied the role of different hyper-parameters and design choices on the adaptability of current MARL algorithms. Our experiments show that two categories of hyper-parameters controlling the training data diversity and optimization process have a significant impact on the adaptability of Hanabi agents.
翻訳日:2023-08-22 16:29:52 公開日:2023-08-20
# データ駆動型PDE探索のための適応的不確かさ誘導モデル選択

Adaptive Uncertainty-Guided Model Selection for Data-Driven PDE Discovery ( http://arxiv.org/abs/2308.10283v1 )

ライセンス: Link先を確認
Pongpisit Thanasutives, Takashi Morita, Masayuki Numao, Ken-ichi Fukui(参考訳) そこで本研究では,不確実性を考慮したベイズ情報量評価法 (ubic) を提案し, 雑音下での時間-時間的観測データを信頼度の低い条件で十分に制御するパリモニア偏微分方程式 (pde) の優先順位付けを行う。 モデル選択にBICを用いることで、望ましくない過剰適合PDEが得られることが知られているので、UBICは、発見されたPDEを複雑さだけでなく、確率論的視点におけるモデルの変動係数から導かれる量的不確実性によって罰する。 また、物理インフォームドニューラルネットワーク学習をシミュレーションベースのアプローチとして導入し、選択したPDEを他のPDEに対して柔軟に検証する。 数値的な結果は、UBICが真のPDEの特定に成功していることを裏付けるものである。 さらに,bicスコアとモデルの複雑さとのトレードオフを改善するために観測データに注意を向ける興味深い効果を示す。 コードはhttps://github.com/Pongpisit-Thanasutives/UBICで入手できる。

We propose a new parameter-adaptive uncertainty-penalized Bayesian information criterion (UBIC) to prioritize the parsimonious partial differential equation (PDE) that sufficiently governs noisy spatial-temporal observed data with few reliable terms. Since the naive use of the BIC for model selection has been known to yield an undesirable overfitted PDE, the UBIC penalizes the found PDE not only by its complexity but also the quantified uncertainty, derived from the model supports' coefficient of variation in a probabilistic view. We also introduce physics-informed neural network learning as a simulation-based approach to further validate the selected PDE flexibly against the other discovered PDE. Numerical results affirm the successful application of the UBIC in identifying the true governing PDE. Additionally, we reveal an interesting effect of denoising the observed data on improving the trade-off between the BIC score and model complexity. Code is available at https://github.com/Pongpisit-Thanasutives/UBIC.
翻訳日:2023-08-22 16:29:23 公開日:2023-08-20
# 都市活動分析による時空間交通予測の強化

Enhancing Spatiotemporal Traffic Prediction through Urban Human Activity Analysis ( http://arxiv.org/abs/2308.10282v1 )

ライセンス: Link先を確認
Sumin Han and Youngjun Park and Minji Lee and Jisun An and Dongman Lee(参考訳) 交通予測は市民の安全と利便性を確保するための重要な要素の1つである。 既存の交通予測モデルは、主に空間的および時間的相関を捉えるディープラーニングアーキテクチャに焦点を当てている。 彼らはしばしば交通の根底にある性質を見落としている。 特に、ほとんどの交通データセットのセンサーネットワークは、車両が利用している実際の道路ネットワークを正確に表現するものではなく、都市活動における交通パターンに関する洞察を提供していない。 これらの制限を克服するために,グラフ畳み込み深層学習アルゴリズムに基づくトラフィック予測手法を提案する。 本研究では,宮内庁旅行調査の人的活動頻度データを活用し,活動と交通パターンの因果関係の推測能力を高める。 従来のグラフ畳み込みリカレントネットワークやグラフ畳み込みトランスフォーマアーキテクチャに最小限の変更を加えながらも,計算オーバーヘッドを過大に発生させることなく,最先端の性能を実現する。

Traffic prediction is one of the key elements to ensure the safety and convenience of citizens. Existing traffic prediction models primarily focus on deep learning architectures to capture spatial and temporal correlation. They often overlook the underlying nature of traffic. Specifically, the sensor networks in most traffic datasets do not accurately represent the actual road network exploited by vehicles, failing to provide insights into the traffic patterns in urban activities. To overcome these limitations, we propose an improved traffic prediction method based on graph convolution deep learning algorithms. We leverage human activity frequency data from National Household Travel Survey to enhance the inference capability of a causal relationship between activity and traffic patterns. Despite making minimal modifications to the conventional graph convolutional recurrent networks and graph convolutional transformer architectures, our approach achieves state-of-the-art performance without introducing excessive computational overhead.
翻訳日:2023-08-22 16:29:04 公開日:2023-08-20
# ADD2023の操作領域配置タスクのためのDKU-DUKEECEシステム

The DKU-DUKEECE System for the Manipulation Region Location Task of ADD 2023 ( http://arxiv.org/abs/2308.10281v1 )

ライセンス: Link先を確認
Zexin Cai, Weiqing Wang, Yikang Wang, Ming Li(参考訳) 本稿では,第2回Audio Deepfake Detection Challenge (ADD 2023)において,操作領域の配置に着目したトラック2の設計について述べる。 提案手法では,複数の検出システムを用いてスプライシング領域を識別し,その信頼性を判定する。 具体的には,境界検出とディープフェイク検出の2つのフレームレベルシステムを訓練し,統合する。 さらに,実データのみをトレーニングした第3のvaeモデルを用いて,音声クリップの真正性判定を行う。 これら3つのシステムを統合することで、ADDチャレンジの最高のパフォーマンスソリューションは、82.23%の文精度とF1スコアの60.66%を達成した。 その結果、ADDスコアは0.6713となり、ADD 2023のトラック2で1位を獲得した。

This paper introduces our system designed for Track 2, which focuses on locating manipulated regions, in the second Audio Deepfake Detection Challenge (ADD 2023). Our approach involves the utilization of multiple detection systems to identify splicing regions and determine their authenticity. Specifically, we train and integrate two frame-level systems: one for boundary detection and the other for deepfake detection. Additionally, we employ a third VAE model trained exclusively on genuine data to determine the authenticity of a given audio clip. Through the fusion of these three systems, our top-performing solution for the ADD challenge achieves an impressive 82.23% sentence accuracy and an F1 score of 60.66%. This results in a final ADD score of 0.6713, securing the first rank in Track 2 of ADD 2023.
翻訳日:2023-08-22 16:28:50 公開日:2023-08-20
# macformer:リアルタイムかつロバストな軌道予測のためのマップエージェント結合トランス

MacFormer: Map-Agent Coupled Transformer for Real-time and Robust Trajectory Prediction ( http://arxiv.org/abs/2308.10280v1 )

ライセンス: Link先を確認
Chen Feng, Hangning Zhou, Huadong Lin, Zhigang Zhang, Ziyao Xu, Chi Zhang, Boyu Zhou, Shaojie Shen(参考訳) 自律走行車分野におけるエージェントの将来行動予測は基本的な課題である。 正確な予測は、エージェントの振る舞いを著しく規則化する周囲の地図の解釈に依存する。 しかし、既存の手法では地図の利用に限界があり、歴史的軌道に強く依存しており、不満足な予測性能と堅牢性をもたらす。 さらに、彼らの重いネットワークアーキテクチャはリアルタイムアプリケーションを妨げる。 これらの問題に対処するために,実時間およびロバストな軌道予測のためのMap-Agent Coupled Transformer (MacFormer)を提案する。 このフレームワークは,結合マップと参照抽出という2つの注意深く設計されたモジュールを通じて,ネットワークにマップ制約を明示的に組み込む。 トポロジとルール制約の学習を促進するために,新しいマルチタスク最適化戦略(MTOS)を提案する。 さらに,より効率的で軽量なネットワークを実現するために,コンテキスト融合によるバイラテラルクエリスキームを考案する。 argoverse 1, argoverse 2, nuscenes実世界のベンチマークにおける我々のアプローチを評価した。 実験により、我々のフレームワークはトラックレット入力に不完全であることを示す。 さらに,提案手法を組み合わせることで,古典モデルがベースラインを上回り,フレームワークの汎用性をさらに検証できることを示す。

Predicting the future behavior of agents is a fundamental task in autonomous vehicle domains. Accurate prediction relies on comprehending the surrounding map, which significantly regularizes agent behaviors. However, existing methods have limitations in exploiting the map and exhibit a strong dependence on historical trajectories, which yield unsatisfactory prediction performance and robustness. Additionally, their heavy network architectures impede real-time applications. To tackle these problems, we propose Map-Agent Coupled Transformer (MacFormer) for real-time and robust trajectory prediction. Our framework explicitly incorporates map constraints into the network via two carefully designed modules named coupled map and reference extractor. A novel multi-task optimization strategy (MTOS) is presented to enhance learning of topology and rule constraints. We also devise bilateral query scheme in context fusion for a more efficient and lightweight network. We evaluated our approach on Argoverse 1, Argoverse 2, and nuScenes real-world benchmarks, where it all achieved state-of-the-art performance with the lowest inference latency and smallest model size. Experiments also demonstrate that our framework is resilient to imperfect tracklet inputs. Furthermore, we show that by combining with our proposed strategies, classical models outperform their baselines, further validating the versatility of our framework.
翻訳日:2023-08-22 16:28:33 公開日:2023-08-20
# GPFL:個人化フェデレーション学習のためのグローバルおよびパーソナライズされた特徴情報同時学習

GPFL: Simultaneously Learning Global and Personalized Feature Information for Personalized Federated Learning ( http://arxiv.org/abs/2308.10279v1 )

ライセンス: Link先を確認
Jianqing Zhang, Yang Hua, Hao Wang, Tao Song, Zhengui Xue, Ruhui Ma, Jian Cao, Haibing Guan(参考訳) Federated Learning (FL)は、プライバシー保護と協調学習機能で人気がある。 近年、パーソナライズされたFL(pFL)は、統計的不均一性に対処し、FLにおけるパーソナライズを実現する能力に注目されている。 しかし, 特徴抽出の観点からは, 既存のpFL手法は, 地域訓練におけるグローバル・パーソナライズされた特徴情報の抽出にのみ焦点をあてており, pFLの協調学習とパーソナライゼーションの目標を達成できない。 そこで我々はGPFLと呼ばれる新しいpFL手法を提案し,各クライアントのグローバルかつパーソナライズされた特徴情報を同時に学習する。 3つの統計的に異質な環境で6つのデータセットについて広範な実験を行い、有効性、スケーラビリティ、公平性、安定性、プライバシに関する10の最先端手法に対するgpflの優位性を示す。 さらに、GPFLはオーバーフィッティングを軽減し、ベースラインの精度を最大8.99%向上させる。

Federated Learning (FL) is popular for its privacy-preserving and collaborative learning capabilities. Recently, personalized FL (pFL) has received attention for its ability to address statistical heterogeneity and achieve personalization in FL. However, from the perspective of feature extraction, most existing pFL methods only focus on extracting global or personalized feature information during local training, which fails to meet the collaborative learning and personalization goals of pFL. To address this, we propose a new pFL method, named GPFL, to simultaneously learn global and personalized feature information on each client. We conduct extensive experiments on six datasets in three statistically heterogeneous settings and show the superiority of GPFL over ten state-of-the-art methods regarding effectiveness, scalability, fairness, stability, and privacy. Besides, GPFL mitigates overfitting and outperforms the baselines by up to 8.99% in accuracy.
翻訳日:2023-08-22 16:28:12 公開日:2023-08-20
# CharacterChat: パーソナライズされたソーシャルサポートを備えた会話型AIへの学習

CharacterChat: Learning towards Conversational AI with Personalized Social Support ( http://arxiv.org/abs/2308.10278v1 )

ライセンス: Link先を確認
Quan Tu, Chuanqi Chen, Jinpeng Li, Yanran Li, Shuo Shang, Dongyan Zhao, Ran Wang, Rui Yan(参考訳) 現代の、ペースの速い、相互接続された世界では、精神的な幸福の重要性は、大きな緊急性の問題へと成長しています。 しかし、感情支援会話(esc)のような伝統的な手法は、様々な個人の個性に効果的に取り組む上での課題に直面している。 これに対し、社会支援対話(S2Conv)フレームワークを導入する。 一連のサポートエージェントと、ペルソナ互換の仮想サポーターと個人をリンクする対人マッチングメカニズムから構成される。 MBTI(Myers-Briggs Type Indicator)に基づくペルソナ分解を利用して,異なるプロファイルを持つ仮想文字からなるMBTI-1024 Bankを作成した。 動作プリセットと動的メモリによるロールプレイングプロンプトの改善により,MBTI-1024バンク内の文字間の対話を含むMBTI-S2Convデータセットの開発が容易になった。 これらの基盤に基づいて,ペルソナと記憶によって駆動される会話モデルを含む包括的なs2convシステムであるcharactchatと,特定のペルソナを持つ個人に対してmbti-1024バンクから最適なサポーターを派遣する対人マッチングプラグインモデルを提案する。 経験的結果は,パーソナライズされたソーシャルサポートの提供における CharacterChat の顕著な効果を示し,対人マッチングによる実質的なメリットを強調した。 ソースコードは \url{https://github.com/morecry/characterchat} で入手できる。

In our modern, fast-paced, and interconnected world, the importance of mental well-being has grown into a matter of great urgency. However, traditional methods such as Emotional Support Conversations (ESC) face challenges in effectively addressing a diverse range of individual personalities. In response, we introduce the Social Support Conversation (S2Conv) framework. It comprises a series of support agents and the interpersonal matching mechanism, linking individuals with persona-compatible virtual supporters. Utilizing persona decomposition based on the MBTI (Myers-Briggs Type Indicator), we have created the MBTI-1024 Bank, a group that of virtual characters with distinct profiles. Through improved role-playing prompts with behavior preset and dynamic memory, we facilitate the development of the MBTI-S2Conv dataset, which contains conversations between the characters in the MBTI-1024 Bank. Building upon these foundations, we present CharacterChat, a comprehensive S2Conv system, which includes a conversational model driven by personas and memories, along with an interpersonal matching plugin model that dispatches the optimal supporters from the MBTI-1024 Bank for individuals with specific personas. Empirical results indicate the remarkable efficacy of CharacterChat in providing personalized social support and highlight the substantial advantages derived from interpersonal matching. The source code is available in \url{https://github.com/morecry/CharacterChat}.
翻訳日:2023-08-22 16:27:53 公開日:2023-08-20
# 最小限のトラフィック予測:リニア層だけで十分

Minimalist Traffic Prediction: Linear Layer Is All You Need ( http://arxiv.org/abs/2308.10276v1 )

ライセンス: Link先を確認
Wenying Duan, Hong Rao, Wei Huang, Xiaoxi He(参考訳) 交通予測は知的交通システム(ITS)の進展とスマートシティのビジョンに不可欠である。 空間-時間グラフニューラルネットワーク(stgnn)は、rnnやトランスフォーマーと統合されたグラフニューラルネットワーク(gnns)を活用することで、この領域で有望性を示しているが、計算複雑性や勾配問題、リソース集約性といった課題がある。 本稿ではこれらの課題に対処し,ノード埋め込みアプローチ,時系列分解,周期学習の3つの主要なソリューションを提案する。 本稿では,効率と性能を最適化したミニマリストモデルアーキテクチャであるstlinearを紹介する。 従来のSTGNNとは異なり、STlinearは完全にローカルに動作し、ノード間のデータ交換を回避し、線形層のみに依存し、計算要求を大幅に削減する。 実世界のデータセットに関する実証的研究により、STLinearの長所、先行するSTGNNの精度の一致または超過は確認できたが、複雑性と計算オーバーヘッドは大幅に低減された(2023年に発表された最先端STGNNベースラインと比較して、エポックあたりのMACの95%以上削減されている)。 要約すると、STLinearは従来のSTGNNの強力な代替手段として現れ、ITSやスマートシティのイニシアチブに深く影響している。

Traffic prediction is essential for the progression of Intelligent Transportation Systems (ITS) and the vision of smart cities. While Spatial-Temporal Graph Neural Networks (STGNNs) have shown promise in this domain by leveraging Graph Neural Networks (GNNs) integrated with either RNNs or Transformers, they present challenges such as computational complexity, gradient issues, and resource-intensiveness. This paper addresses these challenges, advocating for three main solutions: a node-embedding approach, time series decomposition, and periodicity learning. We introduce STLinear, a minimalist model architecture designed for optimized efficiency and performance. Unlike traditional STGNNs, STlinear operates fully locally, avoiding inter-node data exchanges, and relies exclusively on linear layers, drastically cutting computational demands. Our empirical studies on real-world datasets confirm STLinear's prowess, matching or exceeding the accuracy of leading STGNNs, but with significantly reduced complexity and computation overhead (more than 95% reduction in MACs per epoch compared to state-of-the-art STGNN baseline published in 2023). In summary, STLinear emerges as a potent, efficient alternative to conventional STGNNs, with profound implications for the future of ITS and smart city initiatives.
翻訳日:2023-08-22 16:27:28 公開日:2023-08-20
# 3次元物体検出のための表現差認識蒸留

Representation Disparity-aware Distillation for 3D Object Detection ( http://arxiv.org/abs/2308.10308v1 )

ライセンス: Link先を確認
Yanjing Li, Sheng Xu, Mingbao Lin, Jihao Yin, Baochang Zhang, Xianbin Cao(参考訳) 本稿では,コンパクトな3次元検出器のための知識蒸留(KD)の開発に焦点をあてる。 教師モデルと生徒が類似した中間的特徴表現を共有した場合にのみ、既成のKD手法が有効であることを示す。 このことは、主に3次元点雲の内在的な間隔と不規則性に起因する顕著な表現格差が生じる超コンパクトな3次元検出器の構築に効果が低い理由を説明できるかもしれない。 本稿では,表現格差問題に対処する新しい表現格差対応蒸留法を提案する。 これは、情報ボトルネック(IB)という革新的な視点からRDDを構築することで実現され、学生と教師による機能やロジットにおける提案領域ペアの差異を効果的に最小化することができる。 既存のKD法よりもRDDの方が優れていることを示すため,大規模な実験を行った。 例えば、我々のRDDでは、CP-Voxel-SのmAPを57.1%まで増加させています。

In this paper, we focus on developing knowledge distillation (KD) for compact 3D detectors. We observe that off-the-shelf KD methods manifest their efficacy only when the teacher model and student counterpart share similar intermediate feature representations. This might explain why they are less effective in building extreme-compact 3D detectors where significant representation disparity arises due primarily to the intrinsic sparsity and irregularity in 3D point clouds. This paper presents a novel representation disparity-aware distillation (RDD) method to address the representation disparity issue and reduce performance gap between compact students and over-parameterized teachers. This is accomplished by building our RDD from an innovative perspective of information bottleneck (IB), which can effectively minimize the disparity of proposal region pairs from student and teacher in features and logits. Extensive experiments are performed to demonstrate the superiority of our RDD over existing KD methods. For example, our RDD increases mAP of CP-Voxel-S to 57.1% on nuScenes dataset, which even surpasses teacher performance while taking up only 42% FLOPs.
翻訳日:2023-08-22 16:19:57 公開日:2023-08-20
# 適応体重調整によるmoea/dに基づくuav3次元経路計画

UAV 3-D path planning based on MOEA/D with adaptive areal weight adjustment ( http://arxiv.org/abs/2308.10307v1 )

ライセンス: Link先を確認
Yougang Xiao, Hao Yang, Huan Liu, Keyu Wu, Guohua Wu(参考訳) 無人航空機(UAV)は、時間効率とコスト効率のよいタスク実行のためのプラットフォームである。 3Dパスプランニングはタスク決定の重要な課題である。 本稿では,高度分解(moea/d)と適応的アレルウェイト調整(aawa)を併用した多目的進化アルゴリズムを提案する。 AAWAはソリューションの多様性を改善するために設計されている。 より具体的には、AAWAはまず、混み合った個体とその重量ベクトルを現在の人口から取り除き、その後、外的エリート集団から現在の人口に疎い個体を追加する。 新たに加わった個体が対象空間内の人口のスペーサー領域に向かって進化できるように、その重みベクトルはその隣人の目的関数値によって構成される。 MOEA/D-AAWAの有効性は、他の3つの古典的手法と比較して、障害の数が異なる20の合成シナリオと4つの現実的シナリオで検証される。

Unmanned aerial vehicles (UAVs) are desirable platforms for time-efficient and cost-effective task execution. 3-D path planning is a key challenge for task decision-making. This paper proposes an improved multi-objective evolutionary algorithm based on decomposition (MOEA/D) with an adaptive areal weight adjustment (AAWA) strategy to make a tradeoff between the total flight path length and the terrain threat. AAWA is designed to improve the diversity of the solutions. More specifically, AAWA first removes a crowded individual and its weight vector from the current population and then adds a sparse individual from the external elite population to the current population. To enable the newly-added individual to evolve towards the sparser area of the population in the objective space, its weight vector is constructed by the objective function value of its neighbors. The effectiveness of MOEA/D-AAWA is validated in twenty synthetic scenarios with different number of obstacles and four realistic scenarios in comparison with other three classical methods.
翻訳日:2023-08-22 16:19:34 公開日:2023-08-20
# 知識伝達に基づくオーディオビジュアルナビゲーションのための全方向情報収集

Omnidirectional Information Gathering for Knowledge Transfer-based Audio-Visual Navigation ( http://arxiv.org/abs/2308.10306v1 )

ライセンス: Link先を確認
Jinyu Chen, Wenguan Wang, Si Liu, Hongsheng Li, Yi Yang(参考訳) オーディオ視覚ナビゲーション(Audio-visual navigation)は、ロボットエージェントが音の源に向かって、これまで見たことのない3D環境を移動させる作業である。 本稿では,クロスタスクナビゲーション技術を用いた全方向視聴覚ナビレータoranについて述べる。 特にORANは、ウェイフィンディングとオーディオ視覚情報収集という、2つの基本的な能力を強化している。 第一に、ORANは信頼を意識したクロスタスク政策蒸留(CCPD)戦略で訓練されている。 CCPDは、大規模なPointGoalタスクで十分に訓練された基本的なポイントツーポイントのウェイフィニングスキルをORANに転送する。 知識伝達の効率を向上し、ドメインギャップに対処するため、CCPDは教師方針の決定信頼度に適応するようにした。 第2に、ORANは全方位情報収集(OIG)機構、すなわち、意思決定の前に異なる方向から視覚音響観測を行う。 その結果、ORANはより堅牢なナビゲーション動作をもたらす。 CCPDとOIGを合わせたORANは、これまでのライバルよりも大幅に上回っている。 モデルアンサンブルの後、Soundspaces Challenge 2022で1位を獲得し、SPLとSRを53%、相対的に35%改善しました。

Audio-visual navigation is an audio-targeted wayfinding task where a robot agent is entailed to travel a never-before-seen 3D environment towards the sounding source. In this article, we present ORAN, an omnidirectional audio-visual navigator based on cross-task navigation skill transfer. In particular, ORAN sharpens its two basic abilities for a such challenging task, namely wayfinding and audio-visual information gathering. First, ORAN is trained with a confidence-aware cross-task policy distillation (CCPD) strategy. CCPD transfers the fundamental, point-to-point wayfinding skill that is well trained on the large-scale PointGoal task to ORAN, so as to help ORAN to better master audio-visual navigation with far fewer training samples. To improve the efficiency of knowledge transfer and address the domain gap, CCPD is made to be adaptive to the decision confidence of the teacher policy. Second, ORAN is equipped with an omnidirectional information gathering (OIG) mechanism, i.e., gleaning visual-acoustic observations from different directions before decision-making. As a result, ORAN yields more robust navigation behaviour. Taking CCPD and OIG together, ORAN significantly outperforms previous competitors. After the model ensemble, we got 1st in Soundspaces Challenge 2022, improving SPL and SR by 53% and 35% relatively.
翻訳日:2023-08-22 16:19:10 公開日:2023-08-20
# 映像からの3次元人体推定のためのポーズとメッシュの共進化

Co-Evolution of Pose and Mesh for 3D Human Body Estimation from Video ( http://arxiv.org/abs/2308.10305v1 )

ライセンス: Link先を確認
Yingxuan You, Hong Liu, Ti Wang, Wenhao Li, Runwei Ding, Xia Li(参考訳) 単一の画像に基づく3Dメッシュの復元は大幅に進歩したが、ビデオから正確にスムーズに人間の動きを回収することは依然として困難である。 既存のビデオベースの手法では、複雑なポーズと形状パラメータを結合した画像特徴から推定することで、人間のメッシュを復元することが一般的である。 この問題を軽減するため、3Dポーズを仲介として導入し、このタスクを2つの部分に分割する Pose and Mesh Co-Evolution Network (PMCE) を提案する。 1)3次元人物ポーズ推定と映像化 2)メッシュ頂点は推定3次元ポーズと時間的画像特徴から回帰する。 具体的には,中間フレームの3次元ポーズを推定し,入力画像列から時間的特徴を抽出する2ストリームエンコーダを提案する。 さらに,画像誘導適応層正規化(adaln)とポーズとメッシュの相互作用を行い,ポーズとメッシュを人体形状に適合させる共進化デコーダの設計を行った。 大規模な実験により、PMCEは3DPW、Human3.6M、MPI-INF-3DHPの3つのベンチマークデータセットにおいて、フレーム毎の精度と時間的一貫性の両方の観点から、従来の最先端手法よりも優れていることが示された。 私たちのコードはhttps://github.com/kasvii/pmceで利用可能です。

Despite significant progress in single image-based 3D human mesh recovery, accurately and smoothly recovering 3D human motion from a video remains challenging. Existing video-based methods generally recover human mesh by estimating the complex pose and shape parameters from coupled image features, whose high complexity and low representation ability often result in inconsistent pose motion and limited shape patterns. To alleviate this issue, we introduce 3D pose as the intermediary and propose a Pose and Mesh Co-Evolution network (PMCE) that decouples this task into two parts: 1) video-based 3D human pose estimation and 2) mesh vertices regression from the estimated 3D pose and temporal image feature. Specifically, we propose a two-stream encoder that estimates mid-frame 3D pose and extracts a temporal image feature from the input image sequence. In addition, we design a co-evolution decoder that performs pose and mesh interactions with the image-guided Adaptive Layer Normalization (AdaLN) to make pose and mesh fit the human body shape. Extensive experiments demonstrate that the proposed PMCE outperforms previous state-of-the-art methods in terms of both per-frame accuracy and temporal consistency on three benchmark datasets: 3DPW, Human3.6M, and MPI-INF-3DHP. Our code is available at https://github.com/kasvii/PMCE.
翻訳日:2023-08-22 16:18:45 公開日:2023-08-20
# 経済政策の不確実性:テキストマイニング手法に着目した応用と計測方法の検討

Economic Policy Uncertainty: A Review on Applications and Measurement Methods with Focus on Text Mining Methods ( http://arxiv.org/abs/2308.10304v1 )

ライセンス: Link先を確認
Fatemeh Kaveh-Yazdy, Sajjad Zarifzadeh(参考訳) 経済政策不確実性(Economic Policy Uncertainty、EPU)は、経済政策変更時に投資家が実現した不確実性を表す。 EPUは将来の投資、失業率、不況を予測するための経済研究における重要な指標である。 EPU値は、直接的に財務パラメータに基づいて推定したり、テキストマイニング手法を用いて間接的に不確実性を示すことができる。 EPUは経済の中でよく研究されているトピックであるが、測定に使用される手法は検討されている。 本稿では、EPUを短時間で定義し、EPUの測定に使用される手法を概観し、EPUのレベルの変化に影響を及ぼす領域を調査します。 本研究では,EPU測定手法を3つの主要なグループに分割する。 メソッドのそれぞれのグループの例を列挙し、グループの長所と短所について議論する。 EPU測度のうち、テキストマイニングに基づくものは、主に研究されている。 これらの手法は、ニュースや公的に入手可能な金融情報ソースに代表される不確実性を考慮して、実現された不確実性を測定する。 最後に,EPU指数の測定に依存する研究領域を調査し,不確実性の影響について検討することで,様々な研究分野の研究者のさらなる関心を惹きつけることを期待する。 また,テキスト素材を用いたEPU測定に焦点をあてた今後の研究手法の一覧も提案する。

Economic Policy Uncertainty (EPU) represents the uncertainty realized by the investors during economic policy alterations. EPU is a critical indicator in economic studies to predict future investments, the unemployment rate, and recessions. EPU values can be estimated based on financial parameters directly or implied uncertainty indirectly using the text mining methods. Although EPU is a well-studied topic within the economy, the methods utilized to measure it are understudied. In this article, we define the EPU briefly and review the methods used to measure the EPU, and survey the areas influenced by the changes in EPU level. We divide the EPU measurement methods into three major groups with respect to their input data. Examples of each group of methods are enlisted, and the pros and cons of the groups are discussed. Among the EPU measures, text mining-based ones are dominantly studied. These methods measure the realized uncertainty by taking into account the uncertainty represented in the news and publicly available sources of financial information. Finally, we survey the research areas that rely on measuring the EPU index with the hope that studying the impacts of uncertainty would attract further attention of researchers from various research fields. In addition, we propose a list of future research approaches focusing on measuring EPU using textual material.
翻訳日:2023-08-22 16:18:22 公開日:2023-08-20
# fmriに基づく神経障害同定のためのフェデレーショングラフ学習の特異性保持

Preserving Specificity in Federated Graph Learning for fMRI-based Neurological Disorder Identification ( http://arxiv.org/abs/2308.10302v1 )

ライセンス: Link先を確認
Junhao Zhang, Qianqian Wang, Xiaochuan Wang, Lishan Qiao, Mingxia Liu(参考訳) resting-state functional mri (rs-fmri)は、脳疾患に関連する異常な脳結合を調べる非侵襲的アプローチを提供する。 グラフニューラルネットワーク(GNN)は、fMRI表現学習と強力なグラフ表現機能を備えた脳障害解析で人気を博している。 一般的なGNNのトレーニングは、複数のイメージングセンタ/サイトからの大規模なデータセットを必要とすることが多いが、多地点データの集中化は、データプライバシ、セキュリティ、ストレージの負担に関連する固有の課題に直面している。 フェデレートラーニング(FL)は、集中型マルチサイトfMRIデータなしで協調的なモデルトレーニングを可能にする。 残念ながら、fMRI分析のための以前のFLアプローチは、年齢、性別、教育レベルなどの人口統計要因を含むサイト特異性を無視していることが多い。 そこで本研究では,rs-fmri分析と脳障害の自動同定のための特異性対応型フェデレートグラフ学習(sfgl)フレームワークを提案する。 各クライアントでは、モデルが共有ブランチとパーソナライズブランチで構成され、共有ブランチのパラメータがサーバに送信され、パーソナライズブランチのパラメータがローカルに保持されます。 これにより、サイト間の知識共有が容易になり、サイトの特異性を維持できる。 共有ブランチでは、動的fMRI表現を学習するために時空間アテンショングラフ同型ネットワークを用いる。 パーソナライズド・ブランチでは、ベクタ化された人口統計情報(年齢、性別、教育年)と機能的接続ネットワークを統合し、サイト固有の特徴を保存している。 2つの分岐によって生成される表現は分類のために融合される。 被験者1,218人の2つのfMRIデータセットの実験結果から、SFGLは最先端のアプローチよりも優れていたことが示唆された。

Resting-state functional magnetic resonance imaging (rs-fMRI) offers a non-invasive approach to examining abnormal brain connectivity associated with brain disorders. Graph neural network (GNN) gains popularity in fMRI representation learning and brain disorder analysis with powerful graph representation capabilities. Training a general GNN often necessitates a large-scale dataset from multiple imaging centers/sites, but centralizing multi-site data generally faces inherent challenges related to data privacy, security, and storage burden. Federated Learning (FL) enables collaborative model training without centralized multi-site fMRI data. Unfortunately, previous FL approaches for fMRI analysis often ignore site-specificity, including demographic factors such as age, gender, and education level. To this end, we propose a specificity-aware federated graph learning (SFGL) framework for rs-fMRI analysis and automated brain disorder identification, with a server and multiple clients/sites for federated model aggregation and prediction. At each client, our model consists of a shared and a personalized branch, where parameters of the shared branch are sent to the server while those of the personalized branch remain local. This can facilitate knowledge sharing among sites and also helps preserve site specificity. In the shared branch, we employ a spatio-temporal attention graph isomorphism network to learn dynamic fMRI representations. In the personalized branch, we integrate vectorized demographic information (i.e., age, gender, and education years) and functional connectivity networks to preserve site-specific characteristics. Representations generated by the two branches are then fused for classification. Experimental results on two fMRI datasets with a total of 1,218 subjects suggest that SFGL outperforms several state-of-the-art approaches.
翻訳日:2023-08-22 16:17:59 公開日:2023-08-20
# ブロックシャッフルと回転による対向移動性の向上

Boosting Adversarial Transferability by Block Shuffle and Rotation ( http://arxiv.org/abs/2308.10299v1 )

ライセンス: Link先を確認
Kunyu Wang, Xuanran He, Wenxuan Wang and Xiaosen Wang(参考訳) 逆行例 知覚不能な摂動を伴う深層ニューラルネットワークを誤解し、ディープラーニングに重大な脅威をもたらした。 重要な側面は、転送可能性であり、他のモデルをだましてブラックボックス設定で攻撃を可能にする能力を指す。 転送可能性を高めるために様々な方法が提案されているが、ホワイトボックス攻撃に比べて性能は低い。 本研究では,従来の入力変換に基づく攻撃が主流の転送ベース攻撃の1つであり,様々なモデルに対する注意熱マップが異なる結果となり,転送可能性の制限が生じることを観察する。 また、本画像の本質的な関係を断ち切ることで、原画像の注目熱マップを乱すことがある。 そこで本研究では,ブロックシャッフル・アンド・ローテーション(BSR)と呼ばれる新しい入力変換に基づく攻撃を提案する。 特に、bsrは入力画像を複数のブロックに分割し、ランダムにシャッフルしてこれらのブロックを回転させ、勾配計算のための新しい画像群を構築する。 ImageNetデータセットの実証的な評価により、BSRはシングルモデルとアンサンブルモデル設定の下で既存の入力変換ベースの方法よりもはるかに優れた転送性が得られることが示された。 bsrと現在の入力変換法を組み合わせることで、転送性がさらに向上し、最先端の方法を大きく上回る。

Adversarial examples mislead deep neural networks with imperceptible perturbations and have brought significant threats to deep learning. An important aspect is their transferability, which refers to their ability to deceive other models, thus enabling attacks in the black-box setting. Though various methods have been proposed to boost transferability, the performance still falls short compared with white-box attacks. In this work, we observe that existing input transformation based attacks, one of the mainstream transfer-based attacks, result in different attention heatmaps on various models, which might limit the transferability. We also find that breaking the intrinsic relation of the image can disrupt the attention heatmap of the original image. Based on this finding, we propose a novel input transformation based attack called block shuffle and rotation (BSR). Specifically, BSR splits the input image into several blocks, then randomly shuffles and rotates these blocks to construct a set of new images for gradient calculation. Empirical evaluations on the ImageNet dataset demonstrate that BSR could achieve significantly better transferability than the existing input transformation based methods under single-model and ensemble-model settings. Combining BSR with the current input transformation method can further improve the transferability, which significantly outperforms the state-of-the-art methods.
翻訳日:2023-08-22 16:17:30 公開日:2023-08-20
# DomainAdaptor: テスト時適応の新しいアプローチ

DomainAdaptor: A Novel Approach to Test-time Adaptation ( http://arxiv.org/abs/2308.10297v1 )

ライセンス: Link先を確認
Jian Zhang, Lei Qi, Yinghuan Shi, Yang Gao(参考訳) トレーニングとテストサンプルのドメインシフトに対処するため、現在の手法は主にトレーニング中の一般化可能な特徴の学習に重点を置いており、テスト中にも重要な未確認サンプルの特異性を無視している。 本稿では、テスト中に未確認領域にトレーニング済みのCNNモデルを適用することを目的とした、より困難なタスクについて検討する。 テストデータの情報を最大限にマイニングするために、adamixbnモジュールと一般化エントロピー最小化(gem)損失からなるテスト時間適応のためのdomainadaptorと呼ばれる統一手法を提案する。 具体的には、AdaMixBNは、動的混合係数と統計変換演算を介して正規化層のトレーニングとテスト統計を適応的に融合することで、ドメインシフトに対処する。 AdaMixBN の適応性をさらに向上するため,テストデータの情報をよりよく活用するために,エントロピー最小化損失を拡張する GEM ロスを設計する。 広範な実験により、domainadaptorは4つのベンチマークで最先端のメソッドを一貫して上回っています。 さらに,本手法は,少数データ不明領域における既存手法に対して,より顕著な改善をもたらす。 コードはhttps://github.com/koncle/DomainAdaptor.comで入手できる。

To deal with the domain shift between training and test samples, current methods have primarily focused on learning generalizable features during training and ignore the specificity of unseen samples that are also critical during the test. In this paper, we investigate a more challenging task that aims to adapt a trained CNN model to unseen domains during the test. To maximumly mine the information in the test data, we propose a unified method called DomainAdaptor for the test-time adaptation, which consists of an AdaMixBN module and a Generalized Entropy Minimization (GEM) loss. Specifically, AdaMixBN addresses the domain shift by adaptively fusing training and test statistics in the normalization layer via a dynamic mixture coefficient and a statistic transformation operation. To further enhance the adaptation ability of AdaMixBN, we design a GEM loss that extends the Entropy Minimization loss to better exploit the information in the test data. Extensive experiments show that DomainAdaptor consistently outperforms the state-of-the-art methods on four benchmarks. Furthermore, our method brings more remarkable improvement against existing methods on the few-data unseen domain. The code is available at https://github.com/koncle/DomainAdaptor.
翻訳日:2023-08-22 16:17:10 公開日:2023-08-20
# トラッカレス3次元超音波再建術における特権解剖学的およびプロトコル識別

Privileged Anatomical and Protocol Discrimination in Trackerless 3D Ultrasound Reconstruction ( http://arxiv.org/abs/2308.10293v1 )

ライセンス: Link先を確認
Qi Li, Ziyi Shen, Qian Li, Dean C. Barratt, Thomas Dowrick, Matthew J. Clarkson, Tom Vercauteren and Yipeng Hu(参考訳) 追加の外部追跡装置を使わずに3次元自由手超音波(US)再構成を行ったところ、ディープニューラルネットワーク(DNN)が近年進歩している。 本稿では,dnnベースの再構築を可能にする枠組み間相関の2つの要因,解剖学とプロトコルについて検討した。 本稿では、既存のDNNベースの手法を改善する特権情報として、これらの2つの要因(訓練中に容易に利用できる)を表現できることを提案する。 これは新しいマルチタスク方式で実装され、解剖学とプロトコルの区別が補助的なタスクとして使用される。 さらに,この2つの補助タスクの利点を最大化するために,共有とタスク固有のネットワークパラメータの比率を制御する補助タスクの分岐位置を最適化する,微分可能なネットワークアーキテクチャを開発する。 19名のボランティアの前腕38名によるデータセットにおける6種類のスキャンプロトコルを用いた実験結果 1) 解剖学的・プロトコル的差異は,DNNに基づく米国の再建に有効である。 2)異なる対象(解剖学的ばらつき)と予め定義された走査経路(プロトコールばらつき)を判別する方法を学習し,提案アルゴリズムを用いてフレーム予測精度,ボリューム再構成重ね合わせ,累積追跡誤差,最終ドリフトを有意に改善した。

Three-dimensional (3D) freehand ultrasound (US) reconstruction without using any additional external tracking device has seen recent advances with deep neural networks (DNNs). In this paper, we first investigated two identified contributing factors of the learned inter-frame correlation that enable the DNN-based reconstruction: anatomy and protocol. We propose to incorporate the ability to represent these two factors - readily available during training - as the privileged information to improve existing DNN-based methods. This is implemented in a new multi-task method, where the anatomical and protocol discrimination are used as auxiliary tasks. We further develop a differentiable network architecture to optimise the branching location of these auxiliary tasks, which controls the ratio between shared and task-specific network parameters, for maximising the benefits from the two auxiliary tasks. Experimental results, on a dataset with 38 forearms of 19 volunteers acquired with 6 different scanning protocols, show that 1) both anatomical and protocol variances are enabling factors for DNN-based US reconstruction; 2) learning how to discriminate different subjects (anatomical variance) and predefined types of scanning paths (protocol variance) both significantly improve frame prediction accuracy, volume reconstruction overlap, accumulated tracking error and final drift, using the proposed algorithm.
翻訳日:2023-08-22 16:16:51 公開日:2023-08-20
# 障害診断のための解釈可能な深層学習法

An interpretable deep learning method for bearing fault diagnosis ( http://arxiv.org/abs/2308.10292v1 )

ライセンス: Link先を確認
Hao Lu, Austin M. Bray, Chao Hu, Andrew T. Zimmerman, Hongyi Xu(参考訳) 近年, 深層学習(DL)は, 現在の健康の分類や産業機器の将来予測に有効なツールとして人気を集めている。 しかし、ほとんどのdlモデルはブラックボックスコンポーネントを持ち、その基盤となる構造は複雑すぎて、解釈や説明ができない。 これは、安全クリティカルなメンテナンスタスクのためにこれらのモデルをデプロイする場合、非技術者がこれらのモデルが提供する推奨を完全に信頼する必要がある場合に、重大な課題をもたらす。 これらの課題に対処するために,グラデーション重み付きクラスアクティベーションマッピング(grad-cam)を用いた畳み込みニューラルネットワーク(cnn)を用いて,ベアリング障害を分類するための解釈可能なdl法を構築する。 モデルトレーニングの終了後,Grad-CAMを用いて,トレーニングサンプルの特徴を識別し,注釈付き特徴マップを用いたトレーニングサンプルを含む診断知識(あるいは健康ライブラリ)のライブラリを形成する。 モデル評価過程において,提案手法は,特徴量の類似性に応じて,健康図書館から予測ベースサンプルを検索する。 提案手法はモデルアーキテクチャを変更することなく,任意のCNNモデルに容易に適用可能であり,本手法は直感的かつ物理的に意味のある予測ベースサンプルを選択できることを示す。

Deep learning (DL) has gained popularity in recent years as an effective tool for classifying the current health and predicting the future of industrial equipment. However, most DL models have black-box components with an underlying structure that is too complex to be interpreted and explained to human users. This presents significant challenges when deploying these models for safety-critical maintenance tasks, where non-technical personnel often need to have complete trust in the recommendations these models give. To address these challenges, we utilize a convolutional neural network (CNN) with Gradient-weighted Class Activation Mapping (Grad-CAM) activation map visualizations to form an interpretable DL method for classifying bearing faults. After the model training process, we apply Grad-CAM to identify a training sample's feature importance and to form a library of diagnosis knowledge (or health library) containing training samples with annotated feature maps. During the model evaluation process, the proposed approach retrieves prediction basis samples from the health library according to the similarity of the feature importance. The proposed method can be easily applied to any CNN model without modifying the model architecture, and our experimental results show that this method can select prediction basis samples that are intuitively and physically meaningful, improving the model's trustworthiness for human users.
翻訳日:2023-08-22 16:16:31 公開日:2023-08-20
# 時間的文脈を用いた実世界の視覚追跡に向けて

Towards Real-World Visual Tracking with Temporal Contexts ( http://arxiv.org/abs/2308.10330v1 )

ライセンス: Link先を確認
Ziang Cao, Ziyuan Huang, Liang Pan, Shiwei Zhang, Ziwei Liu, Changhong Fu(参考訳) ビジュアルトラッキングはここ数十年で大幅に改善されている。 既存の最先端トラッカー 1) 現実の状況を見渡しながら,理想の条件下でのパフォーマンスを目標とすること。 2) 追跡・検出パラダイムを採用して,豊富な時間的文脈を無視する。 3)時間情報はテンプレートにのみ統合され,連続するフレーム間の時間的コンテキストが十分に活用されない。 これらの問題に対処するために、時間的文脈を効率的に活用できる2段階フレームワーク(TCTrack)を提案する。 それに基づいて,実世界のビジュアルトラッキング,すなわちtctrack++のより強力なバージョンを提案する。 特徴と類似性マップという2つのレベルに分けられる。 具体的には、特徴抽出のために、時間的情報を用いて空間的特徴を高めるために注意に基づく時間的適応的畳み込みを提案する。 類似度マップの精度向上のために,時間的知識を効率的に符号化し,復号化するための適応時間変換器を導入する。 さらに,その性能向上のために,カリキュラム学習戦略を導入する。 また,実環境における性能評価にオンライン評価を適用した。 8つのよく知られたベンチマークでの発掘実験は、TCTrack++の優位性を示している。 実世界のテストは、TCTrack++が現実世界のアプリケーションで簡単に使えることを直接検証する。

Visual tracking has made significant improvements in the past few decades. Most existing state-of-the-art trackers 1) merely aim for performance in ideal conditions while overlooking the real-world conditions; 2) adopt the tracking-by-detection paradigm, neglecting rich temporal contexts; 3) only integrate the temporal information into the template, where temporal contexts among consecutive frames are far from being fully utilized. To handle those problems, we propose a two-level framework (TCTrack) that can exploit temporal contexts efficiently. Based on it, we propose a stronger version for real-world visual tracking, i.e., TCTrack++. It boils down to two levels: features and similarity maps. Specifically, for feature extraction, we propose an attention-based temporally adaptive convolution to enhance the spatial features using temporal information, which is achieved by dynamically calibrating the convolution weights. For similarity map refinement, we introduce an adaptive temporal transformer to encode the temporal knowledge efficiently and decode it for the accurate refinement of the similarity map. To further improve the performance, we additionally introduce a curriculum learning strategy. Also, we adopt online evaluation to measure performance in real-world conditions. Exhaustive experiments on 8 wellknown benchmarks demonstrate the superiority of TCTrack++. Real-world tests directly verify that TCTrack++ can be readily used in real-world applications.
翻訳日:2023-08-22 16:10:39 公開日:2023-08-20
# オンライン連続学習に関する総合的実証評価

A Comprehensive Empirical Evaluation on Online Continual Learning ( http://arxiv.org/abs/2308.10328v1 )

ライセンス: Link先を確認
Albin Soutif--Cormerais, Antonio Carta, Andrea Cossu, Julio Hurtado, Vincenzo Lomonaco, Joost Van de Weijer, Hamed Hemati(参考訳) オンライン連続学習は、時間的シフトのあるデータストリーム上で直接学習し、そのストリームから最小量のデータを格納することで、ライブ学習体験に近づけることを目的としている。 この経験的評価では、オンライン連続学習に取り組む文献から様々な方法を評価する。 より具体的には、画像分類の文脈におけるクラス増分設定に焦点を当て、学習者はデータストリームから新たなクラスを漸進的に学習しなければならない。 これらの手法をSplit-CIFAR100とSplit-TinyImagenetベンチマークで比較し、それらの平均精度、忘れ、安定性、表現の質を測定し、最後にアルゴリズムの様々な側面を評価する。 ほとんどの手法は安定性と不適合の問題に悩まされている。 しかし、学習された表現は同じ計算予算の下での訓練に匹敵する。 結果から明らかな勝者は現れず、適切に調整され実装された場合、基本的なエクスペリエンスの再生は非常に強力なベースラインです。 私たちは、avalancheフレームワークをベースにした、モジュール化された拡張可能なコードベースをhttps://github.com/albinsou/ocl_surveyでリリースします。

Online continual learning aims to get closer to a live learning experience by learning directly on a stream of data with temporally shifting distribution and by storing a minimum amount of data from that stream. In this empirical evaluation, we evaluate various methods from the literature that tackle online continual learning. More specifically, we focus on the class-incremental setting in the context of image classification, where the learner must learn new classes incrementally from a stream of data. We compare these methods on the Split-CIFAR100 and Split-TinyImagenet benchmarks, and measure their average accuracy, forgetting, stability, and quality of the representations, to evaluate various aspects of the algorithm at the end but also during the whole training period. We find that most methods suffer from stability and underfitting issues. However, the learned representations are comparable to i.i.d. training under the same computational budget. No clear winner emerges from the results and basic experience replay, when properly tuned and implemented, is a very strong baseline. We release our modular and extensible codebase at https://github.com/AlbinSou/ocl_survey based on the avalanche framework to reproduce our results and encourage future research.
翻訳日:2023-08-22 16:10:21 公開日:2023-08-20
# 量子機械学習を用いた量子状態トモグラフィ

Quantum State Tomography using Quantum Machine Learning ( http://arxiv.org/abs/2308.10327v1 )

ライセンス: Link先を確認
Nouhaila Innan, Owais Ishtiaq Siddiqui, Shivang Arora, Tamojit Ghosh, Yasemin Poyraz Ko\c{c}ak, Dominic Paragas, Abdullah Al Omar Galib, Muhammad Al-Zafar Khan and Mohamed Bennai(参考訳) 量子状態トモグラフィ(QST)は、未知の量子状態の再構成のための量子情報処理(QIP)の基本技術である。 しかし、従来のQST法は必要な測定数によって制限されており、大規模な量子システムでは実用的ではない。 この課題を克服するために、QSTの効率を高めるために量子機械学習(QML)技術の統合を提案する。 本稿では、古典的手法と量子的手法の両方を包含したQSTの様々なアプローチを包括的に検討し、また、QSTの異なるQMLアプローチを実装し、マルチキュービットネットワークを含む様々なシミュレーションおよび実験量子システム上での有効性を実証する。 我々のQMLベースのQST手法は,従来の手法に比べて測定精度が著しく低い高忠実度(98%)を実現でき,実用的なQIPアプリケーションに有望なツールであることを示す。

Quantum State Tomography (QST) is a fundamental technique in Quantum Information Processing (QIP) for reconstructing unknown quantum states. However, the conventional QST methods are limited by the number of measurements required, which makes them impractical for large-scale quantum systems. To overcome this challenge, we propose the integration of Quantum Machine Learning (QML) techniques to enhance the efficiency of QST. In this paper, we conduct a comprehensive investigation into various approaches for QST, encompassing both classical and quantum methodologies; We also implement different QML approaches for QST and demonstrate their effectiveness on various simulated and experimental quantum systems, including multi-qubit networks. Our results show that our QML-based QST approach can achieve high fidelity (98%) with significantly fewer measurements than conventional methods, making it a promising tool for practical QIP applications.
翻訳日:2023-08-22 16:09:58 公開日:2023-08-20
# SoHO/EITとSDO/AIA 171\AA$~$ Images:ディープラーニングアプローチ

Homogenising SoHO/EIT and SDO/AIA 171\AA$~$ Images: A Deep Learning Approach ( http://arxiv.org/abs/2308.10322v1 )

ライセンス: Link先を確認
Subhamoy Chatterjee, Andr\'es Mu\~noz-Jaramillo, Maher Dayeh, Hazel M. Bain, Kimberly Moreland(参考訳) 太陽の極端紫外線画像は、宇宙天気予報タスクの不可欠な部分になりつつある。 しかし、異なる調査を行うには、機器固有の予測アルゴリズムの開発が必要である。 代替として、複数の調査を組み合わせることで、均質なデータセットを作成することができる。 本研究では、SoHO/EIT と SDO/AIA 171~\AA の時間重なりを利用して、深層学習モデルのアンサンブルを訓練し、EUV 画像の1つの均一な調査を2日周期で作成する。 ディープラーニングの以前の応用は、不確実性の体系的推定を見越しながら、出力の均一性を検証することに焦点を当ててきた。 我々は 'Approximate Bayesian Ensembling' と呼ばれるアプローチを用いて、完全なベイズニューラルネットワークをほんの少しのコストで模倣する不確実性のあるモデルの集合を生成する。 トレーニングセットのサイズが大きくなると、アンサンブルの不確実性が低下する。 さらに,モデルアンサンブルは,トレーニングデータによく表されないテストデータの不確実性を示すことにより,予測に多大な価値をもたらすことを示す。

Extreme Ultraviolet images of the Sun are becoming an integral part of space weather prediction tasks. However, having different surveys requires the development of instrument-specific prediction algorithms. As an alternative, it is possible to combine multiple surveys to create a homogeneous dataset. In this study, we utilize the temporal overlap of SoHO/EIT and SDO/AIA 171~\AA ~surveys to train an ensemble of deep learning models for creating a single homogeneous survey of EUV images for 2 solar cycles. Prior applications of deep learning have focused on validating the homogeneity of the output while overlooking the systematic estimation of uncertainty. We use an approach called `Approximate Bayesian Ensembling' to generate an ensemble of models whose uncertainty mimics that of a fully Bayesian neural network at a fraction of the cost. We find that ensemble uncertainty goes down as the training set size increases. Additionally, we show that the model ensemble adds immense value to the prediction by showing higher uncertainty in test data that are not well represented in the training data.
翻訳日:2023-08-22 16:09:41 公開日:2023-08-20
# 冠動脈セマンティックラベリングにおけるハイパーアソシエーショングラフマッチングと不確かさ定量化

Hyper Association Graph Matching with Uncertainty Quantification for Coronary Artery Semantic Labeling ( http://arxiv.org/abs/2308.10320v1 )

ライセンス: Link先を確認
Chen Zhao, Michele Esposito, Zhihui Xu, Weihua Zhou(参考訳) 冠動脈疾患(CAD)は、世界中で死因の一つとなっている。 侵襲的冠動脈造影(ica)による動脈枝の正確な抽出は狭窄の検出とcad診断に重要である。 しかし, 深層学習モデルでは, 冠状動脈の形態的類似性から, 冠状動脈の意味的セグメンテーションの生成が困難である。 そこで本研究では,冠状動脈意味表示のための不確実性定量化を用いたハイパーアソシエーショングラフマッチングニューラルネットワーク(hagmn-uq)を用いた新しいアプローチを提案する。 グラフマッチング手順は、2つの個別グラフ間の動脈枝をマッピングし、ラベル付きセグメントによって未ラベルの動脈節を分類し、冠状動脈意味的ラベル付けを実現する。 解剖学的構造的損失と不確かさを取り入れることで,高速な推論速度で冠動脈セマンティックラベリングの精度0.9345を達成し,リアルタイム臨床診断のシナリオにおいて効果的かつ効率的な予測が可能となった。

Coronary artery disease (CAD) is one of the primary causes leading to death worldwide. Accurate extraction of individual arterial branches on invasive coronary angiograms (ICA) is important for stenosis detection and CAD diagnosis. However, deep learning-based models face challenges in generating semantic segmentation for coronary arteries due to the morphological similarity among different types of coronary arteries. To address this challenge, we propose an innovative approach using the hyper association graph-matching neural network with uncertainty quantification (HAGMN-UQ) for coronary artery semantic labeling on ICAs. The graph-matching procedure maps the arterial branches between two individual graphs, so that the unlabeled arterial segments are classified by the labeled segments, and the coronary artery semantic labeling is achieved. By incorporating the anatomical structural loss and uncertainty, our model achieved an accuracy of 0.9345 for coronary artery semantic labeling with a fast inference speed, leading to an effective and efficient prediction in real-time clinical decision-making scenarios.
翻訳日:2023-08-22 16:09:21 公開日:2023-08-20
# 持続可能な開発に向けて : 総合的環境健康モニタリングのための新しい統合機械学習モデル

Towards Sustainable Development: A Novel Integrated Machine Learning Model for Holistic Environmental Health Monitoring ( http://arxiv.org/abs/2308.10317v1 )

ライセンス: Link先を確認
Anirudh Mazumder, Sarthak Engala, Aditya Nallaparaju(参考訳) 都市化は経済成長を可能にするが、劣化によって環境を害する。 従来の環境問題検出方法は非効率であることが証明されている。 機械学習は、主要な予測的特徴を特定することによって環境劣化を追跡するための有望なツールとして登場した。 近年,環境状態の指標として汚染物質レベルと粒子状物質を用いた予測モデルの開発が課題となっている。 より悪い条件の領域をリンクするパターンを特定するために機械学習が使用された。 本研究の目的は、介入点の特定、計画と保全の取り組みの改善、そして究極的には持続可能な開発への貢献を支援することである。

Urbanization enables economic growth but also harms the environment through degradation. Traditional methods of detecting environmental issues have proven inefficient. Machine learning has emerged as a promising tool for tracking environmental deterioration by identifying key predictive features. Recent research focused on developing a predictive model using pollutant levels and particulate matter as indicators of environmental state in order to outline challenges. Machine learning was employed to identify patterns linking areas with worse conditions. This research aims to assist governments in identifying intervention points, improving planning and conservation efforts, and ultimately contributing to sustainable development.
翻訳日:2023-08-22 16:09:00 公開日:2023-08-20
# テスト時間周波数領域プロンプトによるマスキングオートエンコーダの対向ロバスト性向上

Improving Adversarial Robustness of Masked Autoencoders via Test-time Frequency-domain Prompting ( http://arxiv.org/abs/2308.10315v1 )

ライセンス: Link先を確認
Qidong Huang, Xiaoyi Dong, Dongdong Chen, Yinpeng Chen, Lu Yuan, Gang Hua, Weiming Zhang, Nenghai Yu(参考訳) 本稿では,BERT事前訓練(\eg, BEiT, MAE)を備えた視覚変換器の対角的堅牢性について検討する。 意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。 この観察により、これらのBERT事前学習方法の基本的な相違と、これらの相違が敵の摂動に対する堅牢性に与える影響を再考する。 実験結果から,bertプリトレーニングの敵対的ロバスト性は,画像の中・高頻度成分に集中するように誘導されるため,マスキング画像パッチの生画素を予測することで,意味的文脈を予測するよりも,モデルの敵対的ロバスト性が低下することが明らかとなった。 解析結果から,mae の敵対的ロバスト性を高めるための簡便かつ効果的な方法を提案する。 基本的な考え方は、データセット抽出されたドメイン知識を用いて画像の中・高頻度を占有し、対向摂動の最適化空間を狭めることである。 具体的には、プリトレーニングデータの分布をグループ化し、周波数領域でクラスタ固有の視覚的プロンプトのセットを最適化する。 これらのプロンプトは、テスト期間中にプロトタイプベースのプロンプト選択によって入力画像に組み込まれる。 本手法は,ImageNet-1k分類におけるクリーンな性能を維持しつつ,MAEの対向ロバスト性を向上することを示す。 私たちのコードは以下の通りである。 \href{https://github.com/shikiw/RobustMAE}{https://github.com/shikiw/RobustMAE}。

In this paper, we investigate the adversarial robustness of vision transformers that are equipped with BERT pretraining (\eg, BEiT, MAE). A surprising observation is that MAE has significantly worse adversarial robustness than other BERT pretraining methods. This observation drives us to rethink the basic differences between these BERT pretraining methods and how these differences affect the robustness against adversarial perturbations. Our empirical analysis reveals that the adversarial robustness of BERT pretraining is highly related to the reconstruction target, \ie, predicting the raw pixels of masked image patches will degrade more adversarial robustness of the model than predicting the semantic context, since it guides the model to concentrate more on medium-/high-frequency components of images. Based on our analysis, we provide a simple yet effective way to boost the adversarial robustness of MAE. The basic idea is using the dataset-extracted domain knowledge to occupy the medium-/high-frequency of images, thus narrowing the optimization space of adversarial perturbations. Specifically, we group the distribution of pretraining data and optimize a set of cluster-specific visual prompts on frequency domain. These prompts are incorporated with input images through prototype-based prompt selection during test period. Extensive evaluation shows that our method clearly boost MAE's adversarial robustness while maintaining its clean performance on ImageNet-1k classification. Our code is available at: \href{https://github.com/shikiw/RobustMAE}{https://github.com/shikiw/RobustMAE}.
翻訳日:2023-08-22 16:08:52 公開日:2023-08-20
# 高性能研究ネットワークにおけるデータ転送性能の解明

Demystifying the Performance of Data Transfers in High-Performance Research Networks ( http://arxiv.org/abs/2308.10312v1 )

ライセンス: Link先を確認
Ehsan Saeedizade, Bing Zhang, Engin Arslan(参考訳) 高速な研究ネットワークは、データ集約型分散ワークフローの継続的なニーズを満たすために構築されている。 しかし、これらのネットワークにおけるデータ転送は、I/Oやネットワーク干渉、サーバの設定ミス、ネットワーク異常など、いくつかの理由で、約束される転送速度に達しないことが多い。 パフォーマンス上の問題の根本原因を理解することは、それらの緩和と高価なネットワークインフラストラクチャの利用拡大には不可欠であるが、現時点ではこれらのネットワークにおけるデータ転送を監視するメカニズムがない。 本稿では,ファイル転送における鍵となるパフォーマンス指標を収集,保存し,転送性能に光を当てるためのスケーラブルなエンドツーエンド監視フレームワークを提案する。 評価の結果,提案フレームワークは,1秒の精度で性能統計を収集しながら,最大400件の転送と40,000件以上の転送を監視可能であることがわかった。 また,収集したパフォーマンスメトリクスを自動的に処理し,87~98%のfスコアで性能異常の根本原因を同定するヒューリスティックな手法を提案する。

High-speed research networks are built to meet the ever-increasing needs of data-intensive distributed workflows. However, data transfers in these networks often fail to attain the promised transfer rates for several reasons, including I/O and network interference, server misconfigurations, and network anomalies. Although understanding the root causes of performance issues is critical to mitigating them and increasing the utilization of expensive network infrastructures, there is currently no available mechanism to monitor data transfers in these networks. In this paper, we present a scalable, end-to-end monitoring framework to gather and store key performance metrics for file transfers to shed light on the performance of transfers. The evaluation results show that the proposed framework can monitor up to 400 transfers per host and more than 40, 000 transfers in total while collecting performance statistics at one-second precision. We also introduce a heuristic method to automatically process the gathered performance metrics and identify the root causes of performance anomalies with an F-score of 87 - 98%.
翻訳日:2023-08-22 16:08:24 公開日:2023-08-20
# darshanログを用いたhpcクラスタのi/oバースト予測

I/O Burst Prediction for HPC Clusters using Darshan Logs ( http://arxiv.org/abs/2308.10311v1 )

ライセンス: Link先を確認
Ehsan Saeedizade, Roya Taheri, Engin Arslan(参考訳) 大規模HPCクラスタにおけるクラスタワイドI/Oパターンの理解は、I/O干渉の発生と影響を最小限にするために不可欠である。 しかし、この分野の以前の作業のほとんどは、タスクとノードレベルのi/oバーストイベントの監視と予測に重点を置いていた。 本稿では,3台のスーパーコンピュータからのDarshanレポートを分析し,システムレベルの読み書き速度を5分間隔で抽出する。 3つのクラスタすべてにおいて,読み書きi/oレートの有意な変動(100倍以上)を観測した。 次に、システムレベルのi/oバーストの発生を5分から120分前に見積もる機械学習モデルをトレーニングする。 その結果,5分前に90%以上の精度(F-1スコア),2時間前に87%以上の精度でI/Oバーストを予測できることがわかった。 また,I/Oバーストの程度を推定すると,MLモデルの精度が70%以上になることを示した。 I/Oバーストの高精度な予測は、遅延耐性のあるI/O操作(例えば、チェックポインティング)の延期、無意味なアプリケーション(例えば、ファイルシステムスクラバ)の一時停止、I/O対応ジョブスケジューリング手法の考案など、複数の方法で利用できると我々は考えている。 この主張を検証するために,アプリケーション開始時刻を延期してI/Oバーストを回避するバースト対応ジョブスケジューラをシミュレーションした。 バースト対応のジョブスケジューリングは、アプリケーションランタイムの最大5倍の削減につながる可能性がある。

Understanding cluster-wide I/O patterns of large-scale HPC clusters is essential to minimize the occurrence and impact of I/O interference. Yet, most previous work in this area focused on monitoring and predicting task and node-level I/O burst events. This paper analyzes Darshan reports from three supercomputers to extract system-level read and write I/O rates in five minutes intervals. We observe significant (over 100x) fluctuations in read and write I/O rates in all three clusters. We then train machine learning models to estimate the occurrence of system-level I/O bursts 5 - 120 minutes ahead. Evaluation results show that we can predict I/O bursts with more than 90% accuracy (F-1 score) five minutes ahead and more than 87% accuracy two hours ahead. We also show that the ML models attain more than 70% accuracy when estimating the degree of the I/O burst. We believe that high-accuracy predictions of I/O bursts can be used in multiple ways, such as postponing delay-tolerant I/O operations (e.g., checkpointing), pausing nonessential applications (e.g., file system scrubbers), and devising I/O-aware job scheduling methods. To validate this claim, we simulated a burst-aware job scheduler that can postpone the start time of applications to avoid I/O bursts. We show that the burst-aware job scheduling can lead to an up to 5x decrease in application runtime.
翻訳日:2023-08-22 16:08:07 公開日:2023-08-20
# DVGaze:デュアルビューゲーズ推定

DVGaze: Dual-View Gaze Estimation ( http://arxiv.org/abs/2308.10310v1 )

ライセンス: Link先を確認
Yihua Cheng and Feng Lu(参考訳) 視線推定法は1台のカメラで顔の外観から視線を推定する。 しかし、単一のカメラの視野が限られているため、捕獲された顔の外観は完全な顔情報を提供できず、視線推定問題を複雑にする。 近年、カメラ機器が急速に更新されている。 デュアルカメラはユーザーには手頃な価格であり、多くのデバイスに統合されている。 このことから,両視点視線推定による視線推定性能の向上が期待できる。 本稿では,デュアルビュー視線推定ネットワーク(DV-Gaze)を提案する。 DV-Gazeは2つの画像から2視点視線方向を推定する。 まず,DV-Gazeにおけるデュアルビュー対話型畳み込み(DIC)ブロックを提案する。 DICブロックは、複数の特徴尺度で畳み込み中に二重ビュー情報を交換する。 双対ビュー機能をエピポーラ線に沿って融合させ、元の特徴と融合した特徴を補う。 さらに,デュアルビュー機能から視線を推定するデュアルビュートランスを提案する。 カメラポーズは、トランスフォーマーの位置情報を示すためにエンコードされる。 また、両視点視線方向の幾何学的関係を考察し、DV-Gazeに対する両視点視線整合性損失を提案する。 DV-Gazeは、ETH-XGazeとEVEデータセット上で最先端のパフォーマンスを達成する。 また,両視点視線推定の可能性も実証した。 私たちはhttps://github.com/yihuacheng/dvgazeでコードをリリースします。

Gaze estimation methods estimate gaze from facial appearance with a single camera. However, due to the limited view of a single camera, the captured facial appearance cannot provide complete facial information and thus complicate the gaze estimation problem. Recently, camera devices are rapidly updated. Dual cameras are affordable for users and have been integrated in many devices. This development suggests that we can further improve gaze estimation performance with dual-view gaze estimation. In this paper, we propose a dual-view gaze estimation network (DV-Gaze). DV-Gaze estimates dual-view gaze directions from a pair of images. We first propose a dual-view interactive convolution (DIC) block in DV-Gaze. DIC blocks exchange dual-view information during convolution in multiple feature scales. It fuses dual-view features along epipolar lines and compensates for the original feature with the fused feature. We further propose a dual-view transformer to estimate gaze from dual-view features. Camera poses are encoded to indicate the position information in the transformer. We also consider the geometric relation between dual-view gaze directions and propose a dual-view gaze consistency loss for DV-Gaze. DV-Gaze achieves state-of-the-art performance on ETH-XGaze and EVE datasets. Our experiments also prove the potential of dual-view gaze estimation. We release codes in https://github.com/yihuacheng/DVGaze.
翻訳日:2023-08-22 16:07:38 公開日:2023-08-20
# 車載カメラガイドmmWaveビーム:アプローチと実世界V2V実証

Vehicle Cameras Guide mmWave Beams: Approach and Real-World V2V Demonstration ( http://arxiv.org/abs/2308.10362v1 )

ライセンス: Link先を確認
Tawfik Osman, Gouranga Charan, and Ahmed Alkhateeb(参考訳) ミリ波(mmWave)とテラヘルツ(THz)の細いビームの正確な整列は、5Gの信頼性と高いデータレートを満足し、無線通信システムを超えたものに不可欠である。 しかし、特に送信機と受信機の両方が常に移動しているv2v通信シナリオでは、この目標を達成することは困難である。 近年,ワイヤレス環境に関する正確な情報を提供する能力によって,視覚センサなどの付加的な感覚モダリティが注目されている。 そこで本稿では,車両に装着した360度カメラの画像を用いて,V2Vシナリオの深層学習ソリューションを開発し,将来のビームを予測する。 提案手法は、既存の360度カメラとmmWaveビームトレーニングデータからなる実世界のマルチモーダルmmWave V2V通信データセットを用いて評価する。 提案したビジョン支援ソリューションは,ビームトレーニングのオーバーヘッドを大幅に低減しつつ,トップ5ビーム予測精度を$85\%で達成する。 これは、高モバイルV2V通信を可能にするビジョンを活用する可能性を強調している。

Accurately aligning millimeter-wave (mmWave) and terahertz (THz) narrow beams is essential to satisfy reliability and high data rates of 5G and beyond wireless communication systems. However, achieving this objective is difficult, especially in vehicle-to-vehicle (V2V) communication scenarios, where both transmitter and receiver are constantly mobile. Recently, additional sensing modalities, such as visual sensors, have attracted significant interest due to their capability to provide accurate information about the wireless environment. To that end, in this paper, we develop a deep learning solution for V2V scenarios to predict future beams using images from a 360 camera attached to the vehicle. The developed solution is evaluated on a real-world multi-modal mmWave V2V communication dataset comprising co-existing 360 camera and mmWave beam training data. The proposed vision-aided solution achieves $\approx 85\%$ top-5 beam prediction accuracy while significantly reducing the beam training overhead. This highlights the potential of utilizing vision for enabling highly-mobile V2V communications.
翻訳日:2023-08-22 16:00:59 公開日:2023-08-20
# テルル中の磁気キラル電流

Electrical Magnetochiral current in Tellurium ( http://arxiv.org/abs/2308.10358v1 )

ライセンス: Link先を確認
L. E. Golub, E. L. Ivchenko, and B. Spivak(参考訳) p$型テルル結晶における電気的磁気光学異方性(emcha)の効果を理論的に研究した。 波動ベクトル ${\mathbf k}$ と磁場 ${\mathbf b}$ の両方において線形であるホールハミルトニアンにおける $k_i b_j$ という用語は、emcha につながりず、$k_i^3 b_j$ のような高次項を含める必要がある。 この効果の2つの微視的なメカニズムが考えられる。 第一に、不純物や不完全物による穴の弾性散乱のみが考慮される。 第2のメカニズムでは、弾性散乱の過程に加えて、ホールガスの加熱とそのエネルギー緩和が考慮される。 磁気誘起整流への貢献は、どちらも等しく等しいことが示されている。 この計算は、時間緩和近似と小さなカイラルバンドパラメータ$\beta$の極限という2つの独立したアプローチを用いて行われる。 eMChAと磁気誘起光ガルバニック効果の間に橋が投げられる。

We have studied theoretically the effect of Electrical Magneto-Chiral Anisotropy (eMChA) in $p$-type tellurium crystals. It is shown that the terms $k_i B_j$ in the hole Hamiltonian, linear both in the wave vector ${\mathbf k}$ and the magnetic field ${\mathbf B}$, do not lead to the eMChA and one needs to include the higher-order terms like $k_i^3 B_j$. Two microscopic mechanisms of the effect are considered. In the first one only elastic scattering of holes by impurities or imperfections are taken into consideration only. In the second mechanism, besides the elastic scattering processes the hole gas heating and its energy relaxation are taken into account. It is demonstrated that he both contributions to the magneto-induced rectification are comparable in magnitude. The calculation is performed by using two independent approaches, namely, in the time relaxation approximation and in the limit of of small chiral band parameter $\beta$. A bridge is thrown between the eMChA and magneto-induced photogalvanic effects.
翻訳日:2023-08-22 16:00:42 公開日:2023-08-20
# wall-eのイマジネーション : 高度なaiシステムのためのイマジネーションに触発されたモジュールによるリコンストラクション体験

Imaginations of WALL-E : Reconstructing Experiences with an Imagination-Inspired Module for Advanced AI Systems ( http://arxiv.org/abs/2308.10354v1 )

ライセンス: Link先を確認
Zeinab Sadat Taghavi, Soroush Gooran, Seyed Arshan Dalili, Hamidreza Amirzadeh, Mohammad Jalal Nematbakhsh, Hossein Sameti(参考訳) In this paper, we introduce a novel Artificial Intelligence (AI) system inspired by the philosophical and psychoanalytical concept of imagination as a ``Re-construction of Experiences". Our AI system is equipped with an imagination-inspired module that bridges the gap between textual inputs and other modalities, enriching the derived information based on previously learned experiences. A unique feature of our system is its ability to formulate independent perceptions of inputs. This leads to unique interpretations of a concept that may differ from human interpretations but are equally valid, a phenomenon we term as ``Interpretable Misunderstanding". 大規模モデル,特にMLLM(Multimodal Large Language Model)を用いて,本システムでは,主に単調なまま,モダリティ間で意味のある情報を抽出することができる。 我々は、ゼロショット手法を用いて、感情認識や質問応答など、複数のタスクにまたがる他の大きな言語モデルに対して、システムを評価した。 重要な点として,本システムはmeld,iemocap,coqaのデータセットで最高の大規模言語モデル(llm)を上回っており,重み付きf1(wf1)スコアが46.74%,25.23%,全体f1(of1)スコアが17%であった。 目標は、言語処理の統計的見解を超えて、哲学や精神分析のような人間の概念に結びつけることである。 この研究は、イマジネーションにインスパイアされたAIシステムの開発における重要な進歩であり、AIがモジュール間の深い解釈可能な情報を生成する新たな可能性を開き、それによって人間とAIの相互作用が向上する。

In this paper, we introduce a novel Artificial Intelligence (AI) system inspired by the philosophical and psychoanalytical concept of imagination as a ``Re-construction of Experiences". Our AI system is equipped with an imagination-inspired module that bridges the gap between textual inputs and other modalities, enriching the derived information based on previously learned experiences. A unique feature of our system is its ability to formulate independent perceptions of inputs. This leads to unique interpretations of a concept that may differ from human interpretations but are equally valid, a phenomenon we term as ``Interpretable Misunderstanding". We employ large-scale models, specifically a Multimodal Large Language Model (MLLM), enabling our proposed system to extract meaningful information across modalities while primarily remaining unimodal. We evaluated our system against other large language models across multiple tasks, including emotion recognition and question-answering, using a zero-shot methodology to ensure an unbiased scenario that may happen by fine-tuning. Significantly, our system outperformed the best Large Language Models (LLM) on the MELD, IEMOCAP, and CoQA datasets, achieving Weighted F1 (WF1) scores of 46.74%, 25.23%, and Overall F1 (OF1) score of 17%, respectively, compared to 22.89%, 12.28%, and 7% from the well-performing LLM. The goal is to go beyond the statistical view of language processing and tie it to human concepts such as philosophy and psychoanalysis. This work represents a significant advancement in the development of imagination-inspired AI systems, opening new possibilities for AI to generate deep and interpretable information across modalities, thereby enhancing human-AI interaction.
翻訳日:2023-08-22 16:00:24 公開日:2023-08-20
# 大きな言語モデルは脆弱なソフトウェアを見つけて修正できるのか?

Can Large Language Models Find And Fix Vulnerable Software? ( http://arxiv.org/abs/2308.10345v1 )

ライセンス: Link先を確認
David Noever(参考訳) 本研究では,Large Language Models(LLMs),特にOpenAIのGPT-4によるソフトウェア脆弱性の検出能力を評価し,SnykやFortifyといった従来の静的コードアナライザと比較した。 私たちの分析では、NASAや国防総省など、数多くのリポジトリをカバーしています。 GPT-4は、その脆弱性の約4倍の脆弱性を同定した。 さらに、脆弱性ごとに実行可能な修正を提供し、偽陽性率を低く示す。 テストでは8つのプログラミング言語にまたがる129のコードサンプルをカバーし、PHPとJavaScriptの最大の脆弱性を明らかにしました。 GPT-4のコード修正により脆弱性の90%が減少し、コード行数はわずか11%増加した。 重要な洞察は、llmsの自己監査能力であり、特定された脆弱性に対する修正の提案と正確さの欠如であった。 今後の研究は、システムレベルの脆弱性を調査し、複数の静的コードアナライザを統合することで、LLMのポテンシャルを概観する。

In this study, we evaluated the capability of Large Language Models (LLMs), particularly OpenAI's GPT-4, in detecting software vulnerabilities, comparing their performance against traditional static code analyzers like Snyk and Fortify. Our analysis covered numerous repositories, including those from NASA and the Department of Defense. GPT-4 identified approximately four times the vulnerabilities than its counterparts. Furthermore, it provided viable fixes for each vulnerability, demonstrating a low rate of false positives. Our tests encompassed 129 code samples across eight programming languages, revealing the highest vulnerabilities in PHP and JavaScript. GPT-4's code corrections led to a 90% reduction in vulnerabilities, requiring only an 11% increase in code lines. A critical insight was LLMs' ability to self-audit, suggesting fixes for their identified vulnerabilities and underscoring their precision. Future research should explore system-level vulnerabilities and integrate multiple static code analyzers for a holistic perspective on LLMs' potential.
翻訳日:2023-08-22 15:59:50 公開日:2023-08-20
# コヒーレンス下における反復条件選択概念の確率論的解析

A probabilistic analysis of selected notions of iterated conditioning under coherence ( http://arxiv.org/abs/2308.10338v1 )

ライセンス: Link先を確認
Lydia Castronovo and Giuseppe Sanfilippo(参考訳) 基本条件は複素確率定理のようないくつかの望ましい論理的および確率的性質を満たすことはよく知られているが、複素条件や反復条件に切り替えると、それらの妥当性の検証は困難になる。 ド・フィネッティの条件付き概念は3値オブジェクトであり、賭けの枠組みにおける条件付き乱数量であると考えている。 我々は、選択三値論理における条件式間の結合と連結の概念を思い出す。 まず、特定の3値論理の枠組みにおいて、cooper-calabrese、de finetti、farrellによって導入された反復条件付けの概念をそれぞれ解析する。 複素確率定理やその他の基本性質がこれらの対象によって保存されていないことを示し、また確率伝搬則を計算している。 そして、各三価論理に対して、複素プリビジョン定理といくつかの望ましい性質を満たす適切なランダム量として反復条件を導入する。 また,ベイズ規則の反復条件に対する2つの一般化版の有効性を確認する。 一般化された Modus Ponens の p-validity と反復条件の中心となる2つの前提について検討する。 最後に, 条件付き乱数の設定において, Gilio と Sanfilippo の最近の論文で主に開発された反復条件によってのみ, 基本特性が満たされることを観察する。

It is well know that basic conditionals satisfy some desirable basic logical and probabilistic properties, such as the compound probability theorem, but checking the validity of these becomes trickier when we switch to compound and iterated conditionals. We consider de Finetti's notion of conditional as a three-valued object and as a conditional random quantity in the betting framework. We recall the notions of conjunction and disjunction among conditionals in selected trivalent logics. First, in the framework of specific three-valued logics we analyze the notions of iterated conditioning introduced by Cooper-Calabrese, de Finetti and Farrell, respectively. We show that the compound probability theorem and other basic properties are not preserved by these objects, by also computing some probability propagation rules. Then, for each trivalent logic we introduce an iterated conditional as a suitable random quantity which satisfies the compound prevision theorem and some of the desirable properties. We also check the validity of two generalized versions of Bayes' Rule for iterated conditionals. We study the p-validity of generalized versions of Modus Ponens and two-premise centering for iterated conditionals. Finally, we observe that all the basic properties are satisfied only by the iterated conditional mainly developed in recent papers by Gilio and Sanfilippo in the setting of conditional random quantities.
翻訳日:2023-08-22 15:59:22 公開日:2023-08-20
# Strata-NeRF : 成層圏のニューラルラジアンス場

Strata-NeRF : Neural Radiance Fields for Stratified Scenes ( http://arxiv.org/abs/2308.10337v1 )

ライセンス: Link先を確認
Ankit Dhiman, Srinath R, Harsh Rangwani, Rishubh Parihar, Lokesh R Boregowda, Srinath Sridhar and R Venkatesh Babu(参考訳) ニューラル・ラジアンス・フィールド(NeRF)アプローチは、シーンの基礎となる3次元表現を学習し、忠実度の高いフォトリアリスティック・ノベルビューを生成する。 しかし、提案されたほとんどの設定は、1つのオブジェクトまたは1つのシーンの1つのレベルをモデル化することに集中する。 しかし、現実の世界では、複数のレベルでシーンをキャプチャし、レイヤー化されたキャプチャをもたらす可能性がある。 例えば、観光客は通常、内部構造をとらえる前に記念碑の外部構造を捕獲する。 このようなシーンを3dでモデリングし、レベルをシームレスに切り替えることで、没入体験を劇的に改善することができる。 しかし、既存の技法の多くはそのような場面のモデル化に苦慮している。 複数レベルのシーンを暗黙的にキャプチャする単一神経放射場であるStrata-NeRFを提案する。 Strata-NeRFは、Vector Quantized (VQ)潜在表現にNeRFを条件付け、シーン構造を突然変化させる。 多様なシーンからなる多層合成データセットにおける本手法の有効性を評価し,実世界のrealestate10kデータセットの一般化をさらに検証した。 Strata-NeRFは階層化されたシーンを効果的に捉え、アーティファクトを最小化し、既存のアプローチと比較して高忠実なビューを合成する。

Neural Radiance Field (NeRF) approaches learn the underlying 3D representation of a scene and generate photo-realistic novel views with high fidelity. However, most proposed settings concentrate on modelling a single object or a single level of a scene. However, in the real world, we may capture a scene at multiple levels, resulting in a layered capture. For example, tourists usually capture a monument's exterior structure before capturing the inner structure. Modelling such scenes in 3D with seamless switching between levels can drastically improve immersive experiences. However, most existing techniques struggle in modelling such scenes. We propose Strata-NeRF, a single neural radiance field that implicitly captures a scene with multiple levels. Strata-NeRF achieves this by conditioning the NeRFs on Vector Quantized (VQ) latent representations which allow sudden changes in scene structure. We evaluate the effectiveness of our approach in multi-layered synthetic dataset comprising diverse scenes and then further validate its generalization on the real-world RealEstate10K dataset. We find that Strata-NeRF effectively captures stratified scenes, minimizes artifacts, and synthesizes high-fidelity views compared to existing approaches.
翻訳日:2023-08-22 15:58:08 公開日:2023-08-20
# 大規模言語モデルコード生成のロバスト性と信頼性に関する研究

A Study on Robustness and Reliability of Large Language Model Code Generation ( http://arxiv.org/abs/2308.10335v1 )

ライセンス: Link先を確認
Li Zhong, Zilong Wang(参考訳) 近年,大規模言語モデル (LLM) は,自然言語の理解とプログラミングコード生成に極めて優れた能力を示している。 コーディング問題に遭遇する際、LLMに相談するのは、ソフトウェアエンジニアがよく行うプラクティスである。 構文エラーを回避し、コードを意図した意味と整合させる努力がなされているが、LLMからのコード生成の信頼性と堅牢性はまだ十分に研究されていない。 The executable code is not equivalent to the reliable and robust code, especially in the context of real-world software development.The misuse of APIs in the generated code could lead to severe problem, such as resource leaks, program crashes, etc.To make things worse, the users of LLM code generation services are actually the developers that are most vulnerable to these code that seems right -- They are always novice developers that are not familiar with the APIs that LLMs generate code for them. したがって、LLMが生成したコードの誤用をほとんど知ることができず、現実世界のソフトウェアに適用される誤ったコードをさらに容易にする。 既存のコード評価ベンチマークとデータセットは、コーディング面接のプログラミング質問のような小さなタスクの作成にフォーカスしているが、これは開発者がllmに実際のコーディング支援を求める問題から逸脱している。 そこで本研究では,LLMが生成するコードの信頼性とロバスト性を評価するためのデータセットRobostAPIを提案する。 StackOverflowから24の代表的なJava APIで1208のコーディング質問を収集します。 これらのAPIの一般的な誤用パターンを要約し,現在普及しているLCMを評価した。 GPT-4では,生成コードの62%にAPI誤用があり,実際のソフトウェアにコードが導入されると予期せぬ結果が生じる。

Recently, the large language models (LLMs) have shown extraordinary ability in understanding natural language and generating programming code. It has been a common practice of software engineers to consult LLMs when encountering coding questions. Although efforts have been made to avoid syntax errors and align the code with the intended semantics, the reliability and robustness of the code generationfrom LLMs have not yet been thoroughly studied. The executable code is not equivalent to the reliable and robust code, especially in the context of real-world software development.The misuse of APIs in the generated code could lead to severe problem, such as resource leaks, program crashes, etc.To make things worse, the users of LLM code generation services are actually the developers that are most vulnerable to these code that seems right -- They are always novice developers that are not familiar with the APIs that LLMs generate code for them. Therefore, they could hardly tell the misuse in the code generated by LLMs, which further facilitates the incorrect code applied in real-world software. Existing code evaluation benchmark and datasets focus on crafting small tasks such as programming questions in coding interviews, which however deviates from the problem that developers would ask LLM for real-world coding help. To fill the missing piece, in this work, we propose a dataset RobustAPI for evaluating the reliability and robustness of code generated by LLMs. We collect 1208 coding questions from StackOverflow on 24 representative Java APIs. We summarize thecommon misuse patterns of these APIs and evaluate them oncurrent popular LLMs. The evaluation results show that evenfor GPT-4, 62% of the generated code contains API misuses,which would cause unexpected consequences if the code isintroduced into real-world software.
翻訳日:2023-08-22 15:57:29 公開日:2023-08-20
# coordinate transformer: ビデオから単段マルチパーソンメッシュをリカバリする

Coordinate Transformer: Achieving Single-stage Multi-person Mesh Recovery from Videos ( http://arxiv.org/abs/2308.10334v1 )

ライセンス: Link先を確認
Haoyuan Li, Haoye Dong, Hanchao Jia, Dong Huang, Michael C. Kampffmeyer, Liang Lin, Xiaodan Liang(参考訳) ビデオからのマルチパーソン3dメッシュリカバリは、バーチャルリアリティ、理学療法などにおけるグループ行動の自動知覚への重要な第一歩だ。 しかし、既存のアプローチはマルチステージパラダイムに依存しており、人物検出と追跡段階はマルチパーソン設定で実行され、時間的ダイナミクスは一度に1人だけモデル化される。 したがって、その性能は、時空間メッシュリカバリにおける対人インタラクションの欠如と、検出と追跡の欠陥によって著しく制限される。 これらの課題に対処するために,マルチパーソン空間-時間関係を直接モデル化し,エンドツーエンドでマルチメッシュリカバリを同時に行う座標変換器(coordformer)を提案する。 フィーチャーマップを粗いパッチワイズトークンに分割する代わりに、coordformerは新しい座標認識注意力を利用してピクセルレベルの空間-時間座標情報を保存する。 さらに,位置情報を融合するためのシンプルで効果的な身体中心注意機構を提案する。 3DPWデータセットの大規模な実験により、CoordFormerは最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値によると、これまでで最も良い結果の4.2%、8.8%、そして4.7%を上回った。 リリースされたコードはhttps://github.com/Li-Hao-yuan/CoordFormerで見ることができる。

Multi-person 3D mesh recovery from videos is a critical first step towards automatic perception of group behavior in virtual reality, physical therapy and beyond. However, existing approaches rely on multi-stage paradigms, where the person detection and tracking stages are performed in a multi-person setting, while temporal dynamics are only modeled for one person at a time. Consequently, their performance is severely limited by the lack of inter-person interactions in the spatial-temporal mesh recovery, as well as by detection and tracking defects. To address these challenges, we propose the Coordinate transFormer (CoordFormer) that directly models multi-person spatial-temporal relations and simultaneously performs multi-mesh recovery in an end-to-end manner. Instead of partitioning the feature map into coarse-scale patch-wise tokens, CoordFormer leverages a novel Coordinate-Aware Attention to preserve pixel-level spatial-temporal coordinate information. Additionally, we propose a simple, yet effective Body Center Attention mechanism to fuse position information. Extensive experiments on the 3DPW dataset demonstrate that CoordFormer significantly improves the state-of-the-art, outperforming the previously best results by 4.2%, 8.8% and 4.7% according to the MPJPE, PAMPJPE, and PVE metrics, respectively, while being 40% faster than recent video-based approaches. The released code can be found at https://github.com/Li-Hao-yuan/CoordFormer.
翻訳日:2023-08-22 15:57:04 公開日:2023-08-20
# 一般化スターリングおよびユーレアン数からのボソン演算子オーダーID

Boson Operator Ordering Identities from Generalized Stirling and Eulerian Numbers ( http://arxiv.org/abs/2308.10332v1 )

ライセンス: Link先を確認
Robert S. Maier(参考訳) 単モードボソン作用素によって生成されるワイル・ハイゼンベルク代数の順序性について検討した。 生成と消滅演算子からなるボソン弦は他のそのような弦の線型結合として拡張することができ、最も単純な例は正規順序付けである。 各文字列が1つの消滅作用素のみを含む場合、既に組合せ的に非自明である。 2種類の展開が導出される。 (i)別の文字列$\omega'$の下限で$\omega$という文字列のパワーのそれ、及び (ii)$\Omega$と同じパワーのツイストバージョン$\Omega$のパワー。 膨張係数は、それぞれhsu と shiue の一般化スターリング数と、ある一般化オイラー数であることが示される。 多くの例がある。 これらの組合せ数は互いに二項変換であり、それらの理論は、和公式、Graham-Knuth-Patashnik (GKP) 三角再帰、超幾何列の終了、閉形式表現など、それらを計算するためのスキームを強調する。 最初のタイプの展開の結果は、ボソン弦の正規順序付けに関する以前の結果の多くを仮定する。

Ordering identities in the Weyl-Heisenberg algebra generated by single-mode boson operators are investigated. A boson string composed of creation and annihilation operators can be expanded as a linear combination of other such strings, the simplest example being a normal ordering. The case when each string contains only one annihilation operator is already combinatorially nontrivial. Two kinds of expansion are derived: (i) that of a power of a string $\Omega$ in lower powers of another string $\Omega'$, and (ii) that of a power of $\Omega$ in twisted versions of the same power of $\Omega'$. The expansion coefficients are shown to be, respectively, the generalized Stirling numbers of Hsu and Shiue, and certain generalized Eulerian numbers. Many examples are given. These combinatorial numbers are binomial transforms of each other, and their theory is developed, emphasizing schemes for computing them: summation formulas, Graham-Knuth-Patashnik (GKP) triangular recurrences, terminating hypergeometric series, and closed-form expressions. The results on the first type of expansion subsume a number of previous results on the normal ordering of boson strings.
翻訳日:2023-08-22 15:56:37 公開日:2023-08-20
# 原子雲による協調散乱の平均場記述

Mean-Field Description of Cooperative Scattering by Atomic Clouds ( http://arxiv.org/abs/2308.10331v1 )

ライセンス: Link先を確認
Nicola Piovella(参考訳) 拡張原子雲による光の散乱に関する解析式を提案する。 均一なレーザーによって駆動される異なる原子球面分布の平均場励起に対して, 初期ビルドアップ, 定常, レーザーのスイッチオフ後の減衰を含む解を得る。 平均場モデルは、n$の離散原子によって散乱された光子の負の干渉のため、亜ラジアン散乱を記述しない。

We present analytic expressions for the scattering of light by an extended atomic cloud. We obtain the solution for the mean-field excitation of different atomic spherical distributions driven by an uniform laser, including the initial build-up, the steady-state and the decay after the laser is switched off. We show that the mean-field model does not describe subradiant scattering, due to negative interference of the photons scattered by $N$ discrete atoms.
翻訳日:2023-08-22 15:56:18 公開日:2023-08-20
# 変分量子ビット効率maxcutヒューリスティックアルゴリズム

A Variational Qubit-Efficient MaxCut Heuristic Algorithm ( http://arxiv.org/abs/2308.10383v1 )

ライセンス: Link先を確認
Yovav Tene-Cohen, Tomer Kelman, Ohad Lev, and Adi Makmal(参考訳) ハードコンビネーション問題の解決は、幅広い産業応用や理論分野において不可欠である。 量子コンピュータはそのような問題に対処するためのユニークなプラットフォームを提供しており、Quantum Approximate Optimization Algorithm (QAOA) は最先端の例である。 しかし、現在の量子デバイスではノイズのレベルが高く、量子ビット数が限られているため、実際の量子ハードウェア上では、非常に小さな問題しか対処できない。 ここでは、NP-ハード組合せ問題であるMaxCut問題に対するヒューリスティックな解を見つけるために特別に設計された変分Qubit-Efficient MaxCut (QEMC)アルゴリズムを提案する。 QEMC法は、QAOAと比較して指数関数的な削減である$N$ノードを持つグラフを扱うために$\log{N}$ qubitsを必要とするユニークな情報符号化方式を導入する。 グラフの各ノードは一意な計算量子状態に割り当てられ、その論理状態は確率安定符号化方式を用いて対応する状態の測定確率によって描写される。 その結果、グラフの各分割は単一の状態ではなく、状態の体積に関連付けられている。 我々は,最大2048ノード (11 qubits) の正規グラフ上で雑音のないqemcシミュレーションを行う。 これらのシミュレーションは、ゴマンズとウィリアムソン(gw)の最もよく知られた古典近似アルゴリズムによって得られた解を数パーセント上回るカット解を実現した。 さらに、実際のIBM量子デバイス上でのQEMCアルゴリズムの実行は、32ノード (5 qubits) のグラフの最先端結果を実現し、QAOAアルゴリズムの挑戦的なベンチマークを提供する。 我々はQEMCアルゴリズムの計算複雑性を解析し、古典的手法で効率的にシミュレートできることを示し、量子に着想を得た古典的なMaxCutヒューリスティックを構成する。

The resolution of hard combinatorial problems is essential in a wide range of industrial applications and theoretical fields. Quantum computers offer a unique platform for addressing such problems, with the Quantum Approximate Optimization Algorithm (QAOA) being a state-of-the-art example. However, due to high levels of noise and limited numbers of qubits in current quantum devices, only very small problem instances can be addressed on actual quantum hardware. Here we present a new variational Qubit-Efficient MaxCut (QEMC) algorithm that is specifically designed to find heuristic solutions for the MaxCut problem, a well-studied NP-hard combinatorial problem. The QEMC method introduces a unique information encoding scheme that requires $\log{N}$ qubits to address graphs with $N$ nodes, an exponential reduction in comparison to QAOA. Each node of the graph is assigned to a unique computational quantum state, and its logical state is depicted by the measurement probability of the corresponding state, using a probability-threshold encoding scheme. Consequently, each partition of the graph is associated with a volume of states, rather than with just a single state. We present noiseless QEMC simulations on regular graphs with up to 2048 nodes (11 qubits). These simulations achieved cut solutions that outperform those obtained by the best-known classical approximation algorithm of Goemans and Williamson (GW), by several percent. Moreover, executing the QEMC algorithm on actual IBM quantum devices achieved leading-edge results for graphs with up to 32 nodes (5 qubits), providing a challenging benchmark for the QAOA algorithm. We analyze the computational complexity of the QEMC algorithm and show that it can be simulated efficiently using classical methods, thereby constituting a new quantum-inspired classical MaxCut heuristic.
翻訳日:2023-08-22 15:51:29 公開日:2023-08-20
# ノイズ医学画像におけるSAMの偽陰性/正の制御

False Negative/Positive Control for SAM on Noisy Medical Images ( http://arxiv.org/abs/2308.10382v1 )

ライセンス: Link先を確認
Xing Yao, Han Liu, Dewei Hu, Daiwei Lu, Ange Lou, Hao Li, Ruining Deng, Gabriel Arenas, Baris Oguz, Nadav Schwartz, Brett C Byram, Ipek Oguz(参考訳) Segment Anything Model (SAM) は画像セグメンテーションのための全範囲基盤モデルである。 自然な画像のピクセルレベルのセグメンテーションを生成するために、ボックスのバウンディングなどの手動プロンプトを使用するが、低コントラスト、ノイズのある超音波画像のような医療画像では苦労する。 医療画像のセグメンテーションにおけるSAMの性能向上を目的とした改良されたテストフェーズプロンプト拡張手法を提案する。 この方法は、マルチボックスプロンプト増強と、アレタリック不確実性に基づく偽陰性(FN)と偽陽性(FP)補正(FNPC)戦略を結合する。 提案手法を2つの超音波データセット上で評価し,さらにトレーニングやチューニングを行う必要がなく,SAMの性能向上と不正確なプロンプトに対する堅牢性を示す。 さらに,ss2v(single-slice-to-volume)法を提案する。1つの2dスライスからバウンディングボックスアノテーションのみを使用して,3dピクセルレベルのセグメンテーションを実現する。 ノイズの多い低コントラストの医用画像においても,SAMの有効利用が可能となった。 ソースコードはまもなくリリースされる予定だ。

The Segment Anything Model (SAM) is a recently developed all-range foundation model for image segmentation. It can use sparse manual prompts such as bounding boxes to generate pixel-level segmentation in natural images but struggles in medical images such as low-contrast, noisy ultrasound images. We propose a refined test-phase prompt augmentation technique designed to improve SAM's performance in medical image segmentation. The method couples multi-box prompt augmentation and an aleatoric uncertainty-based false-negative (FN) and false-positive (FP) correction (FNPC) strategy. We evaluate the method on two ultrasound datasets and show improvement in SAM's performance and robustness to inaccurate prompts, without the necessity for further training or tuning. Moreover, we present the Single-Slice-to-Volume (SS2V) method, enabling 3D pixel-level segmentation using only the bounding box annotation from a single 2D slice. Our results allow efficient use of SAM in even noisy, low-contrast medical images. The source code will be released soon.
翻訳日:2023-08-22 15:50:54 公開日:2023-08-20
# 持続可能性のためのヒューマン・オン・ザ・ループ最適化オートフォーマリズムアプローチ

A Human-on-the-Loop Optimization Autoformalism Approach for Sustainability ( http://arxiv.org/abs/2308.10380v1 )

ライセンス: Link先を確認
Ming Jin, Bilgehan Sel, Fnu Hardeep, Wotao Yin(参考訳) 本稿では,大規模言語モデル(LLM)を用いた個人化エネルギー問題に対する自然な対話的アプローチを概説する。 我々は、モデリングのわずかなバリエーションで繰り返し解く必要のあるカスタマイズ可能な最適化問題に焦点をあて、ユーザー固有の問題である。 我々は,LLMを最適化解法で強化する戦略を提案し,非線形推論機能を提供しながら,ユーザの仕様や嗜好を理解し,応答する能力を高めた。 提案手法は,自然言語タスク仕様を最適化インスタンスに自動翻訳することで,人間誘導最適化の新たな概念を開拓する。 これによりLLMは、現在のプロンプトベースのテクニックの限界を超えて、様々なインスタンス固有のエネルギー関連の問題を分析し、説明し、対処することができる。 本研究は、電気自動車の充電・暖房・換気・空調(HVAC)制御から、屋上太陽光発電(PV)やヒートポンプの設置における費用対効果評価などの長期計画問題まで、エネルギーセクターにおける一般的なタスクを含む。 このパイロット研究は、最適化プロセスの民主化の可能性とともに、LLMを用いた文脈に基づく最適化の定式化に向けた重要な一歩である。 結果として、利害関係者はエネルギー消費を最適化し、個人のニーズや好みに合わせてカスタマイズされた持続可能エネルギープラクティスを促進する権限を与えられる。

This paper outlines a natural conversational approach to solving personalized energy-related problems using large language models (LLMs). We focus on customizable optimization problems that necessitate repeated solving with slight variations in modeling and are user-specific, hence posing a challenge to devising a one-size-fits-all model. We put forward a strategy that augments an LLM with an optimization solver, enhancing its proficiency in understanding and responding to user specifications and preferences while providing nonlinear reasoning capabilities. Our approach pioneers the novel concept of human-guided optimization autoformalism, translating a natural language task specification automatically into an optimization instance. This enables LLMs to analyze, explain, and tackle a variety of instance-specific energy-related problems, pushing beyond the limits of current prompt-based techniques. Our research encompasses various commonplace tasks in the energy sector, from electric vehicle charging and Heating, Ventilation, and Air Conditioning (HVAC) control to long-term planning problems such as cost-benefit evaluations for installing rooftop solar photovoltaics (PVs) or heat pumps. This pilot study marks an essential stride towards the context-based formulation of optimization using LLMs, with the potential to democratize optimization processes. As a result, stakeholders are empowered to optimize their energy consumption, promoting sustainable energy practices customized to personal needs and preferences.
翻訳日:2023-08-22 15:50:34 公開日:2023-08-20
# 思考のアルゴリズム:大規模言語モデルにおけるアイデア探索の強化

Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models ( http://arxiv.org/abs/2308.10379v1 )

ライセンス: Link先を確認
Bilgehan Sel, Ahmad Al-Tawaha, Vanshaj Khattar, Lu Wang, Ruoxi Jia, Ming Jin(参考訳) チェーン・オブ・マインド(chain-of-thought)アプローチを克服する現在の文献では、しばしば外部のモダス・オペランディ(modus operandi)に頼り、生成プロセスを再開し、大きな言語モデル(llm)の推論能力を高める。 このモードはクエリ要求の数をエスカレートし、コスト、メモリ、計算オーバーヘッドを増加させる。 これに対応するために,アルゴリズム推論経路を通じてLLMを推進し,文脈内学習の新たなモードを開拓する新しい戦略である「思考のアルゴリズム」を提案する。 アルゴリズムの例を用いて,llmの帰納的反復ダイナミクスを活用し,そのアイデア探索を1つないし数個のクエリで拡張する。 本手法は従来手法よりも優れており,木探索アルゴリズムを応用した最近のマルチクエリ戦略と同等である。 興味深いことに,本研究の結果から,アルゴリズムを用いたLLMの指導がアルゴリズム自体を上回る性能をもたらすことが示唆され,LLMの直感を最適化された検索に織り込む能力が示唆された。 我々は,本手法の有効性とそのニュアンスを基礎として検討する。

Current literature, aiming to surpass the "Chain-of-Thought" approach, often resorts to an external modus operandi involving halting, modifying, and then resuming the generation process to boost Large Language Models' (LLMs) reasoning capacities. This mode escalates the number of query requests, leading to increased costs, memory, and computational overheads. Addressing this, we propose the Algorithm of Thoughts -- a novel strategy that propels LLMs through algorithmic reasoning pathways, pioneering a new mode of in-context learning. By employing algorithmic examples, we exploit the innate recurrence dynamics of LLMs, expanding their idea exploration with merely one or a few queries. Our technique outperforms earlier single-query methods and stands on par with a recent multi-query strategy that employs an extensive tree search algorithm. Intriguingly, our results suggest that instructing an LLM using an algorithm can lead to performance surpassing that of the algorithm itself, hinting at LLM's inherent ability to weave its intuition into optimized searches. We probe into the underpinnings of our method's efficacy and its nuances in application.
翻訳日:2023-08-22 15:50:06 公開日:2023-08-20
# hosnn:適応的な発火閾値を持つ敵対的ロバストなホメオスタティックスパイクニューラルネットワーク

HoSNN: Adversarially-Robust Homeostatic Spiking Neural Networks with Adaptive Firing Thresholds ( http://arxiv.org/abs/2308.10373v1 )

ライセンス: Link先を確認
Hejia Geng, Peng Li(参考訳) スパイキングニューラルネットワーク(SNN)は、効率的で強力なニューラルネットワークにインスパイアされた計算を約束する。 しかし、他のタイプのニューラルネットワークに共通するSNNは、敵の攻撃に対する脆弱性の深刻な問題に直面している。 神経性ホメオスタシスからインスピレーションを得た最初の研究は、SNNの障害に対する感受性に対処するバイオインスパイアされたソリューションを開発することである。 我々のアプローチの核心は、新しいしきい値適応型インテリジェンス・アンド・ファイア(TA-LIF)ニューロンモデルであり、提案した対向的に堅牢なホメオスタティックSNN(HoSNN)を構築するために採用されている。 従来の LIF モデルとは違って,我々のTA-LIF モデルでは,自己安定化動的しきい値設定機構,対向雑音伝搬の削減,HoSNN の堅牢性を教師なしで保護する。 理論解析により、ta-lifニューロンの安定性と収束性が示され、従来のlifニューロンに対する入力分布シフト下での優れた動的ロバスト性が証明された。 また,CIFAR-10では,FGSMおよびPGD攻撃に対する精度が72.6%,54.19%向上し,それぞれ20.97%,0.6%向上した。 さらに、FGSMの対抗訓練が最小限で、我々のHoSNNはFGSMの29.99%、CIFAR-10のPGD攻撃47.83%を突破した。 我々の研究は、SNNの強靭性と防御を強化するための生物学的原理を活用する新しい視点を提供し、より弾力性のあるニューロモルフィックコンピューティングへの道を開いた。

Spiking neural networks (SNNs) offer promise for efficient and powerful neurally inspired computation. Common to other types of neural networks, however, SNNs face the severe issue of vulnerability to adversarial attacks. We present the first study that draws inspiration from neural homeostasis to develop a bio-inspired solution that counters the susceptibilities of SNNs to adversarial onslaughts. At the heart of our approach is a novel threshold-adapting leaky integrate-and-fire (TA-LIF) neuron model, which we adopt to construct the proposed adversarially robust homeostatic SNN (HoSNN). Distinct from traditional LIF models, our TA-LIF model incorporates a self-stabilizing dynamic thresholding mechanism, curtailing adversarial noise propagation and safeguarding the robustness of HoSNNs in an unsupervised manner. Theoretical analysis is presented to shed light on the stability and convergence properties of the TA-LIF neurons, underscoring their superior dynamic robustness under input distributional shifts over traditional LIF neurons. Remarkably, without explicit adversarial training, our HoSNNs demonstrate inherent robustness on CIFAR-10, with accuracy improvements to 72.6% and 54.19% against FGSM and PGD attacks, up from 20.97% and 0.6%, respectively. Furthermore, with minimal FGSM adversarial training, our HoSNNs surpass previous models by 29.99% under FGSM and 47.83% under PGD attacks on CIFAR-10. Our findings offer a new perspective on harnessing biological principles for bolstering SNNs adversarial robustness and defense, paving the way to more resilient neuromorphic computing.
翻訳日:2023-08-22 15:49:46 公開日:2023-08-20
# 子宮腫瘍イメージングのための機械学習に基づく臨床診断支援ツールの開発

Developing a Machine Learning-Based Clinical Decision Support Tool for Uterine Tumor Imaging ( http://arxiv.org/abs/2308.10372v1 )

ライセンス: Link先を確認
Darryl E. Wright, Adriana V. Gregory, Deema Anaam, Sepideh Yadollahi, Sumana Ramanathan, Kafayat A. Oyemade, Reem Alsibai, Heather Holmes, Harrison Gottlich, Cherie-Akilah G. Browne, Sarah L. Cohen Rassier, Isabel Green, Elizabeth A. Stewart, Hiroaki Takahashi, Bohyun Kim, Shannon Laughlin-Tommaso, Timothy L. Kline(参考訳) 子宮平滑筋肉腫 (LMS) は稀ながら積極的な悪性腫瘍である。 画像上, LMSは, 有意だが良性である変性平滑筋腫 (LM) と区別することは困難である。 110例 (平均年齢45 [17-81]歳) から115 軸性t2強調mri画像と5種類の腫瘍型を含むutsを検索した。 これらのデータはランダムに腫瘍体積の層序をトレーニング(n=85)とテストセット(n=30)に分割した。 独立した第2のリーダ(リーダ2)は、すべてのテストセットイメージに対して手動セグメンテーションを提供する。 セグメント化を自動化するために, nnU-Netを適用し, 25, 45, 65, 85のトレーニングセットイメージをランダムに生成することで, トレーニングセットサイズがパフォーマンスに与える影響を検討した。 特徴選択と機械学習を併用し,UTの種類を個別に識別する放射能特性の評価を行った。 トレーニングセット全体を用いて, 平均[95% CI]繊維状DSCを0.87[0.59-1.00]と測定し, 両読者間の合意は0.89[0.77-1.0]とした。 LMSからデジェネレーションLMを分類すると、テストセットF1スコアが0.80となる。 放射線学的特徴に基づく分類では,良性と悪性の検査セットで0.53 [0.45, 0.61] と 0.80 [0.80, 0.80] の分類子を識別し,lm と lms のタスクを分解する。 本稿では,150点未満のアノテート画像でヒトに近い子宮とUTの3次元セグメンテーションの自動化手法を開発することができることを示す。 UT型を識別するためには、追加データによるさらなる調査に役立つモデルをトレーニングする一方で、UTの信頼性の高い自動微分が課題である。

Uterine leiomyosarcoma (LMS) is a rare but aggressive malignancy. On imaging, it is difficult to differentiate LMS from, for example, degenerated leiomyoma (LM), a prevalent but benign condition. We curated a data set of 115 axial T2-weighted MRI images from 110 patients (mean [range] age=45 [17-81] years) with UTs that included five different tumor types. These data were randomly split stratifying on tumor volume into training (n=85) and test sets (n=30). An independent second reader (reader 2) provided manual segmentations for all test set images. To automate segmentation, we applied nnU-Net and explored the effect of training set size on performance by randomly generating subsets with 25, 45, 65 and 85 training set images. We evaluated the ability of radiomic features to distinguish between types of UT individually and when combined through feature selection and machine learning. Using the entire training set the mean [95% CI] fibroid DSC was measured as 0.87 [0.59-1.00] and the agreement between the two readers was 0.89 [0.77-1.0] on the test set. When classifying degenerated LM from LMS we achieve a test set F1-score of 0.80. Classifying UTs based on radiomic features we identify classifiers achieving F1-scores of 0.53 [0.45, 0.61] and 0.80 [0.80, 0.80] on the test set for the benign versus malignant, and degenerated LM versus LMS tasks. We show that it is possible to develop an automated method for 3D segmentation of the uterus and UT that is close to human-level performance with fewer than 150 annotated images. For distinguishing UT types, while we train models that merit further investigation with additional data, reliable automatic differentiation of UTs remains a challenge.
翻訳日:2023-08-22 15:49:13 公開日:2023-08-20
# 量子情報科学・技術教育の発展のための量子カリキュラム変換フレームワーク

The Quantum Curriculum Transformation Framework for the development of Quantum Information Science and Technology Education ( http://arxiv.org/abs/2308.10371v1 )

ライセンス: Link先を確認
Simon Goorney, Jonas Bley, Stefan Heusler and Jacob Sherson(参考訳) 量子情報科学と技術(qist)の分野が急成長している。 そのため、開発産業の労働力を確保するために、多くの新しい教育コースやプログラムが必要となる。 専門的な性格から、STEM分野における教育の最良のアプローチを支援することを目的とした、科学教育研究の相当な程度に、この分野の教育アプローチは切り離されている。 これら2つのコミュニティを実用的で反復可能な方法論と結びつけるために、量子技術カリキュラムの作成と変換に関する実践的な視点を提供するために、革新的なアプローチである量子カリキュラム変換フレームワーク(QCTF)を作成しました。 そこで,我々は4段階からなる決定木を提案する。 1.トピックを選択します。 2 一つ以上の目標とするスキルを選択する。 3.学習目標を選択して 4.この目標を達成するための指導方法を選択する。 本稿では、このカリキュラムにおける量子通信の基本概念として、例カリキュラム、より具体的には量子テレポーテーションを用いてどのように実現できるかを示す。 このようにカリキュラム作成とトランスフォーメーションにアプローチすることで、教育の目標と成果がより明確に定義され、個人と業界の両方が関心を持つようになる。 この枠組みは、QIST教育の物語を構造化することを目的としており、この分野における高品質な教育の必要性が拡大し続けており、QISTの実践に関するさらなる研究の基盤となる。

The field of Quantum Information Science and Technology (QIST) is booming. Due to this, many new educational courses and programs are needed in order to prepare a workforce for the developing industry. Owing to its specialist nature, teaching approaches in this field can suffer from being disconnected to the substantial degree of science education research which aims to support the best approaches to teaching in STEM fields. In order to connect these two communities with a pragmatic and repeatable methodology, we have generated an innovative approach, the Quantum Curriculum Transformation Framework (QCTF), intended to provide a didactical perspective on the creation and transformation of quantum technologies curricula. For this, we propose a decision tree consisting of four steps: 1. choose a topic, 2. choose one or more targeted skills, 3. choose a learning goal and 4. choose a teaching approach that achieves this goal. We show how this can be done using an example curriculum and more specifically quantum teleportation as a basic concept of quantum communication within this curriculum. By approaching curriculum creation and transformation in this way, educational goals and outcomes are more clearly defined which is in the interest of the individual and the industry alike. The framework is intended to structure the narrative of QIST teaching, and will form a basis for further research in the didactics of QIST, as the need for high quality education in this field continues to grow.
翻訳日:2023-08-22 15:48:38 公開日:2023-08-20
# cantnlp@LT-EDI@RANLP-2023:時空間言語モデルを用いたソーシャルメディアコメントにおけるホモフォビア/トランスフォビア検出

cantnlp@LT-EDI@RANLP-2023: Homophobia/Transphobia Detection in Social Media Comments using Spatio-Temporally Retrained Language Models ( http://arxiv.org/abs/2308.10370v1 )

ライセンス: Link先を確認
Sidney G.-J. Wong, Matthew Durward, Benjamin Adams and Jonathan Dunn(参考訳) 本稿ではLTEDI@RANLP-2023共有タスクの一部として開発されたマルチクラス分類システムについて述べる。 我々はBERTベースの言語モデルを用いて、英語、スペイン語、ヒンディー語、マラヤラム語、タミル語という5つの言語条件で、ソーシャルメディアコメントにおけるホモフォビックおよびトランスフォビックな内容を検出する。 トランスフォーマーを用いた言語事前学習モデルXLMRoBERTaを,空間的・時間的に関係のあるソーシャルメディア言語データを用いて再訓練した。 また、様々なパフォーマンスのソーシャルメディア言語データをシミュレートしたモデルのサブセットをトレーニングしました。 重み付きマクロ平均f1スコア(第1位は6位)と他の言語およびクラスラベル条件における可変性能に基づくマラヤラムの7ラベル分類システムを開発した。 この時空間データを含めることで,ベースラインと比較した場合の言語・タスク条件の分類性能が改善された。 その結果,トランスフォーマーに基づく言語分類システムは,レジスタ特化および言語特化に敏感であることが示唆された。

This paper describes our multiclass classification system developed as part of the LTEDI@RANLP-2023 shared task. We used a BERT-based language model to detect homophobic and transphobic content in social media comments across five language conditions: English, Spanish, Hindi, Malayalam, and Tamil. We retrained a transformer-based crosslanguage pretrained language model, XLMRoBERTa, with spatially and temporally relevant social media language data. We also retrained a subset of models with simulated script-mixed social media language data with varied performance. We developed the best performing seven-label classification system for Malayalam based on weighted macro averaged F1 score (ranked first out of six) with variable performance for other language and class-label conditions. We found the inclusion of this spatio-temporal data improved the classification performance for all language and task conditions when compared with the baseline. The results suggests that transformer-based language classification systems are sensitive to register-specific and language-specific retraining.
翻訳日:2023-08-22 15:48:15 公開日:2023-08-20
# 深部ニューラルネットワークを用いた肺炎とCOVID-19の予測

Prediction of Pneumonia and COVID-19 Using Deep Neural Networks ( http://arxiv.org/abs/2308.10368v1 )

ライセンス: Link先を確認
M. S. Haque, M. S. Taluckder, S. B. Shawkat, M. A. Shahriyar, M. A. Sayed, C. Modak(参考訳) 肺炎は細菌やウイルスによって引き起こされ、世界的な感染が急速に拡大している。 感染した個体のプロンプト同定は、その感染を封じ込めるために重要である。 本研究は,この課題に対処するための医用画像解析の可能性を検討する。 胸部X線画像から肺炎を予測する機械学習手法を提案する。 胸部X線画像は、そのアクセシビリティと費用対効果のために肺炎の診断に不可欠である。 しかしながら、肺炎検出のためのX線解釈は、他の呼吸状態と重なり合うため、複雑である可能性がある。 肺炎患者の胸部X線画像を用いて,DenseNet121,Inception Resnet-v2,Inception Resnet-v3,Resnet50,Xceptionなどさまざまな機械学習モデルの性能評価を行った。 モデルの評価と比較には性能指標と混乱行列が用いられる。 この結果、DenseNet121は他のモデルよりも優れており、精度は99.58%であることがわかった。 本研究は,胸部X線画像を用いた肺炎の正確な検出における機械学習の重要性を明らかにする。 本研究は、正確な診断により肺炎の拡散を緩和するための技術の可能性に関する知見を提供する。

Pneumonia, caused by bacteria and viruses, is a rapidly spreading viral infection with global implications. Prompt identification of infected individuals is crucial for containing its transmission. This study explores the potential of medical image analysis to address this challenge. We propose machine-learning techniques for predicting Pneumonia from chest X-ray images. Chest X-ray imaging is vital for Pneumonia diagnosis due to its accessibility and cost-effectiveness. However, interpreting X-rays for Pneumonia detection can be complex, as radiographic features can overlap with other respiratory conditions. We evaluate the performance of different machine learning models, including DenseNet121, Inception Resnet-v2, Inception Resnet-v3, Resnet50, and Xception, using chest X-ray images of pneumonia patients. Performance measures and confusion matrices are employed to assess and compare the models. The findings reveal that DenseNet121 outperforms other models, achieving an accuracy rate of 99.58%. This study underscores the significance of machine learning in the accurate detection of Pneumonia, leveraging chest X-ray images. Our study offers insights into the potential of technology to mitigate the spread of pneumonia through precise diagnostics.
翻訳日:2023-08-22 15:47:55 公開日:2023-08-20
# SE(3) 等変拡大結合流

SE(3) Equivariant Augmented Coupling Flows ( http://arxiv.org/abs/2308.10364v1 )

ライセンス: Link先を確認
Laurence I. Midgley and Vincent Stimper and Javier Antor\'an and Emile Mathieu and Bernhard Sch\"olkopf and Jos\'e Miguel Hern\'andez-Lobato(参考訳) 結合正規化フローは高速サンプリングと密度評価を可能にし、物理システムの確率的モデリングに最適なツールとなる。 しかし、標準結合構造は、se(3)と物理系の置換不変性を持つ原子の直交座標上で作用する内転流を妨げている。 本研究は,SE(3)と置換等式を付加次元に沿って座標分割して保持する結合流を提案する。 各層において、フローは原子の位置を学習されたSE(3)不変基底にマッピングし、そこではモノトニックな有理クアドラティックスプラインのような標準フロー変換を適用し、元の基底に戻る。 重要な点として,我々のフローは高速サンプリングと密度評価を保ち,重要サンプリングによる目標分布に対する予測の偏りのない推定を行うのに有用である。 DW4, LJ13, QM9-ポジションデータセットでトレーニングすると, 流れは等変連続正規化フローと競合し, 2桁のサンプリングを高速に行うことができる。 さらに、我々の知る限りでは、我々は、その原子のカルテシアン位置のみをモデル化することによって、初めて、アラニンジペプチドのボルツマン分布を学習する。 最後に,DW4粒子系とLJ13粒子系のボルツマン分布から,エネルギー関数のみを用いて,我々の流れをおよそサンプルとしてトレーニングできることを実証した。

Coupling normalizing flows allow for fast sampling and density evaluation, making them the tool of choice for probabilistic modeling of physical systems. However, the standard coupling architecture precludes endowing flows that operate on the Cartesian coordinates of atoms with the SE(3) and permutation invariances of physical systems. This work proposes a coupling flow that preserves SE(3) and permutation equivariance by performing coordinate splits along additional augmented dimensions. At each layer, the flow maps atoms' positions into learned SE(3) invariant bases, where we apply standard flow transformations, such as monotonic rational-quadratic splines, before returning to the original basis. Crucially, our flow preserves fast sampling and density evaluation, and may be used to produce unbiased estimates of expectations with respect to the target distribution via importance sampling. When trained on the DW4, LJ13 and QM9-positional datasets, our flow is competitive with equivariant continuous normalizing flows, while allowing sampling two orders of magnitude faster. Moreover, to the best of our knowledge, we are the first to learn the full Boltzmann distribution of alanine dipeptide by only modeling the Cartesian positions of its atoms. Lastly, we demonstrate that our flow can be trained to approximately sample from the Boltzmann distribution of the DW4 and LJ13 particle systems using only their energy functions.
翻訳日:2023-08-22 15:47:38 公開日:2023-08-20
# 階層型時間論理仕様に基づくロボット計画

Robotic Planning under Hierarchical Temporal Logic Specifications ( http://arxiv.org/abs/2308.10393v1 )

ライセンス: Link先を確認
Xusheng Luo, Shaojun Xu, Ruixuan Liu, Changliu Liu(参考訳) 時間論理仕様を用いたロボット計画に関する過去の研究、特に線形時間論理(LTL)は、主に個々のロボットやグループの特異な公式に基づいていた。 しかし、タスクの複雑さが増すにつれて、ltlの公式は避けられないほど長くなり、解釈や仕様作成を複雑にし、プランナーの計算能力に負担がかかる。 LTL仕様の可能性を最大化するために,タスクの本質的な構造に着目し,LTL仕様に階層構造を導入した。 フラットな構造とは対照的に、階層モデルは複数のレベルの構成仕様を持ち、より構文的簡潔さ、解釈可能性の向上、より効率的な計画などの利点を提供する。 この階層的時間論理構造の下でのタスクに対処するために,分解に基づく手法を定式化した。 各仕様は最初、時間的相互関係のサブタスクに分解される。 さらに,階層内の異なる仕様のサブタスク間の時間的関係についても考察する。 その後、混合整数線形プログラムを利用して各ロボットの時空間計画を生成する。 階層型ltl仕様はロボットナビゲーションと操作の領域に実験的に適用した。 大規模シミュレーション実験の結果,階層型の表現能力の向上と提案手法の有効性が示された。

Past research into robotic planning with temporal logic specifications, notably Linear Temporal Logic (LTL), was largely based on singular formulas for individual or groups of robots. But with increasing task complexity, LTL formulas unavoidably grow lengthy, complicating interpretation and specification generation, and straining the computational capacities of the planners. In order to maximize the potential of LTL specifications, we capitalized on the intrinsic structure of tasks and introduced a hierarchical structure to LTL specifications. In contrast to the "flat" structure, our hierarchical model has multiple levels of compositional specifications and offers benefits such as greater syntactic brevity, improved interpretability, and more efficient planning. To address tasks under this hierarchical temporal logic structure, we formulated a decomposition-based method. Each specification is first broken down into a range of temporally interrelated sub-tasks. We further mine the temporal relations among the sub-tasks of different specifications within the hierarchy. Subsequently, a Mixed Integer Linear Program is utilized to generate a spatio-temporal plan for each robot. Our hierarchical LTL specifications were experimentally applied to domains of robotic navigation and manipulation. Results from extensive simulation studies illustrated both the enhanced expressive potential of the hierarchical form and the efficacy of the proposed method.
翻訳日:2023-08-22 15:37:48 公開日:2023-08-20
# 一貫性規則化による一般化モーフィックアタック検出に向けて

Towards Generalizable Morph Attack Detection with Consistency Regularization ( http://arxiv.org/abs/2308.10392v1 )

ライセンス: Link先を確認
Hossein Kashiani, Niloufar Alipour Talemi, Mohammad Saeed Ebrahimi Saadabadi, Nasser M. Nasrabadi(参考訳) 近年の研究では、ディープニューラルネットワークによるモルヒネ攻撃の検出が著しく進歩しているが、しばしば見えないモルヒネ攻撃に対してうまく一般化できない。 多くのモルヒネ攻撃が頻繁に発生し、一般化可能なモルヒネ攻撃検出が注目されている。 本稿では,一貫性の正規化の観点から形態攻撃検出の一般化能力の向上に着目する。 一貫性の正規化は、一般化可能なモーフィックアタック検出は、入力空間で起こりうる変動に関係なく一貫した予測を出力するべきであるという前提の下で機能する。 本研究では, この目的を達成するために, 整合正則化において, 現実的な形態変換の広い空間を探索するために, 単純かつ効果的な2つのモーメントワイド拡張を提案する。 そして、モデルが正規化され、ロジットで一貫して学習し、さらに幅広い形態的に拡張された画像にレベルを埋め込みます。 提案した一貫性規則化は、野生の多様なドメインから生成されるモルモット攻撃画像に対して、モデルの隠れたレイヤの抽象化を整列させる。 実験により,提案手法の高次一般化とロバスト性性能を最先端の研究と比較した。

Though recent studies have made significant progress in morph attack detection by virtue of deep neural networks, they often fail to generalize well to unseen morph attacks. With numerous morph attacks emerging frequently, generalizable morph attack detection has gained significant attention. This paper focuses on enhancing the generalization capability of morph attack detection from the perspective of consistency regularization. Consistency regularization operates under the premise that generalizable morph attack detection should output consistent predictions irrespective of the possible variations that may occur in the input space. In this work, to reach this objective, two simple yet effective morph-wise augmentations are proposed to explore a wide space of realistic morph transformations in our consistency regularization. Then, the model is regularized to learn consistently at the logit as well as embedding levels across a wide range of morph-wise augmented images. The proposed consistency regularization aligns the abstraction in the hidden layers of our model across the morph attack images which are generated from diverse domains in the wild. Experimental results demonstrate the superior generalization and robustness performance of our proposed method compared to the state-of-the-art studies.
翻訳日:2023-08-22 15:37:30 公開日:2023-08-20
# LibriSQA: 新しいデータセットとフレームワークによるフリーフォームとオープンエンドの回答のパイオニア化

LibriSQA: Pioneering Free-form and Open-ended Spoken Question Answering with a Novel Dataset and Framework ( http://arxiv.org/abs/2308.10390v1 )

ライセンス: Link先を確認
Zihan Zhao, Yiyang Jiang, Heyang Liu, Yanfeng Wang, Yu Wang(参考訳) LLM(Large Language Models)は、多数のドメインやタスクにまたがる可換性を示す一方で、既存のLLMは、特に音声とテキストの特徴間の正確なアライメントと深い相互作用を必要とするSQA(Spoke Question Answering)タスクにおいて、マルチモーダル機能を扱うのに相応しい欠点を示している。 LLMにおけるSQA問題に対処するため、まずLibrispeechから自由形式のオープンエンドLibriSQAデータセットをキュレートした。 どちらの部分も、様々なトピックをカバーする107kのSQAペアを含んでいる。 既存の音声テキストLLMの明快さを考慮し,SQAタスクをLibriSQA上で実行するための軽量なエンドツーエンドフレームワークを提案する。 ASRをSQAフォーマットに書き換えることで、ASRタスクの処理におけるフレームワークの機能をさらに裏付ける。 実験の結果,マルチモーダル情報の整合と理解に対するllmsの適性が高まり,汎用マルチモーダルllmの開発への道筋が開けた。 データセットとデモはhttps://github.com/ZihanZhaoSJTU/LibriSQAで見ることができる。

While Large Language Models (LLMs) have demonstrated commendable performance across a myriad of domains and tasks, existing LLMs still exhibit a palpable deficit in handling multimodal functionalities, especially for the Spoken Question Answering (SQA) task which necessitates precise alignment and deep interaction between speech and text features. To address the SQA challenge on LLMs, we initially curated the free-form and open-ended LibriSQA dataset from Librispeech, comprising Part I with natural conversational formats and Part II encompassing multiple-choice questions followed by answers and analytical segments. Both parts collectively include 107k SQA pairs that cover various topics. Given the evident paucity of existing speech-text LLMs, we propose a lightweight, end-to-end framework to execute the SQA task on the LibriSQA, witnessing significant results. By reforming ASR into the SQA format, we further substantiate our framework's capability in handling ASR tasks. Our empirical findings bolster the LLMs' aptitude for aligning and comprehending multimodal information, paving the way for the development of universal multimodal LLMs. The dataset and demo can be found at https://github.com/ZihanZhaoSJTU/LibriSQA.
翻訳日:2023-08-22 15:37:13 公開日:2023-08-20
# ニューラルネットワークはフーリエ変換、信号処理などを学ぶ...

Neural Architectures Learning Fourier Transforms, Signal Processing and Much More.... ( http://arxiv.org/abs/2308.10388v1 )

ライセンス: Link先を確認
Prateek Verma(参考訳) このレポートでは、フーリエ変換を取り入れ、AIとニューラルアーキテクチャの最近の進歩と結び付けることに関する基本的な質問に答える。 フーリエ変換の解釈の一つは、信号を構成成分に分解して複素指数に射影させることである。 複素領域上では動作せず、異なる周波数で振動するコサイン関数のみに入力信号を投影する離散コサイン変換のような変種が存在する。 しかし、これは基本的な制限であり、より最適である必要がある。 ひとつは、すべてのカーネルが正弦波(sinusoidal)であることだ。 このためにニューラルアーキテクチャが使えるとしたら? 音声信号処理アプリケーションにおいて,これらのカーネルをスクラッチから学習する方法を示す。 ニューラルネットワークは正弦波のカーネル形状を学習するだけでなく、あらゆる種類の素晴らしい信号処理特性を発見する。 例えば、ウィンドウ機能、オンセット検出器、ハイパスフィルタ、ローパスフィルタ、変調などである。 さらに, フィルタの解析により, ニューラルネットワークは学習したカーネル上に, コムフィルタのような構造を持つことがわかった。 ハーモニック周波数の通過を可能にするコムフィルタは、様々な従来の信号処理アルゴリズムのハイパス、ローパス、帯域通過フィルタに似たフィルタのコアビルディングブロック/タイプの1つである。 さらに,信号の畳み込み操作をスクラッチから学習することも可能であり,この頑健なトランスフォーマーアーキテクチャを用いてこれを用いた文献を考察する。 さらに、学習したカーネルのコンテンツ、すなわち異なる入力のために異なるカーネルを学習させることについても検討する。

This report will explore and answer fundamental questions about taking Fourier Transforms and tying it with recent advances in AI and neural architecture. One interpretation of the Fourier Transform is decomposing a signal into its constituent components by projecting them onto complex exponentials. Variants exist, such as discrete cosine transform that does not operate on the complex domain and projects an input signal to only cosine functions oscillating at different frequencies. However, this is a fundamental limitation, and it needs to be more suboptimal. The first one is that all kernels are sinusoidal: What if we could have some kernels adapted or learned according to the problem? What if we can use neural architectures for this? We show how one can learn these kernels from scratch for audio signal processing applications. We find that the neural architecture not only learns sinusoidal kernel shapes but discovers all kinds of incredible signal-processing properties. E.g., windowing functions, onset detectors, high pass filters, low pass filters, modulations, etc. Further, upon analysis of the filters, we find that the neural architecture has a comb filter-like structure on top of the learned kernels. Comb filters that allow harmonic frequencies to pass through are one of the core building blocks/types of filters similar to high-pass, low-pass, and band-pass filters of various traditional signal processing algorithms. Further, we can also use the convolution operation with a signal to be learned from scratch, and we will explore papers in the literature that uses this with that robust Transformer architectures. Further, we would also explore making the learned kernel's content adaptive, i.e., learning different kernels for different inputs.
翻訳日:2023-08-22 15:36:48 公開日:2023-08-20
# 教師なしの意見集約 -- 統計的視点

Unsupervised Opinion Aggregation -- A Statistical Perspective ( http://arxiv.org/abs/2308.10386v1 )

ライセンス: Link先を確認
Noyan C. Sevuktekin and Andrew C. Singer(参考訳) 複雑な意思決定システムは、世界の現在の状態に直接アクセスすることは滅多になく、代わりに意見に依存して、根底にある真実が何であるかを理解する。 専門家が意思決定者を操作する意思のない意見を述べる問題であっても、どの専門家の意見がより信頼できるかを決めるのは困難である。 本報告では, 基礎的真理を必要とせず, 各専門家の立場から知識を推測する統計的アプローチについて検討する。 一般に \textit{the wisdom of crowds} と呼ばれることの背後にある論理を反響させ、それぞれの専門家の能力を測定することを、仲間と合意するためにその類似性によって提案する。 さらに、専門家が信頼できるほど、彼らが仲間と同意する可能性が高くなることを示す。 この事実を利用して,na\"{i}ve bayes分類器の完全教師なしバージョンを提案し,提案手法が大規模問題に対して漸近的に最適であることを示す。 大量の意見を集約するだけでなく、オンラインの意見集約や、限定的な意見数に基づく意思決定にもこの手法を応用します。

Complex decision-making systems rarely have direct access to the current state of the world and they instead rely on opinions to form an understanding of what the ground truth could be. Even in problems where experts provide opinions without any intention to manipulate the decision maker, it is challenging to decide which expert's opinion is more reliable -- a challenge that is further amplified when decision-maker has limited, delayed, or no access to the ground truth after the fact. This paper explores a statistical approach to infer the competence of each expert based on their opinions without any need for the ground truth. Echoing the logic behind what is commonly referred to as \textit{the wisdom of crowds}, we propose measuring the competence of each expert by their likeliness to agree with their peers. We further show that the more reliable an expert is the more likely it is that they agree with their peers. We leverage this fact to propose a completely unsupervised version of the na\"{i}ve Bayes classifier and show that the proposed technique is asymptotically optimal for a large class of problems. In addition to aggregating a large block of opinions, we further apply our technique for online opinion aggregation and for decision-making based on a limited the number of opinions.
翻訳日:2023-08-22 15:36:25 公開日:2023-08-20