このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240308となっている論文です。

PDF登録状況(公開日: 20240308)

TitleAuthorsAbstract論文公表日・翻訳日
# メディアミックスモデリングのパッケージング - Robyn氏のオープンソースアプローチ入門

Packaging Up Media Mix Modeling: An Introduction to Robyn's Open-Source Approach ( http://arxiv.org/abs/2403.14674v1 )

ライセンス: Link先を確認
Gufeng Zhou, Igor Skokan, Julian Runge, (参考訳) アプリやウェブサイトにまたがるユーザー行動の帰結は、デジタル広告測定における決定論の見当たらないレベルにつながったが、デジタルデータランドスケープに対するプライバシー中心の変更は、マーケティングやメディアミックスモデリングといった確率論的手法を再び呼び起こしている。 中小企業の広告主の多くは、特定の専門知識と複数のデータサイエンティストのチームを必要とする高度なプロプライエタリなモデリング活動に投資する規模やリソースを欠いている。 デジタル広告測定にメディアミックスモデリングを広く採用するために、Metaのマーケティングデータサイエンティストはオープンソースの計算パッケージRobinnを始めた。 この記事では、Robinnにおけるアーキテクチャコンポーネントと選択について説明し、Robinnがどのようにバイアスや組織的受け入れに対してパッケージ化されることを目指しているかについて論じる。 広く採用され、活発なコミュニティを持つオープンソースパッケージとして、Robinnは継続的な開発を行っている。 この記事で述べられていることは、決定的な解決策ではなく、Robinnコミュニティが導入した経路の概要と見なすべきである。 この記事では、マーケティングデータサイエンティストからのフィードバックの基盤として、これらのパスの構造化された導入を提供することを目標とし、Robinn氏の進行中の開発がユーザニーズと一致していることを保証する。

While attribution of user behavior across apps and websites had led to unseen levels of determinism in digital advertising measurement, privacy-centric changes to the digital data landscape are bringing probabilistic techniques such as marketing and media mix modeling en vogue again. Many small and midsize advertisers lack the scale and resources to invest in advanced proprietary modeling efforts that would usually require specific expertise and a team of several data scientists. To facilitate broad successful adoption of media mix modeling for digital advertising measurement, marketing data scientists at Meta started the open-source computational package Robyn. This article presents architectural components and choices in Robyn and discusses how Robyn aims to be packaged against biases and for organizational acceptance. As an open-source package with wide adoption and a highly active community, Robyn undergoes continual development. In this vein, what is described in this article should not be seen as conclusive solutions but as an outline of pathways that the Robyn community has embarked on. The article aims to provide a structured introduction to these pathways as a basis for feedback from marketing data scientists, to ensure Robyn's ongoing development aligns with users' needs.
翻訳日:2024-04-01 03:33:23 公開日:2024-03-08
# ファジィハイパーパラメータの2次最適化による更新

Fuzzy hyperparameters update in a second order optimization ( http://arxiv.org/abs/2403.15416v1 )

ライセンス: Link先を確認
Abdelaziz Bensadok, Muhammad Zeeshan Babar, (参考訳) 本研究は,2次最適化における収束促進のためのハイブリッドアプローチを提案する。 対角ヘッセン行列のオンライン有限差分近似を導入し、ファジィないくつかのハイパーパラメータを参照する。 競争力のある結果が得られました

This research will present a hybrid approach to accelerate convergence in a second order optimization. An online finite difference approximation of the diagonal Hessian matrix will be introduced, along with fuzzy inferencing of several hyperparameters. Competitive results have been achieved
翻訳日:2024-04-01 03:04:05 公開日:2024-03-08
# トランスを用いたIoTアプリケーションのための自動変調認識の強化

Enhancing Automatic Modulation Recognition for IoT Applications Using Transformers ( http://arxiv.org/abs/2403.15417v1 )

ライセンス: Link先を確認
Narges Rashvand, Kenneth Witham, Gabriel Maldonado, Vinit Katariya, Nishanth Marer Prabhu, Gunar Schirner, Hamed Tabkhi, (参考訳) 自動変調認識(AMR)は、受信信号の変調タイプを決定するために重要である。 高度なディープラーニングアプローチを統合することで、IoTアプリケーションに不可欠な、高速な処理と最小限のリソース使用が可能になる。 我々は,IoT環境におけるモデルサイズ制約に対処するために,Transformer ネットワークを用いた効率的な AMR のための新しい手法を提案している。 実験の結果,提案手法は高度な深層学習技術より優れており,高い認識精度が得られた。

Automatic modulation recognition (AMR) is critical for determining the modulation type of incoming signals. Integrating advanced deep learning approaches enables rapid processing and minimal resource usage, essential for IoT applications. We have introduced a novel method using Transformer networks for efficient AMR, designed specifically to address the constraints on model size prevalent in IoT environments. Our extensive experiments reveal that our proposed method outperformed advanced deep learning techniques, achieving the highest recognition accuracy.
翻訳日:2024-04-01 03:04:05 公開日:2024-03-08
# Blind normalized Stein Variational Gradient Descent-based Detection for Intelligent Massive Random Access (特集:一般セッション)

The Blind Normalized Stein Variational Gradient Descent-Based Detection for Intelligent Massive Random Access ( http://arxiv.org/abs/2403.18846v1 )

ライセンス: Link先を確認
Xin Zhu, Ahmet Enis Cetin, (参考訳) 効率的なプリアンブル検出アルゴリズムの欠如は、実用的な通信シナリオにおける知的大規模ランダムアクセス(RA)におけるプリアンブル衝突問題の解決に依然として課題である。 この問題を解決するために,提案手法の最初のステップにおいて,最大推定値(MLE)モデルに基づく新しい早期プリアンブル検出手法を提案する。 MLEモデルに対する近似解を得るために,新しい盲点正規化スタイン変分勾配勾配検出器(SVGD)を提案する。 まず、アダマール変換とウェーブレット変換の関係を探索することにより、2階微分フィルタを用いて重要な成分から高周波を分離する新しい修正アダマール変換(MHT)を開発した。 次に、SVGD検出器のノイズを除去し、消滅する勾配問題を緩和するため、ブロックMHT層は、MHT層、スケーリング層、ソフトスレッディング層、逆MHT層およびスパーシリティペナルティに基づいて設計される。 次に、ブラインド正規化SVGDアルゴリズムを導出し、ノイズパワーやアクティブデバイス数に関する事前知識を必要とせずにプリアンブル検出を行う。 実験の結果,提案したブロックMHT層は,計算コストやデノベーション性能の観点から,他の変換手法よりも優れていた。 さらに、ブロックMHT層の助けを借りて、提案したブラインド正規化SVGDアルゴリズムは、他の最先端検出方法よりも高いプリアンブル検出精度とスループットを実現する。

The lack of an efficient preamble detection algorithm remains a challenge for solving preamble collision problems in intelligent massive random access (RA) in practical communication scenarios. To solve this problem, we present a novel early preamble detection scheme based on a maximum likelihood estimation (MLE) model at the first step of the grant-based RA procedure. A novel blind normalized Stein variational gradient descent (SVGD)-based detector is proposed to obtain an approximate solution to the MLE model. First, by exploring the relationship between the Hadamard transform and wavelet transform, a new modified Hadamard transform (MHT) is developed to separate high-frequencies from important components using the second-order derivative filter. Next, to eliminate noise and mitigate the vanishing gradients problem in the SVGD-based detectors, the block MHT layer is designed based on the MHT, scaling layer, soft-thresholding layer, inverse MHT and sparsity penalty. Then, the blind normalized SVGD algorithm is derived to perform preamble detection without prior knowledge of noise power and the number of active devices. The experimental results show the proposed block MHT layer outperforms other transform-based methods in terms of computation costs and denoising performance. Furthermore, with the assistance of the block MHT layer, the proposed blind normalized SVGD algorithm achieves a higher preamble detection accuracy and throughput than other state-of-the-art detection methods.
翻訳日:2024-04-01 02:25:04 公開日:2024-03-08
# 発電機誘導型群衆反応評価

Generator-Guided Crowd Reaction Assessment ( http://arxiv.org/abs/2403.09702v1 )

ライセンス: Link先を確認
Sohom Ghosh, Chung-Chi Chen, Sudip Kumar Naskar, (参考訳) ソーシャルメディアの世界では、ポストリーチの理解と予測が大きな課題である。 本稿では、あるソーシャルメディア投稿が他のソーシャルメディア投稿よりも多くのリアクションを受けるかどうかを推定するために設計された群衆反応評価(CREAM)タスクについて述べる。 我々は,ホワイトハウスのツイート対とリツイート数の比較尺度からなる,群衆反応推定データセット(CRED)を紹介した。 提案手法では,ChatGPT,FLAN-UL2,Claudeなどの生成型大規模言語モデル(LLM)を利用して,より優れた予測を行うための分類モデルを導出する。 以上の結果から,Claude が生成したツイート内容と応答を含むクロスエンコーダアーキテクチャを用いて,微調整したFLANG-RoBERTa モデルが最適に動作することがわかった。 さらに、T5ベースのパラフレーズを用いて、与えられたポストのパラフレーズを生成し、GGEAがどのポストが最も反応を誘発するかを予測する能力を示す。 LLMのこの新しい応用は、ソーシャルメディアのポストリーチを予測する上で大きな進歩をもたらすと信じている。

In the realm of social media, understanding and predicting post reach is a significant challenge. This paper presents a Crowd Reaction AssessMent (CReAM) task designed to estimate if a given social media post will receive more reaction than another, a particularly essential task for digital marketers and content writers. We introduce the Crowd Reaction Estimation Dataset (CRED), consisting of pairs of tweets from The White House with comparative measures of retweet count. The proposed Generator-Guided Estimation Approach (GGEA) leverages generative Large Language Models (LLMs), such as ChatGPT, FLAN-UL2, and Claude, to guide classification models for making better predictions. Our results reveal that a fine-tuned FLANG-RoBERTa model, utilizing a cross-encoder architecture with tweet content and responses generated by Claude, performs optimally. We further use a T5-based paraphraser to generate paraphrases of a given post and demonstrate GGEA's ability to predict which post will elicit the most reactions. We believe this novel application of LLMs provides a significant advancement in predicting social media post reach.
翻訳日:2024-03-25 07:56:27 公開日:2024-03-08
# 概念認識型データ構築は言語モデルの文脈内学習を改善する

Concept-aware Data Construction Improves In-context Learning of Language Models ( http://arxiv.org/abs/2403.09703v1 )

ライセンス: Link先を確認
Michal Štefánik, Marek Kadlčík, Petr Sojka, (参考訳) 近年の多くの言語モデル (LM) はインコンテキスト学習 (ICL) が可能であり、自然言語命令のみから新しいタスクを実行する能力に表れている。 従来のコンテキスト学習者は、ICLが過度な過度なパラメータ化やマルチタスクトレーニングの規模から生まれると仮定していた。 しかし、近年の理論的研究は、ICLが概念に依存したトレーニングデータを作成し、小規模で合成的な設定であっても、コンテキスト内で機能的な学習者を作成することを特徴としている。 本稿では,新たに同定されたICL品質の軸を実際に検討する。 概念認識学習(CoAT)は,実演から類推的推論概念を学習する上で,LMにとって有益な訓練シナリオを構築するためのフレームワークである。 我々は、CoATを用いることで、事前学習されたトランスフォーマーは、デモから新しい潜在概念をより有効に活用することを学び、ICLが以前のモデルの機能的欠陥に対してより堅牢になることを見出した。 最後に,従来のインストラクションチューニングと比較して,概念認識型インコンテキスト学習が新しいタスクの大部分に有効であることを示し,その結果,より多くのトレーニングデータを用いた従来のインコンテキスト学習と同等のパフォーマンスが得られることを示した。

Many recent language models (LMs) are capable of in-context learning (ICL), manifested in the LMs' ability to perform a new task solely from natural-language instruction. Previous work curating in-context learners assumes that ICL emerges from a vast over-parametrization or the scale of multi-task training. However, recent theoretical work attributes the ICL ability to concept-dependent training data and creates functional in-context learners even in small-scale, synthetic settings. In this work, we practically explore this newly identified axis of ICL quality. We propose Concept-aware Training (CoAT), a framework for constructing training scenarios that make it beneficial for the LM to learn to utilize the analogical reasoning concepts from demonstrations. We find that by using CoAT, pre-trained transformers can learn to better utilise new latent concepts from demonstrations and that such ability makes ICL more robust to the functional deficiencies of the previous models. Finally, we show that concept-aware in-context learning is more effective for a majority of new tasks when compared to traditional instruction tuning, resulting in a performance comparable to the previous in-context learners using magnitudes of more training data.
翻訳日:2024-03-25 07:56:27 公開日:2024-03-08
# Alignment Studio: 大規模言語モデルを特にコンテキストレギュレーションに調整する

Alignment Studio: Aligning Large Language Models to Particular Contextual Regulations ( http://arxiv.org/abs/2403.09704v1 )

ライセンス: Link先を確認
Swapnaja Achintalwar, Ioana Baldini, Djallel Bouneffouf, Joan Byamugisha, Maria Chang, Pierre Dognin, Eitan Farchi, Ndivhuwo Makondo, Aleksandra Mojsilovic, Manish Nagireddy, Karthikeyan Natesan Ramamurthy, Inkit Padhi, Orna Raz, Jesus Rios, Prasanna Sattigeri, Moninder Singh, Siphiwe Thwala, Rosario A. Uceda-Sosa, Kush R. Varshney, (参考訳) 大きな言語モデルのアライメントは、通常、モデルプロバイダによって、ユースケースやコンテキスト間で一般的または普遍的に理解される振る舞いを追加または制御するために行われます。 対照的に、この記事では、アプリケーション開発者が特定の価値、社会的規範、法律、その他の規則にモデルをチューニングし、コンテキストにおける潜在的に矛盾する要件をオーケストレーションすることを可能にするアプローチとアーキテクチャを提示します。 私たちは、アライメントスタジオアーキテクチャの主要な3つのコンポーネントをレイアウトしました:フレーム、インストラクタ、そして、言語モデルの振る舞いを制御するために協調して働くオーディタです。 このアプローチを、社内のエンタープライズチャットボットをビジネス行動ガイドラインに整合させる、実行中の例で説明します。

The alignment of large language models is usually done by model providers to add or control behaviors that are common or universally understood across use cases and contexts. In contrast, in this article, we present an approach and architecture that empowers application developers to tune a model to their particular values, social norms, laws and other regulations, and orchestrate between potentially conflicting requirements in context. We lay out three main components of such an Alignment Studio architecture: Framers, Instructors, and Auditors that work in concert to control the behavior of a language model. We illustrate this approach with a running example of aligning a company's internal-facing enterprise chatbot to its business conduct guidelines.
翻訳日:2024-03-25 07:56:27 公開日:2024-03-08
# メンタルヘルスにおける大規模言語モデルのためのNuanced Conversation Evaluation Framework

A Novel Nuanced Conversation Evaluation Framework for Large Language Models in Mental Health ( http://arxiv.org/abs/2403.09705v1 )

ライセンス: Link先を確認
Alexander Marrapese, Basem Suleiman, Imdad Ullah, Juno Kim, (参考訳) LLM(Large Language Models)の会話能力を理解することは、より慎重で適切なデプロイメントにつながる。 これは心の健康のような安全に重要な領域において特に重要であり、誰かの人生は緊急の質問に対する反応の正確な言葉に依存するかもしれない。 本稿では,LLMのニュアンスな会話能力を評価するための新しい枠組みを提案する。 そこで我々は,心理療法の会話分析文献を用いた文献から開発された,一連の定量的指標を開発した。 私たちは、我々のフレームワークとメトリクスが、研究者によって関連するドメインに転送可能であることを保証しますが、それらをメンタルヘルス分野に適用します。 GPTモデルやLlamaモデルを含むいくつかの人気のあるフロンティアLCMを、検証されたメンタルヘルスデータセットを通じて評価するために、当社のフレームワークを使用します。 以上の結果から, GPT4 Turbo は他の選択した LLM と比較すると, バリデーションセラピストと非常によく似た性能を示すことが示唆された。 我々は、特定のメンタルヘルストピック間でLLMの会話パフォーマンスがどのように異なるかを調べるために、さらなる分析を行う。 以上の結果から, GPT4 Turbo は, 保護や関係性といった特定のトピックにおいて, 評価されたセラピストと高い相関性が得られることが示唆された。 我々の貢献は、研究者がより良いLCMを開発するのに役立つと信じており、それによって人々の生活をより肯定的に支援できると信じています。

Understanding the conversation abilities of Large Language Models (LLMs) can help lead to its more cautious and appropriate deployment. This is especially important for safety-critical domains like mental health, where someone's life may depend on the exact wording of a response to an urgent question. In this paper, we propose a novel framework for evaluating the nuanced conversation abilities of LLMs. Within it, we develop a series of quantitative metrics developed from literature on using psychotherapy conversation analysis literature. While we ensure that our framework and metrics are transferable by researchers to relevant adjacent domains, we apply them to the mental health field. We use our framework to evaluate several popular frontier LLMs, including some GPT and Llama models, through a verified mental health dataset. Our results show that GPT4 Turbo can perform significantly more similarly to verified therapists than other selected LLMs. We conduct additional analysis to examine how LLM conversation performance varies across specific mental health topics. Our results indicate that GPT4 Turbo performs well in achieving high correlation with verified therapists in particular topics such as Parenting and Relationships. We believe our contributions will help researchers develop better LLMs that, in turn, will more positively support people's lives.
翻訳日:2024-03-25 07:56:27 公開日:2024-03-08
# SF-MMCN:低消費電力再構成可能なサーバフロー畳み込みニューラルネットワーク加速器

SF-MMCN: A Low Power Re-configurable Server Flow Convolution Neural Network Accelerator ( http://arxiv.org/abs/2403.10542v1 )

ライセンス: Link先を確認
Huan-Ke Hsu, I-Chyn Wey, T. Hui Teo, (参考訳) 畳み込みニューラルネットワーク(CNN)アクセラレータは近年急速に開発されている。 様々な機能とアルゴリズムを備えたCNNアクセラレータが多数存在し、低消費電力と高速な性能を実現している。 しかし、従来のCNNアクセラレータではPEアレイのスケールが大きすぎるため、乗算および蓄積(MAC)計算を行う際に最もエネルギー消費がかかる。 もう1つの問題は、CNNモデルの進歩により、Residual Network(Residual Network)の残留ブロックのような並列構造からなる巨大なモデルが存在することである。 CNNモデルにおける並列構造の出現は、操作効率と面積効率の両方に影響を与えるため、CNNアクセラレータの設計に挑戦する。 本研究ではSF-MMCN構造を提案する。 提案設計におけるPEアレイのスケールは,PEのパイプライン技術により低減される。 提案した SF-MMCN 構造は,CNN モデルにおいて並列構造に対して高い効率で動作可能である。 提案された設計は、VGG-16およびResNet-18環境上でTSMC 90nm技術で実装されている。 提案手法の性能は76%の省エネ、55%の省エネ、55%の省エネ、5.25倍の省エネ、4.92倍の効率である。

Convolution Neural Network (CNN) accelerators have been developed rapidly in recent studies. There are lots of CNN accelerators equipped with a variety of function and algorithm which results in low power and high-speed performances. However, the scale of a PE array in traditional CNN accelerators is too big, which costs the most energy consumption while conducting multiply and accumulation (MAC) computations. The other issue is that due to the advance of CNN models, there are enormous models consist of parallel structures such as residual block in Residual Network (ResNet). The appearance of parallel structure in CNN models gives a challenge to the design of CNN accelerators owing to impacts on both operation and area efficiency. This study proposed SF-MMCN structure. The scale of PE array in proposed designs is reduced by pipeline technique in a PE. Proposed SF structure successfully make proposed SF-MMCN operate in high efficiency when facing parallel structures in CNN models. Proposed design is implemented with TSMC 90nm technology on VGG-16 and ResNet-18 environments. The performance of proposed design achieves 76% energy saving, 55% area saving and increases operation and are efficiency 9.25 times and 4.92 times respectively.
翻訳日:2024-03-25 07:56:27 公開日:2024-03-08
# 線形拘束重み:ニューラルネットワークの高速トレーニングのための活性化シフトの低減

Linearly Constrained Weights: Reducing Activation Shift for Faster Training of Neural Networks ( http://arxiv.org/abs/2403.13833v1 )

ライセンス: Link先を確認
Takuro Kutsuna, (参考訳) 本稿では、ニューロンの重みベクトルと前層の活性化ベクトルの平均との角度に依存する非ゼロ平均を持つニューラルネットワークにおいて、活性化シフトを初めて同定する。 次に,完全連結層と畳み込み層の両方の活性化シフトを低減するために,線形拘束重み (LCW) を提案する。 ニューラルネットワークにおけるアクティベーションシフトを減少させる影響は、前と後の両方のチェーンの層操作を通して、ネットワーク内の変数のばらつきがどのように変化するかという観点から研究される。 また、消滅する勾配問題との関係についても論じる。 実験結果からLCWは,Sigmoidアクティベーション機能を有するディープフィードフォワードネットワークを,消失する勾配問題の解法により効率的に訓練することが可能であることが示唆された。 さらに、バッチ正規化と組み合わせることで、LCWはフィードフォワードおよび畳み込みネットワークの一般化性能を向上させる。

In this paper, we first identify activation shift, a simple but remarkable phenomenon in a neural network in which the preactivation value of a neuron has non-zero mean that depends on the angle between the weight vector of the neuron and the mean of the activation vector in the previous layer. We then propose linearly constrained weights (LCW) to reduce the activation shift in both fully connected and convolutional layers. The impact of reducing the activation shift in a neural network is studied from the perspective of how the variance of variables in the network changes through layer operations in both forward and backward chains. We also discuss its relationship to the vanishing gradient problem. Experimental results show that LCW enables a deep feedforward network with sigmoid activation functions to be trained efficiently by resolving the vanishing gradient problem. Moreover, combined with batch normalization, LCW improves generalization performance of both feedforward and convolutional networks.
翻訳日:2024-03-25 07:07:37 公開日:2024-03-08
# 非局所量子状態アンサンブルによるマルチプレイヤー量子データ隠蔽

Multi-player quantum data hiding by nonlocal quantum state ensembles ( http://arxiv.org/abs/2403.14363v1 )

ライセンス: Link先を確認
Donghoon Ha, Jeong San Kim, (参考訳) マルチパーティの量子状態識別から生じる非局所量子状態アンサンブルに基づくマルチプレイヤー量子データ隠れを提供する。 マルチパーティ量子状態の局所的最小エラー判定のバウンダリを用いて、マルチプレイヤー量子データハイディング方式を構築する。 データハイディング方式は、すべてのプレイヤーが協力しない限り、複数のビットを隠蔽するために使用できます。 また、非局所量子状態アンサンブルの例を例に示す。

We provide multi-player quantum data hiding based on nonlocal quantum state ensembles arising from multi-party quantum state discrimination. Using bounds on local minimum-error discrimination of multi-party quantum states, we construct a multi-player quantum data-hiding scheme. Our data-hiding scheme can be used to hide multiple bits, asymptotically, unless all the players collaborate. We also illustrate our results by examples of nonlocal quantum state ensembles.
翻訳日:2024-03-25 07:07:37 公開日:2024-03-08
# マルチユーザー拡張現実アプリケーションにおける共有状態のアタック

That Doesn't Go There: Attacks on Shared State in Multi-User Augmented Reality Applications ( http://arxiv.org/abs/2308.09146v2 )

ライセンス: Link先を確認
Carter Slocum, Yicheng Zhang, Erfan Shayegani, Pedram Zaree, Nael Abu-Ghazaleh, Jiasi Chen, (参考訳) Augmented Reality(AR)は、共有仮想体験の実現において、広く普及するコンポーネントになることが期待されている。 複数のユーザ間のコラボレーションを促進するためには、仮想世界の“共有状態”とその拡張に関するコンセンサスを確立することが、マルチユーザARアプリケーションにとって不可欠である。 共有状態の生成とアクセスのための現在の方法は、デバイス(例えばカメライメージ)からセンサデータを収集し、それらを処理し、それらを共有状態に統合する。 しかし、このプロセスは新たな脆弱性と攻撃の機会をもたらす。 不正に偽のデータを「毒」に書き込むことは、それに依存する下流の犠牲者の安全にとって大きな懸念である。 別のタイプの脆弱性は、共有状態を読むときに発生し、偽の入力を提供することで、攻撃者はアクセスできない場所でホログラムの増大を見ることができる。 本研究では、共有状態を持つ複数のARフレームワークに対して、3つの公開アクセス可能なフレームワークに焦点を当てた、一連の新しい攻撃を実演する。 これらのフレームワークは、異なる実装、スコープ、メカニズムを使用して共有状態を読み書きする一方で、統一された脅威モデルに脆弱性を共有していることを示します。 これらの最先端ARアプリケーションの評価は、異なるシステム間で共有状態の更新とアクセスの両方に対する信頼性の高い攻撃を示す。 このような脅威に対して防御するために,マルチユーザARアプリケーションのセキュリティ向上に役立つ,潜在的な緩和戦略について論じる。

Augmented Reality (AR) is expected to become a pervasive component in enabling shared virtual experiences. In order to facilitate collaboration among multiple users, it is crucial for multi-user AR applications to establish a consensus on the "shared state" of the virtual world and its augmentations, through which they interact within augmented reality spaces. Current methods to create and access shared state collect sensor data from devices (e.g., camera images), process them, and integrate them into the shared state. However, this process introduces new vulnerabilities and opportunities for attacks. Maliciously writing false data to "poison" the shared state is a major concern for the security of the downstream victims that depend on it. Another type of vulnerability arises when reading the shared state; by providing false inputs, an attacker can view hologram augmentations at locations they are not allowed to access. In this work, we demonstrate a series of novel attacks on multiple AR frameworks with shared states, focusing on three publicly-accessible frameworks. We show that these frameworks, while using different underlying implementations, scopes, and mechanisms to read from and write to the shared state, have shared vulnerability to a unified threat model. Our evaluation of these state-of-art AR applications demonstrates reliable attacks both on updating and accessing shared state across the different systems. To defend against such threats, we discuss a number of potential mitigation strategies that can help enhance the security of multi-user AR applications.
翻訳日:2024-03-17 17:20:31 公開日:2024-03-08
# Tortoise: 認証暗号化スキーム

Tortoise: An Authenticated Encryption Scheme ( http://arxiv.org/abs/2309.05769v2 )

ライセンス: Link先を確認
Kenneth Odoh, (参考訳) インターネットのオープンな性質を考えると、固有の信頼問題に対処するための認証スキームが必要である。 本稿では,Synthetic Counter-in-Tweakをモデルとした実験的なナンスベース認証方式Tortoiseを提案する。 本稿では,ブロック暗号をAssociated Dataを用いた認証暗号化に変換するための汎用的なプラグイン・アンド・プレイフレームワークを示す。 この研究の一環として、汎用的な微調整可能な暗号を構築するために、XORプロシージャを利用した。 最後に、nonce-respectingとnonce-misuse-resistantの2つのモードをサポートする。 ソースコードはhttps://github.com/kenluck2001/cipherResearch/tree/main/src/tortoiseで公開されている。

Given the open nature of the Internet, there is a need for authentication schemes to address inherent trust issues. We present Tortoise, an experimental nonce-based authenticated encryption scheme modeled on the Synthetic Counter-in-Tweak. This paper demonstrates a generalizable plug-and-play framework for converting block cipher into Authenticated Encryption with Associated Data. As part of this work, we utilized an XOR procedure for constructing a generic tweakable cipher. Finally, we support two modes: nonce-respecting and nonce-misuse-resistant. Source code available at https://github.com/kenluck2001/cipherResearch/tree/main/src/tortoise.
翻訳日:2024-03-17 17:20:31 公開日:2024-03-08
# Private Countリリース: プライベートデータ分析のためのシンプルでスケーラブルなアプローチ

Private Count Release: A Simple and Scalable Approach for Private Data Analytics ( http://arxiv.org/abs/2403.05073v1 )

ライセンス: Link先を確認
Ryan Rogers, (参考訳) 本稿では,プライバシの差分とオンボーディングの最小限の労力で正確なカウントを解放し,さらにオンボーディングの労力を必要とする他のアプローチよりも優れたインスタンスを示すデータ分析システムを提案する。 我々の提案と既存のアプローチの主な違いは、異なる要素(例えば$\ell_0$-sensitive bounds)に対するユーザのコントリビューション境界に依存していないことである。 差分プライバシーを確保するために$\ell_0$-sensitivityのコントリビューションバウンダリは必要とされているが、実際には必要ではないことを示し、より正確な結果をリリースする可能性がある。 極小のハイパーパラメータチューニングが必要であり、いくつかの公開データセットで結果を示す。 このアプローチは、さまざまなデータ分析アプリケーションに対して、差分プライバシのスケールに役立ちたいと思っています。

We present a data analytics system that ensures accurate counts can be released with differential privacy and minimal onboarding effort while showing instances that outperform other approaches that require more onboarding effort. The primary difference between our proposal and existing approaches is that it does not rely on user contribution bounds over distinct elements, i.e. $\ell_0$-sensitivity bounds, which can significantly bias counts. Contribution bounds for $\ell_0$-sensitivity have been considered as necessary to ensure differential privacy, but we show that this is actually not necessary and can lead to releasing more results that are more accurate. We require minimal hyperparameter tuning and demonstrate results on several publicly available dataset. We hope that this approach will help differential privacy scale to many different data analytics applications.
翻訳日:2024-03-17 16:41:26 公開日:2024-03-08
# TIPS:セキュリティ強化のための脅威共有情報プラットフォーム

TIPS: Threat Sharing Information Platform for Enhanced Security ( http://arxiv.org/abs/2403.05210v1 )

ライセンス: Link先を確認
Lakshmi Rama Kiran Pasumarthy, Hisham Ali, William J Buchanan, Jawad Ahmad, Audun Josang, Vasileios Mavroeidis, Mouad Lemoudden, (参考訳) 広範囲にわたるサイバー攻撃を防ぐため、脅威情報を共有する必要性が高まっている。 脅威関連情報共有は電子メール通信などの従来の情報交換手法によって行うことができるが、信頼性やプライバシーの観点からは弱いことが多い。 さらに、異なる情報共有ドメイン間の信頼基盤が欠如していることも大きな課題となる。 これらの課題には、情報の再実行、忘れるべき権利、情報共有要素へのアクセス制御などが含まれる。 これらのアクセス問題は、時間制限、データの信頼できる削除、アクセスの場所に関連する可能性がある。 本稿では、AABE(Attribute-Based Encryption)、HHE(Homomorphic Encryption)、ZKP(Zero Knowledge Proof)を統合した信頼できる情報共有プロセスの抽象化、特にHyperledger Fabric(HLF)について述べる。 次に、2つの脅威共有エージェント間のプロトコル交換を提供し、信頼されたチャネルを通じて暗号化されたメッセージを共有する。 この信頼できるチャネルは、共有に信頼された人々によってのみアクセスでき、各データ共有要素に対して有効にしたり、長期的な共有のために設定したりできる。

There is an increasing need to share threat information for the prevention of widespread cyber-attacks. While threat-related information sharing can be conducted through traditional information exchange methods, such as email communications etc., these methods are often weak in terms of their trustworthiness and privacy. Additionally, the absence of a trust infrastructure between different information-sharing domains also poses significant challenges. These challenges include redactment of information, the Right-to-be-forgotten, and access control to the information-sharing elements. These access issues could be related to time bounds, the trusted deletion of data, and the location of accesses. This paper presents an abstraction of a trusted information-sharing process which integrates Attribute-Based Encryption (ABE), Homomorphic Encryption (HE) and Zero Knowledge Proof (ZKP) integrated into a permissioned ledger, specifically Hyperledger Fabric (HLF). It then provides a protocol exchange between two threat-sharing agents that share encrypted messages through a trusted channel. This trusted channel can only be accessed by those trusted in the sharing and could be enabled for each data-sharing element or set up for long-term sharing.
翻訳日:2024-03-17 16:41:26 公開日:2024-03-08
# プログラム可能な論理制御系のためのARM TrustZone信頼実行環境の実用性について

On Practicality of Using ARM TrustZone Trusted Execution Environment for Securing Programmable Logic Controllers ( http://arxiv.org/abs/2403.05448v1 )

ライセンス: Link先を確認
Zhiang Li, Daisuke Mashima, Wen Shei Ong, Ertem Esiner, Zbigniew Kalbarczyk, Ee-Chien Chang, (参考訳) プログラム可能なロジックコントローラ(PLC)は、スマートパワーグリッド、水処理システム、製造システム、輸送システムなど、様々な産業制御システム(ICS)で自動制御を実装するための重要な装置である。 その重要性から、PLCは、制御ロジックの実行の完全性を妥協することで、国のクリティカルインフラストラクチャを含むICSの運用を妨害することを目的としたサイバー攻撃の標的であることが多い。 ICSの幅広いサイバーセキュリティソリューションが提案されているが、メモリ、I/Oインターフェース、またはPLCロジック自体を操作できるPLCデバイスを基盤として強力な敵に対抗することはできない。 最近では、PLCを含む多くのICSデバイスがARMベースのプロセッサ上で動作しており、組み込みデバイス上でTrusted Execution Environment(TEE)を提供するARM TrustZoneと呼ばれる有望なセキュリティ技術がある。 近い将来、ICSデバイスでこのようなハードウェア支援セキュリティ機能が利用できるようになることを想定し、PLCのセキュリティを高めるためのARM TrustZone TEE技術の適用について検討する。 本研究の目的は,OP-TEE や OpenPLC などのオープンソースソフトウェアを用いた概念実証設計と実装を通じて,TEE ベースの PLC の実現可能性と実用性を評価することである。 実世界のICS構成の性能と資源消費を評価し,その結果に基づいて,大規模ICSへのOP-TEEセキュリティOSのボトルネックと,ICSデバイスへの適用を希望する変更について検討した。 我々の実施は、さらなる研究と研究のために公開されています。

Programmable logic controllers (PLCs) are crucial devices for implementing automated control in various industrial control systems (ICS), such as smart power grids, water treatment systems, manufacturing, and transportation systems. Owing to their importance, PLCs are often the target of cyber attackers that are aiming at disrupting the operation of ICS, including the nation's critical infrastructure, by compromising the integrity of control logic execution. While a wide range of cybersecurity solutions for ICS have been proposed, they cannot counter strong adversaries with a foothold on the PLC devices, which could manipulate memory, I/O interface, or PLC logic itself. These days, many ICS devices in the market, including PLCs, run on ARM-based processors, and there is a promising security technology called ARM TrustZone, to offer a Trusted Execution Environment (TEE) on embedded devices. Envisioning that such a hardware-assisted security feature becomes available for ICS devices in the near future, this paper investigates the application of the ARM TrustZone TEE technology for enhancing the security of PLC. Our aim is to evaluate the feasibility and practicality of the TEE-based PLCs through the proof-of-concept design and implementation using open-source software such as OP-TEE and OpenPLC. Our evaluation assesses the performance and resource consumption in real-world ICS configurations, and based on the results, we discuss bottlenecks in the OP-TEE secure OS towards a large-scale ICS and desired changes for its application on ICS devices. Our implementation is made available to public for further study and research.
翻訳日:2024-03-17 16:41:26 公開日:2024-03-08
# AMUSE: データセットウォーターマーキングのための適応型マルチセグメントエンコーディング

AMUSE: Adaptive Multi-Segment Encoding for Dataset Watermarking ( http://arxiv.org/abs/2403.05628v1 )

ライセンス: Link先を確認
Saeed Ranjbar Alvar, Mohammad Akbari, David, Yue, Lingyang Chu, Yong Zhang, (参考訳) 新しいAIアプリケーションの出現に重要な役割を果たしている高品質なデータセットのキュレーションには、かなりの時間、お金、計算リソースが必要です。 そのため、データセットの効果的なオーナシップ保護が重要になっています。 近年、画像データセットの所有権を保護するために、個々の画像サンプルに所有権情報(すなわち透かし)を保存するために、知覚不能な透かし技術が用いられている。 すべてのサンプルに透かし全体を埋め込むことは、透かしのデータセットの品質と抽出精度を損なう埋め込み情報にかなりの冗長性をもたらす。 本稿では,データセット透かし(AMUSE)のためのマルチセグメント符号化復号法を提案し,元の透かしを短いサブメッセージの集合に適応的にマッピングし,その逆も提案する。 我々のメッセージエンコーダは、ターゲットデータセットの保護要件に応じてサブメッセージの長さを調整する適応的手法である。 既存の画像透かし手法を使用して、データセット内の元の画像にサブメッセージを埋め込むとともに、透かし画像からそれらを抽出する。 次に、デコーダを使用して、抽出したサブメッセージから元のメッセージを再構築する。 提案するエンコーダとデコーダは,任意のウォーターマーキングメソッドに簡単に追加可能なプラグイン・アンド・プレイモジュールである。 この目的のために、AMUSEを適用することで、同じデータセットの品質に対して、全体のメッセージ抽出精度が最大28%向上することを示す複数の透かしソリューションで、広範な実験がプリフォームされている。 さらに、画像データセットの品質は、テストされた画像透かし法の1つの抽出精度を改善しつつ、平均$\approx$2 dBのPSNRで向上する。

Curating high quality datasets that play a key role in the emergence of new AI applications requires considerable time, money, and computational resources. So, effective ownership protection of datasets is becoming critical. Recently, to protect the ownership of an image dataset, imperceptible watermarking techniques are used to store ownership information (i.e., watermark) into the individual image samples. Embedding the entire watermark into all samples leads to significant redundancy in the embedded information which damages the watermarked dataset quality and extraction accuracy. In this paper, a multi-segment encoding-decoding method for dataset watermarking (called AMUSE) is proposed to adaptively map the original watermark into a set of shorter sub-messages and vice versa. Our message encoder is an adaptive method that adjusts the length of the sub-messages according to the protection requirements for the target dataset. Existing image watermarking methods are then employed to embed the sub-messages into the original images in the dataset and also to extract them from the watermarked images. Our decoder is then used to reconstruct the original message from the extracted sub-messages. The proposed encoder and decoder are plug-and-play modules that can easily be added to any watermarking method. To this end, extensive experiments are preformed with multiple watermarking solutions which show that applying AMUSE improves the overall message extraction accuracy upto 28% for the same given dataset quality. Furthermore, the image dataset quality is enhanced by a PSNR of $\approx$2 dB on average, while improving the extraction accuracy for one of the tested image watermarking methods.
翻訳日:2024-03-17 16:41:26 公開日:2024-03-08
# SCTPの形式解析:攻撃合成とパッチ検証

A Formal Analysis of SCTP: Attack Synthesis and Patch Verification ( http://arxiv.org/abs/2403.05663v1 )

ライセンス: Link先を確認
Jacob Ginesin, Max von Hippel, Evan Defloor, Cristina Nita-Rotaru, Michael Tüxen, (参考訳) SCTPは、マルチホーミング、マルチストリーミング、メッセージ指向配信などの機能を提供するトランスポートプロトコルである。 2つの主要な実装はPacketDrillツールを使って適合性テストを受けた。 コンフォーマンステストは徹底的ではなく、最近の脆弱性 (CVE-2021-3772) ではSCTPは攻撃に免疫がないことが示された。 脆弱性に対処する変更は実装されたが、プロトコル設計において他の欠陥が持続するかどうかには疑問が残る。 SCTP設計の安全性について検討し,厳密なアプローチを形式的手法に根ざして検討した。 SCTPの正式なPromelaモデルを作成し、RFC仕様とRFCのリード作者との相談に基づいて、本質的なプロトコル機能をキャプチャする10のプロパティを定義します。 次に、Spinモデルチェッカーを用いて、モデルがこれらの特性を満たすことを示す。 攻撃者は仲間のポートとIPを隠蔽できる外部者であり、攻撃者は悪意のあるピアであるEvil-Server、攻撃者が捕獲して再生できるReplay、パケットを変更できないOn-Path、攻撃者がピア間のチャネルを制御するOn-Pathの4つのモデルを定義します。 我々は、SCTPモデルと4つの攻撃モデルをサポートするために、トランスポートプロトコルKorg用に設計された攻撃合成ツールを修正した。 攻撃モデルには、オフパス攻撃モデルにおけるCVE脆弱性、Evil-Server攻撃モデルにおける4つの攻撃、Replay攻撃モデルにおける機会論的ABORT攻撃、On-Path攻撃モデルにおける8つの接続操作攻撃が含まれる。 提案したパッチは脆弱性を排除し,我々のモデルやプロトコルの特性に応じて新たなパッチを導入しないことを示す。 最後に、RFCの曖昧さを特定し解析し、安全でない解釈をすることができることを示す。 本稿では,そのあいまいさを排除し,不明瞭さを解消する手法を提案する。

SCTP is a transport protocol offering features such as multi-homing, multi-streaming, and message-oriented delivery. Its two main implementations were subjected to conformance tests using the PacketDrill tool. Conformance testing is not exhaustive and a recent vulnerability (CVE-2021-3772) showed SCTP is not immune to attacks. Changes addressing the vulnerability were implemented, but the question remains whether other flaws might persist in the protocol design. We study the security of the SCTP design, taking a rigorous approach rooted in formal methods. We create a formal Promela model of SCTP, and define 10 properties capturing the essential protocol functionality based on its RFC specification and consultation with the lead RFC author. Then we show using the Spin model checker that our model satisfies these properties. We define 4 attacker models - Off-Path, where the attacker is an outsider that can spoof the port and IP of a peer; Evil-Server, where the attacker is a malicious peer; Replay, where an attacker can capture and replay, but not modify, packets; and On-Path, where the attacker controls the channel between peers. We modify an attack synthesis tool designed for transport protocols, Korg, to support our SCTP model and four attacker models. We synthesize 14 unique attacks using the attacker models - including the CVE vulnerability in the Off-Path attacker model, 4 attacks in the Evil-Server attacker model, an opportunistic ABORT attack in the Replay attacker model, and eight connection manipulation attacks in the On-Path attacker model. We show that the proposed patch eliminates the vulnerability and does not introduce new ones according to our model and protocol properties. Finally, we identify and analyze an ambiguity in the RFC, which we show can be interpreted insecurely. We propose an erratum and show that it eliminates the ambiguity.
翻訳日:2024-03-17 16:41:26 公開日:2024-03-08
# インセプションアタック:バーチャルリアリティシステムにおける没入型ハイジャック

Inception Attacks: Immersive Hijacking in Virtual Reality Systems ( http://arxiv.org/abs/2403.05721v1 )

ライセンス: Link先を確認
Zhuolin Yang, Cathy Yuanchen Li, Arman Bhalla, Ben Y. Zhao, Haitao Zheng, (参考訳) バーチャルリアリティ(VR)システムの最近の進歩は、ユーザとオンラインリソース、アプリケーション、および相互を接続する完全に没入的なインタラクションを提供する。 しかし、これらの没入的なインターフェイスは、ユーザーが新しいタイプのセキュリティ攻撃に陥るのを楽にする。 攻撃者がVR環境とアプリケーションとのインタラクションをコントロールし、操作するインセプション攻撃を導入する。 一度"インセプションVRレイヤ"に閉じ込められたら、リモートサーバやネットワークアプリケーション、その他のVRユーザとのインタラクションはすべて、その知識なしに記録または修正することができる。 これにより、従来の攻撃(パスワードの記録と飛行中のユーザーアクションの変更)、およびVRインタラクション攻撃を可能にし、2人のVRユーザーが対話する(生成AIツールを使って)2つの異なる会話を体験することができる。 本稿では,インセプション攻撃とその設計について紹介し,すべてのMeta Quest VRヘッドセットで動作する実装について述べる。 我々のインセプションアタックの実装には、Meta Questブラウザのクローンバージョンが含まれており、ユーザに対して表示されるようにデータを変更でき、サーバへのルートでユーザ入力を変更できます(例えば、銀行セッションで転送された$を変更)。 私たちの実装にはクローンのVRChatアプリも含まれており、アタッカーは2人のVRユーザー間でライブオーディオを盗聴して修正することができる。 そして、さまざまなVR体験を持つユーザについて調査を行い、セッション中にインセプションアタックを実行し、彼らの体験について報告します。 発端攻撃が始まった瞬間の視覚的「グリッチ」に気づいたのはわずか37%で、1人を除いてVRプラットフォームに欠陥があったと回答した。 最後に、幅広い潜在的な開始防御に対する有効性とトレードオフについて検討し、議論する。

Recent advances in virtual reality (VR) system provide fully immersive interactions that connect users with online resources, applications, and each other. Yet these immersive interfaces can make it easier for users to fall prey to a new type of security attacks. We introduce the inception attack, where an attacker controls and manipulates a user's interaction with their VR environment and applications, by trapping them inside a malicious VR application that masquerades as the full VR system. Once trapped in an "inception VR layer", all of the user's interactions with remote servers, network applications, and other VR users can be recorded or modified without their knowledge. This enables traditional attacks (recording passwords and modifying user actions in flight), as well as VR interaction attacks, where (with generative AI tools) two VR users interacting can experience two dramatically different conversations. In this paper, we introduce inception attacks and their design, and describe our implementation that works on all Meta Quest VR headsets. Our implementation of inception attacks includes a cloned version of the Meta Quest browser that can modify data as it's displayed to the user, and alter user input en route to the server (e.g. modify amount of $ transferred in a banking session). Our implementation also includes a cloned VRChat app, where an attacker can eavesdrop and modify live audio between two VR users. We then conduct a study on users with a range of VR experiences, execute the inception attack during their session, and debrief them about their experiences. Only 37% of users noticed the momentary visual "glitch" when the inception attack began, and all but 1 user attributed it to imperfections in the VR platform. Finally, we consider and discuss efficacy and tradeoffs for a wide range of potential inception defenses.
翻訳日:2024-03-17 16:41:26 公開日:2024-03-08
# ビデオ同期によるテキスト・ツー・オーディオ生成

Text-to-Audio Generation Synchronized with Videos ( http://arxiv.org/abs/2403.07938v1 )

ライセンス: Link先を確認
Shentong Mo, Jing Shi, Yapeng Tian(参考訳) 近年,テキスト・トゥ・オーディオ(TTA)生成への注目が高まり,研究者たちはテキスト記述から音声を合成しようと試みている。 しかし、既存のほとんどの手法は、遅延拡散モデルを利用して音声とテキストの埋め込みの相関関係を学習するが、生成した音声とビデオのシームレスな同期を維持するには不十分である。 これはしばしば、識別可能なオーディオと視覚のミスマッチをもたらす。 このギャップを埋めるために、T2AV-Benchというビデオに合わせたText-to-Audio生成のための画期的なベンチマークを導入する。 このベンチマークは、視覚的アライメントと時間的整合性を評価するための3つの新しい指標と区別する。 また,これを補完するために,T2AVという,シンプルながら効果的なビデオアライメントTTA生成モデルを提案する。 従来の方法を超えて、T2AVは、視覚的に整列したテキスト埋め込みを条件付き基盤として統合することで、潜伏拡散アプローチを洗練する。 ビデオデータから時間的ニュアンスを抽出し理解するために,時間的マルチヘッドアテンショントランスフォーマーを採用している。 この統合をさらに強化し、視覚対応のテキスト埋め込みが音声特徴と密に共鳴することを保証するために、コントラスト学習の目標を織り込んだ。 AudioCapsとT2AV-Benchの広範囲な評価は、我々のT2AVが視覚的アライメントと時間的整合性を確保するために、ビデオアライメントTTA生成の新しい標準を設定していることを示している。

In recent times, the focus on text-to-audio (TTA) generation has intensified, as researchers strive to synthesize audio from textual descriptions. However, most existing methods, though leveraging latent diffusion models to learn the correlation between audio and text embeddings, fall short when it comes to maintaining a seamless synchronization between the produced audio and its video. This often results in discernible audio-visual mismatches. To bridge this gap, we introduce a groundbreaking benchmark for Text-to-Audio generation that aligns with Videos, named T2AV-Bench. This benchmark distinguishes itself with three novel metrics dedicated to evaluating visual alignment and temporal consistency. To complement this, we also present a simple yet effective video-aligned TTA generation model, namely T2AV. Moving beyond traditional methods, T2AV refines the latent diffusion approach by integrating visual-aligned text embeddings as its conditional foundation. It employs a temporal multi-head attention transformer to extract and understand temporal nuances from video data, a feat amplified by our Audio-Visual ControlNet that adeptly merges temporal visual representations with text embeddings. Further enhancing this integration, we weave in a contrastive learning objective, designed to ensure that the visual-aligned text embeddings resonate closely with the audio features. Extensive evaluations on the AudioCaps and T2AV-Bench demonstrate that our T2AV sets a new standard for video-aligned TTA generation in ensuring visual alignment and temporal consistency.
翻訳日:2024-03-14 17:27:47 公開日:2024-03-08
# 音声ロバストベンチ:音声認識のためのロバストネスベンチマーク

Speech Robust Bench: A Robustness Benchmark For Speech Recognition ( http://arxiv.org/abs/2403.07937v1 )

ライセンス: Link先を確認
Muhammad A. Shah, David Solans Noguero, Mikko A. Heikkila and Nicolas Kourtellis(参考訳) 音声認識(ASR)モデルがより広く普及するにつれて、物理・デジタルの世界に存在する汚職の下で信頼性の高い予測を行うことが重要である。 本稿では,多様な汚職に対するASRモデルの堅牢性を評価するための総合的なベンチマークであるSingech Robust Bench (SRB)を提案する。 SRBは69の入力摂動で構成されており、ASRモデルが物理的およびデジタルの世界で遭遇する可能性のある様々な腐敗をシミュレートすることを目的としている。 我々は、SRBを用いて、最先端のASRモデルのロバスト性を評価し、モデルサイズと離散表現のような特定のモデル選択、そして自己学習がロバスト性に寄与するように見えることを観察する。 この分析は、英語とスペイン語の話者、および男女の様々な人口層群からのデータに基づいて、ASRモデルのロバスト性を測定するために拡張され、サブグループ間でのモデルのロバスト性に顕著な相違が観察された。 SRBは、より包括的かつ同等の堅牢性評価を行うことにより、より堅牢なASRモデルに向けた将来の研究を促進すると我々は信じている。

As Automatic Speech Recognition (ASR) models become ever more pervasive, it is important to ensure that they make reliable predictions under corruptions present in the physical and digital world. We propose Speech Robust Bench (SRB), a comprehensive benchmark for evaluating the robustness of ASR models to diverse corruptions. SRB is composed of 69 input perturbations which are intended to simulate various corruptions that ASR models may encounter in the physical and digital world. We use SRB to evaluate the robustness of several state-of-the-art ASR models and observe that model size and certain modeling choices such as discrete representations, and self-training appear to be conducive to robustness. We extend this analysis to measure the robustness of ASR models on data from various demographic subgroups, namely English and Spanish speakers, and males and females, and observed noticeable disparities in the model's robustness across subgroups. We believe that SRB will facilitate future research towards robust ASR models, by making it easier to conduct comprehensive and comparable robustness evaluations.
翻訳日:2024-03-14 17:27:47 公開日:2024-03-08
# 構造保存介入による内因的因果貢献の定量化

Quantifying intrinsic causal contributions via structure preserving interventions ( http://arxiv.org/abs/2007.00714v4 )

ライセンス: Link先を確認
Dominik Janzing, Patrick Bl\"obaum, Atalanti A. Mastakouri, Philipp M. Faller, Lenon Minorics, Kailash Budhathoki(参考訳) 本稿では,DAGのノードに対するノードの寄与の「内在的」部分を記述する因果的影響の概念を提案する。 各ノードを上流雑音項の関数として再帰的に書き直すことにより、各ノードが付加する固有情報をその祖先から得たものから分離する。 内在的な情報を「it因果的」な貢献と解釈するために、親への通常の依存を模倣し、観察された共同分布を乱さない方法で各ノードをランダム化する「構造保存介入」を考える。 分割ノードに対して不変な測度を得るには、Shapleyベースの対称性を使い、ターゲットノードをノイズ変数に分解した後、線形の場合を単純なANOVAに還元することを示す。 我々は分散とエントロピーに対する貢献分析について述べるが、他のターゲットメトリクスへの貢献は類似的に定義できる。 コードはオープンソースライブラリであるDoWhyのパッケージgcmで入手できる。

We propose a notion of causal influence that describes the `intrinsic' part of the contribution of a node on a target node in a DAG. By recursively writing each node as a function of the upstream noise terms, we separate the intrinsic information added by each node from the one obtained from its ancestors. To interpret the intrinsic information as a {\it causal} contribution, we consider `structure-preserving interventions' that randomize each node in a way that mimics the usual dependence on the parents and does not perturb the observed joint distribution. To get a measure that is invariant with respect to relabelling nodes we use Shapley based symmetrization and show that it reduces in the linear case to simple ANOVA after resolving the target node into noise variables. We describe our contribution analysis for variance and entropy, but contributions for other target metrics can be defined analogously. The code is available in the package gcm of the open source library DoWhy.
翻訳日:2024-03-14 02:54:17 公開日:2024-03-08
# リワードマシンの階層化によるマルチエージェント強化学習

Multi-Agent Reinforcement Learning with a Hierarchy of Reward Machines ( http://arxiv.org/abs/2403.07005v1 )

ライセンス: Link先を確認
Xuejing Zheng, Chao Yu(参考訳) 本稿では,報酬機械(rms)を用いた協調的マルチエージェント強化学習(marl)問題について検討し,タスクにおけるハイレベル事象の事前知識を活用し,学習効率を高めるための報酬関数を特定する。 比較的単純なドメインでのタスク分解や政策学習のためにRMがMARLに組み込まれた既存の作業と異なり,エージェント間のイベントが同時に発生し,エージェント間の相互依存度が高い場合に,より複雑なシナリオを処理可能な,RMの階層によるマルチエージェント強化学習(MAHRM)を提案する。 mahrmはハイレベルなイベントの関係を利用して、タスクを小さなエージェントグループに割り当てられた単純なサブタスクの階層に分解し、全体的な計算複雑性を低減する。 3つの協調MARLドメインの実験結果から、MAHRMは、他のMARLメソッドよりも高いレベルの事象の事前知識の方が優れていることが示された。

In this paper, we study the cooperative Multi-Agent Reinforcement Learning (MARL) problems using Reward Machines (RMs) to specify the reward functions such that the prior knowledge of high-level events in a task can be leveraged to facilitate the learning efficiency. Unlike the existing work that RMs have been incorporated into MARL for task decomposition and policy learning in relatively simple domains or with an assumption of independencies among the agents, we present Multi-Agent Reinforcement Learning with a Hierarchy of RMs (MAHRM) that is capable of dealing with more complex scenarios when the events among agents can occur concurrently and the agents are highly interdependent. MAHRM exploits the relationship of high-level events to decompose a task into a hierarchy of simpler subtasks that are assigned to a small group of agents, so as to reduce the overall computational complexity. Experimental results in three cooperative MARL domains show that MAHRM outperforms other MARL methods using the same prior knowledge of high-level events.
翻訳日:2024-03-14 00:27:04 公開日:2024-03-08
# 一般化非文脈オントロジモデルに対する構造定理

A structure theorem for generalized-noncontextual ontological models ( http://arxiv.org/abs/2005.07161v3 )

ライセンス: Link先を確認
David Schmid, John H. Selby, Matthew F. Pusey, and Robert W. Spekkens(参考訳) 操作理論の予測が古典的に説明可能であると考えるべき時期の基準を持つことは有用である。 ここでは、この理論が一般化された非文脈的存在論モデルを認めるという条件を定めている。 一般的な非文脈性に関する既存の研究は、単純な構造を持つ実験的なシナリオに焦点を当てている。 ここでは、オントロジモデルの枠組みと一般化された非文脈性の原理を任意の構成シナリオに拡張する。 いくつかの合理的な仮定の下では、トモグラフィ的局所的操作理論のすべての一般化非文脈的オントロジモデルが驚くほど厳密で単純な数学的構造を持っていることを証明するために、プロセス理論の枠組みを利用する。 この定理の結果として、そのようなモデルで可能な最も多くのオンティック状態は、関連する一般化確率論の次元によって与えられる。 この制約は、非文脈性ノーゴー定理の生成や、実験的に文脈性を証明する手法に有用である。 その過程で,古典性の概念の同値性に関する既知結果を,準備シナリオから任意の構成シナリオまで拡張する。 具体的には、操作理論の古典的説明可能性の3つの概念の対応を証明する。 (i)それに対する非文脈的存在論的モデルの存在 (ii)それが定義する一般化確率論に対する正準確率表現の存在、及び (三)その定義する一般化確率論のための存在論的モデルが存在すること。

It is useful to have a criterion for when the predictions of an operational theory should be considered classically explainable. Here we take the criterion to be that the theory admits of a generalized-noncontextual ontological model. Existing works on generalized noncontextuality have focused on experimental scenarios having a simple structure: typically, prepare-measure scenarios. Here, we formally extend the framework of ontological models as well as the principle of generalized noncontextuality to arbitrary compositional scenarios. We leverage a process-theoretic framework to prove that, under some reasonable assumptions, every generalized-noncontextual ontological model of a tomographically local operational theory has a surprisingly rigid and simple mathematical structure -- in short, it corresponds to a frame representation which is not overcomplete. One consequence of this theorem is that the largest number of ontic states possible in any such model is given by the dimension of the associated generalized probabilistic theory. This constraint is useful for generating noncontextuality no-go theorems as well as techniques for experimentally certifying contextuality. Along the way, we extend known results concerning the equivalence of different notions of classicality from prepare-measure scenarios to arbitrary compositional scenarios. Specifically, we prove a correspondence between the following three notions of classical explainability of an operational theory: (i) existence of a noncontextual ontological model for it, (ii) existence of a positive quasiprobability representation for the generalized probabilistic theory it defines, and (iii) existence of an ontological model for the generalized probabilistic theory it defines.
翻訳日:2024-03-13 18:14:26 公開日:2024-03-08
# 量子イベント学習とゆるやかなランダム測定

Quantum Event Learning and Gentle Random Measurements ( http://arxiv.org/abs/2210.09155v4 )

ライセンス: Link先を確認
Adam Bene Watts and John Bostanci(参考訳) ランダムに順序づけられた二元射影計測の列によって量子系が引き起こされる期待外乱を、少なくとも1つの観測が受け入れる確率の平方根によって上界に証明する。 我々はこれをGentle Random Measurement Lemmaと呼んでいる。 次に、未知の状態である$\rho$ へのサンプルアクセスを与えられた問題を検討し、一連の測定値 $\{m_1, m_2, \ldots , m_m\}$ の受理確率 $\text{tr}[m_i \rho]$ の特性を推定するように要求する。 このような問題を量子イベント学習問題と呼ぶ。 ランダムなランダムな計測補題を用いて、ランダムに順序付けされた射影測定が量子OR問題を解くことを示す。 また、非射影的測定では動作するが、より複雑な種類の測定が必要となる量子あるいはプロトコルを与え、これを混合計測と呼ぶ。 M_1, \ldots, M_m\}$ の集合にさらなる保証が与えられると、本論文で開発されたQuantum OR プロトコルは、$\text{Tr}[M_i \rho]$ が大きければ$M_i$ の測度を求めることもできる。 また、未知の状態における測定セットの平均受入確率を推定するための混合測定ベースのプロトコルも提供する。 最後に, o'donnell と b\u{a}descu によって記述されたしきい値探索問題を考える。 量子事象発見の結果に基づいて、ランダムに順序づけられた(あるいはブレンドされた)測定結果を使って、$o(\log^2(m) / \epsilon^2)$の$rho$を使ってこの問題を解くことができることを示した。 その結果、現在知られている最もよく知られたサンプル複雑性に合致して、$\tilde{o}(\log^2(m)\log(d)/\epsilon^4)$のサンプルを必要とするシャドウトモグラフィのアルゴリズムが得られる。 このアルゴリズムは量子測定において注入ノイズを必要としないが、ランダムな順序で測定する必要があるため、もはやオンラインではない。

We prove the expected disturbance caused to a quantum system by a sequence of randomly ordered two-outcome projective measurements is upper bounded by the square root of the probability that at least one measurement in the sequence accepts. We call this bound the Gentle Random Measurement Lemma. We then consider problems in which we are given sample access to an unknown state $\rho$ and asked to estimate properties of the accepting probabilities $\text{Tr}[M_i \rho]$ of a set of measurements $\{M_1, M_2, \ldots , M_m\}$. We call these types of problems Quantum Event Learning Problems. Using the gentle random measurement lemma, we show randomly ordering projective measurements solves the Quantum OR problem, answering an open question of Aaronson. We also give a Quantum OR protocol which works on non-projective measurements but which requires a more complicated type of measurement, which we call a Blended Measurement. Given additional guarantees on the set of measurements $\{M_1, \ldots, M_m\}$, we show the Quantum OR protocols developed in this paper can also be used to find a measurement $M_i$ such that $\text{Tr}[M_i \rho]$ is large. We also give a blended measurement based protocol for estimating the average accepting probability of a set of measurements on an unknown state. Finally we consider the Threshold Search Problem described by O'Donnell and B\u{a}descu. By building on our Quantum Event Finding result we show that randomly ordered (or blended) measurements can be used to solve this problem using $O(\log^2(m) / \epsilon^2)$ copies of $\rho$. Consequently, we obtain an algorithm for Shadow Tomography which requires $\tilde{O}(\log^2(m)\log(d)/\epsilon^4)$ samples, matching the current best known sample complexity. This algorithm does not require injected noise in the quantum measurements, but does require measurements to be made in a random order and so is no longer online.
翻訳日:2024-03-13 17:58:14 公開日:2024-03-08
# 限定的またはバイアス的:金融市場におけるサブレジェンシャル・ヒューマン・インベスターズをモデル化する

Limited or Biased: Modeling Sub-Rational Human Investors in Financial Markets ( http://arxiv.org/abs/2210.08569v2 )

ライセンス: Link先を確認
Penghang Liu, Kshama Dwarakanath, Svitlana S Vyetrenko, Tucker Balch(参考訳) 実生活における人間の意思決定は、完全に合理的なエージェントによる最適な決定から大きく逸脱する。 行動ファイナンスに関する既存の研究は、ヒューマンサブデューサリティの様々な側面を発見したが、これらの発見を様々な金融市場シナリオに適用可能な適応型人間モデルに移すための包括的な枠組みが欠如している。 本研究では,強化学習を用いた5つのサブリレーショナルな側面を取り入れたフレキシブルモデルを提案する。 本モデルは,個人投資家のラベル付きデータの不足に伴う制約を克服する,高忠実度マルチエージェント市場シミュレータを用いて訓練されている。 本研究では, 手作り市場シナリオとシェープ価値分析を用いて, 人的投資家の行動評価を行い, 先行研究における観察を正確に再現し, 行動の原動力となる要因を明らかにする。 最後に、サブリレータリティが投資家の利益と損失(PnL)および市場品質に与える影響について検討する。 実験の結果,人間行動は流動性を向上するが価格効率を低下させる一方,ミオピア,楽観主義,悲観主義の影響を受け,市場流動性を低下させることがわかった。

Human decision-making in real-life deviates significantly from the optimal decisions made by fully rational agents, primarily due to computational limitations or psychological biases. While existing studies in behavioral finance have discovered various aspects of human sub-rationality, there lacks a comprehensive framework to transfer these findings into an adaptive human model applicable across diverse financial market scenarios. In this study, we introduce a flexible model that incorporates five different aspects of human sub-rationality using reinforcement learning. Our model is trained using a high-fidelity multi-agent market simulator, which overcomes limitations associated with the scarcity of labeled data of individual investors. We evaluate the behavior of sub-rational human investors using hand-crafted market scenarios and SHAP value analysis, showing that our model accurately reproduces the observations in the previous studies and reveals insights of the driving factors of human behavior. Finally, we explore the impact of sub-rationality on the investor's Profit and Loss (PnL) and market quality. Our experiments reveal that bounded-rational and prospect-biased human behaviors improve liquidity but diminish price efficiency, whereas human behavior influenced by myopia, optimism, and pessimism reduces market liquidity.
翻訳日:2024-03-13 17:57:18 公開日:2024-03-08
# フェデレーションバックドア攻撃に対する防御のための不変アグリゲータ

Invariant Aggregator for Defending against Federated Backdoor Attacks ( http://arxiv.org/abs/2210.01834v4 )

ライセンス: Link先を確認
Xiaoyang Wang, Dimitrios Dimitriadis, Sanmi Koyejo, Shruti Tople(参考訳) フェデレーション学習は、プライベートデータを直接共有することなく、複数のクライアント間で高可用性モデルのトレーニングを可能にする。 マイナス面として、フェデレーション設定は、悪意のあるクライアントの存在下で、様々な敵の攻撃に対して、モデルを脆弱にする。 モデルの実用性を低下させようとする攻撃に対する理論的かつ実証的な成功にもかかわらず、バックドアサンプルのモデルの精度を高めるバックドア攻撃に対する防御は、他のサンプルの実用性を損なうことなく、依然として困難である。 この目的のために、我々はまず、resnet(he et al., 2015)のようなよく設計されたニューラルネットワークでよく見られる、フラットなロスランドスケープにおける既存の防御の障害モードを解析します。 そこで我々は,無害なクライアントに好まれる更新要素を選択的にマスキングすることで,集約された更新を不変方向へリダイレクトする不変アグリゲータを提案する。 理論的には,本手法はバックドア攻撃を効果的に軽減し,平らな景観に対して有効であることを示唆している。 異なるモダリティと異なる数のクライアントを持つ3つのデータセットに対する実証的な結果は、我々のアプローチがモデルユーティリティーに無視できないコストで幅広いバックドア攻撃を緩和することを示している。

Federated learning enables training high-utility models across several clients without directly sharing their private data. As a downside, the federated setting makes the model vulnerable to various adversarial attacks in the presence of malicious clients. Despite the theoretical and empirical success in defending against attacks that aim to degrade models' utility, defense against backdoor attacks that increase model accuracy on backdoor samples exclusively without hurting the utility on other samples remains challenging. To this end, we first analyze the failure modes of existing defenses over a flat loss landscape, which is common for well-designed neural networks such as Resnet (He et al., 2015) but is often overlooked by previous works. Then, we propose an invariant aggregator that redirects the aggregated update to invariant directions that are generally useful via selectively masking out the update elements that favor few and possibly malicious clients. Theoretical results suggest that our approach provably mitigates backdoor attacks and remains effective over flat loss landscapes. Empirical results on three datasets with different modalities and varying numbers of clients further demonstrate that our approach mitigates a broad class of backdoor attacks with a negligible cost on the model utility.
翻訳日:2024-03-13 17:56:53 公開日:2024-03-08
# トランスクロスタッチによる極限3次元画像回転の推定

Estimating Extreme 3D Image Rotation with Transformer Cross-Attention ( http://arxiv.org/abs/2303.02615v2 )

ライセンス: Link先を確認
Shay Dekel, Yosi Keller, Martin Cadik(参考訳) 大きな画像と極端な画像の回転の推定は、複数のコンピュータビジョン領域において重要な役割を果たす。 現代のアプローチでは、畳み込みニューラルネットワークを用いて4次元相関体積を計算し、画像対間の相対回転を推定している。 本研究では,cnn特徴マップとトランスフォーマーエンコーダを用いて画像ペアのアクティベーションマップ間のクロスアテンションを計算するクロスアテンションに基づく手法を提案する。 提案手法では、高い注意スコアは回転の視覚的手がかりを符号化する画像領域に関連付けられる。 私たちのアプローチはエンドツーエンドでトレーニング可能で、簡単な回帰損失を最適化します。 一般的に使用されている画像回転データセットやベンチマークに適用した場合、現代の最先端のスキームよりも優れ、これらのデータセットに新たな最先端の精度を確立することが実験的に示されている。 コードを公開しています。

The estimation of large and extreme image rotation plays a key role in multiple computer vision domains, where the rotated images are related by a limited or a non-overlapping field of view. Contemporary approaches apply convolutional neural networks to compute a 4D correlation volume to estimate the relative rotation between image pairs. In this work, we propose a cross-attention-based approach that utilizes CNN feature maps and a Transformer-Encoder, to compute the cross-attention between the activation maps of the image pairs, which is shown to be an improved equivalent of the 4D correlation volume, used in previous works. In the suggested approach, higher attention scores are associated with image regions that encode visual cues of rotation. Our approach is end-to-end trainable and optimizes a simple regression loss. It is experimentally shown to outperform contemporary state-of-the-art schemes when applied to commonly used image rotation datasets and benchmarks, and establishes a new state-of-the-art accuracy on these datasets. We make our code publicly available.
翻訳日:2024-03-13 17:49:28 公開日:2024-03-08
# 2つの同一粒子の絡み合う状態に対する一般化不確かさ原理

Generalized Uncertainty Principle for Entangled States of Two Identical Particles ( http://arxiv.org/abs/2301.11966v3 )

ライセンス: Link先を確認
K. C. Lemos Filho, B. B. Dilem, R. O. Francisco, J. C. Fabris and J. A. Nogueira(参考訳) 本研究では、一般化不確実性原理(GUP)を考慮すると、2つの同一粒子系の量子絡み合いの結果を決定する。 GUPは通常、最小長の存在と関連している。 我々はgupの主な定式化に注目し,修正gupによって引き起こされる位置の不確かさを最小化する。 その結果,gupとは無関係に最小の不確実性が通常の値の半分減少することが判明した。 これは、最小長も半減することを意味する。 一方、最小長は物理系に依存してはならないと一般に期待されている。 このパラドックスを克服するために、絡み合った系は2つの粒子で構成されており、最小長に関する有効パラメータを使わなければならない。

In this work we determine the consequences of the quantum entanglement of a system of two identical particles when the generalized uncertainty principle (GUP) is considered. GUP is usually associated with the existence of a minimal length. We focus on the main formulations of the GUP and then we determine the minimal uncertainties in position induced by those modified GUP's. Our results point out that the minimal uncertainty is reduced by half of its usual value independently of the GUP employed. This implies that the minimal length is also reduced by half. On the other hand, it is generally expected that the minimal length must not depend on physical system. We overcome this apparent paradox by realizing that the entangled system is composed by two particles so that an effective parameter related to the minimal length must be employed.
翻訳日:2024-03-13 17:46:50 公開日:2024-03-08
# 確率勾配に基づく滑らか境界制約最適化問題の解法

A Stochastic-Gradient-based Interior-Point Algorithm for Solving Smooth Bound-Constrained Optimization Problems ( http://arxiv.org/abs/2304.14907v2 )

ライセンス: Link先を確認
Frank E. Curtis, Vyacheslav Kungurtsev, Daniel P. Robinson, Qi Wang(参考訳) 境界制約を受ける連続微分可能な対象関数(非凸かもしれない)を最小化し、解析し、実験結果を通して実証する確率勾配型内点アルゴリズムを提案する。 このアルゴリズムは、探索方向を確率勾配推定を用いて計算するため、滑らかな \edit{nonconvex} 最適化問題を解く他のインテリアポイント法とは異なる。 また、イテレートが残らざるを得ない、実現可能な地域の内側の地区(ポジティブで消滅する近隣パラメータ配列で定義される)の使用にも特有である。 提案アルゴリズムは,障壁,ステップサイズ,近傍列のバランスを慎重に保ち,決定論的および確率的設定の収束保証を満足することを示した。 数値実験の結果、どちらの設定でも、アルゴリズムは \edit{projection-based} メソッドより優れていることが示された。

A stochastic-gradient-based interior-point algorithm for minimizing a continuously differentiable objective function (that may be nonconvex) subject to bound constraints is presented, analyzed, and demonstrated through experimental results. The algorithm is unique from other interior-point methods for solving smooth \edit{nonconvex} optimization problems since the search directions are computed using stochastic gradient estimates. It is also unique in its use of inner neighborhoods of the feasible region -- defined by a positive and vanishing neighborhood-parameter sequence -- in which the iterates are forced to remain. It is shown that with a careful balance between the barrier, step-size, and neighborhood sequences, the proposed algorithm satisfies convergence guarantees in both deterministic and stochastic settings. The results of numerical experiments show that in both settings the algorithm can outperform \edit{projection-based} methods.
翻訳日:2024-03-13 17:41:36 公開日:2024-03-08
# 時間的グルーピングと空間的グルーピングを用いた構造化ビデオ言語モデリング

Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding ( http://arxiv.org/abs/2303.16341v2 )

ライセンス: Link先を確認
Yuanhao Xiong, Long Zhao, Boqing Gong, Ming-Hsuan Yang, Florian Schroff, Ting Liu, Cho-Jui Hsieh, Liangzhe Yuan(参考訳) 既存のビデオ言語による事前学習手法は主に、ビデオクリップとキャプション間のインスタンスレベルのアライメントをグローバルなコントラスト学習を通じて重視するが、ビデオとテキストの双方において、豊富なきめ細かい局所情報を無視する。 映像クリップ中の領域オブジェクトの対応を捉え,空間的および時間的粒度を反映したシーン変化を認識できる強力なモデルが期待されている。 このような細部までモデルの理解を深めるために,これらの2つのモダリティの本質的構造を生かして,単純かつ効果的なビデオ言語モデリングフレームワークs-vilmを提案する。 クリップ間空間グルーピングとクリップ内時間グルーピングという2つの新しいデザインがあり、学習領域のオブジェクトアライメントと時間認識機能を同時に推進している。 包括的評価により、S-ViLMはより表現力のある表現を学習する既存のアプローチに対して好適に機能することが示された。 具体的には、S-ViLMは、テキストビデオ検索、ビデオ質問応答、ビデオ行動認識、時間的行動ローカライゼーションの4つのタスクにおいて、最先端の手法を大幅に超えている。

Existing video-language pre-training methods primarily focus on instance-level alignment between video clips and captions via global contrastive learning but neglect rich fine-grained local information in both videos and text, which is of importance to downstream tasks requiring temporal localization and semantic reasoning. A powerful model is expected to be capable of capturing region-object correspondences and recognizing scene changes in a video clip, reflecting spatial and temporal granularity, respectively. To strengthen model's understanding into such fine-grained details, we propose a simple yet effective video-language modeling framework, S-ViLM, by exploiting the intrinsic structures of these two modalities. It includes two novel designs, inter-clip spatial grounding and intra-clip temporal grouping, to promote learning region-object alignment and temporal-aware features, simultaneously. Comprehensive evaluations demonstrate that S-ViLM performs favorably against existing approaches in learning more expressive representations. Specifically, S-ViLM surpasses the state-of-the-art methods substantially on four representative downstream tasks, covering text-video retrieval, video question answering, video action recognition, and temporal action localization.
翻訳日:2024-03-13 17:37:40 公開日:2024-03-08
# 局所ベイズ最適化の挙動と収束性

The Behavior and Convergence of Local Bayesian Optimization ( http://arxiv.org/abs/2305.15572v3 )

ライセンス: Link先を確認
Kaiwen Wu, Kyurae Kim, Roman Garnett and Jacob R. Gardner(参考訳) ベイズ最適化の最近の発展は、従来のグローバル戦略と比較して高次元問題に対して強い経験的パフォーマンスを提供できる局所最適化戦略の利用である。 文学における「民族知恵」は、局所最適化の焦点が次元の呪いを横切ることであるが、ベイズ局所最適化ルーチンの期待された振る舞いや収束について具体的には知られていない。 まず, 局所的アプローチの挙動を調査し, ガウス過程のサンプルパスの個々の局所解の統計値が, グローバル手法からの回復を期待するものと比較して驚くほど良好であることを見出した。 次に,m\"uller et al. (2021) が最近提案したベイズ局所最適化アルゴリズムの最初の厳密な解析を行い,雑音と無雑音の両方において収束率を求める。

A recent development in Bayesian optimization is the use of local optimization strategies, which can deliver strong empirical performance on high-dimensional problems compared to traditional global strategies. The "folk wisdom" in the literature is that the focus on local optimization sidesteps the curse of dimensionality; however, little is known concretely about the expected behavior or convergence of Bayesian local optimization routines. We first study the behavior of the local approach, and find that the statistics of individual local solutions of Gaussian process sample paths are surprisingly good compared to what we would expect to recover from global methods. We then present the first rigorous analysis of such a Bayesian local optimization algorithm recently proposed by M\"uller et al. (2021), and derive convergence rates in both the noisy and noiseless settings.
翻訳日:2024-03-13 17:28:27 公開日:2024-03-08
# 半古典理論とkoopman-van hove方程式

Semiclassical Theory and the Koopman-van Hove Equation ( http://arxiv.org/abs/2306.01865v3 )

ライセンス: Link先を確認
Ilon Joseph(参考訳) 位相空間 Koopman-van Hove (KvH) 方程式は偏微分方程式の漸近半古典的解析から導かれる。 半古典理論は、複素位相係数に対するハミルトン・ヤコビ方程式と振幅に対する輸送方程式をもたらす。 これらの2つの方程式は結合して構成空間におけるkvh方程式の非線形半古典版を形成することができる。 位相空間への構成空間解の自然な注入と、構成空間への位相空間解の自然な射影がある。 したがって、構成空間 KvH 方程式のすべての解は半古典位相空間 KvH 方程式とハミルトン・ヤコビ制約の両方を満たす。 構成空間の解の場合、この制約は位相空間に2つの異なる保存密度が存在するというパラドックスを解消する。 可積分系では、kvhスペクトルは古典的かつ半古典的スペクトルのデカルト積である。 古典スペクトルが排除されると、ジェフリーズ=ウェンツェル=クラマーズ=ブリルアンマッチング条件(jwkb)の正しい選択により、半古典スペクトルはマスロフ指数による補正を含むアインシュタイン-ブリルアン=ケラー量子化条件を満たす。 しかし、半古典解析は境界条件、連続性要件、定義の領域について異なる選択を用いる。 例えば、複雑なJWKB法を使用すると、位相空間の複素化によるトンネル処理が可能である。 最後に、KvH波動関数は干渉効果の可能性を含むが、位相空間上のすべての観測可能が局所作用素として近似される場合、干渉は観測不可能である。 干渉効果の観測には非局所的な操作、例えば漸近理論の高次を通して考慮する必要がある。

The phase space Koopman-van Hove (KvH) equation can be derived from the asymptotic semiclassical analysis of partial differential equations. Semiclassical theory yields the Hamilton-Jacobi equation for the complex phase factor and the transport equation for the amplitude. These two equations can be combined to form a nonlinear semiclassical version of the KvH equation in configuration space. There is a natural injection of configuration space solutions into phase space and a natural projection of phase space solutions onto configuration space. Hence, every solution of the configuration space KvH equation satisfies both the semiclassical phase space KvH equation and the Hamilton-Jacobi constraint. For configuration space solutions, this constraint resolves the paradox that there are two different conserved densities in phase space. For integrable systems, the KvH spectrum is the Cartesian product of a classical and a semiclassical spectrum. If the classical spectrum is eliminated, then, with the correct choice of Jeffreys-Wentzel-Kramers-Brillouin (JWKB) matching conditions, the semiclassical spectrum satisfies the Einstein-Brillouin-Keller quantization conditions which include the correction due to the Maslov index. However, semiclassical analysis uses different choices for boundary conditions, continuity requirements, and the domain of definition. For example, use of the complex JWKB method allows for the treatment of tunneling through the complexification of phase space. Finally, although KvH wavefunctions include the possibility of interference effects, interference is not observable when all observables are approximated as local operators on phase space. Observing interference effects requires consideration of nonlocal operations, e.g. through higher orders in the asymptotic theory.
翻訳日:2024-03-13 17:20:36 公開日:2024-03-08
# 予算情報公開を伴うコンテキスト帯域

Contextual Bandits with Budgeted Information Reveal ( http://arxiv.org/abs/2305.18511v2 )

ライセンス: Link先を確認
Kyra Gan, Esmaeil Keyvanshokooh, Xueqing Liu, Susan Murphy(参考訳) コンテキストバンディットアルゴリズムは、パーソナライズされた治療を推奨するために一般的にデジタルヘルスで使用される。 しかし、治療の有効性を確保するために、患者は直接の利益のない行動を取るよう要求されることがしばしばあり、これは前処置行動(pro-treatment action)と呼ばれる。 実際には、臨床医は患者にこれらの行動を奨励し、追加情報を集めるための予算が限られている。 本稿では,この問題に対処するための新しい最適化と学習アルゴリズムを提案する。 このアルゴリズムは、シームレスな方法で2つのアルゴリズムアプローチの強みを効果的に結合する。 1)患者にリーチする最適なタイミングを決定するオンラインプライマル・デュアルアルゴリズム,および 2)患者にパーソナライズされた治療を提供するコンテキストバンディット学習アルゴリズム。 我々は、このアルゴリズムがサブ線形後悔境界を認めることを証明した。 本アルゴリズムは,合成データと実世界のデータの両方において有用であることを示す。

Contextual bandit algorithms are commonly used in digital health to recommend personalized treatments. However, to ensure the effectiveness of the treatments, patients are often requested to take actions that have no immediate benefit to them, which we refer to as pro-treatment actions. In practice, clinicians have a limited budget to encourage patients to take these actions and collect additional information. We introduce a novel optimization and learning algorithm to address this problem. This algorithm effectively combines the strengths of two algorithmic approaches in a seamless manner, including 1) an online primal-dual algorithm for deciding the optimal timing to reach out to patients, and 2) a contextual bandit learning algorithm to deliver personalized treatment to the patient. We prove that this algorithm admits a sub-linear regret bound. We illustrate the usefulness of this algorithm on both synthetic and real-world data.
翻訳日:2024-03-13 17:18:30 公開日:2024-03-08
# 脳腫瘍分離(BraTS)チャレンジ2023:小児(CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs)に焦点を当てて

The Brain Tumor Segmentation (BraTS) Challenge 2023: Focus on Pediatrics (CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs) ( http://arxiv.org/abs/2305.17033v6 )

ライセンス: Link先を確認
Anahita Fathi Kazerooni, Nastaran Khalili, Xinyang Liu, Debanjan Haldar, Zhifan Jiang, Syed Muhammed Anwar, Jake Albrecht, Maruf Adewole, Udunna Anazodo, Hannah Anderson, Sina Bagheri, Ujjwal Baid, Timothy Bergquist, Austin J. Borja, Evan Calabrese, Verena Chung, Gian-Marco Conte, Farouk Dako, James Eddy, Ivan Ezhov, Ariana Familiar, Keyvan Farahani, Shuvanjan Haldar, Juan Eugenio Iglesias, Anastasia Janas, Elaine Johansen, Blaise V Jones, Florian Kofler, Dominic LaBella, Hollie Anne Lai, Koen Van Leemput, Hongwei Bran Li, Nazanin Maleki, Aaron S McAllister, Zeke Meier, Bjoern Menze, Ahmed W Moawad, Khanak K Nandolia, Julija Pavaine, Marie Piraud, Tina Poussaint, Sanjay P Prabhu, Zachary Reitman, Andres Rodriguez, Jeffrey D Rudie, Mariana Sanchez-Montano, Ibraheem Salman Shaikh, Lubdha M. Shah, Nakul Sheth, Russel Taki Shinohara, Wenxin Tu, Karthik Viswanathan, Chunhao Wang, Jeffrey B Ware, Benedikt Wiestler, Walter Wiggins, Anna Zapaishchykova, Mariam Aboian, Miriam Bornhorst, Peter de Blank, Michelle Deutsch, Maryam Fouladi, Lindsey Hoffman, Benjamin Kann, Margot Lazow, Leonie Mikael, Ali Nabavizadeh, Roger Packer, Adam Resnick, Brian Rood, Arastoo Vossough, Spyridon Bakas, Marius George Linguraru(参考訳) 小児の中枢神経系腫瘍は、小児のがん関連死の最も一般的な原因である。 小児の高次グリオーマに対する5年間の生存率は20\%未満である。 希少性のため、診断が遅れることが多く、治療は主に歴史的治療の概念に基づいており、臨床試験には複数施設の協力が必要である。 MICCAI Brain tumor Segmentation (BraTS) Challengeは、成人グリオーマのセグメンテーションと分析のための12年間の歴史を持つ、目覚ましいコミュニティベンチマークイベントである。 本稿では,小児の脳腫瘍に対する最初のbratsチャレンジであるcbtn-connect-dipgr-asnr-miccai brats-peds 2023 challengeについて述べる。 brats-peds 2023 チャレンジは、brats 2023 クラスタ全体で使用される標準化された定量的性能評価指標を用いて、小児脳グリオーマの体積分節化アルゴリズムの開発をベンチマークすることに焦点を当てている。 BraTS-PEDsマルチパラメトリック構造MRI(mpMRI)トレーニングデータから知識を得たモデルは、高次小児グリオーマの別個の検証と未確認検査mpMRIデータに基づいて評価される。 CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs 2023チャレンジは、臨床治験に役立つ自動セグメンテーション技術の開発と、最終的には脳腫瘍の子どものケアにつながる。

Pediatric tumors of the central nervous system are the most common cause of cancer-related death in children. The five-year survival rate for high-grade gliomas in children is less than 20\%. Due to their rarity, the diagnosis of these entities is often delayed, their treatment is mainly based on historic treatment concepts, and clinical trials require multi-institutional collaborations. The MICCAI Brain Tumor Segmentation (BraTS) Challenge is a landmark community benchmark event with a successful history of 12 years of resource creation for the segmentation and analysis of adult glioma. Here we present the CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs 2023 challenge, which represents the first BraTS challenge focused on pediatric brain tumors with data acquired across multiple international consortia dedicated to pediatric neuro-oncology and clinical trials. The BraTS-PEDs 2023 challenge focuses on benchmarking the development of volumentric segmentation algorithms for pediatric brain glioma through standardized quantitative performance evaluation metrics utilized across the BraTS 2023 cluster of challenges. Models gaining knowledge from the BraTS-PEDs multi-parametric structural MRI (mpMRI) training data will be evaluated on separate validation and unseen test mpMRI dataof high-grade pediatric glioma. The CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs 2023 challenge brings together clinicians and AI/imaging scientists to lead to faster development of automated segmentation techniques that could benefit clinical trials, and ultimately the care of children with brain tumors.
翻訳日:2024-03-13 17:16:07 公開日:2024-03-08
# ボクセル格子による3次元分子生成

3D molecule generation by denoising voxel grids ( http://arxiv.org/abs/2306.07473v2 )

ライセンス: Link先を確認
Pedro O. Pinheiro, Joshua Rackers, Joseph Kleinhenz, Michael Maser, Omar Mahmood, Andrew Martin Watkins, Stephen Ra, Vishnu Sresht, Saeed Saremi(参考訳) 正規格子上に原子密度を表す3次元分子を生成するための新しいスコアベース手法を提案する。 まず,ノイズの多い分子の滑らかな分布から実際の分子の分布にマップすることを学ぶ,分断ニューラルネットワークを訓練する。 次に、神経実験ベイズフレームワーク(saremi and hyvarinen, 19)に従い、2つのステップで分子を生成する。 (i)弱減衰したランジュバンマルコフ連鎖モンテカルロを経由する平滑な分布からの雑音密度格子のサンプルおよび (II)ノイズ格子を1ステップで脱ノイズすることで「クリーン」分子を回収する。 我々の方法であるVoxMolは、現在の技術の状態(すなわち原子点雲に適用される拡散モデル)と根本的に異なる方法で分子を生成する。 データ表現、ノイズモデル、ネットワークアーキテクチャ、生成モデリングアルゴリズムの点で異なる。 私たちの実験では、voxmolは最先端技術よりも薬物様分子の分布を捉えつつ、サンプルの生成も速いことが示されています。

We propose a new score-based approach to generate 3D molecules represented as atomic densities on regular grids. First, we train a denoising neural network that learns to map from a smooth distribution of noisy molecules to the distribution of real molecules. Then, we follow the neural empirical Bayes framework (Saremi and Hyvarinen, 19) and generate molecules in two steps: (i) sample noisy density grids from a smooth distribution via underdamped Langevin Markov chain Monte Carlo, and (ii) recover the "clean" molecule by denoising the noisy grid with a single step. Our method, VoxMol, generates molecules in a fundamentally different way than the current state of the art (ie, diffusion models applied to atom point clouds). It differs in terms of the data representation, the noise model, the network architecture and the generative modeling algorithm. Our experiments show that VoxMol captures the distribution of drug-like molecules better than state of the art, while being faster to generate samples.
翻訳日:2024-03-13 17:08:28 公開日:2024-03-08
# 拡散モデルを用いた潜時ダイナミクスアライメントにおける時空間構造抽出と復元

Extraction and Recovery of Spatio-Temporal Structure in Latent Dynamics Alignment with Diffusion Models ( http://arxiv.org/abs/2306.06138v2 )

ライセンス: Link先を確認
Yule Wang, Zijing Wu, Chengrui Li, Anqi Wu(参考訳) 行動関連脳計算の分野では、生の神経信号をその間の急激な領域シフトに合わせる必要がある。 神経科学研究における基礎的な枠組みは、試行ベースの神経集団の活動が低次元の潜在性ダイナミクスに依存していることを仮定し、後者に焦点をあてることでアライメントの手順が大幅に促進される。 この分野の進歩にもかかわらず、既存の手法はアライメントフェーズ中に固有の時空間構造を無視する。 したがって、それらのソリューションは、通常、潜在ダイナミクス構造と全体的なパフォーマンスにおける品質の低下につながる。 この問題に対処するために,拡散モデルの表現性を利用して潜在力学の時空間構造を保存するアライメント手法 ERDiff を提案する。 具体的には、ソースドメインの潜在ダイナミクス構造は、まず拡散モデルによって抽出される。 そして, この拡散モデルの指導の下で, 対象領域における最大次数アライメント手順により, これらの構造をよく復元する。 まず,提案手法が合成データセット上で有効であることを示す。 そして,非ヒト霊長類運動野の神経記録にクロスデイ設定とインターサブジェクト設定の両方で適用すると,潜時力学の時空間的構造を保つ能力が一貫して示され,適合性や神経デコード性能の整列における既存のアプローチよりも優れる。

In the field of behavior-related brain computation, it is necessary to align raw neural signals against the drastic domain shift among them. A foundational framework within neuroscience research posits that trial-based neural population activities rely on low-dimensional latent dynamics, thus focusing on the latter greatly facilitates the alignment procedure. Despite this field's progress, existing methods ignore the intrinsic spatio-temporal structure during the alignment phase. Hence, their solutions usually lead to poor quality in latent dynamics structures and overall performance. To tackle this problem, we propose an alignment method ERDiff, which leverages the expressivity of the diffusion model to preserve the spatio-temporal structure of latent dynamics. Specifically, the latent dynamics structures of the source domain are first extracted by a diffusion model. Then, under the guidance of this diffusion model, such structures are well-recovered through a maximum likelihood alignment procedure in the target domain. We first demonstrate the effectiveness of our proposed method on a synthetic dataset. Then, when applied to neural recordings from the non-human primate motor cortex, under both cross-day and inter-subject settings, our method consistently manifests its capability of preserving the spatiotemporal structure of latent dynamics and outperforms existing approaches in alignment goodness-of-fit and neural decoding performance.
翻訳日:2024-03-13 17:07:34 公開日:2024-03-08
# bemap:フェアグラフニューラルネットワークのためのバランスのとれたメッセージパッシング

BeMap: Balanced Message Passing for Fair Graph Neural Network ( http://arxiv.org/abs/2306.04107v2 )

ライセンス: Link先を確認
Xiao Lin, Jian Kang, Weilin Cong, Hanghang Tong(参考訳) 近年,グラフニューラルネットワークの公平性が研究されている。 しかし、既存の作品はバイアスの導入や増幅におけるメッセージパッシングの役割を明示的に考慮しないことが多い。 本稿では,まず,メッセージパッシングにおけるバイアス増幅の問題について検討する。 我々は、異なる人口集団の1ホップ隣人がバランスが取れていない場合、メッセージパッシングがバイアスを増幅することを示した。 このような分析で導かれたBeMapは,各ノードの1ホップ隣人の数を異なるグループ間でバランスをとるために,バランスを考慮したサンプリング戦略を活用するフェアメッセージパッシング手法である。 ノード分類に関する大規模な実験は、分類精度を維持しながらバイアス軽減におけるBeMapの有効性を示した。 コードはhttps://github.com/xiaolin-cs/bemapで入手できる。

Fairness in graph neural networks has been actively studied recently. However, existing works often do not explicitly consider the role of message passing in introducing or amplifying the bias. In this paper, we first investigate the problem of bias amplification in message passing. We empirically and theoretically demonstrate that message passing could amplify the bias when the 1-hop neighbors from different demographic groups are unbalanced. Guided by such analyses, we propose BeMap, a fair message passing method, that leverages a balance-aware sampling strategy to balance the number of the 1-hop neighbors of each node among different demographic groups. Extensive experiments on node classification demonstrate the efficacy of BeMap in mitigating bias while maintaining classification accuracy. The code is available at https://github.com/xiaolin-cs/BeMap.
翻訳日:2024-03-13 17:06:22 公開日:2024-03-08
# ガウス過程運動計画のための統一的変分フレームワーク

A Unifying Variational Framework for Gaussian Process Motion Planning ( http://arxiv.org/abs/2309.00854v2 )

ライセンス: Link先を確認
Lucas Cosier, Rares Iordan, Sicelukwanda Zwane, Giovanni Franzese, James T. Wilson, Marc Peter Deisenroth, Alexander Terenin, Yasemin Bekiroglu(参考訳) ロボットの動きを制御するためには、運動計画アルゴリズムは、モータや関節に関する物理的制約を考慮しつつ、高次元の状態空間における経路を計算し、滑らかで安定した動きを生成し、障害物を避け、衝突を防ぐ必要がある。 したがって、動き計画アルゴリズムは、競合する要求のバランスをとる必要があり、ノイズの処理、モデルエラーの処理、複雑な環境への展開を容易にするために不確実性を取り入れることが理想的である。 これらの問題に対処するために,様々な確率推論に基づく動作計画アルゴリズムを統一・一般化する変分ガウス過程に基づくロボット動作計画フレームワークを導入し,最適化に基づくプランナと接続する。 我々のフレームワークは、エンドツーエンドのトレーニングにおいて、平等ベース、不平等ベース、ソフトモーションプランニング制約を取り入れ、実装が容易で、インターバルベースとモンテカルロベースの不確実性推定の両方を提供する。 異なる環境とロボットを用いて実験を行い,計画経路の実現可能性と障害物回避品質に基づくベースラインアプローチと比較した。 その結果,提案手法は成功率とパス品質のバランスが良好であることがわかった。

To control how a robot moves, motion planning algorithms must compute paths in high-dimensional state spaces while accounting for physical constraints related to motors and joints, generating smooth and stable motions, avoiding obstacles, and preventing collisions. A motion planning algorithm must therefore balance competing demands, and should ideally incorporate uncertainty to handle noise, model errors, and facilitate deployment in complex environments. To address these issues, we introduce a framework for robot motion planning based on variational Gaussian processes, which unifies and generalizes various probabilistic-inference-based motion planning algorithms, and connects them with optimization-based planners. Our framework provides a principled and flexible way to incorporate equality-based, inequality-based, and soft motion-planning constraints during end-to-end training, is straightforward to implement, and provides both interval-based and Monte-Carlo-based uncertainty estimates. We conduct experiments using different environments and robots, comparing against baseline approaches based on the feasibility of the planned paths, and obstacle avoidance quality. Results show that our proposed approach yields a good balance between success rates and path quality.
翻訳日:2024-03-13 16:29:23 公開日:2024-03-08
# 磁場の存在下でのdunkl-pauli方程式

Dunkl-Pauli Equation in the Presence of a Magnetic Field ( http://arxiv.org/abs/2309.14081v2 )

ライセンス: Link先を確認
H. Bouguerne, B. Hamil, B. C. L\"utf\"uo\u{g}lu and M. Merad(参考訳) パウリ方程式は量子力学の重要な方程式であり、スピン-1/2$粒子の動力学を研究することができる。 通常の微分の代わりにダンケル誘導体を用いると、パリティ依存解が得られる。 そこで本研究では,外部磁場の存在下での2次元非相対論的スピン-1/2$粒子系を考察し,パウリ方程式を解析的に解いて,そのパリティ依存ダイナミクスを考察する。 次に, 系の熱平衡を仮定し, 系の様々な熱量について検討する。

The Pauli equation, an important equation of quantum mechanics, allows us to study the dynamics of spin-$1/2$ particles. The Dunkl derivative, when used instead of the ordinary derivative, leads to obtaining parity-dependent solutions. Motivated by these facts, in this work, we consider a two-dimensional nonrelativistic spin-$1/2$ particle system in the presence of an external magnetic field, and we investigate its parity-dependent dynamics by solving the Pauli equation analytically. Next, we assume the system to be in thermal equilibrium, and we examine various thermal quantities of the system.
翻訳日:2024-03-13 16:20:55 公開日:2024-03-08
# siamaf:心電図およびppg信号からの共有情報学習によるロバスト心房細動検出

SiamAF: Learning Shared Information from ECG and PPG Signals for Robust Atrial Fibrillation Detection ( http://arxiv.org/abs/2310.09203v2 )

ライセンス: Link先を確認
Zhicheng Guo, Cheng Ding, Duc H. Do, Amit Shah, Randall J. Lee, Xiao Hu, Cynthia Rudin(参考訳) 心房細動 (AF) は心不整脈の最も一般的なタイプである。 脳卒中、心不全、その他の心血管合併症のリスクの増加と関連があるが、臨床的に沈黙することができる。 ウェアラブルを用いたパッシブAFモニタリングは、AFに関する有害な臨床結果を減らすのに役立つかもしれない。 ノイズの多いウェアラブルデータでAFを検出することは大きな課題となり、様々なディープラーニング技術が出現する。 これまでのディープラーニングモデルは、心電図(ecg)またはフォトプレチモグラフィ(ppg)信号の1つのモダリティから学習する。 しかし、ディープラーニングモデルは、一般化可能な機能を学ぶのに苦労することが多く、ノイズによる汚職の影響を受けやすい機能に依存しているため、特定のシナリオ、特に低品質な信号において、準最適パフォーマンスにつながる。 ウェアラブルとベッドサイドモニターからECGとPSGの信号ペアが利用可能になるにつれて、我々は新しいSiamAFアプローチを提案し、新しいSiameseネットワークアーキテクチャと共同学習損失関数を活用してECGとPGの信号から共有情報を学ぶ。 推定時,提案モデルはPSGまたはECGからAFを予測することができ,3つの外部テストセットのベースライン手法より優れている。 新たなアーキテクチャ設計の結果、医学的に関連する特徴を学習します。 提案したモデルは、従来の学習体系に匹敵するパフォーマンスを達成しつつ、トレーニングラベルをはるかに少なくし、手動ラベリングへの依存を減らすための潜在的アプローチを提供する。

Atrial fibrillation (AF) is the most common type of cardiac arrhythmia. It is associated with an increased risk of stroke, heart failure, and other cardiovascular complications, but can be clinically silent. Passive AF monitoring with wearables may help reduce adverse clinical outcomes related to AF. Detecting AF in noisy wearable data poses a significant challenge, leading to the emergence of various deep learning techniques. Previous deep learning models learn from a single modality, either electrocardiogram (ECG) or photoplethysmography (PPG) signals. However, deep learning models often struggle to learn generalizable features and rely on features that are more susceptible to corruption from noise, leading to sub-optimal performances in certain scenarios, especially with low-quality signals. Given the increasing availability of ECG and PPG signal pairs from wearables and bedside monitors, we propose a new approach, SiamAF, leveraging a novel Siamese network architecture and joint learning loss function to learn shared information from both ECG and PPG signals. At inference time, the proposed model is able to predict AF from either PPG or ECG and outperforms baseline methods on three external test sets. It learns medically relevant features as a result of our novel architecture design. The proposed model also achieves comparable performance to traditional learning regimes while requiring much fewer training labels, providing a potential approach to reduce future reliance on manual labeling.
翻訳日:2024-03-13 15:51:26 公開日:2024-03-08
# 交互投影による大規模ガウス過程

Large-Scale Gaussian Processes via Alternating Projection ( http://arxiv.org/abs/2310.17137v2 )

ライセンス: Link先を確認
Kaiwen Wu, Jonathan Wenger, Haydn Jones, Geoff Pleiss, Jacob R. Gardner(参考訳) ガウス過程(GP)のトレーニングと推論は、$n\times n$ kernel matrices で線形系を解く必要がある。 禁止の$\mathcal{O}(n^3)$時間複雑性に対処するため、最近の研究では共役勾配(CG)のような高速反復法が採用されている。 しかし、データセットの規模が大きくなると、カーネル行列はますます不調になり、分割なしで$\mathcal{o}(n^2)$空間が必要となる。 したがって、CGはデータセットのサイズを増加させ、GPはトレーニングできるが、現代のデータセットはその適用範囲を超えてスケールに達する。 本研究では,カーネルマトリックスのサブブロックにのみアクセス可能な反復的手法を提案する。 我々のアルゴリズムは、交互プロジェクションに基づいて、GPを非常に大きなデータセットにスケールするという現実的な課題の多くを解決し、各イテレーション時間と空間の複雑さを$\mathcal{O}(n)$とする。 理論的には、この手法が線形収束を楽しむことを証明している。 実証的に、実践における収束の速さと、悪条件に対する堅牢性を示す。 最大400万のデータポイントを持つ大規模ベンチマークデータセットにおいて、我々のアプローチはGPトレーニングとスピードアップファクタによる推論を、CGと比較して最大で27\times$と72 \times$に加速します。

Training and inference in Gaussian processes (GPs) require solving linear systems with $n\times n$ kernel matrices. To address the prohibitive $\mathcal{O}(n^3)$ time complexity, recent work has employed fast iterative methods, like conjugate gradients (CG). However, as datasets increase in magnitude, the kernel matrices become increasingly ill-conditioned and still require $\mathcal{O}(n^2)$ space without partitioning. Thus, while CG increases the size of datasets GPs can be trained on, modern datasets reach scales beyond its applicability. In this work, we propose an iterative method which only accesses subblocks of the kernel matrix, effectively enabling mini-batching. Our algorithm, based on alternating projection, has $\mathcal{O}(n)$ per-iteration time and space complexity, solving many of the practical challenges of scaling GPs to very large datasets. Theoretically, we prove the method enjoys linear convergence. Empirically, we demonstrate its fast convergence in practice and robustness to ill-conditioning. On large-scale benchmark datasets with up to four million data points, our approach accelerates GP training and inference by speed-up factors up to $27\times$ and $72 \times$, respectively, compared to CG.
翻訳日:2024-03-13 15:40:25 公開日:2024-03-08
# VERVE: テンプレートベースのMotiVational IntErviewing用リライト

VERVE: Template-based ReflectiVE Rewriting for MotiVational IntErviewing ( http://arxiv.org/abs/2311.08299v2 )

ライセンス: Link先を確認
Do June Min and Ver\'onica P\'erez-Rosas and Kenneth Resnicow and Rada Mihalcea(参考訳) リフレクティブリスニングは、カウンセラーがモチベーション面接(MI)の熟練を達成するための基本的なスキルである。 これは、クライアントが会話で表現した意味を認識し、探求する方法で応答することを伴う。 本稿では,非反射文を反射応答に変換する応答書き換えのカウンセリングタスクを紹介する。 本稿では,paraphraseによるトレーニングとアダプティブテンプレート更新を備えたテンプレートベースの書き換えシステムであるverveを紹介する。 VERVEはまず、リフレクションに関係のないトークンを識別してフィルタリングすることでテンプレートを作成し、テンプレートを使用して反射応答を構築する。 パラフレーズ拡張トレーニングにより、モデルはマスクされたスパンの制限の少ないフィリングを学習でき、適応的なテンプレート更新は、オリジナルのコンテンツを著しく削除することなく、書き換えのための効果的なテンプレートを見つけるのに役立つ。 自動評価とヒューマン評価の両方を用いて,本手法をテキスト書き換えベースラインと比較し,ノンリフレクティブステートメントをリフレクティブ応答に変換し,良質なコンテンツ保存・リフレクションスタイルトレードオフを達成する上で有効であることを示す。

Reflective listening is a fundamental skill that counselors must acquire to achieve proficiency in motivational interviewing (MI). It involves responding in a manner that acknowledges and explores the meaning of what the client has expressed in the conversation. In this work, we introduce the task of counseling response rewriting, which transforms non-reflective statements into reflective responses. We introduce VERVE, a template-based rewriting system with paraphrase-augmented training and adaptive template updating. VERVE first creates a template by identifying and filtering out tokens that are not relevant to reflections and constructs a reflective response using the template. Paraphrase-augmented training allows the model to learn less-strict fillings of masked spans, and adaptive template updating helps discover effective templates for rewriting without significantly removing the original content. Using both automatic and human evaluations, we compare our method against text rewriting baselines and show that our framework is effective in turning non-reflective statements into more reflective responses while achieving a good content preservation-reflection style trade-off.
翻訳日:2024-03-13 15:17:43 公開日:2024-03-08
# GenQ: 生成合成データを用いた低データレジームの量子化

GenQ: Quantization in Low Data Regimes with Generative Synthetic Data ( http://arxiv.org/abs/2312.05272v2 )

ライセンス: Link先を確認
Yuhang Li, Youngeun Kim, Donghyun Lee, Souvik Kundu, Priyadarshini Panda(参考訳) ディープニューラルネットワークの展開において、低ビット量子化は計算効率を向上させるための有望な方法である。 しかし、量子化エラーを軽減するためのトレーニングデータの可用性は、プライバシや著作権上の懸念から、データの可用性が不足したり制限されたりする場合に、大きな課題となることが多い。 これに対処するために、我々は、高度な生成AIモデルを用いてフォトリアリスティックで高解像度の合成データを生成する新しいアプローチであるGenQを紹介し、ImageNetのような広範囲なデータセットで複雑なオブジェクトを正確に模倣するのに苦労する従来の手法の限界を克服する。 本手法は,2つの頑健なフィルタリング機構により,合成データが実際のトレーニングデータの固有特性と密接に一致することを保証する。 データ可用性が制限された場合、実際のデータは合成データ生成プロセスのガイドに使用され、学習可能なトークン埋め込みの反転によって忠実性を高める。 厳密な実験を通じて、GenQはデータフリーおよびデータスカース量子化の新しいベンチマークを確立し、既存の手法を精度と効率で大幅に上回っている。

In the realm of deep neural network deployment, low-bit quantization presents a promising avenue for enhancing computational efficiency. However, it often hinges on the availability of training data to mitigate quantization errors, a significant challenge when data availability is scarce or restricted due to privacy or copyright concerns. Addressing this, we introduce GenQ, a novel approach employing an advanced Generative AI model to generate photorealistic, high-resolution synthetic data, overcoming the limitations of traditional methods that struggle to accurately mimic complex objects in extensive datasets like ImageNet. Our methodology is underscored by two robust filtering mechanisms designed to ensure the synthetic data closely aligns with the intrinsic characteristics of the actual training data. In case of limited data availability, the actual data is used to guide the synthetic data generation process, enhancing fidelity through the inversion of learnable token embeddings. Through rigorous experimentation, GenQ establishes new benchmarks in data-free and data-scarce quantization, significantly outperforming existing methods in accuracy and efficiency, thereby setting a new standard for quantization in low data regimes.
翻訳日:2024-03-13 14:58:21 公開日:2024-03-08
# グラフニューラルネットワークの表現力について

On the Expressive Power of Graph Neural Networks ( http://arxiv.org/abs/2401.01626v2 )

ライセンス: Link先を確認
Ashwin Nalwade, Kelly Marshall, Axel Eladi, Umang Sharma(参考訳) グラフニューラルネットワークの研究は、ここ数年でかなりの関心を集めている。 ディープラーニングをグラフ構造データに拡張することで、gnnは社会科学、化学、医学といった分野のさまざまなタスクを解決できる。 GNNアーキテクチャの開発は、ノードやグラフの分類といったタスクにおける経験的パフォーマンスの向上に重点を置いている。 しかし、最近の一連の研究は、その表現力と表現力を最大化するアーキテクチャを設計することによって、望ましい理論的性質を持つGNNアーキテクチャを見つけ出そうとしている。 GNNの表現性を定義する最良の方法に関するコンセンサスはないが、いくつかのモチベーションの高い視点から見ることができる。 おそらく最も自然なアプローチは、GNNの普遍近似特性を研究することである。 別の方向は、グラフ同型テストに関連して、GNNが異なるグラフ構造を区別できる範囲に焦点を当てている。 さらに、グラフモーメントなどのグラフ特性を計算するGNNの能力は、表現性の別の形態として提案されている。 これらの異なる定義は相補的であり、GNNアーキテクチャの選択に対して異なる推奨を与えている。 本稿では,GNNの「表現力」概念の概要を述べるとともに,GNNの設計選択に関する貴重な知見を提供する。

The study of Graph Neural Networks has received considerable interest in the past few years. By extending deep learning to graph-structured data, GNNs can solve a diverse set of tasks in fields including social science, chemistry, and medicine. The development of GNN architectures has largely been focused on improving empirical performance on tasks like node or graph classification. However, a line of recent work has instead sought to find GNN architectures that have desirable theoretical properties - by studying their expressive power and designing architectures that maximize this expressiveness. While there is no consensus on the best way to define the expressiveness of a GNN, it can be viewed from several well-motivated perspectives. Perhaps the most natural approach is to study the universal approximation properties of GNNs, much in the way that this has been studied extensively for MLPs. Another direction focuses on the extent to which GNNs can distinguish between different graph structures, relating this to the graph isomorphism test. Besides, a GNN's ability to compute graph properties such as graph moments has been suggested as another form of expressiveness. All of these different definitions are complementary and have yielded different recommendations for GNN architecture choices. In this paper, we would like to give an overview of the notion of "expressive power" of GNNs and provide some valuable insights regarding the design choices of GNNs.
翻訳日:2024-03-13 14:52:26 公開日:2024-03-08
# マルチリーナー環境における戦略的利用

Strategic Usage in a Multi-Learner Setting ( http://arxiv.org/abs/2401.16422v2 )

ライセンス: Link先を確認
Eliot Shekhtman and Sarah Dean(参考訳) 現実世界のシステムは、サービスのセットを選択するユーザのプールを伴います。 オンライン学習アルゴリズムの普及に伴い、これらのサービスは、ユーザから収集したデータを活用して、サービス品質などの報酬を最大化することができる。 一方、ユーザは自分の報酬関数を追求するために、どのサービスを使うかを戦略的に選択することができる。 戦略的な振る舞いは、望ましい分類を達成するために観測可能な機能の操作において現れるが、これは多くの場合、ユーザにとってコストがかかるか、持続不可能であり、マルチサービスの動的システムの完全な振る舞いを捉えることができない。 そこで,本研究では,戦略利用者が肯定的な分類を追求するために利用可能な複数のサービスの中から選択する環境を分析した。 再現可能な設定に焦点をあて,全てのユーザが異なるタイミングで観察された場合でも,ナイーブなリトレーニングはなおも振動を引き起こすことを示す。 我々は合成データと実世界のデータから得られた結果を提供し,理論的な知見を実証的に検証する。

Real-world systems often involve some pool of users choosing between a set of services. With the increase in popularity of online learning algorithms, these services can now self-optimize, leveraging data collected on users to maximize some reward such as service quality. On the flipside, users may strategically choose which services to use in order to pursue their own reward functions, in the process wielding power over which services can see and use their data. Extensive prior research has been conducted on the effects of strategic users in single-service settings, with strategic behavior manifesting in the manipulation of observable features to achieve a desired classification; however, this can often be costly or unattainable for users and fails to capture the full behavior of multi-service dynamic systems. As such, we analyze a setting in which strategic users choose among several available services in order to pursue positive classifications, while services seek to minimize loss functions on their observations. We focus our analysis on realizable settings, and show that naive retraining can still lead to oscillation even if all users are observed at different times; however, if this retraining uses memory of past observations, convergent behavior can be guaranteed for certain loss function classes. We provide results obtained from synthetic and real-world data to empirically validate our theoretical findings.
翻訳日:2024-03-13 14:31:59 公開日:2024-03-08
# 量子カオスシステムのための一般化自由キューマント

Generalized Free Cumulants for Quantum Chaotic Systems ( http://arxiv.org/abs/2401.13829v2 )

ライセンス: Link先を確認
Siddharth Jindal and Pavan Hosur(参考訳) 固有状態熱化仮説(英: eigenstate thermalization hypothesis、eth)は、一般孤立量子系における統計力学の出現の主要な予想であり、作用素の行列要素を用いて定式化される。 エルゴード二分法(EB)として知られる類似物は絡み合いと局所性を記述し、固有状態の成分の項で定式化されている。 本稿では,EBを著しく一般化し,ETHと統一し,EBを拡張して高い相関関係と平衡状態からシステムを研究する。 我々の主な結果は、ETHと自由確率理論の間の最近発見された関係に基づいて固有状態と作用素の間の任意の相関を計算する図式形式である。 我々は、ダイアグラムの連結成分を一般化された自由積数と呼ぶ。 我々は形式主義をいくつかの方法で適用する。 まず、カオス固有状態に着目し、構築の結果として、いわゆるサブシステムETHとページ曲線を確立する。 また, 熱還元密度行列の既知計算を改善し, 蒸発するブラックホールのページ曲線の計算において, エンタングルメントエントロピーへのレプリカアプローチの本質的に自由な確率的側面についてコメントする。 次に、カオス量子力学に目を向け、ETHを一般的に熱化の十分なメカニズムとして示す。 特に, 密度行列の減少は平衡に緩和され, システムは後期のページ曲線に従うことを示した。 また, エンタングルメントの拡散を規定するエンタングルメント速度が, EBの高相関にエンコードされていることを示す。 最後に,固有状態と演算子のカオス構造を合わせて検討し,それらの相関関係について検討した。 これらの相関は、相互作用する量子系のよく知られた力学特性である蝶の速度を符号化する。

The eigenstate thermalization hypothesis (ETH) is the leading conjecture for the emergence of statistical mechanics in generic isolated quantum systems and is formulated in terms of the matrix elements of operators. An analog known as the ergodic bipartition (EB) describes entanglement and locality and is formulated in terms of the components of eigenstates. In this paper, we significantly generalize the EB and unify it with the ETH, extending the EB to study higher correlations and systems out of equilibrium. Our main result is a diagrammatic formalism that computes arbitrary correlations between eigenstates and operators based on a recently uncovered connection between the ETH and free probability theory. We refer to the connected components of our diagrams as generalized free cumulants. We apply our formalism in several ways. First, we focus on chaotic eigenstates and establish the so-called subsystem ETH and the Page curve as consequences of our construction. We also improve known calculations for thermal reduced density matrices and comment on an inherently free probabilistic aspect of the replica approach to entanglement entropy previously noticed in a calculation for the Page curve of an evaporating black hole. Next, we turn to chaotic quantum dynamics and demonstrate the ETH as a sufficient mechanism for thermalization, in general. In particular, we show that reduced density matrices relax to their equilibrium form and that systems obey the Page curve at late times. We also demonstrate that entanglement velocities, which govern the spreading of entanglement, are encoded in higher correlations of the EB. Lastly, we examine the chaotic structure of eigenstates and operators together and reveal previously overlooked correlations between them. Crucially, these correlations encode butterfly velocities, a well-known dynamical property of interacting quantum systems.
翻訳日:2024-03-13 14:29:19 公開日:2024-03-08
# 遺伝的アルゴリズムを用いたGated Recurrent Unitの調整型混合精度サブ8ビット量子化法

Towards a tailored mixed-precision sub-8-bit quantization scheme for Gated Recurrent Units using Genetic Algorithms ( http://arxiv.org/abs/2402.12263v2 )

ライセンス: Link先を確認
Riccardo Miccini, Alessandro Cerioli, Cl\'ement Laroche, Tobias Piechowiak, Jens Spars{\o}, Luca Pezzarossa(参考訳) ディープニューラルネットワークのモデル圧縮技術の最近の進歩にもかかわらず、そのようなモデルを超低消費電力の組み込みデバイスにデプロイすることは依然として困難である。 特に、ゲートリカレント単位(gru)の量子化スキームは、内部状態に依存するためチューニングが困難であり、サブ8ビット量子化の恩恵を受けることができない。 本稿では,各演算子のビット幅を独立に選択できるGRUのモジュラ整数量子化方式を提案する。 次に遺伝的アルゴリズム(ga)を用いて、可能なビット幅の広大な探索空間を探索し、モデルサイズと精度を同時に最適化する。 提案手法を4つの異なる逐次タスクで評価し, 混合精度解がパレート効率の点で均一精度を超えることを示す。 その結果, モデルサイズを25%から55%に削減し, 8ビット同質等価値に匹敵する精度を維持した。

Despite the recent advances in model compression techniques for deep neural networks, deploying such models on ultra-low-power embedded devices still proves challenging. In particular, quantization schemes for Gated Recurrent Units (GRU) are difficult to tune due to their dependence on an internal state, preventing them from fully benefiting from sub-8bit quantization. In this work, we propose a modular integer quantization scheme for GRUs where the bit width of each operator can be selected independently. We then employ Genetic Algorithms (GA) to explore the vast search space of possible bit widths, simultaneously optimising for model size and accuracy. We evaluate our methods on four different sequential tasks and demonstrate that mixed-precision solutions exceed homogeneous-precision ones in terms of Pareto efficiency. In our results, we achieve a model size reduction between 25% and 55% while maintaining an accuracy comparable with the 8-bit homogeneous equivalent.
翻訳日:2024-03-13 14:13:16 公開日:2024-03-08
# 言語モデルのためのデータ選択に関する調査

A Survey on Data Selection for Language Models ( http://arxiv.org/abs/2402.16827v2 )

ライセンス: Link先を確認
Alon Albalak, Yanai Elazar, Sang Michael Xie, Shayne Longpre, Nathan Lambert, Xinyi Wang, Niklas Muennighoff, Bairu Hou, Liangming Pan, Haewon Jeong, Colin Raffel, Shiyu Chang, Tatsunori Hashimoto, William Yang Wang(参考訳) 最近の大規模言語モデルの成功の大きな要因は、教師なし事前学習のための巨大で成長を続けるテキストデータセットの使用である。 しかし、利用可能なすべてのデータに対して、利用可能なテキストデータの質が変化するため、モデルを直接的にトレーニングすることは最適ではないかもしれない。 データのフィルタリングは、必要なトレーニングの量を減らすことで、トレーニングモデルのカーボンフットプリントと財政コストを削減できる。 データ選択手法は、トレーニングデータセットに含まれる候補データポイントと、選択したデータポイントから適切にサンプリングする方法を決定することを目的としている。 改良されたデータ選択方法の約束により、この分野の研究は急速に拡大した。 しかし、ディープラーニングは主に実験的な証拠と大規模なデータの実験によって駆動されるため、広範なデータ選択研究のためのリソースを持つ組織はほとんどない。 その結果、効果的なデータ選択のプラクティスに関する知識は、いくつかの組織に集中するようになった。 知識のギャップを狭めるために,データ選択手法および関連研究分野に関する既存の文献を包括的にレビューし,既存のアプローチの分類法を提供する。 本研究は,現在の研究状況を説明することにより,新たな研究者のエントリーポイントを確立することにより,データ選択の進展を加速することを目的とする。 さらに,本研究を通じて,文献の目立った穴に注意を向け,将来的な研究の道筋を提案し,論文をまとめる。

A major factor in the recent success of large language models is the use of enormous and ever-growing text datasets for unsupervised pre-training. However, naively training a model on all available data may not be optimal (or feasible), as the quality of available text data can vary. Filtering out data can also decrease the carbon footprint and financial costs of training models by reducing the amount of training required. Data selection methods aim to determine which candidate data points to include in the training dataset and how to appropriately sample from the selected data points. The promise of improved data selection methods has caused the volume of research in the area to rapidly expand. However, because deep learning is mostly driven by empirical evidence and experimentation on large-scale data is expensive, few organizations have the resources for extensive data selection research. Consequently, knowledge of effective data selection practices has become concentrated within a few organizations, many of which do not openly share their findings and methodologies. To narrow this gap in knowledge, we present a comprehensive review of existing literature on data selection methods and related research areas, providing a taxonomy of existing approaches. By describing the current landscape of research, this work aims to accelerate progress in data selection by establishing an entry point for new and established researchers. Additionally, throughout this review we draw attention to noticeable holes in the literature and conclude the paper by proposing promising avenues for future research.
翻訳日:2024-03-13 14:03:24 公開日:2024-03-08
# 非対称情報確率ゲームにおける一階信念を用いた客観的オンライン学習

Conjectural Online Learning with First-order Beliefs in Asymmetric Information Stochastic Games ( http://arxiv.org/abs/2402.18781v3 )

ライセンス: Link先を確認
Tao Li, Kim Hammar, Rolf Stadler, and Quanyan Zhu(参考訳) 非対称情報確率ゲーム (\textsc{aisg}s) は、サイバー物理システムやITインフラなど、多くの複雑な社会技術システムで発生する。 既存の計算手法である \textsc{aisg} は主にオフラインであり、平衡偏差に適応できない。 さらに、現在のメソッドは信念階層を避けるために、 \textsc{aisg} の特別なクラスに制限される。 これらの制約に対処するため、汎用的な \textsc{aisg} のオンライン学習法である conjectural online learning (\textsc{col}) を提案する。 \textsc{col} は予測器-アクター-クリティカル (\textsc{fac}) アーキテクチャを用いており、主観的な予測は外見上の地平線内で相手の戦略を推測するために使用され、ベイズ学習は予想を校正するために用いられる。 非定常環境に戦略を適用するために、 \textsc{col} はコスト関数近似(actor-critic)付きオンラインロールアウトを使用する。 我々は、 textsc{col} によって生成される予想が、緩和ベイズ整合という意味での情報フィードバックと漸近的に一致していることを証明する。 また,「textsc{col}」によって誘導される経験的戦略プロファイルは,主観性の下で合理性を特徴づける解の概念であるバーク・ナッシュ平衡に収束することを示した。 侵入応答を用いた実験結果から,非定常攻撃に対する最先端の強化学習法よりも,‘textsc{col}’の方が優れていることが示された。

Asymmetric information stochastic games (\textsc{aisg}s) arise in many complex socio-technical systems, such as cyber-physical systems and IT infrastructures. Existing computational methods for \textsc{aisg}s are primarily offline and can not adapt to equilibrium deviations. Further, current methods are limited to special classes of \textsc{aisg}s to avoid belief hierarchies. To address these limitations, we propose conjectural online learning (\textsc{col}), an online method for generic \textsc{aisg}s. \textsc{col} uses a forecaster-actor-critic (\textsc{fac}) architecture where subjective forecasts are used to conjecture the opponents' strategies within a lookahead horizon, and Bayesian learning is used to calibrate the conjectures. To adapt strategies to nonstationary environments, \textsc{col} uses online rollout with cost function approximation (actor-critic). We prove that the conjectures produced by \textsc{col} are asymptotically consistent with the information feedback in the sense of a relaxed Bayesian consistency. We also prove that the empirical strategy profile induced by \textsc{col} converges to the Berk-Nash equilibrium, a solution concept characterizing rationality under subjectivity. Experimental results from an intrusion response use case demonstrate \textsc{col}'s superiority over state-of-the-art reinforcement learning methods against nonstationary attacks.
翻訳日:2024-03-13 13:52:02 公開日:2024-03-08
# マルチモーダルデータを用いた脈絡膜腫瘍の診断のための概念ベース解釈モデル

A Concept-based Interpretable Model for the Diagnosis of Choroid Neoplasias using Multimodal Data ( http://arxiv.org/abs/2403.05606v1 )

ライセンス: Link先を確認
Yifan Wu, Yang Liu, Yue Yang, Michael S. Yao, Wenli Yang, Xuehui Shi, Lihong Yang, Dongjun Li, Yueming Liu, James C. Gee, Xuan Yang, Wenbin Wei, Shi Gu(参考訳) 稀な疾患の診断は臨床実践において共通の課題であり、正確な同定のために専門家の専門知識を必要とする。 機械学習の出現は有望な解決策を提供するが、そのような技術の開発は、まれな状況におけるデータの不足と、臨床的な文脈において解釈可能かつ信頼できるモデルの必要性によって妨げられている。 解釈可能なAIは、人間の読みやすい出力の能力を持ち、臨床医による検証を促進し、医学教育に貢献することができる。 現在の研究では、成人で最も多い眼がんである脈絡膜新生症(5.1%)に焦点を当てている。 2004年から2022年にかけて収集された3つの異なる画像モダリティを組み込んだ750人の患者からなる超大規模データセットを構築した。 本研究は, 3種類の脈絡膜腫瘍を鑑別し, 放射線学的報告による領域の専門家からの洞察を統合した, 概念に基づく解釈可能なモデルを提案する。 興味深いことに、このモデルはブラックボックスモデルに匹敵するF1スコア0.91を達成するだけでなく、ジュニア医師の診断精度を42%向上させる。 この研究は、希少な疾患の診断を改善するための解釈可能な機械学習の有意義な可能性を強調し、より広範な複雑な健康シナリオに取り組むことができる医療AIにおける将来のブレークスルーの土台を築いた。

Diagnosing rare diseases presents a common challenge in clinical practice, necessitating the expertise of specialists for accurate identification. The advent of machine learning offers a promising solution, while the development of such technologies is hindered by the scarcity of data on rare conditions and the demand for models that are both interpretable and trustworthy in a clinical context. Interpretable AI, with its capacity for human-readable outputs, can facilitate validation by clinicians and contribute to medical education. In the current work, we focus on choroid neoplasias, the most prevalent form of eye cancer in adults, albeit rare with 5.1 per million. We built the so-far largest dataset consisting of 750 patients, incorporating three distinct imaging modalities collected from 2004 to 2022. Our work introduces a concept-based interpretable model that distinguishes between three types of choroidal tumors, integrating insights from domain experts via radiological reports. Remarkably, this model not only achieves an F1 score of 0.91, rivaling that of black-box models, but also boosts the diagnostic accuracy of junior doctors by 42%. This study highlights the significant potential of interpretable machine learning in improving the diagnosis of rare diseases, laying a groundwork for future breakthroughs in medical AI that could tackle a wider array of complex health scenarios.
翻訳日:2024-03-13 13:13:23 公開日:2024-03-08
# 注意に基づく関連情報を用いた生体医学文献からの蛋白質間相互作用(ppis)の抽出

Extracting Protein-Protein Interactions (PPIs) from Biomedical Literature using Attention-based Relational Context Information ( http://arxiv.org/abs/2403.05602v1 )

ライセンス: Link先を確認
Gilchan Park, Sean McCorkle, Carlos Soto, Ian Blaby, Shinjae Yoo(参考訳) タンパク質とタンパク質の相互作用(PPI)は生体系を理解するために重要であるため、これらのデータの収集は疾患の発生を調査し、遺伝子/タンパク質の機能と生物学的過程を識別するために不可欠である。 キュレートされたデータセットの中には、文学やその他の情報源(例えば、IntAct、BioGrid、DIP、HPRD)に由来するPPIデータが含まれている。 しかし、彼らは疲れ果てず、メンテナンスは労働集約的なプロセスである。 一方,学術文献からのppi知識抽出を自動化する機械学習手法は,適切な注釈データの不足により制限されている。 本研究は,バイナリインタラクション型ラベルによって拡張されたvetedインタラクション定義を備えた多元ppiコーパスと,関係表現のためのエンティティのリレーショナルコンテキスト情報を活用して関係分類性能を向上させるトランスフォーマティブベースのディープラーニング手法を提案する。 本研究は,4つの生物医学的関係抽出データセットと本研究の対象PPIデータセットを用いて評価し,各種データにおける関係抽出タスクに対する表現の有効性について検討した。 結果は,そのモデルが先行する最先端モデルを上回ることを示している。 コードとデータは、https://github.com/bnlnlp/ppi-relation-extractionで入手できる。

Because protein-protein interactions (PPIs) are crucial to understand living systems, harvesting these data is essential to probe disease development and discern gene/protein functions and biological processes. Some curated datasets contain PPI data derived from the literature and other sources (e.g., IntAct, BioGrid, DIP, and HPRD). However, they are far from exhaustive, and their maintenance is a labor-intensive process. On the other hand, machine learning methods to automate PPI knowledge extraction from the scientific literature have been limited by a shortage of appropriate annotated data. This work presents a unified, multi-source PPI corpora with vetted interaction definitions augmented by binary interaction type labels and a Transformer-based deep learning method that exploits entities' relational context information for relation representation to improve relation classification performance. The model's performance is evaluated on four widely studied biomedical relation extraction datasets, as well as this work's target PPI datasets, to observe the effectiveness of the representation to relation extraction tasks in various data. Results show the model outperforms prior state-of-the-art models. The code and data are available at: https://github.com/BNLNLP/PPI-Relation-Extraction
翻訳日:2024-03-13 13:12:58 公開日:2024-03-08
# 高レベル特徴の選択:階層型分類ネットワークの効率的なエキスパート

Select High-Level Features: Efficient Experts from a Hierarchical Classification Network ( http://arxiv.org/abs/2403.05601v1 )

ライセンス: Link先を確認
Andr\'e Kelm, Niels Hannemann, Bruno Heberle, Lucas Schmidt, Tim Rolff, Christian Wilms, Ehsan Yaghoubi, Simone Frintrop(参考訳) 本研究では,予測性能を損なうことなくタスクと計算の複雑さを動的に低減するエキスパート生成手法を提案する。 これは、汎用低レベル特徴の逐次処理と並列処理と高レベル特徴の入れ子を組み合わせた、新しい階層的分類ネットワークトポロジーに基づいている。 この構造は、タスク関連カテゴリの高レベル特徴のみを選択できる革新的な抽出技術を可能にする。 場合によっては、ほとんどすべての不要な高レベルの特徴をスキップすることは可能であり、推論コストを著しく削減し、資源制約条件において非常に有益である。 本手法は,小型エッジデバイスから大規模クラウドに至るまで,幅広いアプリケーションに適した軽量で適応可能な将来のネットワーク設計の道を開くものだと考えている。 動的推論では、パラメータの最大88.7\,\%と73.4\,\%のギガ多重蓄積(GMAC)演算を除外し、パラメータの47.6\,\%とGMACの5.8\,\%の平均的な減少を示す比較ベースラインの解析を行うことができる。

This study introduces a novel expert generation method that dynamically reduces task and computational complexity without compromising predictive performance. It is based on a new hierarchical classification network topology that combines sequential processing of generic low-level features with parallelism and nesting of high-level features. This structure allows for the innovative extraction technique: the ability to select only high-level features of task-relevant categories. In certain cases, it is possible to skip almost all unneeded high-level features, which can significantly reduce the inference cost and is highly beneficial in resource-constrained conditions. We believe this method paves the way for future network designs that are lightweight and adaptable, making them suitable for a wide range of applications, from compact edge devices to large-scale clouds. In terms of dynamic inference our methodology can achieve an exclusion of up to 88.7\,\% of parameters and 73.4\,\% fewer giga-multiply accumulate (GMAC) operations, analysis against comparative baselines showing an average reduction of 47.6\,\% in parameters and 5.8\,\% in GMACs across the cases we evaluated.
翻訳日:2024-03-13 13:12:36 公開日:2024-03-08
# ビデオ再生のためのリカレントネットワークを用いたアンダーディスプレイカメラの分解劣化

Decoupling Degradations with Recurrent Network for Video Restoration in Under-Display Camera ( http://arxiv.org/abs/2403.05660v1 )

ライセンス: Link先を確認
Chengxu Liu, Xuan Wang, Yuanting Fan, Shuai Li and Xueming Qian(参考訳) ディスプレイ下カメラ(UDC)システムは、ディスプレイの下にレンズがマウントされるフルスクリーンディスプレイデバイスの基礎である。 回折表示に用いる発光ダイオードの画素アレイは、入射光を減衰させ、光強度が変化するにつれて様々な劣化を引き起こす。 異なる劣化因子を等しく処理してビデオを復元する一般的なビデオ修復とは異なり、udcシステムのビデオ復元は、時間的一貫性を維持しながら、経時的に多様な劣化を取り除くことを懸念するより難しい。 本稿では,d$^2$rnetと呼ばれるudcシステム用に設計された新しいビデオ復元ネットワークを提案する。 ビデオ劣化要因を効果的に分離するデカップリング注意モジュール(DAM)のセットを採用している。 より具体的には、異なる強度の入射光から生じる回折に基づいて、各フレームをフレアとヘイズに定式化するソフトマスク生成関数を提案し、その後、長期的および短期的な特徴学習を利用して各劣化を処理するフレアとヘイズ除去成分を提案する。 このような設計は、UDCシステムにおける様々な種類の劣化を取り除くための、ターゲット的で効果的な解決策を提供する。 さらに, 長距離ビデオで発生する劣化のスケール変化を克服するために, 設計をマルチスケールに拡張する。 d$^2$rnet の優位性を示すために,hdr 映像を収集し,商用udc システムで測定した点拡散関数を用いて実物劣化映像を生成する大規模udc ビデオベンチマークを提案する。 D$^2$RNetの広汎な定量的および定性的評価は、他の最先端ビデオ復元法やUDC画像復元法と比較して優れていることを示す。 コードはhttps://github.com/ChengxuLiu/DDRNet.gitで入手できる。

Under-display camera (UDC) systems are the foundation of full-screen display devices in which the lens mounts under the display. The pixel array of light-emitting diodes used for display diffracts and attenuates incident light, causing various degradations as the light intensity changes. Unlike general video restoration which recovers video by treating different degradation factors equally, video restoration for UDC systems is more challenging that concerns removing diverse degradation over time while preserving temporal consistency. In this paper, we introduce a novel video restoration network, called D$^2$RNet, specifically designed for UDC systems. It employs a set of Decoupling Attention Modules (DAM) that effectively separate the various video degradation factors. More specifically, a soft mask generation function is proposed to formulate each frame into flare and haze based on the diffraction arising from incident light of different intensities, followed by the proposed flare and haze removal components that leverage long- and short-term feature learning to handle the respective degradations. Such a design offers an targeted and effective solution to eliminating various types of degradation in UDC systems. We further extend our design into multi-scale to overcome the scale-changing of degradation that often occur in long-range videos. To demonstrate the superiority of D$^2$RNet, we propose a large-scale UDC video benchmark by gathering HDR videos and generating realistically degraded videos using the point spread function measured by a commercial UDC system. Extensive quantitative and qualitative evaluations demonstrate the superiority of D$^2$RNet compared to other state-of-the-art video restoration and UDC image restoration methods. Code is available at https://github.com/ChengxuLiu/DDRNet.git
翻訳日:2024-03-13 13:05:26 公開日:2024-03-08
# 音響同期視覚アニメーション

Audio-Synchronized Visual Animation ( http://arxiv.org/abs/2403.05659v1 )

ライセンス: Link先を確認
Lin Zhang, Shentong Mo, Yijing Zhang, Pedro Morgado(参考訳) 現在のビジュアル生成手法は、テキストで誘導された高品質なビデオを生成することができる。 しかし、オブジェクトのダイナミクスを効果的に制御することは依然として困難である。 本研究は,音声を時間同期画像アニメーション生成のための手掛かりとして探究する。 我々は,複数のクラスにまたがる音声クリップによって時間的に導かれる静的画像のアニメーション化タスクであるオーディオ同期ビジュアルアニメーション(asva)を紹介する。 この目的のために、vggsoundからキュレートされたデータセットであるavsync15を15のカテゴリにまたがって同期したオーディオビジュアルイベントを特徴とするビデオで紹介する。 また、オーディオによって誘導される動的アニメーションを生成することができる拡散モデルAVSyncDを提案する。 AVSync15を同期生成の信頼性ベンチマークとして評価し,本モデルの性能評価を行った。 さらに、ベース画像のないフルビデオ生成から、様々な音で物体の動きを制御するまで、様々なオーディオ同期生成タスクにおけるAVSyncDの可能性を探る。 確立されたベンチマークが、制御可能なビジュアル生成のための新しい道を開くことを願っています。 プロジェクトのWebページ https://lzhangbj.github.io/projects/asva/asva.html

Current visual generation methods can produce high quality videos guided by texts. However, effectively controlling object dynamics remains a challenge. This work explores audio as a cue to generate temporally synchronized image animations. We introduce Audio Synchronized Visual Animation (ASVA), a task animating a static image to demonstrate motion dynamics, temporally guided by audio clips across multiple classes. To this end, we present AVSync15, a dataset curated from VGGSound with videos featuring synchronized audio visual events across 15 categories. We also present a diffusion model, AVSyncD, capable of generating dynamic animations guided by audios. Extensive evaluations validate AVSync15 as a reliable benchmark for synchronized generation and demonstrate our models superior performance. We further explore AVSyncDs potential in a variety of audio synchronized generation tasks, from generating full videos without a base image to controlling object motions with various sounds. We hope our established benchmark can open new avenues for controllable visual generation. More videos on project webpage https://lzhangbj.github.io/projects/asva/asva.html.
翻訳日:2024-03-13 13:04:32 公開日:2024-03-08
# Feature CAM:画像分類における解釈可能なAI

Feature CAM: Interpretable AI in Image Classification ( http://arxiv.org/abs/2403.05658v1 )

ライセンス: Link先を確認
Frincy Clement, Ji Yang and Irene Cheng(参考訳) ディープニューラルネットワークはしばしば、内部層によって提示される複雑で深いアーキテクチャと非透明性のためにブラックボックスと呼ばれる。 セキュリティ、金融、健康、製造業といった重要かつ高度な分野で人工知能を使用するという信頼が欠落している。 ニューラルネットワークの思考と行動に関する有意義な洞察を提供することを目的として、解釈可能なモデルを提供するために、多くの焦点が当てられている。 本研究では,CNNモデルの予測を解釈するためのアクティベーションベース手法(ABM)の最先端手法を比較し,特に画像分類の適用について述べる。 次に、8つのCNNベースのアーキテクチャを拡張して、可視化と解釈可能性の違いを比較します。 そこで我々は,摂動と活性化の組み合わせに当てはまる新しい手法であるcamを導入し,細粒度でクラス判別的な可視化を行った。 実験結果から得られたサリエンシマップは, ABMの最先端の3~4倍の精度で人間の解釈が可能であることが判明した。 同時に、分類における平均信頼度スコアである機械解釈可能性を保留する。

Deep Neural Networks have often been called the black box because of the complex, deep architecture and non-transparency presented by the inner layers. There is a lack of trust to use Artificial Intelligence in critical and high-precision fields such as security, finance, health, and manufacturing industries. A lot of focused work has been done to provide interpretable models, intending to deliver meaningful insights into the thoughts and behavior of neural networks. In our research, we compare the state-of-the-art methods in the Activation-based methods (ABM) for interpreting predictions of CNN models, specifically in the application of Image Classification. We then extend the same for eight CNN-based architectures to compare the differences in visualization and thus interpretability. We introduced a novel technique Feature CAM, which falls in the perturbation-activation combination, to create fine-grained, class-discriminative visualizations. The resulting saliency maps from our experiments proved to be 3-4 times better human interpretable than the state-of-the-art in ABM. At the same time it reserves machine interpretability, which is the average confidence scores in classification.
翻訳日:2024-03-13 13:04:08 公開日:2024-03-08
# Q-CHOP:量子制約ハミルトン最適化

Q-CHOP: Quantum constrained Hamiltonian optimization ( http://arxiv.org/abs/2403.05653v1 )

ライセンス: Link先を確認
Michael A. Perlin, Ruslan Shaydulin, Benjamin P. Hall, Pierre Minssen, Changhao Li, Kabir Dubey, Rich Rines, Eric R. Anschuetz, Marco Pistoia, Pranav Gokhale(参考訳) 科学や産業で生じる組合せ最適化の問題は、通常制約がある。 しかし、制約が存在するため、古典最適化アルゴリズムと量子最適化アルゴリズムの両方を使うのは困難である。 量子制約付きハミルトニアン最適化(q-chop)と呼ばれる制約付き最適化のための新しい量子アルゴリズムを提案する。 提案手法では,多くの問題に対して,最善の解を見つけることが困難であるにもかかわらず,最悪の解が知られている。 基本的な考え方は、常にハミルトンの制約を強制し、それによって実現可能な状態のサブ空間への進化を制限し、最も最悪の状態から最も可能な状態への断熱経路をゆっくりと「回転させる」ことである。 また,任意の実現可能な状態から開始可能なQ-CHOPのバージョンを提案する。 最後にq-chopを,ペナルティ項を用いて強制される制約付きアダイアバティックアルゴリズムに対してベンチマークし,q-chopは,グラフの教科書問題,クナップサック,コンビネートオークション,現実世界の金融利用ケース,すなわち債券交換取引によるファンドバスケット最適化など,幅広い問題に対して一貫して優れた性能を示すことを見出した。

Combinatorial optimization problems that arise in science and industry typically have constraints. Yet the presence of constraints makes them challenging to tackle using both classical and quantum optimization algorithms. We propose a new quantum algorithm for constrained optimization, which we call quantum constrained Hamiltonian optimization (Q-CHOP). Our algorithm leverages the observation that for many problems, while the best solution is difficult to find, the worst feasible (constraint-satisfying) solution is known. The basic idea is to to enforce a Hamiltonian constraint at all times, thereby restricting evolution to the subspace of feasible states, and slowly "rotate" an objective Hamiltonian to trace an adiabatic path from the worst feasible state to the best feasible state. We additionally propose a version of Q-CHOP that can start in any feasible state. Finally, we benchmark Q-CHOP against the commonly-used adiabatic algorithm with constraints enforced using a penalty term and find that Q-CHOP performs consistently better on a wide range of problems, including textbook problems on graphs, knapsack, combinatorial auction, as well as a real-world financial use case, namely bond exchange-traded fund basket optimization.
翻訳日:2024-03-13 13:03:32 公開日:2024-03-08
# これらのデータセットの違いは何か?

What is different between these datasets? ( http://arxiv.org/abs/2403.05652v1 )

ライセンス: Link先を確認
Varun Babbar, Zhicheng Guo, Cynthia Rudin(参考訳) 機械学習モデルの性能は入力データの品質に大きく依存するが、現実のアプリケーションは様々なデータ関連の課題に直面することが多い。 そのような課題の1つは、トレーニングデータをキュレートしたり、実世界でモデルをデプロイする場合に起こり得る - 同じドメイン内の2つの同等のデータセットが異なる分布を持つ可能性がある。 分散シフトを検出するための多くの技術があるが、この文献は人間の理解可能な方法でデータセットの違いを説明するための包括的なアプローチを欠いている。 このギャップに対処するため、2つのデータセットを比較するための解釈可能な方法(ツールボックス)を提案する。 グラフデータや言語,画像,信号など,さまざまなデータモダリティに対するアプローチの汎用性を,低次元と高次元の両方で示す。 我々の手法は、説明品質と正確性の観点から比較および関連するアプローチよりも優れているだけでなく、データセットの違いを効果的に理解し軽減するための実用的な補完的な洞察を提供する。

The performance of machine learning models heavily depends on the quality of input data, yet real-world applications often encounter various data-related challenges. One such challenge could arise when curating training data or deploying the model in the real world - two comparable datasets in the same domain may have different distributions. While numerous techniques exist for detecting distribution shifts, the literature lacks comprehensive approaches for explaining dataset differences in a human-understandable manner. To address this gap, we propose a suite of interpretable methods (toolbox) for comparing two datasets. We demonstrate the versatility of our approach across diverse data modalities, including tabular data, language, images, and signals in both low and high-dimensional settings. Our methods not only outperform comparable and related approaches in terms of explanation quality and correctness, but also provide actionable, complementary insights to understand and mitigate dataset differences effectively.
翻訳日:2024-03-13 13:02:53 公開日:2024-03-08
# bci復号のための位相空間に基づく幾何ニューラルネットワーク

Geometric Neural Network based on Phase Space for BCI decoding ( http://arxiv.org/abs/2403.05645v1 )

ライセンス: Link先を確認
Igor Carrara, Bruno Aristimunha, Marie-Constance Corsi, Raphael Y. de Camargo, Sylvain Chevallier, Th\'eodore Papadopoulo(参考訳) 深層学習(DL)アルゴリズムの脳信号解析への統合は、コンピュータビジョンのような分野、特に脳-コンピュータインタフェース(BCI)における成功と比較して、まだ初期段階にある。 脳波検査(EEG)は、非侵襲的で費用効果の高い性質と時間分解能の優れたBCIシステムを設計するために広く採用されている選択である。 それでも、限られたトレーニングデータ、信号とノイズの低さ、およびオブジェクト内記録における大きなばらつきを犠牲にしている。 最後に、多くの電極でBCIシステムを構築するには長い時間がかかるため、研究所外のBCIで信頼性の高いDLアーキテクチャが広く採用されるのを妨げている。 採用を改善するためには、例えば、少数の電極で動作する信頼性の高いアルゴリズムを使用して、ユーザの快適さを改善する必要がある。 本研究の目的は,限られた電極数で効率的な結果を提供するDLアルゴリズムの開発である。 本稿では,spdnetと拡張共分散法を用いて,spdnet$_{\psi}$アーキテクチャを提案し,その性能と計算効果と結果の解釈可能性について検討する。 評価は5倍のクロスバリデーションで行われ、モータコルテックス上に位置する電極は3つしかない。 この方法論は、MOABB(Mother Of All BCI Benchmark)フレームワークを使用して、オープンソースのデータセットから100近い被験者でテストされた。 SPDNet$_{\psi}$の結果は、SPDNetと組み合わせた拡張アプローチが、MIデコーディングにおける現在の最先端DLアーキテクチャを著しく上回っていることを示している。 \textbf{significance:} この新しいアーキテクチャは、トレーニング可能なパラメータの少なさとカーボンフットプリントの低減によって説明可能である。

The integration of Deep Learning (DL) algorithms on brain signal analysis is still in its nascent stages compared to their success in fields like Computer Vision, especially in Brain-Computer Interface (BCI), where the brain activity is decoded to control external devices without requiring muscle control. Electroencephalography (EEG) is a widely adopted choice for designing BCI systems due to its non-invasive and cost-effective nature and excellent temporal resolution. Still, it comes at the expense of limited training data, poor signal-to-noise, and a large variability across and within-subject recordings. Finally, setting up a BCI system with many electrodes takes a long time, hindering the widespread adoption of reliable DL architectures in BCIs outside research laboratories. To improve adoption, we need to improve user comfort using, for instance, reliable algorithms that operate with few electrodes. \textbf{Approach:} Our research aims to develop a DL algorithm that delivers effective results with a limited number of electrodes. Taking advantage of the Augmented Covariance Method with SPDNet, we propose the SPDNet$_{\psi}$ architecture and analyze its performance and computational impact, as well as the interpretability of the results. The evaluation is conducted on 5-fold cross-validation, using only three electrodes positioned above the Motor Cortex. The methodology was tested on nearly 100 subjects from several open-source datasets using the Mother Of All BCI Benchmark (MOABB) framework. \textbf{Main results:} The results of our SPDNet$_{\psi}$ demonstrate that the augmented approach combined with the SPDNet significantly outperforms all the current state-of-the-art DL architecture in MI decoding. \textbf{Significance:} This new architecture is explainable, with a low number of trainable parameters and a reduced carbon footprint.
翻訳日:2024-03-13 13:02:24 公開日:2024-03-08
# 知覚的・抽象的推論のための特徴ベース一般化予測モデル

A Feature-based Generalizable Prediction Model for Both Perceptual and Abstract Reasoning ( http://arxiv.org/abs/2403.05641v1 )

ライセンス: Link先を確認
Quan Do, Thomas M. Morin, Chantal E. Stern, Michael E. Hasselmo(参考訳) 人間の知性の特徴は、限られた経験から抽象的なルールを推論し、これらのルールを未知の状況に適用する能力である。 この能力は、Raven's Progressive Matricesを用いて視覚領域で広く研究されている。 ディープラーニングの最近の進歩により、複数のニューラルネットワークモデルが人間のパフォーマンスにマッチする、あるいは超えている。 しかし、人間はこれらのタスクの基礎となるルールをほとんど露出することなく識別し表現することができるが、現代のニューラルネットワークはしばしば巨大なパターンベースのトレーニングに依存し、タスクから推論されたルールを表現または外挿することはできない。 さらに、ニューラルネットワークトレーニングに使用されるラヴェンのプログレッシブ行列やラヴェンのようなタスクの多くは象徴的表現を使用していたが、人間は記号的表現と連続的な知覚的表現を柔軟に切り替えることができる。 本稿では,特徴量検出,アフィン変換推定,探索を用いたルール検出と応用に関するアルゴリズム的アプローチを提案する。 我々は、これまで人間の行動検査や神経イメージングのために設計されていた、RavenのProgressive Matricesタスクに、我々のモデルを応用した。 モデルはワンショット学習を示し,単純化タスクの象徴的推論条件においてほぼ人間レベルの性能を達成した。 さらに、モデルが検出した関係を表現でき、基礎となるルールに従って多段階予測を生成することができる。 最後に、モデルは継続的パターンを使って推論できる。 我々は,人間における抽象的推論の研究と,その知的機械改善への意義について考察した。

A hallmark of human intelligence is the ability to infer abstract rules from limited experience and apply these rules to unfamiliar situations. This capacity is widely studied in the visual domain using the Raven's Progressive Matrices. Recent advances in deep learning have led to multiple artificial neural network models matching or even surpassing human performance. However, while humans can identify and express the rule underlying these tasks with little to no exposure, contemporary neural networks often rely on massive pattern-based training and cannot express or extrapolate the rule inferred from the task. Furthermore, most Raven's Progressive Matrices or Raven-like tasks used for neural network training used symbolic representations, whereas humans can flexibly switch between symbolic and continuous perceptual representations. In this work, we present an algorithmic approach to rule detection and application using feature detection, affine transformation estimation and search. We applied our model to a simplified Raven's Progressive Matrices task, previously designed for behavioral testing and neuroimaging in humans. The model exhibited one-shot learning and achieved near human-level performance in the symbolic reasoning condition of the simplified task. Furthermore, the model can express the relationships discovered and generate multi-step predictions in accordance with the underlying rule. Finally, the model can reason using continuous patterns. We discuss our results and their relevance to studying abstract reasoning in humans, as well as their implications for improving intelligent machines.
翻訳日:2024-03-13 13:01:31 公開日:2024-03-08
# chatgptを用いた意図分類のためのハードネガティブなスコープ外データの生成

Generating Hard-Negative Out-of-Scope Data with ChatGPT for Intent Classification ( http://arxiv.org/abs/2403.05640v1 )

ライセンス: Link先を確認
Zhijian Li, Stefan Larson, Kevin Leach(参考訳) インテント分類器は、ユーザの発話がサポート対象に含まれていない場合に、不正で無関係なシステム応答の発生を避けることができる必要がある。 インテント分類器のout-of-scope (oos) 検出は研究されているが、従来の研究では、ハード負のout-of-scope 発話に対する分類器の性能の変化(すなわち、in-scope データと共通の特徴を共有し、実際にはout-of-scope である入力)は研究されていない。 本稿では,ChatGPTを用いた強陰性OOSデータの自動生成手法を提案する。 我々はこの手法を用いて、5つの新しい強陰性OOSデータセットを構築し、それぞれを3つのベンチマークインテント分類器に対して評価する。 分類器は、一般的なOOS発声よりも強い負のOOS発声を正しく識別することが困難であることを示す。 最後に,OOSデータと一般的なOOSデータを検出する際のモデルロバスト性を向上することを示す。 我々の技術、データセット、評価はこの分野における重要な空白に対処し、ハードネガティブなOOSデータを収集し、意図分類器の堅牢性を改善するための簡単で安価な方法を提供する。

Intent classifiers must be able to distinguish when a user's utterance does not belong to any supported intent to avoid producing incorrect and unrelated system responses. Although out-of-scope (OOS) detection for intent classifiers has been studied, previous work has not yet studied changes in classifier performance against hard-negative out-of-scope utterances (i.e., inputs that share common features with in-scope data, but are actually out-of-scope). We present an automated technique to generate hard-negative OOS data using ChatGPT. We use our technique to build five new hard-negative OOS datasets, and evaluate each against three benchmark intent classifiers. We show that classifiers struggle to correctly identify hard-negative OOS utterances more than general OOS utterances. Finally, we show that incorporating hard-negative OOS data for training improves model robustness when detecting hard-negative OOS data and general OOS data. Our technique, datasets, and evaluation address an important void in the field, offering a straightforward and inexpensive way to collect hard-negative OOS data and improve intent classifiers' robustness.
翻訳日:2024-03-13 13:01:06 公開日:2024-03-08
# ロシアのメディアに対するインターネット制裁:行動と効果

Internet Sanctions on Russian Media: Actions and Effects ( http://arxiv.org/abs/2403.05638v1 )

ライセンス: Link先を確認
John Kristoff, Moritz M\"uller, Arturo Filast\`o, Max Resing, Chris Kanich, Niels ten Oever(参考訳) ウクライナに対するロシアの攻撃に対する反応として、欧州連合(EU)は「デジタル主権」という概念を通じて、オンライン配信を含む放送コンテンツを禁止しているロシア連邦に属する組織や個人に制裁を課した。 本稿では、これらの制裁の実施に疑問を呈し、国家連合の政府令を効果的な技術的対策に翻訳するための手段として解釈する。 縦断的な交通分析を通じて、異なるeu諸国のispがこれらの制裁をいかに実施しようとしたかを理解し、これらの実施を他の欧米諸国の同様の措置と比較する。 我々は、国際的にも個々の加盟国内でも、幅広い範囲のブロック範囲を見出している。 我々は、EUの制裁によるデジタル主権は、具体的ではあるが情報の流れに明らかに限定的な影響を与えるという結論を導いた。

As a response to the Russian aggression against Ukraine, the European Union (EU), through the notion of "digital sovereignty", imposed sanctions on organizations and individuals affiliated with the Russian Federation that prohibit broadcasting content, including online distribution. In this paper, we interrogate the implementation of these sanctions and interpret them as a means to translate the union of states' governmental edicts into effective technical countermeasures. Through longitudinal traffic analysis, we construct an understanding of how ISPs in different EU countries attempted to enforce these sanctions, and compare these implementations to similar measures in other western countries. We find a wide variation of blocking coverage, both internationally and within individual member states. We draw the conclusion that digital sovereignty through sanctions in the EU has a concrete but distinctly limited impact on information flows.
翻訳日:2024-03-13 13:00:43 公開日:2024-03-08
# LLM展開のためのチューニング不要な説明責任介入 -- メタ認知的アプローチ

Tuning-Free Accountable Intervention for LLM Deployment -- A Metacognitive Approach ( http://arxiv.org/abs/2403.05636v1 )

ライセンス: Link先を確認
Zhen Tan, Jie Peng, Tianlong Chen, Huan Liu(参考訳) 大規模言語モデル(LLM)は、パラメータチューニングの必要性を回避し、少数ショットまたはゼロショットプロンプトを通じて、自然言語処理タスクのスペクトルにわたる変換的進歩を触媒した。 特に巨大なモデルサイズの背後にある謎めいた ``black-box'' の性質を考えると、このモードは便利である。 このような懸念は、非可算な決定エラーが破壊的な結果をもたらすような、高リスクなアプリケーション(例えば医療)において悪化する。 対照的に、人間の意思決定は、概念理解を通じて誤認識を感知し、適応的に修正する能力など、ニュアンス化された認知過程に依存している。 人間の認識から着想を得て、llmに自己認識エラーの識別と修正能力を持たせるための革新的な \textit{metacognitive} アプローチを提案する。 我々のフレームワークは、透明な決定経路を照らす概念固有のスパースサブネットワークの構築を促進する。 これはデプロイ後のモデル \textit{intervention} のための新しいインターフェイスを提供する。 我々の介入は、(\textit{i})~配置または推論時間において、メタ認知的LLMは、最小人間の関与による潜在的な誤予測を自覚的に識別し、(\textit{ii})~モデルは、エラーを効率的に修正し、追加のチューニングの必要性を回避し、(\textit{iii})~修正手順は、自己探索的だけでなく、ユーザフレンドリなものであり、モデルの解釈可能性とアクセシビリティを高める。 これらのメタ認知機能を統合することで,LLMの展開における信頼性と説明責任の向上に向けた新たな道のりを開拓する。

Large Language Models (LLMs) have catalyzed transformative advances across a spectrum of natural language processing tasks through few-shot or zero-shot prompting, bypassing the need for parameter tuning. While convenient, this modus operandi aggravates ``hallucination'' concerns, particularly given the enigmatic ``black-box'' nature behind their gigantic model sizes. Such concerns are exacerbated in high-stakes applications (e.g., healthcare), where unaccountable decision errors can lead to devastating consequences. In contrast, human decision-making relies on nuanced cognitive processes, such as the ability to sense and adaptively correct misjudgments through conceptual understanding. Drawing inspiration from human cognition, we propose an innovative \textit{metacognitive} approach, dubbed \textbf{CLEAR}, to equip LLMs with capabilities for self-aware error identification and correction. Our framework facilitates the construction of concept-specific sparse subnetworks that illuminate transparent decision pathways. This provides a novel interface for model \textit{intervention} after deployment. Our intervention offers compelling advantages: (\textit{i})~at deployment or inference time, our metacognitive LLMs can self-consciously identify potential mispredictions with minimum human involvement, (\textit{ii})~the model has the capability to self-correct its errors efficiently, obviating the need for additional tuning, and (\textit{iii})~the rectification procedure is not only self-explanatory but also user-friendly, enhancing the interpretability and accessibility of the model. By integrating these metacognitive features, our approach pioneers a new path toward engendering greater trustworthiness and accountability in the deployment of LLMs.
翻訳日:2024-03-13 13:00:29 公開日:2024-03-08
# 大型言語モデルはゲームをできるのか? セルフプレイアプローチの事例研究

Can Large Language Models Play Games? A Case Study of A Self-Play Approach ( http://arxiv.org/abs/2403.05632v1 )

ライセンス: Link先を確認
Hongyi Guo, Zhihan Liu, Yufeng Zhang, Zhaoran Wang(参考訳) LLM(Large Language Models)は、インターネットからの広範なデータを利用して、幅広い事前知識を格納する。 LLMは意思決定支援として有用であることが証明されているが、その信頼性は推論や幻覚現象などの制限によって妨げられている。 一方、モンテカルロ木探索(MCTS)は、再帰的なロールアウトとセルフプレイによって達成される信頼性の高い意思決定ソリューションを提供するヒューリスティック検索アルゴリズムである。 しかし、MCTSの有効性は、特に複雑な決定シナリオにおいて、ヒューリスティックプルーニングと外部値関数に大きく依存している。 本研究は,チェスや囲碁などの決定論的ターンベースのゼロサムゲーム (DTZG) を,追加のトレーニングを必要とせずに効率的に解決するために,MCTS のセルフプレイで LLM を活性化させる革新的なアプローチを導入する。 具体的には、付加的なトレーニングを必要とせず、LLMをアクションプルーナーとプロキシの両方に活用する。 We theoretically prove that the suboptimality of the estimated value in our proposed method scales with $\tilde{\mathcal O}\Bigl(\frac{|\tilde {\mathcal A}|}{\sqrt{N}} + \epsilon_\mathrm{pruner} + \epsilon_\mathrm{critic}\Bigr)$, where \(N\) is the number of simulations, $|\tilde {\mathcal A}|$ is the cardinality of the pruned action space by LLM, and $\epsilon_\mathrm{pruner}$ and $\epsilon_\mathrm{critic}$ quantify the errors incurred by adopting LLMs as action space pruner and value function proxy, respectively. チェスとゴーの実験では,MCTSの範囲を超えた課題に対処する手法が実証され,LSMの直接適用性能が向上した。

Large Language Models (LLMs) harness extensive data from the Internet, storing a broad spectrum of prior knowledge. While LLMs have proven beneficial as decision-making aids, their reliability is hampered by limitations in reasoning, hallucination phenomenon, and so on. On the other hand, Monte-Carlo Tree Search (MCTS) is a heuristic search algorithm that provides reliable decision-making solutions, achieved through recursive rollouts and self-play. However, the effectiveness of MCTS relies heavily on heuristic pruning and external value functions, particularly in complex decision scenarios. This work introduces an innovative approach that bolsters LLMs with MCTS self-play to efficiently resolve deterministic turn-based zero-sum games (DTZG), such as chess and go, without the need for additional training. Specifically, we utilize LLMs as both action pruners and proxies for value functions without the need for additional training. We theoretically prove that the suboptimality of the estimated value in our proposed method scales with $\tilde{\mathcal O}\Bigl(\frac{|\tilde {\mathcal A}|}{\sqrt{N}} + \epsilon_\mathrm{pruner} + \epsilon_\mathrm{critic}\Bigr)$, where \(N\) is the number of simulations, $|\tilde {\mathcal A}|$ is the cardinality of the pruned action space by LLM, and $\epsilon_\mathrm{pruner}$ and $\epsilon_\mathrm{critic}$ quantify the errors incurred by adopting LLMs as action space pruner and value function proxy, respectively. Our experiments in chess and go demonstrate the capability of our method to address challenges beyond the scope of MCTS and improve the performance of the directly application of LLMs.
翻訳日:2024-03-13 12:59:50 公開日:2024-03-08
# 共同体構造をもたない量子複素ネットワークによるガウス状態の移動とルーティング

Transfer and routing of Gaussian states through quantum complex networks with and without community structure ( http://arxiv.org/abs/2403.05623v1 )

ライセンス: Link先を確認
Markku Hahto, Johannes Nokkala, Guillermo Garc\'ia-P\'erez, Sabrina Maniscalco, Jyrki Piilo(参考訳) 量子状態転送の目標は、量子情報のキャリアを物理的に転送する必要性を避けることである。 これは、あるサブシステムの状態を他のサブシステムへ移すよう誘導する適切に設計されたハミルトニアンを用いることによって達成される。 状態転移のあまり知られていない一般化は、任意のペアが量子情報を交換でき、転送が独立して開始および停止することのできる複数のシステムを考える。 これを量子状態のルーティングと呼ぶこともある。 特に状態転送には多くの注意が払われているが、状態転送とルーティングに関する関心事の両方の結果の大部分は、制限された構造のネットワークで転送される。 ここでは、単一モードガウス状態のルーティングと量子調和振動子の複雑なネットワークによる絡み合いを考える。 我々は、転送が1ステップで完了するが、有効なハミルトニアンは、転送が原則として完全であるが、転送が2ステップで行われるような状態とほぼ1つの状態とを転送するだけであるプロトコルを比較し、転送忠実度の状態依存性を示す。 ランダムで均質なネットワークであっても、転送忠実度は任意のリンク密度のノードの程度に依存し、ランダムネットワークと複雑なネットワークの両方において、転送に有用な高周波数正規モードの出現を制御するコミュニティ構造であることがわかった。 最後に, 複雑度の高いネットワークは, 表面的に類似したランダムネットワークよりも優れたルーティング性能を持つ可能性があることを見出した。 本研究は,国家移動と関連する課題におけるコミュニティ構造の役割のさらなる探求の道を開くものである。

The goal in quantum state transfer is to avoid the need to physically transport carriers of quantum information. This is achieved by using a suitably engineered Hamiltonian that induces the transfer of the state of one subsystem to another. A less known generalization of state transfer considers multiple systems such that any pair can exchange quantum information and transfers can take place at any time, starting and stopping independently. This is sometimes called routing of quantum states. State transfer in particular has received a great deal of attention, however the vast majority of results in both state transfer and routing concern qubits transferred in a network of restricted structure. Here we consider routing of single-mode Gaussian states and entanglement through complex networks of quantum harmonic oscillators. We compare a protocol where the transfer is completed in a single step but the effective Hamiltonian only approximately transfers the state with one where the transfer can in principle be perfect but the transfer is done in two steps, and also illustrate the state-dependency of the transfer fidelity. We find that even in a random and homogeneous network, the transfer fidelity still depends on the degree of the nodes for any link density, and that in both random and complex networks it is the community structure that controls the appearance of higher frequency normal modes useful for transfer. Finally, we find that networks of sufficient complexity may have superior routing performance over superficially similar random networks. Our results pave the way for further exploration of the role of community structure in state transfer and related tasks.
翻訳日:2024-03-13 12:59:16 公開日:2024-03-08
# OmniJet-$\alpha$:粒子物理学のための最初のクロスタスク基礎モデル

OmniJet-$\alpha$: The first cross-task foundation model for particle physics ( http://arxiv.org/abs/2403.05618v1 )

ライセンス: Link先を確認
Joschka Birk, Anna Hallin, Gregor Kasieczka(参考訳) ファンデーションモデルはマルチデータセットとマルチタスクの機械学習の手法で、一度トレーニングされた後、様々な下流アプリケーション向けに微調整できる。 このような物理データのための汎用モデルの開発が成功したことは、達成可能な物理性能を向上させると同時に、必要なトレーニング時間とデータを大幅に削減できる大きなブレークスルーとなるだろう。 いくつかの面でこの課題について大きな進展を報告します。 まず、物理データからトランスフォーマーアーキテクチャ(基礎モデルの共通バックボーン)による粒子噴流の自己回帰生成に適した表現へ符号化の品質を判断するための総合的な評価手法を導入する。 これらの尺度は、以前の作品と比較して高忠実度トークン化の選択を動機付けている。 最後に、新しいomnijet-$\alpha$モデルを用いて、教師なし問題(ジェット生成)と古典的な教師付きタスク(ジェットタグ)の間の転送学習を示す。 これは2つの異なる、そして活発に研究されたタスクのクラス間での移動が成功し、粒子物理学の基礎モデルの構築において大きなステップとなる。

Foundation models are multi-dataset and multi-task machine learning methods that once pre-trained can be fine-tuned for a large variety of downstream applications. The successful development of such general-purpose models for physics data would be a major breakthrough as they could improve the achievable physics performance while at the same time drastically reduce the required amount of training time and data. We report significant progress on this challenge on several fronts. First, a comprehensive set of evaluation methods is introduced to judge the quality of an encoding from physics data into a representation suitable for the autoregressive generation of particle jets with transformer architectures (the common backbone of foundation models). These measures motivate the choice of a higher-fidelity tokenization compared to previous works. Finally, we demonstrate transfer learning between an unsupervised problem (jet generation) and a classic supervised task (jet tagging) with our new OmniJet-$\alpha$ model. This is the first successful transfer between two different and actively studied classes of tasks and constitutes a major step in the building of foundation models for particle physics.
翻訳日:2024-03-13 12:58:49 公開日:2024-03-08
# 未知のファインタニング例による言語モデルの幻覚制御

Unfamiliar Finetuning Examples Control How Language Models Hallucinate ( http://arxiv.org/abs/2403.05612v1 )

ライセンス: Link先を確認
Katie Kang, Eric Wallace, Claire Tomlin, Aviral Kumar, Sergey Levine(参考訳) 大規模言語モデル(llm)は、特に不慣れな概念を問合せした場合に、実際的に不正確な応答を生成する傾向がある。 本研究では,llmの幻覚を微調整するメカニズムについて検討する。 入力がより不慣れになるにつれて、LPM出力は `hedged'' 予測に対してデフォルトとなる傾向にあり、その形式は、微調整データの不慣れな例がどのように管理されているかによって決定される。 したがって、これらの例の監督を戦略的に修正することで、未知の入力に対してLSM予測を制御できる(例: 'I don't know')。 これらの原理に基づき、報酬モデル幻覚がもたらす課題に対処することにより、より確実に長文生成タスクの幻覚を緩和するRLアプローチを開発する。 本研究は,MMLU上での複数選択QAにおける一連の制御実験と,長文の伝記および書物プロット生成タスクで検証した。

Large language models (LLMs) have a tendency to generate plausible-sounding yet factually incorrect responses, especially when queried on unfamiliar concepts. In this work, we explore the underlying mechanisms that govern how finetuned LLMs hallucinate. Our investigation reveals an interesting pattern: as inputs become more unfamiliar, LLM outputs tend to default towards a ``hedged'' prediction, whose form is determined by how the unfamiliar examples in the finetuning data are supervised. Thus, by strategically modifying these examples' supervision, we can control LLM predictions for unfamiliar inputs (e.g., teach them to say ``I don't know''). Based on these principles, we develop an RL approach that more reliably mitigates hallucinations for long-form generation tasks, by tackling the challenges presented by reward model hallucinations. We validate our findings with a series of controlled experiments in multiple-choice QA on MMLU, as well as long-form biography and book/movie plot generation tasks.
翻訳日:2024-03-13 12:58:32 公開日:2024-03-08
# ニューラルネットワーク最適化における結合収束群の存在に関する証拠・定義・アルゴリズム

Evidence, Definitions and Algorithms regarding the Existence of Cohesive-Convergence Groups in Neural Network Optimization ( http://arxiv.org/abs/2403.05610v1 )

ライセンス: Link先を確認
Thien An L. Nguyen(参考訳) ニューラルネットワークの収束過程を理解することは、機械学習の分野で最も複雑で重要な問題のひとつだ。 この領域での顕著な成功と人工ニューラルネットワークの収束は密接な関係にあるが、この概念は主に理論的に続いている。 実際、ニューラルネットワークが取り組む最適化問題の非凸性のため、実際に収束する訓練されたネットワークはごくわずかである。 本稿では,人工神経ネットワークの最適化過程において出現する結束収束群の観察に基づく異なるアプローチについて述べる。

Understanding the convergence process of neural networks is one of the most complex and crucial issues in the field of machine learning. Despite the close association of notable successes in this domain with the convergence of artificial neural networks, this concept remains predominantly theoretical. In reality, due to the non-convex nature of the optimization problems that artificial neural networks tackle, very few trained networks actually achieve convergence. To expand recent research efforts on artificial-neural-network convergence, this paper will discuss a different approach based on observations of cohesive-convergence groups emerging during the optimization process of an artificial neural network.
翻訳日:2024-03-13 12:58:13 公開日:2024-03-08
# 鳥と車だけでなく、プロの視覚認識のためのジェネリック、スケーラブル、説明可能なモデル

Not just Birds and Cars: Generic, Scalable and Explainable Models for Professional Visual Recognition ( http://arxiv.org/abs/2403.05703v1 )

ライセンス: Link先を確認
Junde Wu and Jiayuan Zhu and Min Xu and Yueming Jin(参考訳) 一部の視覚認識タスクは、プロのイメージのカテゴリを必要とするため、一般的なタスクよりも難しい。 これまでの細かなビジョン分類のような取り組みでは、鳥種や自動車ブランドの識別などの特定のタスクに合わせて、スケーラビリティと汎用性に制限のあるモデルを主に導入していた。 本稿では,汎用的な視点から専門的な視覚認識タスクを解くために,スケーラブルで説明可能なモデルを設計することを目的とする。 Pro-NeXtという生物学的にインスパイアされた構造を導入し、Pro-NeXtはファッション、医療、アートなど様々な専門分野にまたがって、これまでは異なっていた領域でかなりの一般化性を示すことを示した。 我々の基本サイズのpro-next-bは、5つの異なるドメイン内の12の異なるデータセットにまたがって、以前のタスク固有のモデルをすべて上回っています。 さらに,GFlopsの増加に伴うPro-NeXtの深さと幅のスケールアップにより,その精度を継続的に向上できる,優れたスケーリング特性が得られた。 スケーラビリティと適応性を超えて、pro-nextの中間機能は、追加のトレーニングなしで信頼できるオブジェクト検出とセグメンテーション性能を実現し、強固な説明可能性を強調している。 この分野のさらなる研究を促進するために、コードを公開します。

Some visual recognition tasks are more challenging then the general ones as they require professional categories of images. The previous efforts, like fine-grained vision classification, primarily introduced models tailored to specific tasks, like identifying bird species or car brands with limited scalability and generalizability. This paper aims to design a scalable and explainable model to solve Professional Visual Recognition tasks from a generic standpoint. We introduce a biologically-inspired structure named Pro-NeXt and reveal that Pro-NeXt exhibits substantial generalizability across diverse professional fields such as fashion, medicine, and art-areas previously considered disparate. Our basic-sized Pro-NeXt-B surpasses all preceding task-specific models across 12 distinct datasets within 5 diverse domains. Furthermore, we find its good scaling property that scaling up Pro-NeXt in depth and width with increasing GFlops can consistently enhances its accuracy. Beyond scalability and adaptability, the intermediate features of Pro-NeXt achieve reliable object detection and segmentation performance without extra training, highlighting its solid explainability. We will release the code to foster further research in this area.
翻訳日:2024-03-13 12:54:31 公開日:2024-03-08
# 3D OCTによる緑内障診断のための空間認識トランスフォーマーGRUフレームワーク

Spatial-aware Transformer-GRU Framework for Enhanced Glaucoma Diagnosis from 3D OCT Imaging ( http://arxiv.org/abs/2403.05702v1 )

ライセンス: Link先を確認
Mona Ashtari-Majlan, Mohammad Mahdi Dehshibi, David Masip(参考訳) 緑内障は可逆性失明の主要な原因であり、視力喪失を防ぐために、正確でタイムリーな介入を早期に検出する必要がある。 本研究では,3次元光コヒーレンス断層撮影(oct)の診断的価値を活用し,緑内障自動検出のための新しい深層学習フレームワークを提案する。 本フレームワークでは,リッチスライスワイズ機能抽出のための網膜データに事前学習したビジョン変換器と,スライス間空間依存性をキャプチャする双方向Gated Recurrent Unitを統合する。 このデュアルコンポーネントアプローチは、正確な緑内障診断に不可欠な、局所的ニュアンスとグローバルな構造的完全性の包括的な分析を可能にする。 大規模データセットにおける実験結果から,提案手法が最先端手法よりも優れた性能を示し,F1スコア93.58%,マシューズ相関係数73.54%,AUC95.24%を達成した。 3D OCTデータで貴重な情報を活用できるフレームワークの能力は、臨床意思決定支援システムの強化と緑内障管理における患者結果の改善に重要な可能性を秘めている。

Glaucoma, a leading cause of irreversible blindness, necessitates early detection for accurate and timely intervention to prevent irreversible vision loss. In this study, we present a novel deep learning framework that leverages the diagnostic value of 3D Optical Coherence Tomography (OCT) imaging for automated glaucoma detection. In this framework, we integrate a pre-trained Vision Transformer on retinal data for rich slice-wise feature extraction and a bidirectional Gated Recurrent Unit for capturing inter-slice spatial dependencies. This dual-component approach enables comprehensive analysis of local nuances and global structural integrity, crucial for accurate glaucoma diagnosis. Experimental results on a large dataset demonstrate the superior performance of the proposed method over state-of-the-art ones, achieving an F1-score of 93.58%, Matthews Correlation Coefficient (MCC) of 73.54%, and AUC of 95.24%. The framework's ability to leverage the valuable information in 3D OCT data holds significant potential for enhancing clinical decision support systems and improving patient outcomes in glaucoma management.
翻訳日:2024-03-13 12:54:10 公開日:2024-03-08
# 大規模言語モデルは人間とロボットの相互作用に対する人々の社会的直感に相応しいか?

Are Large Language Models Aligned with People's Social Intuitions for Human-Robot Interactions? ( http://arxiv.org/abs/2403.05701v1 )

ライセンス: Link先を確認
Lennart Wachowiak, Andrew Coles, Oya Celiktutan, Gerard Canal(参考訳) 大規模言語モデル(llm)はロボティクス、特にハイレベルな行動計画においてますます使われている。 一方、多くのロボティクスアプリケーションは人間の監督者や協力者を含む。 したがって、LLMは人々の好みや価値観に合わせて社会的に受け入れられる行動を生成することが不可欠である。 本研究では,人間-ロボットインタラクション(HRI)シナリオにおける行動判断やコミュニケーションの嗜好に関する人々の直感をLLMが捉えているかどうかを検証する。 評価のために,3つのHRIユーザスタディを再現し,LLMの出力と実際の参加者の出力を比較した。 gpt-4は他のモデルよりも優れており、2つの研究でユーザーの答えに強く相関する回答を生成する。 $\unicode{x2014}$ 様々な状況におけるロボットの最も適切なコミュニケーション行為(r_s$ = 0.82)を選択することを扱う最初の研究(r_s$ = 0.83)と、行動の望ましさ、意図性、驚き性を判断すること(r_s$ = 0.83)である。 しかし、ロボットと人間の行動を別々に判断するかどうかをテストする前回の研究では、強い相関関係は得られていない。 さらに,視覚モデルでは映像刺激の本質を捉えることができず,LLMは人よりもコミュニケーション行動や行動の嗜好性を高く評価する傾向があることを示す。

Large language models (LLMs) are increasingly used in robotics, especially for high-level action planning. Meanwhile, many robotics applications involve human supervisors or collaborators. Hence, it is crucial for LLMs to generate socially acceptable actions that align with people's preferences and values. In this work, we test whether LLMs capture people's intuitions about behavior judgments and communication preferences in human-robot interaction (HRI) scenarios. For evaluation, we reproduce three HRI user studies, comparing the output of LLMs with that of real participants. We find that GPT-4 strongly outperforms other models, generating answers that correlate strongly with users' answers in two studies $\unicode{x2014}$ the first study dealing with selecting the most appropriate communicative act for a robot in various situations ($r_s$ = 0.82), and the second with judging the desirability, intentionality, and surprisingness of behavior ($r_s$ = 0.83). However, for the last study, testing whether people judge the behavior of robots and humans differently, no model achieves strong correlations. Moreover, we show that vision models fail to capture the essence of video stimuli and that LLMs tend to rate different communicative acts and behavior desirability higher than people.
翻訳日:2024-03-13 12:53:48 公開日:2024-03-08
# DADIT: イタリアのTwitter利用者のデモグラフィー分類のためのデータセットと予測方法の比較

DADIT: A Dataset for Demographic Classification of Italian Twitter Users and a Comparison of Prediction Methods ( http://arxiv.org/abs/2403.05700v1 )

ライセンス: Link先を確認
Lorenzo Lupo, Paul Bose, Mahyar Habibi, Dirk Hovy, Carlo Schwarz(参考訳) 社会科学者は人口統計学的に階層化されたソーシャルメディアデータを使って、一般大衆の態度、信念、行動を研究する。 このような分析を容易にするために,イタリアの20万のTwitterユーザの300万ツイートのDADITデータセットを,そのバイオやプロフィール写真とともに構築し,検証し,公開する。 私たちは、性別、年齢、位置情報の質の高いラベルでユーザーデータを豊かにします。 DADITにより、ソーシャルメディア利用者の性別や年齢を予測する様々な最先端モデルの性能を訓練し比較することができる。 特に、M3のような人気のある分類器がそれらを活用していないため、ツイートにタスクに価値のある情報が含まれているかどうかを調べる。 我々の最高のXLMベースの分類器は、よく使われる競合M3を最大53%改善する。 特に年齢予測では、分類器はツイートを機能として含むことで利益を得る。 また、ドイツのテストセットでこれらの発見を確認した。

Social scientists increasingly use demographically stratified social media data to study the attitudes, beliefs, and behavior of the general public. To facilitate such analyses, we construct, validate, and release publicly the representative DADIT dataset of 30M tweets of 20k Italian Twitter users, along with their bios and profile pictures. We enrich the user data with high-quality labels for gender, age, and location. DADIT enables us to train and compare the performance of various state-of-the-art models for the prediction of the gender and age of social media users. In particular, we investigate if tweets contain valuable information for the task, since popular classifiers like M3 don't leverage them. Our best XLM-based classifier improves upon the commonly used competitor M3 by up to 53% F1. Especially for age prediction, classifiers profit from including tweets as features. We also confirm these findings on a German test set.
翻訳日:2024-03-13 12:53:22 公開日:2024-03-08
# SeeGULL Multilingual: 地理的に指定されたステレオタイプのデータセット

SeeGULL Multilingual: a Dataset of Geo-Culturally Situated Stereotypes ( http://arxiv.org/abs/2403.05696v1 )

ライセンス: Link先を確認
Mukul Bhutani, Kevin Robinson, Vinodkumar Prabhakaran, Shachi Dave, Sunipa Dev(参考訳) 生成多言語モデルは急速に展開されているが、その安全性と公平性の評価は英語で収集された資源に限られている。 これは、ステレオタイピングのような本質的に社会文化的現象を対象とする評価において特に問題であり、各言語コミュニティで広く見られるステレオタイプを反映した多言語資源を構築することが重要である。 しかし、これらの資源を大規模に集めることは、幅広い社会文化的知識を必要とするため、様々な言語や地域において大きな課題となる。 この批判的なギャップを克服するため,我々は最近導入した手法を用いて,llm世代を信頼性のために文化的に位置付けられた検証と結合させ,25k以上のステレオタイプを含むグローバル規模の多言語多言語データセットであるseegull multilingualを構築した。 コンテンツ警告: この論文で共有されているステレオタイプは攻撃的です。

While generative multilingual models are rapidly being deployed, their safety and fairness evaluations are largely limited to resources collected in English. This is especially problematic for evaluations targeting inherently socio-cultural phenomena such as stereotyping, where it is important to build multi-lingual resources that reflect the stereotypes prevalent in respective language communities. However, gathering these resources, at scale, in varied languages and regions pose a significant challenge as it requires broad socio-cultural knowledge and can also be prohibitively expensive. To overcome this critical gap, we employ a recently introduced approach that couples LLM generations for scale with culturally situated validations for reliability, and build SeeGULL Multilingual, a global-scale multilingual dataset of social stereotypes, containing over 25K stereotypes, spanning 20 languages, with human annotations across 23 regions, and demonstrate its utility in identifying gaps in model evaluations. Content warning: Stereotypes shared in this paper can be offensive.
翻訳日:2024-03-13 12:53:09 公開日:2024-03-08
# ハードウェア制約デバイスとコンピュータビジョンを用いた太陽電池のマイクロフラクチャー検出

Micro-Fracture Detection in Photovoltaic Cells with Hardware-Constrained Devices and Computer Vision ( http://arxiv.org/abs/2403.05694v1 )

ライセンス: Link先を確認
Booy Vitas Faassen, Jorge Serrano, and Paul D. Rosero-Montalvo(参考訳) 太陽エネルギーは、化石燃料のような従来の有限資源に対する堅牢な再生可能エネルギー源になりつつある。 相互接続された太陽電池パネルを用いて収穫され、通常は結晶シリコン細胞、すなわち太陽光を効率的に電気に変換する半導体材料で製造される。 しかし、結晶性シリコンは、時間経過や予測メンテナンスタスクにおいて脆弱で脆弱であり、太陽電池の一部が電気的に隔離され、故障さえも起こり、パネルの性能や発電の低下に影響を及ぼす。 本研究の目的は, 太陽電池パネルのセルひび割れを検知し, コンピュータビジョン技術を用いて太陽電池システムの潜在的な故障を予測し, 警告するシステムを開発することである。 これらのテクニックが価値をもたらす3つのシナリオが定義されます。 シナリオaでは、画像は手動で撮影され、太陽電池の故障を検出するシステムはいかなる計算制約にも従わない。 シナリオBでは、エッジデバイスはソーラーファームの近くに置かれ、推論を行うことができる。 最後に、シナリオCでは、小さなマイクロコントローラがソーラーファームの上を飛行し、太陽電池の状態に関する推論を行うドローンに置かれる。 1つはインセプションv3モデル、もう1つは完全な整数量子化に縮小された効率的なnetb0モデル、そしてvgg16ブロックで構築されたカスタマイズされたcnnアーカイブである。

Solar energy is rapidly becoming a robust renewable energy source to conventional finite resources such as fossil fuels. It is harvested using interconnected photovoltaic panels, typically built with crystalline silicon cells, i.e. semiconducting materials that convert effectively the solar radiation into electricity. However, crystalline silicon is fragile and vulnerable to cracking over time or in predictive maintenance tasks, which can lead to electric isolation of parts of the solar cell and even failure, thus affecting the panel performance and reducing electricity generation. This work aims to developing a system for detecting cell cracks in solar panels to anticipate and alaert of a potential failure of the photovoltaic system by using computer vision techniques. Three scenarios are defined where these techniques will bring value. In scenario A, images are taken manually and the system detecting failures in the solar cells is not subject to any computationa constraints. In scenario B, an Edge device is placed near the solar farm, able to make inferences. Finally, in scenario C, a small microcontroller is placed in a drone flying over the solar farm and making inferences about the solar cells' states. Three different architectures are found the most suitable solutions, one for each scenario, namely the InceptionV3 model, an EfficientNetB0 model shrunk into full integer quantization, and a customized CNN architechture built with VGG16 blocks.
翻訳日:2024-03-13 12:52:51 公開日:2024-03-08
# 複雑な宇宙機作業のためのシールド型深部強化学習

Shielded Deep Reinforcement Learning for Complex Spacecraft Tasking ( http://arxiv.org/abs/2403.05693v1 )

ライセンス: Link先を確認
Robert Reed, Hanspeter Schaub, Morteza Lahijanian(参考訳) シールド型深部強化学習(SDRL)による自律型宇宙船制御は、急速に成長している研究領域となっている。 しかしながら、シールドの構築とタスクの定義は非公式であり、その結果、RLエージェントの安全性と曖昧な目標に関する保証のないポリシーが生まれている。 本稿では,まず,宇宙船の作業や安全要件を形式化するための形式言語であるLTL(Linear Temporal Logic)について検討する。 次に、SDRLフレームワークにおける効果的なトレーニングのために、コセーフなLTL仕様から報酬関数を自動構築する方法を定義する。 また、宇宙船用安全LTL仕様からシールドを構築する方法についても検討し、確率的保証を提供する3つの設計を提案する。 いくつかの実験を通して、これらのシールドが異なるポリシーや報酬構造の柔軟性とどのように相互作用するかを示す。

Autonomous spacecraft control via Shielded Deep Reinforcement Learning (SDRL) has become a rapidly growing research area. However, the construction of shields and the definition of tasking remains informal, resulting in policies with no guarantees on safety and ambiguous goals for the RL agent. In this paper, we first explore the use of formal languages, namely Linear Temporal Logic (LTL), to formalize spacecraft tasks and safety requirements. We then define a manner in which to construct a reward function from a co-safe LTL specification automatically for effective training in SDRL framework. We also investigate methods for constructing a shield from a safe LTL specification for spacecraft applications and propose three designs that provide probabilistic guarantees. We show how these shields interact with different policies and the flexibility of the reward structure through several experiments.
翻訳日:2024-03-13 12:52:26 公開日:2024-03-08
# 非教師付きクロスドメイン検索のための意味的特徴学習

Semantic Feature Learning for Universal Unsupervised Cross-Domain Retrieval ( http://arxiv.org/abs/2403.05690v1 )

ライセンス: Link先を確認
Lixu Wang, Xinyu Du, Qi Zhu(参考訳) 多くの技術にとって重要なツールであるクロスドメイン検索(CDR)は、ますます広範に応用されている。 しかし、既存の取り組みはいくつかの大きな問題に直面しており、最も重要なのは、しばしばコストのかかるリソースと努力を必要とする、正確な監視の必要性である。 最先端の研究は教師なしのcdrの達成に焦点をあてるが、一般的にドメイン間の圏空間は同一であると仮定する。 これは、専門的で包括的な分析によってのみ異なる領域の圏空間が同一であると確認できるためであり、教師なしシナリオの前提とは矛盾する。 そこで本研究では,Universal Unsupervised Cross-Domain Retrieval (U^2CDR) の問題を初めて紹介し,それに対応する2段階の意味的特徴学習フレームワークを設計する。 第1段階では、インスタンス-prototype-mixed contrastive loss と semantic-enhanced loss の指導のもとにクロスドメイン統一原型構造が確立され、圏空間差に反抗する。 第2段階では、修正された対向訓練機構により、確立された原型構造に対するドメインアライメント中の最小限の変更を保証し、より正確な近距離探索を可能にする。 クローズト,部分的,オープンセットのCDRを含む,複数のデータセットやシナリオにわたる大規模な実験は,我々のアプローチが既存の最先端のCDRよりも大幅に優れており,U^2CDR課題の解決における他のトピックによる潜在的に効果的な研究がいくつかあることを実証している。

Cross-domain retrieval (CDR), as a crucial tool for numerous technologies, is finding increasingly broad applications. However, existing efforts face several major issues, with the most critical being the need for accurate supervision, which often demands costly resources and efforts. Cutting-edge studies focus on achieving unsupervised CDR but typically assume that the category spaces across domains are identical, an assumption that is often unrealistic in real-world scenarios. This is because only through dedicated and comprehensive analysis can the category spaces of different domains be confirmed as identical, which contradicts the premise of unsupervised scenarios. Therefore, in this work, we introduce the problem of Universal Unsupervised Cross-Domain Retrieval (U^2CDR) for the first time and design a two-stage semantic feature learning framework to address it. In the first stage, a cross-domain unified prototypical structure is established under the guidance of an instance-prototype-mixed contrastive loss and a semantic-enhanced loss, to counteract category space differences. In the second stage, through a modified adversarial training mechanism, we ensure minimal changes for the established prototypical structure during domain alignment, enabling more accurate nearest-neighbor searching. Extensive experiments across multiple datasets and scenarios, including closet, partial, and open-set CDR, demonstrate that our approach significantly outperforms existing state-of-the-art CDR works and some potentially effective studies from other topics in solving U^2CDR challenges.
翻訳日:2024-03-13 12:52:12 公開日:2024-03-08
# 現場グラフを用いた放射線報告書の作成

Scene Graph Aided Radiology Report Generation ( http://arxiv.org/abs/2403.05687v1 )

ライセンス: Link先を確認
Jun Wang, Lixing Zhu, Abhir Bhalerao, and Yulan He(参考訳) 放射線診断報告生成法 (RRG) は、臨床的に正確な報告を作成するのに十分な医療知識を欠くことが多い。 シーングラフは、画像内のオブジェクトを記述するための豊富な情報を含んでいる。 現在のRRG文献では行われていないシーングラフを用いてRRGの医療知識の充実について検討する。 そこで本研究では,領域レベルの視覚的特徴を生成し,解剖学的属性を予測し,自動生成したシーングラフを活用し,エンドツーエンドで医療知識の蒸留を実現するためのフレームワークであるsgrrg(sgrrg)ネットワークを提案する。 SGRRGは、シーングラフを翻訳する専用のシーングラフエンコーダと、パッチレベルと領域レベルの両方の視覚情報を活用するシーングラフ支援デコーダで構成されている。 微粒な文レベルアテンション法はシーングラフ情報をより精査するように設計されている。 大規模な実験により、SGRRGはレポート生成において従来の最先端の手法よりも優れており、異常な発見をよりよく捉えることができることが示された。

Radiology report generation (RRG) methods often lack sufficient medical knowledge to produce clinically accurate reports. The scene graph contains rich information to describe the objects in an image. We explore enriching the medical knowledge for RRG via a scene graph, which has not been done in the current RRG literature. To this end, we propose the Scene Graph aided RRG (SGRRG) network, a framework that generates region-level visual features, predicts anatomical attributes, and leverages an automatically generated scene graph, thus achieving medical knowledge distillation in an end-to-end manner. SGRRG is composed of a dedicated scene graph encoder responsible for translating the scene graph, and a scene graph-aided decoder that takes advantage of both patch-level and region-level visual information. A fine-grained, sentence-level attention method is designed to better dis-till the scene graph information. Extensive experiments demonstrate that SGRRG outperforms previous state-of-the-art methods in report generation and can better capture abnormal findings.
翻訳日:2024-03-13 12:51:41 公開日:2024-03-08
# 分解型意思決定型学習による効果的な公衆衛生介入計画

Efficient Public Health Intervention Planning Using Decomposition-Based Decision-Focused Learning ( http://arxiv.org/abs/2403.05683v1 )

ライセンス: Link先を確認
Sanket Shah, Arun Suggala, Milind Tambe, Aparna Taneja(参考訳) 長期にわたる受益者の参加の減少は、公衆衛生プログラムにおいて重要な懸念事項である。 留置を改善するための一般的な戦略は、退去リスクのある受益者に健康労働者を「介入」させることである。 しかし、これらの医療従事者の可用性と時間は限られた資源である。 その結果、これらの制限された介入資源をrestless multi-armed bandits (rmabs) を用いて最適化する研究が行われている。 このフレームワークを実際に使用する上で重要な技術的障壁は、過去のデータから受益者のRMABパラメータを推定する必要があることである。 近年の研究では、予測精度よりも受益者の順守を最大化する決定焦点学習(DFL)が、RMABを用いた介入目標の性能を向上させることが示されている。 残念ながら、これらのゲインは、各DFLトレーニングステップでRMABを解き、評価する必要があるため、高い計算コストがかかる。 本稿では,異なる受益者のための計画を巧みに分離することにより,rmabsの構造を活用し,介入計画の高速化を図るための原則的な方法を提案する。 我々は、インドのNGOであるARMMANの現実世界のデータを用いて、我々のアプローチが最先端のアプローチよりも最大2桁高速であり、優れたモデル性能が得られることを示す。 これにより、NGOは数百万人の母親にDFLを使って展開を拡大することができ、最終的にはUNSDG 3.1に向けて前進する。

The declining participation of beneficiaries over time is a key concern in public health programs. A popular strategy for improving retention is to have health workers `intervene' on beneficiaries at risk of dropping out. However, the availability and time of these health workers are limited resources. As a result, there has been a line of research on optimizing these limited intervention resources using Restless Multi-Armed Bandits (RMABs). The key technical barrier to using this framework in practice lies in the need to estimate the beneficiaries' RMAB parameters from historical data. Recent research has shown that Decision-Focused Learning (DFL), which focuses on maximizing the beneficiaries' adherence rather than predictive accuracy, improves the performance of intervention targeting using RMABs. Unfortunately, these gains come at a high computational cost because of the need to solve and evaluate the RMAB in each DFL training step. In this paper, we provide a principled way to exploit the structure of RMABs to speed up intervention planning by cleverly decoupling the planning for different beneficiaries. We use real-world data from an Indian NGO, ARMMAN, to show that our approach is up to two orders of magnitude faster than the state-of-the-art approach while also yielding superior model performance. This would enable the NGO to scale up deployments using DFL to potentially millions of mothers, ultimately advancing progress toward UNSDG 3.1.
翻訳日:2024-03-13 12:51:23 公開日:2024-03-08
# DP-TabICL:差分プライベートタブラリデータを用いたインコンテキスト学習

DP-TabICL: In-Context Learning with Differentially Private Tabular Data ( http://arxiv.org/abs/2403.05681v1 )

ライセンス: Link先を確認
Alycia N. Carey, Karuna Bhaila, Kennedy Edemacu, Xintao Wu(参考訳) In-context Learning (ICL)により、質問応答ペアのデモを条件にすることで、大きな言語モデル(LLM)が新しいタスクに適応できるようになる。 近年 icl が拡張され,個々のレコードを自然言語形式にシリアライズすることにより,表形式のデータを実例として使用できるようになった。 しかし、llmはプロンプトに含まれる情報をリークできることが示されており、表データにはセンシティブな情報がしばしば含まれているため、iclで使用される表データをどのように保護するかを理解することは重要な研究領域である。 この研究は、データプライバシと匿名化のための長年確立されてきたゴールドスタンダードである差分プライバシ(DP)を使用して、ICLで使用される表データを保護する方法に関する最初の調査となる。 具体的には,直列化とプロンプト前のデータ民営化による個人用表式iclへのdp機構の適用について検討する。 ローカル(LDP-TabICL)とグローバル(GDP-TabICL)のDPシナリオにおいて,それぞれ個々のレコードやグループ統計にノイズを注入することで,プライバシー保証を保証できる2つのプライベートICLフレームワークを定式化する。 DPベースのフレームワークを実世界の8つの表形式のデータセットと、複数のICLおよびDP設定で評価する。 評価の結果,dp ベースの icl は,非llm ベースライン,特に高いプライバシー条件下では,基礎となる表データのプライバシを保護できることがわかった。

In-context learning (ICL) enables large language models (LLMs) to adapt to new tasks by conditioning on demonstrations of question-answer pairs and it has been shown to have comparable performance to costly model retraining and fine-tuning. Recently, ICL has been extended to allow tabular data to be used as demonstration examples by serializing individual records into natural language formats. However, it has been shown that LLMs can leak information contained in prompts, and since tabular data often contain sensitive information, understanding how to protect the underlying tabular data used in ICL is a critical area of research. This work serves as an initial investigation into how to use differential privacy (DP) -- the long-established gold standard for data privacy and anonymization -- to protect tabular data used in ICL. Specifically, we investigate the application of DP mechanisms for private tabular ICL via data privatization prior to serialization and prompting. We formulate two private ICL frameworks with provable privacy guarantees in both the local (LDP-TabICL) and global (GDP-TabICL) DP scenarios via injecting noise into individual records or group statistics, respectively. We evaluate our DP-based frameworks on eight real-world tabular datasets and across multiple ICL and DP settings. Our evaluations show that DP-based ICL can protect the privacy of the underlying tabular data while achieving comparable performance to non-LLM baselines, especially under high privacy regimes.
翻訳日:2024-03-13 12:51:02 公開日:2024-03-08
# GPT-4を用いた自動評価のためのビジョンベースLCM予測の分解

Decomposing Vision-based LLM Predictions for Auto-Evaluation with GPT-4 ( http://arxiv.org/abs/2403.05680v1 )

ライセンス: Link先を確認
Qingqing Zhu, Benjamin Hou, Tejas S. Mathai, Pritam Mukherjee, Qiao Jin, Xiuying Chen, Zhizheng Wang, Ruida Cheng, Ronald M. Summers, and Zhiyong Lu(参考訳) 世界中で行われているCT検査の量は毎年増加しており、放射線学者のバーンアウトにつながっている。 大規模言語モデル (LLM) は負担軽減の可能性を秘めているが, 診療所への導入は放射線技師の信頼と, 生成内容の簡易な評価に依存している。 近年,胸部X線撮影で発生する報告を自動で評価する手法が多数存在するが,CTではそのような手法は利用できない。 本稿では,CT に基づく異常の正確な要約を生成する上で,視覚言語 LLM の能力を評価するための新しい評価フレームワークを提案する。 異常(例えば病変)を含むCTスライスを視覚ベースのLCM(GPT-4V, LLaVA-Med, RadFM)に入力し, 異常の予測された特徴を自由テキストで要約した。 次に, GPT-4モデルを用いて, 概要を具体的側面(身体部位, 位置, タイプ, 属性)に分解し, 基礎構造に対する特徴を自動評価し, その臨床的意義と事実的正確性に基づいて各側面のスコアを生成した。 これらのスコアは臨床医から得られたスコアと対比され,高い相関(85%,p < .001)を示した。 GPT-4Vは評価において他のモデルよりも優れているが、全体的な改善が必要である。 評価手法は,この分野の今後の展開を導く上で,最も強化が必要な特定の領域に対する貴重な洞察を提供する。

The volume of CT exams being done in the world has been rising every year, which has led to radiologist burn-out. Large Language Models (LLMs) have the potential to reduce their burden, but their adoption in the clinic depends on radiologist trust, and easy evaluation of generated content. Presently, many automated methods are available to evaluate the reports generated for chest radiographs, but such an approach is not available for CT presently. In this paper, we propose a novel evaluation framework to judge the capabilities of vision-language LLMs in generating accurate summaries of CT-based abnormalities. CT slices containing an abnormality (e.g., lesion) were input to a vision-based LLM (GPT-4V, LLaVA-Med, and RadFM), and it generated a free-text summary of the predicted characteristics of the abnormality. Next, a GPT-4 model decomposed the summary into specific aspects (body part, location, type, and attributes), automatically evaluated the characteristics against the ground-truth, and generated a score for each aspect based on its clinical relevance and factual accuracy. These scores were then contrasted against those obtained from a clinician, and a high correlation ( 85%, p < .001) was observed. Although GPT-4V outperformed other models in our evaluation, it still requires overall improvement. Our evaluation method offers valuable insights into the specific areas that need the most enhancement, guiding future development in this field.
翻訳日:2024-03-13 12:50:31 公開日:2024-03-08
# piperag: アルゴリズムシステムコデザインによる検索の高速化

PipeRAG: Fast Retrieval-Augmented Generation via Algorithm-System Co-design ( http://arxiv.org/abs/2403.05676v1 )

ライセンス: Link先を確認
Wenqi Jiang, Shuai Zhang, Boran Han, Jie Wang, Bernie Wang, Tim Kraska(参考訳) Retrieval-augmented Generation (RAG)は、外部トークンデータベースを組み込むことで、大規模言語モデル(LLM)の生成品質を向上させることができる。 しかし、大規模なデータベースからの検索は、特に、検索されたコンテンツを最新の生成状態と整合させるために定期的に検索を行う場合、全体の生成時間のかなりの部分を構成することができる。 本稿では,生成レイテンシを低減し,生成品質を向上させるアルゴリズムシステムコデザイン手法であるpiperagを提案する。 PipeRAGは,(1)パイプライン並列処理を統合して同時検索および生成プロセスを実現し,(2)パイプライン並列処理の効率を最大化するフレキシブル検索間隔と,(3)生成状態と基盤ハードウェアに基づいて,検索品質と遅延を自動的にバランスさせる性能モデルを統合する。 評価の結果、上記の3つの手法を組み合わせることで、生成品質を改善しつつ、エンドツーエンド生成遅延の最大2.6$\times$スピードアップを実現した。 これらの有望な結果は、基礎となるシステムとの協調設計アルゴリズムの有効性を示し、将来のRAGシステムにおけるPipeRAGの採用の道を開いた。

Retrieval-augmented generation (RAG) can enhance the generation quality of large language models (LLMs) by incorporating external token databases. However, retrievals from large databases can constitute a substantial portion of the overall generation time, particularly when retrievals are periodically performed to align the retrieved content with the latest states of generation. In this paper, we introduce PipeRAG, a novel algorithm-system co-design approach to reduce generation latency and enhance generation quality. PipeRAG integrates (1) pipeline parallelism to enable concurrent retrieval and generation processes, (2) flexible retrieval intervals to maximize the efficiency of pipeline parallelism, and (3) a performance model to automatically balance retrieval quality and latency based on the generation states and underlying hardware. Our evaluation shows that, by combining the three aforementioned methods, PipeRAG achieves up to 2.6$\times$ speedup in end-to-end generation latency while improving generation quality. These promising results showcase the effectiveness of co-designing algorithms with underlying systems, paving the way for the adoption of PipeRAG in future RAG systems.
翻訳日:2024-03-13 12:50:04 公開日:2024-03-08
# 余剰グラフノードを用いたカテゴリー別および混合型データのスペクトルクラスタリング

Spectral Clustering of Categorical and Mixed-type Data via Extra Graph Nodes ( http://arxiv.org/abs/2403.05669v1 )

ライセンス: Link先を確認
Dylan Soemitro, Jeova Farias Sales Rocha Neto(参考訳) データオブジェクトを均質なグループにクラスタリングすることは、データマイニングにおいて最も重要なタスクの1つです。 スペクトルクラスタリングは、その理論的な健全性に魅力があり、多くの現実世界のデータ設定に適応できるため、おそらく最も重要なクラスタリングアルゴリズムの1つである。 例えば、データが数値的特徴とカテゴリ的特徴で構成される混合データは通常、数値的離散化、ダミー符号化、あるいは両方のデータ型を考慮した類似性計算によって処理される。 本稿では,データ前処理の必要性や高度な類似度関数の使用を回避し,スペクトルクラスタリングアルゴリズムに数値的およびカテゴリ的情報を組み込むより自然な方法を検討する。 本稿では,データが属する可能性のある異なるカテゴリに対応するノードを追加し,解釈可能なクラスタリング目的関数に導くことを示す。 さらに、この単純なフレームワークは、分類のみのデータに対する線形時間スペクトルクラスタリングアルゴリズムにつながることを示す。 最後に、我々のアルゴリズムの性能を他の関連するメソッドと比較し、パフォーマンスとランタイムの点で、アルゴリズムに競合する代替手段を提供することを示す。

Clustering data objects into homogeneous groups is one of the most important tasks in data mining. Spectral clustering is arguably one of the most important algorithms for clustering, as it is appealing for its theoretical soundness and is adaptable to many real-world data settings. For example, mixed data, where the data is composed of numerical and categorical features, is typically handled via numerical discretization, dummy coding, or similarity computation that takes into account both data types. This paper explores a more natural way to incorporate both numerical and categorical information into the spectral clustering algorithm, avoiding the need for data preprocessing or the use of sophisticated similarity functions. We propose adding extra nodes corresponding to the different categories the data may belong to and show that it leads to an interpretable clustering objective function. Furthermore, we demonstrate that this simple framework leads to a linear-time spectral clustering algorithm for categorical-only data. Finally, we compare the performance of our algorithms against other related methods and show that it provides a competitive alternative to them in terms of performance and runtime.
翻訳日:2024-03-13 12:49:43 公開日:2024-03-08
# 最悪の事態に備える:icpアルゴリズムのレジリエンス解析のための学習に基づく敵対的攻撃

Prepared for the Worst: A Learning-Based Adversarial Attack for Resilience Analysis of the ICP Algorithm ( http://arxiv.org/abs/2403.05666v1 )

ライセンス: Link先を確認
Ziyu Zhang, Johann Laconte, Daniil Lisus, Timothy D. Barfoot(参考訳) 本稿では,ライダー点雲に対する深層学習に基づく攻撃により,ICPアルゴリズムのレジリエンスを評価する新しい手法を提案する。 自律ナビゲーションのような安全クリティカルなアプリケーションでは、展開前にアルゴリズムのレジリエンスを確保することが最も重要です。 ICPアルゴリズムはライダーベースのローカライゼーションの標準となっている。 しかし、それが生み出すポーズ推定は、測定の腐敗によって大きく影響を受ける可能性がある。 破損は、センサーの閉塞、悪天候、機械的な問題など様々なシナリオから生じることがある。 残念ながら、ICPの複雑で反復的な性質は、破壊に対するレジリエンスを評価することを困難にしている。 ICPのレジリエンスを実証的に評価するために,挑戦的なデータセットの作成やシミュレーションの開発が試みられているが,本手法は摂動型対向攻撃を用いた最大ICPポーズ誤差の発見に重点を置いている。 提案した攻撃はICPに対して重大なポーズエラーを引き起こし、幅広いシナリオで88%以上の時間でベースラインを上回ります。 例として、ICPが測定結果の破損に対して特に脆弱である地図上の領域を特定するために、我々の攻撃が有効であることを示す。

This paper presents a novel method to assess the resilience of the Iterative Closest Point (ICP) algorithm via deep-learning-based attacks on lidar point clouds. For safety-critical applications such as autonomous navigation, ensuring the resilience of algorithms prior to deployments is of utmost importance. The ICP algorithm has become the standard for lidar-based localization. However, the pose estimate it produces can be greatly affected by corruption in the measurements. Corruption can arise from a variety of scenarios such as occlusions, adverse weather, or mechanical issues in the sensor. Unfortunately, the complex and iterative nature of ICP makes assessing its resilience to corruption challenging. While there have been efforts to create challenging datasets and develop simulations to evaluate the resilience of ICP empirically, our method focuses on finding the maximum possible ICP pose error using perturbation-based adversarial attacks. The proposed attack induces significant pose errors on ICP and outperforms baselines more than 88% of the time across a wide range of scenarios. As an example application, we demonstrate that our attack can be used to identify areas on a map where ICP is particularly vulnerable to corruption in the measurements.
翻訳日:2024-03-13 12:49:23 公開日:2024-03-08
# DDPG -- アンサンブルのない悲観的RL

Conservative DDPG -- Pessimistic RL without Ensemble ( http://arxiv.org/abs/2403.05732v1 )

ライセンス: Link先を確認
Nitsan Soffair, Shie Mannor(参考訳) DDPGは過大評価バイアスの問題によって妨げられ、$Q$-estimatesは実際の$Q$-valueをオーバーステートする傾向がある。 このバイアスに対する従来のソリューションには、重要な計算リソースを必要とするアンサンブルベースの方法や、理解や実装が難しい複雑なログポリシーベースのアプローチが含まれる。 対照的に,我々は,$q$-target を用いて,行動クローン (bc) 損失ペナルティを組み込んだ簡易解を提案する。 このソリューションは不確実性対策として機能し、最小限のコードで簡単に実装でき、アンサンブルを必要としない。 各種の MuJoCo および Bullet タスクにおける DDPG よりも保守的な DDPG の方が優れていた。 我々は,TD3やTD7と比較して,全ての評価タスクにおける優れた性能と,競争力や優れた性能を継続的に観察する。

DDPG is hindered by the overestimation bias problem, wherein its $Q$-estimates tend to overstate the actual $Q$-values. Traditional solutions to this bias involve ensemble-based methods, which require significant computational resources, or complex log-policy-based approaches, which are difficult to understand and implement. In contrast, we propose a straightforward solution using a $Q$-target and incorporating a behavioral cloning (BC) loss penalty. This solution, acting as an uncertainty measure, can be easily implemented with minimal code and without the need for an ensemble. Our empirical findings strongly support the superiority of Conservative DDPG over DDPG across various MuJoCo and Bullet tasks. We consistently observe better performance in all evaluated tasks and even competitive or superior performance compared to TD3 and TD7, all achieved with significantly reduced computational requirements.
翻訳日:2024-03-13 12:41:24 公開日:2024-03-08
# Debian Pythonパッケージにおけるエンジニアリングの形式性とソフトウェアリスク

Engineering Formality and Software Risk in Debian Python Packages ( http://arxiv.org/abs/2403.05728v1 )

ライセンス: Link先を確認
Matthew Gaughan, Kaylea Champion, Sohyeon Hwang(参考訳) FLOSS(free/libre and open source software)は、グローバルコンピューティングインフラにおいて重要であるが、広く採用されているFLOSSパッケージのメンテナンスは、自身のタスクを選択するボランティア開発者に依存している。 エンジニアリングの供給と需要の不均衡(過度生産として知られる)による失敗のリスクは、コードベースの崩壊と、heartbleedやlog4shellの脆弱性などのサイバーセキュリティのインシデントにつながった。 FLOSSプロジェクトは自己組織化されているが、より大きなフォーマルな取り組みへと拡張されることが多い。 よりフォーマルな組織になるという以前の研究はプロジェクトのリスクを減少させるが、フォーマルな研究はプロジェクト放棄の可能性を高める可能性があることを示唆している。 我々は、形式構造、開発者の責任、作業プロセス管理に焦点をあて、生産と形式の関係を評価する。 我々はPythonで書かれた182パッケージを分析し、Debian GNU/Linuxディストリビューションを介して利用可能にした。 よりフォーマルな構造は、アンダープロダクションのリスクが高いが、より高い開発者の責任は、アンダープロダクションのリスクが少なく、フォーマルなプロセス管理とアンダープロダクションの関係は統計的に有意ではない。 我々の分析は、FLOSSの組織がよりフォーマルな構造に変化したことを示唆している。

While free/libre and open source software (FLOSS) is critical to global computing infrastructure, the maintenance of widely-adopted FLOSS packages is dependent on volunteer developers who select their own tasks. Risk of failure due to the misalignment of engineering supply and demand -- known as underproduction -- has led to code base decay and subsequent cybersecurity incidents such as the Heartbleed and Log4Shell vulnerabilities. FLOSS projects are self-organizing but can often expand into larger, more formal efforts. Although some prior work suggests that becoming a more formal organization decreases project risk, other work suggests that formalization may increase the likelihood of project abandonment. We evaluate the relationship between underproduction and formality, focusing on formal structure, developer responsibility, and work process management. We analyze 182 packages written in Python and made available via the Debian GNU/Linux distribution. We find that although more formal structures are associated with higher risk of underproduction, more elevated developer responsibility is associated with less underproduction, and the relationship between formal work process management and underproduction is not statistically significant. Our analysis suggests that a FLOSS organization's transformation into a more formal structure may face unintended consequences which must be carefully managed.
翻訳日:2024-03-13 12:41:07 公開日:2024-03-08
# Augmentations vs Algorithms: 自己監督型学習で何が機能するか

Augmentations vs Algorithms: What Works in Self-Supervised Learning ( http://arxiv.org/abs/2403.05726v1 )

ライセンス: Link先を確認
Warren Morningstar, Alex Bijamov, Chris Duvarney, Luke Friedman, Neha Kalibhat, Luyang Liu, Philip Mansfield, Renan Rojas-Gomez, Karan Singhal, Bradley Green, Sushant Prakash(参考訳) 本稿では,自己改善学習(SSL)におけるデータ強化,事前学習アルゴリズム,モデルアーキテクチャの相対効果について検討する。 この領域の最近の文献では、事前学習アルゴリズムは性能にとって重要なものであるという印象を残しているが、その効果を理解することは、メソッド間の客観的および直接的な比較を行うのが困難である。 本稿では、一見異なるsslメソッドを単一の共有テンプレートに統合する新しいフレームワークを提案する。 このフレームワークを用いて、メソッドが異なる側面を特定し、事前学習アルゴリズムの変更に加えて、多くの研究が新しいデータ拡張やより強力なモデルアーキテクチャを使用していることを観察する。 我々のフレームワークを使った一般的なSSLメソッドをいくつか比較し、予測ネットワークや新しい損失などのアルゴリズム的な追加がダウンストリームタスクのパフォーマンスに小さな影響を与えていること(多くの場合、$1\%以下)、強化された拡張技術によりパフォーマンスが大幅に向上すること($2-4\%)を見出した。 我々の発見は、SSLが主にアルゴリズムの改善によって駆動されているという前提に異議を唱え、代わりにSSLの苦しい教訓を示唆している。

We study the relative effects of data augmentations, pretraining algorithms, and model architectures in Self-Supervised Learning (SSL). While the recent literature in this space leaves the impression that the pretraining algorithm is of critical importance to performance, understanding its effect is complicated by the difficulty in making objective and direct comparisons between methods. We propose a new framework which unifies many seemingly disparate SSL methods into a single shared template. Using this framework, we identify aspects in which methods differ and observe that in addition to changing the pretraining algorithm, many works also use new data augmentations or more powerful model architectures. We compare several popular SSL methods using our framework and find that many algorithmic additions, such as prediction networks or new losses, have a minor impact on downstream task performance (often less than $1\%$), while enhanced augmentation techniques offer more significant performance improvements ($2-4\%$). Our findings challenge the premise that SSL is being driven primarily by algorithmic improvements, and suggest instead a bitter lesson for SSL: that augmentation diversity and data / model scale are more critical contributors to recent advances in self-supervised learning.
翻訳日:2024-03-13 12:40:44 公開日:2024-03-08
# デジタルウェルビーイング再定義 : ポジティブなソーシャルメディアエンゲージメントのためのユーザ中心アプローチに向けて

Digital Wellbeing Redefined: Toward User-Centric Approach for Positive Social Media Engagement ( http://arxiv.org/abs/2403.05723v1 )

ライセンス: Link先を確認
Yixue Zhao, Tianyi Li, Michael Sobolev(参考訳) ソーシャルメディアの普及とその精神的健康への影響は、効果的なデジタル幸福戦略の必要性を浮き彫りにした。 現在のデジタルウェルビーイングの介入は、主にスクリーンタイムとソーシャルメディアの使用を減らすことに焦点を当てており、しばしばこれらのプラットフォームの潜在的な利点を無視している。 本稿では,ユーザを限定的なルールで制限するのではなく,ポジティブなソーシャルメディア体験の強化を中心とした新たな視点を紹介する。 この観点から、今後の作業において考慮すべき重要な要件を整理し、この新興分野での対話の引き金となることを目指しています。 我々はさらに,ユーザのデジタル行動と意図を一致させることを目的とした,革新的なデジタルウェルビーイング介入である pausenow を用いて,これらの要件に対応するための最初の取り組みを提示する。 pausenowは、デジタル・ナジングとインテント・アウェア・レコメンデーションを利用して、デジタル使用中に「紛失」したユーザーを本来の意図に優しく誘導し、より念入りなソーシャルメディアの利用を促進する。

The prevalence of social media and its escalating impact on mental health has highlighted the need for effective digital wellbeing strategies. Current digital wellbeing interventions have primarily focused on reducing screen time and social media use, often neglecting the potential benefits of these platforms. This paper introduces a new perspective centered around empowering positive social media experiences, instead of limiting users with restrictive rules. In line with this perspective, we lay out the key requirements that should be considered in future work, aiming to spark a dialogue in this emerging area. We further present our initial effort to address these requirements with PauseNow, an innovative digital wellbeing intervention designed to align users' digital behaviors with their intentions. PauseNow leverages digital nudging and intention-aware recommendations to gently guide users back to their original intentions when they "get lost" during their digital usage, promoting a more mindful use of social media.
翻訳日:2024-03-13 12:40:20 公開日:2024-03-08
# 短期病院コース要約作成のためのドメイン適応型大規模言語モデルのベンチマーク

A Benchmark of Domain-Adapted Large Language Models for Generating Brief Hospital Course Summaries ( http://arxiv.org/abs/2403.05720v1 )

ライセンス: Link先を確認
Asad Aali, Dave Van Veen, Yamin Ishraq Arefeen, Jason Hom, Christian Bluethgen, Eduardo Pontes Reis, Sergios Gatidis, Namuun Clifford, Joseph Daws, Arash S. Tehrani, Jangwon Kim, Akshay S. Chaudhari(参考訳) 短期病院コース(BHC)は、臨床ノートを要約して作成した一般的な臨床文書である。 大規模言語モデル(LLM)は、現実世界のタスクを自動化する際、顕著な能力を示しているが、BHC合成のような医療応用の能力は示されていない。 そこで本研究では,MIMIC-IVノートから抽出した前処理データセット,臨床ノートのカプセル化,短い病院コース(BHC)ペアからなる新しいベンチマークを提案する。 臨床ノートからBHC合成を改善するために,2つの汎用LSMと3つの医療適応LSMの性能を評価する。 臨床ノートをBHCを生成するための入力として用いて,3つのオープンソースLCM(Clinical-T5-Large, Llama2-13B, FLAN-UL2)と2つの独自LSM(GPT-3.5, GPT-4)に,プロンプトベース(文脈内学習)と微調整ベースの適応戦略を適用した。 従来の自然言語類似度指標を用いて,様々なコンテキスト長入力におけるllmの性能を定量的に評価する。 さらに, 臨床医5名を対象に, 包括性, 簡潔性, 事実的正当性, 流布度の測定値から, 臨床医5名とLCM生成型BHC2名を比較した。 そこで本研究では,臨床ノートからのBHC合成にLLMを用いた新しいベンチマークと事前処理データセットを提案する。 定量的指標と定性的臨床読解者調査の両方を用いて,インコンテキストプロプライエタリおよび微調整されたオープンソースllmの質の高い要約性能を観察した。 我々は,bhc合成におけるllmの性能を適応・評価するために,今後の作業にモチベーションを与えるベンチマークとして提案する。

Brief hospital course (BHC) summaries are common clinical documents generated by summarizing clinical notes. While large language models (LLMs) depict remarkable capabilities in automating real-world tasks, their capabilities for healthcare applications such as BHC synthesis have not been shown. To enable the adaptation of LLMs for BHC synthesis, we introduce a novel benchmark consisting of a pre-processed dataset extracted from MIMIC-IV notes, encapsulating clinical note, and brief hospital course (BHC) pairs. We assess the performance of two general-purpose LLMs and three healthcare-adapted LLMs to improve BHC synthesis from clinical notes. Using clinical notes as input for generating BHCs, we apply prompting-based (using in-context learning) and fine-tuning-based adaptation strategies to three open-source LLMs (Clinical-T5-Large, Llama2-13B, FLAN-UL2) and two proprietary LLMs (GPT-3.5, GPT-4). We quantitatively evaluate the performance of these LLMs across varying context-length inputs using conventional natural language similarity metrics. We further perform a qualitative study where five diverse clinicians blindly compare clinician-written BHCs and two LLM-generated BHCs for 30 samples across metrics of comprehensiveness, conciseness, factual correctness, and fluency. Overall, we present a new benchmark and pre-processed dataset for using LLMs in BHC synthesis from clinical notes. We observe high-quality summarization performance for both in-context proprietary and fine-tuned open-source LLMs using both quantitative metrics and a qualitative clinical reader study. We propose our work as a benchmark to motivate future works to adapt and assess the performance of LLMs in BHC synthesis.
翻訳日:2024-03-13 12:40:03 公開日:2024-03-08
# 鉱業問題追跡装置:概念と技術

Mining Issue Trackers: Concepts and Techniques ( http://arxiv.org/abs/2403.05716v1 )

ライセンス: Link先を確認
Lloyd Montgomery and Clara L\"uders and Walid Maalej(参考訳) 課題追跡ツールは、組織がユーザと対話し、ソフトウェア開発ライフサイクルのさまざまな側面を管理するために使用するソフトウェアツールである。 アジャイル方法論の台頭に伴い、イシュートラッカはオープンソースやクローズドソースの設定でも人気が高まっている。 内部および外部ステークホルダーは、要求やメンテナンスタスクなどの異なる情報を表す「問題」を報告し、管理し、議論する。 問題トラッカーはすぐに複雑なエコシステムになり、数十のプロジェクト、数百のユーザ、数千のイシュー、そしてしばしば数百万のイシュー進化がある。 タスクに関連する問題を見つけて理解し、概要を維持することは、時間とともに難しくなります。 さらに、さまざまなプロジェクトのイシューワークフローの管理は、組織が成長するにつれて難しくなり、利害関係者が増えます。 これらの問題に対処するために、ソフトウェアと要求工学の研究は、マイニング問題追跡データに基づく自動化技術を提案する。 問題トラッカーにおける大量のテキストデータを考えると、これらの技術の多くは自然言語処理を利用している。 本章では,イシュートラッカにおける情報の複雑さと多様性を利害関係者に支援するために,イシューデータをアルゴリズム解析するための4つの主要なユースケースについて論じる。 章には、jupyternotebooksの続くデモパッケージが付属している。

An issue tracker is a software tool used by organisations to interact with users and manage various aspects of the software development lifecycle. With the rise of agile methodologies, issue trackers have become popular in open and closed-source settings alike. Internal and external stakeholders report, manage, and discuss "issues", which represent different information such as requirements and maintenance tasks. Issue trackers can quickly become complex ecosystems, with dozens of projects, hundreds of users, thousands of issues, and often millions of issue evolutions. Finding and understanding the relevant issues for the task at hand and keeping an overview becomes difficult with time. Moreover, managing issue workflows for diverse projects becomes more difficult as organisations grow, and more stakeholders get involved. To help address these difficulties, software and requirements engineering research have suggested automated techniques based on mining issue tracking data. Given the vast amount of textual data in issue trackers, many of these techniques leverage natural language processing. This chapter discusses four major use cases for algorithmically analysing issue data to assist stakeholders with the complexity and heterogeneity of information in issue trackers. The chapter is accompanied by a follow-along demonstration package with JupyterNotebooks.
翻訳日:2024-03-13 12:39:31 公開日:2024-03-08
# サイバー物理・ヒューマンシステムにおける効果的なai勧告の枠組み

A Framework for Effective AI Recommendations in Cyber-Physical-Human Systems ( http://arxiv.org/abs/2403.05715v1 )

ライセンス: Link先を確認
Aditya Dave, Heeseung Bang, Andreas A. Malikopoulos(参考訳) 多くのサイバー物理人間システム(CPHS)は、人工知能(AI)プラットフォームからレコメンデーションを受けることができる人間の意思決定者であり、意思決定の最終的な責任を負っている。 このようなCPHSアプリケーションでは、人間の意思決定者は最適な推奨決定から離脱し、代わりに様々な理由で異なる決定を実装できる。 本稿では,この課題を克服するための厳格な枠組みを開発する。 我々のフレームワークでは、AIプラットフォームとは異なる方法でシステムの状態を認識、解釈することで、人間がAIレコメンデーションから逸脱する可能性があると考えています。 我々は、最適な推奨戦略の構造特性を確立し、AIが使用する近似人間モデル(AHM)を開発する。 AHMから生じる最適性ギャップに関する理論的境界を提供し、数値的な例で結果の有効性を示す。

Many cyber-physical-human systems (CPHS) involve a human decision-maker who may receive recommendations from an artificial intelligence (AI) platform while holding the ultimate responsibility of making decisions. In such CPHS applications, the human decision-maker may depart from an optimal recommended decision and instead implement a different one for various reasons. In this letter, we develop a rigorous framework to overcome this challenge. In our framework, we consider that humans may deviate from AI recommendations as they perceive and interpret the system's state in a different way than the AI platform. We establish the structural properties of optimal recommendation strategies and develop an approximate human model (AHM) used by the AI. We provide theoretical bounds on the optimality gap that arises from an AHM and illustrate the efficacy of our results in a numerical example.
翻訳日:2024-03-13 12:39:11 公開日:2024-03-08
# $\mathtt{tsGT}$: Transformerによる確率的時系列モデリング

$\mathtt{tsGT}$: Stochastic Time Series Modeling With Transformer ( http://arxiv.org/abs/2403.05713v1 )

ライセンス: Link先を確認
{\L}ukasz Kuci\'nski, Witold Drzewakowski, Mateusz Olko, Piotr Kozakowski, {\L}ukasz Maziarka, Marta Emilia Nowakowska, {\L}ukasz Kaiser, Piotr Mi{\l}o\'s(参考訳) 時系列法は、時間的に構造化されたデータを扱う科学のあらゆる分野において、基本的な重要性である。 近年,時系列固有のアーキテクチャバイアスを持つ決定論的変圧器モデルが急増している。 本稿では,汎用トランスアーキテクチャ上に構築された確率的時系列モデルである$\mathtt{tsGT}$を導入することで,異なる方向に進む。 我々は、よく知られた理論上正当化されたロールウィンドウバックテストと評価プロトコルの使用に焦点をあてる。 我々は、MADとRMSEの最先端モデルよりも優れた$\mathtt{tsGT}$を示し、一般的な4つのデータセット上でQLとCRPSの確率的ピアを上回っている。 これらの結果を、データ分布をモデル化し、限界量子値を予測する$\mathtt{tsGT}$の詳細な分析で補完する。

Time series methods are of fundamental importance in virtually any field of science that deals with temporally structured data. Recently, there has been a surge of deterministic transformer models with time series-specific architectural biases. In this paper, we go in a different direction by introducing $\mathtt{tsGT}$, a stochastic time series model built on a general-purpose transformer architecture. We focus on using a well-known and theoretically justified rolling window backtesting and evaluation protocol. We show that $\mathtt{tsGT}$ outperforms the state-of-the-art models on MAD and RMSE, and surpasses its stochastic peers on QL and CRPS, on four commonly used datasets. We complement these results with a detailed analysis of $\mathtt{tsGT}$'s ability to model the data distribution and predict marginal quantile values.
翻訳日:2024-03-13 12:38:58 公開日:2024-03-08
# ベイズ量子論におけるモデル・アウェア強化学習の応用

Applications of model-aware reinforcement learning in Bayesian quantum metrology ( http://arxiv.org/abs/2403.05706v1 )

ライセンス: Link先を確認
Federico Belliardo, Fabio Zoratti, Vittorio Giovannetti(参考訳) 量子力学とセンサの分野における重要な実践的問題は、最適適応推定を実現する量子プローブの制御の最適なシーケンスを見つけることである。 belliardo et al., arxiv:2312.16985 (2023) では, 量子計測学における幅広いタスクを最適化し, モデル認識強化学習とベイズ推定を組み合わせることにより, この問題を一般に解いた。 最適化にはモデルに基づくアプローチを採り、システムを記述する物理学は自動微分によるトレーニングにおいて明示的に考慮される。 本稿では,このフレームワークの応用例を紹介する。 最初の例は、磁場の推定、超微細構造相互作用、ダイヤモンド中の電子スピンのデコヒーレンス時間に関するものである。 これらの例では、スピン上で複数のラムゼー測定を行う。 第2の応用は、フォトニック回路における位相とコヒーレント状態の推定であり、原子線を光子カウンタで測定する素子をスクイーズせずに行う。 この展示は、pipでインストール可能なpypiでリリースされたqsensoroptライブラリで実装されたこの方法の幅広い適用性を示している。

An important practical problem in the field of quantum metrology and sensors is to find the optimal sequences of controls for the quantum probe that realize optimal adaptive estimation. In Belliardo et al., arXiv:2312.16985 (2023), we solved this problem in general, by introducing a procedure capable of optimizing a wide range of tasks in quantum metrology and estimation by combining model-aware reinforcement learning with Bayesian inference. We take a model-based approach to the optimisation where the physics describing the system is explicitly taken into account in the training through automatic differentiation. In this follow-up paper we present some applications of the framework. The first family of examples concerns the estimation of magnetic fields, hyperfine interactions, and decoherence times for electronic spins in diamond. For these examples, we perform multiple Ramsey measurements on the spin. The second family of applications concerns the estimation of phases and coherent states on photonic circuits, without squeezing elements, where the bosonic lines are measured by photon counters. This exposition showcases the broad applicability of the method, which has been implemented in the qsensoropt library released on PyPI, which can be installed with pip.
翻訳日:2024-03-13 12:38:42 公開日:2024-03-08
# 大きな言語モデルは理屈と計画を立てられるか?

Can Large Language Models Reason and Plan? ( http://arxiv.org/abs/2403.04121v2 )

ライセンス: Link先を確認
Subbarao Kambhampati(参考訳) 人間は自分自身の誤った推測を自己判断で修正する能力を示すことがあるが、LLMの場合、その仮定の根拠はないようである。

While humans sometimes do show the capability of correcting their own erroneous guesses with self-critiquing, there seems to be no basis for that assumption in the case of LLMs.
翻訳日:2024-03-12 17:22:53 公開日:2024-03-08
# Chat-Fine-Tuned LLMを用いた投機復号のためのドラフトモデルの直接アライメント

Direct Alignment of Draft Model for Speculative Decoding with Chat-Fine-Tuned LLMs ( http://arxiv.org/abs/2403.00858v3 )

ライセンス: Link先を確認
Raghavv Goel, Mukul Gagrani, Wonseok Jeon, Junyoung Park, Mingu Lee, Christopher Lott(参考訳) 大規模言語モデル(llms)を用いたテキスト生成は、その自己回帰性、巨大なパラメータ数、メモリ帯域幅の制限の組み合わせによってメモリバインドであることが知られており、トークンレートが低くなることが多い。 LLM推論加速の解法として投機的復号法が提案されている。 しかし、Llama 2 7Bのような現代のオープンソースのLLMファミリでは、ドラフトモデルは利用できないことが多いため、投機的復号化による推論アクセラレーションを可能にするために、高品質のドラフトモデルを訓練する必要がある。 本稿では,チャット可能なターゲットモデルに直接アライメントするための簡易なモデルトレーニングフレームワークを提案する。 提案したフレームワークでは、Llama 2 Chat 7B以上のドラフトモデルであるLlama 2 Chat Drafter 115Mを、オリジナルサイズのわずか1.64\%でトレーニングする。 トレーニングフレームワークは,事前学習,蒸留データセット生成,知識蒸留による微調整のみで,追加のアライメント処理は行わない。 微調整のステップでは,ターゲットモデルが生成した命令応答対を用いて可算データ分布の蒸留を行い,強化学習におけるポリシー勾配法に触発された分散低減手法を組み込んだ新しい全変動距離++(tvd++)損失を提案する。 実験結果から,llama 2 chat drafter 115mの投機的復号化は,最大2.3ブロック効率と2.4$\times$の高速化を実現する。

Text generation with Large Language Models (LLMs) is known to be memory bound due to the combination of their auto-regressive nature, huge parameter counts, and limited memory bandwidths, often resulting in low token rates. Speculative decoding has been proposed as a solution for LLM inference acceleration. However, since draft models are often unavailable in the modern open-source LLM families, e.g., for Llama 2 7B, training a high-quality draft model is required to enable inference acceleration via speculative decoding. In this paper, we propose a simple draft model training framework for direct alignment to chat-capable target models. With the proposed framework, we train Llama 2 Chat Drafter 115M, a draft model for Llama 2 Chat 7B or larger, with only 1.64\% of the original size. Our training framework only consists of pretraining, distillation dataset generation, and finetuning with knowledge distillation, with no additional alignment procedure. For the finetuning step, we use instruction-response pairs generated by target model for distillation in plausible data distribution, and propose a new Total Variation Distance++ (TVD++) loss that incorporates variance reduction techniques inspired from the policy gradient method in reinforcement learning. Our empirical results show that Llama 2 Chat Drafter 115M with speculative decoding achieves up to 2.3 block efficiency and 2.4$\times$ speed-up relative to autoregressive decoding on various tasks with no further task-specific fine-tuning.
翻訳日:2024-03-12 17:19:46 公開日:2024-03-08
# 群選択と縮小:半パラメトリック加法モデルの構造化スパーシティ

Group selection and shrinkage: Structured sparsity for semiparametric additive models ( http://arxiv.org/abs/2105.12081v3 )

ライセンス: Link先を確認
Ryan Thompson and Farshid Vahid(参考訳) 群構造を尊重するスパース回帰と分類推定器は、マルチタスク学習からスパース加法モデリング、階層的選択に至るまで、統計的および機械学習問題に応用できる。 この研究は群の部分集合選択と収縮を組み合わせた構造的スパース推定を導入している。 高度な構造に対応するため、我々の推定器は群間の任意の重複を許容する。 本研究では,非凸正規化面と有限サンプル誤差境界を適合させて回帰関数を推定する最適化フレームワークを開発する。 構造を必要とするアプリケーションとして、各予測器の効果をゼロ、線形、非線形にすることができるスパース半パラメトリック加法モデリングについて検討する。 このタスクのために、新しい推定器は、代替品と比較して、合成データに関するいくつかのメトリクスで改善される。 最後に,多くの予測器を用いたスーパーマーケットの足場交通と景気不況のモデル化の有効性を示す。 これらの実演は、新しい推定器を用いたスパース半パラメトリック加法モデルが完全な線形と完全に非パラメトリックな代替物の間の優れた妥協点であることを示唆している。 当社のアルゴリズムはすべて,スケーラブルな実装であるgrpselで利用可能です。

Sparse regression and classification estimators that respect group structures have application to an assortment of statistical and machine learning problems, from multitask learning to sparse additive modeling to hierarchical selection. This work introduces structured sparse estimators that combine group subset selection with shrinkage. To accommodate sophisticated structures, our estimators allow for arbitrary overlap between groups. We develop an optimization framework for fitting the nonconvex regularization surface and present finite-sample error bounds for estimation of the regression function. As an application requiring structure, we study sparse semiparametric additive modeling, a procedure that allows the effect of each predictor to be zero, linear, or nonlinear. For this task, the new estimators improve across several metrics on synthetic data compared to alternatives. Finally, we demonstrate their efficacy in modeling supermarket foot traffic and economic recessions using many predictors. These demonstrations suggest sparse semiparametric additive models, fit using the new estimators, are an excellent compromise between fully linear and fully nonparametric alternatives. All of our algorithms are made available in the scalable implementation grpsel.
翻訳日:2024-03-12 00:00:36 公開日:2024-03-08
# 高速ブラックボックス変分推定のための共同制御変分法

Joint control variate for faster black-box variational inference ( http://arxiv.org/abs/2210.07290v4 )

ライセンス: Link先を確認
Xi Wang, Tomas Geffner, Justin Domke(参考訳) ブラックボックスの変分推論性能は、高ばらつきの勾配推定器の使用によって妨げられることがある。 このばらつきは、データサブサンプリングとモンテカルロサンプリングの2つのランダム性源から生じる。 既存の制御はモンテカルロノイズにのみ対応し、インクリメンタル勾配法は典型的にはデータサブサンプリングにのみ対応するが、新しい「ジョイント」制御は両ノイズ源からのばらつきを共同で低減する。 これにより勾配分散が大幅に減少し、いくつかのアプリケーションで最適化が高速化される。

Black-box variational inference performance is sometimes hindered by the use of gradient estimators with high variance. This variance comes from two sources of randomness: Data subsampling and Monte Carlo sampling. While existing control variates only address Monte Carlo noise, and incremental gradient methods typically only address data subsampling, we propose a new "joint" control variate that jointly reduces variance from both sources of noise. This significantly reduces gradient variance, leading to faster optimization in several applications.
翻訳日:2024-03-11 23:58:21 公開日:2024-03-08
# スパイク共分散モデルのスペクトル補正および正規化線形判別解析

Spectrally-Corrected and Regularized Linear Discriminant Analysis for Spiked Covariance Model ( http://arxiv.org/abs/2210.03859v3 )

ライセンス: Link先を確認
Hua Li, Wenya Luo, Zhidong Bai, Huanchao Zhou, Zhangni Pu(参考訳) 本稿では、スペクトル補正および正規化LDA (SRLDA) と呼ばれる線形判別分析の改善を提案する。 本手法は,サンプルスペクトル補正共分散行列の設計アイデアと正規化判別分析を統合する。 大次元ランダム行列解析フレームワークのサポートにより、SRLDAはスパイクモデル仮定の下で線形分類大域最適解を持つことが証明された。 シミュレーションデータ解析によると、SRLDA分類器はRLDAやILDAよりも優れ、理論分類器に近い。 異なるデータセットに対する実験により、SRLDAアルゴリズムは、現在使われているツールよりも分類と次元の削減が優れていることが示された。

This paper proposes an improved linear discriminant analysis called spectrally-corrected and regularized LDA (SRLDA). This method integrates the design ideas of the sample spectrally-corrected covariance matrix and the regularized discriminant analysis. With the support of a large-dimensional random matrix analysis framework, it is proved that SRLDA has a linear classification global optimal solution under the spiked model assumption. According to simulation data analysis, the SRLDA classifier performs better than RLDA and ILDA and is closer to the theoretical classifier. Experiments on different data sets show that the SRLDA algorithm performs better in classification and dimensionality reduction than currently used tools.
翻訳日:2024-03-11 23:58:11 公開日:2024-03-08
# ディスクリプタ蒸留 : ローカルディスクリプタ学習のための教師学生正規化フレームワーク

Descriptor Distillation: a Teacher-Student-Regularized Framework for Learning Local Descriptors ( http://arxiv.org/abs/2209.11795v2 )

ライセンス: Link先を確認
Yuzhen Liu and Qiulei Dong(参考訳) 高速かつ識別可能なパッチ記述子を学ぶことは、コンピュータビジョンにおいて難しいトピックである。 近年では,各正対間の距離を小さくし,負対間の距離を増加させるトリプレットロス(あるいはその変種)を最小化することで,様々な記述型学習ネットワークのトレーニングに注目が集まっている。 しかし、ネットワークオプティマイザの局所解への非完全収束のため、そのような期待を下げなければならない。 この問題と計算速度の問題に対処し,DesDisと呼ばれるローカル記述子学習のための記述子蒸留フレームワークを提案する。 教師のモデルと生徒のモデルとの正の(かつ負の)対の類似性の違いを制約し、理論上、三重項損失とこの正規化子の重み付き組合せを、三重項損失を単独で最小化して訓練した教師よりも、より効果的な生徒モデルの訓練が可能であることを理論的に証明する。 提案されているdesdisでは、既存のディスクリプタネットワークを教師モデルとして組み込むことができ、それゆえ等級と軽量の学生モデルの両方を導出することができ、教師の正確さと速度のどちらよりも優れている。 3つの公開データセットに対する実験結果から,3つの典型的な記述子学習ネットワークを教師モデルとして利用することにより,提案したDesDisフレームワークから導出された同級生モデルが,教師や他の比較手法よりもはるかに優れたパフォーマンスを達成できることが示されている。 さらに、導出した軽量モデルは、類似のパッチ検証性能の下で比較法よりも8倍またはそれ以上高速に実現できる。

Learning a fast and discriminative patch descriptor is a challenging topic in computer vision. Recently, many existing works focus on training various descriptor learning networks by minimizing a triplet loss (or its variants), which is expected to decrease the distance between each positive pair and increase the distance between each negative pair. However, such an expectation has to be lowered due to the non-perfect convergence of network optimizer to a local solution. Addressing this problem and the open computational speed problem, we propose a Descriptor Distillation framework for local descriptor learning, called DesDis, where a student model gains knowledge from a pre-trained teacher model, and it is further enhanced via a designed teacher-student regularizer. This teacher-student regularizer is to constrain the difference between the positive (also negative) pair similarity from the teacher model and that from the student model, and we theoretically prove that a more effective student model could be trained by minimizing a weighted combination of the triplet loss and this regularizer, than its teacher which is trained by minimizing the triplet loss singly. Under the proposed DesDis, many existing descriptor networks could be embedded as the teacher model, and accordingly, both equal-weight and light-weight student models could be derived, which outperform their teacher in either accuracy or speed. Experimental results on 3 public datasets demonstrate that the equal-weight student models, derived from the proposed DesDis framework by utilizing three typical descriptor learning networks as teacher models, could achieve significantly better performances than their teachers and several other comparative methods. In addition, the derived light-weight models could achieve 8 times or even faster speeds than the comparative methods under similar patch verification performances
翻訳日:2024-03-11 23:58:01 公開日:2024-03-08
# pifu for the real world: ワンビュー画像から服装の人間を再構築する自己監督型フレームワーク

PIFu for the Real World: A Self-supervised Framework to Reconstruct Dressed Human from Single-view Images ( http://arxiv.org/abs/2208.10769v2 )

ライセンス: Link先を確認
Zhangyang Xiong, Dong Du, Yushuang Wu, Jingqi Dong, Di Kang, Linchao Bao, and Xiaoguang Han(参考訳) 1枚の画像からさまざまなポーズや衣服が引き起こされた高度な人間の形状を正確に再構築することは極めて困難である。 近年,画素アライメント型暗黙関数(PIFu)に基づく研究が盛んに行われ,画像に基づく3次元デジタル化における最先端の忠実性を実現している。 しかし、PIFuの訓練は高価で限られた3D地上真実データ(合成データ)に大きく依存しているため、より多様な現実世界の画像への一般化を妨げている。 本研究では,多彩で多彩なインザミルド画像を利用するために,エンド・ツー・エンドのセルフ教師ネットワークであるSelfPIFuを提案する。 SelfPIFuのコアとなるのは、深度誘導された体積/地表面認識距離場(SDF)学習であり、GTメッシュにアクセスすることなくPIFuの自己教師付き学習を可能にする。 フレームワーク全体は、通常の推定器、深度推定器、およびSDFベースのPIFuで構成され、訓練中にさらに深度GTを活用する。 大規模実験により, 自己教師型フレームワークの有効性と深度を入力として利用することの優位性を示す。 IoU(Intersection-Over-Union)はPIFuHDに比べて93.5%, 18%高い値を示した。 実写画像では,再構成結果のユーザ調査を行い,その選択率は,他の最先端手法と比較して68%以上であった。

It is very challenging to accurately reconstruct sophisticated human geometry caused by various poses and garments from a single image. Recently, works based on pixel-aligned implicit function (PIFu) have made a big step and achieved state-of-the-art fidelity on image-based 3D human digitization. However, the training of PIFu relies heavily on expensive and limited 3D ground truth data (i.e. synthetic data), thus hindering its generalization to more diverse real world images. In this work, we propose an end-to-end self-supervised network named SelfPIFu to utilize abundant and diverse in-the-wild images, resulting in largely improved reconstructions when tested on unconstrained in-the-wild images. At the core of SelfPIFu is the depth-guided volume-/surface-aware signed distance fields (SDF) learning, which enables self-supervised learning of a PIFu without access to GT mesh. The whole framework consists of a normal estimator, a depth estimator, and a SDF-based PIFu and better utilizes extra depth GT during training. Extensive experiments demonstrate the effectiveness of our self-supervised framework and the superiority of using depth as input. On synthetic data, our Intersection-Over-Union (IoU) achieves to 93.5%, 18% higher compared with PIFuHD. For in-the-wild images, we conduct user studies on the reconstructed results, the selection rate of our results is over 68% compared with other state-of-the-art methods.
翻訳日:2024-03-11 23:57:27 公開日:2024-03-08
# deepipc: 実環境における自律走行車の深い統合的知覚と制御

DeepIPC: Deeply Integrated Perception and Control for an Autonomous Vehicle in Real Environments ( http://arxiv.org/abs/2207.09934v6 )

ライセンス: Link先を確認
Oskar Natan and Jun Miura(参考訳) 本研究では、自律運転に適した新しいエンドツーエンドモデルであるDeepIPCを紹介し、知覚と制御タスクをシームレスに統合する。 これらのタスクを別々に扱う従来のモデルとは異なり、DeepIPCは、意味的セグメンテーションのためにRGBDイメージを処理し、鳥の目視(BEV)マッピングを生成する知覚モジュールと、GNSSや角速度測定とともにこれらの洞察を利用してナビゲーションの方向を正確に予測するコントローラモジュールを革新的に組み合わせている。 この統合により、DeepIPCは複雑な環境データを効率的に実行可能な駆動コマンドに変換することができる。 我々は,DeepIPCのドライバビリティとマルチタスク効率の面での優れた性能を実世界のさまざまなシナリオで実証し,よりリーンなモデルアーキテクチャによるエンドツーエンドの自動運転システムの新しいベンチマークを設定した。 実験結果は、DeepIPCが自律車載ナビゲーションを大幅に強化する可能性を強調し、自動運転技術の発展に一歩前進することを約束している。 さらなる洞察とレプリケーションのために、コードとデータセットはhttps://github.com/oskarnatan/DeepIPC.comで公開します。

In this work, we introduce DeepIPC, a novel end-to-end model tailored for autonomous driving, which seamlessly integrates perception and control tasks. Unlike traditional models that handle these tasks separately, DeepIPC innovatively combines a perception module, which processes RGBD images for semantic segmentation and generates bird's eye view (BEV) mappings, with a controller module that utilizes these insights along with GNSS and angular speed measurements to accurately predict navigational waypoints. This integration allows DeepIPC to efficiently translate complex environmental data into actionable driving commands. Our comprehensive evaluation demonstrates DeepIPC's superior performance in terms of drivability and multi-task efficiency across diverse real-world scenarios, setting a new benchmark for end-to-end autonomous driving systems with a leaner model architecture. The experimental results underscore DeepIPC's potential to significantly enhance autonomous vehicular navigation, promising a step forward in the development of autonomous driving technologies. For further insights and replication, we will make our code and datasets available at https://github.com/oskarnatan/DeepIPC.
翻訳日:2024-03-11 23:56:58 公開日:2024-03-08
# 累積分布関数の関数線形回帰

Functional Linear Regression of Cumulative Distribution Functions ( http://arxiv.org/abs/2205.14545v3 )

ライセンス: Link先を確認
Qian Zhang, Anuran Makur, and Kamyar Azizzadenesheli(参考訳) 累積分布関数(CDF)の推定は、予測や意思決定におけるリスク評価など、さまざまな下流アプリケーションにおいて重要な学習課題である。 本稿では,文脈依存型CDF基底関数の線形結合から各データ点をサンプリングする文脈依存CDFの機能回帰について検討する。 我々は,cdfを正確に推定する機能的リッジ回帰に基づく推定法を提案する。 特に、$d$ 基底関数を持つ$n$ サンプルを与えられた場合、固定設計、ランダム設計、逆文脈ケースに対して$\widetilde o(\sqrt{d/n})$ の上限推定誤差を示す。 また、マッチング情報理論の下界を導出し、CDF機能回帰の最小最適性を確立する。 さらに、別のペナル化推定器を用いてランダムな設計設定におけるバーンイン時間を除去する。 次に、データ生成プロセスにミスマッチがある場合の非依存的な設定について考察する。 提案する推定器の誤差をミスマッチ誤差の観点で特徴付け,モデルミスマッチ下で推定器が十分に整備されていることを示す。 さらに, パラメータ空間が無限次元ヒルベルト空間である無限次元モデルを定式化し, この設定の自己正規化推定誤差を上限として定式化する。 特に上界は、パラメータ空間が$d$次元に制約されているとき、$\widetilde O(\sqrt{d/n})$boundに還元される。 総合的な数値実験により, 総合的, 実用的両面において, 評価手法の有効性が検証された。

The estimation of cumulative distribution functions (CDF) is an important learning task with a great variety of downstream applications, such as risk assessments in predictions and decision making. In this paper, we study functional regression of contextual CDFs where each data point is sampled from a linear combination of context dependent CDF basis functions. We propose functional ridge-regression-based estimation methods that estimate CDFs accurately everywhere. In particular, given $n$ samples with $d$ basis functions, we show estimation error upper bounds of $\widetilde O(\sqrt{d/n})$ for fixed design, random design, and adversarial context cases. We also derive matching information theoretic lower bounds, establishing minimax optimality for CDF functional regression. Furthermore, we remove the burn-in time in the random design setting using an alternative penalized estimator. Then, we consider agnostic settings where there is a mismatch in the data generation process. We characterize the error of the proposed estimators in terms of the mismatched error, and show that the estimators are well-behaved under model mismatch. Moreover, to complete our study, we formalize infinite dimensional models where the parameter space is an infinite dimensional Hilbert space, and establish a self-normalized estimation error upper bound for this setting. Notably, the upper bound reduces to the $\widetilde O(\sqrt{d/n})$ bound when the parameter space is constrained to be $d$-dimensional. Our comprehensive numerical experiments validate the efficacy of our estimation methods in both synthetic and practical settings.
翻訳日:2024-03-11 23:56:36 公開日:2024-03-08
# データ中毒に対する機械学習のセキュリティ:まだあるのか?

Machine Learning Security against Data Poisoning: Are We There Yet? ( http://arxiv.org/abs/2204.05986v3 )

ライセンス: Link先を確認
Antonio Emanuele Cin\`a, Kathrin Grosse, Ambra Demontis, Battista Biggio, Fabio Roli, and Marcello Pelillo(参考訳) 最近の機械学習(ML)の成功は、多くの異なるアプリケーションにおいて、コンピューティングパワーと大量のデータが利用可能になったことで加速された。 しかし、そのようなデータを不正に操作して学習プロセスを誤解させると、結果モデルの信頼性が損なわれる可能性がある。 本稿では,MLモデルの学習に使用されるトレーニングデータを損なう毒殺攻撃について,総合的な性能低下を目的とした攻撃,特定のテストサンプルの予測操作,さらにはモデルにバックドアを埋め込む攻撃などについて概説する。 次に、基本的なセキュリティ原則やml指向の防御機構をデプロイすることで、これらの攻撃を軽減する方法について論じる。 我々は、データ中毒攻撃に対するmlモデルの信頼性の評価と改善に適したテスト手法とベンチマークの開発を妨げる、関連するオープンチャレンジを定式化し、この記事を締めくくる。

The recent success of machine learning (ML) has been fueled by the increasing availability of computing power and large amounts of data in many different applications. However, the trustworthiness of the resulting models can be compromised when such data is maliciously manipulated to mislead the learning process. In this article, we first review poisoning attacks that compromise the training data used to learn ML models, including attacks that aim to reduce the overall performance, manipulate the predictions on specific test samples, and even implant backdoors in the model. We then discuss how to mitigate these attacks using basic security principles, or by deploying ML-oriented defensive mechanisms. We conclude our article by formulating some relevant open challenges which are hindering the development of testing methods and benchmarks suitable for assessing and improving the trustworthiness of ML models against data poisoning attacks
翻訳日:2024-03-11 23:56:06 公開日:2024-03-08
# モデルベースオフライン強化学習のサンプル複雑性の解消

Settling the Sample Complexity of Model-Based Offline Reinforcement Learning ( http://arxiv.org/abs/2204.05275v4 )

ライセンス: Link先を確認
Gen Li and Laixi Shi and Yuxin Chen and Yuejie Chi and Yuting Wei(参考訳) 本稿では,事前収集データを用いて学習するオフライン強化学習(RL)について検討する。 効果的なオフラインRLは、分散シフトと限られたデータカバレッジに対応できる。 しかしながら、以前のアルゴリズムや解析では、サンプルの最適性に到達するために、サブオプティカルなサンプルの複雑さや高いバーンインコストが伴うため、サンプルが飢えたアプリケーションでは、効率的なオフラインrlの障害となる。 モデルベース(もしくは「プラグイン」)アプローチは,表型マルコフ決定プロセス(MDP)のバーンインコストを伴わずに,最小限のサンプル複雑性を実現する。 具体的には有限水平(resp)を考える。 $\gamma$-discounted infinite-horizon) mdpには$s$ statesとhorizon $h$ (resp.com)がある。 有効地平線$\frac{1}{1-\gamma}$) と仮定すると、データの分散シフトは、ある単一ポリスクリッピングされた集中係数$C^{\star}_{\text{clipped}}$によって反映される。 モデルベースオフライン RL は \[ \begin{cases} \frac{H^{4}SC_{\text{clipped}}^{\star}}{\varepsilon^{2}} & (\text{finite-horizon MDPs}) \frac{SC_{\text{clipped}}^{\star}}{(1-\gamma)^{3}\varepsilon^{2}} & (\text{infinite-horizon MDPs}) \end{cases} \] のサンプル複雑性で $\varepsilon$-accuracy を得る。 提案するアルゴリズムは、ベルンシュタイン型のペナルティを持つ値反復の「悲観的」な変種であり、高度な分散還元を必要としない。 我々の分析フレームワークは、MDPに合わせた慎重な自己拘束技術とともに、微妙な脱結合論に基づく。

This paper is concerned with offline reinforcement learning (RL), which learns using pre-collected data without further exploration. Effective offline RL would be able to accommodate distribution shift and limited data coverage. However, prior algorithms or analyses either suffer from suboptimal sample complexities or incur high burn-in cost to reach sample optimality, thus posing an impediment to efficient offline RL in sample-starved applications. We demonstrate that the model-based (or "plug-in") approach achieves minimax-optimal sample complexity without burn-in cost for tabular Markov decision processes (MDPs). Concretely, consider a finite-horizon (resp. $\gamma$-discounted infinite-horizon) MDP with $S$ states and horizon $H$ (resp. effective horizon $\frac{1}{1-\gamma}$), and suppose the distribution shift of data is reflected by some single-policy clipped concentrability coefficient $C^{\star}_{\text{clipped}}$. We prove that model-based offline RL yields $\varepsilon$-accuracy with a sample complexity of \[ \begin{cases} \frac{H^{4}SC_{\text{clipped}}^{\star}}{\varepsilon^{2}} & (\text{finite-horizon MDPs}) \frac{SC_{\text{clipped}}^{\star}}{(1-\gamma)^{3}\varepsilon^{2}} & (\text{infinite-horizon MDPs}) \end{cases} \] up to log factor, which is minimax optimal for the entire $\varepsilon$-range. The proposed algorithms are "pessimistic" variants of value iteration with Bernstein-style penalties, and do not require sophisticated variance reduction. Our analysis framework is established upon delicate leave-one-out decoupling arguments in conjunction with careful self-bounding techniques tailored to MDPs.
翻訳日:2024-03-11 23:55:52 公開日:2024-03-08
# CtlGAN: コントラストトランスファー学習によるアーティスティック・ポートフォリオ生成

CtlGAN: Few-shot Artistic Portraits Generation with Contrastive Transfer Learning ( http://arxiv.org/abs/2203.08612v2 )

ライセンス: Link先を確認
Yue Wang, Ran Yi, Luying Li, Ying Tai, Chengjie Wang, Lizhuang Ma(参考訳) 芸術的ポートレートの生成は、コンピュータビジョンにおいて難しい問題である。 高品質な結果を生成する既存のポートレートスタイライゼーションモデルは、画像から画像への変換に基づいており、ソースドメインとターゲットドメインの両方から豊富なデータを必要とする。 しかし、十分なデータがないと、これらの手法は過度に適合する。 そこで本研究では,コントラッシブ・トランスファレンス・ラーニング・ストラテジーを新たに導入した,数枚の画像生成モデルCtlGANを提案する。 ソースドメインで事前学習されたスタイルガンを、10以上の芸術的顔を持つ対象の芸術的ドメインに適応させる。 少数のトレーニング例への過剰適合を減らすために、異なる潜在コードから生成されたターゲットインスタンスを識別可能にする新しいクロスドメイン三重項損失を導入する。 実面をZ+空間に埋め込んだ新しいエンコーダを提案し,適応デコーダに対処し,アーティファクトを除去するためのデュアルパストレーニング戦略を提案する。 広汎な質的,定量的な比較とユーザスタディにより,10ショット,1ショットの条件下では最先端の絵画を著しく上回り,高品質な絵画を制作した。 コードは公開される予定だ。

Generating artistic portraits is a challenging problem in computer vision. Existing portrait stylization models that generate good quality results are based on Image-to-Image Translation and require abundant data from both source and target domains. However, without enough data, these methods would result in overfitting. In this work, we propose CtlGAN, a new few-shot artistic portraits generation model with a novel contrastive transfer learning strategy. We adapt a pretrained StyleGAN in the source domain to a target artistic domain with no more than 10 artistic faces. To reduce overfitting to the few training examples, we introduce a novel Cross-Domain Triplet loss which explicitly encourages the target instances generated from different latent codes to be distinguishable. We propose a new encoder which embeds real faces into Z+ space and proposes a dual-path training strategy to better cope with the adapted decoder and eliminate the artifacts. Extensive qualitative, quantitative comparisons and a user study show our method significantly outperforms state-of-the-arts under 10-shot and 1-shot settings and generates high quality artistic portraits. The code will be made publicly available.
翻訳日:2024-03-11 23:55:05 公開日:2024-03-08
# エンド・ツー・エンドビデオ学習におけるバッチ正規化の落とし穴--手術ワークフロー分析に関する研究

On the Pitfalls of Batch Normalization for End-to-End Video Learning: A Study on Surgical Workflow Analysis ( http://arxiv.org/abs/2203.07976v4 )

ライセンス: Link先を確認
Dominik Rivoir, Isabel Funke, Stefanie Speidel(参考訳) バッチの他のサンプルに依存するバッチ正規化(BN)固有の性質は、シーケンスモデリングを含むいくつかのタスクで問題を引き起こすことが知られている。 しかし、BN関連の問題は、CNN(Convolutional Neural Networks)でBNをユビキタスに使用しているにもかかわらず、長いビデオ理解のためにはほとんど研究されていない。 特に外科的ワークフロー分析では、事前訓練された特徴抽出器の欠如が複雑で多段階の訓練パイプラインに繋がったため、BN問題に対する限られた認識がCNNと時間モデルの訓練の利点を隠蔽していた可能性がある。 本稿では,ビデオ学習におけるBNの落とし穴を分析し,期待する「暖房」効果などのオンラインタスクに特有な課題を含む。 BNの特性がエンドツーエンド学習の大きな障害となるのを観察する。 しかし、BNフリーのバックボーンを用いて、単純なCNN-LSTMでさえ、時間的文脈を最大化する適切なエンドツーエンドのトレーニング戦略を利用することで、3つの外科的ワークフローベンチマークにおけるアートの状態を破る。 外科的作業において,BNの落とし穴に対する意識は効果的なエンドツーエンド学習に不可欠である。 自然ビデオデータセットの結果を再現することで、私たちの洞察がビデオ学習の他の分野にも役立つことを願っています。 コードは: \url{https://gitlab.com/nct_tso_public/pitfalls_bn}

Batch Normalization's (BN) unique property of depending on other samples in a batch is known to cause problems in several tasks, including sequence modeling. Yet, BN-related issues are hardly studied for long video understanding, despite the ubiquitous use of BN in CNNs (Convolutional Neural Networks) for feature extraction. Especially in surgical workflow analysis, where the lack of pretrained feature extractors has led to complex, multi-stage training pipelines, limited awareness of BN issues may have hidden the benefits of training CNNs and temporal models end to end. In this paper, we analyze pitfalls of BN in video learning, including issues specific to online tasks such as a 'cheating' effect in anticipation. We observe that BN's properties create major obstacles for end-to-end learning. However, using BN-free backbones, even simple CNN-LSTMs beat the state of the art {\color{\colorrevtwo}on three surgical workflow benchmarks} by utilizing adequate end-to-end training strategies which maximize temporal context. We conclude that awareness of BN's pitfalls is crucial for effective end-to-end learning in surgical tasks. By reproducing results on natural-video datasets, we hope our insights will benefit other areas of video learning as well. Code is available at: \url{https://gitlab.com/nct_tso_public/pitfalls_bn}
翻訳日:2024-03-11 23:54:45 公開日:2024-03-08
# 強化学習における定性検査と変化点検出

Testing Stationarity and Change Point Detection in Reinforcement Learning ( http://arxiv.org/abs/2203.01707v3 )

ライセンス: Link先を確認
Mengbing Li, Chengchun Shi, Zhenke Wu and Piotr Fryzlewicz(参考訳) 非定常環境におけるオフライン強化学習(RL)手法を検討する。 文献における既存のRLアルゴリズムの多くは、システムの遷移と報酬関数が時間とともに一定となるような定常性の仮定に依存している。 しかし、定常性の仮定は実際には制限的であり、交通信号制御、ロボット工学、モバイル健康など、多くのアプリケーションで違反される可能性が高い。 本稿では,事前収集履歴データに基づく最適Q-関数の非定常性をテストするための一貫した手順を,追加のオンラインデータ収集なしに開発する。 提案するテストに基づいて,非定常環境におけるポリシー最適化のための既存のrl手法と自然に結合可能な逐次的変化点検出法を更に開発する。 本手法の有用性は, 理論的な結果, シミュレーション研究, および2018年のインターン健康研究の実データ例によって示される。 提案されたプロシージャのPython実装はhttps://github.com/limengbinggz/CUSUM-RLで公開されている。

We consider offline reinforcement learning (RL) methods in possibly nonstationary environments. Many existing RL algorithms in the literature rely on the stationarity assumption that requires the system transition and the reward function to be constant over time. However, the stationarity assumption is restrictive in practice and is likely to be violated in a number of applications, including traffic signal control, robotics and mobile health. In this paper, we develop a consistent procedure to test the nonstationarity of the optimal Q-function based on pre-collected historical data, without additional online data collection. Based on the proposed test, we further develop a sequential change point detection method that can be naturally coupled with existing state-of-the-art RL methods for policy optimization in nonstationary environments. The usefulness of our method is illustrated by theoretical results, simulation studies, and a real data example from the 2018 Intern Health Study. A Python implementation of the proposed procedure is available at https://github.com/limengbinggz/CUSUM-RL.
翻訳日:2024-03-11 23:54:16 公開日:2024-03-08
# プログラマブル量子機器の資源としての非互換性

Incompatibility as a resource for programmable quantum instruments ( http://arxiv.org/abs/2112.03717v7 )

ライセンス: Link先を確認
Kaiyuan Ji and Eric Chitambar(参考訳) 量子楽器は、古典的および量子的なアウトプットを持つ過程を取り入れているため、最も一般的な量子測定のタイプである。 多くのシナリオでは、実験者が欲しがるたびに多くの可能な機器の1つを実装できる「オンデマンド」デバイスを持つことが望ましい。 本稿では、PID(Programmable instrument device)などのオブジェクトについて言及し、資源理論の観点からPIDについて考察する。 物理的に重要なPIDのクラスは、実装に量子メモリを必要としないもので、これらはこのリソース理論において自然に「自由」である。 さらに、これらの自由物体は、チャネルステアリングの研究において、正確には非ステアブルチャネルアセンブリのクラスに対応する。 従来の測定不整合性の概念はこの理論の資源として現れるが、なぜなら、機器の非整合系を制御するPIDは量子メモリを構築する必要があるからである。 我々は、追加の量子メモリを必要としないプロセスを用いて、PID間の不整合事前順序を特定する。 所定のPIDを用いてゲームがどれだけうまくプレイできるかに基づいて、そのような変換が可能な場合に必要な十分な条件が導出される。 結論として,本研究は非互換性の操作的特徴付けを提供し,最も一般的な量子楽器の非互換性に関する半デバイス非依存テストを提供する。

Quantum instruments represent the most general type of quantum measurement, as they incorporate processes with both classical and quantum outputs. In many scenarios, it may be desirable to have some "on-demand" device that is capable of implementing one of many possible instruments whenever the experimenter desires. We refer to such objects as programmable instrument devices (PIDs), and this paper studies PIDs from a resource-theoretic perspective. A physically important class of PIDs are those that do not require quantum memories to implement, and these are naturally "free" in this resource theory. Additionally, these free objects correspond precisely to the class of unsteerable channel assemblages in the study of channel steering. The traditional notion of measurement incompatibility emerges as a resource in this theory since any PID controlling an incompatible family of instruments requires a quantum memory to build. We identify an incompatibility preorder between PIDs based on whether one can be transformed into another using processes that do not require additional quantum memories. Necessary and sufficient conditions are derived for when such transformations are possible based on how well certain guessing games can be played using a given PID. Ultimately our results provide an operational characterization of incompatibility, and they offer semi-device-independent tests for incompatibility in the most general types of quantum instruments.
翻訳日:2024-03-11 23:54:01 公開日:2024-03-08
# 入力依存ランダム化平滑化の興味深い特性

Intriguing Properties of Input-dependent Randomized Smoothing ( http://arxiv.org/abs/2110.05365v3 )

ライセンス: Link先を確認
Peter S\'uken\'ik, Aleksei Kuvshinov, Stephan G\"unnemann(参考訳) ランダムな平滑化は、現在、確実に堅牢な分類器を得る最先端の方法と考えられている。 その優れた性能にもかかわらず、この手法は"認証精度のウォーターフォール"、認証、認証など、様々な深刻な問題に関連付けられている。 正確さのトレードオフ、あるいは公平性の問題です。 入力依存の平滑化アプローチはこれらの欠陥を克服するために提案されている。 しかし,これらの手法には形式的保証がないため,証明は正当化されないことを示す。 一般に、入力依存の平滑化は次元性の呪いに悩まされ、分散関数は半弾性が低いことが示される。 一方,我々は,厳格な制約の下で,次元の呪いが存在する場合でも,入力依存平滑化の利用を可能にする理論的かつ実用的な枠組みを提供する。 CIFAR10 および MNIST 上で,滑らかな分散関数の具体的な設計と検証を行う。 我々の設計は、古典的な平滑化の問題の一部を緩和し、形式的には下線化されているが、設計のさらなる改善は依然として必要である。

Randomized smoothing is currently considered the state-of-the-art method to obtain certifiably robust classifiers. Despite its remarkable performance, the method is associated with various serious problems such as "certified accuracy waterfalls", certification vs.\ accuracy trade-off, or even fairness issues. Input-dependent smoothing approaches have been proposed with intention of overcoming these flaws. However, we demonstrate that these methods lack formal guarantees and so the resulting certificates are not justified. We show that in general, the input-dependent smoothing suffers from the curse of dimensionality, forcing the variance function to have low semi-elasticity. On the other hand, we provide a theoretical and practical framework that enables the usage of input-dependent smoothing even in the presence of the curse of dimensionality, under strict restrictions. We present one concrete design of the smoothing variance function and test it on CIFAR10 and MNIST. Our design mitigates some of the problems of classical smoothing and is formally underlined, yet further improvement of the design is still necessary.
翻訳日:2024-03-11 23:53:39 公開日:2024-03-08
# 任意の対戦相手を持つ未知ゼロサム確率ゲームに対するベイズ学習アルゴリズム

A Bayesian Learning Algorithm for Unknown Zero-sum Stochastic Games with an Arbitrary Opponent ( http://arxiv.org/abs/2109.03396v2 )

ライセンス: Link先を確認
Mehdi Jafarnia-Jahromi, Rahul Jain, Ashutosh Nayyar(参考訳) 本稿では,ゼロサム確率ゲームのための後方サンプリング強化学習(PSRL-ZSG)を提案する。これは,平均逆基準付き無限水平ゼロサム確率ゲームにおいて,ベイズ的残差を$O(HS\sqrt{AT})$とする最初のオンライン学習アルゴリズムである。 ここで、$H$はバイアス関数の幅の上限、$S$は状態の数、$A$は共同アクションの数、$T$は地平線である。 我々は、対戦相手を制御できず、任意の時間順応的履歴依存戦略を採れるオンライン環境を考える。 我々の後悔境界は、同じ仮定の下でWei et al. (2017) による$O(\sqrt[3]{DS^2AT^2}) の最良の後悔境界を改善し、$T$ の理論的下界と一致する。

In this paper, we propose Posterior Sampling Reinforcement Learning for Zero-sum Stochastic Games (PSRL-ZSG), the first online learning algorithm that achieves Bayesian regret bound of $O(HS\sqrt{AT})$ in the infinite-horizon zero-sum stochastic games with average-reward criterion. Here $H$ is an upper bound on the span of the bias function, $S$ is the number of states, $A$ is the number of joint actions and $T$ is the horizon. We consider the online setting where the opponent can not be controlled and can take any arbitrary time-adaptive history-dependent strategy. Our regret bound improves on the best existing regret bound of $O(\sqrt[3]{DS^2AT^2})$ by Wei et al. (2017) under the same assumption and matches the theoretical lower bound in $T$.
翻訳日:2024-03-11 23:53:22 公開日:2024-03-08
# 誤差緩和は雑音変動量子アルゴリズムのトレーサビリティを向上させるか?

Can Error Mitigation Improve Trainability of Noisy Variational Quantum Algorithms? ( http://arxiv.org/abs/2109.01051v2 )

ライセンス: Link先を確認
Samson Wang, Piotr Czarnik, Andrew Arrasmith, M. Cerezo, Lukasz Cincio, Patrick J. Coles(参考訳) 変分量子アルゴリズム(VQA)は、しばしば短期量子優位の最良の希望と見なされる。 しかし、近年の研究では、ノイズはコストランドスケープを指数関数的に平坦化し、コスト勾配のマグニチュードを抑えることで、VQAのトレーニング可能性を大幅に制限することができることが示されている。 Error Mitigation (EM)は、ノイズが短期デバイスに与える影響を減らすことを約束している。 したがって、EMがVQAのトレーニング性を向上させることができるかどうかを問うことは自然である。 本研究では,広範囲のEM戦略において,指数的資源を他の場所でコミットすることなく指数的コスト集中を解決できないことを示す。 この種の戦略には、ゼロノイズ外挿、仮想蒸留、確率的エラーキャンセル、クリフォードデータ回帰などが含まれる。 第二に、これらのEMプロトコルの分析および数値解析を行い、それらのいくつか(例えば、仮想蒸留)は、EMを全く実行しないよりもコスト関数の値の解決が困難になる。 その結果,Clifford Data Regression (CDR) が,コスト集中度が高すぎる特定の環境でのトレーニングプロセスに有効であることを示す数値的証拠が得られた。 この結果から,EMプロトコルの適用には注意が必要であることが示唆された。 一方,CDRに対する肯定的な結果は,工学的誤り軽減手法がトレーニング性を向上させる可能性を強調している。

Variational Quantum Algorithms (VQAs) are often viewed as the best hope for near-term quantum advantage. However, recent studies have shown that noise can severely limit the trainability of VQAs, e.g., by exponentially flattening the cost landscape and suppressing the magnitudes of cost gradients. Error Mitigation (EM) shows promise in reducing the impact of noise on near-term devices. Thus, it is natural to ask whether EM can improve the trainability of VQAs. In this work, we first show that, for a broad class of EM strategies, exponential cost concentration cannot be resolved without committing exponential resources elsewhere. This class of strategies includes as special cases Zero Noise Extrapolation, Virtual Distillation, Probabilistic Error Cancellation, and Clifford Data Regression. Second, we perform analytical and numerical analysis of these EM protocols, and we find that some of them (e.g., Virtual Distillation) can make it harder to resolve cost function values compared to running no EM at all. As a positive result, we do find numerical evidence that Clifford Data Regression (CDR) can aid the training process in certain settings where cost concentration is not too severe. Our results show that care should be taken in applying EM protocols as they can either worsen or not improve trainability. On the other hand, our positive results for CDR highlight the possibility of engineering error mitigation methods to improve trainability.
翻訳日:2024-03-11 23:52:58 公開日:2024-03-08
# 普遍移動物体セグメンテーションにおける時間分布と空間相関の学習

Learning Temporal Distribution and Spatial Correlation Towards Universal Moving Object Segmentation ( http://arxiv.org/abs/2304.09949v4 )

ライセンス: Link先を確認
Guanfang Dong, Chenqiu Zhao, Xichen Pan, Anup Basu(参考訳) 移動対象セグメンテーションの目標は、動画の静止背景から移動対象を分離することである。 この問題の1つの大きな課題は、従来の手法が特定の場面でのみ有効であることから、様々な自然シーンからのビデオのユニバーサルモデルを開発する方法である。 本稿では,普遍移動物体のセグメンテーションの汎用解となる可能性を持つ時間分布・空間相関学習法(lts)を提案する。 提案手法では,時間画素からの分布をシーン非依存のセグメンテーションのためのDefect Iterative Distribution Learning (DIDL)ネットワークで学習する。 特に、DIDLネットワークは、新しく派生した製品流通層の改善を取り入れています。 次に,空間相関を学習する確率ベイズ補充(SBR)ネットワークを提案し,DIDLネットワークが生成する二項マスクを改善する。 時間分布のシーン独立性と空間相関による精度の向上から, 提案手法は, パラメータが固定された多様で複雑な自然シーンのほとんどすべての映像に対して良好に動作する。 LASIESTA、CDNet2014、BMC、SBMI2015、および128の現実世界ビデオを含む標準データセットに関する包括的な実験は、ディープラーニングネットワークの使用の有無に関わらず、最先端の手法と比較して提案手法の優位性を示す。 我々の知る限り、この研究は現実世界の環境においてオブジェクトセグメンテーションを動かすための一般的な解決策となる可能性が高い。 コードと実際のビデオはGitHub https://github.com/guanfangdong/LTS-UniverisalMOSで見ることができる。

The goal of moving object segmentation is separating moving objects from stationary backgrounds in videos. One major challenge in this problem is how to develop a universal model for videos from various natural scenes since previous methods are often effective only in specific scenes. In this paper, we propose a method called Learning Temporal Distribution and Spatial Correlation (LTS) that has the potential to be a general solution for universal moving object segmentation. In the proposed approach, the distribution from temporal pixels is first learned by our Defect Iterative Distribution Learning (DIDL) network for a scene-independent segmentation. Notably, the DIDL network incorporates the use of an improved product distribution layer that we have newly derived. Then, the Stochastic Bayesian Refinement (SBR) Network, which learns the spatial correlation, is proposed to improve the binary mask generated by the DIDL network. Benefiting from the scene independence of the temporal distribution and the accuracy improvement resulting from the spatial correlation, the proposed approach performs well for almost all videos from diverse and complex natural scenes with fixed parameters. Comprehensive experiments on standard datasets including LASIESTA, CDNet2014, BMC, SBMI2015 and 128 real world videos demonstrate the superiority of proposed approach compared to state-of-the-art methods with or without the use of deep learning networks. To the best of our knowledge, this work has high potential to be a general solution for moving object segmentation in real world environments. The code and real-world videos can be found on GitHub https://github.com/guanfangdong/LTS-UniverisalMOS.
翻訳日:2024-03-11 23:48:05 公開日:2024-03-08
# a "perspectival" mirror of the elephant: investigation language bias on google, chatgpt, youtube, wikipedia

A "Perspectival" Mirror of the Elephant: Investigating Language Bias on Google, ChatGPT, YouTube, and Wikipedia ( http://arxiv.org/abs/2303.16281v3 )

ライセンス: Link先を確認
Queenie Luo, Michael J. Puett, Michael D. Smith(参考訳) グーグル検索が「世界を理解するために多くの角度」から情報を提供するというミッションとは対照的に、グーグルとその最も著名な検索結果であるwikipediaとyoutubeは、単に「仏教」、「自由主義」、「植民地化」、「イラン」、「アメリカ」といった複雑なトピックの検索言語に関連した文化的に支配的な見解の狭いセットを反映している。 簡単に言えば、異なる言語で同じ検索で異なる情報を表示するという、私たちが言語バイアスと呼ぶ現象だ。 本稿では,言語バイアスのエビデンスと分析を行い,その社会的意味について論じる。 オンライン検索やチャットgptのような新しいツールによって、ゾウの小さな部分に触れて、他の文化的視点の存在を知らずに、目が見えなくなることがわかりました。 言語バイアスは、検索を通じて他のグループを見ることができると各言語グループが考える、強いが目に見えない文化的障壁をオンラインで設定する。

Contrary to Google Search's mission of delivering information from "many angles so you can form your own understanding of the world," we find that Google and its most prominent returned results - Wikipedia and YouTube - simply reflect a narrow set of culturally dominant views tied to the search language for complex topics like "Buddhism," "Liberalism," "colonization," "Iran" and "America." Simply stated, they present, to varying degrees, distinct information across the same search in different languages, a phenomenon we call language bias. This paper presents evidence and analysis of language bias and discusses its larger social implications. We find that our online searches and emerging tools like ChatGPT turn us into the proverbial blind person touching a small portion of an elephant, ignorant of the existence of other cultural perspectives. Language bias sets a strong yet invisible cultural barrier online, where each language group thinks they can see other groups through searches, but in fact, what they see is their own reflection.
翻訳日:2024-03-11 23:47:39 公開日:2024-03-08
# カスケード変分量子固有解法アルゴリズム

Cascaded variational quantum eigensolver algorithm ( http://arxiv.org/abs/2303.15237v3 )

ライセンス: Link先を確認
Daniel Gunlycke, C. Stephen Hellberg, and John P. T. Stenger(参考訳) 本稿では,パラメータ最適化過程において,反復毎に1回ではなく1回の量子回路セットの実行しか必要としない逐次変分量子固有ソルバアルゴリズムを提案し,計算スループットを増加させる。 このアルゴリズムは量子処理ユニットを用いて必要な確率質量関数を探索し、古典処理ユニットはエネルギー最小化を含む残りの計算を行う。 アンサッツ形式はフォック空間を制限せず、対称性やその他の物理的動機づけのある制約の実装を含む試行状態を完全に制御する。

We present a cascaded variational quantum eigensolver algorithm that only requires the execution of a set of quantum circuits once rather than at every iteration during the parameter optimization process, thereby increasing the computational throughput. This algorithm uses a quantum processing unit to probe the needed probability mass functions and a classical processing unit perform the remaining calculations, including the energy minimization. The ansatz form does not restrict the Fock space and provides full control over the trial state, including the implementation of symmetry and other physically motivated constraints.
翻訳日:2024-03-11 23:47:15 公開日:2024-03-08
# Distill n' Explain:単純なサロゲートを用いたグラフニューラルネットワークの説明

Distill n' Explain: explaining graph neural networks using simple surrogates ( http://arxiv.org/abs/2303.10139v2 )

ライセンス: Link先を確認
Tamara Pereira and Erik Nascimento and Lucas E. Resck and Diego Mesquita and Amauri Souza(参考訳) グラフニューラルネットワーク(GNN)でノード予測を説明することは、しばしば、予測を保存するグラフサブ構造を見つけることにつながる。 これらの構造を見つけることは、通常、GNNを通してバックプロパゲートし、GNNの複雑さ(例えば、層数)を説明コストに結びつけることを意味する。 単純な代理GNNを説明することで、この債券を破ることができるだろうか? この疑問に答えるために、DnX(Distill n' Explain)を提案する。 まず、DnXは知識蒸留を通して代理GNNを学ぶ。 そして、DnXは単純な凸プログラムを解くことでノードやエッジレベルの説明を抽出する。 また,我々のサロゲートモデルの線形分解を利用した高速なdnxであるfastdnxを提案する。 実験の結果、DnXとFastDnXは最先端のGNN説明器よりも桁違いに高速であることがわかった。 さらに, サロゲートモデルの品質(すなわち蒸留誤差)と説明の忠実さを結びつけた理論的結果を用いて, 経験的知見を裏付ける。

Explaining node predictions in graph neural networks (GNNs) often boils down to finding graph substructures that preserve predictions. Finding these structures usually implies back-propagating through the GNN, bonding the complexity (e.g., number of layers) of the GNN to the cost of explaining it. This naturally begs the question: Can we break this bond by explaining a simpler surrogate GNN? To answer the question, we propose Distill n' Explain (DnX). First, DnX learns a surrogate GNN via knowledge distillation. Then, DnX extracts node or edge-level explanations by solving a simple convex program. We also propose FastDnX, a faster version of DnX that leverages the linear decomposition of our surrogate model. Experiments show that DnX and FastDnX often outperform state-of-the-art GNN explainers while being orders of magnitude faster. Additionally, we support our empirical findings with theoretical results linking the quality of the surrogate model (i.e., distillation error) to the faithfulness of explanations.
翻訳日:2024-03-11 23:47:06 公開日:2024-03-08
# 量子コンピュータを用いた効率的な光伝搬アルゴリズム

Efficient Light Propagation Algorithm using Quantum Computers ( http://arxiv.org/abs/2303.07032v2 )

ライセンス: Link先を確認
Chanaprom Cholsuk, Siavash Davani, Lorcan O. Conlon, Tobias Vogl, Falk Eilenberger(参考訳) 量子アルゴリズムは計算的に難しい問題の境界を克服することができる。 現代光学の基盤の1つはビーム伝搬アルゴリズムであり、特定の分散関係を持つ波が時間と空間でどのように伝播するかの計算を容易にする。 このアルゴリズムは、フーリエ変換、転送関数による乗算、後続のバック変換によって波動伝播方程式を解く。 この伝達関数は、多項式として拡張されることが多い各分散関係から決定される。 自由空間またはピコ秒パルス伝搬における同軸波伝搬の場合、この展開は二次項の後に停止することができる。 波動伝播の古典的な解は$\mathcal{O}(N log N)$計算ステップを必要とし、そこでは$N$は波動関数が離散化される点の数である。 ここでは,この伝搬を$\mathcal{O}((log{}N)^2)$ 1 個の位相ゲートを持つ量子アルゴリズムとして行うことができ,計算複雑性が指数関数的に減少することを示す。 本稿では、この量子ビーム伝搬法(QBPM)を実証し、二重スリット実験とガウスビーム伝搬のための1次元および2次元システムの両方でそのような伝搬を行う。 我々は、量子測定プロセスの統計的性質に直面して量子長所を維持するための適切な観測器の選択の重要性を強調し、古典的解には存在しないサンプリング誤差をもたらす。

Quantum algorithms can potentially overcome the boundary of computationally hard problems. One of the cornerstones in modern optics is the beam propagation algorithm, facilitating the calculation of how waves with a particular dispersion relation propagate in time and space. This algorithm solves the wave propagation equation by Fourier transformation, multiplication with a transfer function, and subsequent back transformation. This transfer function is determined from the respective dispersion relation, which can often be expanded as a polynomial. In the case of paraxial wave propagation in free space or picosecond pulse propagation, this expansion can be truncated after the quadratic term. The classical solution to the wave propagation requires $\mathcal{O}(N log N)$ computation steps, where $N$ is the number of points into which the wave function is discretized. Here, we show that the propagation can be performed as a quantum algorithm with $\mathcal{O}((log{}N)^2)$ single-controlled phase gates, indicating exponentially reduced computational complexity. We herein demonstrate this quantum beam propagation method (QBPM) and perform such propagation in both one- and two-dimensional systems for the double-slit experiment and Gaussian beam propagation. We highlight the importance of the selection of suitable observables to retain the quantum advantage in the face of the statistical nature of the quantum measurement process, which leads to sampling errors that do not exist in classical solutions.
翻訳日:2024-03-11 23:46:53 公開日:2024-03-08
# 木系モデルの限界特徴属性について

On marginal feature attributions of tree-based models ( http://arxiv.org/abs/2302.08434v3 )

ライセンス: Link先を確認
Khashayar Filom, Alexey Miroshnikov, Konstandinos Kotsiopoulos, Arjun Ravi Kannan(参考訳) そのパワーと使いやすさのため、ランダムな森林や傾斜した樹木のアンサンブルのような木ベースの機械学習モデルは非常に人気がある。 それらを解釈するために、辺縁(インターベンショナル)シャプリー、オーウェンまたはバンジャフの値など、限界的な期待に基づく局所的特徴属性を用いることができる。 そのような手法はモデルと実装不変量(つまりモデルの入出力関数のみに依存する)に当てはまる。 本手法は,2つの(統計的に類似した)決定木を「パス依存」のTreeSHAPが特徴のランク付けを行うのに対して,シャープリー値が一致するのに対して,TreeSHAPアルゴリズムと対比する。 さらに,木質モデルの内部構造がどのように活用され,線形ゲーム値による限界特徴属性の計算に役立てられるかについて議論する。 重要な観察の1つは、これらは訓練されたモデルによって決定される入力空間の特定のグリッド分割に関して単純(ピースワイズ・コンスタント)な関数であるということである。 XGBoost、LightGBM、CatBoostライブラリの実験で示されたもうひとつの重要な観察は、すべての機能がアンサンブルからツリーに表示されることだ。 したがって、余剰Shapley(またはOwenまたはBanzhaf)の特徴属性の計算の複雑さは減少する可能性がある。 これは、我々が公理的に特徴づけるより広範なゲーム値のクラスに対して有効である。 主な例はCatBoostモデルの場合で、木は斜め(対称)であり、それぞれの特徴の数は深さよりも大きくない。 この対称性を利用して,catboostモデルの限界シャプリー値(およびbanzhafとowen値)に対して,複雑性が向上し,内部モデルパラメータが限定された,明示的な公式を導出する。 この結果、これらの特徴の帰属を推定するための高速で正確なアルゴリズムが得られる。

Due to their power and ease of use, tree-based machine learning models, such as random forests and gradient-boosted tree ensembles, have become very popular. To interpret them, local feature attributions based on marginal expectations, e.g. marginal (interventional) Shapley, Owen or Banzhaf values, may be employed. Such methods are true to the model and implementation invariant, i.e. dependent only on the input-output function of the model. We contrast this with the popular TreeSHAP algorithm by presenting two (statistically similar) decision trees that compute the exact same function for which the "path-dependent" TreeSHAP yields different rankings of features, whereas the marginal Shapley values coincide. Furthermore, we discuss how the internal structure of tree-based models may be leveraged to help with computing their marginal feature attributions according to a linear game value. One important observation is that these are simple (piecewise-constant) functions with respect to a certain grid partition of the input space determined by the trained model. Another crucial observation, showcased by experiments with XGBoost, LightGBM and CatBoost libraries, is that only a portion of all features appears in a tree from the ensemble. Thus, the complexity of computing marginal Shapley (or Owen or Banzhaf) feature attributions may be reduced. This remains valid for a broader class of game values which we shall axiomatically characterize. A prime example is the case of CatBoost models where the trees are oblivious (symmetric) and the number of features in each of them is no larger than the depth. We exploit the symmetry to derive an explicit formula, with improved complexity and only in terms of the internal model parameters, for marginal Shapley (and Banzhaf and Owen) values of CatBoost models. This results in a fast, accurate algorithm for estimating these feature attributions.
翻訳日:2024-03-11 23:46:02 公開日:2024-03-08
# 部分整列モーメントによる任意次元二成分量子系の絡み合い検出

Entanglement detection in arbitrary dimensional bipartite quantum systems through partial realigned moments ( http://arxiv.org/abs/2302.04797v2 )

ライセンス: Link先を確認
Shruti Aggarwal, Satyabrata Adhikari, A. S. Majumdar(参考訳) 量子状態の部分的知識による絡み合いの検出は、効率的な実装が困難である。 ここでは、リアライン密度行列の部分モーメントを用いた任意の次元量子状態における二部構造絡み検出のための分離性基準を提案する。 提案手法は, 共用枠組みを用いて蒸留可能状態と有界絡み状態の両方の検出を可能にする。 本手法の効率を上記の2つのカテゴリに属する状態の例を通して説明するが、これは部分的状態情報に依存する他のスキームと同等の手法では検出できない。 ここで提案する部分的な再配置モーメントを用いる形式は、2量子ビットシステムにも有効であることが示され、分離可能性基準を少し修正した。

Detection of entanglement through partial knowledge of the quantum state is a challenge to implement efficiently. Here we propose a separability criterion for detecting bipartite entanglement in arbitrary dimensional quantum states using partial moments of the realigned density matrix. Our approach enables detection of both distillable and bound entangled states through a common framework. We illustrate the efficiency of our method through examples of states belonging to both the above categories, which are not detectable using comparable other schemes relying on partial state information. The formalism of employing partial realigned moments proposed here is further shown to be effective for two-qubit systems too, with a slight modification of our separability criterion.
翻訳日:2024-03-11 23:45:27 公開日:2024-03-08
# 時系列コントラスト学習の促進に向けて:動的に悪いペアマイニングアプローチ

Towards Enhancing Time Series Contrastive Learning: A Dynamic Bad Pair Mining Approach ( http://arxiv.org/abs/2302.03357v2 )

ライセンス: Link先を確認
Xiang Lan, Hanshu Yan, Shenda Hong, Mengling Feng(参考訳) すべての正のペアが時系列の対比学習に有益ではない。 本稿では,逆学習によって学習される時系列表現の質を損なう2種類の悪い正の対,雑音の正の対と不良の正の対について検討する。 ノイズの正のペアが存在すると、モデルが単にノイズのパターン(ノイズのアライメント)を学ぶ傾向があることを観察する。 一方、欠陥のある正のペアが発生すると、モデルは非表現的パターン(フォーティアライメント)の整合性にかなりの労力を浪費する。 この問題に対処するために,時系列コントラスト学習における悪い正のペアを確実に識別し,抑制する動的バッドペアマイニング(DBPM)アルゴリズムを提案する。 具体的には、メモリモジュールを使用して、トレーニングプロセスに沿って各正のペアのトレーニング動作を動的に追跡する。 これにより,過去のトレーニング行動に基づいて,各時代における潜在的な悪質なペアを識別することが可能になります。 識別された悪いペアはその後、変換モジュールを通して減重され、表現学習プロセスに負の影響を軽減します。 DBPMは、既存の最先端手法の性能を高めるために、学習可能なパラメータなしで軽量なプラグインとして設計された単純なアルゴリズムである。 4つの大規模な実世界の時系列データセットで実施された広範な実験を通して、悪い正のペアの悪影響を緩和するDBPMの有効性を実証する。

Not all positive pairs are beneficial to time series contrastive learning. In this paper, we study two types of bad positive pairs that can impair the quality of time series representation learned through contrastive learning: the noisy positive pair and the faulty positive pair. We observe that, with the presence of noisy positive pairs, the model tends to simply learn the pattern of noise (Noisy Alignment). Meanwhile, when faulty positive pairs arise, the model wastes considerable amount of effort aligning non-representative patterns (Faulty Alignment). To address this problem, we propose a Dynamic Bad Pair Mining (DBPM) algorithm, which reliably identifies and suppresses bad positive pairs in time series contrastive learning. Specifically, DBPM utilizes a memory module to dynamically track the training behavior of each positive pair along training process. This allows us to identify potential bad positive pairs at each epoch based on their historical training behaviors. The identified bad pairs are subsequently down-weighted through a transformation module, thereby mitigating their negative impact on the representation learning process. DBPM is a simple algorithm designed as a lightweight plug-in without learnable parameters to enhance the performance of existing state-of-the-art methods. Through extensive experiments conducted on four large-scale, real-world time series datasets, we demonstrate DBPM's efficacy in mitigating the adverse effects of bad positive pairs.
翻訳日:2024-03-11 23:45:15 公開日:2024-03-08
# ほぼ最適非パラメトリックシーケンステストと依存性のある観測による信頼度シーケンス

Near-Optimal Non-Parametric Sequential Tests and Confidence Sequences with Possibly Dependent Observations ( http://arxiv.org/abs/2212.14411v4 )

ライセンス: Link先を確認
Aurelien Bibaut, Nathan Kallus, Michael Lindon(参考訳) シーケンシャルテスト、常に有効な$p$-values、信頼性シーケンスは柔軟な統計推論とオンザフライ意思決定を約束する。 しかし、漸近的正規性に基づく固定$n$の推論とは異なり、既存のシーケンシャルテストはパラメトリックな仮定をし、これらが失敗したとき、または非パラメトリックだが保守的な濃度の不等式を使用し、過剰にカバー/アンダー・リジェクションされる。 これらの問題を回避すべく、我々は、正確なat-least-$\alpha$カバレッジを回避し、漸近的キャリブレーションと漸近的最適性に焦点を当てる。 すなわち、真仮説を拒絶する確率が$\alpha$に近づくような逐次的なテストを求め、偽仮説を拒絶する予測時間が、適切な制限下で起こる「攻撃」の両方において、そのような漸近的に校正された全てのテストの下限に近づく。 我々は、観測が非パラメトリックかつ依存的であることを許し、観測がマーチンゲール差分列を形成するかどうかをテストすることに集中する。 そこで本研究では,正規混合逐次確率比テストの微修正であるUSPRT(Universal sequence probability ratio test)を提案し,バーンイン周期を加算し,それに応じて閾値を調整する。 この非常に一般的な設定でさえ、uSPRTは温和な一般的な条件下で漸近的に最適であることを示す。 実験手段, 治療効果, {\etc} に対する安定化推定式に適用し, 含意された信頼度列の保証も提供する。 数値シミュレーションは、代替案に対する uSPRT の保証と利点を検証する。

Sequential testing, always-valid $p$-values, and confidence sequences promise flexible statistical inference and on-the-fly decision making. However, unlike fixed-$n$ inference based on asymptotic normality, existing sequential tests either make parametric assumptions and end up under-covering/over-rejecting when these fail or use non-parametric but conservative concentration inequalities and end up over-covering/under-rejecting. To circumvent these issues, we sidestep exact at-least-$\alpha$ coverage and focus on asymptotic calibration and asymptotic optimality. That is, we seek sequential tests whose probability of \emph{ever} rejecting a true hypothesis approaches $\alpha$ and whose expected time to reject a false hypothesis approaches a lower bound on all such asymptotically calibrated tests, both "approaches" occurring under an appropriate limit. We permit observations to be both non-parametric and dependent and focus on testing whether the observations form a martingale difference sequence. We propose the universal sequential probability ratio test (uSPRT), a slight modification to the normal-mixture sequential probability ratio test, where we add a burn-in period and adjust thresholds accordingly. We show that even in this very general setting, the uSPRT is asymptotically optimal under mild generic conditions. We apply the results to stabilized estimating equations to test means, treatment effects, {\etc} Our results also provide corresponding guarantees for the implied confidence sequences. Numerical simulations verify our guarantees and the benefits of the uSPRT over alternatives.
翻訳日:2024-03-11 23:44:54 公開日:2024-03-08
# 平均アンサンブルを超える - サブシーズン予測のための気候モデルアンサンブルの活用

Beyond Ensemble Averages: Leveraging Climate Model Ensembles for Subseasonal Forecasting ( http://arxiv.org/abs/2211.15856v3 )

ライセンス: Link先を確認
Elena Orlova, Haokun Liu, Raphael Rossellini, Benjamin Cash, Rebecca Willett(参考訳) 温暖化や降水などの重要な気候変数の季節下時間スケールによる高品質な予測は、長年にわたって運用予測のギャップであった。 本研究は,サブシーズン予測のための後処理ツールとしての機械学習(ml)モデルの応用について検討する。 ラグされた数値アンサンブル予測(すなわち、メンバーが初期日数が異なるアンサンブル)と相対湿度、海面圧力、地球電位の高さを含む観測データは、アメリカ合衆国大陸のために毎月の平均降水量と2メートルの気温を予報するために様々なml法に組み込まれている。 線形モデル、ランダムフォレスト、畳み込みニューラルネットワーク、および積み重ねモデル(個々のMLモデルの予測に基づくマルチモデルアプローチ)を用いた回帰、量子回帰、およびtercile分類タスクについて考察する。 アンサンブルを単独で使用する従来のMLアプローチとは異なり、アンサンブル予測に埋め込まれた情報を活用して予測精度を向上させる。 さらに,計画や緩和に不可欠な極端な事象予測についても検討する。 空間予測の集まりとしてのアンサンブル構成員を考察し,空間変動に対処するための異なるアプローチを検討する。 異なるアプローチ間のトレードオフは、モデル積み重ねによって緩和される可能性がある。 提案モデルは,気候予報やアンサンブル手段などの標準基準を上回っている。 本稿ではさらに,特徴量の重要性,全アンサンブルの使用とアンサンブル平均のみの使用のトレードオフ,空間変動の計算方法の相違について検討する。

Producing high-quality forecasts of key climate variables, such as temperature and precipitation, on subseasonal time scales has long been a gap in operational forecasting. This study explores an application of machine learning (ML) models as post-processing tools for subseasonal forecasting. Lagged numerical ensemble forecasts (i.e., an ensemble where the members have different initial dates) and observational data, including relative humidity, pressure at sea level, and geopotential height, are incorporated into various ML methods to predict monthly average precipitation and two-meter temperature two weeks in advance for the continental United States. Regression, quantile regression, and tercile classification tasks using linear models, random forests, convolutional neural networks, and stacked models (a multi-model approach based on the prediction of the individual ML models) are considered. Unlike previous ML approaches that often use ensemble mean alone, we leverage information embedded in the ensemble forecasts to enhance prediction accuracy. Additionally, we investigate extreme event predictions that are crucial for planning and mitigation efforts. Considering ensemble members as a collection of spatial forecasts, we explore different approaches to address spatial variability. Trade-offs between different approaches may be mitigated with model stacking. Our proposed models outperform standard baselines such as climatological forecasts and ensemble means. This paper further includes an investigation of feature importance, trade-offs between using the full ensemble or only the ensemble mean, and different modes of accounting for spatial variability.
翻訳日:2024-03-11 23:44:21 公開日:2024-03-08
# TetraSphere: O(3)-不変点雲解析のためのニューラルネットワーク記述子

TetraSphere: A Neural Descriptor for O(3)-Invariant Point Cloud Analysis ( http://arxiv.org/abs/2211.14456v5 )

ライセンス: Link先を確認
Pavlo Melnyk, Andreas Robinson, Michael Felsberg, M{\aa}rten Wadenb\"ack(参考訳) 多くの実用的応用において、3次元点雲解析は回転不変性を必要とする。 本稿では,最近導入された3次元球面ニューロンとベクトルニューロンを用いた3次元回転と反射,すなわちo(3)作用下での学習可能な記述子不変性について述べる。 具体的には,3次元球面ニューロンを4次元ベクトルニューロンに埋め込み,モデルのエンドツーエンドトレーニングを活用する。 提案手法では, ステアブルニューロンから構築された3次元入力の4次元への同変埋め込みであるTetraTransformを行い, ベクトルニューロンを用いたO(3)-同変の深い特徴を抽出する。 TetraTransformのVN-DGCNNフレームワークへの統合は、TetraSphereと呼ばれ、パラメータの数を0.0002%以下にすることが無視できる。 tetrasphereは、scanobjectnnの挑戦的なサブセットのランダムに回転した実世界のオブジェクトスキャンを分類する新しい最先端のパフォーマンスを設定する。 さらに、TetraSphereは、ModelNet40からのオブジェクトの分類とShapeNet形状のセグメンテーションといった、ランダムに回転した合成データ上で、すべての同変法より優れている。 そこで本研究では,3次元ユークリッド空間で学習する3次元球状ニューロンの実用的価値を明らかにした。 コードは \url{https://github.com/pavlo-melnyk/tetrasphere} で入手できる。

In many practical applications, 3D point cloud analysis requires rotation invariance. In this paper, we present a learnable descriptor invariant under 3D rotations and reflections, i.e., the O(3) actions, utilizing the recently introduced steerable 3D spherical neurons and vector neurons. Specifically, we propose an embedding of the 3D spherical neurons into 4D vector neurons, which leverages end-to-end training of the model. In our approach, we perform TetraTransform--an equivariant embedding of the 3D input into 4D, constructed from the steerable neurons--and extract deeper O(3)-equivariant features using vector neurons. This integration of the TetraTransform into the VN-DGCNN framework, termed TetraSphere, negligibly increases the number of parameters by less than 0.0002%. TetraSphere sets a new state-of-the-art performance classifying randomly rotated real-world object scans of the challenging subsets of ScanObjectNN. Additionally, TetraSphere outperforms all equivariant methods on randomly rotated synthetic data: classifying objects from ModelNet40 and segmenting parts of the ShapeNet shapes. Thus, our results reveal the practical value of steerable 3D spherical neurons for learning in 3D Euclidean space. The code is available at \url{https://github.com/pavlo-melnyk/tetrasphere}.
翻訳日:2024-03-11 23:43:53 公開日:2024-03-08
# 協調データ駆動モデリング

Cooperative data-driven modeling ( http://arxiv.org/abs/2211.12971v2 )

ライセンス: Link先を確認
Aleksandr Dekhovich, O. Taylan Turan, Jiaxiang Yi, Miguel A. Bessa(参考訳) メカニクスにおけるデータ駆動モデリングは、最近の機械学習の進歩、特に人工ニューラルネットワークに基づいて急速に進化している。 この分野が成熟するにつれて、異なるグループが作成した新しいデータとモデルが利用可能になり、協調モデリングの可能性が開けた。 しかし、ニューラルネットワークは破滅的な忘れ、すなわち新しいタスクでトレーニングされたときに古いタスクを実行する方法を忘れてしまう。 これは、新しいタスクに既存のモデルを適用することが、他の人が訓練した前のタスクのパフォーマンスに影響するため、協力を妨げる。 著者らはこの問題に対処する継続的学習法を開発し、固体力学に初めて適用した。 特に、この方法は、他のアーキテクチャ(フィードフォワード、畳み込みなど)で使用でき、他の現象を予測するために、履歴に依存した塑性挙動を予測するために、繰り返しニューラルネットワークに適用される。 本研究は, 機械工学コミュニティ間の協調戦略を育成し, ますます困難な課題を解決しようとする, 継続的な学習の今後の発展をめざすものである。 選択した連続学習戦略は、モデルを忘れずに連続的にいくつかの構成法則を学習し、少ないデータを用いて1モデル当たりの標準的(非協調的)訓練と同じ誤差を達成することを示す。

Data-driven modeling in mechanics is evolving rapidly based on recent machine learning advances, especially on artificial neural networks. As the field matures, new data and models created by different groups become available, opening possibilities for cooperative modeling. However, artificial neural networks suffer from catastrophic forgetting, i.e. they forget how to perform an old task when trained on a new one. This hinders cooperation because adapting an existing model for a new task affects the performance on a previous task trained by someone else. The authors developed a continual learning method that addresses this issue, applying it here for the first time to solid mechanics. In particular, the method is applied to recurrent neural networks to predict history-dependent plasticity behavior, although it can be used on any other architecture (feedforward, convolutional, etc.) and to predict other phenomena. This work intends to spawn future developments on continual learning that will foster cooperative strategies among the mechanics community to solve increasingly challenging problems. We show that the chosen continual learning strategy can sequentially learn several constitutive laws without forgetting them, using less data to achieve the same error as standard (non-cooperative) training of one law per model.
翻訳日:2024-03-11 23:43:32 公開日:2024-03-08
# 量子強化学習に関する調査研究

A Survey on Quantum Reinforcement Learning ( http://arxiv.org/abs/2211.03464v2 )

ライセンス: Link先を確認
Nico Meyer, Christian Ufrecht, Maniraman Periyasamy, Daniel D. Scherer, Axel Plinge, and Christopher Mutschler(参考訳) 量子強化学習は、量子コンピューティングと機械学習の交差する分野である。 量子強化学習に関する文献の広範な概観 - この用語の解釈は後述する - を提供するつもりであるが、特に最近の発展に重点を置いている。 既に利用可能なノイズの多い中間スケール量子デバイスに焦点を合わせ、古典的な強化学習環境で関数近似器として働く変分量子回路を含む。 さらに、将来のフォールトトレラントハードウェアに基づく量子強化学習アルゴリズムを調査し、その一部は証明可能な量子優位性を持つ。 本稿は,本分野の鳥眼ビューと,選択された文献の要約とレビューを提供する。

Quantum reinforcement learning is an emerging field at the intersection of quantum computing and machine learning. While we intend to provide a broad overview of the literature on quantum reinforcement learning - our interpretation of this term will be clarified below - we put particular emphasis on recent developments. With a focus on already available noisy intermediate-scale quantum devices, these include variational quantum circuits acting as function approximators in an otherwise classical reinforcement learning setting. In addition, we survey quantum reinforcement learning algorithms based on future fault-tolerant hardware, some of which come with a provable quantum advantage. We provide both a birds-eye-view of the field, as well as summaries and reviews for selected parts of the literature.
翻訳日:2024-03-11 23:43:11 公開日:2024-03-08
# ホロノミック量子コヒーレント制御によるキラル分子の識別

Discrimination of Chiral Molecules through Holonomic Quantum Coherent Control ( http://arxiv.org/abs/2210.11740v4 )

ライセンス: Link先を確認
Teng Liu, Fa Zhao, Pengfei Lu, Qifeng Lao, Min Ding, Ji Bian, Feng Zhu, and Le Luo(参考訳) 捕捉イオンキュディットを用いた量子シミュレータにおいて、キラル分子を識別する新しい光学的手法を提案し、検証した。 このアプローチは、キラル分子の双極子モーメントと異なる環状進化軌道との符号の相違を相関させ、キラル性に対応する異なる非アベリアホロノミーによって誘導される一様集団コントラストをもたらす。 ホロノミック量子計算(HQC)の原理を基礎として,本手法は高効率で非断熱的かつ堅牢なキラル分子の検出と分離を実現する。 閉じ込められたイオン量子シミュレータで実証されたこのスキームは、特定の状態の集団における2つのエナンチオマーのほぼ100%のコントラストを達成し、駆動場に固有の雑音に対する弾力性を示す。

A novel optical method for distinguishing chiral molecules is proposed and validated within a quantum simulator employing a trapped-ion qudit. This approach correlates the sign disparity of the dipole moment of chiral molecules with distinct cyclic evolution trajectories, yielding the unity population contrast induced by the different non-Abelian holonomies corresponding to the chirality. Harnessing the principles of holonomic quantum computation (HQC), our method achieves highly efficient, non-adiabatic, and robust detection and separation of chiral molecules. Demonstrated in a trapped ion quantum simulator, this scheme achieves nearly 100% contrast between the two enantiomers in the population of a specific state, showcasing its resilience to the noise inherent in the driving field.
翻訳日:2024-03-11 23:43:00 公開日:2024-03-08
# EventBind: イベントベースのオープンワールド理解のためのバインディングテーマの統一表現学習

EventBind: Learning a Unified Representation to Bind Them All for Event-based Open-world Understanding ( http://arxiv.org/abs/2308.03135v3 )

ライセンス: Link先を確認
Jiazhou Zhou, Xu Zheng, Yuanhuiyi Lyu, Lin Wang(参考訳) 本稿では,大規模イベントベースデータセットの欠如を補うために,イベントベース認識のための視覚言語モデル(VLM)の可能性を解き放つ,斬新で効果的なフレームワークであるEventBindを提案する。 特に、画像テキストデータとの異なるモダリティギャップと大規模なデータセットの欠如のため、画像、テキスト、イベントの共通表現空間を学ぶのは簡単ではありません。 1)クリップのビジュアルエンコーダをイベントデータに一般化する方法,例えばスパーシティや時間分解能の高いイベントのユニークな特性を十分に活用する。 2)マルチモーダル埋め込み、すなわち画像、テキスト、イベントを効果的に整列する方法。 そこで我々はまず,イベントから時間情報を微妙にモデル化する新しいイベントエンコーダを導入するとともに,モダリティブリッジのためのイベントプロンプトを生成する。 提案するイベントエンコーダ,テキストエンコーダ,画像エンコーダを用いて,新たな階層型三重コントラストアライメント(HTCA)モジュールを導入し,相関関係の最適化と3つのモード間の効率的な知識伝達を実現する。 N-Caltech 101 +5.34% および +1.70%) や N-Imagenet (+5.65% と +1.99%) でそれぞれ微調整と20ショット設定を行うなど,従来の手法と比較して新しい最先端の精度を実現しています。 さらに、eventbindは、テキストや画像クエリを使用して、柔軟にイベント検索タスクに拡張することができ、実行可能なパフォーマンスを示します。 私たちのプロジェクトコードは公開されます。

In this paper, we propose EventBind, a novel and effective framework that unleashes the potential of vision-language models (VLMs) for event-based recognition to compensate for the lack of large-scale event-based datasets. In particular, due to the distinct modality gap with the image-text data and the lack of large-scale datasets, learning a common representation space for images, texts, and events is non-trivial.Intuitively, we need to address two key challenges: 1) how to generalize CLIP's visual encoder to event data while fully leveraging events' unique properties, e.g., sparsity and high temporal resolution; 2) how to effectively align the multi-modal embeddings, i.e., image, text, and events. Accordingly, we first introduce a novel event encoder that subtly models the temporal information from events and meanwhile, generates event prompts for modality bridging. We then design a text encoder that generates content prompts and utilizes hybrid text prompts to enhance EventBind's generalization ability across diverse datasets.With the proposed event encoder, text encoder, and image encoder, a novel Hierarchical Triple Contrastive Alignment (HTCA) module is introduced to jointly optimize the correlation and enable efficient knowledge transfer among the three modalities. We evaluate various settings, including fine-tuning and few-shot on three benchmarks, and our EventBind achieves new state-of-the-art accuracy compared with the previous methods, such as on N-Caltech 101 +5.34% and +1.70%) and N-Imagenet(+5.65% and +1.99%) with fine-tuning and 20-shot settings, respectively. Moreover, our EventBind can be flexibly extended to the event retrieval task using text or image queries, showing plausible performance. Our project code will be made publicly available.
翻訳日:2024-03-11 23:38:13 公開日:2024-03-08
# ProtoCaps: 高速かつ非イテレーティブなカプセルネットワークルーティング手法

ProtoCaps: A Fast and Non-Iterative Capsule Network Routing Method ( http://arxiv.org/abs/2307.09944v2 )

ライセンス: Link先を確認
Miles Everett, Mingjun Zhong and Georgios Leontidis(参考訳) カプセルネットワークは、畳み込みニューラルネットワーク(cnns)と比較して比較的少ないパラメータで頑健なパフォーマンスで知られている、ディープラーニングアーキテクチャの強力なクラスとして登場している。 しかしながら、その本来の効率性は、カプセル層間の接続を確立する、遅い反復的なルーティング機構によって覆われ、スケールできない計算上の問題を引き起こすことが多い。 本稿では,トレーニング可能なプロトタイプクラスタリングにインスパイアされた,新しい非定型ルーティング機構を提案する。 この革新的なアプローチは計算の複雑さを和らげることを目的としているが、性能の有効性は向上しない。 さらに,共有カプセルサブスペースを活用し,各下位カプセルを上位カプセルに投影する必要をなくし,トレーニング時のメモリ要求量を大幅に削減した。 提案手法は,現在最良である非定性カプセルネットワークやImagewoofデータセットに対するテストよりも優れた結果を示し,反復的アプローチで効率的に処理するには計算負荷が大きすぎる。 提案手法がカプセルネットワークの運用効率と性能を向上させることの可能性を実証し,より複雑な計算シナリオに応用する方法について検討した。 コードはhttps://github.com/mileseverett/protocapsで入手できる。

Capsule Networks have emerged as a powerful class of deep learning architectures, known for robust performance with relatively few parameters compared to Convolutional Neural Networks (CNNs). However, their inherent efficiency is often overshadowed by their slow, iterative routing mechanisms which establish connections between Capsule layers, posing computational challenges resulting in an inability to scale. In this paper, we introduce a novel, non-iterative routing mechanism, inspired by trainable prototype clustering. This innovative approach aims to mitigate computational complexity, while retaining, if not enhancing, performance efficacy. Furthermore, we harness a shared Capsule subspace, negating the need to project each lower-level Capsule to each higher-level Capsule, thereby significantly reducing memory requisites during training. Our approach demonstrates superior results compared to the current best non-iterative Capsule Network and tests on the Imagewoof dataset, which is too computationally demanding to handle efficiently by iterative approaches. Our findings underscore the potential of our proposed methodology in enhancing the operational efficiency and performance of Capsule Networks, paving the way for their application in increasingly complex computational scenarios. Code is available at https://github.com/mileseverett/ProtoCaps.
翻訳日:2024-03-11 23:37:29 公開日:2024-03-08
# tweezerアレイにおける量子センシング:個別原子センサグリッド上の光磁気計測

Quantum Sensing in Tweezer Arrays: Optical Magnetometry on an Individual-Atom Sensor Grid ( http://arxiv.org/abs/2307.08055v3 )

ライセンス: Link先を確認
Dominik Sch\"affner, Tobias Schreiber, Fabian Lenz, Malte Schlosser, Gerhard Birkl(参考訳) 個別のレーザー冷却原子を保持可能な数百のサイトからなる量子センシングのためのスケーラブルなプラットフォームを実装し,この単一量子システムセンサアレイを二次元格子上の磁場マッピングに適用可能であることを示す。 それぞれの原子は7.0(2)マイクロメートルの相互分離で0.5マイクロメートル^2の範囲内で光学的ツイーザに閉じ込められているため、ミクロスケールの空間分解能と高い並列化操作が得られる。 追加のステアブル光学式ツイーザはグリッド内の原子の再配置を可能にし、サブミクロン分解能を持つ単一原子走査顕微鏡を可能にする。 この個別原子センサープラットフォームは、外部に印加された直流勾配磁場のマッピングにすぐに応用できる。 ラムゼー型測定では、フィールド解像度は98(29)ナノテスラである。 感度は25マイクロテラ/Hz^1/2と推定した。

We implement a scalable platform for quantum sensing comprising hundreds of sites capable of holding individual laser-cooled atoms and demonstrate the applicability of this single-quantum-system sensor array to magnetic-field mapping on a two-dimensional grid. With each atom being confined in an optical tweezer within an area of 0.5 micrometer^2 at mutual separations of 7.0(2) micrometer, we obtain micrometer-scale spatial resolution and highly parallelized operation. An additional steerable optical tweezer allows for a rearrangement of atoms within the grid and enables single-atom scanning microscopy with sub-micron resolution. This individual-atom sensor platform finds its immediate application in mapping an externally applied DC gradient magnetic field. In a Ramsey-type measurement, we obtain a field resolution of 98(29) nanotesla. We estimate the sensitivity to 25 microtesla/Hz^1/2.
翻訳日:2024-03-11 23:37:08 公開日:2024-03-08
# 学習オートマトンを用いたセルフイッシュマイニングとダブルスペンディングアタックのリスク軽減のための新しい知的防御システム

New intelligent defense systems to reduce the risks of Selfish Mining and Double-Spending attacks using Learning Automata ( http://arxiv.org/abs/2307.00529v2 )

ライセンス: Link先を確認
Seyed Ardalan Ghoreishi and Mohammad Reza Meybodi(参考訳) 本稿では、ブロックチェーンベースのデジタル通貨における二重投機と自己中心的なマイニング攻撃の重大な課題に対処する。 ダブルスペンディング(double-spending)は、デジタル通貨取引中に同じテンダーが複数回費やされる問題であり、一方利己的なマイニングは、ある採掘者または鉱山労働者のグループに対する報酬を増やすためのブロックチェーンの意図的な変更である。 これら2つの攻撃を組み合わせる新たな攻撃を導入し、それらに関連するリスクを軽減するための機械学習ベースのソリューションを提案する。 具体的には,強力なオンライン学習手法であるlearning automatonを用いて,利己的なマイニング攻撃に対して効果的に防御できるsdtlaとwvbmという2つのモデルを開発した。 以上の結果から,sdtla法は利己的な鉱業の収益性閾値を最大47$%$まで向上させるが,wvbm法はさらに優れており,各鉱夫の収益が共有ハッシュ処理能力に比例する理想的な状況に非常に近いことがわかった。 さらに, 両手法が$Z$パラメータを調整することにより, ダブルスペンディングのリスクを効果的に低減できることを示す。 ブロックチェーンネットワークのセキュリティと効率を向上させるための有望なソリューションとして、sdtlaとwvbmの可能性を強調する。

In this paper, we address the critical challenges of double-spending and selfish mining attacks in blockchain-based digital currencies. Double-spending is a problem where the same tender is spent multiple times during a digital currency transaction, while selfish mining is an intentional alteration of a blockchain to increase rewards to one miner or a group of miners. We introduce a new attack that combines both these attacks and propose a machine learning-based solution to mitigate the risks associated with them. Specifically, we use the learning automaton, a powerful online learning method, to develop two models, namely the SDTLA and WVBM, which can effectively defend against selfish mining attacks. Our experimental results show that the SDTLA method increases the profitability threshold of selfish mining up to 47$\%$, while the WVBM method performs even better and is very close to the ideal situation where each miner's revenue is proportional to their shared hash processing power. Additionally, we demonstrate that both methods can effectively reduce the risks of double-spending by tuning the $Z$ Parameter. Our findings highlight the potential of SDTLA and WVBM as promising solutions for enhancing the security and efficiency of blockchain networks.
翻訳日:2024-03-11 23:36:54 公開日:2024-03-08
# データセットシフトの一般形に基づく効率的かつ多元的ロバストリスク推定

Efficient and Multiply Robust Risk Estimation under General Forms of Dataset Shift ( http://arxiv.org/abs/2306.16406v3 )

ライセンス: Link先を確認
Hongxiang Qiu, Eric Tchetgen Tchetgen, Edgar Dobriban(参考訳) 統計的な機械学習手法は、利害関係者から利用可能な限られたデータの課題に直面することが多い。 1つの治療法は、いくつかの条件分布を共有したり、ターゲットドメインと他の方法でリンクされた補助源集団のデータを活用することである。 このような \emph{dataset shift} 条件を活用する手法は \emph{domain adaptation} または \emph{transfer learning} として知られている。 データセットのシフトに関する広範な文献にもかかわらず、限定的な研究は、対象人口における与えられた機械学習タスクのリスク評価の正確性を改善するために補助人口を効率的に利用する方法に言及している。 本稿では, 半パラメトリック効率理論を用いて, 様々なデータセットシフト条件下でターゲット人口リスクを効率的に推定する一般的な問題について検討する。 我々は,共変量,ラベル,概念シフトの3つの一般的な条件を含む,データセットシフト条件の一般的なクラスを特別なケースとして検討する。 我々は、ソースとターゲットの人口の間で部分的に重複しない支持を可能にする。 我々は、これらのデータセットシフト条件の簡単な仕様テストと共に、効率的かつ多重にロバストな推定器を開発する。 また、他の2つのデータセットシフト条件、後方ドリフトと位置スケールシフトの効率境界も導出する。 シミュレーション研究は、妥当なデータセットシフト条件の活用による効率向上を支援する。

Statistical machine learning methods often face the challenge of limited data available from the population of interest. One remedy is to leverage data from auxiliary source populations, which share some conditional distributions or are linked in other ways with the target domain. Techniques leveraging such \emph{dataset shift} conditions are known as \emph{domain adaptation} or \emph{transfer learning}. Despite extensive literature on dataset shift, limited works address how to efficiently use the auxiliary populations to improve the accuracy of risk evaluation for a given machine learning task in the target population. In this paper, we study the general problem of efficiently estimating target population risk under various dataset shift conditions, leveraging semiparametric efficiency theory. We consider a general class of dataset shift conditions, which includes three popular conditions -- covariate, label and concept shift -- as special cases. We allow for partially non-overlapping support between the source and target populations. We develop efficient and multiply robust estimators along with a straightforward specification test of these dataset shift conditions. We also derive efficiency bounds for two other dataset shift conditions, posterior drift and location-scale shift. Simulation studies support the efficiency gains due to leveraging plausible dataset shift conditions.
翻訳日:2024-03-11 23:36:29 公開日:2024-03-08
# 平均場制御問題に対する連続時間q-learning

Continuous-time q-learning for mean-field control problems ( http://arxiv.org/abs/2306.16208v3 )

ライセンス: Link先を確認
Xiaoli Wei, Xiang Yu(参考訳) 本稿では,最近Jia と Zhou (2023) による Q-learning の連続時間版として作られた q-learning を,エントロピー規則化強化学習の設定における Mckean-Vlasov 制御問題に対して検討する。 jia と zhou (2023) における単一エージェントの制御問題とは対照的に、エージェントの平均場相互作用は q-関数の定義をより微妙に表現し、2つの異なる q-函数が自然に生じることを示す。 i) テストポリシを含む弱いマルティンゲール条件で学習可能な、Gu, Guo, Wei and Xu (2023) で導入された統合 Q-函数の1次近似としての統合 q-函数($q$ で記述) (ii)政策改善イテレーションで使用される本質的なq-関数($q_e$で示される)。 2つのq関数は、すべてのテストポリシーの下で積分表現を介して関連していることを示す。 弱いマーチンゲール条件とテストポリシーの探索法に基づいて,いくつかのモデルフリー学習アルゴリズムを考案した。 LQ制御フレームワークとLQ制御フレームワーク以外の2つの例では、最適値関数とq-関数の正確なパラメータ化を求め、シミュレーション実験でアルゴリズムを説明できる。

This paper studies the q-learning, recently coined as the continuous time counterpart of Q-learning by Jia and Zhou (2023), for continuous time Mckean-Vlasov control problems in the setting of entropy-regularized reinforcement learning. In contrast to the single agent's control problem in Jia and Zhou (2023), the mean-field interaction of agents renders the definition of the q-function more subtle, for which we reveal that two distinct q-functions naturally arise: (i) the integrated q-function (denoted by $q$) as the first-order approximation of the integrated Q-function introduced in Gu, Guo, Wei and Xu (2023), which can be learnt by a weak martingale condition involving test policies; and (ii) the essential q-function (denoted by $q_e$) that is employed in the policy improvement iterations. We show that two q-functions are related via an integral representation under all test policies. Based on the weak martingale condition and our proposed searching method of test policies, some model-free learning algorithms are devised. In two examples, one in LQ control framework and one beyond LQ control framework, we can obtain the exact parameterization of the optimal value function and q-functions and illustrate our algorithms with simulation experiments.
翻訳日:2024-03-11 23:36:10 公開日:2024-03-08
# 最大エントロピー不均質エージェント強化学習

Maximum Entropy Heterogeneous-Agent Reinforcement Learning ( http://arxiv.org/abs/2306.10715v4 )

ライセンス: Link先を確認
Jiarong Liu, Yifan Zhong, Siyi Hu, Haobo Fu, Qiang Fu, Xiaojun Chang, Yaodong Yang(参考訳) 近年,多エージェント強化学習(MARL)が協調ゲームに有効であることが示されている。 しかしながら、既存の最先端の手法は、サンプルの複雑さ、トレーニングの不安定性、および準最適ナッシュ平衡への収束のリスクに関する課題に直面している。 本稿では,これらの問題を解決するために,emph{stochastic}ポリシーを学習するための統一フレームワークを提案する。 我々は,MARLの最大エントロピー(MaxEnt)目標を導出する確率的グラフィカルモデルに協調的なMARL問題を埋め込む。 我々は,maxentフレームワークに基づき,ヘテロジニアスエージェントソフトアクタ-クリティック (hasac) アルゴリズムを提案する。 理論的には、HASACの量子応答平衡(QRE)特性に対する単調な改善と収束を証明する。 さらに,最大エントロピー不均質ミラーラーニング (MEHAML) というアルゴリズム設計のための統一テンプレートを一般化し,HASACと同等の保証を提供する。 我々は, Bi-DexHands, Multi-Agent MuJoCo, StarCraft Multi-Agent Challenge, Google Research Football, Multi-Agent Particle Environment, Light Aircraft Gameの6つのベンチマークでHASACを評価した。 結果,hasacは強いベースラインを一貫して上回っており,サンプル効率,堅牢性,十分な探索性を示している。

Multi-agent reinforcement learning (MARL) has been shown effective for cooperative games in recent years. However, existing state-of-the-art methods face challenges related to sample complexity, training instability, and the risk of converging to a suboptimal Nash Equilibrium. In this paper, we propose a unified framework for learning \emph{stochastic} policies to resolve these issues. We embed cooperative MARL problems into probabilistic graphical models, from which we derive the maximum entropy (MaxEnt) objective for MARL. Based on the MaxEnt framework, we propose Heterogeneous-Agent Soft Actor-Critic (HASAC) algorithm. Theoretically, we prove the monotonic improvement and convergence to quantal response equilibrium (QRE) properties of HASAC. Furthermore, we generalize a unified template for MaxEnt algorithmic design named Maximum Entropy Heterogeneous-Agent Mirror Learning (MEHAML), which provides any induced method with the same guarantees as HASAC. We evaluate HASAC on six benchmarks: Bi-DexHands, Multi-Agent MuJoCo, StarCraft Multi-Agent Challenge, Google Research Football, Multi-Agent Particle Environment, and Light Aircraft Game. Results show that HASAC consistently outperforms strong baselines, exhibiting better sample efficiency, robustness, and sufficient exploration.
翻訳日:2024-03-11 23:35:33 公開日:2024-03-08
# ContriMix: デジタル病理学におけるドメインラベルなしのドメイン一般化のためのスケーラブルな染色色増強

ContriMix: Scalable stain color augmentation for domain generalization without domain labels in digital pathology ( http://arxiv.org/abs/2306.04527v4 )

ライセンス: Link先を確認
Tan H. Nguyen, Dinkar Juyal, Jin Li, Aaditya Prakash, Shima Nofallah, Chintan Shah, Sai Chowdary Gullapally, Limin Yu, Michael Griffin, Anand Sampat, John Abel, Justin Lee, Amaro Taylor-Weiner(参考訳) 染色法とイメージング法の違いは、病理組織像に有意な色変化をもたらし、異なるデータソースからトレーニングされたディープラーニングモデルをデプロイする際の一般化を損なう。 モデルをより堅牢にするために、トレーニング中に合成画像を生成するために様々な色増色法が提案されている。 多くのカラー増色法はドメインラベルを利用して合成画像を生成する。 このアプローチは、そのようなモデルのスケーリングに3つの大きな課題を引き起こす。 まず、新しいドメインからのデータを既存のドメインラベルでトレーニングされたディープラーニングモデルに組み込むことは簡単ではない。 第二に、ドメインラベルへの依存は、モデルパフォーマンスを改善するためにドメインラベルなしで病理画像を使用するのを防ぐ。 最後に、複数のドメインラベル(患者識別、医療センターなど)が単一の画像に関連付けられると、これらの方法の実装が複雑になる。 本稿では,DRIT++に基づく新しいドメインラベルフリーの染色色拡張手法であるContriMixを紹介する。 Contrimixはトレーニング用ミニバッチとランダムミキシングのサンプル染色色変化を利用して、病理画像からコンテンツや属性情報を抽出する。 この情報は、トレーニングされたContriMixモデルによって、既存の分類器のパフォーマンスを改善するために合成画像を作成するために使用できる。 ContriMixはCamelyon17-WILDSデータセットの競合メソッドよりも優れています。 その性能はテストセットの異なるスライドにまたがって一貫しており、病理画像における希少物質の色変化に頑健である。 コードとトレーニングされたcontrimixモデルを研究用に提供しています。 contrimixのコードはhttps://gitlab.com/huutan86/contrimixにある。

Differences in staining and imaging procedures can cause significant color variations in histopathology images, leading to poor generalization when deploying deep-learning models trained from a different data source. Various color augmentation methods have been proposed to generate synthetic images during training to make models more robust, eliminating the need for stain normalization during test time. Many color augmentation methods leverage domain labels to generate synthetic images. This approach causes three significant challenges to scaling such a model. Firstly, incorporating data from a new domain into deep-learning models trained on existing domain labels is not straightforward. Secondly, dependency on domain labels prevents the use of pathology images without domain labels to improve model performance. Finally, implementation of these methods becomes complicated when multiple domain labels (e.g., patient identification, medical center, etc) are associated with a single image. We introduce ContriMix, a novel domain label free stain color augmentation method based on DRIT++, a style-transfer method. Contrimix leverages sample stain color variation within a training minibatch and random mixing to extract content and attribute information from pathology images. This information can be used by a trained ContriMix model to create synthetic images to improve the performance of existing classifiers. ContriMix outperforms competing methods on the Camelyon17-WILDS dataset. Its performance is consistent across different slides in the test set while being robust to the color variation from rare substances in pathology images. We make our code and trained ContriMix models available for research use. The code for ContriMix can be found at https://gitlab.com/huutan86/contrimix
翻訳日:2024-03-11 23:35:12 公開日:2024-03-08
# クリップ付き強調クリップ:限定的プロンプトチューニングのための擬似ラベル探索

Enhancing CLIP with CLIP: Exploring Pseudolabeling for Limited-Label Prompt Tuning ( http://arxiv.org/abs/2306.01669v2 )

ライセンス: Link先を確認
Cristina Menghini, Andrew Delworth, Stephen H. Bach(参考訳) CLIPのような微調整の視覚言語モデル(VLM)は、パフォーマンスを最適化するためにしばしば必要である。 しかし、大きな障害はラベル付きデータの可用性の制限である。 擬似ラベル,すなわちラベルのないデータに対するヒューリスティックラベルを用いて,即興チューニングによるクリップの強調を行った。 従来の擬似ラベル付けはラベル付きデータにモデルをトレーニングし、ラベルなしデータのラベルを生成する。 VLMのゼロショット機能は、ラベル付きデータに対するタスク固有のトレーニングを必要としない擬似ラベル付けアプローチの"第2世代"を可能にする。 ゼロショット擬似ラベルを監督の源として使用することにより,半教師付き,トランスダクティブなゼロショット,非教師付き学習といった学習パラダイムを,すべて同じ損失関数の最適化と見なすことができる。 この統一された見解は、学習パラダイム全体に適用可能な多彩なトレーニング戦略の開発を可能にする。 我々は,CLIPが制限を示す画像分類タスクについて,テキストや視覚的プロンプト,学習パラダイムなど,迅速なモダリティの変化によって検討する。 その結果,(1) 擬似ラベルを反復的に洗練してCLIP精度を向上する未探索のプロンプトチューニング戦略,(2) 半教師付き学習では19.5ポイント, トランスダクティブゼロショット学習では28.4ポイント, 教師なし学習では15.2ポイント, そして(2) 高品質な擬似ラベルを持つクラスに対するモデルバイアスを悪化させる従来の半教師付き擬似ラベルとは異なり, 即時チューニングはより公平なクラス毎の精度分布をもたらすことがわかった。 実験を再現するコードはhttps://github.com/BatsResearch/menghini-neurips23-codeにある。

Fine-tuning vision-language models (VLMs) like CLIP to downstream tasks is often necessary to optimize their performance. However, a major obstacle is the limited availability of labeled data. We study the use of pseudolabels, i.e., heuristic labels for unlabeled data, to enhance CLIP via prompt tuning. Conventional pseudolabeling trains a model on labeled data and then generates labels for unlabeled data. VLMs' zero-shot capabilities enable a "second generation" of pseudolabeling approaches that do not require task-specific training on labeled data. By using zero-shot pseudolabels as a source of supervision, we observe that learning paradigms such as semi-supervised, transductive zero-shot, and unsupervised learning can all be seen as optimizing the same loss function. This unified view enables the development of versatile training strategies that are applicable across learning paradigms. We investigate them on image classification tasks where CLIP exhibits limitations, by varying prompt modalities, e.g., textual or visual prompts, and learning paradigms. We find that (1) unexplored prompt tuning strategies that iteratively refine pseudolabels consistently improve CLIP accuracy, by 19.5 points in semi-supervised learning, by 28.4 points in transductive zero-shot learning, and by 15.2 points in unsupervised learning, and (2) unlike conventional semi-supervised pseudolabeling, which exacerbates model biases toward classes with higher-quality pseudolabels, prompt tuning leads to a more equitable distribution of per-class accuracy. The code to reproduce the experiments is at https://github.com/BatsResearch/menghini-neurips23-code.
翻訳日:2024-03-11 23:34:47 公開日:2024-03-08
# 統一評価と分析による確率に基づくプロンプト選択の改善

Improving Probability-based Prompt Selection Through Unified Evaluation and Analysis ( http://arxiv.org/abs/2305.14877v2 )

ライセンス: Link先を確認
Sohee Yang, Jonghyeon Kim, Joel Jang, Seonghyeon Ye, Hyunji Lee, Minjoon Seo(参考訳) 大規模言語モデルのプロンプト工学における従来の研究は、与えられたタスクの候補の中から最適なプロンプトを選択することを目的とした異なる勾配のない確率ベースのプロンプト選択手法を導入してきたが、相互に包括的で公正な比較を提供しられなかった。 本稿では,13個の共通タスクと多種多様なnlpタスクを対象とした広範囲な実験を行い,既存の確率に基づくプロンプト選択法を解釈・評価するための統一フレームワークを提案する。 その結果,既存の手法は入力と予測出力(MI)の相互情報を最大化する手法の変種と解釈できることがわかった。 本研究は,MIの他の組合せ変種を開発し,選択したプロンプトと最適なオラクルプロンプトの比率として,87.79%から94.98%のオラクルプロンプト選択法の有効性を高めた。 さらに,全ての手法がバイアスを受ける可能性のあるモデルの出力確率分布に依存していることを考慮し,既存の手法と直交するキャリブレーションによるキャリブレーション法(CBM)を提案し,最適手法の迅速な選択効率を96.85%向上させ,キャリブレーションを伴わないオラクルプロンプトF1の99.44%を達成した。

Previous works in prompt engineering for large language models have introduced different gradient-free probability-based prompt selection methods that aim to choose the optimal prompt among the candidates for a given task but have failed to provide a comprehensive and fair comparison between each other. In this paper, we propose a unified framework to interpret and evaluate the existing probability-based prompt selection methods by performing extensive experiments on 13 common and diverse NLP tasks. We find that each of the existing methods can be interpreted as some variant of the method that maximizes mutual information between the input and the predicted output (MI). Utilizing this finding, we develop several other combinatorial variants of MI and increase the effectiveness of the oracle prompt selection method from 87.79% to 94.98%, measured as the ratio of the performance of the selected prompt to that of the optimal oracle prompt. Furthermore, considering that all the methods rely on the output probability distribution of the model that might be biased, we propose a novel calibration method called Calibration by Marginalization (CBM) that is orthogonal to the existing methods and helps increase the prompt selection effectiveness of the best method to 96.85%, achieving 99.44% of the oracle prompt F1 without calibration.
翻訳日:2024-03-11 23:34:11 公開日:2024-03-08
# 動的空間プラニングによる3次元小型物体検出

3D Small Object Detection with Dynamic Spatial Pruning ( http://arxiv.org/abs/2305.03716v3 )

ライセンス: Link先を確認
Xiuwei Xu, Zhihao Sun, Ziwei Wang, Hongmin Liu, Jie Zhou, Jiwen Lu(参考訳) 本稿では,3次元小型物体検出のための効率的な特徴プルーニング戦略を提案する。 従来の3次元物体検出手法は、小さな点からの弱い幾何学的情報のために、小さな物体に苦しむ。 特徴表現の空間分解能の向上は、小さなオブジェクトの検出性能を向上させることができるが、追加の計算オーバーヘッドは耐えられない。 本研究は,3次元検出器デコーダのアップサンプリング動作に起因した計算量の増大を詳細に観察する。 DSPDet3Dは,空間分解能の高い多層3次元検出器であり,小型物体検出において高い精度を実現するとともに,小型物体領域のみに着目して冗長計算を低減している。 具体的には,オブジェクトの分布に応じて3次元シーンの冗長な空間表現をカスケード的に再現する動的空間プルーニング(DSP)戦略を理論的に導出する。 この戦略に従ってDSPモジュールを設計し,DSPDet3Dを効率的なモジュールで構築する。 ScanNetとTO-SCENEのデータセットにおいて,本手法は小さなオブジェクト検出において先行的な性能を実現する。 さらに、ScanNetルームのみで訓練されたDSPDet3Dは、大規模にシーンを一般化することができる。 1台のRTX 3090 GPUでカップからベッドまで、ほぼすべての物体を検知しながら、4500k以上のポイントからなる建物全体を直接処理するには、2秒もかからない。 プロジェクトページ: https://xuxw98.github.io/DSPDet3D/。

In this paper, we propose an efficient feature pruning strategy for 3D small object detection. Conventional 3D object detection methods struggle on small objects due to the weak geometric information from a small number of points. Although increasing the spatial resolution of feature representations can improve the detection performance on small objects, the additional computational overhead is unaffordable. With in-depth study, we observe the growth of computation mainly comes from the upsampling operation in the decoder of 3D detector. Motivated by this, we present a multi-level 3D detector named DSPDet3D which benefits from high spatial resolution to achieves high accuracy on small object detection, while reducing redundant computation by only focusing on small object areas. Specifically, we theoretically derive a dynamic spatial pruning (DSP) strategy to prune the redundant spatial representation of 3D scene in a cascade manner according to the distribution of objects. Then we design DSP module following this strategy and construct DSPDet3D with this efficient module. On ScanNet and TO-SCENE dataset, our method achieves leading performance on small object detection. Moreover, DSPDet3D trained with only ScanNet rooms can generalize well to scenes in larger scale. It takes less than 2s to directly process a whole building consisting of more than 4500k points while detecting out almost all objects, ranging from cups to beds, on a single RTX 3090 GPU. Project page: https://xuxw98.github.io/DSPDet3D/.
翻訳日:2024-03-11 23:33:45 公開日:2024-03-08
# HAISTA-NET: 注意によるヒューマンアシストインスタンスセグメンテーション

HAISTA-NET: Human Assisted Instance Segmentation Through Attention ( http://arxiv.org/abs/2305.03105v3 )

ライセンス: Link先を確認
Muhammed Korkmaz, T. Metin Sezgin(参考訳) インスタンスセグメンテーション(英: instance segmentation)は、オブジェクトの精細化、医用画像分析、画像/ビデオ編集などの応用範囲を持つ画像検出の一形態であり、いずれも高い精度を必要とする。 しかし、この精度は、最先端の完全に自動化されたインスタンスセグメンテーションアルゴリズムが提供できる範囲を超えていることが多い。 パフォーマンスギャップは、特に小さくて複雑なオブジェクトでは禁止される。 通常、実践者は完全な手動のアノテーションを使うが、これは面倒な作業である。 そこで本研究では,高曲率,複雑,小型のオブジェクトに対して,より正確な予測を可能にし,高品質なセグメンテーションマスクを生成する新しい手法を提案する。 我々の人間支援セグメンテーションモデルHAISTA-NETは、既存のStrong Mask R-CNNネットワークを拡張し、人間の特定部分境界を組み込む。 また,手書き部分的オブジェクト境界のデータセットも提示し,これを人間の注意マップと呼ぶ。 さらに、部分スケッチオブジェクト境界(PSOB)データセットには、いくつかのピクセルを持つオブジェクトの接地真理マスクの曲率を表す手書き部分オブジェクト境界が含まれている。 PSOBデータセットを用いた広範な評価により、HAISTA-NETはMask R-CNN、Strong Mask R-CNN、Mask2Formerといった最先端の手法より優れており、これらの3つのモデルのAP-Maskメトリクスにおいて、+36.7、+29.6、+26.5ポイントの増加が達成されている。 完全に自動化されたインスタンスセグメンテーションアーキテクチャとインタラクティブなインスタンスセグメンテーションアーキテクチャを組み合わせることで、将来の人間支援深層学習モデルのベースラインとなることを願っています。

Instance segmentation is a form of image detection which has a range of applications, such as object refinement, medical image analysis, and image/video editing, all of which demand a high degree of accuracy. However, this precision is often beyond the reach of what even state-of-the-art, fully automated instance segmentation algorithms can deliver. The performance gap becomes particularly prohibitive for small and complex objects. Practitioners typically resort to fully manual annotation, which can be a laborious process. In order to overcome this problem, we propose a novel approach to enable more precise predictions and generate higher-quality segmentation masks for high-curvature, complex and small-scale objects. Our human-assisted segmentation model, HAISTA-NET, augments the existing Strong Mask R-CNN network to incorporate human-specified partial boundaries. We also present a dataset of hand-drawn partial object boundaries, which we refer to as human attention maps. In addition, the Partial Sketch Object Boundaries (PSOB) dataset contains hand-drawn partial object boundaries which represent curvatures of an object's ground truth mask with several pixels. Through extensive evaluation using the PSOB dataset, we show that HAISTA-NET outperforms state-of-the art methods such as Mask R-CNN, Strong Mask R-CNN, and Mask2Former, achieving respective increases of +36.7, +29.6, and +26.5 points in AP-Mask metrics for these three models. We hope that our novel approach will set a baseline for future human-aided deep learning models by combining fully automated and interactive instance segmentation architectures.
翻訳日:2024-03-11 23:33:24 公開日:2024-03-08
# 2倍高速言語モデル事前学習のためのマスキング構造成長

Masked Structural Growth for 2x Faster Language Model Pre-training ( http://arxiv.org/abs/2305.02869v2 )

ライセンス: Link先を確認
Yiqun Yao, Zheng Zhang, Jing Li, and Yequan Wang(参考訳) 大規模言語モデルの事前学習の促進は、現在の研究において重要な課題である。 本稿では,小さなトランスフォーマー構造から大規模構造へと徐々に成長し,事前学習の高速化に着目する。 プログレッシブ成長に関連する主な研究課題は、最適な成長スケジュールの決定と効率的な成長演算子の設計である。 成長スケジュールの観点では、各次元がスケジュールの効率に与える影響は、既存の作業によって過小評価される。 成長演算子に関しては、既存の手法では知識を継承するために新しい重み付けを初期化し、非制限的機能保存のみを達成し、トレーニングダイナミクスのさらなる改善を制限している。 これらの課題に対処するため、我々はマスケッド構造成長(MSG)を提案する。 (i)すべての可能な次元を含む成長スケジュール及び (ii)新規ウェイトの初期化に依存しない厳密な機能保存型成長演算子。 実験により、MSGは関連する作業よりも大幅に高速であることが示され、異なるタイプの言語モデルの事前学習において最大2.2倍のスピードアップを達成すると同時に、同等またはより優れたダウンストリーム性能を維持している。 コードはhttps://github.com/cofe-ai/MSG.comで公開されている。

Accelerating large language model pre-training is a critical issue in present research. In this paper, we focus on speeding up pre-training by progressively growing from a small Transformer structure to a large one. There are two main research problems associated with progressive growth: determining the optimal growth schedule, and designing efficient growth operators. In terms of growth schedule, the impact of each single dimension on a schedule's efficiency is under-explored by existing work. Regarding the growth operators, existing methods rely on the initialization of new weights to inherit knowledge, and achieve only non-strict function preservation, limiting further improvements on training dynamics. To address these issues, we propose Masked Structural Growth (MSG), including (i) growth schedules involving all possible dimensions and (ii) strictly function-preserving growth operators that is independent of the initialization of new weights. Experiments show that MSG is significantly faster than related work: we achieve up to 2.2x speedup in pre-training different types of language models while maintaining comparable or better downstream performances. Code is publicly available at https://github.com/cofe-ai/MSG.
翻訳日:2024-03-11 23:32:51 公開日:2024-03-08
# 相対論的ウィグナーの友人シナリオを理解する:量子測定のユニタリ勘定問題?

Making sense of relativistic Wigner friend scenarios: a problem for unitary accounts of quantum measurements ? ( http://arxiv.org/abs/2310.04167v2 )

ライセンス: Link先を確認
J. Allam and A. Matzkin(参考訳) 測定を行う友人を含むクローズドラボを外部エージェントが記述するwigner-friendのシナリオは、測定を計算する際に量子論に固有の困難を浮き彫りにしている。 非相対論的シナリオでは、友人が明確な結果を得た閉じたシステムのユニタリ進化を許容することが困難である。 相対論的シナリオでは、量子論と相対性理論の間の緊張が追加の制約を引き起こす。 相対論的シナリオの一般的な特性は、状態更新のフレーム依存性である。 明確な例に基づいて、この性質が異なる参照フレームで得られた結果の矛盾した説明につながることを示す。 さらに、これらの結果は、単純な波動関数に基づくユニタリ演算として複素エージェントによって取られるアクションをモデル化しようとする場合の基本的な不備を指摘する。

Wigner-friend scenarios -- in which external agents describe a closed laboratory containing a friend making a measurement -- highlight the difficulties inherent to quantum theory when accounting for measurements. In non-relativistic scenarios, the difficulty is to accommodate unitary evolution for a closed system with a definite outcome obtained by the friend. In relativistic scenarios the tensions between quantum theory and relativity induce additional constraints. A generic property of relativistic scenarios is the frame-dependence of state update upon a measurement. Based on a definite example, we will show that this property leads to inconsistent accounts for outcomes obtained in different reference frames. We will further argue that these results point to some fundamental inadequacy when attempting to model actions taken by a complex agent as unitary operations made on simple wavefunctions.
翻訳日:2024-03-11 23:28:02 公開日:2024-03-08
# すべてのデータセット数:ジョイントデータセットトレーニングによる単眼3Dオブジェクト検出のスケールアップ

Every Dataset Counts: Scaling up Monocular 3D Object Detection with Joint Datasets Training ( http://arxiv.org/abs/2310.00920v2 )

ライセンス: Link先を確認
Fulong Ma, Xiaoyang Yan, Guoyang Zhao, Xiaojie Xu, Yuxuan Liu and Ming Liu(参考訳) モノクロ3D物体検出は、自律運転において重要な役割を果たす。 しかし、既存のモノクル3D検出アルゴリズムは、LiDAR測定から派生した3Dラベルに依存している。 具体的には,多種多様な3次元および2次元データセットを用いたモノクロ3次元物体検出モデルの学習パイプラインについて検討した。 提案フレームワークは,(1)様々なカメラ設定にまたがって機能するロバストなモノクル3Dモデル,(2)異なるクラスアノテーションでデータセットを適応するための選択学習戦略,(3)2Dラベルを用いた擬似3Dトレーニング手法により,2Dラベルのみを含むシーンにおける検出性能を向上させる。 このフレームワークにより、様々なオープンな3D/2Dデータセットのジョイントセット上でモデルをトレーニングし、より強力な一般化能力を持つモデルと、2Dラベルのみを持つ新しいデータセットの性能を向上させることができる。 KITTI/nuScenes/ONCE/Cityscapes/BDD100Kデータセットに関する広範な実験を行い、提案手法のスケーリング能力を実証した。

Monocular 3D object detection plays a crucial role in autonomous driving. However, existing monocular 3D detection algorithms depend on 3D labels derived from LiDAR measurements, which are costly to acquire for new datasets and challenging to deploy in novel environments. Specifically, this study investigates the pipeline for training a monocular 3D object detection model on a diverse collection of 3D and 2D datasets. The proposed framework comprises three components: (1) a robust monocular 3D model capable of functioning across various camera settings, (2) a selective-training strategy to accommodate datasets with differing class annotations, and (3) a pseudo 3D training approach using 2D labels to enhance detection performance in scenes containing only 2D labels. With this framework, we could train models on a joint set of various open 3D/2D datasets to obtain models with significantly stronger generalization capability and enhanced performance on new dataset with only 2D labels. We conduct extensive experiments on KITTI/nuScenes/ONCE/Cityscapes/BDD100K datasets to demonstrate the scaling ability of the proposed method.
翻訳日:2024-03-11 23:27:48 公開日:2024-03-08
# 目に見える、まだ心に残る:ビデオ追跡可能な記憶モデルによる未観測物体の推論と計画

Out of Sight, Still in Mind: Reasoning and Planning about Unobserved Objects with Video Tracking Enabled Memory Models ( http://arxiv.org/abs/2309.15278v2 )

ライセンス: Link先を確認
Yixuan Huang, Jialin Yuan, Chanho Kim, Pupul Pradhan, Bryan Chen, Li Fuxin, Tucker Hermans(参考訳) ロボットは以前に観測された記憶を持つ必要があるが、現実的な環境で確実に動作するには、現在物体を隠蔽する必要がある。 オブジェクト指向メモリを多目的操作推論・計画フレームワークに符号化する問題について検討する。 本研究では,変換器のリレーショナルダイナミクスを利用して,部分視点雲と物体発見・追跡エンジンのトラジェクトリ履歴を符号化するDOOMとLOOMを提案する。 我々のアプローチは、隠されたオブジェクトによる推論、新しいオブジェクトの外観、オブジェクトの再出現など、複数の困難なタスクを実行することができる。 大規模なシミュレーションと実世界の実験を通して、我々のアプローチは、異なる物体の数と異なる乱れの回数でうまく機能することがわかった。 さらに,提案手法は暗黙のメモリベースラインよりも優れていることを示す。

Robots need to have a memory of previously observed, but currently occluded objects to work reliably in realistic environments. We investigate the problem of encoding object-oriented memory into a multi-object manipulation reasoning and planning framework. We propose DOOM and LOOM, which leverage transformer relational dynamics to encode the history of trajectories given partial-view point clouds and an object discovery and tracking engine. Our approaches can perform multiple challenging tasks including reasoning with occluded objects, novel objects appearance, and object reappearance. Throughout our extensive simulation and real-world experiments, we find that our approaches perform well in terms of different numbers of objects and different numbers of distractor actions. Furthermore, we show our approaches outperform an implicit memory baseline.
翻訳日:2024-03-11 23:27:27 公開日:2024-03-08
# 芸術か芸術か? 大規模言語モデルと創造性の誤った約束

Art or Artifice? Large Language Models and the False Promise of Creativity ( http://arxiv.org/abs/2309.14556v3 )

ライセンス: Link先を確認
Tuhin Chakrabarty, Philippe Laban, Divyansh Agarwal, Smaranda Muresan, Chien-Sheng Wu(参考訳) 研究者は、大きな言語モデル(LLM)はブログからストーリーまで高品質な書き込み能力を示すと主張している。 しかし、書物の創造性を客観的に評価することは困難である。 創造性をプロセスとして測定するTTCT(Torrance Test of Creative Thinking)に触発され,Consensual Assessment Technique[3]を使用し,創造性を製品として評価するTorrance Test of Creative Writing(TTCW)を提案する。 TTCWは14のバイナリテストで構成されており、Fluency、Flexibility、Originality、Elaborationの3次元に分かれている。 10人のクリエイティビティライターを募集し、プロの作家やTLCWを用いたLLMによって書かれた48のストーリーの人間評価を実装した。 分析の結果,LPM生成したストーリーはプロのストーリーよりもTTCWが3~10倍少ないことがわかった。 さらに,TLCW評価を自動化するための評価器としてのLCMの利用について検討し,いずれも専門家評価と有意な相関関係がないことを明らかにした。

Researchers have argued that large language models (LLMs) exhibit high-quality writing capabilities from blogs to stories. However, evaluating objectively the creativity of a piece of writing is challenging. Inspired by the Torrance Test of Creative Thinking (TTCT), which measures creativity as a process, we use the Consensual Assessment Technique [3] and propose the Torrance Test of Creative Writing (TTCW) to evaluate creativity as a product. TTCW consists of 14 binary tests organized into the original dimensions of Fluency, Flexibility, Originality, and Elaboration. We recruit 10 creative writers and implement a human assessment of 48 stories written either by professional authors or LLMs using TTCW. Our analysis shows that LLM-generated stories pass 3-10X less TTCW tests than stories written by professionals. In addition, we explore the use of LLMs as assessors to automate the TTCW evaluation, revealing that none of the LLMs positively correlate with the expert assessments.
翻訳日:2024-03-11 23:27:14 公開日:2024-03-08
# LongLoRA: 長期言語モデルの効率的な微調整

LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models ( http://arxiv.org/abs/2309.12307v3 )

ライセンス: Link先を確認
Yukang Chen, Shengju Qian, Haotian Tang, Xin Lai, Zhijian Liu, Song Han, Jiaya Jia(参考訳) 我々は,事前学習された大規模言語モデル(llm)のコンテキストサイズを計算コストの制限付きで拡張する,効率的な微調整手法であるlongloraを提案する。 一般的に、長いコンテキストサイズでのllmのトレーニングは計算コストが高く、トレーニング時間とgpuリソースが必要となる。 例えば、8192のコンテキスト長のトレーニングには、2048年の16倍の計算コストが必要である。 本稿では,LLMの文脈拡張を2つの側面で高速化する。 一方,推定には大域的注意が必要であるが,局所的な注意を疎かにすることで,モデルの微調整を効果的かつ効率的に行うことができる。 提案手法は,コンテキスト拡張を効果的に実現し,バニラ注意による微調整と同様の性能を持つ非自明な計算セーブを実現する。 特に、トレーニングでは2行のコードでしか実装できないが、推論ではオプションである。 一方,文脈拡張のためのパラメータ効率の良い微調整方式について検討する。 特に、コンテキスト拡張用のLoRAは、トレーニング可能な埋め込みと正規化の前提下でうまく機能する。 LongLoRAはこの改良されたLoRAとS^2-Attnを組み合わせる。 LongLoRAは、7B/13Bから70BまでのLlama2モデルの様々なタスクに対して強い実験結果を示す。 LongLoRAはLlama2 7Bを4kコンテキストから100k、またはLlama2 70Bから32kに拡張する。 LongLoRAはオリジナルのアーキテクチャを維持しながらモデルのコンテキストを拡張し、Flash-Attention2のような既存の技術と互換性がある。 さらに,LongLoRAとLongAlpacaデータセットを用いて教師付き微調整を行う。

We present LongLoRA, an efficient fine-tuning approach that extends the context sizes of pre-trained large language models (LLMs), with limited computation cost. Typically, training LLMs with long context sizes is computationally expensive, requiring extensive training hours and GPU resources. For example, training on the context length of 8192 needs 16x computational costs in self-attention layers as that of 2048. In this paper, we speed up the context extension of LLMs in two aspects. On the one hand, although dense global attention is needed during inference, fine-tuning the model can be effectively and efficiently done by sparse local attention. The proposed shifted sparse attention effectively enables context extension, leading to non-trivial computation saving with similar performance to fine-tuning with vanilla attention. Particularly, it can be implemented with only two lines of code in training, while being optional in inference. On the other hand, we revisit the parameter-efficient fine-tuning regime for context expansion. Notably, we find that LoRA for context extension works well under the premise of trainable embedding and normalization. LongLoRA combines this improved LoRA with S^2-Attn. LongLoRA demonstrates strong empirical results on various tasks on Llama2 models from 7B/13B to 70B. LongLoRA extends Llama2 7B from 4k context to 100k, or Llama2 70B to 32k on a single 8x A100 machine. LongLoRA extends models' context while retaining their original architectures, and is compatible with most existing techniques, like Flash-Attention2. In addition, we further conduct supervised fine-tuning with LongLoRA and our long instruction-following LongAlpaca dataset.
翻訳日:2024-03-11 23:26:55 公開日:2024-03-08
# マルチエンコーダオートエンコーダによる単一チャネル混合系のブラインド音源分離

Blind Source Separation of Single-Channel Mixtures via Multi-Encoder Autoencoders ( http://arxiv.org/abs/2309.07138v3 )

ライセンス: Link先を確認
Matthew B. Webster and Joonnyong Lee(参考訳) ブラインドソース分離(BSS)の課題は、ソースや混合システムの事前の知識なしに、ソースを混合から分離することである。 単チャネル混合と非線形混合はBSSにおいて特に難しい問題である。 本稿では,マルチエンコーダオートエンコーダの自然特徴部分空間特殊化機能を活用し,bssを単一チャネルの非線形混合で扱う新しい手法を提案する。 トレーニングフェーズでは、マルチエンコーダネットワークの別々の符号化空間に入力をアンミックスし、デコーダ内でこれらの表現をリミックスして入力を再構成する。 そこで,提案手法では,1つの符号化のみをマスキングすることで,デコーダが音源信号を推定できる新しい符号化方式を提案する。 この目的のために、デコーダ全体のソースエンコーディングのスパースリミックスを促進するスパースミキシング損失と、コヒーレントソース推定のためのデコーダにいわゆるゼロ再構成損失を導入する。 本手法を解析・評価するために, 機能サブスペース特殊化の特性を実証する玩具データセットと, 心電図, フォトプレチモグラフィ信号からの呼吸を抽出するためのポリソムノグラフィー睡眠研究による実世界の生体信号記録を用いて実験を行った。

The task of blind source separation (BSS) involves separating sources from a mixture without prior knowledge of the sources or the mixing system. Single-channel mixtures and non-linear mixtures are a particularly challenging problem in BSS. In this paper, we propose a novel method for addressing BSS with single-channel non-linear mixtures by leveraging the natural feature subspace specialization ability of multi-encoder autoencoders. During the training phase, our method unmixes the input into the separate encoding spaces of the multi-encoder network and then remixes these representations within the decoder for a reconstruction of the input. Then to perform source inference, we introduce a novel encoding masking technique whereby masking out all but one of the encodings enables the decoder to estimate a source signal. To this end, we also introduce a sparse mixing loss that encourages sparse remixing of source encodings throughout the decoder and a so-called zero reconstruction loss on the decoder for coherent source estimations. To analyze and evaluate our method, we conduct experiments on a toy dataset, designed to demonstrate this property of feature subspace specialization, and with real-world biosignal recordings from a polysomnography sleep study for extracting respiration from electrocardiogram and photoplethysmography signals.
翻訳日:2024-03-11 23:26:29 公開日:2024-03-08
# スケーラブルニューラルネットワークによる粒子流イベント再構成の現状と将来

Improved particle-flow event reconstruction with scalable neural networks for current and future particle detectors ( http://arxiv.org/abs/2309.06782v5 )

ライセンス: Link先を確認
Joosep Pata, Eric Wulff, Farouk Mokhtar, David Southwick, Mengke Zhang, Maria Girone, Javier Duarte(参考訳) 高感度大型ハドロン衝突型加速器とFuture Circular Colliderで期待される高粒度検出器の粒子を、効率的かつ正確なアルゴリズムで再構成する必要がある。 フル検出器シミュレーションに基づいて,電子-ポジトロン衝突におけるイベントリコンストラクションのためのスケーラブルな機械学習モデルについて検討した。 粒子フロー再構成はトラックとカロリメータクラスタを用いて教師あり学習タスクとして定式化することができる。 グラフニューラルネットワークとカーネルベースのトランスフォーマーを比較し,現実的再構成を実現しながら二次演算を回避できることを実証する。 ハイパーパラメータチューニングはモデルの性能を大幅に改善することを示す。 最良のグラフニューラルネットワークモデルは、ルールベースのアルゴリズムと比較して、ジェット横運動量分解能を最大50%向上させる。 このモデルはnvidia、amd、habanaのハードウェアで使える。 正確で高速な機械学習に基づく再構築は、衝突型加速器の将来の測定を大幅に改善することができる。

Efficient and accurate algorithms are necessary to reconstruct particles in the highly granular detectors anticipated at the High-Luminosity Large Hadron Collider and the Future Circular Collider. We study scalable machine learning models for event reconstruction in electron-positron collisions based on a full detector simulation. Particle-flow reconstruction can be formulated as a supervised learning task using tracks and calorimeter clusters. We compare a graph neural network and kernel-based transformer and demonstrate that we can avoid quadratic operations while achieving realistic reconstruction. We show that hyperparameter tuning significantly improves the performance of the models. The best graph neural network model shows improvement in the jet transverse momentum resolution by up to 50% compared to the rule-based algorithm. The resulting model is portable across Nvidia, AMD and Habana hardware. Accurate and fast machine-learning based reconstruction can significantly improve future measurements at colliders.
翻訳日:2024-03-11 23:26:04 公開日:2024-03-08
# より表現力のあるテンソルネットワークモデルのための量子フーリエと多項式特徴

Quantized Fourier and Polynomial Features for more Expressive Tensor Network Models ( http://arxiv.org/abs/2309.05436v2 )

ライセンス: Link先を確認
Frederiek Wesel, Kim Batselier(参考訳) カーネルマシンの文脈では、多項式とフーリエ特徴は、データを高次元空間にマッピングすることで線形モデルへの非線形拡張を提供するために一般的に使用される。 正確な大規模学習が不可能な学習問題の双対的定式化を考慮しなければ、テンソル積構造によるデータ次元におけるモデルパラメータの指数的増加は、高次元問題に対処することを禁じる。 この指数的スケーリングを回避するための可能なアプローチの1つは、モデル重みをアンダーパラメータ化テンソルネットワークに制限することで、機能に存在するテンソル構造を活用することである。 本稿では,さらにテンソル化,多項式,フーリエ特徴を定量化する。 この特徴量化に基づいて,関連するモデル重みを量子化し,量子化モデルを生成する。 同じ数のモデルパラメータに対して、結果として得られる量子化モデルは、同じ特徴から学習しながら計算コストを増すことなく、非量子化モデルに比べてvc次元により高い結合を持つことを示す。 この付加的なテンソル化が学習問題をいかに正規化するかを実験的に検証し,データ内の最も有意義な特徴を優先順位付けし,一般化能力を高めるモデルを提供するか検証した。 最後に,大規模回帰タスクに対する我々のアプローチをベンチマークし,ラップトップコンピュータで最新の結果を得た。

In the context of kernel machines, polynomial and Fourier features are commonly used to provide a nonlinear extension to linear models by mapping the data to a higher-dimensional space. Unless one considers the dual formulation of the learning problem, which renders exact large-scale learning unfeasible, the exponential increase of model parameters in the dimensionality of the data caused by their tensor-product structure prohibits to tackle high-dimensional problems. One of the possible approaches to circumvent this exponential scaling is to exploit the tensor structure present in the features by constraining the model weights to be an underparametrized tensor network. In this paper we quantize, i.e. further tensorize, polynomial and Fourier features. Based on this feature quantization we propose to quantize the associated model weights, yielding quantized models. We show that, for the same number of model parameters, the resulting quantized models have a higher bound on the VC-dimension as opposed to their non-quantized counterparts, at no additional computational cost while learning from identical features. We verify experimentally how this additional tensorization regularizes the learning problem by prioritizing the most salient features in the data and how it provides models with increased generalization capabilities. We finally benchmark our approach on large regression task, achieving state-of-the-art results on a laptop computer.
翻訳日:2024-03-11 23:25:52 公開日:2024-03-08
# ニューラルセマンティックサーフェスマップ

Neural Semantic Surface Maps ( http://arxiv.org/abs/2309.04836v3 )

ライセンス: Link先を確認
Luca Morreale and Noam Aigerman and Vladimir G. Kim and Niloy J. Mitra(参考訳) 本稿では,意味的に対応する領域と一致する2つの属ゼロ形状間のマップを自動計算する手法を提案する。 注釈付きデータの欠如は、3dセマンティクスの直接的推論を禁止している。代わりに、現在の最先端の手法は、主に幾何学的特性を最適化するか、あるいは様々な手動アノテーションを必要とする。 注釈付きトレーニングデータの欠如を克服するため,事前学習された視覚モデルからセマンティックマッチを抽出し,複数の視点から2組の3次元形状をレンダリングし,得られたレンダリング結果を,事前学習された視覚モデルを利用して特徴点を生成するオフザシェルフ画像マッチング手法に投入する。 これにより意味対応が得られ、3次元形状に投影され、異なる視点間で不正確で矛盾する生のマッチングが生成される。 これらの対応は、出力マップの単射性と連続性を促進する専用最適化スキームにより、表面マップに精製され、蒸留される。 提案手法は,手動のアノテーションや3Dトレーニングデータ要求を排除し,意味的表面-表面マップを生成する。 さらに、オブジェクトが非等尺的に関連しているような意味複雑性の高いシナリオや、それらがほぼ等尺的な状況において有効であることを示す。

We present an automated technique for computing a map between two genus-zero shapes, which matches semantically corresponding regions to one another. Lack of annotated data prohibits direct inference of 3D semantic priors; instead, current State-of-the-art methods predominantly optimize geometric properties or require varying amounts of manual annotation. To overcome the lack of annotated training data, we distill semantic matches from pre-trained vision models: our method renders the pair of 3D shapes from multiple viewpoints; the resulting renders are then fed into an off-the-shelf image-matching method which leverages a pretrained visual model to produce feature points. This yields semantic correspondences, which can be projected back to the 3D shapes, producing a raw matching that is inaccurate and inconsistent between different viewpoints. These correspondences are refined and distilled into an inter-surface map by a dedicated optimization scheme, which promotes bijectivity and continuity of the output map. We illustrate that our approach can generate semantic surface-to-surface maps, eliminating manual annotations or any 3D training data requirement. Furthermore, it proves effective in scenarios with high semantic complexity, where objects are non-isometrically related, as well as in situations where they are nearly isometric.
翻訳日:2024-03-11 23:25:29 公開日:2024-03-08
# 超伝導量子プロセッサにおける量子テレクロニング

Probing Quantum Telecloning on Superconducting Quantum Processors ( http://arxiv.org/abs/2308.15579v2 )

ライセンス: Link先を確認
Elijah Pelofske, Andreas B\"artschi, Stephan Eidenbenz, Bryan Garcia, Boris Kiefer(参考訳) 量子情報は完全クローン化することはできないが、量子情報の近似コピーを生成することができる。 量子テレクローニングは、一般的に量子クローンと呼ばれる近似量子クローンと量子テレポーテーションを組み合わせたものである。 量子テレクロニング(Quantum Telecloning)は、準備された量子テレクロニング状態上でベル測定を行った古典的な結果を用いて、異なるパーティによって量子情報の近似コピーを構築することができる。 量子テレクロニングは、古典的なコプロセッサを用いて量子コンピュータ上で回路として実装でき、中回路ベル測定結果に基づくif文を用いて、古典的なフィードフォワード命令をリアルタイムで計算することができる。 我々は、普遍的、対称的、最適な1ドルで、m$テレクローニング回路を提示し、これらの量子テレクローニング回路を、動的回路として知られるibm量子超伝導プロセッサ上で、リアルタイムの古典制御システムでネイティブに実行される、$m=2$から$m=10$で実験的に実証する。 我々は、任意にX-Xシーケンシャルデジタル動的デカップリングのエラー抑制技術を用いて、Bloch sphereの様々なメッセージ状態に対して、IBM Quantumプロセッサ7ドルでクローン処理を行う。 2つの回路最適化が利用されており、1つはancilla qubitsを$m=2,3$で削除し、もう1つは回路内のゲート数を減らすが、ancilla qubitsを使用する。 クローン量子ビットの混合状態密度行列を計算するために,MLE密度行列再構成を用いた並列単一量子ビットトモグラフィを用い,量子忠実度を用いてクローン品質を測定する。 これらの結果は、(単一量子ビット)量子テレクロニングに関する最大かつ最も包括的なNISQコンピュータ実験の1つである。 クローンの忠実度は、$M > 5$で0.5ドルに急減するが、$M=2$では、動的疎結合を用いて、平均クローン忠実度が0.79ドルに達する。

Quantum information can not be perfectly cloned, but approximate copies of quantum information can be generated. Quantum telecloning combines approximate quantum cloning, more typically referred as quantum cloning, and quantum teleportation. Quantum telecloning allows approximate copies of quantum information to be constructed by separate parties, using the classical results of a Bell measurement made on a prepared quantum telecloning state. Quantum telecloning can be implemented as a circuit on quantum computers using a classical co-processor to compute classical feed forward instructions using if statements based on the results of a mid-circuit Bell measurement in real time. We present universal, symmetric, optimal $1 \rightarrow M$ telecloning circuits, and experimentally demonstrate these quantum telecloning circuits for $M=2$ up to $M=10$, natively executed with real time classical control systems on IBM Quantum superconducting processors, known as dynamic circuits. We perform the cloning procedure on many different message states across the Bloch sphere, on $7$ IBM Quantum processors, optionally using the error suppression technique X-X sequence digital dynamical decoupling. Two circuit optimizations are utilized, one which removes ancilla qubits for $M=2, 3$, and one which reduces the total number of gates in the circuit but still uses ancilla qubits. Parallel single qubit tomography with MLE density matrix reconstruction is used in order to compute the mixed state density matrices of the clone qubits, and clone quality is measured using quantum fidelity. These results present one of the largest and most comprehensive NISQ computer experimental analyses on (single qubit) quantum telecloning to date. The clone fidelity sharply decreases to $0.5$ for $M > 5$, but for $M=2$ we are able to achieve a mean clone fidelity of up to $0.79$ using dynamical decoupling.
翻訳日:2024-03-11 23:25:04 公開日:2024-03-08
# 領域一般化のための多層・多層コントラスト学習

Multi-Scale and Multi-Layer Contrastive Learning for Domain Generalization ( http://arxiv.org/abs/2308.14418v3 )

ライセンス: Link先を確認
Aristotelis Ballas and Christos Diou(参考訳) 過去10年間、ディープニューラルネットワークは、学界と産業の両方において、急速に進歩し、コンピュータビジョンの問題に大きな成果をもたらしてきた。 しかし、その成功にもかかわらず、最先端の画像分類アプローチは、多くの現実世界のアプリケーションで要求されるように、これまで見えなかった視覚的コンテキストにおいてうまく一般化できない。 本稿では,この領域一般化(DG)問題に着目し,ネットワークの多層およびマルチスケール表現を活用することにより,深層畳み込みニューラルネットワークの一般化能力を向上できると主張している。 本稿では,低レベルの特徴と高レベルの特徴を複数スケールで組み合わせることで,画像分類器の領域一般化をめざすフレームワークを紹介し,その潜在空間における表現を暗黙的に歪め,表現対象のドメイン不変属性を学習することを可能にする。 さらに,より頑健な表現学習を促進するために,分布シフト下で不変な表現を制約することを目的とした,コントラスト学習に触発された新しい目的関数を提案する。 PACS, VLCS, Office-Home, NICOの領域一般化データセットを用いて, 本手法の有効性を示す。 広範な実験を通して、我々のモデルは従来のDG手法よりも優れており、全てのデータセットにおいて競争力と最先端の結果を連続的に生成できることを示す。

During the past decade, deep neural networks have led to fast-paced progress and significant achievements in computer vision problems, for both academia and industry. Yet despite their success, state-of-the-art image classification approaches fail to generalize well in previously unseen visual contexts, as required by many real-world applications. In this paper, we focus on this domain generalization (DG) problem and argue that the generalization ability of deep convolutional neural networks can be improved by taking advantage of multi-layer and multi-scaled representations of the network. We introduce a framework that aims at improving domain generalization of image classifiers by combining both low-level and high-level features at multiple scales, enabling the network to implicitly disentangle representations in its latent space and learn domain-invariant attributes of the depicted objects. Additionally, to further facilitate robust representation learning, we propose a novel objective function, inspired by contrastive learning, which aims at constraining the extracted representations to remain invariant under distribution shifts. We demonstrate the effectiveness of our method by evaluating on the domain generalization datasets of PACS, VLCS, Office-Home and NICO. Through extensive experimentation, we show that our model is able to surpass the performance of previous DG methods and consistently produce competitive and state-of-the-art results in all datasets
翻訳日:2024-03-11 23:24:29 公開日:2024-03-08
# Mott-Hubbard遷移における準局所的絡み合い

Quasilocal entanglement across the Mott-Hubbard transition ( http://arxiv.org/abs/2308.13706v2 )

ライセンス: Link先を確認
Gabriele Bellomia, Carlos Mejuto-Zaera, Massimo Capone, Adriano Amaricci(参考訳) コールド原子量子シミュレーターにおいて、フォン・ノイマンエントロピーとサイトとその環境の間の相互情報を直接測定する可能性は、量子情報理論の枠組みにおいてモット・ハバード金属絶縁体遷移のキャラクタリゼーションに関する新たな視点を開く。 本研究では,2次元ハバードモデルにおけるモット遷移を,2つの空間的に分離された電子軌道間の厳密な準局所的エンタングルメントと相関性の観点から,その環境から何の寄与も与えない別の視点を提供する。 クラスターの動的平均場理論の空間分解解析により、mott局在の探索における最近傍の絡み合いの顕著な役割が解明された。 近接する近傍の2箇所の絡み合いは、現場間距離が大きくなると急速に減衰する。 これらの結果は、一点フォン・ノイマンのエントロピーに基づく以前の分析の結果を最終的に解決し、相互作用が増加すると単調に減少することが判明した。 準局所二点絡み合いは、代わりにmott絶縁体の特徴的な特性を強い相関量子状態として回復し、2d$ハバードモデルにおけるその中心的な役割を示す。

The possibility to directly measure, in a cold-atom quantum simulator, the von Neumann entropy and mutual information between a site and its environment opens new perspectives on the characterization of the Mott-Hubbard metal-insulator transition, in the framework of quantum information theory. In this work we provide an alternative view of the Mott transition in the two-dimensional Hubbard model in terms of rigorous quasilocal measures of entanglement and correlation between two spatially separated electronic orbitals, with no contribution from their environment. A space-resolved analysis of cluster dynamical mean-field theory results elucidates the prominent role of the nearest-neighbor entanglement in probing Mott localization: both its lower and upper bounds sharply increase at the metal-insulator transition. The two-site entanglement beyond nearest neighbors is shown to be quickly damped as the inter-site distance is increased. These results ultimately resolve a conundrum of previous analyses based on the single-site von Neumann entropy, which has been found to monotonically decrease when the interaction is increased. The quasilocal two-site entanglement recovers instead the distinctive character of Mott insulators as strongly correlated quantum states, demonstrating its central role in the $2d$ Hubbard model.
翻訳日:2024-03-11 23:24:07 公開日:2024-03-08
# MMAPS:マルチグリッド型マルチモーダル属性対応製品要約

MMAPS: End-to-End Multi-Grained Multi-Modal Attribute-Aware Product Summarization ( http://arxiv.org/abs/2308.11351v2 )

ライセンス: Link先を確認
Tao Chen, Ze Lin, Hui Li, Jiayi Ji, Yiyi Zhou, Guanbin Li and Rongrong Ji(参考訳) 長いテキスト製品情報と製品イメージを踏まえ、MPS(Multi-modal Product Summarization)は、短いテキスト要約で製品特性を強調することで、顧客の購入意欲を高めることを目的としている。 既存のMPS法では有望な結果が得られる。 それでも彼らは 1)エンドツーエンドの製品要約が欠如している。 2)マルチモーダルモデリングの欠如,および 3)マルチモーダル属性モデリングの欠如。 MPSを改善するために,eコマースにおける高品質な製品要約を生成するために,マルチモーダルなマルチモーダル属性対応製品要約手法(MMAPS)を提案する。 MMAPSは製品属性を共同でモデル化し、製品要約を生成する。 我々は,MMAPSのマルチモーダル学習を指導するために,複数のマルチモーダルタスクを設計する。 さらに,テキストと画像の両方のモダリティに基づいて製品属性をモデル化し,生成した要約にマルチモーダルな製品特性を示す。 実大規模中国のe-commenceデータセットに対する大規模な実験により、我々のモデルは、いくつかの要約指標を用いて、最先端の製品要約手法より優れていることを示した。 私たちのコードは、https://github.com/KDEGroup/MMAPS.comで公開されています。

Given the long textual product information and the product image, Multi-modal Product Summarization (MPS) aims to increase customers' desire to purchase by highlighting product characteristics with a short textual summary. Existing MPS methods can produce promising results. Nevertheless, they still 1) lack end-to-end product summarization, 2) lack multi-grained multi-modal modeling, and 3) lack multi-modal attribute modeling. To improve MPS, we propose an end-to-end multi-grained multi-modal attribute-aware product summarization method (MMAPS) for generating high-quality product summaries in e-commerce. MMAPS jointly models product attributes and generates product summaries. We design several multi-grained multi-modal tasks to better guide the multi-modal learning of MMAPS. Furthermore, we model product attributes based on both text and image modalities so that multi-modal product characteristics can be manifested in the generated summaries. Extensive experiments on a real large-scale Chinese e-commence dataset demonstrate that our model outperforms state-of-the-art product summarization methods w.r.t. several summarization metrics. Our code is publicly available at: https://github.com/KDEGroup/MMAPS.
翻訳日:2024-03-11 23:23:39 公開日:2024-03-08
# 量子固有値推定のためのアルゴリズム誤差軽減

Algorithmic error mitigation for quantum eigenvalues estimation ( http://arxiv.org/abs/2308.03879v2 )

ライセンス: Link先を確認
Adam Siegel, Kosuke Mitarai and Keisuke Fujii(参考訳) 与えられたオブザーバブルの固有値を推定する場合、フォールトトレラント量子コンピュータでさえエラー、すなわちアルゴリズムエラーの対象となる。 これらは、位相推定に渡されたユニタリを実装したアルゴリズムの近似に起因し、例えば、トロッター化や量子化といった固有値を抽出する。 これらのエラーは、初期のフォールトトレラントデバイスでは実現不可能な回路の複雑さを増大させることによって対処することができる。 そこで本研究では,限られた資源で実装可能な可観測器の集合の固有値を評価するコストを犠牲にして,任意の順序までアルゴリズム誤差を低減できる誤り緩和戦略を提案する。 必要な可観測物の数は推定され、ハミルトニアンの項数と多項式的にしか増加せず、場合によっては所望の誤差緩和順序と直線的に一致することが示される。 以上の結果から, 量子ビット数に制限のある早期耐故障装置においても, 精度の高い固有値推定が可能であることがわかった。

When estimating the eigenvalues of a given observable, even fault-tolerant quantum computers will be subject to errors, namely algorithmic errors. These stem from approximations in the algorithms implementing the unitary passed to phase estimation to extract the eigenvalues, e.g. Trotterisation or qubitisation. These errors can be tamed by increasing the circuit complexity, which may be unfeasible in early-stage fault-tolerant devices. Rather, we propose in this work an error mitigation strategy that enables a reduction of the algorithmic errors up to any order, at the cost of evaluating the eigenvalues of a set of observables implementable with limited resources. The number of required observables is estimated and is shown to only grow polynomially with the number of terms in the Hamiltonian, and in some cases, linearly with the desired order of error mitigation. Our results show error reduction of several orders of magnitude in physically relevant cases, thus promise accurate eigenvalue estimation even in early fault-tolerant devices with limited number of qubits.
翻訳日:2024-03-11 23:22:59 公開日:2024-03-08
# 脳デコード : 視覚知覚のリアルタイム再構築に向けて

Brain decoding: toward real-time reconstruction of visual perception ( http://arxiv.org/abs/2310.19812v2 )

ライセンス: Link先を確認
Yohann Benchetrit, Hubert Banville and Jean-R\'emi King(参考訳) 過去5年間で、生成的および基礎的AIシステムの使用は、脳活動の復号化を大幅に改善した。 特に視覚知覚は、顕著な忠実さを持つ機能的磁気共鳴イメージング(fMRI)から復号することができる。 しかし、このニューロイメージング技術は時間分解能(約0.5hz)が限られており、基本的にはリアルタイム使用を制限している。 本稿では、高時間分解能(5,000Hz)で脳活動を計測できる脳波計測装置である脳磁図(MEG)に基づく別のアプローチを提案する。 そこで我々は,コントラスト目標と回帰目標,および3つのモジュールからなるmeg復号モデルを開発した。 一 画像から得られる予め訓練された埋め込み 二 エンドツーエンドの訓練を受けたMEGモジュール及び 三 予め訓練した画像生成装置 第一に、私たちのMEGデコーダは古典的線形デコーダよりも画像検索が7倍改善したことを示す。 第2に、画像に対する後期脳反応は、最近の基礎画像モデルであるDINOv2で最もよくデコードされる。 第3に、画像検索と世代はどちらも、高レベルの視覚的特徴をMEG信号からデコードできることを示唆しているが、同様に7T fMRIにも適用されたアプローチは、より低レベルの特徴を回復させる。 全体として、これらの結果は予備的ではあるが、人間の脳内で連続的に展開する視覚過程のデコード(リアルタイム)に向けて重要なステップを提供する。

In the past five years, the use of generative and foundational AI systems has greatly improved the decoding of brain activity. Visual perception, in particular, can now be decoded from functional Magnetic Resonance Imaging (fMRI) with remarkable fidelity. This neuroimaging technique, however, suffers from a limited temporal resolution ($\approx$0.5 Hz) and thus fundamentally constrains its real-time usage. Here, we propose an alternative approach based on magnetoencephalography (MEG), a neuroimaging device capable of measuring brain activity with high temporal resolution ($\approx$5,000 Hz). For this, we develop an MEG decoding model trained with both contrastive and regression objectives and consisting of three modules: i) pretrained embeddings obtained from the image, ii) an MEG module trained end-to-end and iii) a pretrained image generator. Our results are threefold: Firstly, our MEG decoder shows a 7X improvement of image-retrieval over classic linear decoders. Second, late brain responses to images are best decoded with DINOv2, a recent foundational image model. Third, image retrievals and generations both suggest that high-level visual features can be decoded from MEG signals, although the same approach applied to 7T fMRI also recovers better low-level features. Overall, these results, while preliminary, provide an important step towards the decoding -- in real-time -- of the visual processes continuously unfolding within the human brain.
翻訳日:2024-03-11 23:17:24 公開日:2024-03-08
# ニューラルネットワークのための一般化構造行列の微分学習

Differentiable Learning of Generalized Structured Matrices for Efficient Deep Neural Networks ( http://arxiv.org/abs/2310.18882v2 )

ライセンス: Link先を確認
Changwoo Lee, Hun-Seok Kim(参考訳) 本稿では,非構造重み行列を望ましい特性を持つ構造行列に置き換える効率的な深層ニューラルネットワーク(dnn)について検討する。 この課題は、一般的なニューラルネットワークモデルにおける最適な重み行列構造がほとんどの場合不明瞭であり、同じネットワークであっても層ごとに異なるためである。 効率的なDNNを提案する以前の構造化行列は、体系的に学習するための一般化されたフレームワークなしで手作りされていた。 この問題に対処するために、勾配降下による重量行列の効率的な構造を学習するための一般化および微分可能なフレームワークを提案する。 まず,構造パラメータの調整により,多種多様な構造化行列を対象とする構造化行列の新たなクラスを文献で定義する。 次に、gaussian-dirichletカーネルに基づく周波数領域微分可能パラメータ化スキームを採用し、近位勾配降下により構造パラメータを学習する。 画像と言語タスクでは, 構造化行列を用いた効率的なDNNを学習し, 低ランク, ブロックスパース, ブロックローランクの行列を用いた従来の手法よりも, より少ない複雑性および/または高い性能を実現する。

This paper investigates efficient deep neural networks (DNNs) to replace dense unstructured weight matrices with structured ones that possess desired properties. The challenge arises because the optimal weight matrix structure in popular neural network models is obscure in most cases and may vary from layer to layer even in the same network. Prior structured matrices proposed for efficient DNNs were mostly hand-crafted without a generalized framework to systematically learn them. To address this issue, we propose a generalized and differentiable framework to learn efficient structures of weight matrices by gradient descent. We first define a new class of structured matrices that covers a wide range of structured matrices in the literature by adjusting the structural parameters. Then, the frequency-domain differentiable parameterization scheme based on the Gaussian-Dirichlet kernel is adopted to learn the structural parameters by proximal gradient descent. On the image and language tasks, our method learns efficient DNNs with structured matrices, achieving lower complexity and/or higher performance than prior approaches that employ low-rank, block-sparse, or block-low-rank matrices.
翻訳日:2024-03-11 23:17:01 公開日:2024-03-08
# LLM4DyG:大規模言語モデルは動的グラフの時空間問題を解くことができるか?

LLM4DyG: Can Large Language Models Solve Spatial-Temporal Problems on Dynamic Graphs? ( http://arxiv.org/abs/2310.17110v2 )

ライセンス: Link先を確認
Zeyang Zhang, Xin Wang, Ziwei Zhang, Haoyang Li, Yijian Qin, Wenwu Zhu(参考訳) 様々なタスクに対するLarge Language Models(LLMs)の採用の増加に特徴付けられる時代において、Webデータ、特にグラフデータを扱うLLMの能力の探求に焦点が当てられている。 時間的ネットワーク進化パターンをキャプチャする動的グラフは、現実世界のwebデータにおいてユビキタスである。 動的グラフ上の空間時間情報の理解におけるLLMの能力を評価することは、Webアプリケーションにおいて採用される上で不可欠である。 本稿では,LLMの動的グラフ上での空間的時間的理解能力を評価することによるギャップを,私たちの知る限り,初めて橋渡しする。 具体的には、時空間次元と時空間次元の両方からLLMの能力評価を考慮した9つの特別設計タスクを含むLLM4DyGベンチマークを提案する。 そこで我々は,異なるデータ生成装置,データ統計,プロンプト技術,LLMがモデル性能に与える影響を解析するための広範囲な実験を行った。 最後に, LLM の時空間理解能力を高めるために, 動的グラフ上の LLM に対する Disentangled Spatial-Temporal Thoughts (DST2) を提案する。 私たちの主な観察は 1) LLM は動的グラフ上の空間的時間的理解能力を有する。 2) 動的グラフタスクは, 時間空間やデータ生成機構に敏感ではないが, グラフサイズや密度が増大するにつれて, LLMの難しさが増すことを示す。 3) DST2プロンプト法は, LLMの動的グラフにおける時空間理解能力の向上に有効である。 データとコードは公開時にオープンソース化される。

In an era marked by the increasing adoption of Large Language Models (LLMs) for various tasks, there is a growing focus on exploring LLMs' capabilities in handling web data, particularly graph data. Dynamic graphs, which capture temporal network evolution patterns, are ubiquitous in real-world web data. Evaluating LLMs' competence in understanding spatial-temporal information on dynamic graphs is essential for their adoption in web applications, which remains unexplored in the literature. In this paper, we bridge the gap via proposing to evaluate LLMs' spatial-temporal understanding abilities on dynamic graphs, to the best of our knowledge, for the first time. Specifically, we propose the LLM4DyG benchmark, which includes nine specially designed tasks considering the capability evaluation of LLMs from both temporal and spatial dimensions. Then, we conduct extensive experiments to analyze the impacts of different data generators, data statistics, prompting techniques, and LLMs on the model performance. Finally, we propose Disentangled Spatial-Temporal Thoughts (DST2) for LLMs on dynamic graphs to enhance LLMs' spatial-temporal understanding abilities. Our main observations are: 1) LLMs have preliminary spatial-temporal understanding abilities on dynamic graphs, 2) Dynamic graph tasks show increasing difficulties for LLMs as the graph size and density increase, while not sensitive to the time span and data generation mechanism, 3) the proposed DST2 prompting method can help to improve LLMs' spatial-temporal understanding abilities on dynamic graphs for most tasks. The data and codes will be open-sourced at publication time.
翻訳日:2024-03-11 23:16:42 公開日:2024-03-08
# DepWiGNN:テキストにおけるマルチホップ空間推論のための深部グラフニューラルネットワーク

DepWiGNN: A Depth-wise Graph Neural Network for Multi-hop Spatial Reasoning in Text ( http://arxiv.org/abs/2310.12557v2 )

ライセンス: Link先を確認
Shuaiyi Li, Yang Deng, Wai Lam(参考訳) テキストの空間的推論は、現実世界の様々なアプリケーションにおいて重要な役割を果たす。 既存の空間的推論のアプローチは、自然言語と記号構造の間のギャップを見下ろす純粋なテキストから、一般的に空間的関係を推論する。 グラフニューラルネットワーク(GNN)は、シンボル構造を誘導し集約するのに非常に優れた能力を示した。 しかし、古典的なGNNはマルチホップ空間推論を扱う際に、過度に滑らかな問題、すなわちグラフ層の増加に伴って性能が大幅に低下する問題に直面している。 これらの課題に対処するために,DepWiGNN(Depth-Wise Graph Neural Network)を提案する。 具体的には,新しいノードメモリ方式を設計し,複数のレイヤを積み重ねることなく長い依存関係を収集できるグラフの幅次元ではなく,深さ次元の情報を集約する。 2つの挑戦的なマルチホップ空間推論データセットの実験結果から,DepWiGNNが既存の空間推論手法より優れていることが示された。 他の3つのGNNとの比較は、グラフの長い依存を捉える上で、その優位性を示している。

Spatial reasoning in text plays a crucial role in various real-world applications. Existing approaches for spatial reasoning typically infer spatial relations from pure text, which overlooks the gap between natural language and symbolic structures. Graph neural networks (GNNs) have showcased exceptional proficiency in inducing and aggregating symbolic structures. However, classical GNNs face challenges in handling multi-hop spatial reasoning due to the over-smoothing issue, i.e., the performance decreases substantially as the number of graph layers increases. To cope with these challenges, we propose a novel Depth-Wise Graph Neural Network (DepWiGNN). Specifically, we design a novel node memory scheme and aggregate the information over the depth dimension instead of the breadth dimension of the graph, which empowers the ability to collect long dependencies without stacking multiple layers. Experimental results on two challenging multi-hop spatial reasoning datasets show that DepWiGNN outperforms existing spatial reasoning methods. The comparisons with the other three GNNs further demonstrate its superiority in capturing long dependency in the graph.
翻訳日:2024-03-11 23:16:13 公開日:2024-03-08
# 固有熱化仮説に対する射影位相の影響に関する考察

Remarks on effects of projective phase on eigenstate thermalization hypothesis ( http://arxiv.org/abs/2310.11425v2 )

ライセンス: Link先を確認
Osamu Fukushima(参考訳) $(d+1)$-次元量子場における$p$-形式対称性の存在は、ある仮定の下で対称性演算子以外のある$(d-p)$-次元作用素に対する固有状態熱化仮説(ETH)の分解を常に導くことが知られている。 この仮定は、与えられたエネルギー殻内の対称性のセクタの混合を含むが、スペクトルの中央にある固有状態に関する情報を必要とするため、検証が難しい。 我々は、この困難を避けるために、この仮定を射影表現の観点から再考する。 $\mathbb{Z}_N$ 対称性の場合、非自明な射影位相を持つ$\mathbb{Z}_N\times\mathbb{Z}_N$-対称理論を考慮し、興味のある$\mathbb{Z}_N$ 対称性の1つを保ちながらハミルトニアンを摂動させることで、困難を回避することができる。 また、$(1+1) のスピンチェーンと$(2+1) の$-次元の$\mathbb{z}_2$ の格子ゲージ理論の数値解析も行う。

The existence of $p$-form symmetry in $(d+1)$-dimensional quantum field is known to always lead to the breakdown of the eigenstate thermalization hypothesis (ETH) for certain $(d-p)$-dimensional operators other than symmetry operators under some assumptions. The assumptions include the mixing of symmetry sectors within a given energy shell, which is rather challenging to verify because it requires information on the eigenstates in the middle of the spectrum. We reconsider this assumption from the viewpoint of projective representations to avoid this difficulty. In the case of $\mathbb{Z}_N$ symmetries, we can circumvent the difficulty by considering $\mathbb{Z}_N\times\mathbb{Z}_N$-symmetric theories with nontrivial projective phases, and perturbing the Hamiltonian while preserving one of the $\mathbb{Z}_N$ symmetries of our interest. We also perform numerical analyses for $(1+1)$-dimensional spin chains and the $(2+1)$-dimensional $\mathbb{Z}_2$ lattice gauge theory.
翻訳日:2024-03-11 23:15:56 公開日:2024-03-08
# ManyQuadrupeds: 四足歩行ロボットのための単一ロコモーションポリシーを学習する

ManyQuadrupeds: Learning a Single Locomotion Policy for Diverse Quadruped Robots ( http://arxiv.org/abs/2310.10486v2 )

ライセンス: Link先を確認
Milad Shafiee, Guillaume Bellegarda and Auke Ijspeert(参考訳) 四足歩行ロボットの移動ポリシーを学ぶことは、伝統的に特定のロボットの形態、質量、サイズに制約されてきた。 学習は通常、新しいシステム毎のパフォーマンスを最大化するためにハイパーパラメータと報酬関数重みを調整しなければならない新しいロボット毎に繰り返されなければならない。 あるいは、同じ自由度(dof)と形態を維持しながら、異なる大きさのロボットに対応するために単一のポリシーを訓練しようとすると、複雑な学習フレームワーク、あるいはマッシブ、慣性、次元ランダム化が必要となり、トレーニング期間が長くなる。 本研究では,動物運動制御からインスピレーションを得ることにより,多種多様な四足歩行ロボットを制御できる単一移動政策を効果的に訓練できることを示す。 ロボットの違いは、可変数のDoF(例:12または16関節)、3つの異なる形態、幅が2kgから200kg、名目の高さが18cmから100cmである。 本ポリシーでは, 脊髄における中枢パターン生成器(CPG)の表現を変調し, CPGの周波数と振幅を効果的に調整してリズム出力(リズム生成)を生成し, パターン形成(PF)層にマッピングする。 異なるロボット間で異なるコンポーネントは、ストライド高さと長さのスケーリングパラメータを調整するPF層のみである。 続いて,Unitree Go1ロボットとA1ロボットの両方で単一ポリシーをテストし,sim-to-realトランスファーを評価した。 驚くべきことに、a1ロボットの公称質量の125%に相当する15kgの負荷を付加しても、ロバストな性能が観察できる。

Learning a locomotion policy for quadruped robots has traditionally been constrained to a specific robot morphology, mass, and size. The learning process must usually be repeated for every new robot, where hyperparameters and reward function weights must be re-tuned to maximize performance for each new system. Alternatively, attempting to train a single policy to accommodate different robot sizes, while maintaining the same degrees of freedom (DoF) and morphology, requires either complex learning frameworks, or mass, inertia, and dimension randomization, which leads to prolonged training periods. In our study, we show that drawing inspiration from animal motor control allows us to effectively train a single locomotion policy capable of controlling a diverse range of quadruped robots. The robot differences encompass: a variable number of DoFs, (i.e. 12 or 16 joints), three distinct morphologies, a broad mass range spanning from 2 kg to 200 kg, and nominal standing heights ranging from 18 cm to 100 cm. Our policy modulates a representation of the Central Pattern Generator (CPG) in the spinal cord, effectively coordinating both frequencies and amplitudes of the CPG to produce rhythmic output (Rhythm Generation), which is then mapped to a Pattern Formation (PF) layer. Across different robots, the only varying component is the PF layer, which adjusts the scaling parameters for the stride height and length. Subsequently, we evaluate the sim-to-real transfer by testing the single policy on both the Unitree Go1 and A1 robots. Remarkably, we observe robust performance, even when adding a 15 kg load, equivalent to 125% of the A1 robot's nominal mass.
翻訳日:2024-03-11 23:15:31 公開日:2024-03-08
# EAR-Net:マルチビュー画像からエンドツーエンドの絶対回転を求める

EAR-Net: Pursuing End-to-End Absolute Rotations from Multi-View Images ( http://arxiv.org/abs/2310.10051v2 )

ライセンス: Link先を確認
Yuzhen Liu, Qiulei Dong(参考訳) 絶対回転推定は3次元コンピュータビジョンにおいて重要な話題である。 既存の文献では、複数の独立した操作(特徴マッチング、二次元回転推定、回転平均化)を順次実施する多段階(少なくとも2段階)推定戦略が一般的である。 しかし、このような多段階戦略は必然的に、関連する各操作によるエラーの蓄積を招き、それに従って大域回転に関する最終的な推定を低下させる。 この問題を解決するために、EAR-Netと呼ばれる深層ニューラルネットワークに基づく多視点画像から溶出回転を推定するエンド・ツー・エンド手法を提案する。 提案するear-netはエピポーラ信頼グラフ構築モジュールと信頼度対応回転平均化モジュールからなる。 エピポーラ信頼グラフ構築モジュールは、入力画像と対応する信頼度の間の対方向相対回転を同時に予測し、重み付きグラフ(エピポーラ信頼グラフと呼ばれる)を生成する。 このグラフに基づいて、絶対回転を予測するために、微分可能な信頼度対応回転平均化モジュールを探索する。 相対回転の信頼性が導入されたため、提案されたEAR-Netは外乱ケースを効果的に扱えるようになった。 3つの公開データセットの実験結果から、EAR-Netは精度と速度の点で最先端の手法よりも高い性能を示している。

Absolute rotation estimation is an important topic in 3D computer vision. Existing works in literature generally employ a multi-stage (at least two-stage) estimation strategy where multiple independent operations (feature matching, two-view rotation estimation, and rotation averaging) are implemented sequentially. However, such a multi-stage strategy inevitably leads to the accumulation of the errors caused by each involved operation, and degrades its final estimation on global rotations accordingly. To address this problem, we propose an End-to-end method for estimating Absolution Rotations from multi-view images based on deep neural Networks, called EAR-Net. The proposed EAR-Net consists of an epipolar confidence graph construction module and a confidence-aware rotation averaging module. The epipolar confidence graph construction module is explored to simultaneously predict pairwise relative rotations among the input images and their corresponding confidences, resulting in a weighted graph (called epipolar confidence graph). Based on this graph, the confidence-aware rotation averaging module, which is differentiable, is explored to predict the absolute rotations. Thanks to the introduced confidences of the relative rotations, the proposed EAR-Net could effectively handle outlier cases. Experimental results on three public datasets demonstrate that EAR-Net outperforms the state-of-the-art methods by a large margin in terms of accuracy and speed.
翻訳日:2024-03-11 23:14:41 公開日:2024-03-08
# 大規模言語モデルのためのワンショット感度認識混合スパルシティプラニング

One-Shot Sensitivity-Aware Mixed Sparsity Pruning for Large Language Models ( http://arxiv.org/abs/2310.09499v3 )

ライセンス: Link先を確認
Hang Shao, Bei Liu, Bo Xiao, Ke Zeng, Guanglu Wan, Yanmin Qian(参考訳) Generative Pretrained Transformer(GPT)ファミリーの様々な大規模言語モデル(LLM)は、幅広いテキスト生成タスクにおいて優れたパフォーマンスを実現している。 しかし、膨大なモデルサイズは、高い推論遅延のため、現実のアプリケーションでの使用を妨げている。 したがって, LLM の量子化, プルーニング, その他の手法による効率性の向上は, LLM 研究において重要な課題となっている。 そこで本研究では,リトレーニングを必要とせず,少なくとも50%のスパルシティにprune llmを散布するヘッセン感度・アウェア混合スパルシティ推定法を提案する。 感度に基づいて空間を適応的に割り当てることで、全体空間レベルを維持しながらプルーニングによる誤差を低減することができる。 提案手法の利点は, 空間が極めて高い場合にさらに顕著である。 さらに,本手法は量子化と互換性があり,LLMのさらなる圧縮が可能となる。

Various Large Language Models(LLMs) from the Generative Pretrained Transformer(GPT) family have achieved outstanding performances in a wide range of text generation tasks. However, the enormous model sizes have hindered their practical use in real-world applications due to high inference latency. Therefore, improving the efficiencies of LLMs through quantization, pruning, and other means has been a key issue in LLM studies. In this work, we propose a method based on Hessian sensitivity-aware mixed sparsity pruning to prune LLMs to at least 50% sparsity without the need of any retraining. It allocates sparsity adaptively based on sensitivity, allowing us to reduce pruning-induced error while maintaining the overall sparsity level. The advantages of the proposed method exhibit even more when the sparsity is extremely high. Furthermore, our method is compatible with quantization, enabling further compression of LLMs.
翻訳日:2024-03-11 23:14:15 公開日:2024-03-08
# CLIPからDINO: マルチモーダル大規模言語モデルにおけるビジュアルエンコーダ

From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language Models ( http://arxiv.org/abs/2310.08825v3 )

ライセンス: Link先を確認
Dongsheng Jiang, Yuchen Liu, Songlin Liu, Jin'e Zhao, Hao Zhang, Zhen Gao, Xiaopeng Zhang, Jin Li, Hongkai Xiong(参考訳) マルチモーダル大言語モデル(mllm)は、視覚知覚インタフェースの組み込みを通じて、大言語モデル(llm)の能力を拡大する上で大きな進歩を遂げた。 エキサイティングなアプリケーションが現れ、多様な命令チューニングデータが利用可能になったにもかかわらず、既存のアプローチはしばしばビジュアルブランチとしてクリップやその変種に依存し、深層からフィーチャを抽出するだけである。 しかし、これらの手法はMLLMの視覚エンコーダの包括的解析を欠いている。 本稿では,MLLM内の異なる視覚エンコーダの有効性について検討する。 以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。 驚くべきことに、テキストイメージアライメントを事前トレーニングしていないビジョンのみのモデルであるDINOは、MLLM内のビジュアルブランチとして有望なパフォーマンスを示している。 単にアライメントのためのMDP層を装備することで、DINOはきめ細かな関連する知覚タスクにおいてCLIPを追い越す。 これらの観測に基づいて,CLIPとDINOとMergingを統合し,MLLMの視覚能力を高めるシンプルな機能統合戦略であるCOMMを提案する。 我々は,画像キャプション,視覚的質問応答,視覚的接地,物体幻覚など,幅広いベンチマークの総合的な実験を通じてCOMMを評価する。 実験の結果,既存の手法と比較してCOMMの性能が優れており,MLLM内の視覚能力の向上が示されている。

Multi-modal Large Language Models (MLLMs) have made significant strides in expanding the capabilities of Large Language Models (LLMs) through the incorporation of visual perception interfaces. Despite the emergence of exciting applications and the availability of diverse instruction tuning data, existing approaches often rely on CLIP or its variants as the visual branch, and merely extract features from the deep layers. However, these methods lack a comprehensive analysis of the visual encoders in MLLMs. In this paper, we conduct an extensive investigation into the effectiveness of different vision encoders within MLLMs. Our findings reveal that the shallow layer features of CLIP offer particular advantages for fine-grained tasks such as grounding and region understanding. Surprisingly, the vision-only model DINO, which is not pretrained with text-image alignment, demonstrates promising performance as a visual branch within MLLMs. By simply equipping it with an MLP layer for alignment, DINO surpasses CLIP in fine-grained related perception tasks. Building upon these observations, we propose a simple yet effective feature merging strategy, named COMM, that integrates CLIP and DINO with Multi-level features Merging, to enhance the visual capabilities of MLLMs. We evaluate COMM through comprehensive experiments on a wide range of benchmarks, including image captioning, visual question answering, visual grounding, and object hallucination. Experimental results demonstrate the superior performance of COMM compared to existing methods, showcasing its enhanced visual capabilities within MLLMs.
翻訳日:2024-03-11 23:14:00 公開日:2024-03-08
# 戦争:ai生成コンテンツのウォーターマーク保護を破る

Warfare:Breaking the Watermark Protection of AI-Generated Content ( http://arxiv.org/abs/2310.07726v3 )

ライセンス: Link先を確認
Guanlin Li, Yifei Chen, Jie Zhang, Jiwei Li, Shangwei Guo, Tianwei Zhang(参考訳) AI-Generated Content(AIGC)は、多くの新興の商用サービスやアプリケーションで大きな人気を集めている。 これらのサービスは、潜在拡散モデルや大規模言語モデルのような高度な生成モデルを活用して、ユーザのための創造的コンテンツ(例えば、現実的な画像や流動的な文)を生成する。 サービス提供者は、利用者が使用ポリシーに違反しないことを保証する必要がある(例えば、商業化の悪用、安全でないコンテンツの生成と配布)。 この目標を達成するための有望な解決策は透かしであり、サービス検証と属性のコンテンツにユニークで受け入れがたい透かしを追加する。 近年,多くの透かし手法が提案されている。 しかし,本稿では,敵が容易にこれらの透かし機構を破ることができることを示す。 具体的には2つの攻撃の可能性を考える。 1) 透かし除去: 敵は、生成されたコンテンツから埋め込まれた透かしを容易に消去し、サービス提供者の規制を回避して使用することができる。 2) ウォーターマーク鍛造(watermark forging): 敵が別のユーザから偽造ウォーターマークで違法なコンテンツを作成できるため、サービス提供者が間違った帰属を行う。 我々は、両攻撃を総合的に達成するための統一的な手法である戦争を提案する。 鍵となる考え方は、コンテンツ処理のための事前学習拡散モデルと、透かし除去や鍛造のための生成逆ネットワークを活用することである。 Warfareをさまざまなデータセットと埋め込み設定で評価します。 その結果,生成コンテンツの品質を維持しつつ,高い成功率を達成できることがわかった。 既存の拡散モデルに基づく攻撃と比較して、戦闘は5,050~11,000倍高速である。

AI-Generated Content (AIGC) is gaining great popularity, with many emerging commercial services and applications. These services leverage advanced generative models, such as latent diffusion models and large language models, to generate creative content (e.g., realistic images and fluent sentences) for users. The usage of such generated content needs to be highly regulated, as the service providers need to ensure the users do not violate the usage policies (e.g., abuse for commercialization, generating and distributing unsafe content). A promising solution to achieve this goal is watermarking, which adds unique and imperceptible watermarks on the content for service verification and attribution. Numerous watermarking approaches have been proposed recently. However, in this paper, we show that an adversary can easily break these watermarking mechanisms. Specifically, we consider two possible attacks. (1) Watermark removal: the adversary can easily erase the embedded watermark from the generated content and then use it freely bypassing the regulation of the service provider. (2) Watermark forging: the adversary can create illegal content with forged watermarks from another user, causing the service provider to make wrong attributions. We propose Warfare, a unified methodology to achieve both attacks in a holistic way. The key idea is to leverage a pre-trained diffusion model for content processing and a generative adversarial network for watermark removal or forging. We evaluate Warfare on different datasets and embedding setups. The results prove that it can achieve high success rates while maintaining the quality of the generated content. Compared to existing diffusion model-based attacks, Warfare is 5,050~11,000x faster.
翻訳日:2024-03-11 23:13:34 公開日:2024-03-08
# スムースに気をつけて:ラベルのスムースティングはプライバシシールドになるだけでなく、モデル反転攻撃のための触媒にもなる

Be Careful What You Smooth For: Label Smoothing Can Be a Privacy Shield but Also a Catalyst for Model Inversion Attacks ( http://arxiv.org/abs/2310.06549v4 )

ライセンス: Link先を確認
Lukas Struppek, Dominik Hintersdorf, Kristian Kersting(参考訳) ラベル平滑化 -- ハードラベルの代わりにソフト化ラベルを使用する -- は、ディープラーニングで広く採用されている正規化手法であり、一般化やキャリブレーションの強化など、さまざまなメリットがある。 しかし、モデルプライバシを保存することの意味は、まだ解明されていない。 このギャップを埋めるために、分類器に符号化された知識を利用してクラス表現サンプルを生成し、トレーニングデータに関する機密情報を推測することを目的としたモデル反転攻撃(MIAs)に対するラベルスムーシングの影響を検討する。 広範な分析を通じて,従来のラベル平滑化がmiasを助長し,モデルのプライバシリークを増加させることが明らかとなった。 さらに、ネガティブな要因による平滑化はこの傾向に対処し、クラス関連情報の抽出を阻害し、プライバシーの保護を阻害し、最先端の防衛を破ることを明らかにする。 これにより、MIAに対するモデルレジリエンスを強化するための実用的で強力な新しい方法が確立される。

Label smoothing -- using softened labels instead of hard ones -- is a widely adopted regularization method for deep learning, showing diverse benefits such as enhanced generalization and calibration. Its implications for preserving model privacy, however, have remained unexplored. To fill this gap, we investigate the impact of label smoothing on model inversion attacks (MIAs), which aim to generate class-representative samples by exploiting the knowledge encoded in a classifier, thereby inferring sensitive information about its training data. Through extensive analyses, we uncover that traditional label smoothing fosters MIAs, thereby increasing a model's privacy leakage. Even more, we reveal that smoothing with negative factors counters this trend, impeding the extraction of class-related information and leading to privacy preservation, beating state-of-the-art defenses. This establishes a practical and powerful novel way for enhancing model resilience against MIAs.
翻訳日:2024-03-11 23:13:08 公開日:2024-03-08
# TAIL:大規模事前学習モデルを用いた模倣学習用タスク固有アダプタ

TAIL: Task-specific Adapters for Imitation Learning with Large Pretrained Models ( http://arxiv.org/abs/2310.05905v2 )

ライセンス: Link先を確認
Zuxin Liu, Jesse Zhang, Kavosh Asadi, Yao Liu, Ding Zhao, Shoham Sabach, Rasool Fakoor(参考訳) 大型の事前訓練されたモデルの潜在能力は、ロボティクスのような制御領域にはほとんど及ばない。 これは主にデータの不足と、これらの大規模モデルのトレーニングや微調整に関連する計算上の課題が原因である。 以前の研究は主に意思決定のための大規模なモデルの効果的な事前訓練と単一タスク適応を強調していた。 しかし、現実の問題は、新しい制御タスクにデータ効率、継続的な適応を必要とする。 これらの制約を認識し,新しい制御タスクへの効率的な適応のためのフレームワークであるtail(task-specific adapters for imitation learning)を導入した。 言語領域におけるパラメータ効率の良い微調整の最近の進歩に触発されて、TAILのBottleneck Adapters、P-Tuning、Low-Rank Adaptation (LoRA)など、効率的な微調整技術を探求し、デモデータに制限のある新しいタスクのために、大規模な事前学習モデルを適用する。 提案する大規模言語条件操作タスクにおいて,パラメータ効率の高い微調整手法と適応ベースラインを比較することで,学習環境における適応可塑性の破滅的忘れ去らぬまま,完全な微調整の訓練可能なパラメータのわずか1/%で,尾尾とローラが最高の適応後性能を達成できることが示唆された。

The full potential of large pretrained models remains largely untapped in control domains like robotics. This is mainly because of the scarcity of data and the computational challenges associated with training or fine-tuning these large models for such applications. Prior work mainly emphasizes either effective pretraining of large models for decision-making or single-task adaptation. But real-world problems will require data-efficient, continual adaptation for new control tasks. Recognizing these constraints, we introduce TAIL (Task-specific Adapters for Imitation Learning), a framework for efficient adaptation to new control tasks. Inspired by recent advancements in parameter-efficient fine-tuning in language domains, we explore efficient fine-tuning techniques -- e.g., Bottleneck Adapters, P-Tuning, and Low-Rank Adaptation (LoRA) -- in TAIL to adapt large pretrained models for new tasks with limited demonstration data. Our extensive experiments in large-scale language-conditioned manipulation tasks comparing prevalent parameter-efficient fine-tuning techniques and adaptation baselines suggest that TAIL with LoRA can achieve the best post-adaptation performance with only 1\% of the trainable parameters of full fine-tuning, while avoiding catastrophic forgetting and preserving adaptation plasticity in continual learning settings.
翻訳日:2024-03-11 23:12:22 公開日:2024-03-08
# retseg: 保持型大腸ポリープセグメンテーションネットワーク

RetSeg: Retention-based Colorectal Polyps Segmentation Network ( http://arxiv.org/abs/2310.05446v5 )

ライセンス: Link先を確認
Khaled ELKarazle, Valliappan Raman, Caslon Chua and Patrick Then(参考訳) ビジョントランスフォーマー(ViT)は医療画像解析に革命をもたらし、ポリープ分類、検出、セグメンテーションといった重要なタスクにおいて従来の畳み込みニューラルネットワーク(CNN)よりも優れた効果を示した。 注意のメカニズムを利用して特定の画像領域に集中し、vitsは視覚データの処理において文脈的意識を示し、複雑な医療画像であっても、堅牢で正確な予測が可能となる。 さらに、トランスフォーマにおける固有の自己着脱機構は、様々な入力サイズと解像度に対応し、従来のcnnにない前例のない柔軟性をもたらす。 しかし、トランスフォーマーは過度のメモリ使用やセルフアテンションによるトレーニング並列性の制限といった課題に対処し、リソース制約のあるデバイスでのリアルタイム疾患検出には実用的でない。 本研究では,最近導入された保持機構をポリプセグメンテーションに統合し,マルチヘッド保持ブロックを備えたエンコーダデコーダネットワークRetSegを導入することで,これらのハードルに対処する。 RetNet(RetNet)からインスピレーションを得たRetSegは,特に大腸内視鏡画像に適した,正確なポリープ分割と資源利用のギャップを埋めるように設計されている。 我々は、Kvasir-SEGとCVC-ClinicDBという2つの公開データセットを使用して、ポリプセグメンテーションのためのRetSegをトレーニングし、検証する。 さらに、CVC-ColonDB、ETIS-LaribPolypDB、CVC-300、BKAI-IGH NeoPolypなど、さまざまなパブリックデータセットにわたるRetSegの有望なパフォーマンスを紹介します。 我々の研究は初期段階の探査を表しているが、さらなる深い研究はこれらの有望な発見を前進させるのに不可欠である。

Vision Transformers (ViTs) have revolutionized medical imaging analysis, showcasing superior efficacy compared to conventional Convolutional Neural Networks (CNNs) in vital tasks such as polyp classification, detection, and segmentation. Leveraging attention mechanisms to focus on specific image regions, ViTs exhibit contextual awareness in processing visual data, culminating in robust and precise predictions, even for intricate medical images. Moreover, the inherent self-attention mechanism in Transformers accommodates varying input sizes and resolutions, granting an unprecedented flexibility absent in traditional CNNs. However, Transformers grapple with challenges like excessive memory usage and limited training parallelism due to self-attention, rendering them impractical for real-time disease detection on resource-constrained devices. In this study, we address these hurdles by investigating the integration of the recently introduced retention mechanism into polyp segmentation, introducing RetSeg, an encoder-decoder network featuring multi-head retention blocks. Drawing inspiration from Retentive Networks (RetNet), RetSeg is designed to bridge the gap between precise polyp segmentation and resource utilization, particularly tailored for colonoscopy images. We train and validate RetSeg for polyp segmentation employing two publicly available datasets: Kvasir-SEG and CVC-ClinicDB. Additionally, we showcase RetSeg's promising performance across diverse public datasets, including CVC-ColonDB, ETIS-LaribPolypDB, CVC-300, and BKAI-IGH NeoPolyp. While our work represents an early-stage exploration, further in-depth studies are imperative to advance these promising findings.
翻訳日:2024-03-11 23:11:53 公開日:2024-03-08
# トランスフォーマによる強化学習による分子デノボ設計

Molecular De Novo Design through Transformer-based Reinforcement Learning ( http://arxiv.org/abs/2310.05365v5 )

ライセンス: Link先を確認
Pengcheng Xu, Tao Feng, Tianfan Fu, Siddhartha Laghuvarapu, Jimeng Sun(参考訳) 本稿では,分子ドノボ設計のためのトランスベース生成モデルを微調整する手法を提案する。 リカレントニューラルネットワーク(rnn)上でのトランスフォーマの優れたシーケンス学習能力を活用することで,望ましい特性を持つ分子構造を効果的に生成することができる。 従来のrnnモデルとは対照的に, 分子構造配列の長期依存性を捉えることにより, 種々の生物標的に対する活性が予測される化合物の生成において優れた性能を示す。 モデルの有効性は、クエリ構造に類似点を生成し、特定の属性を持つ化合物を生成し、ベースラインのRNNベースの手法より優れるなど、数多くのタスクで実証されている。 本手法は, 足場ホッピング, 単一分子からのライブラリ拡張, 生物標的に対する高い活性を有する化合物の生成に利用できる。

In this work, we introduce a method to fine-tune a Transformer-based generative model for molecular de novo design. Leveraging the superior sequence learning capacity of Transformers over Recurrent Neural Networks (RNNs), our model can generate molecular structures with desired properties effectively. In contrast to the traditional RNN-based models, our proposed method exhibits superior performance in generating compounds predicted to be active against various biological targets, capturing long-term dependencies in the molecular structure sequence. The model's efficacy is demonstrated across numerous tasks, including generating analogues to a query structure and producing compounds with particular attributes, outperforming the baseline RNN-based methods. Our approach can be used for scaffold hopping, library expansion starting from a single molecule, and generating compounds with high predicted activity against biological targets.
翻訳日:2024-03-11 23:11:23 公開日:2024-03-08
# 非構造スパース回収のための固有行列

Eigenmatrix for unstructured sparse recovery ( http://arxiv.org/abs/2311.16609v4 )

ライセンス: Link先を確認
Lexing Ying(参考訳) 本項では,非構造的スパース回復問題について概説する。 例えば、有理近似、スペクトル関数推定、フーリエ逆変換、ラプラス逆変換、スパース逆畳みなどである。 主な課題は、サンプル値のノイズと、サンプル位置の構造化されていない性質である。 本論文では, 近似固有値と固有ベクトルを持つデータ駆動構成法であるeigenmatrixを提案する。 eigenmatrixは、これらのスパースリカバリ問題に対して、新しい方法を提供する。 提案手法の効率性を示すために, 数値計算を行った。

This note considers the unstructured sparse recovery problems in a general form. Examples include rational approximation, spectral function estimation, Fourier inversion, Laplace inversion, and sparse deconvolution. The main challenges are the noise in the sample values and the unstructured nature of the sample locations. This note proposes the eigenmatrix, a data-driven construction with desired approximate eigenvalues and eigenvectors. The eigenmatrix offers a new way for these sparse recovery problems. Numerical results are provided to demonstrate the efficiency of the proposed method.
翻訳日:2024-03-11 23:06:38 公開日:2024-03-08
# DPOD:マルチモーダルフェイクニュース検出のためのドメイン特化プロンプトチューニング

DPOD: Domain-Specific Prompt Tuning for Multimodal Fake News Detection ( http://arxiv.org/abs/2311.16496v2 )

ライセンス: Link先を確認
Debarshi Brahma, Amartya Bhattacharya, Suraj Nagaje Mahadev, Anmol Asati, Vikas Verma, Soma Biswas(参考訳) 文脈外画像を用いた偽ニュースの拡散が広まり、情報過負荷の時代において関連する問題となっている。 このようなコンテキスト外フェイクニュースは、政治、スポーツ、エンターテイメントなど、さまざまなドメインで発生します。 現実のシナリオでは、多くの異なるドメインのニュース記事に固有の不均衡の問題が存在し、その結果、豊富なデータを持ついくつかのドメインが生まれ、残りは限られたデータを含んでいる。 このような状況下では、このようなさまざまな量のデータ設定で動作する方法を開発することが不可欠である。 本研究では,この課題を解決するために,コンテキスト外誤情報検出(マルチモーダルフェイクニュース検出)の改善にドメイン外データが役立つかどうかを検討する。 そこで本研究では,DPOD(Domain-specific Prompt-tuning using Out-of-Domain data)と呼ばれる新しいフレームワークを提案する。 まず、一般化可能な特徴を計算するために、視覚言語モデルであるCLIPを修正し、画像の表現と、ドメイン内およびドメイン外データの対応するテキストキャプションをラベル認識方式で整列させる特徴を抽出する。 さらに,所望のドメインに有用である程度に基づいて,利用可能なすべてのドメインのトレーニングサンプルを活用する,ドメイン固有のプロンプト学習手法を提案する。 大規模ベンチマークデータセット、すなわちニュースクリッピングに関する広範な実験は、提案されたフレームワークが最先端のパフォーマンスを達成し、この課題に対する既存のアプローチを大幅に上回っていることを示している。 コードは受理時にリリースされる。

The spread of fake news using out-of-context images has become widespread and is a relevant problem in this era of information overload. Such out-of-context fake news may arise across different domains like politics, sports, entertainment, etc. In practical scenarios, an inherent problem of imbalance exists among news articles from such widely varying domains, resulting in a few domains with abundant data, while the rest containing very limited data. Under such circumstances, it is imperative to develop methods which can work in such varying amounts of data setting. In this work, we explore whether out-of-domain data can help to improve out-of-context misinformation detection (termed here as multi-modal fake news detection) of a desired domain, to address this challenging problem. Towards this goal, we propose a novel framework termed DPOD (Domain-specific Prompt-tuning using Out-of-Domain data). First, to compute generalizable features, we modify the Vision-Language Model, CLIP to extract features that helps to align the representations of the images and corresponding text captions of both the in-domain and out-of-domain data in a label-aware manner. Further, we propose a domain-specific prompt learning technique which leverages the training samples of all the available domains based on the extent they can be useful to the desired domain. Extensive experiments on a large-scale benchmark dataset, namely NewsCLIPpings demonstrate that the proposed framework achieves state of-the-art performance, significantly surpassing the existing approaches for this challenging task. Code will be released on acceptance.
翻訳日:2024-03-11 23:06:33 公開日:2024-03-08
# 統一バッチ正規化: バッチ正規化における特徴凝縮の同定と緩和と統一フレームワーク

Unified Batch Normalization: Identifying and Alleviating the Feature Condensation in Batch Normalization and a Unified Framework ( http://arxiv.org/abs/2311.15993v2 )

ライセンス: Link先を確認
Shaobo Wang, Xiangdong Zhang, Dongrui Liu, Junchi Yan(参考訳) バッチ正規化(BN)は、現代のニューラルネットワーク設計において不可欠な技術となり、トレーニングの安定性を高めている。 特にbnは、バッチ次元に沿って機能を標準化するためにセンタリングとスケーリング操作を採用し、アフィン変換を使用して機能を復元する。 標準BNは、ディープニューラルネットワークトレーニングと収束を改善する能力を示しているが、特定のケースには固有の制限がある。 BNの現在の拡張は通常、そのメカニズムの孤立した側面にのみ対処する。 本研究では,機能の観点からBNを批判的に検討し,BN中の特徴凝縮をテスト性能の劣化要因として同定する。 この問題に対処するため,Unified Batch Normalization (UBN) と呼ばれる2段階の統合フレームワークを提案する。 第1段階では,素直な特徴凝縮閾値を用いて凝縮効果を緩和し,統計的規範の不適切な更新を防止する。 第2段階では、種々の正規化変種を統一し、BNの各成分を増強する。 実験の結果,udnは異なる視覚バックボーンと異なる視覚タスクのパフォーマンスを著しく向上させ,特に初期トレーニング段階におけるネットワークトレーニングの収束を早めていることが明らかとなった。 特に,イメージネット分類では約3%,COCOデータセットではオブジェクト検出とインスタンス分割の両方の平均精度が4%向上し,実際のシナリオにおけるアプローチの有効性が示された。

Batch Normalization (BN) has become an essential technique in contemporary neural network design, enhancing training stability. Specifically, BN employs centering and scaling operations to standardize features along the batch dimension and uses an affine transformation to recover features. Although standard BN has shown its capability to improve deep neural network training and convergence, it still exhibits inherent limitations in certain cases. Current enhancements to BN typically address only isolated aspects of its mechanism. In this work, we critically examine BN from a feature perspective, identifying feature condensation during BN as a detrimental factor to test performance. To tackle this problem, we propose a two-stage unified framework called Unified Batch Normalization (UBN). In the first stage, we employ a straightforward feature condensation threshold to mitigate condensation effects, thereby preventing improper updates of statistical norms. In the second stage, we unify various normalization variants to boost each component of BN. Our experimental results reveal that UBN significantly enhances performance across different visual backbones and different vision tasks, and notably expedites network training convergence, particularly in early training stages. Notably, our method improved about 3% in accuracy on ImageNet classification and 4% in mean average precision on both Object Detection and Instance Segmentation on COCO dataset, showing the effectiveness of our approach in real-world scenarios.
翻訳日:2024-03-11 23:05:57 公開日:2024-03-08
# ヒトアルブミン予測のための分布外一般化動的グラフニューラルネットワーク

Out-of-Distribution Generalized Dynamic Graph Neural Network for Human Albumin Prediction ( http://arxiv.org/abs/2311.15545v2 )

ライセンス: Link先を確認
Zeyang Zhang and Xingwang Li and Fei Teng and Ning Lin and Xueling Zhu and Xin Wang and Wenwu Zhu(参考訳) ヒトアルブミンは全身の健康を示すのに必須である。 血漿アルブミン濃度の正確な予測と適切な投与量の決定は、特に重篤な患者において、最適な血中濃度を維持するための緊急臨床課題である。 しかし、ヒトアルブミンの予測は自明ではなく、生化学的マーカーのダイナミクスと患者の治療経験を活用しなければならない。 さらに、実際の臨床データでは分布シフトの問題が発生することが多く、モデル予測性能が低下し、モデルの信頼性が低下する可能性がある。 本稿では,院内入院中のインテンシティケアユニット (ICU) 患者に対して,正確なアルブミン予測を行うことのできる,DyG-HAP (Out-of-Distriion Generalized Dynamic Graph Neural Network for Human Albumin Prediction) というフレームワークを提案する。 まず,人間のアルブミン予測を動的グラフ回帰問題としてモデル化し,ダイナミックスと患者関係をモデル化する。 そこで本研究では,分散シフトにおけるラベルの関係が不変かつ変動であるパターンを捕捉・アンタングルする動的グラフアテンション機構を提案する。 最後に,モデルが不変パターンに依存して予測を行うように促す不変動的グラフ回帰法を提案する。 さらに,ANIC (Intensive Care) の評価のために,B albumin レベルテストと栄養摂取データというデータセットを提案する。 ヒトアルブミン予測におけるいくつかの基準法と比較して,本手法の優位性を示した。

Human albumin is essential for indicating the body's overall health. Accurately predicting plasma albumin levels and determining appropriate doses are urgent clinical challenges, particularly in critically ill patients, to maintain optimal blood levels. However, human albumin prediction is non-trivial that has to leverage the dynamics of biochemical markers as well as the experience of treating patients. Moreover, the problem of distribution shift is often encountered in real clinical data, which may lead to a decline in the model prediction performance and reduce the reliability of the model's application. In this paper, we propose a framework named Out-of-Distribution Generalized Dynamic Graph Neural Network for Human Albumin Prediction (DyG-HAP), which is able to provide accurate albumin predictions for Intensity Care Unit (ICU) patients during hospitalization. We first model human albumin prediction as a dynamic graph regression problem to model the dynamics and patient relationship. Then, we propose a disentangled dynamic graph attention mechanism to capture and disentangle the patterns whose relationship to labels under distribution shifts is invariant and variant respectively. Last, we propose an invariant dynamic graph regression method to encourage the model to rely on invariant patterns to make predictions. Moreover, we propose a dataset named Albumin level testing and nutritional dosing data for Intensive Care (ANIC) for evaluation. Extensive experiments demonstrate the superiority of our method compared to several baseline methods in human albumin prediction.
翻訳日:2024-03-11 23:05:32 公開日:2024-03-08
# 2軌道非エルミート結合鎖の回路実現

Circuit realisation of a two-orbital non-Hermitian tight-binding chain ( http://arxiv.org/abs/2311.15014v2 )

ライセンス: Link先を確認
Dipendu Halder, Ronny Thomale, Saurabh Basu(参考訳) 単位セル当たり2つの軌道と電気回路アナログからなる非ヘルミタン(nh)タイト結合系について検討した。 非相反的近傍結合とオンサイトゲイン/ロス項によって特徴づけられるpt対称と非pt対称のケースを区別する。 エッジモードの局所化や位相的性質の出現は、ハミルトニアンを定義するパラメータに異なる依存性を持つ最大逆参加比によって決定される。 上記のシナリオはいずれも非エルミート皮膚効果を示すものではない。 2ポートインピーダンスを解析し、周期的境界条件を課すことで回路のアプタンスバンド構造を復元することにより、適切な設計の電気回路における位相位相に対応する境界モードについて検討する。 得られた結果は、2軌道モデルのエルミートバージョンに対してベンチマークされ、NH変種と比較および識別される。

We examine a non-Hermitian (NH) tight-binding system comprising of two orbitals per unit cell and their electrical circuit analogues. We distinguish the PT-symmetric and non-PT symmetric cases characterised by non-reciprocal nearest neighbour couplings and onsite gain/loss terms, respectively. The localisation of the edge modes or the emergence of the topological properties are determined via the maximum inverse participation ratio, which has distinct dependencies on the parameters that define the Hamiltonian. None of the above scenarios exhibits the non-Hermitian skin effect. We investigate the boundary modes corresponding to the topological phases in a suitably designed electrical circuit by analyzing the two-port impedance and retrieve the admittance band structure of the circuit via imposing periodic boundary conditions. The obtained results are benchmarked against the Hermitian version of the two-orbital model to compare and discriminate against those obtained for the NH variants.
翻訳日:2024-03-11 23:05:08 公開日:2024-03-08
# 絡み合った干渉と分散促進を伴う分布外一般化動的グラフニューラルネットワーク

Out-of-Distribution Generalized Dynamic Graph Neural Network with Disentangled Intervention and Invariance Promotion ( http://arxiv.org/abs/2311.14255v2 )

ライセンス: Link先を確認
Zeyang Zhang, Xin Wang, Ziwei Zhang, Haoyang Li, Wenwu Zhu(参考訳) 動的グラフニューラルネットワーク(DyGNN)は、グラフ構造と時間的ダイナミクスを利用して、強力な予測能力を示す。 しかし、DyGNNsは分散シフトを扱うことができず、DyGNNsが悪用したパターンは分散シフトのラベルに対して変動する可能性があるため、動的グラフに自然に存在する。 本稿では,不変パターン,すなわち分布シフト間での予測能力が安定な構造や特徴を発見・活用することにより,動的グラフにおける時空間的分布シフトを処理するために,分散促進(i-dida)を用いた異方性インベンションに基づく動的グラフアテンションネットワークを提案する。 具体的には,まず,変形パターンと不変パターンを捉えるために,時空間的注意ネットワークを提案する。 本研究では,複数の介入分布を作成できる時空間的介入機構と,潜在時空間環境を推定する環境推論モジュールを設計し,これらの介入された分布と環境間の予測の分散を最小化し,分布シフト下で安定な予測能力を有する不変パターンに基づく予測を行う。 広範にわたる実験により,分布シフト下での最先端ベースラインよりも優れた手法が得られた。 我々の研究は、動的グラフにおける時空間分布シフトに関する最初の研究である。

Dynamic graph neural networks (DyGNNs) have demonstrated powerful predictive abilities by exploiting graph structural and temporal dynamics. However, the existing DyGNNs fail to handle distribution shifts, which naturally exist in dynamic graphs, mainly because the patterns exploited by DyGNNs may be variant with respect to labels under distribution shifts. In this paper, we propose Disentangled Intervention-based Dynamic graph Attention networks with Invariance Promotion (I-DIDA) to handle spatio-temporal distribution shifts in dynamic graphs by discovering and utilizing invariant patterns, i.e., structures and features whose predictive abilities are stable across distribution shifts. Specifically, we first propose a disentangled spatio-temporal attention network to capture the variant and invariant patterns. By utilizing the disentangled patterns, we design a spatio-temporal intervention mechanism to create multiple interventional distributions and an environment inference module to infer the latent spatio-temporal environments, and minimize the variance of predictions among these intervened distributions and environments, so that our model can make predictions based on invariant patterns with stable predictive abilities under distribution shifts. Extensive experiments demonstrate the superiority of our method over state-of-the-art baselines under distribution shifts. Our work is the first study of spatio-temporal distribution shifts in dynamic graphs, to the best of our knowledge.
翻訳日:2024-03-11 23:04:51 公開日:2024-03-08
# 脳記録からの言語生成

Language Generation from Brain Recordings ( http://arxiv.org/abs/2311.09889v4 )

ライセンス: Link先を確認
Ziyi Ye, Qingyao Ai, Yiqun Liu, Maarten de Rijke, Min Zhang, Christina Lioma, Tuukka Ruotsalo(参考訳) 非侵襲的脳-コンピュータインタフェース(BCI)による人間の言語の生成は、障害者に提供したりコミュニケーションを改善するなど、多くの応用を解き放つ可能性がある。 しかし、現在、bcisによる言語生成は、最も可能性の高い皮質意味表現を持つ前生成文継続候補を選択するための分類設定でのみ成功している。 脳と大規模計算言語モデルとの関係を明らかにする最近の研究に触発されて,意味的脳デコーダと組み合わせて,機能的磁気共鳴画像(fMRI)入力から言語を直接生成する,大規模言語モデル(LLM)のキャパシティを利用する生成言語BCIを提案する。 提案モデルは,事前生成した候補の事前知識を必要とせず,視覚刺激や聴覚刺激の意味的内容に整合したコヒーレントな言語系列を生成することができる。 提案したモデルから生成された言語を,ランダム制御,事前生成言語選択アプローチ,および標準LCMと比較し,統計的言語学習データに基づいて,次の単語の確率のみに基づいて共通コヒーレントテキストを生成する。 提案モデルでは,脳の入力がサンプリングされたときのセマンティック刺激とより整合した言語を生成する。 本研究は,直接言語生成におけるbcis活用の可能性と実現可能性を示す。

Generating human language through non-invasive brain-computer interfaces (BCIs) has the potential to unlock many applications, such as serving disabled patients and improving communication. Currently, however, generating language via BCIs has been previously successful only within a classification setup for selecting pre-generated sentence continuation candidates with the most likely cortical semantic representation. Inspired by recent research that revealed associations between the brain and the large computational language models, we propose a generative language BCI that utilizes the capacity of a large language model (LLM) jointly with a semantic brain decoder to directly generate language from functional magnetic resonance imaging (fMRI) input. The proposed model can generate coherent language sequences aligned with the semantic content of visual or auditory language stimuli perceived, without prior knowledge of any pre-generated candidates. We compare the language generated from the presented model with a random control, pre-generated language selection approach, and a standard LLM, which generates common coherent text solely based on the next word likelihood according to statistical language training data. The proposed model is found to generate language that is more aligned with semantic stimulus in response to which brain input is sampled. Our findings demonstrate the potential and feasibility of employing BCIs in direct language generation.
翻訳日:2024-03-11 23:04:28 公開日:2024-03-08
# ルール学習による説明可能な分類のための投票アプローチ

A Voting Approach for Explainable Classification with Rule Learning ( http://arxiv.org/abs/2311.07323v2 )

ライセンス: Link先を確認
Albert N\"ossig, Tobias Hell, Georg Moser(参考訳) 典型的な分類タスクにおける最先端の結果は、主に深層ニューラルネットワークのような説明不能な機械学習手法によって達成される。 本稿では,このような文脈におけるルール学習手法の適用について検討する。 したがって、分類は理解可能な(一階の)規則に基づいており、予測を説明する。 しかし、一般的には、規則に基づく分類は最先端の結果よりも正確ではない(しばしば顕著に)。 主な貢献として,両世界を組み合わせた投票手法を導入し,比較結果を(説明不能な)最先端の手法として実現し,決定論的ルールの形での説明を継続する。 保険業界に多大な関心を寄せるユースケースを含む様々なベンチマークデータセットを考慮して,本手法が通常のルール学習手法を明らかに上回るだけでなく,最先端の成果に匹敵する結果が得られることを実証する。

State-of-the-art results in typical classification tasks are mostly achieved by unexplainable machine learning methods, like deep neural networks, for instance. Contrarily, in this paper, we investigate the application of rule learning methods in such a context. Thus, classifications become based on comprehensible (first-order) rules, explaining the predictions made. In general, however, rule-based classifications are less accurate than state-of-the-art results (often significantly). As main contribution, we introduce a voting approach combining both worlds, aiming to achieve comparable results as (unexplainable) state-of-the-art methods, while still providing explanations in the form of deterministic rules. Considering a variety of benchmark data sets including a use case of significant interest to insurance industries, we prove that our approach not only clearly outperforms ordinary rule learning methods, but also yields results on a par with state-of-the-art outcomes.
翻訳日:2024-03-11 23:04:05 公開日:2024-03-08
# 気象・気候の神経一般循環モデル

Neural General Circulation Models for Weather and Climate ( http://arxiv.org/abs/2311.07222v3 )

ライセンス: Link先を確認
Dmitrii Kochkov, Janni Yuval, Ian Langmore, Peter Norgaard, Jamie Smith, Griffin Mooers, Milan Kl\"ower, James Lottes, Stephan Rasp, Peter D\"uben, Sam Hatfield, Peter Battaglia, Alvaro Sanchez-Gonzalez, Matthew Willson, Michael P. Brenner, Stephan Hoyer(参考訳) 一般的な循環モデル(GCM)は気象と気候予測の基礎である。 gcmsは、大規模ダイナミクスのための数値解法と、雲形成のような小規模プロセスのための調律表現を組み合わせた物理ベースのシミュレータである。 近年,再分析データに基づく機械学習(ml)モデルが,気象予報のためのgcmと同等あるいは優れたスキルを達成している。 しかし,これらのモデルではアンサンブル予測の改善は示されておらず,長期気象・気候シミュレーションに十分な安定性を示した。 本稿では,大気力学の微分可能な解法をML成分と組み合わせた最初のGCMについて述べる。 NeuralGCMは1~10日の予測でMLモデルと競合し、European Centre for Medium-Range Weather Forecasts は1~15日の予測で一致している。 所定の海面温度で、ニューラルgcmは地球平均気温などの気候指標を何十年も正確に追跡することができ、140kmの解像度の気候予測では、現実の頻度や熱帯サイクロンの軌道のような創発的な現象を示す。 気象・気候の両面では,従来のGCMよりも桁違いの計算コストを削減できる。 この結果から, エンド・ツー・エンドの深層学習は従来のGCMのタスクと互換性があり, 地球系の理解と予測に不可欠な大規模物理シミュレーションを向上できることがわかった。

General circulation models (GCMs) are the foundation of weather and climate prediction. GCMs are physics-based simulators which combine a numerical solver for large-scale dynamics with tuned representations for small-scale processes such as cloud formation. Recently, machine learning (ML) models trained on reanalysis data achieved comparable or better skill than GCMs for deterministic weather forecasting. However, these models have not demonstrated improved ensemble forecasts, or shown sufficient stability for long-term weather and climate simulations. Here we present the first GCM that combines a differentiable solver for atmospheric dynamics with ML components, and show that it can generate forecasts of deterministic weather, ensemble weather and climate on par with the best ML and physics-based methods. NeuralGCM is competitive with ML models for 1-10 day forecasts, and with the European Centre for Medium-Range Weather Forecasts ensemble prediction for 1-15 day forecasts. With prescribed sea surface temperature, NeuralGCM can accurately track climate metrics such as global mean temperature for multiple decades, and climate forecasts with 140 km resolution exhibit emergent phenomena such as realistic frequency and trajectories of tropical cyclones. For both weather and climate, our approach offers orders of magnitude computational savings over conventional GCMs. Our results show that end-to-end deep learning is compatible with tasks performed by conventional GCMs, and can enhance the large-scale physical simulations that are essential for understanding and predicting the Earth system.
翻訳日:2024-03-11 23:03:52 公開日:2024-03-08
# ファウショット関係抽出のための明示的エビデンス推論による思考の連鎖

Chain of Thought with Explicit Evidence Reasoning for Few-shot Relation Extraction ( http://arxiv.org/abs/2311.05922v3 )

ライセンス: Link先を確認
Xilai Ma, Jing Li and Min Zhang(参考訳) わずかなショット関係抽出は、限られた数の注釈付きサンプルを使用して、テキスト内の2つの特定のエンティティ間の関係のタイプを識別することを含む。 この問題に対する様々な解決策は、メタラーニングとニューラルグラフ技術を適用し、適応のためのトレーニングプロセスを必要としている。 近年,文脈内学習の戦略は,学習を必要とせずに顕著な成果を上げている。 ゼロショット情報抽出にコンテキスト内学習を利用した研究はほとんどない。 不幸なことに、推論の証拠は、チェーン・オブ・ソート・プロンプトの構築中に考慮または暗黙的にモデル化されない。 本稿では,大規模な言語モデルであるcot-erを用いて,明示的な証拠推論をともなう連鎖的思考モデルを用いた,二発的関係抽出のための新しい手法を提案する。 特に、CoT-ERはタスク固有の知識と概念レベルの知識を用いて証拠を生成するために、まず大きな言語モデルを誘導する。 その後、これらの証拠は、関係抽出を促そうとする思考の連鎖に明示的に組み込まれる。 実験結果から,FewRel1.0およびFewRel2.0データセットにおけるCoT-ERアプローチ(トレーニングデータ0%)は,完全教師付き(100%トレーニングデータ)の最先端アプローチと比較して,競争性能が向上することが示された。

Few-shot relation extraction involves identifying the type of relationship between two specific entities within a text, using a limited number of annotated samples. A variety of solutions to this problem have emerged by applying meta-learning and neural graph techniques which typically necessitate a training process for adaptation. Recently, the strategy of in-context learning has been demonstrating notable results without the need of training. Few studies have already utilized in-context learning for zero-shot information extraction. Unfortunately, the evidence for inference is either not considered or implicitly modeled during the construction of chain-of-thought prompts. In this paper, we propose a novel approach for few-shot relation extraction using large language models, named CoT-ER, chain-of-thought with explicit evidence reasoning. In particular, CoT-ER first induces large language models to generate evidences using task-specific and concept-level knowledge. Then these evidences are explicitly incorporated into chain-of-thought prompting for relation extraction. Experimental results demonstrate that our CoT-ER approach (with 0% training data) achieves competitive performance compared to the fully-supervised (with 100% training data) state-of-the-art approach on the FewRel1.0 and FewRel2.0 datasets.
翻訳日:2024-03-11 23:03:28 公開日:2024-03-08
# 部分可観測性を用いた多視点因果表現学習

Multi-View Causal Representation Learning with Partial Observability ( http://arxiv.org/abs/2311.04056v2 )

ライセンス: Link先を確認
Dingling Yao, Danru Xu, S\'ebastien Lachapelle, Sara Magliacane, Perouz Taslakian, Georg Martius, Julius von K\"ugelgen and Francesco Locatello(参考訳) 本稿では,データモダリティの相違など,同時観測されたビューから学習した表現の識別性を研究するための統一フレームワークを提案する。 各ビューが基礎となる潜在変数のサブセットの非線形混合を構成する部分的観測設定を可能とし、因果的に関連付けることができる。 任意のビューのすべてのサブセット間で共有される情報は、コントラスト学習とビュー毎の単一エンコーダを用いて、スムーズなビジェクションまで学習できることを実証する。 また,任意の潜在変数を単純なルールセットで識別できることを示すグラフィカルな基準を提供し,これを識別可能代数学と呼ぶ。 我々の一般的な枠組みと理論的結果は、多視点非線形ICA、非絡み合い、因果表現学習に関する過去の研究を統一し拡張する。 数値、画像、マルチモーダルデータセットに関する我々の主張を実験的に検証する。 さらに,従来手法の性能が,設定の特別な場合に異なる場合に回復できることを実証する。 全体として、複数の部分ビューへのアクセスによって、部分的可観測性という仮定の下で、よりきめ細かい表現を識別できることが分かっています。

We present a unified framework for studying the identifiability of representations learned from simultaneously observed views, such as different data modalities. We allow a partially observed setting in which each view constitutes a nonlinear mixture of a subset of underlying latent variables, which can be causally related. We prove that the information shared across all subsets of any number of views can be learned up to a smooth bijection using contrastive learning and a single encoder per view. We also provide graphical criteria indicating which latent variables can be identified through a simple set of rules, which we refer to as identifiability algebra. Our general framework and theoretical results unify and extend several previous works on multi-view nonlinear ICA, disentanglement, and causal representation learning. We experimentally validate our claims on numerical, image, and multi-modal data sets. Further, we demonstrate that the performance of prior methods is recovered in different special cases of our setup. Overall, we find that access to multiple partial views enables us to identify a more fine-grained representation, under the generally milder assumption of partial observability.
翻訳日:2024-03-11 23:03:09 公開日:2024-03-08
# 対称固定点反復に対する窓付きアンダーソン加速度の収束率の改善

Improved Convergence Rates of Windowed Anderson Acceleration for Symmetric Fixed-Point Iterations ( http://arxiv.org/abs/2311.02490v2 )

ライセンス: Link先を確認
Casey Garner and Gilad Lerman and Teng Zhang(参考訳) 本稿では,固定点法,$x^{(k+1)}=q(x^{(k)})$に対するウィンドウ付きアンダーソン加速度(AA)アルゴリズムについて検討する。 演算子$q$が線型で対称なとき、先行反復のスライディングウインドウを使用するウィンドウ付きAAは固定点反復よりも根線型収束係数を改善するという最初の証明を提供する。 q$ が非線形であるが、固定点に対称なヤコビアンを持つとき、わずかに修正された AA アルゴリズムは、固定点反復よりも類似したルート-線形収束係数の改善を持つことが証明される。 シミュレーションは我々の観察を検証する。 さらに、異なるデータモデルを用いた実験により、AAはタイラーのM推定の標準的な固定点法よりもはるかに優れていることが示された。

This paper studies the commonly utilized windowed Anderson acceleration (AA) algorithm for fixed-point methods, $x^{(k+1)}=q(x^{(k)})$. It provides the first proof that when the operator $q$ is linear and symmetric the windowed AA, which uses a sliding window of prior iterates, improves the root-linear convergence factor over the fixed-point iterations. When $q$ is nonlinear, yet has a symmetric Jacobian at a fixed point, a slightly modified AA algorithm is proved to have an analogous root-linear convergence factor improvement over fixed-point iterations. Simulations verify our observations. Furthermore, experiments with different data models demonstrate AA is significantly superior to the standard fixed-point methods for Tyler's M-estimation.
翻訳日:2024-03-11 23:02:52 公開日:2024-03-08
# 複数のインスタンス学習を伴う混合モデル

Mixed Models with Multiple Instance Learning ( http://arxiv.org/abs/2311.02455v2 )

ライセンス: Link先を確認
Jan P. Engelmann, Alessandro Palma, Jakub M. Tomczak, Fabian J. Theis, Francesco Paolo Casale(参考訳) 単細胞データから患者の特徴を予測することは、健康や疾患にかかわる細胞状態を特定するのに役立つ。 線形モデルと平均的な細胞型表現は、その効率性と頑健性のためにこのタスクに好まれるが、単細胞データに固有の豊富な細胞多様性を見落としている。 このギャップに対処するため、我々は、一般化線形混合モデル(GLMM)と多重インスタンス学習(MIL)を統合したフレームワークであるMixMILを導入し、セル状態の不均一性をモデル化しながら線形モデルの利点を裏付ける。 事前に定義されたセル埋め込みを活用することで、MixMILは計算効率を高め、シングルセル表現学習の最近の進歩と整合する。 実験の結果,MixMILは単一セルデータセットにおいて既存のMILモデルよりも優れており,新たな関連性を明らかにし,異なる領域にわたる生物学的機構を明らかにする。

Predicting patient features from single-cell data can help identify cellular states implicated in health and disease. Linear models and average cell type expressions are typically favored for this task for their efficiency and robustness, but they overlook the rich cell heterogeneity inherent in single-cell data. To address this gap, we introduce MixMIL, a framework integrating Generalized Linear Mixed Models (GLMM) and Multiple Instance Learning (MIL), upholding the advantages of linear models while modeling cell state heterogeneity. By leveraging predefined cell embeddings, MixMIL enhances computational efficiency and aligns with recent advancements in single-cell representation learning. Our empirical results reveal that MixMIL outperforms existing MIL models in single-cell datasets, uncovering new associations and elucidating biological mechanisms across different domains.
翻訳日:2024-03-11 23:02:38 公開日:2024-03-08
# APRICOT-Mamba: Acuity Prediction in Intensive Care Unit (ICU) : 安定度・遷移度・寿命予測モデルの開発と検証

APRICOT-Mamba: Acuity Prediction in Intensive Care Unit (ICU): Development and Validation of a Stability, Transitions, and Life-Sustaining Therapies Prediction Model ( http://arxiv.org/abs/2311.02026v2 )

ライセンス: Link先を確認
Miguel Contreras, Brandon Silva, Benjamin Shickel, Tezcan Ozrazgat-Baslanti, Yuanfang Ren, Ziyuan Guan, Jeremy Balch, Jiaqing Zhang, Sabyasachi Bandyopadhyay, Kia Khezeli, Azra Bihorac, Parisa Rashidi(参考訳) 集中治療室(ICU)の患者の体力状態は、すぐに安定して不安定になる。 早期の劣化状態の検出は、タイムリーな介入と生存率の向上をもたらす可能性がある。 本研究では,ICU患者に対するAPRICOT-M(Acuity Prediction in Intensive Care Unit-Mamba)を提案する。 このモデルでは、ICUの4時間前のデータと入院時に得られた患者情報を用いて、次の4時間における明度結果を予測する。 We validated APRICOT-M externally on data from hospitals not used in development (75,668 patients from 147 hospitals), temporally on data from a period not used in development (12,927 patients from one hospital from 2018-2019), and prospectively on data collected in real-time (215 patients from one hospital from 2021-2023) using three large datasets: the University of Florida Health (UFH) dataset, the electronic ICU Collaborative Research Database (eICU), and the Medical Information Mart for Intensive Care (MIMIC)-IV. APRICOT-Mの死亡率曲線 (external 0.94-0.95, temporal 0.97-0.98, prospective 0.96-1.00) と Acuity (external 0.95-0.95, temporal 0.97-0.97, prospective 0.96-0.96) の下の領域は、最先端技術モデルと同等の結果を示す。 さらに、APRICOT-Mは不安定への遷移(外部の0.11-0.82, 時間的な 0.77-0.78, 予測的な 0.68-0.75)を予測でき、機械的換気(外部の 0.82-0.83, 時間的 0.87-0.88, 予測的な 0.67-0.76)や血管圧薬(外部の 0.81-0.82, 時間的 0.73-0.75, 予測的な 0.66-0.74)を含む生命維持療法の必要性がある。 このツールは、重篤な患者に対するリアルタイムの明度モニタリングを可能にし、クリニックがタイムリーな介入を行うのを助ける。

The acuity state of patients in the intensive care unit (ICU) can quickly change from stable to unstable. Early detection of deteriorating conditions can result in providing timely interventions and improved survival rates. In this study, we propose APRICOT-M (Acuity Prediction in Intensive Care Unit-Mamba), a 150k-parameter state space-based neural network to predict acuity state, transitions, and the need for life-sustaining therapies in real-time in ICU patients. The model uses data obtained in the prior four hours in the ICU and patient information obtained at admission to predict the acuity outcomes in the next four hours. We validated APRICOT-M externally on data from hospitals not used in development (75,668 patients from 147 hospitals), temporally on data from a period not used in development (12,927 patients from one hospital from 2018-2019), and prospectively on data collected in real-time (215 patients from one hospital from 2021-2023) using three large datasets: the University of Florida Health (UFH) dataset, the electronic ICU Collaborative Research Database (eICU), and the Medical Information Mart for Intensive Care (MIMIC)-IV. The area under the receiver operating characteristic curve (AUROC) of APRICOT-M for mortality (external 0.94-0.95, temporal 0.97-0.98, prospective 0.96-1.00) and acuity (external 0.95-0.95, temporal 0.97-0.97, prospective 0.96-0.96) shows comparable results to state-of-the-art models. Furthermore, APRICOT-M can predict transitions to instability (external 0.81-0.82, temporal 0.77-0.78, prospective 0.68-0.75) and need for life-sustaining therapies, including mechanical ventilation (external 0.82-0.83, temporal 0.87-0.88, prospective 0.67-0.76), and vasopressors (external 0.81-0.82, temporal 0.73-0.75, prospective 0.66-0.74). This tool allows for real-time acuity monitoring in critically ill patients and can help clinicians make timely interventions.
翻訳日:2024-03-11 23:02:23 公開日:2024-03-08
# バランシング法:スパースモデルにおける異種影響の制約

Balancing Act: Constraining Disparate Impact in Sparse Models ( http://arxiv.org/abs/2310.20673v2 )

ライセンス: Link先を確認
Meraj Hashemizadeh, Juan Ramirez, Rohan Sukumaran, Golnoosh Farnadi, Simon Lacoste-Julien, Jose Gallego-Posada(参考訳) モデルプルーニングは、計算能力やストレージ容量が制限されたエッジデバイスに大規模なディープラーニングモデルをデプロイするための一般的なアプローチである。 スパースモデルはデータセット全体のレベルで密度の高いそれと同等のパフォーマンスを実現するが、一部のデータサブグループでは高い精度の低下を示す。 刈り込みによるこの異なる影響を緩和する既存の方法 (i)間接的に問題に対処し、解釈可能性に制限のある代理メトリクスに依存すること。 (二)計算コストの点で保護された部分群の数に乏しくスケールする。 我々の定式化は, 各部分群に対して, 密度モデルとスパースモデルの間の精度変化を境界として, プルーニングの異なる影響に直列に対処する制約付き最適化手法を提案する。 この制約の選択は、プルーンドモデルが許容される格差レベルを達成するかどうかを決定するための解釈可能な成功基準を提供する。 実験の結果,本手法は,大規模モデルと数百の保護サブグループに関する問題に対して確実に適用できることがわかった。

Model pruning is a popular approach to enable the deployment of large deep learning models on edge devices with restricted computational or storage capacities. Although sparse models achieve performance comparable to that of their dense counterparts at the level of the entire dataset, they exhibit high accuracy drops for some data sub-groups. Existing methods to mitigate this disparate impact induced by pruning (i) rely on surrogate metrics that address the problem indirectly and have limited interpretability; or (ii) scale poorly with the number of protected sub-groups in terms of computational cost. We propose a constrained optimization approach that directly addresses the disparate impact of pruning: our formulation bounds the accuracy change between the dense and sparse models, for each sub-group. This choice of constraints provides an interpretable success criterion to determine if a pruned model achieves acceptable disparity levels. Experimental results demonstrate that our technique scales reliably to problems involving large models and hundreds of protected sub-groups.
翻訳日:2024-03-11 23:01:33 公開日:2024-03-08
# RealCraft: ゼロショット一貫性ビデオ編集ツールとしての注意制御

RealCraft: Attention Control as A Tool for Zero-Shot Consistent Video Editing ( http://arxiv.org/abs/2312.12635v3 )

ライセンス: Link先を確認
Shutong Jin, Ruiyu Wang, Florian T. Pokorny(参考訳) 大規模なテキスト画像生成モデルは高品質な画像の合成に有望な性能を示すが、これらのモデルを画像編集に直接適用することは大きな課題である。 この課題は、追加の時間次元のため、ビデオ編集においてさらに増幅される。 これは特に、既存のコンテンツを中断することなくローカライズされた編集を実行しながら、フレーム間の安定した構造的レイアウトを維持する必要があるため、現実世界のビデオを編集する場合である。 本稿では,ゼロショット映像編集のための注意制御方式であるRealCraftを提案する。 新たな特徴注入にクロスアテンションを切り替え,編集対象の空間的注意を緩和することにより,時間的一貫性の向上とともに,局所的な形状的編集を実現する。 我々のモデルは安定した拡散を直接利用し、追加情報なしで操作する。 提案したゼロショットアテンション制御方式は,最大64フレームの動画において,形状,時間一貫性,パラメータフリーな編集を実演する。

Even though large-scale text-to-image generative models show promising performance in synthesizing high-quality images, applying these models directly to image editing remains a significant challenge. This challenge is further amplified in video editing due to the additional dimension of time. This is especially the case for editing real-world videos as it necessitates maintaining a stable structural layout across frames while executing localized edits without disrupting the existing content. In this paper, we propose RealCraft, an attention-control-based method for zero-shot real-world video editing. By swapping cross-attention for new feature injection and relaxing spatial-temporal attention of the editing object, we achieve localized shape-wise edit along with enhanced temporal consistency. Our model directly uses Stable Diffusion and operates without the need for additional information. We showcase the proposed zero-shot attention-control-based method across a range of videos, demonstrating shape-wise, time-consistent and parameter-free editing in videos of up to 64 frames.
翻訳日:2024-03-11 22:56:46 公開日:2024-03-08
# LoRAMoE: MoE-Styleプラグインによる大規模言語モデルにおける世界の知識獲得の軽減

LoRAMoE: Alleviate World Knowledge Forgetting in Large Language Models via MoE-Style Plugin ( http://arxiv.org/abs/2312.09979v4 )

ライセンス: Link先を確認
Shihan Dou, Enyu Zhou, Yan Liu, Songyang Gao, Jun Zhao, Wei Shen, Yuhao Zhou, Zhiheng Xi, Xiao Wang, Xiaoran Fan, Shiliang Pu, Jiang Zhu, Rui Zheng, Tao Gui, Qi Zhang, Xuanjing Huang(参考訳) Supervised Fine-tuning (SFT)は、大規模言語モデル(LLM)にとって重要なステップであり、人間の指示と整合し、下流タスクの能力を高めることができる。 命令データの増加は、モデルをより広範囲のダウンストリームタスクにアライメントするための直接的なソリューションであり、特に特定のタスクにおけるパフォーマンスを向上させる。 しかし、大規模な命令データの増加は、llmに格納された世界の知識を損なう可能性がある。 この課題に対処するため、我々はLoRAMoEを提案する。LoRAMoEはいくつかの低ランクアダプタ(LoRA)を導入し、Mixture of Experts(MoE)のプラグインバージョンのようなルータネットワークを用いてそれらを統合する。 バックボーンモデルを凍結し、LoRAの一部に、下流の課題を解決するために世界の知識を活用することに集中させ、世界の知識の最先端の忘れを和らげる。 実験の結果,LRAMoEは命令データの増加に伴い,LLMに格納された世界知識を維持しつつ,下流タスクの処理能力を大幅に向上させることができることがわかった。

Supervised fine-tuning (SFT) is a crucial step for large language models (LLMs), enabling them to align with human instructions and enhance their capabilities in downstream tasks. Increasing instruction data substantially is a direct solution to align the model with a broader range of downstream tasks or notably improve its performance on a specific task. However, we find that large-scale increases in instruction data can damage the world knowledge previously stored in LLMs. To address this challenge, we propose LoRAMoE, a novelty framework that introduces several low-rank adapters (LoRA) and integrates them by using a router network, like a plugin version of Mixture of Experts (MoE). It freezes the backbone model and forces a portion of LoRAs to focus on leveraging world knowledge to solve downstream tasks, to alleviate world knowledge-edge forgetting. Experimental results show that, as the instruction data increases, LoRAMoE can significantly improve the ability to process downstream tasks, while maintaining the world knowledge stored in the LLM.
翻訳日:2024-03-11 22:56:29 公開日:2024-03-08
# ERASE:ラベル耐雑音性のためのグラフ上での誤り耐性表現学習

ERASE: Error-Resilient Representation Learning on Graphs for Label Noise Tolerance ( http://arxiv.org/abs/2312.08852v2 )

ライセンス: Link先を確認
Ling-Hao Chen, Yuanshuo Zhang, Taohua Huang, Liangcai Su, Zeyi Lin, Xi Xiao, Xiaobo Xia, and Tongliang Liu(参考訳) 深層学習はグラフ関連のタスクで顕著に成功したが、この成果は大規模で高品質な注釈付きデータセットに大きく依存している。 しかし、そのようなデータセットの取得はコストがかかるため、web検索やユーザタグといった経済的に効率的なソースから得られるラベルを実用化することができる。 残念ながら、これらのラベルはノイズを伴い、ディープネットワークの一般化性能を損なうことが多い。 この課題に対処し、グラフベースタスクにおけるラベルノイズに対するディープラーニングモデルの堅牢性を高めるために、ERASE (Error-Resilient representation learning on graphs for lAbel noiSe tolerancE) と呼ばれる手法を提案する。 ERASEの中核となる考え方は、符号化率の最大化により、エラー耐性のある表現を学習することである。 特に,表現を学習するための分離ラベル伝搬法を提案する。 トレーニングの前には、ノイズラベルは構造的装飾によって事前修正される。 トレーニング中、ERASEはプロトタイプの擬似ラベルとプロパゲーションされた識別ラベルと、表現の更新とエラーレジリエンスを組み合わせ、ノード分類における一般化性能を大幅に改善した。 提案手法は,ノードのラベルのずれによる誤りに対してより効果的に対処し,ノイズの多いグラフデータを扱う際のディープネットワークの堅牢性を高める。 大規模な実験結果から,提案手法は広い雑音レベルにおいて明瞭なマージンで複数のベースラインを上回り,高いスケーラビリティを享受できることが示された。 コードはhttps://github.com/eraseai/eraseでリリースされる。

Deep learning has achieved remarkable success in graph-related tasks, yet this accomplishment heavily relies on large-scale high-quality annotated datasets. However, acquiring such datasets can be cost-prohibitive, leading to the practical use of labels obtained from economically efficient sources such as web searches and user tags. Unfortunately, these labels often come with noise, compromising the generalization performance of deep networks. To tackle this challenge and enhance the robustness of deep learning models against label noise in graph-based tasks, we propose a method called ERASE (Error-Resilient representation learning on graphs for lAbel noiSe tolerancE). The core idea of ERASE is to learn representations with error tolerance by maximizing coding rate reduction. Particularly, we introduce a decoupled label propagation method for learning representations. Before training, noisy labels are pre-corrected through structural denoising. During training, ERASE combines prototype pseudo-labels with propagated denoised labels and updates representations with error resilience, which significantly improves the generalization performance in node classification. The proposed method allows us to more effectively withstand errors caused by mislabeled nodes, thereby strengthening the robustness of deep networks in handling noisy graph data. Extensive experimental results show that our method can outperform multiple baselines with clear margins in broad noise levels and enjoy great scalability. Codes are released at https://github.com/eraseai/erase.
翻訳日:2024-03-11 22:56:06 公開日:2024-03-08
# 二次元空間推定のためのPnPアルゴリズム

A PnP Algorithm for Two-Dimensional Pose Estimation ( http://arxiv.org/abs/2312.08488v3 )

ライセンス: Link先を確認
Joshua Wang(参考訳) 本研究では,2次元運動に制約されたカメラのためのpnpアルゴリズムを提案する(例えば,多くの車輪型ロボットプラットフォームに適用できる)。 この仮定を活用することで、3次元PnPアルゴリズムよりも精度と性能が向上する。 また、曖昧なポーズ推定の発生率も減少させる(多くの場合、スプリアス解は運動面の外側に落ちる)。 本アルゴリズムは多項式系を解いて近似解を求め,その予測を反復的に洗練し,再射誤差を最小化する。 このアルゴリズムは、ノイズに対する精度、性能、堅牢性の観点から、既存の3D PnPアルゴリズムと良好に比較する。

We propose a PnP algorithm for a camera constrained to two-dimensional motion (applicable, for instance, to many wheeled robotics platforms). Leveraging this assumption allows accuracy and performance improvements over 3D PnP algorithms due to the reduction in search space dimensionality. It also reduces the incidence of ambiguous pose estimates (as, in most cases, the spurious solutions fall outside the plane of movement). Our algorithm finds an approximate solution by solving a polynomial system and refines its prediction iteratively to minimize the reprojection error. The algorithm compares favorably to existing 3D PnP algorithms in terms of accuracy, performance, and robustness to noise.
翻訳日:2024-03-11 22:55:38 公開日:2024-03-08
# グローバル潜在型ニューラルレンダリング

Global Latent Neural Rendering ( http://arxiv.org/abs/2312.08338v2 )

ライセンス: Link先を確認
Thomas Tanay and Matteo Maggioni(参考訳) 一般化可能な新しいビュー合成手法の最近のトレンドは、単一のカメラ線に作用するレンダリング演算子を学ぶことである。 このアプローチは、明示的なボリュームレンダリングの必要性をなくすため、有望であるが、ターゲットイメージを独立したピクセルのコレクションとして効果的に扱う。 ここでは,全カメラ光線に作用するグローバルレンダリング演算子を共同で学習することを提案する。 このようなレンダリングを可能にするための正しい表現は、対象カメラに対向する一連の平面上の入力画像の投影からなる5次元平面スイープボリュームであることを示す。 この理解に基づいて,低解像度のラテント空間でグローバルにレンダリング操作を行う効率的な畳み込みアーキテクチャであるConvGLR(Convolutional Global Latent Renderer)を紹介した。 スパースおよび一般化可能な設定下での各種データセットの実験は、我々のアプローチが既存の手法を著しく上回っていることを示している。

A recent trend among generalizable novel view synthesis methods is to learn a rendering operator acting over single camera rays. This approach is promising because it removes the need for explicit volumetric rendering, but it effectively treats target images as collections of independent pixels. Here, we propose to learn a global rendering operator acting over all camera rays jointly. We show that the right representation to enable such rendering is a 5-dimensional plane sweep volume consisting of the projection of the input images on a set of planes facing the target camera. Based on this understanding, we introduce our Convolutional Global Latent Renderer (ConvGLR), an efficient convolutional architecture that performs the rendering operation globally in a low-resolution latent space. Experiments on various datasets under sparse and generalizable setups show that our approach consistently outperforms existing methods by significant margins.
翻訳日:2024-03-11 22:55:27 公開日:2024-03-08
# タスクフィードバックを用いた動的クリッピング手法による政策最適化

A dynamical clipping approach with task feedback for Proximal Policy Optimization ( http://arxiv.org/abs/2312.07624v2 )

ライセンス: Link先を確認
Ziqi Zhang, Jingzehua Xu, Zifeng Zhuang, Jinxin Liu, Donglin wang, Shuai Zhang(参考訳) PPO(Proximal Policy Optimization)は、LLM(Large Language Model)最適化やロボティクス学習など、さまざまな領域に広く適用されている。 しかし、PPOはクリッピングバウンドの固定設定によって制限される。 具体的には、最適クリッピング境界がトレーニングプロセス全体を通して一貫していることの理論的証明はない。 新しいポリシーと古いポリシーの比率をユニークなクリッピングバウンドで縮めることで、安定したトレーニングが保証され、最高のトレーニングパフォーマンスを達成することができる。 さらに、以前の研究では、固定されたクリップング境界がエージェントの探索を制限することを示唆している。 したがって,PPOの性能向上を目的とした動的クリッピングの研究は有用である。 従来のクリッピング手法と異なり、強化学習(RL)タスクにおける最大累積リターンの増大をRLタスクの優先として検討し、ポリシーを最適化するだけでなく、RLタスクの嗜好を反映してクリッピングを動的に調整し、PPOのトレーニング結果と安定性をさらに高める2段階の近位政策最適化パラダイムを提案する。 このbi-level proximal policy optimization (pb-ppo) に基づく新しいアルゴリズムである preference based proximal policy optimization (pb-ppo) を提案する。 このアルゴリズムは、rlの好みを反映したマルチアームバンディットアルゴリズム(このアプローチは人間の好みを反映して利用できることを検証している)を使用し、各時代におけるppoの最適なクリッピングバウンドを推奨し、より安定してより良いトレーニング結果を得る。

Proximal Policy Optimization (PPO) has been broadly applied to various domains, including Large Language Model (LLM) optimization and Robotics learning, etc. However, PPO is limited by a fixed setting for the clipping bound. Specifically, there is no theoretical proof that the optimal clipping bound remains consistent throughout the entire training process. Truncating the ratio of the new and old policies with a unique clipping bound ensures stable training and can achieve the best training performance. Additionally, previous research suggests that a fixed clipping bound limits the agent's exploration. Therefore, researching a dynamical clipping bound to enhance PPO's performance can be highly beneficial. Different from previous clipping approaches, we consider increasing the maximum cumulative Return in reinforcement learning (RL) tasks as the preference of the RL task, and propose a bi-level proximal policy optimization paradigm, which involves not only optimizing the policy but also dynamically adjusting the clipping bound to reflect the preference of the RL tasks to further elevate the training outcomes and stability of PPO. Based on this bi-level proximal policy optimization paradigm, we introduce a new algorithm named Preference based Proximal Policy Optimization (Pb-PPO). This algorithm utilizes a multi-armed bandit algorithm to reflect RL preferences (we also validate that such approach can be utilized to reflect human preference), recommending the optimal clipping bound for PPO in each epoch, thereby achieving more stable and better training outcomes.
翻訳日:2024-03-11 22:55:13 公開日:2024-03-08
# ロボットチームのための可変自律性を実現するための大規模言語モデルの検討

Exploring Large Language Models to Facilitate Variable Autonomy for Human-Robot Teaming ( http://arxiv.org/abs/2312.07214v2 )

ライセンス: Link先を確認
Younes Lakhnati, Max Pascher, Jens Gerken(参考訳) 急速に進化するデジタルランドスケープでは、自律的なツールやロボットが一般的になりつつある。 本稿では,この開発の重要性を認識し,多言語モデル(LLM)であるジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)を人間-ロボット協調環境に統合し,言語-ロボットコミュニケーションによる可変自律性を実現する。 本稿では,単体VR(Unity Virtual Reality)設定に基づく,GPTを利用したマルチロボットテストベッド環境のための新しいフレームワークを提案する。 このシステムにより、ユーザーは自然言語でロボットエージェントと対話でき、それぞれが個々のGPTコアで動く。 OpenAIの関数呼び出しにより、構造化されていない自然言語入力と構造ロボット動作のギャップを埋める。 12人の参加者によるユーザスタディでは、GPT-4の有効性と、さらに重要なのは、マルチロボット環境で自然言語で会話する機会を与えられる際のユーザ戦略について検討している。 以上の結果から,ロボットとの会話の仕方や,ロボット共同作業者の実際の言語や認知能力について,ユーザが事前に期待していたことが示唆された。 それでも、より自然なコミュニケーションのフローと、人間のようなバック・アンド・フォースから恩恵を受けることができるかを探求したユーザーもいる。 同様のシステムの今後の研究および技術的実装について学んだ教訓の集合を提供する。

In a rapidly evolving digital landscape autonomous tools and robots are becoming commonplace. Recognizing the significance of this development, this paper explores the integration of Large Language Models (LLMs) like Generative pre-trained transformer (GPT) into human-robot teaming environments to facilitate variable autonomy through the means of verbal human-robot communication. In this paper, we introduce a novel framework for such a GPT-powered multi-robot testbed environment, based on a Unity Virtual Reality (VR) setting. This system allows users to interact with robot agents through natural language, each powered by individual GPT cores. By means of OpenAI's function calling, we bridge the gap between unstructured natural language input and structure robot actions. A user study with 12 participants explores the effectiveness of GPT-4 and, more importantly, user strategies when being given the opportunity to converse in natural language within a multi-robot environment. Our findings suggest that users may have preconceived expectations on how to converse with robots and seldom try to explore the actual language and cognitive capabilities of their robot collaborators. Still, those users who did explore where able to benefit from a much more natural flow of communication and human-like back-and-forth. We provide a set of lessons learned for future research and technical implementations of similar systems.
翻訳日:2024-03-11 22:54:45 公開日:2024-03-08
# 機械学習と深層学習に基づく脳インスパイアコンピューティングのためのヒューマン・コンピュータインタラクション

Human-computer Interaction for Brain-inspired Computing Based on Machine Learning And Deep Learning: A Review ( http://arxiv.org/abs/2312.07213v3 )

ライセンス: Link先を確認
Bihui Yu, Sibo Zhang, Lili Zhou, Jingxuan Wei, Linzhuang Sun, Liping Bu(参考訳) 人工知能の継続的な発展は、バイオメディシンやその他の分野に大きな影響を与え、新しい研究思想と技術手法を提供する。 脳にインスパイアされたコンピューティングは、マルチモーダル技術とバイオメディカル分野の間の重要な交差点である。 本稿では,人間のコンピュータインタラクションにおける脳信号からテキストや音声を復号するアプリケーションシナリオに着目し,機械学習(ML)とディープラーニング(DL)に基づく脳に触発されたコンピューティングモデルについて,その進化,アプリケーション価値,課題,潜在的研究動向を総合的にレビューする。 我々はまず、その基本的な概念と開発史をレビューし、その進化を2つの段階に分けた。最近の機械学習と現在のディープラーニングであり、脳にインスパイアされたコンピューティングにおける人間とコンピュータの相互作用の研究における各段階の重要性を強調している。 さらに,脳に触発されたコンピュータのためのヒューマン・コンピュータインタラクションのタスクにおけるディープラーニングの最近の進歩を,データセットや異なる脳信号といった6つの視点から概観し,モデルにおける重要な技術の適用について詳細に述べる。 脳にインスパイアされた計算モデルの大幅な進歩にもかかわらず、その能力を完全に活用することが課題であり、将来の学術研究の方向性に関する洞察を提供する。 詳細はgithubのページをご覧ください。 https://github.com/ultracoolhub/brain-inspired-computing.com/。

The continuous development of artificial intelligence has a profound impact on biomedicine and other fields, providing new research ideas and technical methods. Brain-inspired computing is an important intersection between multimodal technology and biomedical field. Focusing on the application scenarios of decoding text and speech from brain signals in human-computer interaction, this paper presents a comprehensive review of the brain-inspired computing models based on machine learning (ML) and deep learning (DL), tracking their evolution, application value, challenges and potential research trends. We first reviews its basic concepts and development history, and divides its evolution into two stages: recent machine learning and current deep learning, emphasizing the importance of each stage in the research of human-computer interaction for brain-inspired computing. In addition, the latest progress of deep learning in different tasks of human-computer interaction for brain-inspired computing is reviewed from six perspectives, such as data sets and different brain signals, and the application of key technologies in the model is elaborated in detail. Despite significant advances in brain-inspired computational models, challenges remain to fully exploit their capabilities, and we provide insights into possible directions for future academic research. For more detailed information, please visit our GitHub page: https://github.com/ultracoolHub/brain-inspired-computing.
翻訳日:2024-03-11 22:54:23 公開日:2024-03-08
# 多視点ディフューザからの最適ビューと幾何蒸留

Optimized View and Geometry Distillation from Multi-view Diffuser ( http://arxiv.org/abs/2312.06198v3 )

ライセンス: Link先を確認
Youjia Zhang, Zikai Song, Junqing Yu, Yawei Luo, Wei Yang(参考訳) イメージコンディショニング拡散モデルを用いた単一入力ビューからのマルチビュー画像生成は,近年の進歩であり,かなりの可能性を示している。 しかし、合成されたビューの一貫性の欠如や抽出された幾何における過剰なスムーシングといった問題は続いている。 従来の手法では、マルチビュー一貫性モジュールを統合するか、カメラ位置決めの柔軟性とビュー合成の汎用性を制限しながら、ビュー一貫性を高めるために追加の監督を課していた。 本研究では, 幾何抽出時に最適化された放射場を, 以前の研究で用いた体積や光の凝集よりも, より厳密な一貫性とみなす。 マルチビューディフューザからのスコア蒸留により,従来の放射界最適化プロセスにおける臨界バイアスを同定し,補正する。 本研究では,2次元拡散モデルによる無条件雑音を利用した非バイアススコア蒸留法(usd)を導入する。 最適化された放射光フィールドからのレンダリングビューをベースとし、オブジェクト固有のノイズ処理や高品質のマルチビュー画像の生成に適した2次元拡散モデルの2段階の特殊化プロセスを開発する。 最後に,改良された多視点画像から直接忠実な形状とテクスチャを復元する。 経験的評価は、我々の最適化した幾何およびビュー蒸留技術が、広範囲のデータセットでトレーニングされた最先端のモデルに匹敵する結果をもたらし、カメラ位置決めの自由を維持していることを示している。 プロジェクトページはhttps://youjiazhang.github.io/USD/。

Generating multi-view images from a single input view using image-conditioned diffusion models is a recent advancement and has shown considerable potential. However, issues such as the lack of consistency in synthesized views and over-smoothing in extracted geometry persist. Previous methods integrate multi-view consistency modules or impose additional supervisory to enhance view consistency while compromising on the flexibility of camera positioning and limiting the versatility of view synthesis. In this study, we consider the radiance field optimized during geometry extraction as a more rigid consistency prior, compared to volume and ray aggregation used in previous works. We further identify and rectify a critical bias in the traditional radiance field optimization process through score distillation from a multi-view diffuser. We introduce an Unbiased Score Distillation (USD) that utilizes unconditioned noises from a 2D diffusion model, greatly refining the radiance field fidelity. We leverage the rendered views from the optimized radiance field as the basis and develop a two-step specialization process of a 2D diffusion model, which is adept at conducting object-specific denoising and generating high-quality multi-view images. Finally, we recover faithful geometry and texture directly from the refined multi-view images. Empirical evaluations demonstrate that our optimized geometry and view distillation technique generates comparable results to the state-of-the-art models trained on extensive datasets, all while maintaining freedom in camera positioning. Please see our project page at https://youjiazhang.github.io/USD/.
翻訳日:2024-03-11 22:53:59 公開日:2024-03-08
# VISAGE: 外観改善によるビデオインスタンスセグメンテーション

VISAGE: Video Instance Segmentation with Appearance-Guided Enhancement ( http://arxiv.org/abs/2312.04885v2 )

ライセンス: Link先を確認
Hanjung Kim, Jaehyun Kang, Miran Heo, Sukjun Hwang, Seoung Wug Oh, Seon Joo Kim(参考訳) 近年, オンラインビデオインスタンスセグメンテーション (VIS) 手法は, 強力なクエリベースの検出器によって著しく進歩している。 フレームレベルでの検出器の出力クエリを利用して、これらの手法は挑戦的なベンチマークにおいて高い精度を達成する。 しかし,これらの手法は位置情報に大きく依存しており,オブジェクト間の不正確な関連を生じさせることが多い。 本稿では,トラッカーにおける物体マッチングの鍵軸は外観情報であり,位置的手がかりが不十分な状況下では,その特徴を識別する上で非常に指導的になることを示す。 したがって、backbone機能から埋め込みを明示的に抽出し、クエリを駆動してオブジェクトの外観をキャプチャするオブジェクトデコーダの単純かつ強力な拡張を提案する。 さらに,既存のベンチマークによる外観認識の限界を認識し,本手法を厳格に検証するための合成データセットを構築した。 YouTube-VIS 2019/2021とOccluded VIS(OVIS)では,位置情報の過度な信頼性を効果的に解決することで,最先端の結果が得られた。 コードはhttps://github.com/KimHanjung/VISAGEで入手できる。

In recent years, online Video Instance Segmentation (VIS) methods have shown remarkable advancement with their powerful query-based detectors. Utilizing the output queries of the detector at the frame-level, these methods achieve high accuracy on challenging benchmarks. However, our observations demonstrate that these methods heavily rely on location information, which often causes incorrect associations between objects. This paper presents that a key axis of object matching in trackers is appearance information, which becomes greatly instructive under conditions where positional cues are insufficient for distinguishing their identities. Therefore, we suggest a simple yet powerful extension to object decoders that explicitly extract embeddings from backbone features and drive queries to capture the appearances of objects, which greatly enhances instance association accuracy. Furthermore, recognizing the limitations of existing benchmarks in fully evaluating appearance awareness, we have constructed a synthetic dataset to rigorously validate our method. By effectively resolving the over-reliance on location information, we achieve state-of-the-art results on YouTube-VIS 2019/2021 and Occluded VIS (OVIS). Code is available at https://github.com/KimHanjung/VISAGE.
翻訳日:2024-03-11 22:53:32 公開日:2024-03-08
# 放射移動方程式の量子アルゴリズム

Quantum Algorithm for Radiative Transfer Equation ( http://arxiv.org/abs/2312.01664v2 )

ライセンス: Link先を確認
Asuka Igarashi, Tadashi Kadowaki, Shiro Kawabata(参考訳) 放射線伝達方程式は工学における熱伝達、医療における拡散光トモグラフィー、天体物理学における放射線流体力学などのシミュレーションに広く用いられている。 格子ボルツマン法を組み合わせることで,放射能伝達の量子アルゴリズムを提案する。 このアルゴリズムは、吸収、散乱、放出といった放射移動の重要な物理過程をすべて包含する。 量子状態を正確に推定するには十分な数の計測が必要であり、量子状態の初期エンコーディングは依然として難しい問題であるが、量子アルゴリズムは従来のアルゴリズムと比較して放射伝達計算を指数関数的に加速する。 量子アルゴリズムを検証するため、IBM Qiskit Aer を用いて量子回路シミュレーションを行い、数値結果と正確な解との良好な一致を求める。 このアルゴリズムはプラズマ工学、電気通信、核融合技術、医療、天体物理学にフォールトトレラント量子コンピュータの新しい応用を開放する。

The radiation transfer equation is widely used for simulating such as heat transfer in engineering, diffuse optical tomography in healthcare, and radiation hydrodynamics in astrophysics. By combining the lattice Boltzmann method, we propose a quantum algorithm for radiative transfer. This algorithm encompasses all the essential physical processes of radiative transfer: absorption, scattering, and emission. Although a sufficient number of measurements are required to precisely estimate the quantum state, and the initial encoding of the quantum state remains a challenging problem, our quantum algorithm exponentially accelerates radiative transfer calculations compared to classical algorithms. In order to verify the quantum algorithm, we perform quantum circuit simulation using IBM Qiskit Aer and find good agreement between our numerical result and the exact solution. The algorithm opens new application of fault-tolerant quantum computers for plasma engineering, telecommunications, nuclear fusion technology, healthcare and astrophysics.
翻訳日:2024-03-11 22:52:55 公開日:2024-03-08
# RLHF-V:きめ細かい修正ヒトフィードバックからの行動アライメントによる信頼できるMLLMを目指して

RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback ( http://arxiv.org/abs/2312.00849v2 )

ライセンス: Link先を確認
Tianyu Yu and Yuan Yao and Haoye Zhang and Taiwen He and Yifeng Han and Ganqu Cui and Jinyi Hu and Zhiyuan Liu and Hai-Tao Zheng and Maosong Sun and Tat-Seng Chua(参考訳) MLLM(Multimodal Large Language Models)は、最近、マルチモーダル理解、推論、相互作用において印象的な能力を示した。 しかし、既存のMLLMは深刻な幻覚に悩まされ、関連する画像に実際に根拠のないテキストを生成する。 この問題は既存のMLLMを信頼できないものにし、現実の(特に高い)アプリケーションでは実用的ではない。 この課題に対処するため,人間の微粒なフィードバックからの行動アライメントを通じてMLLMの信頼性を高めるRLHF-Vを提案する。 具体的には、RLHF-Vは幻覚のセグメントレベルの補正という形で人間の嗜好を収集し、人間のフィードバックに対して高い直接選好最適化を行う。 自動評価と人間評価の両方における5つのベンチマークに関する包括的実験により、rlhf-vは有望なデータと計算効率で、より信頼性の高いmllm動作を可能にすることが示された。 注目すべきは、1.4kのアノテートデータサンプルを使用することで、RLHF-VはベースMLLMの幻覚率を34.8%削減し、10kのアノテートデータでトレーニングされた同時LLaVA-RLHFを上回る。 最終モデルは、オープンソースのMLLM間の信頼性の最先端性能を達成し、過剰な一般化による幻覚の予防において、GPT-4Vよりも優れた堅牢性を示す。 我々は、コード、モデル、データをhttps://github.com/RLHF-V/RLHF-Vでオープンソース化します。

Multimodal Large Language Models (MLLMs) have recently demonstrated impressive capabilities in multimodal understanding, reasoning, and interaction. However, existing MLLMs prevalently suffer from serious hallucination problems, generating text that is not factually grounded in associated images. The problem makes existing MLLMs untrustworthy and thus impractical in real-world (especially high-stakes) applications. To address the challenge, we present RLHF-V, which enhances MLLM trustworthiness via behavior alignment from fine-grained correctional human feedback. Specifically, RLHF-V collects human preference in the form of segment-level corrections on hallucinations, and performs dense direct preference optimization over the human feedback. Comprehensive experiments on five benchmarks in both automatic and human evaluation show that, RLHF-V can enable substantially more trustworthy MLLM behaviors with promising data and computation efficiency. Remarkably, using 1.4k annotated data samples, RLHF-V significantly reduces the hallucination rate of the base MLLM by 34.8%, outperforming the concurrent LLaVA-RLHF trained on 10k annotated data. The final model achieves state-of-the-art performance in trustworthiness among open-source MLLMs, and shows better robustness than GPT-4V in preventing hallucinations aroused from over-generalization. We open-source our code, model, and data at https://github.com/RLHF-V/RLHF-V.
翻訳日:2024-03-11 22:52:42 公開日:2024-03-08
# OpenStereo: ステレオマッチングと強力なベースラインのための総合ベンチマーク

OpenStereo: A Comprehensive Benchmark for Stereo Matching and Strong Baseline ( http://arxiv.org/abs/2312.00343v4 )

ライセンス: Link先を確認
Xianda Guo, Juntao Lu, Chenming Zhang, Yiqi Wang, Yiqun Duan, Tian Yang, Zheng Zhu, Long Chen(参考訳) ステレオマッチングは、ロボット工学、自律運転、その他のコンピュータビジョンタスクにおいて非常に重要であるステレオ画像ペア内のマッチングピクセル間の格差を推定することを目的としている。 近年、数多くの印象的な手法が開発されているにもかかわらず、その結果を複製し、実用的なアプリケーションに適したアーキテクチャを決定することは依然として困難である。 このギャップに対処するため,本論文では,性能向上に留まらず,実用性に焦点をあてた総合ベンチマークを提案する。 具体的には,OpenStereoと呼ばれる,柔軟で効率的なステレオマッチングコードベースを開発する。 openstereoには10以上のネットワークモデルのトレーニングと推論コードが含まれており、私たちの知る限り、最も完全なステレオマッチングツールボックスです。 OpenStereoに基づいて実験を行い、元の論文で報告されたパフォーマンス指標を達成または超えた。 さらに, 包括的アブレーション実験を通じて, 最近のステレオマッチングの発展を徹底的に解析し, 分解する。 これらの調査により、強力なベースラインモデルであるStereoBaseが誕生した。 私たちのStereoBaseは、SceneFlow、KITTI 2015、2012(Reflective)で第1位であり、すべてのメトリクスで最高のパフォーマンスを実現しています。 さらに、StereoBaseは強力なクロスデータセットの一般化を持ち、コードは \url{https://github.com/XiandaGuo/OpenStereo} で入手できる。

Stereo matching aims to estimate the disparity between matching pixels in a stereo image pair, which is of great importance to robotics, autonomous driving, and other computer vision tasks. Despite the development of numerous impressive methods in recent years, replicating their results and determining the most suitable architecture for practical application remains challenging. Addressing this gap, our paper introduces a comprehensive benchmark focusing on practical applicability rather than solely on performance enhancement. Specifically, we develop a flexible and efficient stereo matching codebase, called OpenStereo. OpenStereo includes training and inference codes of more than 10 network models, making it, to our knowledge, the most complete stereo matching toolbox available. Based on OpenStereo, we conducted experiments and have achieved or surpassed the performance metrics reported in the original paper. Additionally, we carry out an exhaustive analysis and deconstruction of recent developments in stereo matching through comprehensive ablative experiments. These investigations inspired the creation of StereoBase, a strong baseline model. Our StereoBase ranks 1st on SceneFlow, KITTI 2015, 2012 (Reflective) among published methods and achieves the best performance across all metrics. In addition, StereoBase has strong cross-dataset generalization.Code is available at \url{https://github.com/XiandaGuo/OpenStereo}.
翻訳日:2024-03-11 22:52:16 公開日:2024-03-08
# 最適参照翻訳の評価

Evaluating Optimal Reference Translations ( http://arxiv.org/abs/2311.16787v2 )

ライセンス: Link先を確認
Vil\'em Zouhar, V\v{e}ra Kloudov\'a, Martin Popel, Ond\v{r}ej Bojar(参考訳) 現在の機械翻訳(mt)システムによる高リソース言語ペアの全体的な翻訳品質は極めて良好である。 標準的な評価法は不適当であり、また、継続する多くの翻訳エラーや品質欠陥を明らかにする意図もない。 さらに、標準参照翻訳の品質は一般的に疑問視され、いくつかの言語対においてMTだけで同等の品質レベルに達している。 そのため、これらの高リソース環境でのさらなる研究は困難である。 本稿では,より信頼性の高い文書レベルのヒューマン・リファレンス・トランスレーション("optimal reference translations"と呼ばれる)を作成するための手法を提案する。 得られた文書レベルの最適参照翻訳を「標準」翻訳と比較して評価し、大幅な品質向上を確認し、評価と翻訳編集の関係を文書化する。

The overall translation quality reached by current machine translation (MT) systems for high-resourced language pairs is remarkably good. Standard methods of evaluation are not suitable nor intended to uncover the many translation errors and quality deficiencies that still persist. Furthermore, the quality of standard reference translations is commonly questioned and comparable quality levels have been reached by MT alone in several language pairs. Navigating further research in these high-resource settings is thus difficult. In this article, we propose a methodology for creating more reliable document-level human reference translations, called "optimal reference translations," with the simple aim to raise the bar of what should be deemed "human translation quality." We evaluate the obtained document-level optimal reference translations in comparison with "standard" ones, confirming a significant quality increase and also documenting the relationship between evaluation and translation editing.
翻訳日:2024-03-11 22:51:54 公開日:2024-03-08
# グラフデータバリュエーションの事前制約付き冬値

Precedence-Constrained Winter Value for Effective Graph Data Valuation ( http://arxiv.org/abs/2402.01943v2 )

ライセンス: Link先を確認
Hongliang Chi, Wei Jin, Charu Aggarwal, Yao Ma(参考訳) データバリュエーションは、データの価値を定量化し、データ品質を評価し、公正な報酬を決定するのに不可欠である。 既存のデータ評価手法はユークリッドデータの価値評価に有効であることが証明されているが、人気が高まっているグラフ構造化データに適用すると限界に直面している。 特にグラフデータ評価は、ノード間の複雑な依存関係と、価値推定コストの指数的な増加から起因した、ユニークな課題をもたらす。 グラフデータ評価の課題に対処するため,複雑なグラフ構造を考慮し,PC-Winter(Precedence-Constrained Winter)値というイノベーティブなソリューションを考案した。 さらに,計算課題に対処し,pc-winter の効率的な近似を実現するための様々な戦略を考案する。 大規模な実験は、多様なデータセットやタスクにわたるPC-Winterの有効性を示す。

Data valuation is essential for quantifying data's worth, aiding in assessing data quality and determining fair compensation. While existing data valuation methods have proven effective in evaluating the value of Euclidean data, they face limitations when applied to the increasingly popular graph-structured data. Particularly, graph data valuation introduces unique challenges, primarily stemming from the intricate dependencies among nodes and the exponential growth in value estimation costs. To address the challenging problem of graph data valuation, we put forth an innovative solution, Precedence-Constrained Winter (PC-Winter) Value, to account for the complex graph structure. Furthermore, we develop a variety of strategies to address the computational challenges and enable efficient approximation of PC-Winter. Extensive experiments demonstrate the effectiveness of PC-Winter across diverse datasets and tasks.
翻訳日:2024-03-11 22:47:14 公開日:2024-03-08
# EarthGPT:リモートセンシング領域におけるマルチセンサ画像理解のための汎用マルチモーダル大言語モデル

EarthGPT: A Universal Multi-modal Large Language Model for Multi-sensor Image Comprehension in Remote Sensing Domain ( http://arxiv.org/abs/2401.16822v3 )

ライセンス: Link先を確認
Wei Zhang, Miaoxin Cai, Tong Zhang, Yin Zhuang, Xuerui Mao(参考訳) マルチモーダル大言語モデル(MLLM)は、自然画像領域における視覚および視覚言語タスクにおいて顕著な成功を収めている。 自然とリモートセンシング(RS)画像の間に大きな多様性があるため、RSドメインにおけるMLLMの開発はまだ幼児期にある。 このギャップを埋めるために,多様なマルチセンサRS解釈タスクを統一的に統合したEarthGPTという先駆的なMLLMを提案する。 earthgptでは、視覚強調知覚機構、クロスモーダル相互理解アプローチ、rsドメインにおけるマルチセンサマルチタスクのための統一命令チューニング手法を含む3つの鍵となる手法が開発されている。 さらに、大規模マルチセンサマルチモーダルRS命令追従を特徴とするMMRS-1Mというデータセットを構築し、34の既存RSデータセットに基づいて100万以上の画像テキストペアを構成し、光学、合成開口レーダ(SAR)、赤外線などのマルチセンサ画像を含む。 MMRS-1Mデータセットは、RSの専門家知識に基づくMLLMの欠点に対処し、RSドメインにおけるMLLMの開発を刺激する。 大規模な実験を行い、他の専門モデルやMLLMと比較して様々な視覚的解釈タスクにおいて、EarthGPTの優れた性能を示し、提案したEarthGPTの有効性を証明し、オープンセット推論タスクに汎用的なパラダイムを提供する。

Multi-modal large language models (MLLMs) have demonstrated remarkable success in vision and visual-language tasks within the natural image domain. Owing to the significant diversities between the natural and remote sensing (RS) images, the development of MLLMs in the RS domain is still in the infant stage. To fill the gap, a pioneer MLLM named EarthGPT integrating various multi-sensor RS interpretation tasks uniformly is proposed in this paper for universal RS image comprehension. In EarthGPT, three key techniques are developed including a visual-enhanced perception mechanism, a cross-modal mutual comprehension approach, and a unified instruction tuning method for multi-sensor multi-task in the RS domain. More importantly, a dataset named MMRS-1M featuring large-scale multi-sensor multi-modal RS instruction-following is constructed, comprising over 1M image-text pairs based on 34 existing diverse RS datasets and including multi-sensor images such as optical, synthetic aperture radar (SAR), and infrared. The MMRS-1M dataset addresses the drawback of MLLMs on RS expert knowledge and stimulates the development of MLLMs in the RS domain. Extensive experiments are conducted, demonstrating the EarthGPT's superior performance in various RS visual interpretation tasks compared with the other specialist models and MLLMs, proving the effectiveness of the proposed EarthGPT and offering a versatile paradigm for open-set reasoning tasks.
翻訳日:2024-03-11 22:46:52 公開日:2024-03-08
# romansetu: ローマ字化による大規模言語モデルの多言語機能化の効率化

RomanSetu: Efficiently unlocking multilingual capabilities of Large Language Models models via Romanization ( http://arxiv.org/abs/2401.14280v2 )

ライセンス: Link先を確認
Jaavid Aktar Husain, Raj Dabre, Aswanth Kumar, Jay Gala, Thanmay Jayakumar, Ratish Puduppully, Anoop Kunchukuttan(参考訳) 本研究では,Large Language Models (LLM) を非Romanスクリプトを用いて英語以外の言語に拡張するという課題に対処する。 本稿では,LLMのインタフェースとしてロマン化形式のテキストを利用するアプローチを提案し,その頻繁な非公式使用と共通トークンによる言語間アライメントの強化を仮定する。 我々のアプローチは、非英語、非ローマ文字言語のローマ字テキストにllama 2のような英語のllmを連続的に事前学習し、その後にローマ字化されたデータの命令チューニングを行う。 結果から,ロマン化テキストはトークンの肥大度を2x-4x削減するだけでなく,NLU,NLG,MTタスク間のネイティブスクリプト表現に適合あるいは優れることがわかった。 さらに、ローマ字化テキストで計算された埋め込みは、ネイティブスクリプトのものよりも英語の翻訳と密接に一致している。 提案手法は,従来のNLPでは表現できない言語において,英語LLMの力を利用する上で有望な方向を示す。

This study addresses the challenge of extending Large Language Models (LLMs) to non-English languages using non-Roman scripts. We propose an approach that utilizes the romanized form of text as an interface for LLMs, hypothesizing that its frequent informal use and shared tokens with English enhance cross-lingual alignment. Our approach involves the continual pretraining of an English LLM like Llama 2 on romanized text of non-English, non-Roman script languages, followed by instruction tuning on romanized data. The results indicate that romanized text not only reduces token fertility by 2x-4x but also matches or outperforms native script representation across various NLU, NLG, and MT tasks. Moreover, the embeddings computed on romanized text exhibit closer alignment with their English translations than those from the native script. Our approach presents a promising direction for leveraging the power of English LLMs in languages traditionally underrepresented in NLP.
翻訳日:2024-03-11 22:46:25 公開日:2024-03-08
# (Chat)GPT v BERT:意味的変化検出のための正義の夜明け

(Chat)GPT v BERT: Dawn of Justice for Semantic Change Detection ( http://arxiv.org/abs/2401.14040v2 )

ライセンス: Link先を確認
Francesco Periti, Haim Dubossarsky, Nina Tahmasebi(参考訳) 自然言語処理の世界では、BERTや(Chat)GPTのようなトランスフォーマーベースの言語モデルが、オープンな研究問題を解決するために強力な力を持つ語彙スーパーヒーローとして登場した。 本稿では,意味変化の時間的問題に着目し,wic(word-in-context)タスクの2つの拡張であるtempowicとhistowicの解決能力を評価する。 特に、チャットgpt(およびgpt)3.5のような新しい市販技術の可能性について、現在セマンティクスの変化をモデリングする最先端のモデル群であるbertと比較して検討する。 本実験は,意味変化の研究における (Chat)GPT の利用を評価する最初の試みである。 以上の結果から,ChatGPTは基礎的なGPTバージョンよりも大幅に性能が低下することが示唆された。 さらに, (Chat)GPTは, 長期変化検出においてBERTよりも若干低い性能を示したが, 短期変化検出では著しく低下した。

In the universe of Natural Language Processing, Transformer-based language models like BERT and (Chat)GPT have emerged as lexical superheroes with great power to solve open research problems. In this paper, we specifically focus on the temporal problem of semantic change, and evaluate their ability to solve two diachronic extensions of the Word-in-Context (WiC) task: TempoWiC and HistoWiC. In particular, we investigate the potential of a novel, off-the-shelf technology like ChatGPT (and GPT) 3.5 compared to BERT, which represents a family of models that currently stand as the state-of-the-art for modeling semantic change. Our experiments represent the first attempt to assess the use of (Chat)GPT for studying semantic change. Our results indicate that ChatGPT performs significantly worse than the foundational GPT version. Furthermore, our results demonstrate that (Chat)GPT achieves slightly lower performance than BERT in detecting long-term changes but performs significantly worse in detecting short-term changes.
翻訳日:2024-03-11 22:46:04 公開日:2024-03-08
# 部分既知の因果グラフに対する介入的公平性:制約付き最適化アプローチ

Interventional Fairness on Partially Known Causal Graphs: A Constrained Optimization Approach ( http://arxiv.org/abs/2401.10632v2 )

ライセンス: Link先を確認
Aoqi Zuo, Yiqing Li, Susan Wei, Mingming Gong(参考訳) fair machine learningは、性別や人種といった繊細な属性に基づく個人やサブ人口に対する差別を防ぐことを目的としている。 近年、因果推論手法は、因果効果によって不公平さを測定するために、公正な機械学習でますます利用されてきた。 しかし、現在の手法では真の因果グラフが与えられたと仮定しており、現実のアプリケーションでは当てはまらないことが多い。 この制限に対処するために,本論文では,真因果グラフが部分的に知られている場合の介入の概念に基づく因果公平性を実現する枠組みを提案する。 提案手法は,部分指向非巡回グラフ(PDAG)を用いて,観測データとドメイン知識を組み合わせた因果DAGのクラスを用いて,公正な予測をモデル化することを含む。 PDAGは因果フェアネスを測定するために使用され、公正性と精度のバランスをとるために制約付き最適化問題を定式化する。 シミュレーションと実世界の両方のデータセットの結果から,本手法の有効性が示された。

Fair machine learning aims to prevent discrimination against individuals or sub-populations based on sensitive attributes such as gender and race. In recent years, causal inference methods have been increasingly used in fair machine learning to measure unfairness by causal effects. However, current methods assume that the true causal graph is given, which is often not true in real-world applications. To address this limitation, this paper proposes a framework for achieving causal fairness based on the notion of interventions when the true causal graph is partially known. The proposed approach involves modeling fair prediction using a Partially Directed Acyclic Graph (PDAG), specifically, a class of causal DAGs that can be learned from observational data combined with domain knowledge. The PDAG is used to measure causal fairness, and a constrained optimization problem is formulated to balance between fairness and accuracy. Results on both simulated and real-world datasets demonstrate the effectiveness of this method.
翻訳日:2024-03-11 22:45:23 公開日:2024-03-08
# FedLoGe: 長期データに基づくローカルとジェネリックのフェデレーションラーニング

FedLoGe: Joint Local and Generic Federated Learning under Long-tailed Data ( http://arxiv.org/abs/2401.08977v2 )

ライセンス: Link先を確認
Zikai Xiao, Zihan Chen, Liyinglan Liu, Yang Feng, Jian Wu, Wanlu Liu, Joey Tianyi Zhou, Howard Hao Yang, Zuozhu Liu(参考訳) 分散型長期学習(Federated Long-Tailed Learning, Fed-LT)は、分散化されたローカルクライアントから収集したデータが、グローバルに普及している長期分布を示すパラダイムであり、近年注目されている。 Fed-LTの文脈では、既存の研究は主にデータ不均衡の問題に対処し、局所レベルでの性能を無視しながら、ジェネリックグローバルモデルの有効性を高めることに集中している。 対照的に、従来のパーソナライズド・フェデレート・ラーニング(pFL)技術は主に、バランスの取れたグローバルなデータ分布を前提として、パーソナライズされたローカルモデルを最適化するために考案されている。 本稿では,federated local and generic model training in fed-lt(federated local and generic model training in fed-lt, fedloge)という手法を提案する。 本研究は、グローバルトレンドを包含するための基盤的フレームワークとして共有バックボーンを採用することの実現可能性を明らかにし、同時に各クライアントのローカルな特徴から生じる異なる細分化をカプセル化するために個別の分類器を併用する。 この発見に基づいて、我々は、自然に外因性ノイズの特徴を誘発し、強力なデータ表現の獲得を促進する神経崩壊原理にインスパイアされた静的スパース等角フレーム分類器(SSE-C)を確立する。 さらに、不均衡な神経崩壊の分類基準パターンからの洞察を活用し、補助的グローバル分類器とユークリッド標準転送を用いてグローバル特徴をクライアントの好みと整合させるグローバル・ローカル適応特徴調整(GLA-FR)を開発する。 CIFAR-10/100-LT, ImageNet, iNaturalistの大規模な実験結果から, 最先端のpFLおよびFed-LTアプローチに対する本手法の利点が示された。

Federated Long-Tailed Learning (Fed-LT), a paradigm wherein data collected from decentralized local clients manifests a globally prevalent long-tailed distribution, has garnered considerable attention in recent times. In the context of Fed-LT, existing works have predominantly centered on addressing the data imbalance issue to enhance the efficacy of the generic global model while neglecting the performance at the local level. In contrast, conventional Personalized Federated Learning (pFL) techniques are primarily devised to optimize personalized local models under the presumption of a balanced global data distribution. This paper introduces an approach termed Federated Local and Generic Model Training in Fed-LT (FedLoGe), which enhances both local and generic model performance through the integration of representation learning and classifier alignment within a neural collapse framework. Our investigation reveals the feasibility of employing a shared backbone as a foundational framework for capturing overarching global trends, while concurrently employing individualized classifiers to encapsulate distinct refinements stemming from each client's local features. Building upon this discovery, we establish the Static Sparse Equiangular Tight Frame Classifier (SSE-C), inspired by neural collapse principles that naturally prune extraneous noisy features and foster the acquisition of potent data representations. Furthermore, leveraging insights from imbalance neural collapse's classifier norm patterns, we develop Global and Local Adaptive Feature Realignment (GLA-FR) via an auxiliary global classifier and personalized Euclidean norm transfer to align global features with client preferences. Extensive experimental results on CIFAR-10/100-LT, ImageNet, and iNaturalist demonstrate the advantage of our method over state-of-the-art pFL and Fed-LT approaches.
翻訳日:2024-03-11 22:45:06 公開日:2024-03-08
# reValueD: 決定可能なマルコフ決定プロセスのための正規化アンサンブル値分解

REValueD: Regularised Ensemble Value-Decomposition for Factorisable Markov Decision Processes ( http://arxiv.org/abs/2401.08850v2 )

ライセンス: Link先を確認
David Ireland and Giovanni Montana(参考訳) 離散アクション強化学習アルゴリズムは、起こりうる多くのアクションのために、高次元の離散アクション空間を持つタスクに干渉することが多い。 最近の進歩は、この課題に取り組むために、マルチエージェント強化学習の概念であるバリュー分解を活用している。 この研究は、q-learningアルゴリズムに固有の過剰推定バイアスを削減しながら、ターゲットの分散を増幅する、この値分解の効果を深く掘り下げる。 これに対抗するために,対象のばらつきを緩和するための批評家のアンサンブルを提案する。 さらに, ある次元における探索行動が他の次元における最適な行動の値に与える影響を軽減するために, 正規化損失を導入する。 新しいアルゴリズムであるrevaluedは、deepmindコントロールスイートタスクの非正規化バージョン上でテストされ、特にヒューマノイドタスクやドッグタスクにおいて優れたパフォーマンスを示します。 さらに,revaluedの性能に影響を与える要因について検討し,レギュライゼーション損失の意義と,次元ごとのサブアクションの増加による再評価のスケーラビリティを評価した。

Discrete-action reinforcement learning algorithms often falter in tasks with high-dimensional discrete action spaces due to the vast number of possible actions. A recent advancement leverages value-decomposition, a concept from multi-agent reinforcement learning, to tackle this challenge. This study delves deep into the effects of this value-decomposition, revealing that whilst it curtails the over-estimation bias inherent to Q-learning algorithms, it amplifies target variance. To counteract this, we present an ensemble of critics to mitigate target variance. Moreover, we introduce a regularisation loss that helps to mitigate the effects that exploratory actions in one dimension can have on the value of optimal actions in other dimensions. Our novel algorithm, REValueD, tested on discretised versions of the DeepMind Control Suite tasks, showcases superior performance, especially in the challenging humanoid and dog tasks. We further dissect the factors influencing REValueD's performance, evaluating the significance of the regularisation loss and the scalability of REValueD with increasing sub-actions per dimension.
翻訳日:2024-03-11 22:44:31 公開日:2024-03-08
# $\mathbb{Z}_2$格子ゲージ理論における閉じ込め次数パラメータとしてのパーコレーション

Percolation as a confinement order parameter in $\mathbb{Z}_2$ lattice gauge theories ( http://arxiv.org/abs/2401.08770v2 )

ライセンス: Link先を確認
Simon M. Linsel and Annabelle Bohrdt and Lukas Homeier and Lode Pollet and Fabian Grusdt(参考訳) 格子ゲージ理論(LGTs)は1974年にウィルソンによってクォーク閉じ込めの研究のために導入された。 これらのモデルは (de-)confined phase を示すことが示されているが、実験で利用できる順序パラメータを定義するのは難しい。 ここでは、量子シミュレータにアクセスできる電場基底スナップショットを用いて、$\mathbb{Z}_2$ LGTsにおける動的物質の閉じ込めを探索するパーコレーション誘発秩序パラメータ(POPs)を提案する。 古典的$\mathbb{z}_2$ lgt の研究にpopsを応用し、任意の非零密度 $\mathbb{z}_2$ charge に対して、温度 $t=\infty$ in 2d (critical $t_c$,すなわち有限-$t$ phase transition, in 3d) まで閉じ込めた位相を求める。 さらに、量子モンテカルロを用いて、POPは平方格子フラドキン・シェンカー位相図を$T=0$で再現し、位相図を$T>0$で探索することを示した。 相関長指数は3次元イジング普遍性クラスの1つと一致し、パーコレーションを特徴付けるポップ臨界指数を決定する。 提案するpopsは閉じ込めの幾何学的視点を提供し、量子シミュレータで取得したスナップショットに直接アクセス可能であり、量子スピン液体のプローブとして適している。

Lattice gauge theories (LGTs) were introduced in 1974 by Wilson to study quark confinement. These models have been shown to exhibit (de-)confined phases, yet it remains challenging to define experimentally accessible order parameters. Here we propose percolation-inspired order parameters (POPs) to probe confinement of dynamical matter in $\mathbb{Z}_2$ LGTs using electric field basis snapshots accessible to quantum simulators. We apply the POPs to study a classical $\mathbb{Z}_2$ LGT and find a confining phase up to temperature $T=\infty$ in 2D (critical $T_c$, i.e. finite-$T$ phase transition, in 3D) for any non-zero density of $\mathbb{Z}_2$ charges. Further, using quantum Monte Carlo we demonstrate that the POPs reproduce the square lattice Fradkin-Shenker phase diagram at $T=0$ and explore the phase diagram at $T>0$. The correlation length exponent coincides with the one of the 3D Ising universality class and we determine the POP critical exponent characterizing percolation. Our proposed POPs provide a geometric perspective of confinement and are directly accessible to snapshots obtained in quantum simulators, making them suitable as a probe for quantum spin liquids.
翻訳日:2024-03-11 22:44:13 公開日:2024-03-08
# データ拡張とヘテロジニアス会話グラフネットワークによる対話におけるパーソナリティ認識の促進

Enhancing Personality Recognition in Dialogue by Data Augmentation and Heterogeneous Conversational Graph Networks ( http://arxiv.org/abs/2401.05871v2 )

ライセンス: Link先を確認
Yahui Fu, Haiyue Song, Tianyu Zhao, Tatsuya Kawahara(参考訳) パーソナリティ認識は、ユーザ適応応答を調整するロボットの能力を高めるために有用である。 この課題の1つは、既存の対話コーパスにおける話者数の制限であり、堅牢で話者に依存しないパーソナリティ認識モデルの開発を妨げている。 加えて、対話における対話者間の相互依存と話者内依存の両方を正確にモデル化することは重要な問題である。 最初の課題に対処するために、話者データ拡張のためのパーソナリティ特性補間を導入する。 第2に,文脈的影響と個性的特徴を独立に捉えるためのヘテロジニアスな対話型グラフネットワークを提案する。 RealPersonaChatコーパスの評価は、既存のベースラインよりも大幅に改善されていることを示す。

Personality recognition is useful for enhancing robots' ability to tailor user-adaptive responses, thus fostering rich human-robot interactions. One of the challenges in this task is a limited number of speakers in existing dialogue corpora, which hampers the development of robust, speaker-independent personality recognition models. Additionally, accurately modeling both the interdependencies among interlocutors and the intra-dependencies within the speaker in dialogues remains a significant issue. To address the first challenge, we introduce personality trait interpolation for speaker data augmentation. For the second, we propose heterogeneous conversational graph networks to independently capture both contextual influences and inherent personality traits. Evaluations on the RealPersonaChat corpus demonstrate our method's significant improvements over existing baselines.
翻訳日:2024-03-11 22:43:15 公開日:2024-03-08
# 炭化ケイ素における核スピン量子ビットの高忠実性光読み出し

High fidelity optical readout of a nuclear spin qubit in Silicon Carbide ( http://arxiv.org/abs/2401.04465v3 )

ライセンス: Link先を確認
Erik Hesselmeier, Oliver von Berg, Pierre Kuna, Wolfgang Knolle, Florian Kaiser, Nguyen Tien Son, Misagh Ghezellou, Jawad Ul-Hassan, Vadim Vorobyov, J\"org Wrachtrup(参考訳) 量子状態の読み取りはqubitプラットフォームの成功にとって重要な要件である。 本研究では、繰り返し読み出し手法に基づくv2中心核スピンの高忠実度量子状態読み出しを実証する。 最大99.5$\,\%$ readout fidelity と 99$\,\%$ の状態準備をデモした。 この効率的な読み出しを用いて、測定により核スピンを初期化し、ラビとラムジーの栄養を実証する。 最後に、弱結合二原子核スピン浴の量子センシングへの応用に、核スピンを長寿命メモリとして用いる。

Quantum state readout is a key requirement for a successful qubit platform. In this work we demonstrate a high fidelity quantum state readout of a V2 center nuclear spin based on a repetitive readout technique. We demonstrate up to 99.5$\,\%$ readout fidelity and 99$\,\%$ for state preparation. Using this efficient readout we initialise the nuclear spin by measurement and demonstrate its Rabi and Ramsey nutation. Finally, we use the nuclear spin as a long lived memory for quantum sensing application of weakly coupled diatomic nuclear spin bath.
翻訳日:2024-03-11 22:43:04 公開日:2024-03-08
# 深層アクティブラーニングとデータサブセット選択の進歩:情報理論直観による統一原則

Advancing Deep Active Learning & Data Subset Selection: Unifying Principles with Information-Theory Intuitions ( http://arxiv.org/abs/2401.04305v3 )

ライセンス: Link先を確認
Andreas Kirsch(参考訳) 本論文は,深層学習モデルのラベルと訓練効率を向上させることにより,深層学習の実践性を高めることを目的としている。 そこで本研究では,データサブセット選択手法,特に情報理論に基づくアクティブラーニングとアクティブサンプリングについて検討する。 アクティブ学習はラベル効率が向上し、アクティブサンプリングはトレーニング効率が向上する。 監視されたディープラーニングモデルは、ラベル付きデータによる広範なトレーニングを必要とすることが多い。 ラベル取得は高価で時間がかかり、大規模モデルのトレーニングはリソース集約的であり、学術研究や"巨大技術"以外での採用を妨げる。 ディープラーニングにおけるデータサブセット選択の既存の方法は、しばしばヒューリスティックに依存したり、原理的な情報理論の基礎を欠いている。 対照的に、本論文は、情報理論に触発されたより原理的なアプローチを追求する深層学習におけるデータサブセット選択とその応用に関するいくつかの目的を考察する。 まず、単一のフォワードパスディープニューラルネットワークにおいて、疫学的およびアレタリックな不確実性を取り除き、様々な形の不確実性とそのデータサブセット選択との関連性に関する有用な直観と洞察を提供する。 次に,(ベイジアン)深層学習におけるアクティブラーニングとデータサブセット選択のための様々なアプローチを提案し,検討する。 最後に,重みや予測空間における情報量近似に対する様々な既存および提案手法について述べる。 この研究の根底にあるのは、ランダム変数と観測結果の両方を含む情報理論量の原則的で実践的な表記である。 この論文は、統一的な視点から働くことの利点を示し、深層学習の実践的応用への私たちの貢献の潜在的影響を強調している。

At its core, this thesis aims to enhance the practicality of deep learning by improving the label and training efficiency of deep learning models. To this end, we investigate data subset selection techniques, specifically active learning and active sampling, grounded in information-theoretic principles. Active learning improves label efficiency, while active sampling enhances training efficiency. Supervised deep learning models often require extensive training with labeled data. Label acquisition can be expensive and time-consuming, and training large models is resource-intensive, hindering the adoption outside academic research and "big tech." Existing methods for data subset selection in deep learning often rely on heuristics or lack a principled information-theoretic foundation. In contrast, this thesis examines several objectives for data subset selection and their applications within deep learning, striving for a more principled approach inspired by information theory. We begin by disentangling epistemic and aleatoric uncertainty in single forward-pass deep neural networks, which provides helpful intuitions and insights into different forms of uncertainty and their relevance for data subset selection. We then propose and investigate various approaches for active learning and data subset selection in (Bayesian) deep learning. Finally, we relate various existing and proposed approaches to approximations of information quantities in weight or prediction space. Underpinning this work is a principled and practical notation for information-theoretic quantities that includes both random variables and observed outcomes. This thesis demonstrates the benefits of working from a unified perspective and highlights the potential impact of our contributions to the practical application of deep learning.
翻訳日:2024-03-11 22:42:55 公開日:2024-03-08
# 動的潜時グラフを用いたニューラル時間点過程の変分オートエンコーダ

A Variational Autoencoder for Neural Temporal Point Processes with Dynamic Latent Graphs ( http://arxiv.org/abs/2312.16083v2 )

ライセンス: Link先を確認
Sikun Yang, Hongyuan Zha(参考訳) 連続的に観測された事象の発生は、しばしば自己および相互に興奮する効果を示し、時間的ポイントプロセスを使ってうまくモデル化できる。 さらに、これらのイベントのダイナミクスは、周期的なトレンドとともに、時間とともに変化する可能性がある。 このような時間的ダイナミクスの混合を捕捉する新しい変分自動エンコーダを提案する。 より具体的には、入力シーケンスの全時間間隔を一連のサブインターバルに分割する。 イベントダイナミクスは各サブインターバル内で静止していると仮定されるが、サブインターバル間で変更される可能性がある。 特に、逐次潜在変数モデルを用いて、観測された次元間の依存グラフを各サブインターバル毎に学習する。 このモデルは、学習された依存関係グラフを使用して過去のイベントの非帰結的影響を取り除くことで、将来のイベントタイムを予測する。 提案手法では,実世界のイベントシーケンスにおけるイベント時間とイベントタイプを予測する際の精度を,既存のニューラルポイントプロセスと比較して高い精度で示している。

Continuously-observed event occurrences, often exhibit self- and mutually-exciting effects, which can be well modeled using temporal point processes. Beyond that, these event dynamics may also change over time, with certain periodic trends. We propose a novel variational auto-encoder to capture such a mixture of temporal dynamics. More specifically, the whole time interval of the input sequence is partitioned into a set of sub-intervals. The event dynamics are assumed to be stationary within each sub-interval, but could be changing across those sub-intervals. In particular, we use a sequential latent variable model to learn a dependency graph between the observed dimensions, for each sub-interval. The model predicts the future event times, by using the learned dependency graph to remove the noncontributing influences of past events. By doing so, the proposed model demonstrates its higher accuracy in predicting inter-event times and event types for several real-world event sequences, compared with existing state of the art neural point processes.
翻訳日:2024-03-11 22:42:29 公開日:2024-03-08
# mixehr-surg:電子健康記録から死亡関連トピックを推測するための共同比例ハザードとガイドトピックモデル

MixEHR-SurG: a joint proportional hazard and guided topic model for inferring mortality-associated topics from electronic health records ( http://arxiv.org/abs/2312.13454v2 )

ライセンス: Link先を確認
Yixuan Li, Ariane Marelli, Archer Y. Yang, Yue Li(参考訳) 既存の生存モデルは高次元および多モードのデータにスケールしないか、解釈が難しい。 本研究では、異種EHRデータとモデル生存ハザードを同時に統合するために、MixEHR-SurGと呼ばれる教師付きトピックモデルを提案する。 1) EHR のトピック推論と Cox の比例的ハザードの可能性の統合,(2) PheCode の概念を用いて患者固有のトピックハイパーパラメータを統合することで,それぞれのトピックを PheCode 関連表現型と同一視できる,(3) マルチモーダルサバイバル・トピック推論。 これは、患者死亡に関連するPheCode固有の表現型トピックを推測できる、高度に解釈可能な生存トピックモデルをもたらす。 シミュレートされたデータセットと2つの実世界EHRデータセットを用いてMixEHR-SurGを評価した。ケベック先天性心疾患(CHD)データでは,75,187名,ユニークなICD符号1,767名,MIMIC-IIIは1,458名,マルチモーダルEHRデータである。 ベースラインと比較して、MixEHR-SurGは、シミュレーションデータセットでは平均AUROCスコアが0.89、CHDデータセットでは平均AUROCが0.645、死亡予測では優れた動的AUROCを達成した。 定性的には、MixEHR-SurGは、心不全入院後のCHD患者の重症心疾患と、ICU退院後のMIMIC-III患者の死亡率の増加を伴う重症脳損傷を関連づける。 Cox比例ハザードモデルとEHRトピック推論をMixEHR-SurGに統合することにより、競争的死亡率予測だけでなく、詳細な生存分析のための有意義な表現型トピックも導かれる。 ソフトウェアはGitHubで入手できる: https://github.com/li-lab-mcgill/MixEHR-SurG。

Existing survival models either do not scale to high dimensional and multi-modal data or are difficult to interpret. In this study, we present a supervised topic model called MixEHR-SurG to simultaneously integrate heterogeneous EHR data and model survival hazard. Our contributions are three-folds: (1) integrating EHR topic inference with Cox proportional hazards likelihood; (2) integrating patient-specific topic hyperparameters using the PheCode concepts such that each topic can be identified with exactly one PheCode-associated phenotype; (3) multi-modal survival topic inference. This leads to a highly interpretable survival topic model that can infer PheCode-specific phenotype topics associated with patient mortality. We evaluated MixEHR-SurG using a simulated dataset and two real-world EHR datasets: the Quebec Congenital Heart Disease (CHD) data consisting of 8,211 subjects with 75,187 outpatient claim records of 1,767 unique ICD codes; the MIMIC-III consisting of 1,458 subjects with multi-modal EHR records. Compared to the baselines, MixEHR-SurG achieved a superior dynamic AUROC for mortality prediction, with a mean AUROC score of 0.89 in the simulation dataset and a mean AUROC of 0.645 on the CHD dataset. Qualitatively, MixEHR-SurG associates severe cardiac conditions with high mortality risk among the CHD patients after the first heart failure hospitalization and critical brain injuries with increased mortality among the MIMIC- III patients after their ICU discharge. Together, the integration of the Cox proportional hazards model and EHR topic inference in MixEHR-SurG not only leads to competitive mortality prediction but also meaningful phenotype topics for in-depth survival analysis. The software is available at GitHub: https://github.com/li-lab-mcgill/MixEHR-SurG.
翻訳日:2024-03-11 22:42:13 公開日:2024-03-08
# LLMBind: 統一されたModality-Task統合フレームワーク

LLMBind: A Unified Modality-Task Integration Framework ( http://arxiv.org/abs/2402.14891v3 )

ライセンス: Link先を確認
Bin Zhu, Peng Jin, Munan Ning, Bin Lin, Jinfa Huang, Qi Song, Jiaxi Cui, Junwu Zhang, Zhenyu Tang, Mingjun Pan, Xing Zhou, Li Yuan(参考訳) マルチモーダルな大規模言語モデルの最近の進歩は様々なモダリティタスクに取り組む一方で、複雑なマルチモーダリティタスクの統合能力が制限され、その結果、フィールドの開発が制限される。 本研究では,大規模言語モデルとそれに対応するタスクモデルとをタスク固有のトークンで結合する,モダリティタスク統合のための統一フレームワークllmbindの検討と提案を行う。 その結果、llmbindは入力を解釈し、画像、テキスト、ビデオ、オーディオの多彩な組み合わせで出力を生成することができる。 具体的には,多様な専門家のコラボレーションを通じて,多様なマルチモーダルタスクを効果的に学習するためのMixture-of-Experts手法を提案する。 さらに,400k命令データからなるマルチタスクデータセットを作成し,インタラクティブなビジュアル生成と編集の機能を開放する。 広範な実験により,画像,映像,音声生成,画像分割,画像編集など,さまざまなタスクにおけるフレームワークの有効性が示された。 より奨励的に、我々のフレームワークは他のモダリティタスクにも容易に拡張でき、普遍的なモダリティをモデル化するための統合AIエージェントを作成する可能性を示している。

While recent progress in multimodal large language models tackles various modality tasks, they posses limited integration capabilities for complex multi-modality tasks, consequently constraining the development of the field. In this work, we take the initiative to explore and propose the LLMBind, a unified framework for modality task integration, which binds Large Language Models and corresponding pre-trained task models with task-specific tokens. Consequently, LLMBind can interpret inputs and produce outputs in versatile combinations of image, text, video, and audio. Specifically, we introduce a Mixture-of-Experts technique to enable effective learning for different multimodal tasks through collaboration among diverse experts. Furthermore, we create a multi-task dataset comprising 400k instruction data, which unlocks the ability for interactive visual generation and editing tasks. Extensive experiments show the effectiveness of our framework across various tasks, including image, video, audio generation, image segmentation, and image editing. More encouragingly, our framework can be easily extended to other modality tasks, showcasing the promising potential of creating a unified AI agent for modeling universal modalities.
翻訳日:2024-03-11 22:37:42 公開日:2024-03-08
# criticbench: 批判的正しい推論のためのllmベンチマーク

CriticBench: Benchmarking LLMs for Critique-Correct Reasoning ( http://arxiv.org/abs/2402.14809v2 )

ライセンス: Link先を確認
Zicheng Lin, Zhibin Gou, Tian Liang, Ruilin Luo, Haowei Liu, Yujiu Yang(参考訳) 大規模言語モデル(LLM)がそれらの推論を批判し、洗練する能力は、評価、フィードバックのプロビジョニング、自己改善において非常に重要である。 本稿では,llms のさまざまなタスクに対する批判的・正当化能力を評価するための総合ベンチマークである criticbench について紹介する。 CriticBenchは数学、常識、記号、コーディング、アルゴリズムの5つの推論領域を含んでいる。 15のデータセットをコンパイルし、3つのLLMファミリーからのレスポンスを組み込む。 批判ベンチを活用し,世代,批判,訂正推論,すなわちgqc推論における17llmの性能を評価し,分析する。 Our findings reveal: (1) a linear relationship in GQC capabilities, with critique-focused training markedly enhancing performance; (2) a task-dependent variation in correction effectiveness, with logic-oriented tasks being more amenable to correction; (3) GQC knowledge inconsistencies that decrease as model size increases; and (4) an intriguing inter-model critiquing dynamic, where stronger models are better at critiquing weaker ones, while weaker models can surprisingly surpass stronger ones in their self-critique. LLMの微妙な批判的正しい推論に対するこれらの洞察が、LCM批判と自己改善のさらなる研究を促進することを願っている。

The ability of Large Language Models (LLMs) to critique and refine their reasoning is crucial for their application in evaluation, feedback provision, and self-improvement. This paper introduces CriticBench, a comprehensive benchmark designed to assess LLMs' abilities to critique and rectify their reasoning across a variety of tasks. CriticBench encompasses five reasoning domains: mathematical, commonsense, symbolic, coding, and algorithmic. It compiles 15 datasets and incorporates responses from three LLM families. Utilizing CriticBench, we evaluate and dissect the performance of 17 LLMs in generation, critique, and correction reasoning, i.e., GQC reasoning. Our findings reveal: (1) a linear relationship in GQC capabilities, with critique-focused training markedly enhancing performance; (2) a task-dependent variation in correction effectiveness, with logic-oriented tasks being more amenable to correction; (3) GQC knowledge inconsistencies that decrease as model size increases; and (4) an intriguing inter-model critiquing dynamic, where stronger models are better at critiquing weaker ones, while weaker models can surprisingly surpass stronger ones in their self-critique. We hope these insights into the nuanced critique-correct reasoning of LLMs will foster further research in LLM critique and self-improvement.
翻訳日:2024-03-11 22:37:22 公開日:2024-03-08
# SaGE: 大規模言語モデルにおけるモラル一貫性の評価

SaGE: Evaluating Moral Consistency in Large Language Models ( http://arxiv.org/abs/2402.13709v2 )

ライセンス: Link先を確認
Vamshi Krishna Bonagiri, Sreeram Vennam, Priyanshul Govil, Ponnurangam Kumaraguru, Manas Gaur(参考訳) 会話システムにおける大規模言語モデル(llm)の印象的な能力を示す最近の進歩にもかかわらず、最先端のllmでさえ、その世代において道徳的に一貫性がなく、信頼性(および一般的に信頼性)に疑問を呈している。 LLM評価における以前の研究は、特定のタスクの精度を計測する地平データの開発に重点を置いていた。 しかしながら、普遍的に合意された回答を欠く道徳的シナリオでは、モデルの応答の一貫性が信頼性に不可欠となる。 この問題に対処するために,モデルの道徳的整合性を測定するために,"Rules of Thumb"(RoTs)の概念に基づくセマンティックグラフエントロピー(SaGE)という情報理論尺度を提案する。 RoTはモデルによって学習された抽象原則であり、意思決定戦略を効果的に説明するのに役立ちます。 この範囲で、道徳的質問やLSMによる回答、そしてこれらのモデルが従うRoTを含むMoral Consistency Corpus (MCC)を構築した。 さらに、SaGEの一般化可能性を説明するために、TruthfulQAとHellaSwagという2つの一般的なデータセット上でのLLM一貫性を調査します。 この結果から,タスクの正確性や一貫性は独立した問題であり,これらの問題をさらに検討する必要があることが明らかとなった。

Despite recent advancements showcasing the impressive capabilities of Large Language Models (LLMs) in conversational systems, we show that even state-of-the-art LLMs are morally inconsistent in their generations, questioning their reliability (and trustworthiness in general). Prior works in LLM evaluation focus on developing ground-truth data to measure accuracy on specific tasks. However, for moral scenarios that often lack universally agreed-upon answers, consistency in model responses becomes crucial for their reliability. To address this issue, we propose an information-theoretic measure called Semantic Graph Entropy (SaGE), grounded in the concept of "Rules of Thumb" (RoTs) to measure a model's moral consistency. RoTs are abstract principles learned by a model and can help explain their decision-making strategies effectively. To this extent, we construct the Moral Consistency Corpus (MCC), containing 50K moral questions, responses to them by LLMs, and the RoTs that these models followed. Furthermore, to illustrate the generalizability of SaGE, we use it to investigate LLM consistency on two popular datasets -- TruthfulQA and HellaSwag. Our results reveal that task-accuracy and consistency are independent problems, and there is a dire need to investigate these issues further.
翻訳日:2024-03-11 22:37:03 公開日:2024-03-08
# 大規模言語モデルの知識蒸留に関する調査研究

A Survey on Knowledge Distillation of Large Language Models ( http://arxiv.org/abs/2402.13116v3 )

ライセンス: Link先を確認
Xiaohan Xu, Ming Li, Chongyang Tao, Tao Shen, Reynold Cheng, Jinyang Li, Can Xu, Dacheng Tao, Tianyi Zhou(参考訳) LLM(Large Language Models)の時代において、知識蒸留(KD)は、GPT-4のような主要なプロプライエタリなLCMからLLaMAやMistralといったオープンソースに高度な機能を移行するための重要な方法論として登場した。 さらに、オープンソースのLLMが繁栄するにつれて、KDはこれらのモデルを圧縮し、自らを教師として採用することで自己改善を促進するために重要な役割を果たす。 本稿では,LLM領域におけるKDの役割を包括的に調査し,より小さなモデルに高度な知識を与える上で重要な機能と,モデル圧縮と自己改善における有用性を明らかにする。 本調査は,kd機構の包括的検証,特定の認知能力の強化,多種多様な分野にわたる実践的意義を提供する,<textit{algorithm},<textit{skill},<textit{verticalization}>の3つの基本柱を中心に,細心の注意を払って構成した。 重要な点として、この調査はデータ拡張(DA)とKDの間の複雑な相互作用をナビゲートし、DAがKDフレームワーク内で強力なパラダイムとして出現し、LLMのパフォーマンスを向上する方法について説明している。 daを活用してコンテキスト豊富なスキル固有のトレーニングデータを生成することで、kdは従来のバウンダリを超越し、オープンソースモデルが自身のプロプライエタリなコンテクストの高度さ、倫理的アライメント、深い意味的洞察を近似することができる。 本研究は、KDにおける現在の方法論の概要と今後の研究方向性を提案する、研究者や実践者のための洞察に富んだガイドを提供することを目的としている。 重要なことは、我々は、LLMの使用を規制し、LLMのKDの倫理的かつ合法的な適用を確実にする法的条件の遵守を強く主張する。 Githubリポジトリはhttps://github.com/Tebmer/Awesome-Knowledge-Distillation-of-LLMsで公開されている。

In the era of Large Language Models (LLMs), Knowledge Distillation (KD) emerges as a pivotal methodology for transferring advanced capabilities from leading proprietary LLMs, such as GPT-4, to their open-source counterparts like LLaMA and Mistral. Additionally, as open-source LLMs flourish, KD plays a crucial role in both compressing these models, and facilitating their self-improvement by employing themselves as teachers. This paper presents a comprehensive survey of KD's role within the realm of LLM, highlighting its critical function in imparting advanced knowledge to smaller models and its utility in model compression and self-improvement. Our survey is meticulously structured around three foundational pillars: \textit{algorithm}, \textit{skill}, and \textit{verticalization} -- providing a comprehensive examination of KD mechanisms, the enhancement of specific cognitive abilities, and their practical implications across diverse fields. Crucially, the survey navigates the intricate interplay between data augmentation (DA) and KD, illustrating how DA emerges as a powerful paradigm within the KD framework to bolster LLMs' performance. By leveraging DA to generate context-rich, skill-specific training data, KD transcends traditional boundaries, enabling open-source models to approximate the contextual adeptness, ethical alignment, and deep semantic insights characteristic of their proprietary counterparts. This work aims to provide an insightful guide for researchers and practitioners, offering a detailed overview of current methodologies in KD and proposing future research directions. Importantly, we firmly advocate for compliance with the legal terms that regulate the use of LLMs, ensuring ethical and lawful application of KD of LLMs. An associated Github repository is available at https://github.com/Tebmer/Awesome-Knowledge-Distillation-of-LLMs.
翻訳日:2024-03-11 22:36:37 公開日:2024-03-08
# szcore:脳波に基づく自動発作検出アルゴリズムの検証のための発作コミュニティオープンソース研究評価フレームワーク

SzCORE: A Seizure Community Open-source Research Evaluation framework for the validation of EEG-based automated seizure detection algorithms ( http://arxiv.org/abs/2402.13005v3 )

ライセンス: Link先を確認
Jonathan Dan, Una Pale, Alireza Amirshahi, William Cappelletti, Thorir Mar Ingolfsson, Xiaying Wang, Andrea Cossettini, Adriano Bernini, Luca Benini, S\'andor Beniczky, David Atienza, Philippe Ryvlin(参考訳) 脳波(EEG)に基づく高品質な自動発作検出アルゴリズムの必要性は、脳波モニタリングと長期脳波モニタリングの利用の増加によりますます強まりつつある。 これらのアルゴリズムの検証方法における不均一性は、報告された結果に影響を与え、包括的な評価と比較を困難にする。 この多様性は、特にデータセット、評価方法論、パフォーマンスメトリクスの選択に関するものです。 本稿では,脳波に基づく発作検出アルゴリズムの検証における標準化を確立するために設計された統一フレームワークを提案する。 既存のガイドラインと推奨に基づいて、このフレームワークはデータセット、ファイルフォーマット、脳波データ入力コンテンツ、入力と出力の入力、相互評価戦略、パフォーマンスメトリクスに関する一連の推奨と標準を導入している。 また,公開データセットを標準フォーマットに変換する機械学習ベンチマークである,10~20回の発作検出ベンチマークを提案する。 このベンチマークでは、機械学習タスクとメトリクスのレポートを定義している。 既存の発作検出アルゴリズムのセットを評価することで、ベンチマークの使用について説明する。 SzCORE(Seizure Community Open-source Research Evaluation)フレームワークとベンチマークは、研究を容易にするためのオープンソースソフトウェアライブラリとともに公開され、アルゴリズムの臨床的意義の厳密な評価を可能にし、てんかん患者の生活を改善するために発作をより最適に検出する全体的な取り組みを促進する。

The need for high-quality automated seizure detection algorithms based on electroencephalography (EEG) becomes ever more pressing with the increasing use of ambulatory and long-term EEG monitoring. Heterogeneity in validation methods of these algorithms influences the reported results and makes comprehensive evaluation and comparison challenging. This heterogeneity concerns in particular the choice of datasets, evaluation methodologies, and performance metrics. In this paper, we propose a unified framework designed to establish standardization in the validation of EEG-based seizure detection algorithms. Based on existing guidelines and recommendations, the framework introduces a set of recommendations and standards related to datasets, file formats, EEG data input content, seizure annotation input and output, cross-validation strategies, and performance metrics. We also propose the 10-20 seizure detection benchmark, a machine-learning benchmark based on public datasets converted to a standardized format. This benchmark defines the machine-learning task as well as reporting metrics. We illustrate the use of the benchmark by evaluating a set of existing seizure detection algorithms. The SzCORE (Seizure Community Open-source Research Evaluation) framework and benchmark are made publicly available along with an open-source software library to facilitate research use, while enabling rigorous evaluation of the clinical significance of the algorithms, fostering a collective effort to more optimally detect seizures to improve the lives of people with epilepsy.
翻訳日:2024-03-11 22:36:03 公開日:2024-03-08
# 語彙意味変化のための文脈付き単語埋め込みの体系的比較

A Systematic Comparison of Contextualized Word Embeddings for Lexical Semantic Change ( http://arxiv.org/abs/2402.12011v3 )

ライセンス: Link先を確認
Francesco Periti, Nina Tahmasebi(参考訳) 文脈的埋め込みは、Lexical Semantic Change (LSC) をモデリングするための好ましいツールである。 現在の評価は通常、グレード・チェンジ検出(GCD)と呼ばれる特定のタスクに焦点を当てている。 しかしながら、作業間のパフォーマンス比較は、さまざまな設定に依存するため、しばしば誤解を招く。 本稿では,同じ条件下でGCDの最先端モデルとアプローチを評価する。 さらに、LCC問題をWord-in-Context(WiC)とWord Sense Injection(WSI)タスクに分解し、これらの異なるレベルのモデルと比較する。 LSCのための8つのベンチマークで、異なる言語で評価を行い、その結果を示した。 (i)PDはGCDの他のアプローチより優れている。 (ii)XL-LEXEMEは、GPT-4と同等でありながら、WiC、WSI、GCDの他の文脈モデルよりも優れている。 (iii)意味変化の程度にのみ焦点をあてるのではなく、単語の意味のモデリングを改善し、どのように、いつ、そしてなぜその意味が変わるかに焦点を合わせる必要がある。

Contextualized embeddings are the preferred tool for modeling Lexical Semantic Change (LSC). Current evaluations typically focus on a specific task known as Graded Change Detection (GCD). However, performance comparison across work are often misleading due to their reliance on diverse settings. In this paper, we evaluate state-of-the-art models and approaches for GCD under equal conditions. We further break the LSC problem into Word-in-Context (WiC) and Word Sense Induction (WSI) tasks, and compare models across these different levels. Our evaluation is performed across different languages on eight available benchmarks for LSC, and shows that (i) APD outperforms other approaches for GCD; (ii) XL-LEXEME outperforms other contextualized models for WiC, WSI, and GCD, while being comparable to GPT-4; (iii) there is a clear need for improving the modeling of word meanings, as well as focus on how, when, and why these meanings change, rather than solely focusing on the extent of semantic change.
翻訳日:2024-03-11 22:35:40 公開日:2024-03-08
# データ拡張と一貫性トレーニングの再検討による半教師付き2次元ポーズ推定の促進

Boosting Semi-Supervised 2D Human Pose Estimation by Revisiting Data Augmentation and Consistency Training ( http://arxiv.org/abs/2402.11566v2 )

ライセンス: Link先を確認
Huayi Zhou, Mukun Luo, Fei Jiang, Yue Ding, Hongtao Lu(参考訳) 2次元人間のポーズ推定(hpe)は基本的な視覚問題である。 しかし、教師付き学習には大量のキーポイントラベルが必要であり、収集に手間がかかる。 そこで我々は,半教師付き学習(ssl)による余分なラベルなしデータ抽出によるポーズ推定の促進を目指す。 従来のSSHPEメソッドは一貫性に基づいており、異なる拡張入力に対して一貫性のある出力を維持する。 このジャンルでは、SSHPEは、高度なデータ拡張と簡潔な一貫性のトレーニング方法という、2つのコアから強化できる。 具体的には,まず,既存の拡張の相乗効果を発見し,新しい優れたHPE指向拡張を簡便に生成するための新しいパラダイムを明らかにし,ラベルなしサンプルにより効果的にノイズを付加する。 したがって、より大きな難易度ギャップを持つペアの容易な拡張を確立できる。 第2のコアでは,様々なハード増補を伴うラベルなし画像を繰り返し増補し,複数経路予測を逐次生成し,単一ネットワークでマルチロスを最適化することを提案する。 このシンプルでコンパクトなデザインは解釈可能であり、新しく発見された拡張によって容易に得られる。 提案手法は,SOTA手法と比較して,公開データセットに大幅な改善をもたらす。 コードは \url{https://github.com/hnuzhy/MultiAugs} にある。

The 2D human pose estimation (HPE) is a basic visual problem. However, its supervised learning requires massive keypoint labels, which is labor-intensive to collect. Thus, we aim at boosting a pose estimator by excavating extra unlabeled data with semi-supervised learning (SSL). Most previous SSHPE methods are consistency-based and strive to maintain consistent outputs for differently augmented inputs. Under this genre, we find that SSHPE can be boosted from two cores: advanced data augmentations and concise consistency training ways. Specifically, for the first core, we discover the synergistic effects of existing augmentations, and reveal novel paradigms for conveniently producing new superior HPE-oriented augmentations which can more effectively add noise on unlabeled samples. We can therefore establish paired easy-hard augmentations with larger difficulty gaps. For the second core, we propose to repeatedly augment unlabeled images with diverse hard augmentations, and generate multi-path predictions sequentially for optimizing multi-losses in a single network. This simple and compact design is interpretable, and easily benefits from newly found augmentations. Comparing to SOTA approaches, our method brings substantial improvements on public datasets. Code is in \url{https://github.com/hnuzhy/MultiAugs}
翻訳日:2024-03-11 22:35:23 公開日:2024-03-08
# H2O-SDF:物体表面場を用いた3次元室内再構成のための2相学習

H2O-SDF: Two-phase Learning for 3D Indoor Reconstruction using Object Surface Fields ( http://arxiv.org/abs/2402.08138v2 )

ライセンス: Link先を確認
Minyoung Park, Mirae Do, YeonJae Shin, Jaeseok Yoo, Jongkwang Hong, Joongrock Kim, Chul Lee(参考訳) ニューラルレージアンス・フィールド(NeRF)、シグネクテッド・ディスタンス・フィールド(SDF)、オクショナンシー・フィールド(Occupancy Fields)を用いた3次元屋内シーン再構築のソリューションとして最近登場した。 本研究では,屋内環境における対象領域と非対象領域を識別する二相学習手法H2O-SDFを提案する。 この方法はニュアンスバランスを実現し、部屋のレイアウトの幾何学的整合性を慎重に保ちつつ、特定のオブジェクトの表面の詳細を複雑に捉える。 この2相学習フレームワークの基盤は、これまで他の手法で高周波ディテールの捕捉を妨げていた永続的消失勾配問題を解決するために設計された新しい概念である、object surface field(osf)の導入です。 提案手法はアブレーション研究を含むいくつかの実験により検証された。

Advanced techniques using Neural Radiance Fields (NeRF), Signed Distance Fields (SDF), and Occupancy Fields have recently emerged as solutions for 3D indoor scene reconstruction. We introduce a novel two-phase learning approach, H2O-SDF, that discriminates between object and non-object regions within indoor environments. This method achieves a nuanced balance, carefully preserving the geometric integrity of room layouts while also capturing intricate surface details of specific objects. A cornerstone of our two-phase learning framework is the introduction of the Object Surface Field (OSF), a novel concept designed to mitigate the persistent vanishing gradient problem that has previously hindered the capture of high-frequency details in other methods. Our proposed approach is validated through several experiments that include ablation studies.
翻訳日:2024-03-11 22:34:38 公開日:2024-03-08
# マルチモーダル解釈可能なデータ駆動モデルによる多変量時系列を用いた抗菌性多剤耐性の早期予測

Multimodal Interpretable Data-Driven Models for Early Prediction of Antimicrobial Multidrug Resistance Using Multivariate Time-Series ( http://arxiv.org/abs/2402.06295v2 )

ライセンス: Link先を確認
Sergio Mart\'inez-Ag\"uero, Antonio G. Marques, Inmaculada Mora-Jim\'enez, Joaqu\'in Alv\'arez-Rodr\'iguez, Cristina Soguero-Ruiz(参考訳) EHR(Electronic Health Record)は、静的データと多変量時系列(MTS)を特徴とする患者の健康状態のマルチモーダルレジスタである。 MTSは臨床的予測に有用なツールであるが、他のデータモダリティとの融合はより詳細な洞察とより正確な結果をもたらす可能性がある。 ディープニューラルネットワーク(DNN)は、医療領域の基本パターンを特定し定義するための基本的なツールとして登場した。 しかし、DNNモデルが臨床現場で広く使われるためには、解釈可能性の根本的な改善が必要である。 本研究では,フエンラブラダ大学病院(スペイン・マドリッド)の集中治療室(ICU)における抗微生物多剤耐性(AMR)菌の出現を予測し,理解することのできる,解釈可能なマルチモーダルデータ駆動モデルの集合体に基づくアプローチを提案する。 患者のプロファイルと初期健康状態は静的変数を用いてモデル化され、ICU滞在中の患者の健康状態の進化は、機械的換気や抗生物質摂取を含むいくつかのMSSを用いてモデル化される。 本稿で提案するマルチモーダルDNNモデルには,AMRの予測に有効であることに加えて,ICUにおけるAMRの予測支援システムの提供に加えて,解釈可能な原理が含まれている。 さらに,多モードモデルと解釈可能性スキームに基づく提案手法は,ERHデータを扱う追加臨床問題に活用でき,その結果への影響と適用性を広げることができる。

Electronic health records (EHR) is an inherently multimodal register of the patient's health status characterized by static data and multivariate time series (MTS). While MTS are a valuable tool for clinical prediction, their fusion with other data modalities can possibly result in more thorough insights and more accurate results. Deep neural networks (DNNs) have emerged as fundamental tools for identifying and defining underlying patterns in the healthcare domain. However, fundamental improvements in interpretability are needed for DNN models to be widely used in the clinical setting. In this study, we present an approach built on a collection of interpretable multimodal data-driven models that may anticipate and understand the emergence of antimicrobial multidrug resistance (AMR) germs in the intensive care unit (ICU) of the University Hospital of Fuenlabrada (Madrid, Spain). The profile and initial health status of the patient are modeled using static variables, while the evolution of the patient's health status during the ICU stay is modeled using several MTS, including mechanical ventilation and antibiotics intake. The multimodal DNNs models proposed in this paper include interpretable principles in addition to being effective at predicting AMR and providing an explainable prediction support system for AMR in the ICU. Furthermore, our proposed methodology based on multimodal models and interpretability schemes can be leveraged in additional clinical problems dealing with EHR data, broadening the impact and applicability of our results.
翻訳日:2024-03-11 22:34:20 公開日:2024-03-08
# 大規模言語モデルを用いた構造化エンティティ抽出

Structured Entity Extraction Using Large Language Models ( http://arxiv.org/abs/2402.04437v2 )

ライセンス: Link先を確認
Haolun Wu, Ye Yuan, Liana Mikaelyan, Alexander Meulemans, Xue Liu, James Hensman, Bhaskar Mitra(参考訳) 機械学習の最近の進歩は情報抽出の分野に大きな影響を与えており、Large Language Models (LLM) は構造化されていないテキストから構造化情報を取り出す上で重要な役割を果たしている。 本稿では、構造化エンティティ抽出における現在の方法論の課題と限界を考察し、これらの問題に対処するための新しいアプローチを紹介する。 まず、構造化エンティティ抽出(SEE)タスクの導入と形式化を行い、続いて、このタスク上でモデルパフォーマンスを適切に評価するように設計されたAESOP(Adroximate Entity Set OverlaP)メトリックを提案します。 その後, 抽出タスク全体を多段階に分解し, llmのパワーを活用し, 効率と効率を向上させる新しいモデルを提案する。 定量的評価と人体側評価により,本モデルがベースラインより優れており,構造化エンティティ抽出の今後の進歩に期待できる方向を提供する。

Recent advances in machine learning have significantly impacted the field of information extraction, with Large Language Models (LLMs) playing a pivotal role in extracting structured information from unstructured text. This paper explores the challenges and limitations of current methodologies in structured entity extraction and introduces a novel approach to address these issues. We contribute to the field by first introducing and formalizing the task of Structured Entity Extraction (SEE), followed by proposing Approximate Entity Set OverlaP (AESOP) Metric designed to appropriately assess model performance on this task. Later, we propose a new model that harnesses the power of LLMs for enhanced effectiveness and efficiency through decomposing the entire extraction task into multiple stages. Quantitative evaluation and human side-by-side evaluation confirm that our model outperforms baselines, offering promising directions for future advancements in structured entity extraction.
翻訳日:2024-03-11 22:33:54 公開日:2024-03-08
# ベイズ最適化を支援する大規模言語モデル

Large Language Models to Enhance Bayesian Optimization ( http://arxiv.org/abs/2402.03921v2 )

ライセンス: Link先を確認
Tennison Liu and Nicol\'as Astorga and Nabeel Seedat and Mihaela van der Schaar(参考訳) ベイズ最適化(BO)は、複雑で高価なブラックボックス関数を最適化するための強力なアプローチである。 その重要性は、特にハイパーパラメータチューニングを含む多くのアプリケーションで強調されているが、その効果は探索と搾取の効率的なバランスに依存する。 BO法にはかなりの進歩があったが、このバランスを打つことは微妙なプロセスである。 本稿では,Large Language Models (LLM) の機能を統合する新しいアプローチであるLLAMBOを提案する。 高レベルでは、自然言語でbo問題をフレーム化することで、llmが歴史的評価に基づく有望なソリューションを反復的に提案し、評価することができる。 より具体的には、文脈理解、少ない学習能力、llmのドメイン知識を組み合わせることで、モデルベースのboがいかに改善されるかを検討する。 以上の結果から,LLAMBOはゼロショットウォームスタートに有効であり,サロゲートモデリングや候補サンプリングの促進,特に観察が不十分な場合の探索の初期段階において有効であることが示唆された。 我々のアプローチは文脈で実行され、llmの微調整は不要です。 さらに、それは設計によってモジュール化されており、個々のコンポーネントを既存のBOフレームワークに統合できる。 LLAMBOのハイパーパラメータチューニング問題に対する有効性を実証的に検証し、多様なベンチマーク、プロプライエタリ、合成タスクにまたがる強力な経験的性能を強調した。

Bayesian optimization (BO) is a powerful approach for optimizing complex and expensive-to-evaluate black-box functions. Its importance is underscored in many applications, notably including hyperparameter tuning, but its efficacy depends on efficiently balancing exploration and exploitation. While there has been substantial progress in BO methods, striking this balance remains a delicate process. In this light, we present LLAMBO, a novel approach that integrates the capabilities of Large Language Models (LLM) within BO. At a high level, we frame the BO problem in natural language, enabling LLMs to iteratively propose and evaluate promising solutions conditioned on historical evaluations. More specifically, we explore how combining contextual understanding, few-shot learning proficiency, and domain knowledge of LLMs can improve model-based BO. Our findings illustrate that LLAMBO is effective at zero-shot warmstarting, and enhances surrogate modeling and candidate sampling, especially in the early stages of search when observations are sparse. Our approach is performed in context and does not require LLM finetuning. Additionally, it is modular by design, allowing individual components to be integrated into existing BO frameworks, or function cohesively as an end-to-end method. We empirically validate LLAMBO's efficacy on the problem of hyperparameter tuning, highlighting strong empirical performance across a range of diverse benchmarks, proprietary, and synthetic tasks.
翻訳日:2024-03-11 22:33:37 公開日:2024-03-08
# mod-slam:unbounded 3d scene reconstructionのための単眼高密度マッピング

MoD-SLAM: Monocular Dense Mapping for Unbounded 3D Scene Reconstruction ( http://arxiv.org/abs/2402.03762v5 )

ライセンス: Link先を確認
Heng Zhou, Zhetao Guo, Shuhong Liu, Lechen Zhang, Qihao Wang, Yuxiang Ren, Mingrui Li(参考訳) 単分子SLAMは、シンプルなRGB入力と複雑なセンサー制約の解除により、多くの注目を集めている。 しかし、既存の単分子SLAMシステムは境界シーン用に設計されており、SLAMシステムの適用性を制限している。 この制限に対処するために,非有界シーンでリアルタイムに3次元再構成を可能にする最初の単眼型nerfベースの密集マッピング手法であるmod-slamを提案する。 具体的には,境界のないシーンをマッピングする課題を解決するために,ガウス型無境界シーン表現手法を導入する。 この戦略はSLAMアプリケーションを拡張するために不可欠です。 さらに、フロントエンドの深さ推定モジュールは、正確な事前深度値を抽出してマッピングと追跡プロセスを監督するように設計されている。 追跡処理にロバストな深度損失項を導入することにより,大規模シーンにおけるより正確なポーズ推定を実現する。 2つの標準データセットを用いた実験により,mod-slamは,既存のモノクロスラムシステムと比較して,最大30%,15%の精度向上と3次元再構成の精度向上を実現した。

Monocular SLAM has received a lot of attention due to its simple RGB inputs and the lifting of complex sensor constraints. However, existing monocular SLAM systems are designed for bounded scenes, restricting the applicability of SLAM systems. To address this limitation, we propose MoD-SLAM, the first monocular NeRF-based dense mapping method that allows 3D reconstruction in real-time in unbounded scenes. Specifically, we introduce a Gaussian-based unbounded scene representation approach to solve the challenge of mapping scenes without boundaries. This strategy is essential to extend the SLAM application. Moreover, a depth estimation module in the front-end is designed to extract accurate priori depth values to supervise mapping and tracking processes. By introducing a robust depth loss term into the tracking process, our SLAM system achieves more precise pose estimation in large-scale scenes. Our experiments on two standard datasets show that MoD-SLAM achieves competitive performance, improving the accuracy of the 3D reconstruction and localization by up to 30% and 15% respectively compared with existing state-of-the-art monocular SLAM systems.
翻訳日:2024-03-11 22:33:12 公開日:2024-03-08
# トランスとCNNを統合したタンパク質構造予測手法

A Protein Structure Prediction Approach Leveraging Transformer and CNN Integration ( http://arxiv.org/abs/2402.19095v2 )

ライセンス: Link先を確認
Yanlin Zhou, Kai Tan, Xinyu Shen, Zheng He, Haotian Zheng(参考訳) タンパク質は生命に必須であり、その構造は機能を決定する。 タンパク質二次構造は、タンパク質一次構造の折り畳みによって形成され、タンパク質第三構造は二次構造の折り畳みによって形成される。 したがって、タンパク質二次構造の研究はタンパク質構造全体の理解に非常に役立つ。 機械学習やディープラーニングの開発によって、タンパク質二次構造予測の精度は継続的に向上しているが、残念ながらタンパク質構造予測の分野の進歩は、タンパク質情報に対する大きな需要を満たすには不十分である。 そこで本研究では,特徴抽出と学習能力の深層学習手法の利点を活かして,畳み込みニューラルネットワーク(CCN)を用いた2次元融合深層ニューラルネットワークモデルDstruCCNと,単一配列タンパク質構造予測のための教師付きトランスフォーマータンパク質言語モデルを採用する。 2つのトレーニング特徴を組み合わせることで、タンパク質トランスフォーマー結合部位行列を予測し、3次元構造をエネルギー最小化を用いて再構成する。

Proteins are essential for life, and their structure determines their function. The protein secondary structure is formed by the folding of the protein primary structure, and the protein tertiary structure is formed by the bending and folding of the secondary structure. Therefore, the study of protein secondary structure is very helpful to the overall understanding of protein structure. Although the accuracy of protein secondary structure prediction has continuously improved with the development of machine learning and deep learning, progress in the field of protein structure prediction, unfortunately, remains insufficient to meet the large demand for protein information. Therefore, based on the advantages of deep learning-based methods in feature extraction and learning ability, this paper adopts a two-dimensional fusion deep neural network model, DstruCCN, which uses Convolutional Neural Networks (CCN) and a supervised Transformer protein language model for single-sequence protein structure prediction. The training features of the two are combined to predict the protein Transformer binding site matrix, and then the three-dimensional structure is reconstructed using energy minimization.
翻訳日:2024-03-11 22:26:59 公開日:2024-03-08
# Spectral Meets Space: Harmonising 3D Shape Matching and Interpolation

Spectral Meets Spatial: Harmonising 3D Shape Matching and Interpolation ( http://arxiv.org/abs/2402.18920v3 )

ライセンス: Link先を確認
Dongliang Cao, Marvin Eisenberger, Nafie El Amrani, Daniel Cremers, Florian Bernard(参考訳) 3次元形状マッチングと補間は非常に関連性が高いが、異なる3次元形状を連続的に研究し、その結果、準最適性能が得られる。 本研究では3次元形状間の点対応と形状補間の両方を予測する統一的な枠組みを提案する。 この目的のために、深層機能マップフレームワークと古典的表面変形モデルを組み合わせて、スペクトル領域と空間領域の両方の形状をマッピングする。 一方, 空間地図を組み込むことにより, 従来の機能地図法と比較して, より正確でスムーズな対応性が得られる。 一方,スペクトルマップを導入することで,近似形状の変形にのみ有効な,一般的に使用されるが計算コストの高い測地線距離制約を解消する。 さらに、ポーズ優位と形状優位の両変形を捉える新しいテスト時間適応方式を提案する。 異なる難易度データセットを用いて,教師付きアプローチと比較しても,従来のシェープマッチング法と補間法を上回っていることを示す。

Although 3D shape matching and interpolation are highly interrelated, they are often studied separately and applied sequentially to relate different 3D shapes, thus resulting in sub-optimal performance. In this work we present a unified framework to predict both point-wise correspondences and shape interpolation between 3D shapes. To this end, we combine the deep functional map framework with classical surface deformation models to map shapes in both spectral and spatial domains. On the one hand, by incorporating spatial maps, our method obtains more accurate and smooth point-wise correspondences compared to previous functional map methods for shape matching. On the other hand, by introducing spectral maps, our method gets rid of commonly used but computationally expensive geodesic distance constraints that are only valid for near-isometric shape deformations. Furthermore, we propose a novel test-time adaptation scheme to capture both pose-dominant and shape-dominant deformations. Using different challenging datasets, we demonstrate that our method outperforms previous state-of-the-art methods for both shape matching and interpolation, even compared to supervised approaches.
翻訳日:2024-03-11 22:26:29 公開日:2024-03-08
# 説明モデルの比較のための確率的リプシッツネスと安定ランク

Probabilistic Lipschitzness and the Stable Rank for Comparing Explanation Models ( http://arxiv.org/abs/2402.18863v2 )

ライセンス: Link先を確認
Lachlan Simpson, Kyle Millar, Adriel Cheng, Cheng-Chew Lim, Hong Gunn Chew(参考訳) ニューラルネットワークのブラックボックスの性質に対処するために、機械学習内で説明可能性モデルが普及した。 問題は、どの説明可能性モデルが最も効果的かである。 確率的リプシッツ性は、ニューラルネットワークの滑らかさが、ホック後の説明の品質と根本的に関連していることを示した。 本研究では,積分勾配, LIME, SmoothGradの確率的リプシッツ性に関する理論的下界を証明した。 確率的リプシッツネス(英語版)を用いた新しい計量法を提案し、説明可能性モデルのロバスト性を比較する。 さらに,ニューラルネットワークの局所リプシッツ定数とその安定階数との関係を証明した。 次に,ニューラルネットワークの安定ランクが説明可能性モデルのロバスト性に対するヒューリスティックとなることを示す。

Explainability models are now prevalent within machine learning to address the black-box nature of neural networks. The question now is which explainability model is most effective. Probabilistic Lipschitzness has demonstrated that the smoothness of a neural network is fundamentally linked to the quality of post hoc explanations. In this work, we prove theoretical lower bounds on the probabilistic Lipschitzness of Integrated Gradients, LIME and SmoothGrad. We propose a novel metric using probabilistic Lipschitzness, normalised astuteness, to compare the robustness of explainability models. Further, we prove a link between the local Lipschitz constant of a neural network and its stable rank. We then demonstrate that the stable rank of a neural network provides a heuristic for the robustness of explainability models.
翻訳日:2024-03-11 22:25:55 公開日:2024-03-08
# EAN-MapNet: Anchorighborhoodsによる効率的なベクトル化HDマップの構築

EAN-MapNet: Efficient Vectorized HD Map Construction with Anchor Neighborhoods ( http://arxiv.org/abs/2402.18278v2 )

ライセンス: Link先を確認
Huiyuan Xiong, Jun Shen, Taohong Zhu, Yuelong Pan(参考訳) 高精細(HD)マップは自動運転システムにとって不可欠である。 既存の作業の多くは、DETRデコーダに基づいた要素検出ヘッドを設計している。 しかしながら、初期クエリには物理的な位置情報の明示的な取り込みがなく、バニラ自己注意は高い計算複雑性を必要とする。 そこで我々は,Anchor Neighborhoodsを用いた効率的なHDマップ構築のためのEAN-MapNetを提案する。 まず, 周辺地域を対象とする問合せユニットを設計し, 周辺地域の中央アンカーを地図要素を表す対象地点に効果的に取り付けることを可能にした。 次に,クエリ間の相対的なインスタンス関係を利用して,グループ化された局所自己意識(GL-SA)を提案する。 これにより、同じインスタンスのクエリ間の直接的な機能インタラクションが容易になると同時に、異なるインスタンスからのクエリ間のインタラクションの仲介としてローカルクエリを革新的に採用する。 その結果、GL-SAはクエリ間の十分な特徴相互作用を確保しながら、自己注意の計算複雑性を著しく低減する。 nuScenesデータセットでは、EAN-MapNetが63.0 mAPで最先端のパフォーマンスを達成した。 さらに、MapTRv2に比べてメモリ消費を8198M削減する。

High-definition (HD) map is crucial for autonomous driving systems. Most existing works design map elements detection heads based on the DETR decoder. However, the initial queries lack explicit incorporation of physical positional information, and vanilla self-attention entails high computational complexity. Therefore, we propose EAN-MapNet for Efficiently constructing HD map using Anchor Neighborhoods. Firstly, we design query units based on the anchor neighborhoods, allowing non-neighborhood central anchors to effectively assist in fitting the neighborhood central anchors to the target points representing map elements. Then, we propose grouped local self-attention (GL-SA) by leveraging the relative instance relationship among the queries. This facilitates direct feature interaction among queries of the same instances, while innovatively employing local queries as intermediaries for interaction among queries from different instances. Consequently, GL-SA significantly reduces the computational complexity of self-attention while ensuring ample feature interaction among queries. On the nuScenes dataset, EAN-MapNet achieves a state-of-the-art performance with 63.0 mAP after training for 24 epochs, surpassing MapTR by 12.7 mAP. Furthermore, it considerably reduces memory consumption by 8198M compared to MapTRv2.
翻訳日:2024-03-11 22:25:32 公開日:2024-03-08
# 条件付きデコーダによる映像のニューラル表現の強化

Boosting Neural Representations for Videos with a Conditional Decoder ( http://arxiv.org/abs/2402.18152v2 )

ライセンス: Link先を確認
Xinjie Zhang, Ren Yang, Dailan He, Xingtong Ge, Tongda Xu, Yan Wang, Hongwei Qin, Jun Zhang(参考訳) Inlicit Neural representations (INR) は、ビデオストレージと処理において有望なアプローチとして登場し、様々なビデオタスクにおいて顕著な汎用性を示している。 しかし、既存の手法は、主にターゲットフレームの復号中に中間機能の整列が不十分なため、表現能力を十分に活用できないことが多い。 本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。 具体的には,条件付きデコーダと時間対応アフィン変換モジュールを用いて,フレームインデックスを先行条件とし,中間特徴を目標フレームと効果的に整合させる。 さらに, 正弦波型NeRV型ブロックを導入し, 多様な中間特性を生成し, パラメータ分布のバランスを保ち, モデルのキャパシティを向上する。 提案手法は,高頻度情報保存再生損失を伴って,ビデオレグレッションの再生品質と収束速度において複数のベースラインINRを向上し,より優れた塗装および補間結果を示す。 さらに,一貫したエントロピー最小化手法を統合し,これらのインバータに基づくビデオコーデックを開発する。 UVGデータセットの実験では、拡張コーデックはベースラインINRよりも大幅に優れており、従来のコーデックや学習ベースのコーデックに比べて競合速度歪み性能が優れていることが確認された。

Implicit neural representations (INRs) have emerged as a promising approach for video storage and processing, showing remarkable versatility across various video tasks. However, existing methods often fail to fully leverage their representation capabilities, primarily due to inadequate alignment of intermediate features during target frame decoding. This paper introduces a universal boosting framework for current implicit video representation approaches. Specifically, we utilize a conditional decoder with a temporal-aware affine transform module, which uses the frame index as a prior condition to effectively align intermediate features with target frames. Besides, we introduce a sinusoidal NeRV-like block to generate diverse intermediate features and achieve a more balanced parameter distribution, thereby enhancing the model's capacity. With a high-frequency information-preserving reconstruction loss, our approach successfully boosts multiple baseline INRs in the reconstruction quality and convergence speed for video regression, and exhibits superior inpainting and interpolation results. Further, we integrate a consistent entropy minimization technique and develop video codecs based on these boosted INRs. Experiments on the UVG dataset confirm that our enhanced codecs significantly outperform baseline INRs and offer competitive rate-distortion performance compared to traditional and learning-based codecs.
翻訳日:2024-03-11 22:25:00 公開日:2024-03-08
# 航空機のマルチスタティックラダーrcs信号認識:ベイズ核融合アプローチ

Multistatic-Radar RCS-Signature Recognition of Aerial Vehicles: A Bayesian Fusion Approach ( http://arxiv.org/abs/2402.17987v2 )

ライセンス: Link先を確認
Michael Potter, Murat Akcakaya, Marius Necsoiu, Gunar Schirner, Deniz Erdogmus, Tales Imbiriba(参考訳) 無人航空機(UAV)用のレーダー自動目標認識(RATR)は、電磁波(EMW)を送信し、受信したレーダーエコーで目標型認識を行う。 以前の研究では、ratrのモノスタティックレーダよりもマルチスタティックレーダ構成のアドバンテージを強調した。 しかし、マルチスタティックレーダ構成の融合法は、個々のレーダの分類ベクトルを確率的に組み合わせることが多い。 そこで我々は,複数のレーダからの分類確率ベクトルを集約するために,OBF(Optimal Bayesian Fusion)を用いた完全ベイズRATRフレームワークを提案する。 OBFは、予想される0-1の損失に基づいて、複数の時間ステップにわたる歴史的観測に基づいて、ターゲットUAVタイプの再帰ベイズ分類(RBC)後部分布を更新する。 本研究では,無響室におけるレーダ断面積(rcs)測定と目標アスペクト角を関連付けた7機のランダム歩行軌跡シミュレーションを用いて,そのアプローチを評価した。 単一レーダ自動目標認識(ATR)システムと準最適フュージョン法との比較により,RBCと統合されたOBF法は,他のフュージョン法や単一レーダ構成と比較して,分類精度を著しく向上することを示した。

Radar Automated Target Recognition (RATR) for Unmanned Aerial Vehicles (UAVs) involves transmitting Electromagnetic Waves (EMWs) and performing target type recognition on the received radar echo, crucial for defense and aerospace applications. Previous studies highlighted the advantages of multistatic radar configurations over monostatic ones in RATR. However, fusion methods in multistatic radar configurations often suboptimally combine classification vectors from individual radars probabilistically. To address this, we propose a fully Bayesian RATR framework employing Optimal Bayesian Fusion (OBF) to aggregate classification probability vectors from multiple radars. OBF, based on expected 0-1 loss, updates a Recursive Bayesian Classification (RBC) posterior distribution for target UAV type, conditioned on historical observations across multiple time steps. We evaluate the approach using simulated random walk trajectories for seven drones, correlating target aspect angles to Radar Cross Section (RCS) measurements in an anechoic chamber. Comparing against single radar Automated Target Recognition (ATR) systems and suboptimal fusion methods, our empirical results demonstrate that the OBF method integrated with RBC significantly enhances classification accuracy compared to other fusion methods and single radar configurations.
翻訳日:2024-03-11 22:24:26 公開日:2024-03-08
# RePrune:カーネル代表選考によるチャンネルのプルーニング

REPrune: Channel Pruning via Kernel Representative Selection ( http://arxiv.org/abs/2402.17862v3 )

ライセンス: Link先を確認
Mincheol Park, Dongjin Kim, Cheonjun Park, Yuna Park, Gyeong Eun Gong, Won Woo Ro, Suhyun Kim(参考訳) チャネルプルーニングは現代の畳み込みニューラルネットワーク(cnns)を加速するために広く受け入れられている。 結果として得られたprunedモデルは、汎用ソフトウェアとハードウェアリソースへの即時デプロイから恩恵を受ける。 しかし、特に畳み込みフィルタの単位において、その大きな粉砕粒度は、cnnにスパース性を導入する方法や場所を決定する柔軟性がないため、望ましくない精度低下に繋がることが多い。 本稿では,カーネルプルーニングをエミュレートする新しいチャネルプルーニング手法であるREPruneを提案する。 repruneは凝集クラスタリングを使用して各チャネル内の類似のカーネルを識別する。 そして、最大クラスタカバレッジ問題を最適化しつつ、カーネル代表者の取り込みを最大化するフィルタを選択する。 同時にトレーニング・プルーニングのパラダイムを統合することで、REPruneはCNNのトレーニング全体を通じて効率的でプログレッシブなプルーニングを促進する。 実験結果から、REPruneは既存の手法よりもコンピュータビジョンタスクにおいて優れており、加速比と性能保持のバランスを効果的に達成できることがわかった。

Channel pruning is widely accepted to accelerate modern convolutional neural networks (CNNs). The resulting pruned model benefits from its immediate deployment on general-purpose software and hardware resources. However, its large pruning granularity, specifically at the unit of a convolution filter, often leads to undesirable accuracy drops due to the inflexibility of deciding how and where to introduce sparsity to the CNNs. In this paper, we propose REPrune, a novel channel pruning technique that emulates kernel pruning, fully exploiting the finer but structured granularity. REPrune identifies similar kernels within each channel using agglomerative clustering. Then, it selects filters that maximize the incorporation of kernel representatives while optimizing the maximum cluster coverage problem. By integrating with a simultaneous training-pruning paradigm, REPrune promotes efficient, progressive pruning throughout training CNNs, avoiding the conventional train-prune-finetune sequence. Experimental results highlight that REPrune performs better in computer vision tasks than existing methods, effectively achieving a balance between acceleration ratio and performance retention.
翻訳日:2024-03-11 22:24:01 公開日:2024-03-08
# 連続セルオートマトンにおける相境界の複雑さの探索

Looking for Complexity at Phase Boundaries in Continuous Cellular Automata ( http://arxiv.org/abs/2402.17848v2 )

ライセンス: Link先を確認
Vassilis Papadopoulos, Guilhem Doat, Arthur Renard, Cl\'ement Hongler(参考訳) 人工生命の重要な課題の1つは、複雑な行動の出現を示すシステムを設計することである。 そのような系の多くは高次元のパラメータ空間に依存しており、その小さな部分集合だけが興味深いダイナミクスを示す。 連続系の場合に着目し,二相間の境界に位置するパラメータを効率的に生成できる「相遷移ファインダ(ptf)アルゴリズム」を提案する。 これらの点が複雑な振る舞いを示す傾向が強く、PTFをレニアに適用することで2倍以上の興味深い行動の頻度を増大させることができる一方で、大規模な探索に十分な効率が維持できることを示す。

One key challenge in Artificial Life is designing systems that display an emergence of complex behaviors. Many such systems depend on a high-dimensional parameter space, only a small subset of which displays interesting dynamics. Focusing on the case of continuous systems, we introduce the 'Phase Transition Finder'(PTF) algorithm, which can be used to efficiently generate parameters lying at the border between two phases. We argue that such points are more likely to display complex behaviors, and confirm this by applying PTF to Lenia showing it can increase the frequency of interesting behaviors more than two-fold, while remaining efficient enough for large-scale searches.
翻訳日:2024-03-11 22:23:41 公開日:2024-03-08
# 衣服デジタル化のためのベイズ微分物理

Bayesian Differentiable Physics for Cloth Digitalization ( http://arxiv.org/abs/2402.17664v3 )

ライセンス: Link先を確認
Deshan Gong, Ningtao Mao, He Wang(参考訳) 布のデジタル化のための新しい手法を提案する。 比較的カジュアルな設定で取得したデータから学習する既存の方法から逸脱し,厳密にテストされた測定プロトコルで取得したデータから学習し,布の物理パラメータを求める。 しかし、このデータは現在存在しないため、まず布の正確な測定を行う新しいデータセットを提案する。 さらに、データキャプチャプロセスの性質上、データサイズは現在のディープラーニングのものよりもかなり小さい。 小さなデータから学ぶために,実布の複雑な材料不均一性を推定する新しいベイズ微分可能な布モデルを提案する。 非常に限られたデータサンプルから高い精度でデジタル化することができる。 徹底的な評価と比較を通じて,布のディジタル化,限られたデータサンプルからの学習の効率化,素材の変動の把握の一般的さを示す。 コードとデータはhttps://github.com/realcrane/Bayesian-Differentiable-Physics-for-Cloth-Digitalizationで利用可能である。

We propose a new method for cloth digitalization. Deviating from existing methods which learn from data captured under relatively casual settings, we propose to learn from data captured in strictly tested measuring protocols, and find plausible physical parameters of the cloths. However, such data is currently absent, so we first propose a new dataset with accurate cloth measurements. Further, the data size is considerably smaller than the ones in current deep learning, due to the nature of the data capture process. To learn from small data, we propose a new Bayesian differentiable cloth model to estimate the complex material heterogeneity of real cloths. It can provide highly accurate digitalization from very limited data samples. Through exhaustive evaluation and comparison, we show our method is accurate in cloth digitalization, efficient in learning from limited data samples, and general in capturing material variations. Code and data are available https://github.com/realcrane/Bayesian-Differentiable-Physics-for-Cloth-Digitalization
翻訳日:2024-03-11 22:23:28 公開日:2024-03-08
# PHNet: ポートレート調和のためのパッチベース正規化

PHNet: Patch-based Normalization for Portrait Harmonization ( http://arxiv.org/abs/2402.17561v2 )

ライセンス: Link先を確認
Karen Efremyan, Elizaveta Petrova, Evgeny Kaskov, and Alexander Kapitanov(参考訳) 複合画像の一般的な問題は、前景と背景コンポーネントの非互換性である。 画像調和は、この問題を解決することを目的としており、画像全体がより本物でコヒーレントに見えるようにする。 既存のほとんどのソリューションは、複合画像の様々な属性を利用して、ルックアップテーブル(LUT)を予測または再構成する。 近年のアプローチは、視覚的一貫性を達成するために正規化や色曲線レンダリングのようなグローバルな変換を利用することに重点を置いている。 本稿では,Patch-based normalization(PN)ブロックと統計カラー転送に基づく特徴抽出器からなるパッチベースの調和ネットワークを提案する。 大規模な実験は、異なるドメインに対するネットワークの高一般化能力を示す。 我々のネットワークは、iHarmony4データセット上で最先端の結果を達成する。 また,FFHQをベースとした新たな人像調和データセットを作成し,その上で最高の指標を達成して一般化能力を示す方法を検討した。 ベンチマーク実験により,提案するパッチベース正規化ブロックと特徴抽出器が,ネットワークのポートレートの調和性を効果的に改善できることが確認された。 私たちのコードとモデルベースラインは公開されています。

A common problem for composite images is the incompatibility of their foreground and background components. Image harmonization aims to solve this problem, making the whole image look more authentic and coherent. Most existing solutions predict lookup tables (LUTs) or reconstruct images, utilizing various attributes of composite images. Recent approaches have primarily focused on employing global transformations like normalization and color curve rendering to achieve visual consistency, and they often overlook the importance of local visual coherence. We present a patch-based harmonization network consisting of novel Patch-based normalization (PN) blocks and a feature extractor based on statistical color transfer. Extensive experiments demonstrate the network's high generalization capability for different domains. Our network achieves state-of-the-art results on the iHarmony4 dataset. Also, we created a new human portrait harmonization dataset based on FFHQ and checked the proposed method to show the generalization ability by achieving the best metrics on it. The benchmark experiments confirm that the suggested patch-based normalization block and feature extractor effectively improve the network's capability to harmonize portraits. Our code and model baselines are publicly available.
翻訳日:2024-03-11 22:23:11 公開日:2024-03-08
# マルチモーダル感情認識のための非循環グラフを用いたカリキュラム学習

Curriculum Learning Meets Directed Acyclic Graph for Multimodal Emotion Recognition ( http://arxiv.org/abs/2402.17269v2 )

ライセンス: Link先を確認
Cam-Van Thi Nguyen, Cao-Bach Nguyen, Quang-Thuy Ha, Duc-Trong Le(参考訳) 会話における感情認識(erc)は、自然言語処理と感情コンピューティングにおいて重要なタスクである。 本稿では,多言語対話におけるマルチモーダル感情認識(ERC)の新たなアプローチであるMultiDAG+CLを提案する。 このモデルはCurriculum Learning (CL)によって強化され、感情の変化やデータの不均衡に関連する課題に対処する。 カリキュラム学習は、トレーニングサンプルを段階的に意味のある順序で提示することで学習プロセスを容易にし、感情の変化やデータの不均衡を扱う際のモデルの性能を向上させる。 IEMOCAPとMELDデータセットの実験結果は、MultiDAG+CLモデルがベースラインモデルより優れていることを示している。 我々はmultidag+clのコードと実験をリリースする。 https://github.com/vanntc711/multidag-cl

Emotion recognition in conversation (ERC) is a crucial task in natural language processing and affective computing. This paper proposes MultiDAG+CL, a novel approach for Multimodal Emotion Recognition in Conversation (ERC) that employs Directed Acyclic Graph (DAG) to integrate textual, acoustic, and visual features within a unified framework. The model is enhanced by Curriculum Learning (CL) to address challenges related to emotional shifts and data imbalance. Curriculum learning facilitates the learning process by gradually presenting training samples in a meaningful order, thereby improving the model's performance in handling emotional variations and data imbalance. Experimental results on the IEMOCAP and MELD datasets demonstrate that the MultiDAG+CL models outperform baseline models. We release the code for MultiDAG+CL and experiments: https://github.com/vanntc711/MultiDAG-CL
翻訳日:2024-03-11 22:22:52 公開日:2024-03-08
# 対称性インフォームド量子メトロジーの第一原理構築

First-principles construction of symmetry-informed quantum metrologies ( http://arxiv.org/abs/2402.16410v2 )

ライセンス: Link先を確認
Jes\'us Rubio(参考訳) 量子とベイズ原理を組み合わせることは、メトロロジーの最適性をもたらすが、正確な解を見つけるのは難しい。 この研究は、この問題を、正確に解ける最適化方程式の新しいクラスで緩和する。 位置パラメータに同型な任意の量に対して、最適な測定を考案する規則は閉形式で与えられる。 これらは任意のパラメータ範囲、事前情報、状態において有効であり、関連する推定子は有限サンプルに適用される。 このフレームワークは、位置、スケール、および双曲的エラーを必要とする相対重みなどの他のパラメータ型のメトロジーを統一する。 良い戦略を探すことは、どの対称性が最大の無知な不変状態を残しているかを特定することであり、誤差境界によらずである。 これにより、実際に必要となる計算数を減らし、対称性が重要な役割を果たす基礎物理学への量子メトロロジーの厳密な応用を可能にする。

Combining quantum and Bayesian principles leads to optimality in metrology, but exact solutions are often hard to find. This work mitigates this problem with a novel class of exactly solvable optimisation equations. For any quantity isomorphic to a location parameter, rules to devise optimal measurements are given in closed form. These are valid for any parameter range, prior information, or state, and the associated estimators apply to finite samples. This framework unifies the metrology of locations, scales, and other parameter types such as relative weights, for which hyperbolic errors are required. But the central advantage lies on its simplifying power: searching for good strategies amounts to identifying which symmetry leaves a state of maximum ignorance invariant, irrespective of error bounds. This reduces the number of calculations needed in practice and enables the rigorous application of quantum metrology to fundamental physics, where symmetries play a key role.
翻訳日:2024-03-11 22:22:23 公開日:2024-03-08
# ヘマトキシリンとエオシン全スライド画像を用いたグリオーマ診断のための多症例学習:インドコホート研究

Multiple Instance Learning for Glioma Diagnosis using Hematoxylin and Eosin Whole Slide Images: An Indian Cohort Study ( http://arxiv.org/abs/2402.15832v2 )

ライセンス: Link先を確認
Ekansh Chauhan, Amit Sharma, Megha S Uppin, C.V. Jawahar and P.K. Vinod(参考訳) 脳腫瘍の効果的な管理は、正確なタイピング、サブタイプ、およびグレーディングに依存する。 本研究は,脳腫瘍病理学における各種特徴抽出器とアグリゲータを横断する厳密な複数インスタンス学習実験から得られた知見を用いて,患者ケアを進歩させる。 インドの人口統計(IPD-Brain)に焦点を当てた新しいデータセットを含む、複数のデータセットにわたるグリオーマサブタイプ分類における新しいパフォーマンスベンチマークを確立し、既存の研究に有用なリソースを提供する。 特徴抽出のための病理組織学的データセットとDouble-Tier Feature Distillation (DTFD) feature aggregatorを併用したResNet-50を用いて,PTD-Brainデータセットで88.08,TCGA-Brainデータセットで95.81の最先端AUCを3方向グリオーマサブタイプ分類で達成した。 さらに、IHC分子バイオマーカー(IDH1R132H, TP53, ATRX, Ki-67)をH&Eで解析し、IDD-Brainデータセットの全スライド画像を染色する。 この研究は、モデル決定プロセスと病理学者の診断的推論との間に有意な相関性を強調し、専門的な診断手順を模倣する能力を強調している。

The effective management of brain tumors relies on precise typing, subtyping, and grading. This study advances patient care with findings from rigorous multiple instance learning experimentations across various feature extractors and aggregators in brain tumor histopathology. It establishes new performance benchmarks in glioma subtype classification across multiple datasets, including a novel dataset focused on the Indian demographic (IPD- Brain), providing a valuable resource for existing research. Using a ResNet-50, pretrained on histopathology datasets for feature extraction, combined with the Double-Tier Feature Distillation (DTFD) feature aggregator, our approach achieves state-of-the-art AUCs of 88.08 on IPD-Brain and 95.81 on the TCGA-Brain dataset, respectively, for three-way glioma subtype classification. Moreover, it establishes new benchmarks in grading and detecting IHC molecular biomarkers (IDH1R132H, TP53, ATRX, Ki-67) through H&E stained whole slide images for the IPD-Brain dataset. The work also highlights a significant correlation between the model decision-making processes and the diagnostic reasoning of pathologists, underscoring its capability to mimic professional diagnostic procedures.
翻訳日:2024-03-11 22:22:10 公開日:2024-03-08
# 二次元分光法による非マルコフ浴誘起カップリング

Non-Markovian bath-induced coupling revealed by two-dimensional spectroscopy ( http://arxiv.org/abs/2402.15454v2 )

ライセンス: Link先を確認
Roosmarijn de Wit and Jonathan Keeling and Brendon W. Lovett and Alex W. Chin(参考訳) オープン量子系の分野における問題は、しばしば励起力学に大きな影響を及ぼす環境を含む。 ここでは, 浴槽の非マルコフ的処理においてのみ発生する形態の異なる系状態間のコヒーレントカップリングが存在することを示す。 これはシステムバス状態が絡み合っているため、単純な吸収スペクトルと2次元電子分光法において、この物理学の異なる符号が存在することを示す。 そこで,非マルコフ開量子系の光学スペクトルをシミュレートする数値的手法を提案する。 この手法はプロセステンソルフレームワークを用いて、数値的に正確にマルチタイム相関を効率的に計算する。

Problems in the field of open quantum systems often involve an environment that greatly impacts excitation dynamics. Here we show that there can be coherent coupling between different system states of a form that only occurs in a non-Markovian treatment of the bath. Because this involves entangled system-bath states, we demonstrate that there are distinct signatures of this physics in simple absorption spectra and two-dimensional electronic spectroscopy. To do this we introduce a numerical method to simulate optical spectra of non-Markovian open quantum systems. The method employs a process tensor framework to efficiently compute multi-time correlation in a numerically exact way.
翻訳日:2024-03-11 22:21:46 公開日:2024-03-08
# 量子ルービックキューブを用いたエネルギーレベル構造理解

Understanding Energy Level Structure Using Quantum Rubik's Cube ( http://arxiv.org/abs/2403.01195v2 )

ライセンス: Link先を確認
Yu Wang, Maolin Bo(参考訳) この研究は、量子ルービックキューブ行列とベナルカザール・ベルネヴィグ・ヒューズモデルを組み合わせて、畳み込みの逆過程に基づく行列アルゴリズムを定義し、量子ルービックキューブ行列とハミルトン行列の式を構成する。 さらに、量子ルービック立方体行列の操作をより明確にするために、ルビック立方体展開の位相グラフを描くためにジョゼフス環を用いる。 この記事では、量子ルービックキューブを用いて電子のエネルギー準位遷移を計算し、その演算が経路積分に対応することを示す。 バンド分散が得られる。 この研究は、ハミルトニアンを計算し、エネルギー準位構造を研究するための新しいアイデアと方法を提供する。

This study combines the quantum Rubik's Cube matrix with the Benalcazar Bernevig Hughes model, defines a matrix algorithm based on the reverse process of convolution, and constructs an expression for the quantum Rubik's Cube matrix and Hamiltonian. Furthermore, in order to make the operation of the quantum Rubik's Cube matrix clearer, we use a Josephus ring to draw a topological graph of the Rubik's Cube expansion. This article uses a quantum Rubik's Cube to calculate energy level transitions of electrons, and shows that its operation corresponds to path integration. The band dispersion is obtained. This work provides new ideas and methods for calculating Hamiltonians and studying energy level structure.
翻訳日:2024-03-11 22:14:34 公開日:2024-03-08
# 大規模グローバル最適化のための複合分解法

A Composite Decomposition Method for Large-Scale Global Optimization ( http://arxiv.org/abs/2403.01192v2 )

ライセンス: Link先を確認
Maojiang Tian, Minyang Chen, Wei Du, Yang Tang, Yaochu Jin, Gary G. Yen(参考訳) 大規模グローバル最適化 (LSGO) 問題を解く主要なアプローチとして, 配当戦略に基づく協調的共進化 (CC) アルゴリズムが登場している。 グループ化の効率性と精度は最適化プロセスの性能に大きく影響した。 一般分離性グルーピング(GSG)法は、非加法的に分離可能な関数の分解を可能にすることで、従来の微分グルーピング(DG)法の限界を克服しているが、高い計算複雑性に悩まされている。 そこで本稿では,両手法の長所を利用する問題分解フレームワークにdgとgsgをシームレスに統合した複合分離性グループ化(csg)手法を提案する。 CSGは計算資源の少ない様々な問題を正確に分解するステップバイステップ分解フレームワークを導入している。 加法的、乗法的、そして一般に分離変数を逐次同定することにより、CSGは、各非分離変数と生成した非分離群の間の相互作用を再帰的に考慮して、非分離変数を段階的にグループ化する。 さらに,CSGの効率性と精度を向上させるために,乗法的分離変数検出法と非分離変数グループ化法という2つの革新的な手法を導入する。 これらの2つの方法は、乗法的に分離可能な変数を効果的に検出し、非分離変数を効率的にグループ化するように設計されている。 CSG は GSG や最先端DG シリーズよりも計算複雑性の低い,より正確な変数グループ化を実現している。

Cooperative co-evolution (CC) algorithms, based on the divide-and-conquer strategy, have emerged as the predominant approach to solving large-scale global optimization (LSGO) problems. The efficiency and accuracy of the grouping stage significantly impact the performance of the optimization process. While the general separability grouping (GSG) method has overcome the limitation of previous differential grouping (DG) methods by enabling the decomposition of non-additively separable functions, it suffers from high computational complexity. To address this challenge, this article proposes a composite separability grouping (CSG) method, seamlessly integrating DG and GSG into a problem decomposition framework to utilize the strengths of both approaches. CSG introduces a step-by-step decomposition framework that accurately decomposes various problem types using fewer computational resources. By sequentially identifying additively, multiplicatively and generally separable variables, CSG progressively groups non-separable variables by recursively considering the interactions between each non-separable variable and the formed non-separable groups. Furthermore, to enhance the efficiency and accuracy of CSG, we introduce two innovative methods: a multiplicatively separable variable detection method and a non-separable variable grouping method. These two methods are designed to effectively detect multiplicatively separable variables and efficiently group non-separable variables, respectively. Extensive experimental results demonstrate that CSG achieves more accurate variable grouping with lower computational complexity compared to GSG and state-of-the-art DG series designs.
翻訳日:2024-03-11 22:14:21 公開日:2024-03-08
# 法定記録のevault

Evault for legal records ( http://arxiv.org/abs/2403.01186v2 )

ライセンス: Link先を確認
Jeba N, Anas S, Anuragav S, Abhishek R, Sachin K(参考訳) ブロックチェーンベースのeVaultプラットフォームを通じて、法律レコード管理システムの課題に対処するイノベーティブなソリューション。 私たちの目標は、弁護士、裁判官、クライアント、登録者を含むすべての利害関係者のニーズに応える、安全で透明でアクセス可能なエコシステムを作ることです。 まず第一に、私たちのソリューションは、アクセス、パーミッション、トランザクションを効果的に管理するためにスマートコントラクトのパワーを活用するethereumのような堅牢なブロックチェーンプラットフォーム上に構築されています。 これにより、システム内のすべてのインタラクションにおけるセキュリティと透明性が保証される。 eVaultシステムをユーザフレンドリにするために、すべての利害関係者に対して直感的なインターフェースを開発しました。 弁護士、裁判官、クライアント、さらには登録者さえも、法的文書のアップロードや検索、変更の追跡、およびプラットフォーム内での情報共有などを行うことができる。 ドキュメント作成と保存機能をアプリやWebサイトに組み込むことで、さらに一歩前進しました。 この機能により、ユーザは法的文書を生成、安全に保存でき、ドキュメント全体の合理化ができる。

Innovative solution for addressing the challenges in the legal records management system through a blockchain-based eVault platform. Our objective is to create a secure, transparent, and accessible ecosystem that caters to the needs of all stakeholders, including lawyers, judges, clients, and registrars. First and foremost, our solution is built on a robust blockchain platform like Ethereum harnessing the power of smart contracts to manage access, permissions, and transactions effectively. This ensures the utmost security and transparency in every interaction within the system. To make our eVault system user-friendly, we've developed intuitive interfaces for all stakeholders. Lawyers, judges, clients, and even registrars can effortlessly upload and retrieve legal documents, track changes, and share information within the platform. But that's not all; we've gone a step further by incorporating a document creation and saving feature within our app and website. This feature allows users to generate and securely store legal documents, streamlining the entire documentation process.
翻訳日:2024-03-11 22:13:53 公開日:2024-03-08
# G3DR: ImageNetで生成した3D再構成

G3DR: Generative 3D Reconstruction in ImageNet ( http://arxiv.org/abs/2403.00939v2 )

ライセンス: Link先を確認
Pradyumna Reddy, Ismail Elezi, Jiankang Deng(参考訳) 本稿では,画像から多種多様な高品質な3Dオブジェクトを生成できる新しい3D生成手法であるG3DRを紹介し,既存の手法の限界に対処する。 我々の枠組みの核心は、高幾何学的忠実度でシーンを生成できる新しい奥行き正規化技術である。 G3DRはまた、CLIPのような事前訓練された言語ビジョンモデルを活用して、新しいビューの再構築を可能にし、世代のビジュアルリアリズムを改善する。 さらに、g3drは、世代の品質をさらに向上させるために、シンプルで効果的なサンプリング手順を設計する。 G3DRはクラスやテキストコンディショニングに基づいた多種多様な効率的な3Dアセット生成を提供する。 その単純さにもかかわらず、G3DRは最先端の手法に勝ることができ、知覚的メトリクスで最大22%、幾何学的スコアで最大90%向上し、トレーニング時間の半分しか必要としない。 コードはhttps://github.com/preddy5/G3DRで入手できる。

We introduce a novel 3D generative method, Generative 3D Reconstruction (G3DR) in ImageNet, capable of generating diverse and high-quality 3D objects from single images, addressing the limitations of existing methods. At the heart of our framework is a novel depth regularization technique that enables the generation of scenes with high-geometric fidelity. G3DR also leverages a pretrained language-vision model, such as CLIP, to enable reconstruction in novel views and improve the visual realism of generations. Additionally, G3DR designs a simple but effective sampling procedure to further improve the quality of generations. G3DR offers diverse and efficient 3D asset generation based on class or text conditioning. Despite its simplicity, G3DR is able to beat state-of-theart methods, improving over them by up to 22% in perceptual metrics and 90% in geometry scores, while needing only half of the training time. Code is available at https://github.com/preddy5/G3DR
翻訳日:2024-03-11 22:13:39 公開日:2024-03-08
# CLLMs: 一貫性のある大規模言語モデル

CLLMs: Consistency Large Language Models ( http://arxiv.org/abs/2403.00835v3 )

ライセンス: Link先を確認
Siqi Kou, Lanxiang Hu, Zhezhi He, Zhijie Deng, Hao Zhang(参考訳) ヤコビ復号法のような並列復号法は、LCM復号プロセスのシーケンシャルな性質を破り、並列化可能な計算に変換するため、より効率的なLCM推論を約束する。 しかし実際には、従来のオートレグレッシブ(ar)デコードに比べて、ほとんどスピードアップしない。なぜなら、ジャコビデコードでは、1つの固定ポイントイテレーションステップで複数のトークンを正確に予測することがほとんどないからだ。 そこで我々は,ヤコビ軌道上の任意の状態から不動点への高速収束を実現するための新しい手法を開発した。 これは、任意の状態が入力として与えられた固定点を一貫して予測するために、目標LSMを精製することで達成される。 拡張実験により,提案手法の有効性を実証し,22.4$\times$を3.4$\times$に改善し,ドメイン固有のベンチマークとオープンドメインベンチマークの両方で生成品質を保った。

Parallel decoding methods such as Jacobi decoding show promise for more efficient LLM inference as it breaks the sequential nature of the LLM decoding process and transforms it into parallelizable computation. However, in practice, it achieves little speedup compared to traditional autoregressive (AR) decoding, primarily because Jacobi decoding seldom accurately predicts more than one token in a single fixed-point iteration step. To address this, we develop a new approach aimed at realizing fast convergence from any state to the fixed point on a Jacobi trajectory. This is accomplished by refining the target LLM to consistently predict the fixed point given any state as input. Extensive experiments demonstrate the effectiveness of our method, showing 2.4$\times$ to 3.4$\times$ improvements in generation speed while preserving generation quality across both domain-specific and open-domain benchmarks.
翻訳日:2024-03-11 22:13:23 公開日:2024-03-08
# モンテカルロ効率的な影響関数を用いた効率自動推定

Automated Efficient Estimation using Monte Carlo Efficient Influence Functions ( http://arxiv.org/abs/2403.00158v2 )

ライセンス: Link先を確認
Raj Agrawal, Sam Witty, Andy Zane, Eli Bingham(参考訳) 多くの実用的な問題は、高次元モデルとデータセットによる低次元統計量の推定である。 いくつかのアプローチは、デバイアス/ダブルMLやターゲット最小損失推定など、影響関数の理論に基づくこれらの推定タスクに対処する。 本稿では,既存の可微分確率型プログラミングシステムとシームレスに統合された効率な影響関数を完全自動で近似する手法である 'textit{Monte Carlo Efficient Influence Function} (MC-EIF) を紹介する。 MC-EIFは、厳密なカスタム分析を必要とする幅広いモデルのクラスとターゲット関数の効率的な統計的推定を自動化する。 MC-EIF は一貫したものであり、MC-EIF を用いた推定器は最適な $\sqrt{N}$ 収束率を得る。 MC-EIFを用いた推定器は解析的EIFを用いた推定器と同等であることを示す。 最後に,MC-EIFを最適ポートフォリオ選択に用いる新しいカプストーンの例を示す。

Many practical problems involve estimating low dimensional statistical quantities with high-dimensional models and datasets. Several approaches address these estimation tasks based on the theory of influence functions, such as debiased/double ML or targeted minimum loss estimation. This paper introduces \textit{Monte Carlo Efficient Influence Functions} (MC-EIF), a fully automated technique for approximating efficient influence functions that integrates seamlessly with existing differentiable probabilistic programming systems. MC-EIF automates efficient statistical estimation for a broad class of models and target functionals that would previously require rigorous custom analysis. We prove that MC-EIF is consistent, and that estimators using MC-EIF achieve optimal $\sqrt{N}$ convergence rates. We show empirically that estimators using MC-EIF are at parity with estimators using analytic EIFs. Finally, we demonstrate a novel capstone example using MC-EIF for optimal portfolio selection.
翻訳日:2024-03-11 22:13:03 公開日:2024-03-08
# 加速勾配降下としての積み重ね

Stacking as Accelerated Gradient Descent ( http://arxiv.org/abs/2403.04978v1 )

ライセンス: Link先を確認
Naman Agarwal and Pranjal Awasthi and Satyen Kale and Eric Zhao(参考訳) 階層化は、階層の数を徐々に増加させ、古い層からパラメータをコピーすることによって新しい層を初期化することによって、ディープニューラルネットワークをトレーニングするためのヒューリスティックなテクニックである。 本稿では,スタック化の有効性に関する理論的説明を提案する: viz., stackingはネステロフの加速度勾配降下の一形態を実装している。 この理論はまた、ブースティング法で構築された加法的アンサンブルのようなより単純なモデルも取り上げており、ブースティングの各ラウンドで新しい分類器を初期化するための同様の広く使われている実践的ヒューリスティックについての説明を提供する。 また,一部のディープリニア残差ネットワークでは,更新エラーを許容するネステロフ加速度勾配法の新しいポテンシャル関数解析により,スタックリングが高速化トレーニングを提供することを示した。 概念実証実験を行い、理論の検証を行う。

Stacking, a heuristic technique for training deep residual networks by progressively increasing the number of layers and initializing new layers by copying parameters from older layers, has proven quite successful in improving the efficiency of training deep neural networks. In this paper, we propose a theoretical explanation for the efficacy of stacking: viz., stacking implements a form of Nesterov's accelerated gradient descent. The theory also covers simpler models such as the additive ensembles constructed in boosting methods, and provides an explanation for a similar widely-used practical heuristic for initializing the new classifier in each round of boosting. We also prove that for certain deep linear residual networks, stacking does provide accelerated training, via a new potential function analysis of the Nesterov's accelerated gradient method which allows errors in updates. We conduct proof-of-concept experiments to validate our theory as well.
翻訳日:2024-03-11 21:28:21 公開日:2024-03-08
# 帰納的グラフニューラルネットワークに基づく大規模ネットワークのノード中心性近似

Node Centrality Approximation For Large Networks Based On Inductive Graph Neural Networks ( http://arxiv.org/abs/2403.04977v1 )

ライセンス: Link先を確認
Yiwei Zou, Ting Li, Zong-fu Luo(参考訳) closeness centrality (cc) と betweenness centrality (bc) はネットワーク分析において重要な指標であり、複雑なネットワーク内のノードの重要性を識別するための重要な基準となっている。 これらの尺度は、コミュニティの検出やネットワークの解体など、重要なタスクに広く応用されている。 しかし,大規模なネットワーク上での実践的な実装は,その時間的複雑さのため,計算的に要求される。 これらの計算課題を軽減するため、CCとBCの計算を高速化するために多くの近似アルゴリズムが開発された。 それでも、これらの近似でさえ、大規模ネットワークに適用する場合、かなりの処理時間を必要とする。 さらに、その出力はネットワーク構造内の小さな摂動にも敏感である。 本研究では,ccおよびbcノードのランキング問題を機械学習問題として再定義し,特定ccまたはbcメトリクスに基づいてノードをランク付けするように設計されたインダクティブグラフニューラルネットワークに基づくエンコーダ・デコーダモデルであるcnca-igeモデルを提案する。 我々は,MLP-MixerモデルをBCランキング予測タスクにデコーダとして組み込んで,モデルの堅牢性とキャパシティを向上させる。 実験の結果,CNCA-IGEモデルは最先端のベースラインモデルよりも優れており,性能の向上とともに実行時間を大幅に短縮することがわかった。

Closeness Centrality (CC) and Betweenness Centrality (BC) are crucial metrics in network analysis, providing essential reference for discerning the significance of nodes within complex networks. These measures find wide applications in critical tasks, such as community detection and network dismantling. However, their practical implementation on extensive networks remains computationally demanding due to their high time complexity. To mitigate these computational challenges, numerous approximation algorithms have been developed to expedite the computation of CC and BC. Nevertheless, even these approximations still necessitate substantial processing time when applied to large-scale networks. Furthermore, their output proves sensitive to even minor perturbations within the network structure. In this work, We redefine the CC and BC node ranking problem as a machine learning problem and propose the CNCA-IGE model, which is an encoder-decoder model based on inductive graph neural networks designed to rank nodes based on specified CC or BC metrics. We incorporate the MLP-Mixer model as the decoder in the BC ranking prediction task to enhance the model's robustness and capacity. Our approach is evaluated on diverse synthetic and real-world networks of varying scales, and the experimental results demonstrate that the CNCA-IGE model outperforms state-of-the-art baseline models, significantly reducing execution time while improving performance.
翻訳日:2024-03-11 21:28:02 公開日:2024-03-08
# 有限状態マスター方程式に対する深い後方およびガレルキン法

Deep Backward and Galerkin Methods for the Finite State Master Equation ( http://arxiv.org/abs/2403.04975v1 )

ライセンス: Link先を確認
Asaf Cohen, Mathieu Lauri\`ere, Ethan Zell(参考訳) 本稿では,有限状態平均場ゲーム(MFG)のマスター方程式を解くための2つのニューラルネットワーク手法を提案し,解析する。 mfgs を解くことは、有限だが多数のエージェントを持つ確率的微分ゲームに対する近似ナッシュ均衡を与える。 マスター方程式は偏微分方程式(PDE)であり、解は任意の初期分布に対するMFG平衡を特徴づける。 第1の手法は時間成分の後方誘導に依存し,第2の手法は時間を識別することなく直接PDEに取り組む。 アルゴリズムの損失関数を任意に小さくするニューラルネットワークが存在し、逆に損失が小さい場合、ニューラルネットワークはマスター方程式の解のよい近似である。 本論文は,15次元までの文献からのベンチマーク問題に関する数値実験と,固定初期分布の古典的手法による解との比較で結論付けた。

This paper proposes and analyzes two neural network methods to solve the master equation for finite-state mean field games (MFGs). Solving MFGs provides approximate Nash equilibria for stochastic, differential games with finite but large populations of agents. The master equation is a partial differential equation (PDE) whose solution characterizes MFG equilibria for any possible initial distribution. The first method we propose relies on backward induction in a time component while the second method directly tackles the PDE without discretizing time. For both approaches, we prove two types of results: there exist neural networks that make the algorithms' loss functions arbitrarily small, and conversely, if the losses are small, then the neural networks are good approximations of the master equation's solution. We conclude the paper with numerical experiments on benchmark problems from the literature up to dimension 15, and a comparison with solutions computed by a classical method for fixed initial distributions.
翻訳日:2024-03-11 21:27:40 公開日:2024-03-08
# 投影幾何プリミティブに対する画素ベース確率によるロバストな手術ツール追跡

Robust Surgical Tool Tracking with Pixel-based Probabilities for Projected Geometric Primitives ( http://arxiv.org/abs/2403.04971v1 )

ライセンス: Link先を確認
Christopher D'Ambrosia, Florian Richter, Zih-Yun Chiu, Nikhil Shinde, Fei Liu, Henrik I. Christensen, Michael C. Yip(参考訳) 視覚フィードバックによるロボットマニピュレータの制御には、ロボットとカメラの間の既知の座標フレーム変換が必要である。 機械システムの不確かさとカメラのキャリブレーションは、この座標系変換の誤りを引き起こす。 これらのエラーは、ロボットマニピュレータのローカライズが悪くなり、マニピュレータと環境の正確な相互作用に依存するアプリケーションにとって大きな課題となる。 本研究では,画像ベース挿入軸検出アルゴリズムと確率モデルを用いて,手術用ロボット工具のカメラ間変換と関節角度測定誤差を推定する。 提案手法を構造化環境と非構造化環境の両方に適用し,提案手法の有効性を実証する。

Controlling robotic manipulators via visual feedback requires a known coordinate frame transformation between the robot and the camera. Uncertainties in mechanical systems as well as camera calibration create errors in this coordinate frame transformation. These errors result in poor localization of robotic manipulators and create a significant challenge for applications that rely on precise interactions between manipulators and the environment. In this work, we estimate the camera-to-base transform and joint angle measurement errors for surgical robotic tools using an image based insertion-shaft detection algorithm and probabilistic models. We apply our proposed approach in both a structured environment as well as an unstructured environment and measure to demonstrate the efficacy of our methods.
翻訳日:2024-03-11 21:27:24 公開日:2024-03-08
# PIPsUS:超音波による自己監督型Dense Point Tracking

PIPsUS: Self-Supervised Dense Point Tracking in Ultrasound ( http://arxiv.org/abs/2403.04969v1 )

ライセンス: Link先を確認
Wanwen Chen and Adam Schmidt and Eitan Prisman and Septimiu E Salcudean(参考訳) 頭頸部を含むさまざまな手術における術中画像指導のランドマーク追跡を可能にするため,超音波検査(us)においてポイントレベル対応を見つけることは根本的な問題である。 既存のアメリカの追跡手法(例えば光学フローや特徴マッチングに基づくもの)は、最初にRGBイメージ用に設計され、その後米国に適用される。 したがって、ドメインの変更はパフォーマンスに影響を与えます。 訓練は地道な通信によって監督されるが、アメリカでの取得は高価である。 これらの問題を解決するために,PIPsUSと呼ばれる自己教師付き画素レベルの追跡モデルを提案する。 本モデルでは,任意の点数を1回のフォワードパスで追跡し,連続フレームではなく複数フレームを考慮し,時間情報を活用できる。 我々は,教師としてRGB画像のために訓練された長期的点追跡モデルを利用して,現実的な動きを学習し,データ拡張を用いて米国外見からの追跡を強制する,新たな自己教師型トレーニング戦略を開発した。 本手法を頚部, 経口超音波検査, 心エコー検査で評価し, 高速な正規化相互相関と調整光流との比較で高い点追跡精度を示した。 論文が受け入れられ次第、コードは利用可能になる。

Finding point-level correspondences is a fundamental problem in ultrasound (US), since it can enable US landmark tracking for intraoperative image guidance in different surgeries, including head and neck. Most existing US tracking methods, e.g., those based on optical flow or feature matching, were initially designed for RGB images before being applied to US. Therefore domain shift can impact their performance. Training could be supervised by ground-truth correspondences, but these are expensive to acquire in US. To solve these problems, we propose a self-supervised pixel-level tracking model called PIPsUS. Our model can track an arbitrary number of points in one forward pass and exploits temporal information by considering multiple, instead of just consecutive, frames. We developed a new self-supervised training strategy that utilizes a long-term point-tracking model trained for RGB images as a teacher to guide the model to learn realistic motions and use data augmentation to enforce tracking from US appearance. We evaluate our method on neck and oral US and echocardiography, showing higher point tracking accuracy when compared with fast normalized cross-correlation and tuned optical flow. Code will be available once the paper is accepted.
翻訳日:2024-03-11 21:27:13 公開日:2024-03-08
# ActFormer: アクティブクエリによるスケーラブルな協調認識

ActFormer: Scalable Collaborative Perception via Active Queries ( http://arxiv.org/abs/2403.04968v1 )

ライセンス: Link先を確認
Suozhi Huang, Juexiao Zhang, Yiming Li, Chen Feng(参考訳) 協調的知覚は、複数のロボットからの豊かな視覚的観察を利用して、単一のロボットの知覚能力を視野を超えて拡張する。 以前の仕事の多くは、すべての協力者からメッセージを受け取り、多数のロボットやセンサーを扱う際のスケーラビリティの課題に繋がる。 本研究では, トランスフォーマティブ・アーキテクチャを用いて, \textit{scalable camera-based collaborative perception} に対処することを目的とする。 私たちのキーとなるアイデアは、ひとつのロボットが、学習された空間的事前に応じて、共同作業者と関連するカメラの関連性をインテリジェントに識別できるようにすることです。 このような視覚的特徴の関連性の積極的な理解は、機能自体の伝達を必要としないため、コミュニケーションと計算効率が向上する。 具体的には、事前に定義されたBEVクエリを用いて鳥の目視(BEV)表現を学習し、マルチロボットマルチカメラ入力と対話するトランスフォーマーであるActFormerを提案する。 各BEVクエリは、すべてのカメラと無差別に対話するのではなく、ポーズ情報に基づく情報集約のための関連するカメラを積極的に選択することができる。 v2x-simデータセットの実験により、actformerはap@0.7で検出性能が29.89%から45.15%に向上し、クエリが約50%減少したことが示され、マルチエージェント3dオブジェクト検出におけるactformerの有効性が示された。

Collaborative perception leverages rich visual observations from multiple robots to extend a single robot's perception ability beyond its field of view. Many prior works receive messages broadcast from all collaborators, leading to a scalability challenge when dealing with a large number of robots and sensors. In this work, we aim to address \textit{scalable camera-based collaborative perception} with a Transformer-based architecture. Our key idea is to enable a single robot to intelligently discern the relevance of the collaborators and their associated cameras according to a learned spatial prior. This proactive understanding of the visual features' relevance does not require the transmission of the features themselves, enhancing both communication and computation efficiency. Specifically, we present ActFormer, a Transformer that learns bird's eye view (BEV) representations by using predefined BEV queries to interact with multi-robot multi-camera inputs. Each BEV query can actively select relevant cameras for information aggregation based on pose information, instead of interacting with all cameras indiscriminately. Experiments on the V2X-Sim dataset demonstrate that ActFormer improves the detection performance from 29.89% to 45.15% in terms of AP@0.7 with about 50% fewer queries, showcasing the effectiveness of ActFormer in multi-agent collaborative 3D object detection.
翻訳日:2024-03-11 21:26:54 公開日:2024-03-08
# stereodiffusion:潜在拡散モデルを用いたトレーニングフリーステレオ画像生成

StereoDiffusion: Training-Free Stereo Image Generation Using Latent Diffusion Models ( http://arxiv.org/abs/2403.04965v1 )

ライセンス: Link先を確認
Lezhong Wang, Jeppe Revall Frisvad, Mark Bo Jensen, Siavash Arjomand Bigdeli(参考訳) ステレオ画像の需要は、メーカーがより多くのxrデバイスを発売するにつれて増加する。 この要求を満たすために、従来の塗装パイプラインとは違って、自由で、驚くほど簡単に使用可能なトレーニングを行う方法であるStereoDiffusionを導入し、元のStable Diffusionモデルにシームレスに統合します。 提案手法は, モデル重み付けや後処理を必要とせず, ステレオ画像ペアを高速に生成するための, エンドツーエンドで軽量な機能を実現するために潜時変数を変更する。 元の入力を用いて左画像を生成し,その差分マップを推定し,左右の画像を左右に整列させるSymmetric Pixel Shift Masking DenoiseとSelf-Attention Layers Modification法で補完した,ステレオPixel Shift操作により右画像の潜時ベクトルを生成する。 さらに,提案手法はステレオ生成プロセス全体で高い画質を保ち,様々な定量的評価において最先端のスコアを得る。

The demand for stereo images increases as manufacturers launch more XR devices. To meet this demand, we introduce StereoDiffusion, a method that, unlike traditional inpainting pipelines, is trainning free, remarkably straightforward to use, and it seamlessly integrates into the original Stable Diffusion model. Our method modifies the latent variable to provide an end-to-end, lightweight capability for fast generation of stereo image pairs, without the need for fine-tuning model weights or any post-processing of images. Using the original input to generate a left image and estimate a disparity map for it, we generate the latent vector for the right image through Stereo Pixel Shift operations, complemented by Symmetric Pixel Shift Masking Denoise and Self-Attention Layers Modification methods to align the right-side image with the left-side image. Moreover, our proposed method maintains a high standard of image quality throughout the stereo generation process, achieving state-of-the-art scores in various quantitative evaluations.
翻訳日:2024-03-11 21:26:28 公開日:2024-03-08
# 実を言うと:大規模言語モデルの信頼性を測定するシステム

Tell me the truth: A system to measure the trustworthiness of Large Language Models ( http://arxiv.org/abs/2403.04964v1 )

ライセンス: Link先を確認
Carlo Lipizzi(参考訳) 大型言語モデル (LLM) は2023年11月にChatGPTが導入されて以来、ほとんどのニュースでトップに立った。 1年以上経った今、企業が採用に抵抗する主な理由の1つは、システムの信頼性に対する信頼度が限られていることだ。 (baymard, 2023) による研究で、chatgpt-4はウェブサイトのユーザビリティの問題を特定する際に80.1%の誤検出率を示した。 ヤン。 JAMA小児科の研究では、ChatGPTは小児科の患者(Barile et al., 2024)の診断の精度が17%であることが判明した。 では、"信頼"とは何か? 信頼は、文化、ドメイン、個人に基づいて変化できる相対的、主題的条件である。 そして、ドメインが与えられたら、システムの信頼性をどのように測定するか? 本稿では,ドメインの知識グラフとして表現された前提真理に基づいて信頼度を測定するための体系的なアプローチを提案する。 このアプローチは、ドメインの表現を検証し、システムを微調整するためのループに人間がいるプロセスである。 信頼度の測定は、医療、防衛、金融といった重要な環境で活動するすべてのエンティティにとって不可欠だが、LLMのすべてのユーザにとって非常に重要である。

Large Language Models (LLM) have taken the front seat in most of the news since November 2023, when ChatGPT was introduced. After more than one year, one of the major reasons companies are resistant to adopting them is the limited confidence they have in the trustworthiness of those systems. In a study by (Baymard, 2023), ChatGPT-4 showed an 80.1% false-positive error rate in identifying usability issues on websites. A Jan. '24 study by JAMA Pediatrics found that ChatGPT has an accuracy rate of 17% percent when diagnosing pediatric medical cases (Barile et al., 2024). But then, what is "trust"? Trust is a relative, subject condition that can change based on culture, domain, individuals. And then, given a domain, how can the trustworthiness of a system be measured? In this paper, I present a systematic approach to measure trustworthiness based on a predefined ground truth, represented as a knowledge graph of the domain. The approach is a process with humans in the loop to validate the representation of the domain and to fine-tune the system. Measuring the trustworthiness would be essential for all the entities operating in critical environments, such as healthcare, defense, finance, but it would be very relevant for all the users of LLMs.
翻訳日:2024-03-11 21:25:58 公開日:2024-03-08
# 誤りに基づくヒューマンアセスメントによる文の簡易化におけるGPT-4の深い評価

An In-depth Evaluation of GPT-4 in Sentence Simplification with Error-based Human Assessment ( http://arxiv.org/abs/2403.04963v1 )

ライセンス: Link先を確認
Xuanxin Wu and Yuki Arase(参考訳) 文章の要約は、読みやすく理解しやすい文を書き直し、様々な読みの困難を抱えた人々を助ける有望な技術である。 高度大言語モデル (LLM) の台頭に伴い, 文の単純化による性能評価が重要となった。 最近の研究では、自動測定と人間評価の両方を用いて、llmの単純化能力を評価する。 しかし, 既存のLCM評価手法の有効性は疑問視されている。 第一に、LLMの簡易化評価における現在の自動測定値の適合性はまだ不明である。 第2に、文の単純化における現在の人間的評価アプローチは、表面的すぎるか、モデルのパフォーマンスを明確に理解できないか、あるいは過度に詳しく、アノテーションプロセスを複雑にし、不一貫性になりがちであり、その結果、評価の信頼性に影響を与えます。 これらの問題に対処するため,本研究では,評価の信頼性を確保しつつ,llmsの性能に関する深い知見を提供する。 我々は,GPT-4の簡易化機能を評価するために,エラーベースのヒューマンアノテーションフレームワークを設計する。 その結果, GPT-4は, 現在の最先端技術と比較して, 誤りの低減出力が少ないことがわかった。 しかし、LPMは、GPT-4の語彙パラフレージングとの闘いに見られるように、制限がある。 さらに,人間のアノテーションを用いて,広く使用されている自動メトリクスのメタ評価を行う。 これらの指標は, 高い品質差に有効であるが, GPT-4による全体的な高品質化を評価するには十分な感度が欠如していることが判明した。

Sentence simplification, which rewrites a sentence to be easier to read and understand, is a promising technique to help people with various reading difficulties. With the rise of advanced large language models (LLMs), evaluating their performance in sentence simplification has become imperative. Recent studies have used both automatic metrics and human evaluations to assess the simplification abilities of LLMs. However, the suitability of existing evaluation methodologies for LLMs remains in question. First, the suitability of current automatic metrics on LLMs' simplification evaluation is still uncertain. Second, current human evaluation approaches in sentence simplification often fall into two extremes: they are either too superficial, failing to offer a clear understanding of the models' performance, or overly detailed, making the annotation process complex and prone to inconsistency, which in turn affects the evaluation's reliability. To address these problems, this study provides in-depth insights into LLMs' performance while ensuring the reliability of the evaluation. We design an error-based human annotation framework to assess the GPT-4's simplification capabilities. Results show that GPT-4 generally generates fewer erroneous simplification outputs compared to the current state-of-the-art. However, LLMs have their limitations, as seen in GPT-4's struggles with lexical paraphrasing. Furthermore, we conduct meta-evaluations on widely used automatic metrics using our human annotations. We find that while these metrics are effective for significant quality differences, they lack sufficient sensitivity to assess the overall high-quality simplification by GPT-4.
翻訳日:2024-03-11 21:25:39 公開日:2024-03-08
# C2P-GCN: 大腸癌細胞間グラフ畳み込みネットワーク

C2P-GCN: Cell-to-Patch Graph Convolutional Network for Colorectal Cancer Grading ( http://arxiv.org/abs/2403.04962v1 )

ライセンス: Link先を確認
Sudipta Paul, Bulent Yener, Amanda W. Lund(参考訳) 組織・組織構造の情報をエンコードする能力から,大腸癌組織像の分類にグラフベースの学習手法が好まれている。 最近のグラフベースの手法では、スライドイメージ全体(WSI)を小または中規模のパッチに分割し、各パッチにグラフを構築してトレーニングに使用する。 しかし、この方法はwsi全体に存在する組織構造情報を捉えることができず、画像パッチの膨大なデータセットからのトレーニングに依存している。 本稿では,2段階グラフ生成に基づく新しいセル対パッチグラフ畳み込みネットワーク(c2p-gcn)を提案する。 第1段階では、wsiの各パッチ上の細胞組織に基づいてパッチレベルのグラフを形成する。 第2段階では、各パッチをグラフのノードとして考えるwsiのパッチ間の類似度尺度に基づいて画像レベルのグラフを形成する。 このグラフ表現は、多層GCNベースの分類ネットワークに入力される。 本手法は,2相グラフ構築により,個々のパッチから局所的構造の詳細を効果的に収集し,WSI全体にわたるパッチ間の有意義な接続を確立する。 C2P-GCNは、WSI全体の構造データを単一のグラフに統合するので、大腸癌の最新のモデルと比較して、トレーニングデータが非常に少ない。 C2P-GCNの2つの異なる大腸癌データセットに対する実験的検証により,本法の有効性が示された。

Graph-based learning approaches, due to their ability to encode tissue/organ structure information, are increasingly favored for grading colorectal cancer histology images. Recent graph-based techniques involve dividing whole slide images (WSIs) into smaller or medium-sized patches, and then building graphs on each patch for direct use in training. This method, however, fails to capture the tissue structure information present in an entire WSI and relies on training from a significantly large dataset of image patches. In this paper, we propose a novel cell-to-patch graph convolutional network (C2P-GCN), which is a two-stage graph formation-based approach. In the first stage, it forms a patch-level graph based on the cell organization on each patch of a WSI. In the second stage, it forms an image-level graph based on a similarity measure between patches of a WSI considering each patch as a node of a graph. This graph representation is then fed into a multi-layer GCN-based classification network. Our approach, through its dual-phase graph construction, effectively gathers local structural details from individual patches and establishes a meaningful connection among all patches across a WSI. As C2P-GCN integrates the structural data of an entire WSI into a single graph, it allows our model to work with significantly fewer training data compared to the latest models for colorectal cancer. Experimental validation of C2P-GCN on two distinct colorectal cancer datasets demonstrates the effectiveness of our method.
翻訳日:2024-03-11 21:25:14 公開日:2024-03-08
# SecGPT: LLMベースのシステムのための実行隔離アーキテクチャ

SecGPT: An Execution Isolation Architecture for LLM-Based Systems ( http://arxiv.org/abs/2403.04960v1 )

ライセンス: Link先を確認
Yuhao Wu, Franziska Roesner, Tadayoshi Kohno, Ning Zhang, Umar Iqbal(参考訳) ChatGPTのようなシステムとして拡張された大規模言語モデル(LLM)は、サードパーティアプリケーションのサポートを開始した。 これらのLLMアプリは、LLMの事実上の自然言語ベースの自動実行パラダイムを活用している。つまり、アプリとそのインタラクションは自然言語で定義され、ユーザデータへのアクセスを提供し、互いに自由に対話することができる。 これらのLDMアプリのエコシステムは、アプリとシステムの間には分離が不十分な、以前のコンピューティングプラットフォームの設定に似ています。 サードパーティのアプリは信頼に値するものではなく、自然言語インターフェースの不備によって悪化する可能性があるため、現在のデザインはユーザーにとってセキュリティとプライバシーのリスクをもたらす。 本稿では,サードパーティアプリケーションの実行に伴うセキュリティとプライバシの問題を軽減することを目的とした,llmベースのシステムのためのアーキテクチャであるsecgptを提案する。 SecGPTのキーとなる考え方は、アプリの実行を分離し、分離された環境外でのインタラクションをより正確に仲介することだ。 我々はSecGPTをいくつかのケーススタディアタックに対して評価し、非分離LDMシステムに存在する多くのセキュリティ、プライバシー、安全性の問題から保護されていることを示す。 SecGPTがセキュリティを改善するために発生したパフォーマンスオーバーヘッドは、テストクエリの4分の3に対して0.3倍以下である。 フォローアップ研究を促進するため、SecGPTのソースコードはhttps://github.com/llm-platform-security/SecGPTで公開しています。

Large language models (LLMs) extended as systems, such as ChatGPT, have begun supporting third-party applications. These LLM apps leverage the de facto natural language-based automated execution paradigm of LLMs: that is, apps and their interactions are defined in natural language, provided access to user data, and allowed to freely interact with each other and the system. These LLM app ecosystems resemble the settings of earlier computing platforms, where there was insufficient isolation between apps and the system. Because third-party apps may not be trustworthy, and exacerbated by the imprecision of the natural language interfaces, the current designs pose security and privacy risks for users. In this paper, we propose SecGPT, an architecture for LLM-based systems that aims to mitigate the security and privacy issues that arise with the execution of third-party apps. SecGPT's key idea is to isolate the execution of apps and more precisely mediate their interactions outside of their isolated environments. We evaluate SecGPT against a number of case study attacks and demonstrate that it protects against many security, privacy, and safety issues that exist in non-isolated LLM-based systems. The performance overhead incurred by SecGPT to improve security is under 0.3x for three-quarters of the tested queries. To foster follow-up research, we release SecGPT's source code at https://github.com/llm-platform-security/SecGPT.
翻訳日:2024-03-11 21:24:50 公開日:2024-03-08
# diffclass:拡散ベースのクラスインクリメンタル学習

DiffClass: Diffusion-Based Class Incremental Learning ( http://arxiv.org/abs/2403.05016v1 )

ライセンス: Link先を確認
Zichong Meng, Jie Zhang, Changdi Yang, Zheng Zhan, Pu Zhao, Yanzhi WAng(参考訳) クラスインクリメンタル学習(cil)は壊滅的な忘れによって難しい。 それに加えて、Exemplar-free Class Incremental Learningは、以前のタスクデータへのアクセスを禁止しているため、さらに難しい。 最近のexemplar-free cil法は、以前のタスクデータを合成することで壊滅的な忘れを緩和しようとする。 しかし、それらは実際のデータと合成データの間の大きなドメインギャップに対処できないため、壊滅的な忘れを克服できなかった。 これらの課題を克服するために,新しいexemplar-free cil法を提案する。 本手法はMDM拡散モデルを用いて,トレーニングデータのすべての領域における品質と領域ギャップを統一する。 さらに,本手法では,選択的合成画像強調法(SSIA)を統合してトレーニングデータの分布を拡大し,モデルの可塑性を向上し,本手法の最終的な成分であるマルチドメイン適応(MDA)の性能を向上する。 提案する統合により,exemplar-free cilをマルチドメイン適応問題に再構成し,インクリメンタルトレーニング中のモデル安定性を高めるためにドメインギャップ問題に暗黙的に対処する。 ベンチマーククラスのインクリメンタルデータセットと設定に関する大規模な実験により、我々の手法が従来の非定型CILメソッドより優れていることを示し、最先端の性能を実現する。

Class Incremental Learning (CIL) is challenging due to catastrophic forgetting. On top of that, Exemplar-free Class Incremental Learning is even more challenging due to forbidden access to previous task data. Recent exemplar-free CIL methods attempt to mitigate catastrophic forgetting by synthesizing previous task data. However, they fail to overcome the catastrophic forgetting due to the inability to deal with the significant domain gap between real and synthetic data. To overcome these issues, we propose a novel exemplar-free CIL method. Our method adopts multi-distribution matching (MDM) diffusion models to unify quality and bridge domain gaps among all domains of training data. Moreover, our approach integrates selective synthetic image augmentation (SSIA) to expand the distribution of the training data, thereby improving the model's plasticity and reinforcing the performance of our method's ultimate component, multi-domain adaptation (MDA). With the proposed integrations, our method then reformulates exemplar-free CIL into a multi-domain adaptation problem to implicitly address the domain gap problem to enhance model stability during incremental training. Extensive experiments on benchmark class incremental datasets and settings demonstrate that our method excels previous exemplar-free CIL methods and achieves state-of-the-art performance.
翻訳日:2024-03-11 21:18:40 公開日:2024-03-08
# 1次元スピン鎖における量子多体スカーモデル

Quantum Many-body Scar Models in One Dimensional Spin Chains ( http://arxiv.org/abs/2403.05015v1 )

ライセンス: Link先を確認
Jia-Wei Wang, Xiang-Fa Zhou, Guang-Can Guo, and Zheng-Wei Zhou(参考訳) 量子多体傷の現象は、その特異な物理的性質から、近年、理論物理学と実験物理学の両方において広く注目を集めている。 本稿では,$su(2)$代数関係に基づいて,単純加群を組み合わせることによりスカーモデルを構築する方法を提案し,高スピン系における多体スカー現象を考察する。 このモデルの熱化と非可積分性を数値的に検証し,傷跡状態の動的性質を実証する。 また、これらの傷跡状態の特性に関する理論的解析も提供する。 1$の場合、我々の1D鎖モデルは特別なパラメータ条件下で有名なPXPモデル[C. J. Turner et al. Phys. B 98, 155134(2018)]に還元される。 さらに,パラメータの連続的な可変性により,qmbの非可積分系から可積分系への遷移についても検討できる。

The phenomenon of quantum many-body scars has received widespread attention both in theoretical and experimental physics in recent years due to its unique physical properties. In this paper, based on the $su(2)$ algebraic relations, we propose a general method for constructing scar models by combining simple modules.This allows us to investigate many-body scar phenomena in high-spin systems. We numerically verify the thermalization and non-integrability of this model and demonstrate the dynamical properties of the scar states. We also provide a theoretical analysis of the properties of these scar states. For spin-$1$ case, we find that our 1D chain model reduces to the famous PXP model[C. J. Turner et al. Phys. Rev. B 98, 155134(2018)] under special parameter condition. In addition, due to the continuous tunability of the parameters, our model also enables us to investigate the transitions of QMBS from non-integrable to integrable system.
翻訳日:2024-03-11 21:18:20 公開日:2024-03-08
# 単純マルチグラフ畳み込みネットワーク

Simple Multigraph Convolution Networks ( http://arxiv.org/abs/2403.05014v1 )

ライセンス: Link先を確認
Danyang Wu, Xinjie Shen, Jitao Lu, Jin Xu, Feiping Nie(参考訳) 既存のマルチグラフ畳み込み法では、複数のグラフ間のクロスビュー相互作用を無視するか、あるいは標準的なクロスビュー多項式演算子によって非常に高い計算コストが生じる。 本稿では,まずエッジレベルとサブグラフレベルのトポロジを含むマルチグラフから一貫性のあるクロスビュートポロジーを抽出し,それから生のマルチグラフと一貫性のあるトポロジーに基づいて多項式展開を行う,単純なマルチグラフ畳み込みネットワーク(smgcn)を提案する。 理論上、SMGCNは標準のクロスビュー多項式展開よりも多項式展開における一貫した位相を利用して、信頼可能なクロスビュー空間メッセージパッシングを行い、スペクトル畳み込みパラダイムに従い、標準の多項式展開の複雑さを効果的に低減する。 シミュレーションの結果,SMGCN は ACM と DBLP のマルチグラフ・ベンチマーク・データセット上で,最先端の性能を達成することが示された。 私たちのコードはhttps://github.com/frinkleko/smgcnで利用可能です。

Existing multigraph convolution methods either ignore the cross-view interaction among multiple graphs, or induce extremely high computational cost due to standard cross-view polynomial operators. To alleviate this problem, this paper proposes a Simple MultiGraph Convolution Networks (SMGCN) which first extracts consistent cross-view topology from multigraphs including edge-level and subgraph-level topology, then performs polynomial expansion based on raw multigraphs and consistent topologies. In theory, SMGCN utilizes the consistent topologies in polynomial expansion rather than standard cross-view polynomial expansion, which performs credible cross-view spatial message-passing, follows the spectral convolution paradigm, and effectively reduces the complexity of standard polynomial expansion. In the simulations, experimental results demonstrate that SMGCN achieves state-of-the-art performance on ACM and DBLP multigraph benchmark datasets. Our codes are available at https://github.com/frinkleko/SMGCN.
翻訳日:2024-03-11 21:18:02 公開日:2024-03-08
# RFWave:マルチバンド整流流による波形再構成

RFWave: Multi-band Rectified Flow for Audio Waveform Reconstruction ( http://arxiv.org/abs/2403.05010v1 )

ライセンス: Link先を確認
Peng Liu, Dongyang Dai(参考訳) 生成的モデリングの最近の進歩は、様々な表現からの音声波形再構成に大きな進歩をもたらした。 拡散モデルは音声波形の再構成に用いられてきたが、個々のサンプル点のレベルで動作し、比較的多くのサンプリングステップを必要とするため、遅延問題が発生する傾向にある。 本研究では,メルスペクトルから高忠実度音声波形を再構成する新しいマルチバンド整流流法RFWaveを紹介する。 RFWaveは複雑なスペクトログラムを生成し、フレームレベルで動作し、全てのサブバンドを同時に処理することで効率を向上させる。 平らな輸送路を目指すRectified Flowのおかげで、RFWaveは10ステップのサンプリングしか必要としない。 実時間よりも90倍速い速度で音声を生成できるRFWaveは、例外的な再構成品質と優れた計算効率を実現する。

Recent advancements in generative modeling have led to significant progress in audio waveform reconstruction from diverse representations. Although diffusion models have been used for reconstructing audio waveforms, they tend to exhibit latency issues because they operate at the level of individual sample points and require a relatively large number of sampling steps. In this study, we introduce RFWave, a novel multi-band Rectified Flow approach that reconstructs high-fidelity audio waveforms from Mel-spectrograms. RFWave is distinctive for generating complex spectrograms and operating at the frame level, processing all subbands concurrently to enhance efficiency. Thanks to Rectified Flow, which aims for a flat transport trajectory, RFWave requires only 10 sampling steps. Empirical evaluations demonstrate that RFWave achieves exceptional reconstruction quality and superior computational efficiency, capable of generating audio at a speed 90 times faster than real-time.
翻訳日:2024-03-11 21:17:41 公開日:2024-03-08
# 多様な人間フィードバックによる多人数強化学習

Provable Multi-Party Reinforcement Learning with Diverse Human Feedback ( http://arxiv.org/abs/2403.05006v1 )

ライセンス: Link先を確認
Huiying Zhong, Zhun Deng, Weijie J. Su, Zhiwei Steven Wu, Linjun Zhang(参考訳) RLHF(Reinforcement Learning with Human feedback)は、モデルと人間の好みを結びつける新しいパラダイムである。 通常、RLHFは異なる視点を持つ複数の個人からの好みを集約し、互いに矛盾する可能性がある。 我々の研究は、複数の個人の多様な選好を明示的にモデル化するマルチパーティrlhfの理論的研究である。 一つの報酬関数を学習しても、複数の個人の好みを捉えバランスが取れないので、従来のRLHFアプローチが失敗する可能性があることを示す。 このような制限を克服するため、メタラーニングを取り入れて複数の嗜好を学習し、異なる社会福祉機能を採用して、複数の政党間で嗜好を集約する。 我々は,オフライン学習の設定に着目し,nash,実用性,レキシミン福祉機能などの多様な社会福祉機能を最適化するための効率性と公平性の保証とともに,サンプル複雑性境界を確立する。 以上の結果より,RLHFと従来のRLHFとの分離が認められた。 さらに,各個人の選好がもはや報奨モデルと一致せず,オフライン選好データに基づいてフォン・ノイマン受賞者の悲観的な変種を与える報奨フリー設定を考える。 まとめると、我々の研究はマルチパーティRLHFの利点を示しているが、そのより要求の高い統計複雑性も強調している。

Reinforcement learning with human feedback (RLHF) is an emerging paradigm to align models with human preferences. Typically, RLHF aggregates preferences from multiple individuals who have diverse viewpoints that may conflict with each other. Our work \textit{initiates} the theoretical study of multi-party RLHF that explicitly models the diverse preferences of multiple individuals. We show how traditional RLHF approaches can fail since learning a single reward function cannot capture and balance the preferences of multiple individuals. To overcome such limitations, we incorporate meta-learning to learn multiple preferences and adopt different social welfare functions to aggregate the preferences across multiple parties. We focus on the offline learning setting and establish sample complexity bounds, along with efficiency and fairness guarantees, for optimizing diverse social welfare functions such as Nash, Utilitarian, and Leximin welfare functions. Our results show a separation between the sample complexities of multi-party RLHF and traditional single-party RLHF. Furthermore, we consider a reward-free setting, where each individual's preference is no longer consistent with a reward model, and give pessimistic variants of the von Neumann Winner based on offline preference data. Taken together, our work showcases the advantage of multi-party RLHF but also highlights its more demanding statistical complexity.
翻訳日:2024-03-11 21:17:27 公開日:2024-03-08
# DITTO : インシシット3次元再構成のための2次元・統合型潜伏トポロジー

DITTO: Dual and Integrated Latent Topologies for Implicit 3D Reconstruction ( http://arxiv.org/abs/2403.05005v1 )

ライセンス: Link先を確認
Jaehyeok Shim, Kyungdon Joo(参考訳) 本稿では,ノイズとスパースポイント雲からの暗黙的3次元再構成のための,二重および統合的潜在位相(ditto)の新たな概念を提案する。 既存のメソッドのほとんどは、ポイントやグリッドの潜在型など、単一の潜在型に重点を置いている。 これとは対照的に、提案されたディットーは、点潜時と格子潜時の両方を利用して、その強み、格子潜時の安定性、点潜時の詳細リッチな能力を高める。 具体的には、DITTOは二重潜在エンコーダと統合暗黙デコーダから構成される。 二重潜在エンコーダにおいて、エンコーダを構成するキーモジュールブロックである二重潜在層は、両潜在層を並列に精製し、それぞれ異なる形状を維持し、再帰的な相互作用を可能にする。 特に、二重潜伏層内の新しい動的スパース点変換器は、効果的に点潜伏層を洗練させる。 そして、統合型暗黙的デコーダは、これらの洗練された潜在情報を体系的に結合し、高忠実度な3d再構成を実現し、オブジェクトおよびシーンレベルのデータセット、特に細密な構造において、以前の最先端の手法を上回っている。

We propose a novel concept of dual and integrated latent topologies (DITTO in short) for implicit 3D reconstruction from noisy and sparse point clouds. Most existing methods predominantly focus on single latent type, such as point or grid latents. In contrast, the proposed DITTO leverages both point and grid latents (i.e., dual latent) to enhance their strengths, the stability of grid latents and the detail-rich capability of point latents. Concretely, DITTO consists of dual latent encoder and integrated implicit decoder. In the dual latent encoder, a dual latent layer, which is the key module block composing the encoder, refines both latents in parallel, maintaining their distinct shapes and enabling recursive interaction. Notably, a newly proposed dynamic sparse point transformer within the dual latent layer effectively refines point latents. Then, the integrated implicit decoder systematically combines these refined latents, achieving high-fidelity 3D reconstruction and surpassing previous state-of-the-art methods on object- and scene-level datasets, especially in thin and detailed structures.
翻訳日:2024-03-11 21:17:04 公開日:2024-03-08
# 長い文書で詳細を思い出せないか? R&Rが必要。

Can't Remember Details in Long Documents? You Need Some R&R ( http://arxiv.org/abs/2403.05004v1 )

ライセンス: Link先を確認
Devanshu Agrawal, Shang Gao, Martin Gajek(参考訳) 長文大言語モデル(LLM)は、長い文書に対する質問回答(QA)のようなタスクを約束するが、コンテキスト文書(arXiv:2307.03172v3)の途中で重要な情報を見逃す傾向がある。 ここでは、$\textit{R&R}$($\textit{reprompting}$と$\textit{in-context search}$(ICR)という2つの新しいプロンプトベースのメソッドを組み合わせて、この効果をドキュメントベースのQAで緩和する。 再入力時に、プロンプト命令をコンテキスト文書全体に定期的に繰り返し、元のタスクのllmを思い出させる。 ICRでは、LLMに質問に直接答えるよう指示するのではなく、与えられた質問に最も関係のある最上位の$k$パス番号を検索するように指示し、第2のQAプロンプトで短縮コンテキストとして使用される。 GPT-4 Turbo と Claude-2.1 で R&R を最大 80k のトークンでテストし,QA の精度を平均 16 ポイント向上させた。 さらに分析した結果,R&Rは関連するコンテキストと命令間の距離を小さくするため,長い文書ベースのQAの性能を向上させることが示唆された。 最後に、短文チャンクワイズ手法と比較して、R&Rは、精度の低下を最小限に抑えつつ、LCM呼び出しや出力トークンを少なくする大きなチャンクの使用を可能にすることを示す。

Long-context large language models (LLMs) hold promise for tasks such as question-answering (QA) over long documents, but they tend to miss important information in the middle of context documents (arXiv:2307.03172v3). Here, we introduce $\textit{R&R}$ -- a combination of two novel prompt-based methods called $\textit{reprompting}$ and $\textit{in-context retrieval}$ (ICR) -- to alleviate this effect in document-based QA. In reprompting, we repeat the prompt instructions periodically throughout the context document to remind the LLM of its original task. In ICR, rather than instructing the LLM to answer the question directly, we instruct it to retrieve the top $k$ passage numbers most relevant to the given question, which are then used as an abbreviated context in a second QA prompt. We test R&R with GPT-4 Turbo and Claude-2.1 on documents up to 80k tokens in length and observe a 16-point boost in QA accuracy on average. Our further analysis suggests that R&R improves performance on long document-based QA because it reduces the distance between relevant context and the instructions. Finally, we show that compared to short-context chunkwise methods, R&R enables the use of larger chunks that cost fewer LLM calls and output tokens, while minimizing the drop in accuracy.
翻訳日:2024-03-11 21:16:41 公開日:2024-03-08
# アンタングル表現による医学的音声症状の分類

Medical Speech Symptoms Classification via Disentangled Representation ( http://arxiv.org/abs/2403.05000v1 )

ライセンス: Link先を確認
Jianzong Wang, Pengcheng Li, Xulong Zhang, Ning Cheng, Jing Xiao(参考訳) Intentは既存の作品における音声言語を理解するために定義されている。 医学的音声に含まれるテキスト的特徴と音響的特徴の両方が、症状の診断に重要な意図を含んでいる。 本稿では,テキスト・音響データから意図と内容の表現を分離して分類するDRSCという医療用音声分類モデルを提案する。 インテントエンコーダを介してテキストドメインのインテント表現とメルスペクトログラムドメインを抽出し、2つの交換により再構成されたテキスト特徴とメルスペクトログラム特徴を求める。 2つのドメインからの意図を統合表現に結合した後、統合意図表現を分類のための決定層に供給する。 実験の結果,25種類の医療症状の検出において,平均95%の精度が得られた。

Intent is defined for understanding spoken language in existing works. Both textual features and acoustic features involved in medical speech contain intent, which is important for symptomatic diagnosis. In this paper, we propose a medical speech classification model named DRSC that automatically learns to disentangle intent and content representations from textual-acoustic data for classification. The intent representations of the text domain and the Mel-spectrogram domain are extracted via intent encoders, and then the reconstructed text feature and the Mel-spectrogram feature are obtained through two exchanges. After combining the intent from two domains into a joint representation, the integrated intent representation is fed into a decision layer for classification. Experimental results show that our model obtains an average accuracy rate of 95% in detecting 25 different medical symptoms.
翻訳日:2024-03-11 21:16:11 公開日:2024-03-08
# 生体心臓デジタル双生児に対するロバスト自動石灰化メッシュ

Robust automated calcification meshing for biomechanical cardiac digital twins ( http://arxiv.org/abs/2403.04998v1 )

ライセンス: Link先を確認
Daniel H. Pak, Minliang Liu, Theodore Kim, Caglar Ozturk, Raymond McKay, Ellen T. Roche, Rudolph Gleason, James S. Duncan(参考訳) 石灰化は心血管疾患や介入に重大な影響を及ぼす。 石灰化の詳細なキャラクタリゼーションは予測モデリングに望まれるが、物理駆動シミュレーションのための石灰化心臓メッシュは手作業で再構築されることが多い。 これは、研究や臨床のために計算シミュレーションを大規模に採用する上で大きなボトルネックとなる。 そこで本研究では,患者固有の石灰化の堅牢な取り込みを可能にするエンドツーエンドの自動メッシュアルゴリズムを提案する。 このアルゴリズムは、手動メッシュの数時間から自動化計算の$\sim$1分までの大幅なスピードアップを提供し、最近のテンプレート登録ベースの心臓メッシュ技術では対処できない重要な問題を解決する。 最終石灰化心臓メッシュを広範囲なシミュレーションで検証し,患者固有の大動脈狭窄や大動脈弁置換術を正確にモデル化する能力を示した。 本手法は、心臓デジタル双生児の物理駆動シミュレーションの開発と利用を加速するための重要なツールとなるかもしれない。

Calcification has significant influence over cardiovascular diseases and interventions. Detailed characterization of calcification is thus desired for predictive modeling, but calcified heart meshes for physics-driven simulations are still often reconstructed using manual operations. This poses a major bottleneck for large-scale adoption of computational simulations for research or clinical use. To address this, we propose an end-to-end automated meshing algorithm that enables robust incorporation of patient-specific calcification onto a given heart mesh. The algorithm provides a substantial speed-up from several hours of manual meshing to $\sim$1 minute of automated computation, and it solves an important problem that cannot be addressed with recent template registration-based heart meshing techniques. We validated our final calcified heart meshes with extensive simulations, demonstrating our ability to accurately model patient-specific aortic stenosis and Transcatheter Aortic Valve Replacement. Our method may serve as an important tool for accelerating the development and usage of physics-driven simulations for cardiac digital twins.
翻訳日:2024-03-11 21:15:58 公開日:2024-03-08
# DiffChat:インタラクティブな画像生成のためのテキスト間合成モデルによるチャット学習

DiffChat: Learning to Chat with Text-to-Image Synthesis Models for Interactive Image Creation ( http://arxiv.org/abs/2403.04997v1 )

ライセンス: Link先を確認
Jiapeng Wang, Chengyu Wang, Tingfeng Cao, Jun Huang, Lianwen Jin(参考訳) 本稿では,対話的画像生成のためのprompt-as-input text-to-image synthesis (tis)モデルを用いて,大規模言語モデル(llms)とチャットを連携させる新しい手法であるdiffchatを提案する。 生のプロンプト/イメージとユーザ指定の命令があれば、diffchatは効果的に適切な変更を行い、ターゲットプロンプトを生成することができる。 そこで我々はまず,DiffChatの教師付きトレーニングのために,インストラクトPEという命令追従型エンジニアリングデータセットを収集する。 次に,画像生成のための3つの基準,すなわち美学,ユーザ嗜好,コンテンツ整合性のフィードバックを得た強化学習フレームワークを提案する。 アクション空間の動的修飾技術により、より関連性の高い正のサンプルと、オフポリシーサンプリング中のより硬い負のサンプルを得る。 コンテンツ整合性は、生成した画像をさらに改善するための値推定関数にも導入される。 提案手法は, 自動評価と人的評価の両方に基づいて, ベースラインモデルや強力な競合モデルよりも優れた性能を示すことができる。

We present DiffChat, a novel method to align Large Language Models (LLMs) to "chat" with prompt-as-input Text-to-Image Synthesis (TIS) models (e.g., Stable Diffusion) for interactive image creation. Given a raw prompt/image and a user-specified instruction, DiffChat can effectively make appropriate modifications and generate the target prompt, which can be leveraged to create the target image of high quality. To achieve this, we first collect an instruction-following prompt engineering dataset named InstructPE for the supervised training of DiffChat. Next, we propose a reinforcement learning framework with the feedback of three core criteria for image creation, i.e., aesthetics, user preference, and content integrity. It involves an action-space dynamic modification technique to obtain more relevant positive samples and harder negative samples during the off-policy sampling. Content integrity is also introduced into the value estimation function for further improvement of produced images. Our method can exhibit superior performance than baseline models and strong competitors based on both automatic and human evaluations, which fully demonstrates its effectiveness.
翻訳日:2024-03-11 21:15:42 公開日:2024-03-08
# PromptIQA: Promptsによる非参照画像品質評価のパフォーマンス向上と一般化

PromptIQA: Boosting the Performance and Generalization for No-Reference Image Quality Assessment via Prompts ( http://arxiv.org/abs/2403.04993v1 )

ライセンス: Link先を確認
Zewen Chen, Haina Qin, Juan Wang, Chunfeng Yuan, Bing Li, Weiming Hu, Liang Wang(参考訳) IQAタスクの様々なアプリケーションシナリオにおける評価要件の多様性のため、既存のIQAメソッドはトレーニング後にこれらの様々な要件に適応するのは難しい。 したがって、新しい要求に直面するとき、典型的なアプローチは、これらの要求のために特別に作成されたデータセットにこれらのモデルを微調整することです。 しかし、IQAデータセットを確立するには時間がかかる。 本研究では,トレーニング後の微調整をすることなく,新たな要件に直接適応できるプロンプトベースの iqa (promptiqa) を提案する。 一方、画像スコアペア(ISP)の短いシーケンスをターゲット予測のプロンプトとして使用することにより、データ要求への依存性を大幅に削減する。 一方、PromptIQAは2つのデータ拡張戦略を備えた混合データセットでトレーニングされ、多様な要件を学習し、新しい要件に効果的に適応することができる。 実験により、PromptIQAはSOTA法よりも高い性能とより良い一般化を実現していることが示された。 コードは利用可能だ。

Due to the diversity of assessment requirements in various application scenarios for the IQA task, existing IQA methods struggle to directly adapt to these varied requirements after training. Thus, when facing new requirements, a typical approach is fine-tuning these models on datasets specifically created for those requirements. However, it is time-consuming to establish IQA datasets. In this work, we propose a Prompt-based IQA (PromptIQA) that can directly adapt to new requirements without fine-tuning after training. On one hand, it utilizes a short sequence of Image-Score Pairs (ISP) as prompts for targeted predictions, which significantly reduces the dependency on the data requirements. On the other hand, PromptIQA is trained on a mixed dataset with two proposed data augmentation strategies to learn diverse requirements, thus enabling it to effectively adapt to new requirements. Experiments indicate that the PromptIQA outperforms SOTA methods with higher performance and better generalization. The code will be available.
翻訳日:2024-03-11 21:15:17 公開日:2024-03-08
# 量子完全グラフニューラルネットワークによるジェット識別

Jet Discrimination with Quantum Complete Graph Neural Network ( http://arxiv.org/abs/2403.04990v1 )

ライセンス: Link先を確認
Yi-An Chen, Kai-Feng Chen(参考訳) 機械学習、特にディープニューラルネットワークは、高エネルギー物理学で広く利用されており、様々な応用で顕著な結果を示している。 さらに、機械学習の概念が量子コンピュータに拡張され、量子機械学習として知られる新しい研究領域が生まれた。 本稿では,完全グラフを学習するための新しい変分量子回路モデルquantum complete graph neural network (qcgnn)を提案する。 量子並列性の性質から,QCGNNは古典的手法に対して多項式の高速化を行う。 本稿では,QCGNNの適用について,ジェットを完全グラフで表現する難解なジェット判別を用いて検討する。 その後,従来のグラフニューラルネットワークとの比較分析を行い,ベンチマークを確立させる。

Machine learning, particularly deep neural networks, has been widely utilized in high energy physics and has shown remarkable results in various applications. Moreover, the concept of machine learning has been extended to quantum computers, giving rise to a new research area known as quantum machine learning. In this paper, we propose a novel variational quantum circuit model, Quantum Complete Graph Neural Network (QCGNN), designed for learning complete graphs. We argue that QCGNN has a polynomial speedup against its classical counterpart, due to the property of quantum parallelism. In this paper, we study the application of QCGNN through the challenging jet discrimination, where the jets are represented with complete graphs. Subsequently, we conduct a comparative analysis with classical graph neural networks to establish a benchmark.
翻訳日:2024-03-11 21:14:59 公開日:2024-03-08
# グラフ解析による依存関係の脆弱性修復のプロファイル

Profile of Vulnerability Remediations in Dependencies Using Graph Analysis ( http://arxiv.org/abs/2403.04989v1 )

ライセンス: Link先を確認
Fernando Vera and Palina Pauliuchenka and Ethan Oh and Bai Chien Kao and Louis DiValentin and David A. Bader(参考訳) 本研究は、制御フローグラフを解析し、脆弱性の修正を目的とした依存性のアップグレードから生じるアプリケーションの変更をプロファイル化することで、オープンソースの脆弱性修正における重要な課題に対して、グラフ解析手法と改良されたグラフ注意畳み込みニューラルネットワーク(GAT)を導入する。 当社のアプローチでは,gatモデルにnode centrality metrics -- degree, norm, and closeness centrality -- をユニークな方法で適用することで,脆弱なノードの識別と理解,依存関係パッケージのアップグレードがアプリケーションのワークフローに干渉する時期といった,パッケージコードインタラクションの詳細な検証を可能にしています。 この研究のさまざまなデータセットへの応用は、コアコードの脆弱性の予期せぬ相互接続性を明らかにし、ソフトウェアセキュリティの確立した概念に挑戦する。 その結果、コード脆弱性のリレーショナルダイナミクスに関する微妙な洞察を提供する上で、強化されたGATモデルの有効性を示し、サイバーセキュリティ対策を進展させる可能性を示している。 このアプローチは、脆弱性の戦略的緩和に役立つだけでなく、オープンソースソフトウェアに起因する脆弱性修復作業の評価のための、洗練された持続可能な監視システムの開発の基礎となる。 この研究から得られた洞察は、パッケージ脆弱性分析とサイバーセキュリティの分野で大きな進歩を示している。

This research introduces graph analysis methods and a modified Graph Attention Convolutional Neural Network (GAT) to the critical challenge of open source package vulnerability remediation by analyzing control flow graphs to profile breaking changes in applications occurring from dependency upgrades intended to remediate vulnerabilities. Our approach uniquely applies node centrality metrics -- degree, norm, and closeness centrality -- to the GAT model, enabling a detailed examination of package code interactions with a focus on identifying and understanding vulnerable nodes, and when dependency package upgrades will interfere with application workflow. The study's application on a varied dataset reveals an unexpected limited inter-connectivity of vulnerabilities in core code, thus challenging established notions in software security. The results demonstrate the effectiveness of the enhanced GAT model in offering nuanced insights into the relational dynamics of code vulnerabilities, proving its potential in advancing cybersecurity measures. This approach not only aids in the strategic mitigation of vulnerabilities but also lays the groundwork for the development of sophisticated, sustainable monitoring systems for the evaluation of work effort for vulnerability remediation resulting from open source software. The insights gained from this study mark a significant advancement in the field of package vulnerability analysis and cybersecurity.
翻訳日:2024-03-11 21:14:47 公開日:2024-03-08
# UIセマンティックグループ検出:モバイルグラフィカルユーザインタフェースにおける類似セマンティックを用いたUI要素のグループ化

UI Semantic Group Detection: Grouping UI Elements with Similar Semantics in Mobile Graphical User Interface ( http://arxiv.org/abs/2403.04984v1 )

ライセンス: Link先を確認
Shuhong Xiao, Yunnong Chen, Yaxuan Song, Liuqing Chen, Lingyun Sun, Yankun Zhen, Yanfang Chang(参考訳) UIページ上のテキスト、ウィジェット、イメージは別々に動作しない。 代わりに、特定の相互作用機能や視覚情報を達成するためにグループに分割される。 UI要素のグループ化に関する既存の研究は、主に特定のUI関連のソフトウェアエンジニアリングタスクに焦点を当てており、そのグループは外観と機能が異なる。 本稿では,隣接するテキストと非テキスト要素を類似のセマンティクスでパックするセマンティクスコンポーネントグループを提案する。 これらのタスク指向のグルーピング手法とは対照的に,UIパーセプティブなグループ検索,UIからコードへの自動生成のためのコード構造の改善,スクリーンリーダのアクセシビリティデータの生成など,複数のUI関連ソフトウェアタスクにセマンティックコンポーネント群を適用できる。 UIページ上のセマンティックコンポーネント群を認識するために,UI要素の色表現と学習前のグループ分布を組み込むことで,SOTA変形可能なDETRを拡張する,堅牢で深層学習に基づく視覚検出器であるUISCGDを提案する。 このモデルは、iosとandroidの両方のプラットフォームで200以上のアプリから1988年のモバイルguiのuiスクリーンショットデータセットでトレーニングされています。 評価の結果, uiscgdは最良ベースラインアルゴリズムよりも6.1\%向上し, ベースとなるdeformable-detrよりも5.4 \%向上した。

Texts, widgets, and images on a UI page do not work separately. Instead, they are partitioned into groups to achieve certain interaction functions or visual information. Existing studies on UI elements grouping mainly focus on a specific single UI-related software engineering task, and their groups vary in appearance and function. In this case, we propose our semantic component groups that pack adjacent text and non-text elements with similar semantics. In contrast to those task-oriented grouping methods, our semantic component group can be adopted for multiple UI-related software tasks, such as retrieving UI perceptual groups, improving code structure for automatic UI-to-code generation, and generating accessibility data for screen readers. To recognize semantic component groups on a UI page, we propose a robust, deep learning-based vision detector, UISCGD, which extends the SOTA deformable-DETR by incorporating UI element color representation and a learned prior on group distribution. The model is trained on our UI screenshots dataset of 1988 mobile GUIs from more than 200 apps in both iOS and Android platforms. The evaluation shows that our UISCGD achieves 6.1\% better than the best baseline algorithm and 5.4 \% better than deformable-DETR in which it is based.
翻訳日:2024-03-11 21:14:26 公開日:2024-03-08
# マヨラナ系ジョーンズ多項式のフォトニックシミュレーション

Photonic simulation of Majorana-based Jones polynomials ( http://arxiv.org/abs/2403.04980v1 )

ライセンス: Link先を確認
Jia-Kun Li, Kai Sun, Ze-Yan Hao, Jia-He Liang, Si-Jing Tao, Jiannis K. Pachos, Jin-Shi Xu, Yong-Jian Han, Chuan-Feng Li, Guang-Can Guo(参考訳) ジョーンズ多項式は位相的に異なるリンクを区別するツールとして導入された。 最近、彼らはトポロジカル量子計算の中央構造ブロックとして現れ、非アベリア・エノンをブレイディングすることで、ジョーンズ多項式の計算を通じて量子アルゴリズムを実現することができる。 これまでのところ、非アベリア素数の制御と操作を通じてジョーンズ多項式を評価することは、強大な作業であった。 本研究では,2光子相関と非散逸時間進化を用いたフォトニック量子システムを用いて,マヨラナゼロモードの2つの等価ブレイディング動作をシミュレートする。 結果の振幅は、パラメータの特定の値におけるジョーンズ多項式と数学的に等価であることが示される。 光学プラットフォームの高忠実性により、対応するジョーンズ多項式を決定することによって、ホップリンク、ソロモンリンク、トレフォイル結び目、図8結び目、ボロメアン環などの幅広いリンクを区別することができる。 我々のフォトニック量子シミュレータは、トポロジカル量子符号化と演算に基づくフォールトトレラント量子アルゴリズムの実行に向けた重要なステップである。

Jones polynomials were introduced as a tool to distinguish between topologically different links. Recently, they emerged as the central building block of topological quantum computation: by braiding non-Abelian anyons it is possible to realise quantum algorithms through the computation of Jones polynomials. So far, it has been a formidable task to evaluate Jones polynomials through the control and manipulation of non-Abelian anyons. In this study, a photonic quantum system employing two-photon correlations and non-dissipative imaginary-time evolution is utilized to simulate two inequivalent braiding operations of Majorana zero modes. The resulting amplitudes are shown to be mathematically equivalent to Jones polynomials at a particular value of their parameter. The high-fidelity of our optical platform allows us to distinguish between a wide range of links, such as Hopf links, Solomon links, Trefoil knots, Figure Eight knots and Borromean rings, through determining their corresponding Jones polynomials. Our photonic quantum simulator represents a significant step towards executing fault-tolerant quantum algorithms based on topological quantum encoding and manipulation.
翻訳日:2024-03-11 21:14:02 公開日:2024-03-08
# 人間会話は特別か? 大規模言語モデルの視点から

Are Human Conversations Special? A Large Language Model Perspective ( http://arxiv.org/abs/2403.05045v1 )

ライセンス: Link先を確認
Toshish Jawale and Chaitanya Animesh and Sekhar Vallath and Kartik Talamadupula and Larry Heck(参考訳) 本研究では,人間(人間-人間)間の自然な会話を理解するための大規模言語モデル(llm)の注意メカニズムの変化を分析する。 llmの3つのユースケースを分析した: webコンテンツ、コード、数学的テキスト間のインタラクション。 これらのドメイン間の注意距離、分散、相互依存を分析することで、会話データによって生じるユニークな課題を浮き彫りにする。 特に、会話は長期の文脈的関係のニュアンスな扱いを必要とし、注意パターンを通してより複雑なものを表示する。 その結果,言語モデルはドメイン固有の注意行動を示すが,人間の会話を専門化する能力には大きなギャップがあることがわかった。 詳細な注意エントロピー解析とt-sne可視化により,多様な質の高い対話データを用いて学習したモデルの必要性を実証する。 本研究は、言語モデルにおけるドメイン特化の重要性を強調し、人間の会話ニュアンスのモデリングにおける将来の進歩の経路を提案する。

This study analyzes changes in the attention mechanisms of large language models (LLMs) when used to understand natural conversations between humans (human-human). We analyze three use cases of LLMs: interactions over web content, code, and mathematical texts. By analyzing attention distance, dispersion, and interdependency across these domains, we highlight the unique challenges posed by conversational data. Notably, conversations require nuanced handling of long-term contextual relationships and exhibit higher complexity through their attention patterns. Our findings reveal that while language models exhibit domain-specific attention behaviors, there is a significant gap in their ability to specialize in human conversations. Through detailed attention entropy analysis and t-SNE visualizations, we demonstrate the need for models trained with a diverse array of high-quality conversational data to enhance understanding and generation of human-like dialogue. This research highlights the importance of domain specialization in language models and suggests pathways for future advancement in modeling human conversational nuances.
翻訳日:2024-03-11 21:10:12 公開日:2024-03-08
# 励起エミッショントモグラフィによる二光子空間モードエンタングルメントの効率的な測定

Efficient Measurement of the Bi-photon Spatial Mode Entanglement with Stimulated Emission Tomography ( http://arxiv.org/abs/2403.05036v1 )

ライセンス: Link先を確認
Yang Xu, Saumya Choudhary, Robert W. Boyd(参考訳) 励起発光トモグラフィ(SET)技術は、従来の偶然カウント法よりも数桁のオーダーで検出される光子の平均数を増大させるため、二光子状態のSPDC源として優れた特性を提供する。 SET実験では、SPDCにおける真空変動による信号は、同じモード特性のより強い準備種子に置き換えられ、対応するアイドルが増幅される。 このアイデアに基づいて,本実験では,超古典的な2次非線形過程である差周波発生(DFG)を用いて,タイプIISPDC結晶で生成する交叉光子対の軌道角運動量(OAM)スペクトルを測定した。 我々は,405nmのポンプビームとともに780nmのシードビームと405nmのタイプIIBBO結晶を注入し,842nmのアイドラーのラゲール・ガウスモード分布を測定した。 我々はOAMスペクトルの強いアイドラー生成と理論予測との良好な一致を観察する。 この実験は、超薄型SPDC源による双光子波動関数の効率的な測定方法と、SPDCで生成する高次元光子対のキャラクタリゼーションの道を開くことを期待する。

The technique of stimulated emission tomography (SET) provides excellent characterization of SPDC sources of bi-photon states since it increases the average number of photons detected by several orders of magnitude than the traditional coincidence counting method. In a SET experiment, the signal caused by the vacuum fluctuation in SPDC is replaced by a more intense prepared seed with the same mode properties, resulting in an amplification of the corresponding idler. Based on this idea, our experiment uses the difference frequency generation (DFG), a purely classical second-order nonlinear process, to measure the orbital angular momentum (OAM) spectrum of an entangled photon pair produced by a Type-II SPDC crystal. We inject the seed beam at 780 nm with different Laguerre-Gaussian modes together with a pump beam at 405 nm into a Type-II BBO crystal and measure the Laguerre-Gaussian mode distribution of the idler at 842 nm. We observe a strong idler production and good agreement with the theoretical prediction of the OAM spectrum. We expect that this experiment paves the way for the efficient measurement of bi-photon wavefunctions produced by ultra-thin SPDC sources and also the characterization of high-dimensional entangled photon pairs produced in SPDC.
翻訳日:2024-03-11 21:09:53 公開日:2024-03-08
# CRM:畳み込み再構成モデルによる3Dテクスチャメッシュへのシングルイメージ

CRM: Single Image to 3D Textured Mesh with Convolutional Reconstruction Model ( http://arxiv.org/abs/2403.05034v1 )

ライセンス: Link先を確認
Zhengyi Wang, Yikai Wang, Yifei Chen, Chendong Xiang, Shuo Chen, Dajiang Yu, Chongxuan Li, Hang Su, Jun Zhu(参考訳) 大再構成モデル(LRM)のようなフィードフォワード3D生成モデルは、例外的な生成速度を示している。 しかし、トランスフォーマーベースの手法は、そのアーキテクチャにおける三面体コンポーネントの幾何学的先行を利用せず、しばしば3Dデータのサイズが制限され、訓練が遅いため、最適以下の品質につながる。 本研究では,高忠実度フィードフォワード画像から3次元画像生成モデルである畳み込み再構成モデル(CRM)を提案する。 スパース3dデータによって生じる制限を認識し,ネットワーク設計に幾何学的優先事項を統合する必要性を強調した。 CRMは、三面体の可視化が6つの直交画像の空間的対応を示すという重要な観察に基づいている。 まず、単一の入力画像から6つの直視画像を生成し、その画像を畳み込みU-Netに入力し、その強力なピクセルレベルのアライメント機能と帯域幅を活用して高解像度のトリプレーンを生成する。 crmはさらにフレキシキューブを幾何学表現として採用し、テクスチャメッシュ上でのエンドツーエンドの直接最適化を容易にする。 全体として、我々のモデルは、テストタイムの最適化なしに、画像から10秒で高忠実なテクスチャメッシュを提供する。

Feed-forward 3D generative models like the Large Reconstruction Model (LRM) have demonstrated exceptional generation speed. However, the transformer-based methods do not leverage the geometric priors of the triplane component in their architecture, often leading to sub-optimal quality given the limited size of 3D data and slow training. In this work, we present the Convolutional Reconstruction Model (CRM), a high-fidelity feed-forward single image-to-3D generative model. Recognizing the limitations posed by sparse 3D data, we highlight the necessity of integrating geometric priors into network design. CRM builds on the key observation that the visualization of triplane exhibits spatial correspondence of six orthographic images. First, it generates six orthographic view images from a single input image, then feeds these images into a convolutional U-Net, leveraging its strong pixel-level alignment capabilities and significant bandwidth to create a high-resolution triplane. CRM further employs Flexicubes as geometric representation, facilitating direct end-to-end optimization on textured meshes. Overall, our model delivers a high-fidelity textured mesh from an image in just 10 seconds, without any test-time optimization.
翻訳日:2024-03-11 21:09:27 公開日:2024-03-08
# 量子化多様体:生成逆ネットワークによって学習される多様体は実データ多様体に収束するか

Quantifying Manifolds: Do the manifolds learned by Generative Adversarial Networks converge to the real data manifold ( http://arxiv.org/abs/2403.05033v1 )

ライセンス: Link先を確認
Anupam Chaudhuri, Anj Simmons, Mohamed Abdelrazek(参考訳) 本稿では,MLモデルによって学習された多様体(GANモデルを用いた実験)を学習時に定量化する実験について述べる。 各時代で学んだ多様体を実データを表す実多様体と比較する。 多様体を定量化するために、MLモデルによって学習された多様体の内在次元と位相的特徴、モデルのトレーニングを続けるにつれてこれらの指標がどのように変化するか、そしてこれらの指標が実データ多様体の計量にトレーニングの過程で収束するかを検討する。

This paper presents our experiments to quantify the manifolds learned by ML models (in our experiment, we use a GAN model) as they train. We compare the manifolds learned at each epoch to the real manifolds representing the real data. To quantify a manifold, we study the intrinsic dimensions and topological features of the manifold learned by the ML model, how these metrics change as we continue to train the model, and whether these metrics convergence over the course of training to the metrics of the real data manifold.
翻訳日:2024-03-11 21:09:06 公開日:2024-03-08
# 潜在敵訓練による予期せぬ障害モードに対する防御

Defending Against Unforeseen Failure Modes with Latent Adversarial Training ( http://arxiv.org/abs/2403.05030v1 )

ライセンス: Link先を確認
Stephen Casper, Lennart Schulze, Oam Patel, Dylan Hadfield-Menell(参考訳) AIシステムは、デプロイ後の有害な意図しない行動を示すことがある。 これは、開発者による広範な診断とデバッグにもかかわらず、しばしば発生する。 モデルによるリスクの最小化は、攻撃面が非常に大きいため難しい。 モデルが失敗する可能性のある入力を徹底的に検索することは難しい。 赤いチームと敵のトレーニング(AT)は、AIシステムをより堅牢にするために一般的に使用される。 しかし、敵対的に訓練されたものとは異なる、多くの現実世界の障害モードを避けるには不十分である。 本研究では,LAT(Latent Adversarial Training)を用いて,脆弱性を誘発する入力を発生させることなく脆弱性を防御する。 LATは、ネットワークが実際に予測に使用している概念の圧縮、抽象、構造化された潜在表現を利用する。 LATを使ってトロイの木馬を排除し、敵攻撃の抑止クラスを防御します。 画像分類, テキスト分類, テキスト生成タスクにおいて, LATは通常, ATに対するクリーンデータに対するロバスト性および性能を改善する。 これは、LATが開発者によって明確に特定されていない障害モードを防御するための有望なツールになり得ることを示唆している。

AI systems sometimes exhibit harmful unintended behaviors post-deployment. This is often despite extensive diagnostics and debugging by developers. Minimizing risks from models is challenging because the attack surface is so large. It is not tractable to exhaustively search for inputs that may cause a model to fail. Red-teaming and adversarial training (AT) are commonly used to make AI systems more robust. However, they have not been sufficient to avoid many real-world failure modes that differ from the ones adversarially trained on. In this work, we utilize latent adversarial training (LAT) to defend against vulnerabilities without generating inputs that elicit them. LAT leverages the compressed, abstract, and structured latent representations of concepts that the network actually uses for prediction. We use LAT to remove trojans and defend against held-out classes of adversarial attacks. We show in image classification, text classification, and text generation tasks that LAT usually improves both robustness and performance on clean data relative to AT. This suggests that LAT can be a promising tool for defending against failure modes that are not explicitly identified by developers.
翻訳日:2024-03-11 21:08:54 公開日:2024-03-08
# BjTT: 交通予測のための大規模マルチモーダルデータセット

BjTT: A Large-scale Multimodal Dataset for Traffic Prediction ( http://arxiv.org/abs/2403.05029v1 )

ライセンス: Link先を確認
Chengyang Zhang, Yong Zhang, Qitan Shao, Bo Li, Yisheng Lv, Xinglin Piao, Baocai Yin(参考訳) 交通予測は、インテリジェントトランスポーテーションシステム(ITS)の最も重要な基盤の1つである。 従来のトラフィック予測手法は、過去のトラフィックデータのみに頼ってトラフィックトレンドを予測し、2つの大きな課題に直面している。 1)異常事象に対する感受性。 2)長期予測における性能の制限。 そこで本研究では,交通システムを記述するテキストと生成モデルを組み合わせることで,トラヒック生成を実現し,そのタスクをTTG(Text-to-Traffic Generation)と呼ぶ。 TTGタスクの鍵となる課題は、交通状況を生成するために、テキストを道路ネットワークの空間構造と交通データを関連付ける方法である。 そこで本研究では,テキスト・トラフィック生成のための最初の拡散モデルChatTrafficを提案する。 合成データと実データとの整合性を保証するため,グラフ畳み込みネットワーク(GCN)を用いて拡散モデルを拡張し,交通データの空間的相関を抽出する。 さらに,TTGタスクのためのテキスト-グラフペアを含む大規模データセットを構築する。 私たちは、リリース済みのデータセットを質的かつ定量的にベンチマークしました。 実験の結果,チャットトラフィックはテキストから現実的な交通状況を生成することができた。 私たちのコードとデータセットはhttps://github.com/chyazhang/chattrafficで利用可能です。

Traffic prediction is one of the most significant foundations in Intelligent Transportation Systems (ITS). Traditional traffic prediction methods rely only on historical traffic data to predict traffic trends and face two main challenges. 1) insensitivity to unusual events. 2) limited performance in long-term prediction. In this work, we explore how generative models combined with text describing the traffic system can be applied for traffic generation, and name the task Text-to-Traffic Generation (TTG). The key challenge of the TTG task is how to associate text with the spatial structure of the road network and traffic data for generating traffic situations. To this end, we propose ChatTraffic, the first diffusion model for text-to-traffic generation. To guarantee the consistency between synthetic and real data, we augment a diffusion model with the Graph Convolutional Network (GCN) to extract spatial correlations of traffic data. In addition, we construct a large dataset containing text-traffic pairs for the TTG task. We benchmarked our model qualitatively and quantitatively on the released dataset. The experimental results indicate that ChatTraffic can generate realistic traffic situations from the text. Our code and dataset are available at https://github.com/ChyaZhang/ChatTraffic.
翻訳日:2024-03-11 21:08:39 公開日:2024-03-08
# 分布シフト下の動的グラフに対するスペクトル不変学習

Spectral Invariant Learning for Dynamic Graphs under Distribution Shifts ( http://arxiv.org/abs/2403.05026v1 )

ライセンス: Link先を確認
Zeyang Zhang, Xin Wang, Ziwei Zhang, Zhou Qin, Weigao Wen, Hui Xue, Haoyang Li, Wenwu Zhu(参考訳) 動的グラフニューラルネットワーク(DyGNN)は現在、動的グラフ固有の分散シフトを扱うのに苦労している。 既存のdygnnの分散設定での作業は、時間領域のみに焦点を当てており、スペクトル領域の分布シフトを伴うケースの処理に失敗した。 本稿では、スペクトル領域で観測可能でありながら、時間領域では分布シフトが観測不可能なケースがあることを発見し、スペクトル領域における動的グラフの分布シフトを初めて研究することを提案する。 しかし、この調査には2つの大きな課題がある。 一 スペクトル領域に絡み合った様々な周波数成分によって駆動される異なるグラフパターンを捉えることは自明ではない。 ii) 検出されたスペクトルパターンによる分布シフトの処理方法はまだ不明である。 これらの課題に対処するために、分散シフト(SILD)下での動的グラフのスペクトル不変学習を提案し、不変および変分スペクトルパターンをキャプチャして利用することにより、動的グラフ上の分散シフトを処理できる。 具体的には、まずフーリエ変換付きdygnnを設計し、エゴグラフ軌道スペクトルを求め、混合動的グラフパターンを別々の周波数成分に変換する。 次に、様々な周波数成分からグラフのダイナミクスをフィルタリングし、不変および変種スペクトルパターンを発見するために、異方性スペクトルマスクを開発した。 最後に,分布シフト下での一般化のために不変パターンに依存することをモデルに促す不変スペクトルフィルタリングを提案する。 合成および実世界の動的グラフデータセットに対する実験結果から,分布シフトによるノード分類とリンク予測タスクにおいて,本手法の優位性が示された。

Dynamic graph neural networks (DyGNNs) currently struggle with handling distribution shifts that are inherent in dynamic graphs. Existing work on DyGNNs with out-of-distribution settings only focuses on the time domain, failing to handle cases involving distribution shifts in the spectral domain. In this paper, we discover that there exist cases with distribution shifts unobservable in the time domain while observable in the spectral domain, and propose to study distribution shifts on dynamic graphs in the spectral domain for the first time. However, this investigation poses two key challenges: i) it is non-trivial to capture different graph patterns that are driven by various frequency components entangled in the spectral domain; and ii) it remains unclear how to handle distribution shifts with the discovered spectral patterns. To address these challenges, we propose Spectral Invariant Learning for Dynamic Graphs under Distribution Shifts (SILD), which can handle distribution shifts on dynamic graphs by capturing and utilizing invariant and variant spectral patterns. Specifically, we first design a DyGNN with Fourier transform to obtain the ego-graph trajectory spectrums, allowing the mixed dynamic graph patterns to be transformed into separate frequency components. We then develop a disentangled spectrum mask to filter graph dynamics from various frequency components and discover the invariant and variant spectral patterns. Finally, we propose invariant spectral filtering, which encourages the model to rely on invariant patterns for generalization under distribution shifts. Experimental results on synthetic and real-world dynamic graph datasets demonstrate the superiority of our method for both node classification and link prediction tasks under distribution shifts.
翻訳日:2024-03-11 21:08:21 公開日:2024-03-08
# マルチモーダルヒューマンインテンション理解のデバイアス化に向けて

Towards Multimodal Human Intention Understanding Debiasing via Subject-Deconfounding ( http://arxiv.org/abs/2403.05025v1 )

ライセンス: Link先を確認
Dingkang Yang, Dongling Xiao, Ke Li, Yuzheng Wang, Zhaoyu Chen, Jinjie Wei, Lihua Zhang(参考訳) マルチモーダル意図理解(multimodal intent understanding, miu)は、視覚姿勢、言語内容、音響行動など、異質なモダリティから人間表現分析(例えば感情やユーモア)に欠かせない要素である。 既存の作品は、印象的な改善を達成するために、洗練された構造や融合戦略を設計することに集中しています。 残念ながら、各被験者はデータ分散の相違により、被験者の変動に悩まされる。 具体的には、MIUモデルは、異なる表現習慣と訓練データの特徴を持つ個別の被験者によって容易に誤解され、被検者間での性能と一般化性を著しく制限し、MIUの手順を定式化し、被検者の結束効果を分析するために再カプセル化因果グラフを導入する。 そこで本研究では,無観測共同創設者として行動する被験者の影響を解消し,真の因果効果によるモデルトレーニングを実現するための,シンプルで効果的な因果介入モジュールSuCIを提案する。 プラグアンドプレイコンポーネントとして、SuCIは偏見のない予測を求めるほとんどの方法に広く適用することができる。 複数のMIUベンチマークの総合的な実験により,提案モジュールの有効性が明らかとなった。

Multimodal intention understanding (MIU) is an indispensable component of human expression analysis (e.g., sentiment or humor) from heterogeneous modalities, including visual postures, linguistic contents, and acoustic behaviors. Existing works invariably focus on designing sophisticated structures or fusion strategies to achieve impressive improvements. Unfortunately, they all suffer from the subject variation problem due to data distribution discrepancies among subjects. Concretely, MIU models are easily misled by distinct subjects with different expression customs and characteristics in the training data to learn subject-specific spurious correlations, significantly limiting performance and generalizability across uninitiated subjects.Motivated by this observation, we introduce a recapitulative causal graph to formulate the MIU procedure and analyze the confounding effect of subjects. Then, we propose SuCI, a simple yet effective causal intervention module to disentangle the impact of subjects acting as unobserved confounders and achieve model training via true causal effects. As a plug-and-play component, SuCI can be widely applied to most methods that seek unbiased predictions. Comprehensive experiments on several MIU benchmarks clearly demonstrate the effectiveness of the proposed module.
翻訳日:2024-03-11 21:07:54 公開日:2024-03-08
# MRIバイアス場補正のための確率的アダマールU-ネット

A Probabilistic Hadamard U-Net for MRI Bias Field Correction ( http://arxiv.org/abs/2403.05024v1 )

ライセンス: Link先を確認
Xin Zhu, Hongyi Pan, Yury Velichko, Adam B. Murphy, Ashley Ross, Baris Turkbey, Ahmet Enis Cetin and Ulas Bagci(参考訳) 磁場不均一性補正はMRI解析において難しい課題である。 確立されたほとんどの技術は、同一組織内の画像強度が均一な分布に従うことを仮定して、脳MRIのために設計されている。 このような仮定は、他の臓器、特に前立腺のような大きさが小さく、質感(強度のばらつきが大きい)が不均一な臓器にも容易に適用できない。 本稿では,前立腺MRIバイアス場補正のための確率的アダマールU-ネットを提案する。 まず、原入力に乗じて原型補正画像を得る低周波スカラーフィールドを抽出するために、新しいアダマールU-Net(HU-Net)を導入する。 hu-netは入力画像を時間領域からアダマール変換を介して周波数領域に変換する。 周波数領域では、訓練可能なフィルタ(スケーリング層)、ハードthresholding層、およびスパーシティペナルティを用いて高周波成分を除去する。 次に、条件付き変分オートエンコーダを使用して、バイアスフィールド補正可能な変種を低次元の潜在空間に符号化する。 次に、潜在空間から引き出されたランダムサンプルを原型補正画像に組み込んで複数の可視画像を生成する。 高速な推論速度を有する前立腺MRIのバイアス場補正におけるPHU-Netの有効性を実験的に検証した。 また、PHU-Netの高画質補正画像により、前立腺MRIのセグメンテーション精度が向上することが示されている。 コードは、この原稿の最終版で利用可能である。

Magnetic field inhomogeneity correction remains a challenging task in MRI analysis. Most established techniques are designed for brain MRI by supposing that image intensities in the identical tissue follow a uniform distribution. Such an assumption cannot be easily applied to other organs, especially those that are small in size and heterogeneous in texture (large variations in intensity), such as the prostate. To address this problem, this paper proposes a probabilistic Hadamard U-Net (PHU-Net) for prostate MRI bias field correction. First, a novel Hadamard U-Net (HU-Net) is introduced to extract the low-frequency scalar field, multiplied by the original input to obtain the prototypical corrected image. HU-Net converts the input image from the time domain into the frequency domain via Hadamard transform. In the frequency domain, high-frequency components are eliminated using the trainable filter (scaling layer), hard-thresholding layer, and sparsity penalty. Next, a conditional variational autoencoder is used to encode possible bias field-corrected variants into a low-dimensional latent space. Random samples drawn from latent space are then incorporated with a prototypical corrected image to generate multiple plausible images. Experimental results demonstrate the effectiveness of PHU-Net in correcting bias-field in prostate MRI with a fast inference speed. It has also been shown that prostate MRI segmentation accuracy improves with the high-quality corrected images from PHU-Net. The code will be available in the final version of this manuscript.
翻訳日:2024-03-11 21:07:32 公開日:2024-03-08
# バイアス浄化によるマルチモーダル感性分析のデバイアス化に向けて

Towards Multimodal Sentiment Analysis Debiasing via Bias Purification ( http://arxiv.org/abs/2403.05023v1 )

ライセンス: Link先を確認
Dingkang Yang, Mingcheng Li, Dongling Xiao, Yang Liu, Kun Yang, Zhaoyu Chen, Yuzheng Wang, Peng Zhai, Ke Li, Lihua Zhang(参考訳) マルチモーダル・センティメント・アナリティクス(MSA)は、視覚、言語、音声などの様々なモダリティから感情に関連する手がかりを統合することで、人間の意図を理解することを目的としている。 残念ながら、現在のMSAタスクは、計画されていないデータセットバイアス、特にマルチモーダル発話レベルのラベルバイアスと単語レベルのコンテキストバイアスに悩まされている。 これらの有害なバイアスは、統計的ショートカットと急激な相関にフォーカスするモデルを誤解させる可能性がある。 これらの問題を緩和するために,従来の可能性ではなく因果関係に基づくマルチモーダル・カウンセリング・インセプティメント(MCIS)分析フレームワークを提案する。 具体的には,既に訓練済みのバニラモデルから有害なバイアスを発見するために,まず因果グラフを定式化する。 推測フェーズでは、実数的なマルチモーダル入力が与えられた場合、MCISはこれらのバイアスを浄化し緩和する2つの逆のシナリオを想像する。 そして、MCISは、事実と反事実の結果を比較して偏見のある観察から偏見のない決定を下すことができる。 いくつかの標準MSAベンチマークで広範な実験を行う。 定性的かつ定量的な結果は,提案手法の有効性を示す。

Multimodal Sentiment Analysis (MSA) aims to understand human intentions by integrating emotion-related clues from diverse modalities, such as visual, language, and audio. Unfortunately, the current MSA task invariably suffers from unplanned dataset biases, particularly multimodal utterance-level label bias and word-level context bias. These harmful biases potentially mislead models to focus on statistical shortcuts and spurious correlations, causing severe performance bottlenecks. To alleviate these issues, we present a Multimodal Counterfactual Inference Sentiment (MCIS) analysis framework based on causality rather than conventional likelihood. Concretely, we first formulate a causal graph to discover harmful biases from already-trained vanilla models. In the inference phase, given a factual multimodal input, MCIS imagines two counterfactual scenarios to purify and mitigate these biases. Then, MCIS can make unbiased decisions from biased observations by comparing factual and counterfactual outcomes. We conduct extensive experiments on several standard MSA benchmarks. Qualitative and quantitative results show the effectiveness of the proposed framework.
翻訳日:2024-03-11 21:07:05 公開日:2024-03-08
# 確率的およびグループ化アプローチによる有効断層定位

Effective Fault Localization using Probabilistic and Grouping Approach ( http://arxiv.org/abs/2403.05022v1 )

ライセンス: Link先を確認
Saksham Sahai Srivastava, Arpita Dutta, Rajib Mall(参考訳) コンテキスト: フォールトローカライズ(fl)は、プログラムをデバッグする上で重要なアクティビティである。 この活動の改善は、ソフトウェア開発コスト全体の大幅な改善につながる。 プログラムスペクトルとテスト実行結果の間には内部リンクがある。 統計学における条件付き確率は、1つ以上の他の事象と関連して1つの事象が発生する確率を捉える。 目的: 本論文の目的は,条件付き確率の概念を用いて効果的な断層定位手法を設計することである。 方法:本論文では,条件確率統計を用いて,文カバレッジ情報とテストケース実行結果の関係を導出するフォールトローカライズ手法を提案する。 このテスト結果の失敗との関連は、その特定のステートメントの確率を含む欠陥を示している。 その後,グループ化手法を用いて得られた文のランク付けシーケンスを洗練し,障害の局在性を改善する。 結果:11個のオープンソースデータセットに対して提案手法の有効性を評価した。 以上の結果から,提案手法はD*, Tarantula, Ochiai, Crosstab, BPNN, RBFNN, DNN, CNN, CNNなどの同時代の断層位置決め法よりも平均24.56%有効であることが示唆された。 結論:条件付き確率的手法とテストケース実行の失敗を組み合わせることで,効果的な故障位置推定手法を考案した。 実験により,提案手法は既存の断層局所化手法よりも優れた性能を示した。

Context: Fault localization (FL) is the key activity while debugging a program. Any improvement to this activity leads to significant improvement in total software development cost. There is an internal linkage between the program spectrum and test execution result. Conditional probability in statistics captures the probability of occurring one event in relationship to one or more other events. Objectives: The aim of this paper is to use the conception of conditional probability to design an effective fault localization technique. Methods: In the paper, we present a fault localization technique that derives the association between statement coverage information and test case execution result using condition probability statistics. This association with the failed test case result shows the fault containing the probability of that specific statement. Subsequently, we use a grouping method to refine the obtained statement ranking sequence for better fault localization. Results: We evaluated the effectiveness of proposed method over eleven open-source data sets. Our obtained results show that on average, the proposed CGFL method is 24.56% more effective than other contemporary fault localization methods such as D*, Tarantula, Ochiai, Crosstab, BPNN, RBFNN, DNN, and CNN. Conclusion: We devised an effective fault localization technique by combining the conditional probabilistic method with failed test case execution-based approach. Our experimental evaluation shows our proposed method outperforms the existing fault localization techniques.
翻訳日:2024-03-11 21:06:45 公開日:2024-03-08
# beyond mot: セマンティックなマルチオブジェクトトラッキング

Beyond MOT: Semantic Multi-Object Tracking ( http://arxiv.org/abs/2403.05021v1 )

ライセンス: Link先を確認
Yunhao Li, Hao Wang, Qin Li, Xue Ma, Jiali Yao, Shaohua Dong, Heng Fan, Libo Zhang(参考訳) 現在のマルチオブジェクト追跡(MOT)は、ビデオ中のターゲット(つまり「場所」)の軌跡を予測することを目的としている。 しかし、単に "where" を知るだけでは、多くの重要なアプリケーションでは不十分である。 比較として、きめ細かな振る舞い、相互作用、そして全体的な要約されたキャプション(すなわち「どこ」に関連付けられたビデオの「何」)といった意味理解は、包括的ビデオ分析に強く望まれる。 そこで本研究では,セマンティック・マルチオブジェクト・トラッキング (SMOT) を導入し,オブジェクトの軌跡を推定し,関連するトラジェクトリの意味的詳細を理解するとともに,インスタンスキャプション,インスタンスインタラクション,ビデオキャプション全体を含むセマンティック・マルチオブジェクト・トラッキング(SMOT)を導入し,トラッキングのための"where"と"What"を統合した。 SMOTの探索を促進するため,大規模なセマンティックMOTベンチマークであるBenSMOTを提案する。 具体的には、BenSMOTは3,292本のビデオと151Kフレームで構成され、人間のセマンティックトラッキングのさまざまなシナリオをカバーしている。 BenSMOTは、自然言語の関連するインスタンスキャプション、インスタンスインタラクション、各ビデオシーケンスの全体的なキャプションと共に、ターゲットの軌跡に対するアノテーションを提供する。 私たちの知る限り、BenSMOTはSMOTの最初の公開ベンチマークです。 また,今後の研究を奨励するためにSMOTerという新しいトラッカーを提案し,SMOTのために特別に設計し,エンドツーエンドで訓練し,有望な性能を示す。 BenSMOTのリリースによって、私たちは従来のMOTを超えて、SMOTの"where"と"What"を予測し、ビデオ理解のための新たな方向性を開くことを期待しています。 BenSMOTとSMOTerはリリースされます。

Current multi-object tracking (MOT) aims to predict trajectories of targets (i.e.,"where") in videos. Yet, knowing merely "where" is insufficient in many crucial applications. In comparison, semantic understanding such as fine-grained behaviors, interactions, and overall summarized captions (i.e., "what") from videos, associated with "where", is highly-desired for comprehensive video analysis. Thus motivated, we introduce Semantic Multi-Object Tracking (SMOT), that aims to estimate object trajectories and meanwhile understand semantic details of associated trajectories including instance captions, instance interactions, and overall video captions, integrating "where" and "what" for tracking. In order to foster the exploration of SMOT, we propose BenSMOT, a large-scale Benchmark for Semantic MOT. Specifically, BenSMOT comprises 3,292 videos with 151K frames, covering various scenarios for semantic tracking of humans. BenSMOT provides annotations for the trajectories of targets, along with associated instance captions in natural language, instance interactions, and overall caption for each video sequence. To our best knowledge, BenSMOT is the first publicly available benchmark for SMOT. Besides, to encourage future research, we present a novel tracker named SMOTer, which is specially designed and end-to-end trained for SMOT, showing promising performance. By releasing BenSMOT, we expect to go beyond conventional MOT by predicting "where" and "what" for SMOT, opening up a new direction in tracking for video understanding. Our BenSMOT and SMOTer will be released.
翻訳日:2024-03-11 21:06:21 公開日:2024-03-08
# これが実生活ですか。 これはただの幻想か? LLMによる社会的相互作用のシミュレーションの成功

Is this the real life? Is this just fantasy? The Misleading Success of Simulating Social Interactions With LLMs ( http://arxiv.org/abs/2403.05020v1 )

ライセンス: Link先を確認
Xuhui Zhou, Zhe Su, Tiwalayo Eisape, Hyunwoo Kim, Maarten Sap(参考訳) 大規模言語モデル(LLM)の最近の進歩は、より豊かな社会シミュレーションを可能にし、LLMベースのエージェントを用いた様々な社会現象の研究を可能にしている。 しかしながら、ほとんどの研究は、これらのシミュレーション(例えば、全てのインターロケータを生成するために単一のLSM)に関する全知的な視点を使用しており、基本的には人間が持っている非全知的な情報非対称相互作用と矛盾している。 これらの違いを調べるために, 様々な環境下でのLLMとの社会的相互作用をシミュレートする評価フレームワークを開発した。 実験の結果,対話者は非暴力的なエージェントに比べて社会的目標を達成するのにはるかに成功していることがわかった。 さらに,全科学的シミュレーションによる学習は,インタラクションの明らかな自然性を向上させるが,協調的シナリオにおける目標達成度をほとんど向上しないことを示す。 以上の結果から, 情報非対称性への対処は, LLMをベースとしたエージェントにとって依然として根本的な課題であることが示唆された。

Recent advances in large language models (LLM) have enabled richer social simulations, allowing for the study of various social phenomena with LLM-based agents. However, most work has used an omniscient perspective on these simulations (e.g., single LLM to generate all interlocutors), which is fundamentally at odds with the non-omniscient, information asymmetric interactions that humans have. To examine these differences, we develop an evaluation framework to simulate social interactions with LLMs in various settings (omniscient, non-omniscient). Our experiments show that interlocutors simulated omnisciently are much more successful at accomplishing social goals compared to non-omniscient agents, despite the latter being the more realistic setting. Furthermore, we demonstrate that learning from omniscient simulations improves the apparent naturalness of interactions but scarcely enhances goal achievement in cooperative scenarios. Our findings indicate that addressing information asymmetry remains a fundamental challenge for LLM-based agents.
翻訳日:2024-03-11 21:05:39 公開日:2024-03-08
# ERASOR++: 静的ポイントクラウドマッピングのための高符号化とエゴセントリック比に基づく動的オブジェクト除去

ERASOR++: Height Coding Plus Egocentric Ratio Based Dynamic Object Removal for Static Point Cloud Mapping ( http://arxiv.org/abs/2403.05019v1 )

ライセンス: Link先を確認
Jiabao Zhang and Yu Zhang(参考訳) マッピングは、自動システム内の位置とナビゲーションにおいて重要な役割を果たす。 しかし、スキャンセンサから生成された3Dポイントクラウドマップ内の動的オブジェクトの存在は、地図歪みと長いトレースを導入し、正確なマッピングとナビゲーションの課題を提起することができる。 この問題に対処するため,我々は,効果的な動的オブジェクト除去のための疑似占有率のエゴセントリック比に基づく拡張アプローチである erasor++ を提案する。 まず,高さ差と高さ層情報を組み合わせた高さ符号化ディスクリプタを導入し,ポイントクラウドを符号化する。 次に,高さスタックテスト,基底層テスト,周辺ポイントテスト手法を提案し,ポイントクラウドビン内の動的ビンを高精度かつ効率的に識別することで,従来のアプローチの限界を克服する。 オープンソースデータセットの広範な評価を通じて,既存の手法と比較して精度と効率の面で優れた性能を示す。 さらに,本研究で説明した技術は,その後の移行を通じて,様々な課題や側面に取り組むことを約束している。

Mapping plays a crucial role in location and navigation within automatic systems. However, the presence of dynamic objects in 3D point cloud maps generated from scan sensors can introduce map distortion and long traces, thereby posing challenges for accurate mapping and navigation. To address this issue, we propose ERASOR++, an enhanced approach based on the Egocentric Ratio of Pseudo Occupancy for effective dynamic object removal. To begin, we introduce the Height Coding Descriptor, which combines height difference and height layer information to encode the point cloud. Subsequently, we propose the Height Stack Test, Ground Layer Test, and Surrounding Point Test methods to precisely and efficiently identify the dynamic bins within point cloud bins, thus overcoming the limitations of prior approaches. Through extensive evaluation on open-source datasets, our approach demonstrates superior performance in terms of precision and efficiency compared to existing methods. Furthermore, the techniques described in our work hold promise for addressing various challenging tasks or aspects through subsequent migration.
翻訳日:2024-03-11 21:05:10 公開日:2024-03-08
# InstructGIE: 汎用的な画像編集を目指して

InstructGIE: Towards Generalizable Image Editing ( http://arxiv.org/abs/2403.05018v1 )

ライセンス: Link先を確認
Zichong Meng, Changdi Yang, Jun Liu, Hao Tang, Pu Zhao, Yanzhi Wang(参考訳) 画像編集の最近の進歩は、ノイズ拡散モデルの開発によって推進され、この分野において大きな進歩を遂げている。 これらの進歩にもかかわらず、最近の画像編集手法の一般化能力には制約がある。 この課題に対して,本研究では,文脈内学習能力の向上と言語指導の統一により,一般化の堅牢性を高める新しい画像編集フレームワークを提案する。 このフレームワークには、画像編集タスクに最適化されたモジュールが含まれており、vmambaブロックと編集シフトマッチング戦略を利用して、コンテキスト内学習を強化している。 さらに,人間の顔特徴などの生成画像における劣化した詳細情報に対処し,修正し,さらに品質を向上させるための選択的領域マッチング手法を提示する。 このアプローチのもうひとつの重要な革新は、画像編集の質を高めるために、言語埋め込みと編集セマンティクスを整合させる言語統一技術の統合である。 さらに,画像編集のための最初のデータセットを,インコンテキスト機能の拡張に使用できるビジュアルプロンプトと編集命令でコンパイルする。 このデータセットに基づいて,本手法は訓練されたタスクに対して優れた合成品質を達成できるだけでなく,調整されたプロンプトによって未確認の視覚タスクにまたがる堅牢な一般化能力を示す。

Recent advances in image editing have been driven by the development of denoising diffusion models, marking a significant leap forward in this field. Despite these advances, the generalization capabilities of recent image editing approaches remain constrained. In response to this challenge, our study introduces a novel image editing framework with enhanced generalization robustness by boosting in-context learning capability and unifying language instruction. This framework incorporates a module specifically optimized for image editing tasks, leveraging the VMamba Block and an editing-shift matching strategy to augment in-context learning. Furthermore, we unveil a selective area-matching technique specifically engineered to address and rectify corrupted details in generated images, such as human facial features, to further improve the quality. Another key innovation of our approach is the integration of a language unification technique, which aligns language embeddings with editing semantics to elevate the quality of image editing. Moreover, we compile the first dataset for image editing with visual prompts and editing instructions that could be used to enhance in-context capability. Trained on this dataset, our methodology not only achieves superior synthesis quality for trained tasks, but also demonstrates robust generalization capability across unseen vision tasks through tailored prompts.
翻訳日:2024-03-11 21:04:37 公開日:2024-03-08
# 近似最適輸送による拡散モデルの改良

Improving Diffusion-Based Generative Models via Approximated Optimal Transport ( http://arxiv.org/abs/2403.05069v1 )

ライセンス: Link先を確認
Daegyu Kim, Jooyoung Choi, Chaehun Shin, Uiwon Hwang, Sungroh Yoon(参考訳) 本稿では,拡散モデルを用いた新しい学習手法である近似最適輸送(AOT)手法を紹介する。 提案手法は,デノイザー出力を正確に推定する拡散モデルの能力を大幅に向上し,最適輸送をトレーニングプロセスに近似・統合することを目的としている。 この改良により、低い曲率を持つ拡散モデルのODE軌道が導かれ、サンプリング時のトランケーション誤差が低減される。 トレーニングにAOTを用いて,画像品質の向上とサンプリングステップの短縮を実現した。 具体的には,FIDスコアは27NFEで1.88,29NFEで1.73,無条件で29NFEでそれぞれ達成した。 さらに, 判別器の指導訓練にAOTを適用した場合, 非条件世代と条件世代でそれぞれ1.68と1.58のFIDスコアを29 NFEで新たに設定する。 この結果は拡散モデルの性能向上におけるaotの有効性を示す。

We introduce the Approximated Optimal Transport (AOT) technique, a novel training scheme for diffusion-based generative models. Our approach aims to approximate and integrate optimal transport into the training process, significantly enhancing the ability of diffusion models to estimate the denoiser outputs accurately. This improvement leads to ODE trajectories of diffusion models with lower curvature and reduced truncation errors during sampling. We achieve superior image quality and reduced sampling steps by employing AOT in training. Specifically, we achieve FID scores of 1.88 with just 27 NFEs and 1.73 with 29 NFEs in unconditional and conditional generations, respectively. Furthermore, when applying AOT to train the discriminator for guidance, we establish new state-of-the-art FID scores of 1.68 and 1.58 for unconditional and conditional generations, respectively, each with 29 NFEs. This outcome demonstrates the effectiveness of AOT in enhancing the performance of diffusion models.
翻訳日:2024-03-11 20:59:34 公開日:2024-03-08
# リセット・蒸留:継続的な強化学習における負の伝達を克服するレシピ

Reset & Distill: A Recipe for Overcoming Negative Transfer in Continual Reinforcement Learning ( http://arxiv.org/abs/2403.05066v1 )

ライセンス: Link先を確認
Hongjoon Ahn, Jinu Hyeon, Youngmin Oh, Bosun Hwang, and Taesup Moon(参考訳) 有効な継続強化学習(CRL)アルゴリズムを開発する上での大きな障害の1つは、学習すべき新しいタスクが到着したときに生じる負の伝達問題である。 総合的な実験的検証を通じて、このような問題はCRLに頻繁に存在し、RL剤の可塑性損失軽減に関する最近の研究によって効果的に対処できないことを示す。 そこで我々は, CRLにおける負の伝達問題を克服するため, 単純かつ高効率なReset & Distill (R&D) を開発した。 R&Dは、エージェントのオンラインアクターと批評家ネットワークをリセットして新しいタスクを学ぶ戦略と、オンラインアクターと以前の専門家の行動確率から知識を抽出するオフライン学習ステップを組み合わせる。 我々は,Meta-Worldタスクの長いシーケンスに関する広範な実験を行い,本手法が最近のベースラインを一貫して上回り,様々なタスクにおいて成功率を大幅に向上させることを示す。 本研究は,CRLの陰性移行を検討することの重要性を強調し,その有害性を軽減するためにR&Dのような堅牢な戦略の必要性を強調した。

We argue that one of the main obstacles for developing effective Continual Reinforcement Learning (CRL) algorithms is the negative transfer issue occurring when the new task to learn arrives. Through comprehensive experimental validation, we demonstrate that such issue frequently exists in CRL and cannot be effectively addressed by several recent work on mitigating plasticity loss of RL agents. To that end, we develop Reset & Distill (R&D), a simple yet highly effective method, to overcome the negative transfer problem in CRL. R&D combines a strategy of resetting the agent's online actor and critic networks to learn a new task and an offline learning step for distilling the knowledge from the online actor and previous expert's action probabilities. We carried out extensive experiments on long sequence of Meta-World tasks and show that our method consistently outperforms recent baselines, achieving significantly higher success rates across a range of tasks. Our findings highlight the importance of considering negative transfer in CRL and emphasize the need for robust strategies like R&D to mitigate its detrimental effects.
翻訳日:2024-03-11 20:59:19 公開日:2024-03-08
# 大規模言語モデルを用いたrst談話解析で有意な成功を収めることができるか?

Can we obtain significant success in RST discourse parsing by using Large Language Models? ( http://arxiv.org/abs/2403.05065v1 )

ライセンス: Link先を確認
Aru Maekawa, Tsutomu Hirao, Hidetaka Kamigaito, Manabu Okumura(参考訳) 近年,数千億のパラメータを持つデコーダのみの事前学習型大規模言語モデル(LLM)が,自然言語処理(NLP)タスクに多大な影響を与えている。 エンコーダ限定またはエンコーダデコーダ事前訓練された言語モデルは、既に言論解析に有効であることが証明されているが、LLMがこのタスクを実行できる範囲は、オープンな研究課題である。 そこで本稿では,LLMがRST(Rhetorical Structure Theory)の言論解析にいかに有用かを検討する。 ここでは、基本的なトップダウン戦略とボトムアップ戦略の両方のパースプロセスがプロンプトに変換され、LCMが機能する。 私たちはllama 2を採用し、qloraで微調整しています。 RST-DT, Instr-DT, GUMコーパスの3つのベンチマークデータセットによる実験結果から, ボトムアップ戦略に700億のパラメータを持つLlama 2が, 最先端(SOTA)に有意な差異をもたらすことが示された。 さらに, rst-dtで評価した場合の一般化性が示され, ガムコーパスで訓練されたにもかかわらず, rst-dtで訓練された既存のパーサーと同様の性能を得た。

Recently, decoder-only pre-trained large language models (LLMs), with several tens of billion parameters, have significantly impacted a wide range of natural language processing (NLP) tasks. While encoder-only or encoder-decoder pre-trained language models have already proved to be effective in discourse parsing, the extent to which LLMs can perform this task remains an open research question. Therefore, this paper explores how beneficial such LLMs are for Rhetorical Structure Theory (RST) discourse parsing. Here, the parsing process for both fundamental top-down and bottom-up strategies is converted into prompts, which LLMs can work with. We employ Llama 2 and fine-tune it with QLoRA, which has fewer parameters that can be tuned. Experimental results on three benchmark datasets, RST-DT, Instr-DT, and the GUM corpus, demonstrate that Llama 2 with 70 billion parameters in the bottom-up strategy obtained state-of-the-art (SOTA) results with significant differences. Furthermore, our parsers demonstrated generalizability when evaluated on RST-DT, showing that, in spite of being trained with the GUM corpus, it obtained similar performances to those of existing parsers trained with RST-DT.
翻訳日:2024-03-11 20:58:57 公開日:2024-03-08
# 絡み合った自己スーパービジョンを用いた教師なしグラフニューラルネットワーク探索

Unsupervised Graph Neural Architecture Search with Disentangled Self-supervision ( http://arxiv.org/abs/2403.05064v1 )

ライセンス: Link先を確認
Zeyang Zhang, Xin Wang, Ziwei Zhang, Guangyao Shen, Shiqi Shen, Wenwu Zhu(参考訳) 既存のグラフニューラルネットワークサーチ(GNAS)メソッドは、検索プロセス中に教師付きラベルに大きく依存しており、監督ができないユビキタスシナリオに対処できない。 本稿では,教師なしのグラフニューラルアーキテクチャ探索の問題点について検討する。 重要な問題は、グラフデータの形成を駆動する潜在性グラフ因子と、その要因と最適な神経構造との間の基礎的な関係を見つけることである。 この問題に対処することは、グラフの性質とニューラルネットワーク探索プロセスの複雑さのために、アーキテクチャと共に潜伏グラフ因子が非常に絡み合っているため、難しい。 この課題に対処するために、未ラベルグラフデータに基づいて、様々な潜在グラフ要素を自己教師付き形式でキャプチャする最適なアーキテクチャを発見できる、分散自己教師型グラフニューラルネットワーク探索(DSGAS)モデルを提案する。 具体的には、まず、複数のアーキテクチャを同時に最適化した因子的非絡み合いを組み込むことができる非絡み合いグラフ超ネットワークを設計する。 そこで,提案する自己監督訓練により,異なる要因下での建築性能を推定する。 最後に,因子に特有な専門知識を持つアーキテクチャを探索するために,アーキテクチャ拡張を用いた対比探索を提案する。 11の実世界のデータセットに対する大規模な実験により、提案モデルは教師なしの方法でいくつかのベースライン手法に対して最先端のパフォーマンスを達成することができることを示した。

The existing graph neural architecture search (GNAS) methods heavily rely on supervised labels during the search process, failing to handle ubiquitous scenarios where supervisions are not available. In this paper, we study the problem of unsupervised graph neural architecture search, which remains unexplored in the literature. The key problem is to discover the latent graph factors that drive the formation of graph data as well as the underlying relations between the factors and the optimal neural architectures. Handling this problem is challenging given that the latent graph factors together with architectures are highly entangled due to the nature of the graph and the complexity of the neural architecture search process. To address the challenge, we propose a novel Disentangled Self-supervised Graph Neural Architecture Search (DSGAS) model, which is able to discover the optimal architectures capturing various latent graph factors in a self-supervised fashion based on unlabeled graph data. Specifically, we first design a disentangled graph super-network capable of incorporating multiple architectures with factor-wise disentanglement, which are optimized simultaneously. Then, we estimate the performance of architectures under different factors by our proposed self-supervised training with joint architecture-graph disentanglement. Finally, we propose a contrastive search with architecture augmentations to discover architectures with factor-specific expertise. Extensive experiments on 11 real-world datasets demonstrate that the proposed model is able to achieve state-of-the-art performance against several baseline methods in an unsupervised manner.
翻訳日:2024-03-11 20:58:29 公開日:2024-03-08
# 制御可能なレコメンデーションのための大規模言語モデルの調整

Aligning Large Language Models for Controllable Recommendations ( http://arxiv.org/abs/2403.05063v1 )

ライセンス: Link先を確認
Wensheng Lu, Jianxun Lian, Wei Zhang, Guanghua Li, Mingyang Zhou, Hao Liao, Xing Xie(参考訳) 大規模言語モデル(llms)の例外的な汎用知性に触発されて、研究者は次世代のレコメンダシステム(会話型、説明可能、制御可能なシステム)の開拓にその応用を探求し始めた。 しかし、既存の文献は主にLLMにドメイン固有の知識を統合することに集中しており、しばしば命令に従う能力を無視している。 このギャップに対処するために、我々はまず、従来のレコメンデータモデルから派生したラベルを付加した教師付き学習タスクのコレクションを導入し、レコメンデーション固有の指示に適応するLLMの能力を明確に向上することを目的とした。 次に,ユーザの意図に応答し,フォーマットエラーを緩和するために,さらにllmsの適性を高めるための強化学習に基づくアライメント手法を開発した。 提案手法は,2つの実世界のデータセットに対する広範な実験を通じて,高い精度の精度を維持しつつ,レコメンダシステム内の命令に準拠する能力を向上させる。

Inspired by the exceptional general intelligence of Large Language Models (LLMs), researchers have begun to explore their application in pioneering the next generation of recommender systems - systems that are conversational, explainable, and controllable. However, existing literature primarily concentrates on integrating domain-specific knowledge into LLMs to enhance accuracy, often neglecting the ability to follow instructions. To address this gap, we initially introduce a collection of supervised learning tasks, augmented with labels derived from a conventional recommender model, aimed at explicitly improving LLMs' proficiency in adhering to recommendation-specific instructions. Subsequently, we develop a reinforcement learning-based alignment procedure to further strengthen LLMs' aptitude in responding to users' intentions and mitigating formatting errors. Through extensive experiments on two real-world datasets, our method markedly advances the capability of LLMs to comply with instructions within recommender systems, while sustaining a high level of accuracy performance.
翻訳日:2024-03-11 20:58:04 公開日:2024-03-08
# アジャイルのマルチソースフリードメイン適応

Agile Multi-Source-Free Domain Adaptation ( http://arxiv.org/abs/2403.05062v1 )

ライセンス: Link先を確認
Xinyao Li, Jingjing Li, Fengling Li, Lei Zhu, Ke Lu(参考訳) 事前学習されたモデルで豊かな知識を効率的に利用することは、大規模モデルの時代において重要な話題となっている。 この研究は、複数のソース予測モデルからの知識を、ソースデータにアクセスすることなくラベルなしのターゲットドメインに適応的に活用することに焦点を当てている。 実際に有用な設定であるにもかかわらず、既存の手法では各ソースモデルに対して広範なパラメータチューニングが必要であり、豊富なソースドメインやより大きなソースモデルに直面する場合、計算コストがかかる。 この課題に対処するため,我々はソースバックボーンのパラメータチューニングを不要とした新しいアプローチを提案する。 bi-level attention ensemble (bi-aten) モジュールは、ドメイン内重みとドメイン間アンサンブル重みの両方を学習し、インスタンス特異性とドメイン一貫性の微妙なバランスを達成する。 ソースボトルネックを少し調整することで、3%以下のトレーニングパラメータと8倍のスループットで、挑戦的なベンチマークドメインネットで同等またはそれ以上のパフォーマンスを達成しました。 さらに, 小型化により, 提案モジュールは既存手法に容易に装備でき, 4%以上の性能向上が可能となった。 コードはhttps://github.com/TL-UESTC/Bi-ATEN.comで入手できる。

Efficiently utilizing rich knowledge in pretrained models has become a critical topic in the era of large models. This work focuses on adaptively utilizing knowledge from multiple source-pretrained models to an unlabeled target domain without accessing the source data. Despite being a practically useful setting, existing methods require extensive parameter tuning over each source model, which is computationally expensive when facing abundant source domains or larger source models. To address this challenge, we propose a novel approach which is free of the parameter tuning over source backbones. Our technical contribution lies in the Bi-level ATtention ENsemble (Bi-ATEN) module, which learns both intra-domain weights and inter-domain ensemble weights to achieve a fine balance between instance specificity and domain consistency. By slightly tuning source bottlenecks, we achieve comparable or even superior performance on a challenging benchmark DomainNet with less than 3% trained parameters and 8 times of throughput compared with SOTA method. Furthermore, with minor modifications, the proposed module can be easily equipped to existing methods and gain more than 4% performance boost. Code is available at https://github.com/TL-UESTC/Bi-ATEN.
翻訳日:2024-03-11 20:57:44 公開日:2024-03-08
# RadarDistill:LiDAR特徴量からの知識蒸留によるレーダベース物体検出性能の向上

RadarDistill: Boosting Radar-based Object Detection Performance via Knowledge Distillation from LiDAR Features ( http://arxiv.org/abs/2403.05061v1 )

ライセンス: Link先を確認
Geonho Bang, Kwangjin Choi, Jisong Kim, Dongsuk Kum, Jun Won Choi(参考訳) レーダデータの固有ノイズとスパース特性は、3次元物体検出に有効な表現を見つける上での課題となる。 本稿では,新しい知識蒸留(KD)手法であるRadarDistillを提案し,LiDARデータを利用してレーダデータの表現を改善する。 RadarDistillは、CMA(Cross-Modality Alignment)、AFD(Activation-based Feature Distillation)、PFD(Product-based Feature Distillation)の3つの主要コンポーネントを使用して、LiDARの望ましい特徴をレーダー特徴に伝達することに成功した。 CMAは、複数のダイレーション操作によってレーダー特徴の密度を高め、LiDARからレーダーへの非効率な知識伝達の課題に効果的に対処する。 AFDはLiDARの特徴、特に活性化強度が所定の閾値を超える領域から知識を伝達するように設計されている。 PFDはレーダネットワークを誘導し、オブジェクトの提案でLiDARネットワークの特徴を模倣し、正確な結果を検出すると同時に、偽陽性などの誤検出提案の特徴を緩和する。 比較分析の結果,radardistillはレーダーのみの物体検出タスクにおいて最先端(sota)性能を達成し,マップで20.5%,ndsで43.7%を記録した。 また、RadarDistillは、カメラレーダ融合モデルの性能を大幅に改善する。

The inherent noisy and sparse characteristics of radar data pose challenges in finding effective representations for 3D object detection. In this paper, we propose RadarDistill, a novel knowledge distillation (KD) method, which can improve the representation of radar data by leveraging LiDAR data. RadarDistill successfully transfers desirable characteristics of LiDAR features into radar features using three key components: Cross-Modality Alignment (CMA), Activation-based Feature Distillation (AFD), and Proposal-based Feature Distillation (PFD). CMA enhances the density of radar features through multiple layers of dilation operations, effectively addressing the challenges of inefficient knowledge transfer from LiDAR to radar. AFD is designed to transfer knowledge from significant areas of the LiDAR features, specifically those regions where activation intensity exceeds a predetermined threshold. PFD guides the radar network to mimic LiDAR network features in the object proposals for accurately detected results while moderating features for misdetected proposals like false positives. Our comparative analyses conducted on the nuScenes datasets demonstrate that RadarDistill achieves state-of-the-art (SOTA) performance for radar-only object detection task, recording 20.5% in mAP and 43.7% in NDS. Also, RadarDistill significantly improves the performance of the camera-radar fusion model.
翻訳日:2024-03-11 20:57:22 公開日:2024-03-08
# バグ優先順位の変更: Apacheプロジェクトに関する実証的研究

Bug Priority Change: An Empirical Study on Apache Projects ( http://arxiv.org/abs/2403.05059v1 )

ライセンス: Link先を確認
Zengyang Li, Guangzong Cai, Qinyi Yu, Peng Liang, Ran Mo, Hui Liu(参考訳) 問題追跡システムでは、各バグには優先度レベル(例えば、Blocker、Critical、Major、Minor、Trivialなど)が割り当てられ、バグの緊急レベルを示す。 この意味で、バグ優先度の変更を理解することは、参加者の作業スケジュールを合理的に調整し、より良い分析とバグの解決を容易にする。 ApacheによってデプロイされたJIRAから抽出されたデータによると、各プロジェクトのバグの割合は、そのようなバグが報告された後に優先的に変更され、バグ修正プロセスに不確実性をもたらす。 しかし、バグ修正プロセスに悪影響を及ぼす可能性のある、バグ優先度変更の現象に関する詳細な調査が欠如している。 そこで我々は,32の非自明なapacheオープンソースプロジェクトを分析し,優先度変更を伴うバグに関する定量的実証研究を行った。 The results show that: (1) 8.3% of the bugs in the selected projects underwent priority changes; (2) the median priority change time interval is merely a few days for most (28 out of 32) projects, and half (50. 7%) of bug priority changes occurred before bugs were handled; (3) for all selected projects, 87.9% of the bugs with priority changes underwent only one priority change, most priority changes tend to shift the priority to its adjacent priority, and a higher priority has a greater probability to undergo priority change; (4) bugs that require bug-fixing changes of higher complexity or that have more comments are likely to undergo priority changes; and (5) priorities of bugs reported or allocated by a few specific participants are more likely to be modified, and maximally only one participant in each project tends to modify priorities.

In issue tracking systems, each bug is assigned a priority level (e.g., Blocker, Critical, Major, Minor, or Trivial in JIRA from highest to lowest), which indicates the urgency level of the bug. In this sense, understanding bug priority changes helps to arrange the work schedule of participants reasonably, and facilitates a better analysis and resolution of bugs. According to the data extracted from JIRA deployed by Apache, a proportion of bugs in each project underwent priority changes after such bugs were reported, which brings uncertainty to the bug fixing process. However, there is a lack of indepth investigation on the phenomenon of bug priority changes, which may negatively impact the bug fixing process. Thus, we conducted a quantitative empirical study on bugs with priority changes through analyzing 32 non-trivial Apache open source software projects. The results show that: (1) 8.3% of the bugs in the selected projects underwent priority changes; (2) the median priority change time interval is merely a few days for most (28 out of 32) projects, and half (50. 7%) of bug priority changes occurred before bugs were handled; (3) for all selected projects, 87.9% of the bugs with priority changes underwent only one priority change, most priority changes tend to shift the priority to its adjacent priority, and a higher priority has a greater probability to undergo priority change; (4) bugs that require bug-fixing changes of higher complexity or that have more comments are likely to undergo priority changes; and (5) priorities of bugs reported or allocated by a few specific participants are more likely to be modified, and maximally only one participant in each project tends to modify priorities.
翻訳日:2024-03-11 20:56:55 公開日:2024-03-08
# ロバスト単眼深度推定のための安定拡散前処理

Stealing Stable Diffusion Prior for Robust Monocular Depth Estimation ( http://arxiv.org/abs/2403.05056v1 )

ライセンス: Link先を確認
Yifan Mao, Jian Liu, Xianming Liu(参考訳) 単眼深度推定はコンピュータビジョンにおいて重要な課題である。 既存の手法は標準条件下では印象的な結果を示したが、多種多様なトレーニングデータがないため、低照度や雨季などのシナリオで確実に実行するという課題に直面することが多い。 本稿では,単分子深度推定に先立って,ステアリング安定拡散(SSD)という新しい手法を提案する。 このアプローチでは、安定拡散を利用して困難な条件を模倣した合成画像を生成することで、この制限に対処している。 さらに,このような困難環境下でのモデル深度推定能力を高めるために,自己学習機構を導入する。 さらに、安定した拡散の活用性を高めるため、ディノブ2エンコーダは深度モデルアーキテクチャに統合され、モデルが豊富な意味的優先順位を活用し、シーン理解を改善することができる。 さらに、教師の損失は、教師モデルへの依存を減らし、意味のある知識を個別に獲得するために学生モデルを指導するために導入される。 本手法の有効性は,2つの公的なデータセットであるnuscenesとoxford robotcarを用いて評価し,その効果を示す。 ソースコードとウェイトは、https://github.com/hitcslj/SSDで入手できる。

Monocular depth estimation is a crucial task in computer vision. While existing methods have shown impressive results under standard conditions, they often face challenges in reliably performing in scenarios such as low-light or rainy conditions due to the absence of diverse training data. This paper introduces a novel approach named Stealing Stable Diffusion (SSD) prior for robust monocular depth estimation. The approach addresses this limitation by utilizing stable diffusion to generate synthetic images that mimic challenging conditions. Additionally, a self-training mechanism is introduced to enhance the model's depth estimation capability in such challenging environments. To enhance the utilization of the stable diffusion prior further, the DINOv2 encoder is integrated into the depth model architecture, enabling the model to leverage rich semantic priors and improve its scene understanding. Furthermore, a teacher loss is introduced to guide the student models in acquiring meaningful knowledge independently, thus reducing their dependency on the teacher models. The effectiveness of the approach is evaluated on nuScenes and Oxford RobotCar, two challenging public datasets, with the results showing the efficacy of the method. Source code and weights are available at: https://github.com/hitcslj/SSD.
翻訳日:2024-03-11 20:56:30 公開日:2024-03-08
# MUC:ロバストな3D人体再構築のための非校正カメラの混合

MUC: Mixture of Uncalibrated Cameras for Robust 3D Human Body Reconstruction ( http://arxiv.org/abs/2403.05055v1 )

ライセンス: Link先を確認
Yitao Zhu, Sheng Wang, Mengjie Xu, Zixu Zhuang, Zhixin Wang, Kaidong Wang, Han Zhang, Qian Wang(参考訳) 複数のカメラは、人のマルチビュービデオカバレッジを提供することができる。 例えば、その後の行動分析にはマルチビューデータを融合する必要があるが、そのような融合はしばしば従来のソリューションにおけるカメラの校正に依存している。 しかし、複数のカメラのキャリブレーションは自明ではない。 本研究では,複数のカメラビューから3次元人体を再構成する手法を提案する。 まず,事前学習した人体エンコーダを用いて個々のカメラビューを処理し,各ビューに対して人体モデルとパラメータを再構成する。 次に、単に複数のビューにまたがるモデルの平均化ではなく、ネットワークを訓練し、それぞれのビューの融合の重み付けを、人間の関節や手やカメラの位置から推定されるパラメータに基づいて決定する。 さらに,人間の顔の表情を人体モデルにシームレスに統合できるような,ダイナミックフュージョンのための人体のメッシュ面に目を向ける。 提案手法は,2つの公開データセット上に人体を再構築する際の優れた性能を示す。 さらに,本手法は任意の数のカメラのアドホック展開を柔軟にサポートし,関連アプリケーションに有意な可能性を秘めている。 論文が受け入れられ次第、ソースコードをリリースします。

Multiple cameras can provide multi-view video coverage of a person. It is necessary to fuse multi-view data, e.g., for subsequent behavioral analysis, while such fusion often relies on calibration of cameras in traditional solutions. However, it is non-trivial to calibrate multiple cameras. In this work, we propose a method to reconstruct 3D human body from multiple uncalibrated camera views. First, we adopt a pre-trained human body encoder to process each individual camera view, such that human body models and parameters can be reconstructed for each view. Next, instead of simply averaging models across views, we train a network to determine the weights of individual views for their fusion, based on the parameters estimated for joints and hands of human body as well as camera positions. Further, we turn to the mesh surface of human body for dynamic fusion, such that facial expression can be seamlessly integrated into the model of human body. Our method has demonstrated superior performance in reconstructing human body upon two public datasets. More importantly, our method can flexibly support ad-hoc deployment of an arbitrary number of cameras, which has significant potential in related applications. We will release source code upon acceptance of the paper.
翻訳日:2024-03-11 20:56:06 公開日:2024-03-08
# 制約付き最適輸送のためのシンクホーン型アルゴリズム

A Sinkhorn-type Algorithm for Constrained Optimal Transport ( http://arxiv.org/abs/2403.05054v1 )

ライセンス: Link先を確認
Xun Tang, Holakou Rahmanian, Michael Shavlovsky, Kiran Koshy Thekumparampil, Tesi Xiao, Lexing Ying(参考訳) エントロピック最適輸送(OT)とシンクホーンアルゴリズムは、機械学習の実践者が統計分布間の輸送距離を計算するための基本的なタスクを実践した。 本研究では, 等式制約と不等式制約を組み合わせることで, ot問題の一般クラスに注目する。 対応するエントロピー正規化の定式化を導出し、理論的保証によって支持される制約付きOT問題に対してシンクホーン型アルゴリズムを導入する。 最初に近似誤差をエントロピー正則化によって解くと、正則化パラメータの増加とともに指数関数的に減少する。 さらに,最適化手順をリアプノフ関数で特徴付けることにより,双対空間におけるシンクホーン型アルゴリズムの線形一階収束率を証明した。 弱エントロピー正則化の下で高速かつ高次収束を実現するために,動的正則化スケジューリングと2次加速度を伴うシンクホーン型アルゴリズムを補強する。 全体として、この研究は、エントロピー最適輸送の最近の理論と数値的な進歩と制約されたケースを体系的に組み合わせ、複雑なシナリオにおける近似輸送計画の導出を可能にする。

Entropic optimal transport (OT) and the Sinkhorn algorithm have made it practical for machine learning practitioners to perform the fundamental task of calculating transport distance between statistical distributions. In this work, we focus on a general class of OT problems under a combination of equality and inequality constraints. We derive the corresponding entropy regularization formulation and introduce a Sinkhorn-type algorithm for such constrained OT problems supported by theoretical guarantees. We first bound the approximation error when solving the problem through entropic regularization, which reduces exponentially with the increase of the regularization parameter. Furthermore, we prove a sublinear first-order convergence rate of the proposed Sinkhorn-type algorithm in the dual space by characterizing the optimization procedure with a Lyapunov function. To achieve fast and higher-order convergence under weak entropy regularization, we augment the Sinkhorn-type algorithm with dynamic regularization scheduling and second-order acceleration. Overall, this work systematically combines recent theoretical and numerical advances in entropic optimal transport with the constrained case, allowing practitioners to derive approximate transport plans in complex scenarios.
翻訳日:2024-03-11 20:55:48 公開日:2024-03-08
# PrimeComposer: アテンションステアリングによる画像合成のための高速な段階的拡散

PrimeComposer: Faster Progressively Combined Diffusion for Image Composition with Attention Steering ( http://arxiv.org/abs/2403.05053v1 )

ライセンス: Link先を確認
Yibin Wang and Weizhong Zhang and Jianwei Zheng and Cheng Jin(参考訳) 画像合成は、与えられたオブジェクトを特定のビジュアルコンテキストにシームレスに統合する。 現在の訓練なしの方法は、ジェネレータを誘導するために複数のサンプルから注意重みを合成することに依存している。 しかし、これらの重みは異なる文脈に由来するため、それらの組み合わせは合成におけるコヒーレンス混乱と外観情報の喪失につながる。 これらの問題は、たとえこのタスクで不要であったとしても、バックグラウンド生成への過度な集中によって悪化する。 これは推論を遅くするだけでなく、前景の世代品質を損なう。 さらに、これらの手法は遷移領域に不要なアーティファクトを導入する。 本稿では,画像合成を主観的局所編集タスクとして定式化し,前景生成のみに着目した。 各ステップでは、編集前景と雑音背景を組み合わせることで、シーンの一貫性を維持する。 残りの問題に対処するために,様々なノイズレベルにまたがる注意ステアリングによって画像を合成する,より高速なトレーニングフリーディフューザであるprimecomposerを提案する。 このステアリングは主に相関ディフューザによって達成され、各ステップで自己着脱層を利用する。 これらの層内では、合成対象は参照対象と背景の両方と相互作用し、複雑な詳細とコヒーレントな関係をキャプチャする。 この先行情報は注意重みにエンコードされ、合成プロセスを導くためにジェネレータのセルフアテンション層に統合される。 また、特定の主題関連単語が所望の領域に与える影響を限定するために、先行手法で示される望ましくないアーティファクトに対処し、遷移領域の一貫性をさらに向上させる領域制約付きクロスアテンションを導入する。 提案手法は最も高速な推論効率を示し,定性的かつ定量的に優位性を示す。

Image composition involves seamlessly integrating given objects into a specific visual context. The current training-free methods rely on composing attention weights from several samplers to guide the generator. However, since these weights are derived from disparate contexts, their combination leads to coherence confusion in synthesis and loss of appearance information. These issues worsen with their excessive focus on background generation, even when unnecessary in this task. This not only slows down inference but also compromises foreground generation quality. Moreover, these methods introduce unwanted artifacts in the transition area. In this paper, we formulate image composition as a subject-based local editing task, solely focusing on foreground generation. At each step, the edited foreground is combined with the noisy background to maintain scene consistency. To address the remaining issues, we propose PrimeComposer, a faster training-free diffuser that composites the images by well-designed attention steering across different noise levels. This steering is predominantly achieved by our Correlation Diffuser, utilizing its self-attention layers at each step. Within these layers, the synthesized subject interacts with both the referenced object and background, capturing intricate details and coherent relationships. This prior information is encoded into the attention weights, which are then integrated into the self-attention layers of the generator to guide the synthesis process. Besides, we introduce a Region-constrained Cross-Attention to confine the impact of specific subject-related words to desired regions, addressing the unwanted artifacts shown in the prior method thereby further improving the coherence in the transition area. Our method exhibits the fastest inference efficiency and extensive experiments demonstrate our superiority both qualitatively and quantitatively.
翻訳日:2024-03-11 20:55:30 公開日:2024-03-08
# DyRoNet: ストリーミング知覚のための低ランクアダプタ強化動的ルーティングネットワーク

DyRoNet: A Low-Rank Adapter Enhanced Dynamic Routing Network for Streaming Perception ( http://arxiv.org/abs/2403.05050v1 )

ライセンス: Link先を確認
Xiang Huang, Zhi-Qi Cheng, Jun-Yan He, Chenyang Li, Wangmeng Xiang, Baigui Sun, Xiao Wu(参考訳) 自動運転システムは複雑な環境をナビゲートするためにリアルタイムで正確な認識を必要とする。 そこで,我々はdyronet(dynamic router network)を紹介する。dyronetは低ランクの動的ルーティングを用いて,ストリーミングの知覚を高めるフレームワークである。 dyronetは、様々な環境条件のために微調整された特別な事前訓練された分岐ネットワークを統合することで、レイテンシと精度のバランスを実現している。 そのコア機能であるスピードルータモジュールは、入力データを最適な分岐ネットワークにインテリジェントに誘導し、パフォーマンスを最適化する。 広範な評価の結果、dyronetは複数のブランチ選択戦略に効果的に対応し、さまざまなシナリオで新しいベンチマークを設定できることが判明した。 dyronetはストリーミング知覚の新しいベンチマークを確立するだけでなく、将来的な作業に有用なエンジニアリング洞察を提供する。 プロジェクトの詳細はhttps://tastevision.github.io/dyronet/で確認できる。

Autonomous driving systems demand real-time, accurate perception to navigate complex environments. Addressing this, we introduce the Dynamic Router Network (DyRoNet), a framework that innovates with low-rank dynamic routing for enhanced streaming perception. By integrating specialized pre-trained branch networks, fine-tuned for various environmental conditions, DyRoNet achieves a balance between latency and precision. Its core feature, the speed router module, intelligently directs input data to the best-suited branch network, optimizing performance. The extensive evaluations reveal that DyRoNet adapts effectively to multiple branch selection strategies, setting a new benchmark in performance across a range of scenarios. DyRoNet not only establishes a new benchmark for streaming perception but also provides valuable engineering insights for future work. More project information is available at https://tastevision.github.io/DyRoNet/
翻訳日:2024-03-11 20:55:00 公開日:2024-03-08
# XPSR:拡散型画像スーパーリゾリューションの先駆者

XPSR: Cross-modal Priors for Diffusion-based Image Super-Resolution ( http://arxiv.org/abs/2403.05049v1 )

ライセンス: Link先を確認
Yunpeng Qu, Kun Yuan, Kai Zhao, Qizhi Xie, Jinhua Hao, Ming Sun and Chao Zhou(参考訳) 近年,画像スーパーレゾリューション(isr)において拡散ベースの手法が注目されている。 しかし、低解像度(LR)画像はしばしば深刻な劣化を受けるため、ISRモデルでは意味や劣化情報を知覚することは困難であり、不正確な内容や非現実的なアーティファクトによる復元画像が得られる。 これらの問題に対処するため,我々はsuper- resolution (xpsr) フレームワークのための \textit{cross-modal priorsを提案する。 XPSR内では、拡散モデルの正確かつ包括的な意味条件を得るために、最先端のマルチモーダル大言語モデル(MLLM)が利用される。 クロスモーダルな事前の融合を容易にするために、 \textit{Semantic-Fusion Attention} が上げられる。 望ましくない劣化の代わりにセマンティック保存情報を蒸留するために、LRとその高分解能(HR)間で \textit{Degradation-Free Constraint} が付加される。 定量的および定性的な結果は、XPSRが合成および実世界のデータセット間で高忠実で高現実的な画像を生成することができることを示している。 コードは \url{https://github.com/qyp2000/XPSR} でリリースされる。

Diffusion-based methods, endowed with a formidable generative prior, have received increasing attention in Image Super-Resolution (ISR) recently. However, as low-resolution (LR) images often undergo severe degradation, it is challenging for ISR models to perceive the semantic and degradation information, resulting in restoration images with incorrect content or unrealistic artifacts. To address these issues, we propose a \textit{Cross-modal Priors for Super-Resolution (XPSR)} framework. Within XPSR, to acquire precise and comprehensive semantic conditions for the diffusion model, cutting-edge Multimodal Large Language Models (MLLMs) are utilized. To facilitate better fusion of cross-modal priors, a \textit{Semantic-Fusion Attention} is raised. To distill semantic-preserved information instead of undesired degradations, a \textit{Degradation-Free Constraint} is attached between LR and its high-resolution (HR) counterpart. Quantitative and qualitative results show that XPSR is capable of generating high-fidelity and high-realism images across synthetic and real-world datasets. Codes will be released at \url{https://github.com/qyp2000/XPSR}.
翻訳日:2024-03-11 20:54:45 公開日:2024-03-08
# REPS:レコンストラクションベースのポイントクラウドサンプリング

REPS: Reconstruction-based Point Cloud Sampling ( http://arxiv.org/abs/2403.05047v1 )

ライセンス: Link先を確認
Guoqing Zhang, Wenbo Zhao, Jian Liu, Xianming Liu(参考訳) サンプリングは、リソース消費を効果的に削減できるため、様々なポイントクラウドタスクで広く使われている。 近年,様々なタスク要求に対するサンプリングプロセスの最適化にニューラルネットワークを利用する手法が提案されている。 現在、ディープダウンサンプリングの方法は、生成ベースとスコアベースという2つの主なタイプに分類できる。 生成的手法はネットワークを用いてサンプルクラウドを直接生成するのに対し、スコアベース手法は特定のルールに従ってポイントの重要性を評価し、そのスコアに基づいてサンプルクラウドを選択する。 しかし、これらの手法は、しばしば高強度の特徴領域において顕著なクラスタリング効果をもたらし、小規模の特徴を保ち、いくつかの構造が失われ、その後のタスクのパフォーマンスに影響を及ぼす。 本稿では,周辺頂点を用いて各頂点を除去・再構成することで,各頂点の重要性を評価する再構築型スコアリング戦略REPSを提案する。 再建過程は点再構成と形状再構成を含む。 上記2つの再建方法は, 異なる規模で除去することで, 頂点の重要性を効果的に評価する。 これらの再構成により,本手法は点雲の全体的な幾何学的特徴を維持でき,サンプリング中の小規模構造の乱れを回避できる。 さらに,ポイントクラウドの局所的およびグローバルな注意特徴を集約し,高品質な再構築とサンプリング効果を確保するGLFAモジュールを提案する。 本手法は, サンプル点雲の構造的特徴を保存するための従来の手法よりも優れていた。 さらに,多種多様な共通課題にまたがる手法の優れた性能を示す実験結果が豊富である。

Sampling is widely used in various point cloud tasks as it can effectively reduce resource consumption. Recently, some methods have proposed utilizing neural networks to optimize the sampling process for various task requirements. Currently, deep downsampling methods can be categorized into two main types: generative-based and score-based. Generative-based methods directly generate sampled point clouds using networks, whereas score-based methods assess the importance of points according to specific rules and then select sampled point clouds based on their scores. However, these methods often result in noticeable clustering effects in high-intensity feature areas, compromising their ability to preserve small-scale features and leading to the loss of some structures, thereby affecting the performance of subsequent tasks. In this paper, we propose REPS, a reconstruction-based scoring strategy that evaluates the importance of each vertex by removing and reconstructing them using surrounding vertices. Our reconstruction process comprises point reconstruction and shape reconstruction. The two aforementioned reconstruction methods effectively evaluate the importance of vertices by removing them at different scales for reconstruction. These reconstructions ensure that our method maintains the overall geometric features of the point cloud and avoids disturbing small-scale structures during sampling. Additionally, we propose the Global-Local Fusion Attention (GLFA) module, which aggregates local and global attention features of point clouds, ensuring high-quality reconstruction and sampling effects. Our method outperforms previous approaches in preserving the structural features of the sampled point clouds. Furthermore, abundant experimental results demonstrate the superior performance of our method across various common tasks.
翻訳日:2024-03-11 20:54:24 公開日:2024-03-08
# 登録の不確かさからセグメンテーション不確かさへ

From Registration Uncertainty to Segmentation Uncertainty ( http://arxiv.org/abs/2403.05111v1 )

ライセンス: Link先を確認
Junyu Chen, Yihao Liu, Shuwen Wei, Zhangxing Bian, Aaron Carass, Yong Du(参考訳) ディープラーニングに基づく画像登録モデルに固有の不確実性を理解することは、現在進行中の研究領域である。 モデルが生成した変形のあいまいさを示す可能性のある領域を解明し, 登録過程に関連する変形と外観の不確実性の両方を定量化するために, 既存の手法を開発した。 しかし,本研究では,登録モデルがラベル伝搬に使用される場合,潜在的な誤りを効果的に推定しないことを示す。 本稿では,画像登録のための認識的・アレエータ的セグメンテーションの不確かさを同時推定する新しい枠組みを提案する。 そこで我々は, 対数類似損失関数の最小化により, ワープ時の外観差をアレータリックセグメンテーションの不確実性に変換するために, 小型のディープニューラルネットワーク(DNN)を実装した。 さらに, 伝播するラベルのエントロピーとして, ラベルの伝播過程におけるエピステマティックセグメンテーションの不確実性を示す。 セグメンテーションの不確かさを既存の登録不確実性推定法とともに導入することにより,画像登録の異なる段階での潜在的な不確実性に関する重要な知見を提供する。 その結果,提案手法で推定されたセグメンテーションの不確実性はラベル伝搬の誤差とよく相関し,登録性能も良好であることが判明した。

Understanding the uncertainty inherent in deep learning-based image registration models has been an ongoing area of research. Existing methods have been developed to quantify both transformation and appearance uncertainties related to the registration process, elucidating areas where the model may exhibit ambiguity regarding the generated deformation. However, our study reveals that neither uncertainty effectively estimates the potential errors when the registration model is used for label propagation. Here, we propose a novel framework to concurrently estimate both the epistemic and aleatoric segmentation uncertainties for image registration. To this end, we implement a compact deep neural network (DNN) designed to transform the appearance discrepancy in the warping into aleatoric segmentation uncertainty by minimizing a negative log-likelihood loss function. Furthermore, we present epistemic segmentation uncertainty within the label propagation process as the entropy of the propagated labels. By introducing segmentation uncertainty along with existing methods for estimating registration uncertainty, we offer vital insights into the potential uncertainties at different stages of image registration. We validated our proposed framework using publicly available datasets, and the results prove that the segmentation uncertainties estimated with the proposed method correlate well with errors in label propagation, all while achieving superior registration performance.
翻訳日:2024-03-11 20:49:31 公開日:2024-03-08
# 合成一般化によるロボット操作のための効率的なデータ収集

Efficient Data Collection for Robotic Manipulation via Compositional Generalization ( http://arxiv.org/abs/2403.05110v1 )

ライセンス: Link先を確認
Jensen Gao, Annie Xie, Ted Xiao, Chelsea Finn, Dorsa Sadigh(参考訳) データ収集はロボット操作においてますます重要な問題となっているが、広義化を促進するためにデータを効果的に収集する方法に関する理解が不足している。 大規模ロボットデータ収集に関する最近の研究は、通常、オブジェクトタイプやテーブルテクスチャなど、データ収集中の幅広い環境要因が異なる。 これらの研究はさまざまなシナリオをカバーしようとするが、データに基づいてトレーニングされたポリシーの構成能力を明確に説明しない。 ロボットポリシーがトレーニングデータから異なる環境要因(例えば、オブジェクトタイプ、テーブルの高さ)を構成することができ、未知の要素の組み合わせに遭遇した場合に成功すれば、構成が対処する状況のデータを収集するのを避けることができる。 そこで本研究では, シミュレーションと実ロボットによるデータ収集戦略の比較を行い, 視覚模倣学習方針が環境因子を構成できるかどうかを徹底的に検討する。 ポリシーは構成を示すが、実際のロボットでは、従来のロボットデータセットを活用することが重要である。 我々はこれらの洞察を用いて、データ収集の同じ作業量に対して、単純なアプローチよりも優れた一般化を誘導できる構成を利用するデータ収集戦略を提案し、ドメイン内のデータ収集により良いプラクティスを提供する。 また,このような戦略から得られたデータに基づいて訓練された実際のロボット政策が,環境要因の見当たらない組み合わせを包含する全く新しい環境に移行した場合,77.5%の成功率を達成することを実証する。 私たちはhttp://iliad.stanford.edu/robot-data-comp/でビデオを提供します。

Data collection has become an increasingly important problem in robotic manipulation, yet there still lacks much understanding of how to effectively collect data to facilitate broad generalization. Recent works on large-scale robotic data collection typically vary a wide range of environmental factors during data collection, such as object types and table textures. While these works attempt to cover a diverse variety of scenarios, they do not explicitly account for the possible compositional abilities of policies trained on the data. If robot policies are able to compose different environmental factors of variation (e.g., object types, table heights) from their training data to succeed when encountering unseen factor combinations, then we can exploit this to avoid collecting data for situations that composition would address. To investigate this possibility, we conduct thorough empirical studies both in simulation and on a real robot that compare data collection strategies and assess whether visual imitation learning policies can compose environmental factors. We find that policies do exhibit composition, although leveraging prior robotic datasets is critical for this on a real robot. We use these insights to provide better practices for in-domain data collection by proposing data collection strategies that exploit composition, which can induce better generalization than naive approaches for the same amount of effort during data collection. We further demonstrate that a real robot policy trained on data from such a strategy achieves a success rate of 77.5% when transferred to entirely new environments that encompass unseen combinations of environmental factors, whereas policies trained using data collected without accounting for environmental variation fail to transfer effectively, with a success rate of only 2.5%. We provide videos at http://iliad.stanford.edu/robot-data-comp/.
翻訳日:2024-03-11 20:49:09 公開日:2024-03-08
# タスク駆動型マルチUAV協調形成機構

A Task-Driven Multi-UAV Coalition Formation Mechanism ( http://arxiv.org/abs/2403.05108v1 )

ライセンス: Link先を確認
Xinpeng Lu, Heng Song, Huailing Ma and Junwu Zhu(参考訳) UAV技術の急速な進歩により、UAV連立形成の問題はホットスポットとなっている。 そのため,タスク駆動型マルチUAV連立機構の設計が課題となっている。 しかし、既存の連立形成機構は、uavとタスク要求の関連性が低く、全体的な連立ユーティリティーと不安定連立構造が低下した。 これらの課題に対処するために,複数UAV連立ネットワーク協調作業完了モデルを提案し,連立作業能力と課題要求の関係を考察した。 このモデルは、連立の収益閾値に基づく収益関数を用いてタスク要求に合致する連立の形成を刺激した。 その後,限界効用に基づく連立形成アルゴリズムが提案された。 具体的には、Shapley値を用いて、連立内で公平な効用分布を実現し、限界効用優先順序に基づいて連立値を評価し、限られたイテレーション数で安定した連立分割を実現した。 さらに,このアルゴリズムがナッシュ平衡解を持つことを理論的に証明した。 最後に,提案アルゴリズムは,従来のアルゴリズムと比較して,より安定な連立を創出するだけでなく,連立の全体的な有用性を効果的に向上することを示した。

With the rapid advancement of UAV technology, the problem of UAV coalition formation has become a hotspot. Therefore, designing task-driven multi-UAV coalition formation mechanism has become a challenging problem. However, existing coalition formation mechanisms suffer from low relevance between UAVs and task requirements, resulting in overall low coalition utility and unstable coalition structures. To address these problems, this paper proposed a novel multi-UAV coalition network collaborative task completion model, considering both coalition work capacity and task-requirement relationships. This model stimulated the formation of coalitions that match task requirements by using a revenue function based on the coalition's revenue threshold. Subsequently, an algorithm for coalition formation based on marginal utility was proposed. Specifically, the algorithm utilized Shapley value to achieve fair utility distribution within the coalition, evaluated coalition values based on marginal utility preference order, and achieved stable coalition partition through a limited number of iterations. Additionally, we theoretically proved that this algorithm has Nash equilibrium solution. Finally, experimental results demonstrated that the proposed algorithm, compared to currently classical algorithms, not only forms more stable coalitions but also further enhances the overall utility of coalitions effectively.
翻訳日:2024-03-11 20:48:38 公開日:2024-03-08
# 画像ベース異常検出における強化学習を用いた電池駆動TinyMLシステムのシミュレーション

Simulating Battery-Powered TinyML Systems Optimised using Reinforcement Learning in Image-Based Anomaly Detection ( http://arxiv.org/abs/2403.05106v1 )

ライセンス: Link先を確認
Jared M. Ping and Ken J. Nixon(参考訳) 小さな機械学習(tinyml)の進歩は、スマート農業、ヘルスケア、スマートシティなど、スマートな産業ソリューションの創造を後押ししている。 関連する研究は、制約付きハードウェア上でのTinyMLソリューションの実現に寄与するが、バッテリ駆動システムのエネルギー消費を最適化することで、現実のアプリケーションを増幅する必要がある。 この研究は、バッテリー駆動のイメージベースの異常検出(IoT)システムを最適化することで、TinyMLの研究を拡張し、貢献する。 この領域での以前の研究は、デバイス上での推論とトレーニングの能力をもたらしたが、Reinforcement Learning (RL)のような機械学習アプローチを用いて、そのようなシステムのデプロイメントバッテリ寿命を改善するために、そのような機能の管理を最適化する研究はまだ行われていない。 モデル化されたシミュレーションを用いて、RLアルゴリズムのバッテリ寿命効果を静的および動的最適化アプローチとベンチマークし、ハードウェアベンチマークに従うための基礎となる。 TinyML対応IoTシステムでRLを使用して、クラウド異常処理やオンデバイストレーニングを含むシステム操作を最適化すると、静的および動的最適化アプローチと比較して、バッテリー寿命は22.86%と10.86%向上する。 提案されたソリューションは、メモリフットプリントが800bと低いため、リソースに制約されたハードウェアにデプロイすることができる。 これにより、スマート農業などの重要な分野を含む、現実世界でのシステム展開がさらに促進される。

Advances in Tiny Machine Learning (TinyML) have bolstered the creation of smart industry solutions, including smart agriculture, healthcare and smart cities. Whilst related research contributes to enabling TinyML solutions on constrained hardware, there is a need to amplify real-world applications by optimising energy consumption in battery-powered systems. The work presented extends and contributes to TinyML research by optimising battery-powered image-based anomaly detection Internet of Things (IoT) systems. Whilst previous work in this area has yielded the capabilities of on-device inferencing and training, there has yet to be an investigation into optimising the management of such capabilities using machine learning approaches, such as Reinforcement Learning (RL), to improve the deployment battery life of such systems. Using modelled simulations, the battery life effects of an RL algorithm are benchmarked against static and dynamic optimisation approaches, with the foundation laid for a hardware benchmark to follow. It is shown that using RL within a TinyML-enabled IoT system to optimise the system operations, including cloud anomaly processing and on-device training, yields an improved battery life of 22.86% and 10.86% compared to static and dynamic optimisation approaches respectively. The proposed solution can be deployed to resource-constrained hardware, given its low memory footprint of 800 B, which could be further reduced. This further facilitates the real-world deployment of such systems, including key sectors such as smart agriculture.
翻訳日:2024-03-11 20:48:19 公開日:2024-03-08
# ロバストなクロスモーダル検索のためのミスマッチペアの再マッチ学習

Learning to Rematch Mismatched Pairs for Robust Cross-Modal Retrieval ( http://arxiv.org/abs/2403.05105v1 )

ライセンス: Link先を確認
Haochen Han, Qinghua Zheng, Guang Dai, Minnan Luo, Jingdong Wang(参考訳) 整合したマルチメディアデータセットの収集は、クロスモーダル検索モデルのトレーニングに不可欠である。 しかし、現実のシナリオでは、大規模なマルチモーダルデータは、必然的にPMP(Partially Mismatched Pairs)を含むインターネットから収集される。 このような意味的無関係なデータは、明らかにクロスモーダル検索性能を著しく損なう。 従来の取り組みは、PMPの貢献度を下げるためのソフト対応を推定することでこの問題を軽減する傾向にある。 本稿では,この課題に新たな視点から対処することを目的とする。未ペアのサンプル間の潜在的な意味的類似性により,ミスマッチしたペアから有用な知識を発掘することができる。 そこで本研究では,ミスマッチペアの再マッチを学習する OT (Optimal Transport) に基づく汎用フレームワーク L2RM を提案する。 詳細は、L2RMは様々なモダリティにまたがる最小限の輸送計画を求めることにより、洗練されたアライメントを生み出すことを目的としている。 otにおける再マッチングのアイデアを形式化するために,まず,明示的な類似度-コストマッピング関係から自動的に学習する自己教師付きコスト関数を提案する。 第2に, 部分的OT問題をモデル化し, 偽陽性間の輸送を制限し, 改良されたアライメントをさらに強化する。 3つのベンチマークによる大規模な実験により、L2RMは既存のモデルに対するPMPに対するロバスト性を大幅に改善することが示された。 コードはhttps://github.com/hhc1997/l2rmで入手できる。

Collecting well-matched multimedia datasets is crucial for training cross-modal retrieval models. However, in real-world scenarios, massive multimodal data are harvested from the Internet, which inevitably contains Partially Mismatched Pairs (PMPs). Undoubtedly, such semantical irrelevant data will remarkably harm the cross-modal retrieval performance. Previous efforts tend to mitigate this problem by estimating a soft correspondence to down-weight the contribution of PMPs. In this paper, we aim to address this challenge from a new perspective: the potential semantic similarity among unpaired samples makes it possible to excavate useful knowledge from mismatched pairs. To achieve this, we propose L2RM, a general framework based on Optimal Transport (OT) that learns to rematch mismatched pairs. In detail, L2RM aims to generate refined alignments by seeking a minimal-cost transport plan across different modalities. To formalize the rematching idea in OT, first, we propose a self-supervised cost function that automatically learns from explicit similarity-cost mapping relation. Second, we present to model a partial OT problem while restricting the transport among false positives to further boost refined alignments. Extensive experiments on three benchmarks demonstrate our L2RM significantly improves the robustness against PMPs for existing models. The code is available at https://github.com/hhc1997/L2RM.
翻訳日:2024-03-11 20:47:52 公開日:2024-03-08
# 人々がAIから望むものを形作る文化

How Culture Shapes What People Want From AI ( http://arxiv.org/abs/2403.05104v1 )

ライセンス: Link先を確認
Xiao Ge, Chunchen Xu, Daigo Misaki, Hazel Rose Markus, Jeanne L Tsai(参考訳) 文化的に多様なグループの視点をAI開発に組み込む必要がある。 本稿では,自己と環境の独立的・相互依存的な文化モデルを用いて,AIの主流的ビジョンを拡張し,再定義し,再構築することを目的とした,研究のための新しい概念的枠組みを提案する。 2つの調査研究がこの枠組みを支持し、人々が理想的なAIを想像する際に文化モデルを適用するという予備的な証拠を提供する。 ヨーロッパ系アメリカ人の回答者と比較すると、中国の回答者はAIを制御することが重要ではなく、AIと結びつくことがより重要であると考えており、影響力を持つ能力を持つAIを好む傾向があった。 文化モデルの両方を反映して、アフリカ系アメリカ人の回答者はヨーロッパ系アメリカ人と中国人の両方に類似していた。 研究の限界と今後の方向性を議論し、文化に反応し、関連するaiを開発し、世界人口の幅広いセグメントに役立てる必要性を強調した。

There is an urgent need to incorporate the perspectives of culturally diverse groups into AI developments. We present a novel conceptual framework for research that aims to expand, reimagine, and reground mainstream visions of AI using independent and interdependent cultural models of the self and the environment. Two survey studies support this framework and provide preliminary evidence that people apply their cultural models when imagining their ideal AI. Compared with European American respondents, Chinese respondents viewed it as less important to control AI and more important to connect with AI, and were more likely to prefer AI with capacities to influence. Reflecting both cultural models, findings from African American respondents resembled both European American and Chinese respondents. We discuss study limitations and future directions and highlight the need to develop culturally responsive and relevant AI to serve a broader segment of the world population.
翻訳日:2024-03-11 20:47:27 公開日:2024-03-08
# 高度なテクスチャプリエントを用いた高忠実度テクスチャ生成の促進

Enhancing Texture Generation with High-Fidelity Using Advanced Texture Priors ( http://arxiv.org/abs/2403.05102v1 )

ライセンス: Link先を確認
Kuo Xu, Maoyu Wang, Muyu Wang, Lincong Feng, Tianhui Zhang, Xiaoli Liu(参考訳) 最近の2D生成技術の進歩は、3D形状とテクスチャコンテンツ生成に2D前駆体を使うことについて広く議論されている。 しかし、これらの方法は、ユーザが3dモデルを取得して構造を単純化する際に生じるテクスチャエイリアスやぼやけといった、その後のユーザ操作を見落としていることが多い。 従来のグラフィック手法は部分的にこの問題を緩和するが、最近のテクスチャ合成技術は元のモデルと一貫性を持たず、高い再現性を達成できない。 さらに, 背景雑音は高分解能なテクスチャ合成において頻繁に発生し, これらの生成技術の実用的利用を制限している。本研究では, 粗いテクスチャを初期入力として用いて, 合成テクスチャと初期テクスチャの整合性を向上し, ユーザの構造簡略化操作によるエイリアス化や曖昧化の問題を克服する, 高分解能で高忠実なテクスチャ復元手法を提案する。 さらに,現在の高分解能テクスチャ合成方式におけるノイズ問題に対処する自己教師型スキームに基づく背景雑音平滑化手法を提案する。 本手法により,高分解能なテクスチャ合成が可能となり,高精細テクスチャ合成技術への道が開かれた。 実験により,高分解能条件下での高忠実度テクスチャ回復における現在知られているスキームに勝ることを示す。

The recent advancements in 2D generation technology have sparked a widespread discussion on using 2D priors for 3D shape and texture content generation. However, these methods often overlook the subsequent user operations, such as texture aliasing and blurring that occur when the user acquires the 3D model and simplifies its structure. Traditional graphics methods partially alleviate this issue, but recent texture synthesis technologies fail to ensure consistency with the original model's appearance and cannot achieve high-fidelity restoration. Moreover, background noise frequently arises in high-resolution texture synthesis, limiting the practical application of these generation technologies.In this work, we propose a high-resolution and high-fidelity texture restoration technique that uses the rough texture as the initial input to enhance the consistency between the synthetic texture and the initial texture, thereby overcoming the issues of aliasing and blurring caused by the user's structure simplification operations. Additionally, we introduce a background noise smoothing technique based on a self-supervised scheme to address the noise problem in current high-resolution texture synthesis schemes. Our approach enables high-resolution texture synthesis, paving the way for high-definition and high-detail texture synthesis technology. Experiments demonstrate that our scheme outperforms currently known schemes in high-fidelity texture recovery under high-resolution conditions.
翻訳日:2024-03-11 20:47:10 公開日:2024-03-08
# ルール駆動ニュースキャプション

Rule-driven News Captioning ( http://arxiv.org/abs/2403.05101v1 )

ライセンス: Link先を確認
Ning Xu, Tingting Zhang, Hongshuo Tian, Yongdong Zhang, An-An Liu(参考訳) ニュースキャプションタスクは、ニュース記事と共に画像に名前付きエンティティや具体的なイベントを記述することによって、文章を生成することを目的としている。 既存の手法は、入力されたニュースコンテンツと出力予測との相関に主に焦点をあてる大規模な事前学習モデルに頼ることで、目覚ましい結果を得た。 しかし、ニュースキャプションは、イベントに関連する個人やアクションを正確に記述するなど、ニュースレポートの基本的な規則に従う必要がある。 本稿では,指定された規則信号に従って画像記述を生成できるルール駆動ニュースキャプション手法を提案する。 具体的には、まず、記述のためのニュース対応セマンティックルールを設計する。 このルールには、画像に描かれた主要なアクション(例えば「パフォーマンス」)と、アクションに関与する名前付きエンティティ(例えば「エージェント」や「プレース」)によって演じられる役割が含まれる。 次に,複数のエンコーダ層にニュース対応セマンティックルールを組み込むプレフィックスチューニング戦略により,このセマンティックルールを大規模事前学習モデルであるBARTに注入する。 最後に、BARTを効果的に誘導し、指定された規則に従うニュース文を生成する。 広く使われている2つのデータセット(GoodNewsとNYTimes800k)に対する大規模な実験は、我々の方法の有効性を実証している。

News captioning task aims to generate sentences by describing named entities or concrete events for an image with its news article. Existing methods have achieved remarkable results by relying on the large-scale pre-trained models, which primarily focus on the correlations between the input news content and the output predictions. However, the news captioning requires adhering to some fundamental rules of news reporting, such as accurately describing the individuals and actions associated with the event. In this paper, we propose the rule-driven news captioning method, which can generate image descriptions following designated rule signal. Specifically, we first design the news-aware semantic rule for the descriptions. This rule incorporates the primary action depicted in the image (e.g., "performing") and the roles played by named entities involved in the action (e.g., "Agent" and "Place"). Second, we inject this semantic rule into the large-scale pre-trained model, BART, with the prefix-tuning strategy, where multiple encoder layers are embedded with news-aware semantic rule. Finally, we can effectively guide BART to generate news sentences that comply with the designated rule. Extensive experiments on two widely used datasets (i.e., GoodNews and NYTimes800k) demonstrate the effectiveness of our method.
翻訳日:2024-03-11 20:46:41 公開日:2024-03-08
# 対人フロンティアの探索:対人ハイパーボリュームによるロバストネスの定量化

Exploring the Adversarial Frontier: Quantifying Robustness via Adversarial Hypervolume ( http://arxiv.org/abs/2403.05100v1 )

ライセンス: Link先を確認
Ping Guo, Cheng Gong, Xi Lin, Zhiyuan Yang, Qingfu Zhang(参考訳) ディープラーニングモデル、特にセキュリティクリティカルな分野に対する敵意攻撃の脅威が高まる中、堅牢なディープラーニングシステムの必要性は強調されている。 従来のロバスト性評価は、特定の摂動強度の下でモデルの性能を測定する敵の精度に依存する。 しかし、この特異計量はモデルの全体的な弾性を摂動の異なる程度に対して完全にカプセル化しない。 このギャップに対処するために,多目的最適化の観点から,様々な摂動強度に対して包括的に深層学習モデルのロバスト性を評価する,逆数ハイパーボリュームと呼ばれる新しい指標を提案する。 このメトリックは防御機構の詳細な比較を可能にし、より強力な防御戦略によって得られる頑健性の改善を認識できる。 さらに,種々の摂動強度に対して一様に敵の頑健性を向上する新たなトレーニングアルゴリズムを,敵の精度の最適化に焦点を絞った手法に対して採用する。 本研究は, 対向的超体積測定の有効性を実証し, 対向的精度が見落としているロバスト性の微妙な差異を明らかにする能力を示した。 この研究は、堅牢性の新しい尺度に貢献し、敵の脅威に対する現在のおよび将来の防御モデルの回復力を評価し、ベンチマークするための標準を確立している。

The escalating threat of adversarial attacks on deep learning models, particularly in security-critical fields, has underscored the need for robust deep learning systems. Conventional robustness evaluations have relied on adversarial accuracy, which measures a model's performance under a specific perturbation intensity. However, this singular metric does not fully encapsulate the overall resilience of a model against varying degrees of perturbation. To address this gap, we propose a new metric termed adversarial hypervolume, assessing the robustness of deep learning models comprehensively over a range of perturbation intensities from a multi-objective optimization standpoint. This metric allows for an in-depth comparison of defense mechanisms and recognizes the trivial improvements in robustness afforded by less potent defensive strategies. Additionally, we adopt a novel training algorithm that enhances adversarial robustness uniformly across various perturbation intensities, in contrast to methods narrowly focused on optimizing adversarial accuracy. Our extensive empirical studies validate the effectiveness of the adversarial hypervolume metric, demonstrating its ability to reveal subtle differences in robustness that adversarial accuracy overlooks. This research contributes a new measure of robustness and establishes a standard for assessing and benchmarking the resilience of current and future defensive models against adversarial threats.
翻訳日:2024-03-11 20:46:18 公開日:2024-03-08
# Love, Joy, and Autism Robots:メタレビューとプロボカタイプ

Love, Joy, and Autism Robots: A Metareview and Provocatype ( http://arxiv.org/abs/2403.05098v1 )

ライセンス: Link先を確認
Andrew Hundt, Gabrielle Ohlson, Pieter Wolfert, Lux Miranda, Sophia Zhu, Katie Winkle(参考訳) これまでの研究では、ヒト-コンピューター間相互作用(hci)とヒト-ロボット間相互作用(hri)の研究において、神経多様性がしばしば有害に病理化されていることを観察している。 我々は自閉症のロボットレビューのレビューを行い、自閉症の人々の第2位から第2位(25点中24点)の研究最優先事項として、ニューロディバージェントな個人への介入と治療が神経型社会規範に適合し、行動が良くなり、社会的、感情的なスキルが向上し、それ以外は、そのような違いをもたらす可能性のある内的経験を「固定」すること、を見出した。 さらに、近年の最も一般的なアプローチの多くは、自閉症の人々に対する永続的な外傷と損傷を引き起こすリスクを負っている。 我々は,近年の自閉症研究,フェミニストhri,ロボティクスの原則と知見に基づき,役割の逆転を想像し,その影響を分析し,自閉症主導の科学的手法と研究の方向性を実践可能なガイダンスで結論づける。

Previous work has observed how Neurodivergence is often harmfully pathologized in Human-Computer Interaction (HCI) and Human-Robot interaction (HRI) research. We conduct a review of autism robot reviews and find the dominant research direction is Autistic people's second to lowest (24 of 25) research priority: interventions and treatments purporting to 'help' neurodivergent individuals to conform to neurotypical social norms, become better behaved, improve social and emotional skills, and otherwise 'fix' us -- rarely prioritizing the internal experiences that might lead to such differences. Furthermore, a growing body of evidence indicates many of the most popular current approaches risk inflicting lasting trauma and damage on Autistic people. We draw on the principles and findings of the latest Autism research, Feminist HRI, and Robotics to imagine a role reversal, analyze the implications, then conclude with actionable guidance on Autistic-led scientific methods and research directions.
翻訳日:2024-03-11 20:45:54 公開日:2024-03-08
# 高速かつ編集可能な顔パーソナライズのためのface2diffusion

Face2Diffusion for Fast and Editable Face Personalization ( http://arxiv.org/abs/2403.05094v1 )

ライセンス: Link先を確認
Kaede Shiohara, Toshihiko Yamasaki(参考訳) 顔のパーソナライゼーションは、画像から得られた特定の顔を事前訓練されたテキスト・画像拡散モデルに挿入することを目的としている。 しかし、従来の手法では、トレーニングサンプルに過度に適合するため、アイデンティティの類似性と編集性の両方を維持することは依然として困難である。 本稿では,顔のパーソナライズのためのFace2D(F2D)を提案する。 F2Dの背後にある中核的な考え方は、トレーニングパイプラインからアイデンティティ非関連情報を取り除くことで過度に適合する問題を防止し、符号化された顔の編集性を改善することである。 F2Dは以下の3つの新しい構成要素から構成される。 1)マルチスケールのアイデンティティエンコーダは、マルチスケール情報の利点を保ちつつ、高度に分離されたアイデンティティ機能を提供し、カメラのポーズの多様性を向上させる。 2)表情指導は顔の表情をアイデンティティから切り離し,表情の制御性を向上させる。 3) クラス誘導型認知正規化は, 背景のテキストアライメントを高めるために, 顔の認知の仕方を学ぶモデルを奨励する。 FaceForensics++データセットと多様なプロンプトに関する大規模な実験は、従来の最先端手法と比較して、アイデンティティとテキストフィデリティのトレードオフを大幅に改善することを示した。

Face personalization aims to insert specific faces, taken from images, into pretrained text-to-image diffusion models. However, it is still challenging for previous methods to preserve both the identity similarity and editability due to overfitting to training samples. In this paper, we propose Face2Diffusion (F2D) for high-editability face personalization. The core idea behind F2D is that removing identity-irrelevant information from the training pipeline prevents the overfitting problem and improves editability of encoded faces. F2D consists of the following three novel components: 1) Multi-scale identity encoder provides well-disentangled identity features while keeping the benefits of multi-scale information, which improves the diversity of camera poses. 2) Expression guidance disentangles face expressions from identities and improves the controllability of face expressions. 3) Class-guided denoising regularization encourages models to learn how faces should be denoised, which boosts the text-alignment of backgrounds. Extensive experiments on the FaceForensics++ dataset and diverse prompts demonstrate our method greatly improves the trade-off between the identity- and text-fidelity compared to previous state-of-the-art methods.
翻訳日:2024-03-11 20:45:30 公開日:2024-03-08
# コントラスト学習とスペクトルフィルタプロファイルに基づく画像生成(stig)の高精度化のためのスペクトル変換

Spectrum Translation for Refinement of Image Generation (STIG) Based on Contrastive Learning and Spectral Filter Profile ( http://arxiv.org/abs/2403.05093v1 )

ライセンス: Link先を確認
Seokjun Lee, Seung-Won Jung and Hyunseok Seo(参考訳) 現在、画像生成と合成は生成モデルによって著しく進歩している。 フォトリアリスティックな結果にもかかわらず、本質的な相違は周波数領域でまだ観察されている。 スペクトル差は, 生成的対向ネットワークだけでなく拡散モデルにも現れた。 本研究では,生成した画像の周波数領域の違いを効果的に軽減し,GANと拡散モデルの両方の生成性能を向上させる枠組みを提案する。 これは、コントラスト学習に基づく画像生成(STIG)の洗練のためのスペクトル変換によって実現される。 様々な生成ネットワークにおける周波数成分の理論論理を採用する。 ここでの重要なアイデアは、デジタル信号処理の観点で画像から画像への変換とコントラスト学習という概念を通して、生成された画像のスペクトルを洗練することだ。 我々は8つのフェイク画像データセットと様々な最先端モデルにまたがるフレームワークを評価し,stigの有効性を実証した。 我々のフレームワークは、FIDとスペクトルの対数周波数距離の顕著な減少を示す他の切断エッジよりも優れている。 さらに,STIGはスペクトル異常を小さくすることで画質を向上させることを強調した。 さらに、STIGにより偽スペクトルを操作した場合、周波数ベースのディープフェイク検出器がより混乱することを示す。

Currently, image generation and synthesis have remarkably progressed with generative models. Despite photo-realistic results, intrinsic discrepancies are still observed in the frequency domain. The spectral discrepancy appeared not only in generative adversarial networks but in diffusion models. In this study, we propose a framework to effectively mitigate the disparity in frequency domain of the generated images to improve generative performance of both GAN and diffusion models. This is realized by spectrum translation for the refinement of image generation (STIG) based on contrastive learning. We adopt theoretical logic of frequency components in various generative networks. The key idea, here, is to refine the spectrum of the generated image via the concept of image-to-image translation and contrastive learning in terms of digital signal processing. We evaluate our framework across eight fake image datasets and various cutting-edge models to demonstrate the effectiveness of STIG. Our framework outperforms other cutting-edges showing significant decreases in FID and log frequency distance of spectrum. We further emphasize that STIG improves image quality by decreasing the spectral anomaly. Additionally, validation results present that the frequency-based deepfake detector confuses more in the case where fake spectrums are manipulated by STIG.
翻訳日:2024-03-11 20:45:09 公開日:2024-03-08
# SplattingAvatar: メッシュを組み込んだガウス製リアルリアルタイムアバター

SplattingAvatar: Realistic Real-Time Human Avatars with Mesh-Embedded Gaussian Splatting ( http://arxiv.org/abs/2403.05087v1 )

ライセンス: Link先を確認
Zhijing Shao, Zhaolong Wang, Zhuang Li, Duotun Wang, Xiangru Lin, Yu Zhang, Mingming Fan, Zeyu Wang(参考訳) SplattingAvatarは、Gaussian Splattingを三角形メッシュ上に埋め込んだフォトリアリスティックな人間のアバターのハイブリッド3次元表現であり、現代のGPUでは300FPS以上、モバイルデバイスでは30FPS以上である。 我々は,仮想人間の動きと外観を,露骨なメッシュ形状とガウススプラッティングによる暗黙の外観モデリングで切り離す。 ガウス群は、正曲面として三角形メッシュ上の偏心座標と変位によって定義される。 三角メッシュ上を歩きながらガウスのパラメータを同時に最適化するために、リフト最適化を拡張した。 splattingavatarは、メッシュが低周波運動と表面変形を表す仮想人間のハイブリッド表現であり、ガウス人は高周波の幾何学と詳細な外観を引き継いでいる。 MLPをベースとしたリニアブレンドスキン(LBS)の運動場に依存する既存の変形法とは異なり、ガウスの回転と変換を直接メッシュで制御し、骨格アニメーション、ブレンド形状、メッシュ編集などの様々なアニメーション技術との互換性を高める。 フルボディとヘッドアバターの両方のモノクロビデオからトレーニング可能なSplattingAvatarは、複数のデータセットにわたる最先端のレンダリング品質を示している。

We present SplattingAvatar, a hybrid 3D representation of photorealistic human avatars with Gaussian Splatting embedded on a triangle mesh, which renders over 300 FPS on a modern GPU and 30 FPS on a mobile device. We disentangle the motion and appearance of a virtual human with explicit mesh geometry and implicit appearance modeling with Gaussian Splatting. The Gaussians are defined by barycentric coordinates and displacement on a triangle mesh as Phong surfaces. We extend lifted optimization to simultaneously optimize the parameters of the Gaussians while walking on the triangle mesh. SplattingAvatar is a hybrid representation of virtual humans where the mesh represents low-frequency motion and surface deformation, while the Gaussians take over the high-frequency geometry and detailed appearance. Unlike existing deformation methods that rely on an MLP-based linear blend skinning (LBS) field for motion, we control the rotation and translation of the Gaussians directly by mesh, which empowers its compatibility with various animation techniques, e.g., skeletal animation, blend shapes, and mesh editing. Trainable from monocular videos for both full-body and head avatars, SplattingAvatar shows state-of-the-art rendering quality across multiple datasets.
翻訳日:2024-03-11 20:44:54 公開日:2024-03-08
# UFORecon: 任意および未使用のデータ集合からの一般化可能なスパースビュー表面再構成

UFORecon: Generalizable Sparse-View Surface Reconstruction from Arbitrary and UnFavOrable Data Sets ( http://arxiv.org/abs/2403.05086v1 )

ライセンス: Link先を確認
Youngju Na, Woo Jae Kim, Kyu Beom Han, Suhyeon Ha, and Sung-eui Yoon(参考訳) 一般化可能な神経暗黙的表面再構成は、見当たらないシーンから限られた数のマルチビュー画像が与えられることで、正確な基盤となる幾何学を得ることを目的としている。 しかし、既存の手法では、トレーニングとテストのフェーズで事前に定義されたスコアを使用して、情報的および関連するビューのみを選択する。 この制約は、望ましい組み合わせの可用性が常に保証されない現実のシナリオでは、モデルを非現実的にします。 入力ビューの組み合わせの有効性を示すために,ビュー結合スコアを導入し,検証する。 従来の手法は任意かつ好ましくない集合の下で解を退化させる。 この発見に基づいて、堅牢なビュー合成可能な表面再構成フレームワークである \textbf{UFORecon} を提案する。 これを実現するために、ソース画像間の相互作用をモデル化するクロスビューマッチング変換器と、大域的な相関を捉えるための相関フラストラムを構築する。 さらに、ペアワイズ機能の類似性をビュー一貫性プリミティブとして明示的にエンコードする。 提案手法は,ビュー・コンビネーションの一般化可能性や,ビュー・コンビネーションを訓練した従来の一般化可能なプロトコルにおいて,従来の手法よりも優れていた。 コードは \url{https://github.com/Youngju-Na/UFORecon} で公開されている。

Generalizable neural implicit surface reconstruction aims to obtain an accurate underlying geometry given a limited number of multi-view images from unseen scenes. However, existing methods select only informative and relevant views using predefined scores for training and testing phases. This constraint renders the model impractical in real-world scenarios, where the availability of favorable combinations cannot always be ensured. We introduce and validate a view-combination score to indicate the effectiveness of the input view combination. We observe that previous methods output degenerate solutions under arbitrary and unfavorable sets. Building upon this finding, we propose \textbf{UFORecon}, a robust view-combination generalizable surface reconstruction framework. To achieve this, we apply cross-view matching transformers to model interactions between source images and build correlation frustums to capture global correlations. Additionally, we explicitly encode pairwise feature similarities as view-consistent priors. Our proposed framework significantly outperforms previous methods in terms of view-combination generalizability and also in the conventional generalizable protocol trained with favorable view-combinations. The code is available at \url{https://github.com/Youngju-Na/UFORecon}.
翻訳日:2024-03-11 20:44:29 公開日:2024-03-08
# 分子予測タスクのための大規模言語モデルのベンチマーク

Benchmarking Large Language Models for Molecule Prediction Tasks ( http://arxiv.org/abs/2403.05075v1 )

ライセンス: Link先を確認
Zhiqiang Zhong and Kuangyu Zhou and Davide Mottin(参考訳) 大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクの最前線にある。 nlp で llm が広く採用されているにもかかわらず、幅広い分野におけるその可能性の大部分は未調査のままであり、設計と実装において大きな制限が残っている。 特に、LLMはグラフのような構造化されたデータに苦しむが、生物学や化学などの深い専門知識を必要とするドメイン固有の問題に答える作業は、しばしば失敗する。 本稿では,LLMが分子予測タスクを効果的に扱えるか,という根本的な問題を探る。 我々のゴールは、トップレベルのパフォーマンスを追求するのではなく、LLMが様々な分子タスクにどのように貢献できるかを評価することである。 6つの標準分子データセットの分類および回帰予測タスクを同定する。 その後、これらのタスク上でLLMをクエリする一連のプロンプトを慎重に設計し、それらの性能を既存の機械学習(ML)モデルと比較する。 第一に、LSMは、特に分子の幾何学的構造を捉えるのに適するモデルと比較した場合、特にグラフデータを理解するためのLSMの制約された能力を強調している。 第2に、LLMは協調的に使用する際のMLモデルの性能向上を約束する。 最後に,分子予測タスクにLLMを利用するための課題と将来性のある方法について論じる。 コードとモデルはhttps://github.com/zhiqiangzhongddu/LLMaMolで公開されている。

Large Language Models (LLMs) stand at the forefront of a number of Natural Language Processing (NLP) tasks. Despite the widespread adoption of LLMs in NLP, much of their potential in broader fields remains largely unexplored, and significant limitations persist in their design and implementation. Notably, LLMs struggle with structured data, such as graphs, and often falter when tasked with answering domain-specific questions requiring deep expertise, such as those in biology and chemistry. In this paper, we explore a fundamental question: Can LLMs effectively handle molecule prediction tasks? Rather than pursuing top-tier performance, our goal is to assess how LLMs can contribute to diverse molecule tasks. We identify several classification and regression prediction tasks across six standard molecule datasets. Subsequently, we carefully design a set of prompts to query LLMs on these tasks and compare their performance with existing Machine Learning (ML) models, which include text-based models and those specifically designed for analysing the geometric structure of molecules. Our investigation reveals several key insights: Firstly, LLMs generally lag behind ML models in achieving competitive performance on molecule tasks, particularly when compared to models adept at capturing the geometric structure of molecules, highlighting the constrained ability of LLMs to comprehend graph data. Secondly, LLMs show promise in enhancing the performance of ML models when used collaboratively. Lastly, we engage in a discourse regarding the challenges and promising avenues to harness LLMs for molecule prediction tasks. The code and models are available at https://github.com/zhiqiangzhongddu/LLMaMol.
翻訳日:2024-03-11 20:44:12 公開日:2024-03-08
# fr\'{e}chet型テール分布をもつ摂動リーダー--逆バンディットと両世界の最適性

Follow-the-Perturbed-Leader with Fr\'{e}chet-type Tail Distributions: Optimality in Adversarial Bandits and Best-of-Both-Worlds ( http://arxiv.org/abs/2403.05134v1 )

ライセンス: Link先を確認
Jongyeong Lee and Junya Honda and Shinji Ito and Min-hwan Oh(参考訳) 本稿では,逆境と確率的k$-armed banditsにおけるftplポリシーの最適性について検討する。 FTRL(Follow-the-Regularized-Leader)フレームワークが多種多様な正規化の選択肢で広く使われているにもかかわらず、FTPLフレームワークは本質的に単純であるにもかかわらず、ランダムな摂動に依存しているがあまり注目されていない。 逆の包帯では、FTPL が Fr\'{e}chet 型の尾を持つ分布に摂動が従えば $\mathcal{O}(\sqrt{KT})$ regrets を達成できると推測されている。 最近のHonda et al. (2023) による研究によると、Fr\'{e}chet分布と形状が$\alpha=2$のFTPLはこの境界に達しており、特に確率的包帯における対数的後悔はFTPLのBest-of-Both-Worlds(BOBW)能力を意味する。 しかし、この結果は上記の予想を部分的に解決するだけであり、その解析はこの形を持つfr\'{e}chet分布の特定の形式に大きく依存するためである。 本稿では, 反逆集合において, 摂動が$\mathcal{o}(\sqrt{kt})$ となるような十分条件を定め, 例えばfr\'{e}chet, pareto, student-$t$ 分布を含む。 また,特定のFr\'{e}chet型テール分布を持つFTPLのBOBW達成可能性を示す。 この結果は, 極値理論のレンズによる既存予想の解法だけでなく, FTPL から FTRL への写像による FTRL の正則化関数の効果に関する洞察を与える可能性がある。

This paper studies the optimality of the Follow-the-Perturbed-Leader (FTPL) policy in both adversarial and stochastic $K$-armed bandits. Despite the widespread use of the Follow-the-Regularized-Leader (FTRL) framework with various choices of regularization, the FTPL framework, which relies on random perturbations, has not received much attention, despite its inherent simplicity. In adversarial bandits, there has been conjecture that FTPL could potentially achieve $\mathcal{O}(\sqrt{KT})$ regrets if perturbations follow a distribution with a Fr\'{e}chet-type tail. Recent work by Honda et al. (2023) showed that FTPL with Fr\'{e}chet distribution with shape $\alpha=2$ indeed attains this bound and, notably logarithmic regret in stochastic bandits, meaning the Best-of-Both-Worlds (BOBW) capability of FTPL. However, this result only partly resolves the above conjecture because their analysis heavily relies on the specific form of the Fr\'{e}chet distribution with this shape. In this paper, we establish a sufficient condition for perturbations to achieve $\mathcal{O}(\sqrt{KT})$ regrets in the adversarial setting, which covers, e.g., Fr\'{e}chet, Pareto, and Student-$t$ distributions. We also demonstrate the BOBW achievability of FTPL with certain Fr\'{e}chet-type tail distributions. Our results contribute not only to resolving existing conjectures through the lens of extreme value theory but also potentially offer insights into the effect of the regularization functions in FTRL through the mapping from FTPL to FTRL.
翻訳日:2024-03-11 20:41:20 公開日:2024-03-08
# RISを用いた都市空調における分散学習のためのトポロジー制御

RIS-empowered Topology Control for Distributed Learning in Urban Air Mobility ( http://arxiv.org/abs/2403.05133v1 )

ライセンス: Link先を確認
Kai Xiong, Rui Wang, Supeng Leng, Wenyang Che, Chongwen Huang, Chau Yuen(参考訳) アーバン・エアモビリティ(UAM)は、輸送システムの革命として想定される、地上から地上に近い空間に車両を拡大する。 総合的なシーン認識は自律飛行の基礎である。 しかし、UAMはインテリジェントな認識の課題に直面している。高知覚学習要求は、空飛ぶ車の限られたセンサーやコンピューティングチップと矛盾する。 この課題を克服するために、リソース制限されたデバイスが協調的に深層学習(DL)を行うことを可能にするために、連邦学習(FL)や他の協調学習が提案されている。 しかし、FLのような従来の協調学習は、動的環境へのデプロイが難しいDLモデルの集約のための中央積分子に依存しています。 分散学習の収束は保証できないが、完全に分散化された学習スキームは直感的な解決法かもしれない。 そこで本論文では,分散学習を支援する再構成可能なインテリジェントサーフェス(RIS)について検討し,トポロジカルな属性を考慮し,収束保証による学習性能の向上を図る。 通信ネットワークのラプラシア行列固有値を利用して伝送遅延と収束率を最適化するためのFL位相基準を提案する。 その後,提案する位相的基準に従って,risリンク修正機能を革新的に活用し,現在のネットワークを再構築する。 本稿では,ネットワーク層の観点からRISの機能を再考する。 さらに、深い決定論的ポリシー勾配に基づくRIS位相シフト制御アルゴリズムを開発し、ネットワークリンクを同時に構築または分解し、通信ネットワークを再構築する。 分散flフレームワークの効率性を検証するために,mobilenetを用いたマルチビュー学習によるシミュレーション実験を行った。

Urban Air Mobility (UAM) expands vehicles from the ground to the near-ground space, envisioned as a revolution for transportation systems. Comprehensive scene perception is the foundation for autonomous aerial driving. However, UAM encounters the intelligent perception challenge: high perception learning requirements conflict with the limited sensors and computing chips of flying cars. To overcome the challenge, federated learning (FL) and other collaborative learning have been proposed to enable resource-limited devices to conduct onboard deep learning (DL) collaboratively. But traditional collaborative learning like FL relies on a central integrator for DL model aggregation, which is difficult to deploy in dynamic environments. The fully decentralized learning schemes may be the intuitive solution while the convergence of distributed learning cannot be guaranteed. Accordingly, this paper explores reconfigurable intelligent surfaces (RIS) empowered distributed learning, taking account of topological attributes to facilitate the learning performance with convergence guarantee. We propose several FL topological criteria for optimizing the transmission delay and convergence rate by exploiting the Laplacian matrix eigenvalues of the communication network. Subsequently, we innovatively leverage the RIS link modification ability to remold the current network according to the proposed topological criteria. This paper rethinks the functions of RIS from the perspective of the network layer. Furthermore, a deep deterministic policy gradient-based RIS phase shift control algorithm is developed to construct or deconstruct the network links simultaneously to reshape the communication network. Simulation experiments are conducted over MobileNet-based multi-view learning to verify the efficiency of the distributed FL framework.
翻訳日:2024-03-11 20:40:38 公開日:2024-03-08
# ChatUIE: 大規模言語モデルを用いたチャットベースの統一情報抽出

ChatUIE: Exploring Chat-based Unified Information Extraction using Large Language Models ( http://arxiv.org/abs/2403.05132v1 )

ライセンス: Link先を確認
Jun Xu, Mengshu Sun, Zhiqiang Zhang and Jun Zhou(参考訳) 最近の大規模言語モデルの進歩は、一般的なチャットで印象的なパフォーマンスを示している。 しかし、ドメイン固有の機能、特に情報抽出には一定の制限がある。 既知のスキーマや命令から逸脱する自然言語から構造化情報を抽出することは、従来のプロンプトベースの手法では難しいことが証明されている。 これは自然言語から構造化情報を抽出するソリューションとして、チャットベースの言語モデルにおけるドメイン固有のモデリングを探求する動機となった。 本稿では,ChatGLM上に構築された革新的な統合情報抽出フレームワークChatUIEを提案する。 同時に、混乱した限られたサンプルを含む様々なタスクを改善し調整するために強化学習が用いられる。 さらに,入力に存在しない要素生成の問題に対処するために,生成制約を統合する。 実験の結果,チャット能力の低下により,ChatUIEは情報抽出性能を大幅に向上できることがわかった。

Recent advancements in large language models have shown impressive performance in general chat. However, their domain-specific capabilities, particularly in information extraction, have certain limitations. Extracting structured information from natural language that deviates from known schemas or instructions has proven challenging for previous prompt-based methods. This motivated us to explore domain-specific modeling in chat-based language models as a solution for extracting structured information from natural language. In this paper, we present ChatUIE, an innovative unified information extraction framework built upon ChatGLM. Simultaneously, reinforcement learning is employed to improve and align various tasks that involve confusing and limited samples. Furthermore, we integrate generation constraints to address the issue of generating elements that are not present in the input. Our experimental results demonstrate that ChatUIE can significantly improve the performance of information extraction with a slight decrease in chatting ability.
翻訳日:2024-03-11 20:40:11 公開日:2024-03-08
# AGIワールドモデルとしてのソラ テキスト対ビデオ生成に関する総括

Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation ( http://arxiv.org/abs/2403.05131v1 )

ライセンス: Link先を確認
Joseph Cho, Fachrina Dewi Puspitasari, Sheng Zheng, Jingyao Zheng, Lik-Hang Lee, Tae-Ho Kim, Choong Seon Hong, Chaoning Zhang(参考訳) テキスト・ツー・ビデオ生成は、生成AIの急速に進化する領域において重要なフロンティアであり、テキスト・ツー・イメージ合成、ビデオキャプション、テキスト誘導編集の進歩を統合する。 本調査は,従来の生成モデルから最先端soraモデルへの移行に注目し,スケーラビリティと汎用性の発展を強調する,テキスト対ビデオ技術の進歩を批判的に検討する。 従来の研究から分析を排除し、これらのモデルの技術的な枠組みと進化の経路を詳細に調査する。 さらに,複数のエンティティハンドリングの実行不能,因果的効果学習の理解,物理的インタラクションの理解,オブジェクトのスケーリングと比例の知覚,生成モデルにおける長年の問題であるオブジェクト幻覚との闘いといった倫理的,技術的課題にも対処した。 総合的な議論では、テキスト対ビデオ生成モデルの実現を人間支援ツールや世界モデルとして取り上げ、モデルの欠点を引き合いに出し、主にデータセットのトレーニングと評価メトリクス(自動化と人間中心の両方)に焦点を当てた将来の改善方向性を要約する。 新参者と熟練研究者の両方を対象としたこの調査は、テキスト対ビデオ生成の分野におけるさらなるイノベーションと議論を触媒し、より信頼性が高く実用的な人工知能技術への道を開くことを目的としている。

Text-to-video generation marks a significant frontier in the rapidly evolving domain of generative AI, integrating advancements in text-to-image synthesis, video captioning, and text-guided editing. This survey critically examines the progression of text-to-video technologies, focusing on the shift from traditional generative models to the cutting-edge Sora model, highlighting developments in scalability and generalizability. Distinguishing our analysis from prior works, we offer an in-depth exploration of the technological frameworks and evolutionary pathways of these models. Additionally, we delve into practical applications and address ethical and technological challenges such as the inability to perform multiple entity handling, comprehend causal-effect learning, understand physical interaction, perceive object scaling and proportioning, and combat object hallucination which is also a long-standing problem in generative models. Our comprehensive discussion covers the topic of enablement of text-to-video generation models as human-assistive tools and world models, as well as eliciting model's shortcomings and summarizing future improvement direction that mainly centers around training datasets and evaluation metrics (both automatic and human-centered). Aimed at both newcomers and seasoned researchers, this survey seeks to catalyze further innovation and discussion in the growing field of text-to-video generation, paving the way for more reliable and practical generative artificial intelligence technologies.
翻訳日:2024-03-11 20:39:56 公開日:2024-03-08
# チェーンからツリーへ:知識グラフ上のチェーンライクなルールをツリーライクなルールに変換する

From Chain to Tree: Refining Chain-like Rules into Tree-like Rules on Knowledge Graphs ( http://arxiv.org/abs/2403.05130v1 )

ライセンス: Link先を確認
Wangtao Sun, Shizhu He, Jun Zhao, Kang Liu(参考訳) 説明力と制御性が優れており、ルールベースの手法は知識推論や意思決定支援といった多くのタスクにおいて重要な役割を果たす。 しかし、既存の研究は主に、その意味表現と正確な予測能力を制限する連鎖的なルールの学習に焦点を当てている。 その結果、チェーンライクな規則は通常、誤った基底値に反応し、不正確なまたは誤った推論結果を生み出す。 本稿では,知識グラフのツリーライクなルールの概念を提案し,適用範囲を拡大し,ルールベースの手法の推論能力を向上させる。 一方,チェーンライクなルールをツリーライクなルールに変換するための効果的なフレームワークを提案する。 4つの公開データセットを実験的に比較した結果,提案手法は他の連鎖的規則誘導法や改良された木様規則にも容易に適応できることがわかった。 本論文のデータとコードはhttps://anonymous.4open.science/r/tree-rule-E3CD/で入手できる。

With good explanatory power and controllability, rule-based methods play an important role in many tasks such as knowledge reasoning and decision support. However, existing studies primarily focused on learning chain-like rules, which limit their semantic expressions and accurate prediction abilities. As a result, chain-like rules usually fire on the incorrect grounding values, producing inaccurate or even erroneous reasoning results. In this paper, we propose the concept of tree-like rules on knowledge graphs to expand the application scope and improve the reasoning ability of rule-based methods. Meanwhile, we propose an effective framework for refining chain-like rules into tree-like rules. Experimental comparisons on four public datasets show that the proposed framework can easily adapt to other chain-like rule induction methods and the refined tree-like rules consistently achieve better performances than chain-like rules on link prediction. The data and code of this paper can be available at https://anonymous.4open.science/r/tree-rule-E3CD/.
翻訳日:2024-03-11 20:39:30 公開日:2024-03-08
# 分子マジックを解き放つ:超伸縮性ハイドロゲルの形成に関するAIの視点

Unraveling the Molecular Magic: AI Insights on the Formation of Extraordinarily Stretchable Hydrogels ( http://arxiv.org/abs/2403.05129v1 )

ライセンス: Link先を確認
Shahriar Hojjati Emmami, Ali Pilehvar Meibody, Lobat Tayebi, Mohammadamin Tavakoli, Pierre Baldi(参考訳) 過硫酸アンモニウム, メチレンビサクリルアミド, ジメチルエアクリルアミド, ポリエチレンオキシド濃度の故意な操作により, 優れた伸縮性を持つハイドロゲルの開発が可能となり, 当初の260倍の伸長が可能となった。 本研究は,人工知能予測システムによって促進される潜在的な反応機構を探索することにより,この現象の基盤となる分子構造を解明することを目的とする。 人工知能予測器は、2つのポリマーを相互に繋ぐ新しいアプローチを導入し、ランダム鎖の裂け目に続いて線形鎖と相互に接続するネットワークを形成する。 この新規な構成は異なるタイプのハイドロゲルの出現につながり、ここでは「スパンネットワーク」と呼ばれる。 さらに,Fourier-transform infrared spectroscopy (FTIR) を用いて, 提案機構に関係のある官能基を解析し, PEOの鎖切断から得られた多くのヒドロキシル末端基とヒドロゲルネットワーク上に形成されたカルボキシル基のエステル生成を確認した。

The deliberate manipulation of ammonium persulfate, methylenebisacrylamide, dimethyleacrylamide, and polyethylene oxide concentrations resulted in the development of a hydrogel with an exceptional stretchability, capable of extending up to 260 times its original length. This study aims to elucidate the molecular architecture underlying this unique phenomenon by exploring potential reaction mechanisms, facilitated by an artificial intelligence prediction system. Artificial intelligence predictor introduces a novel approach to interlinking two polymers, involving the formation of networks interconnected with linear chains following random chain scission. This novel configuration leads to the emergence of a distinct type of hydrogel, herein referred to as a "Span Network." Additionally, Fourier-transform infrared spectroscopy (FTIR) is used to investigate functional groups that may be implicated in the proposed mechanism, with ester formation confirmed among numerous hydroxyl end groups obtained from chain scission of PEO and carboxyl groups formed on hydrogel networks.
翻訳日:2024-03-11 20:39:15 公開日:2024-03-08
# テキスト・画像生成モデルの評価:人間の画像合成に関する実証的研究

Evaluating Text-to-Image Generative Models: An Empirical Study on Human Image Synthesis ( http://arxiv.org/abs/2403.05125v1 )

ライセンス: Link先を確認
Muxi Chen, Yi Liu, Jian Yi, Changran Xu, Qiuxia Lai, Hongliang Wang, Tsung-Yi Ho, Qiang Xu(参考訳) 本稿では,人間の画像合成に適用したテキスト・ツー・イメージ(T2I)生成モデルのためのニュアンス評価フレームワークを提案する。 まず,美学やリアリズムといったイメージの質に着目し,第2に,概念のカバレッジと公平性を通じてテキストの条件を調べる。 本稿では,生成画像の視覚的魅力を評価するための革新的な美的スコア予測モデルを提案し,生成画像の低品質領域を特徴とする最初のデータセットを提示し,自動欠陥検出を容易にする。 概念カバレッジに関する調査は,テキストに基づく概念の正確な解釈と表現におけるモデルの有効性を調査し,公平性の分析は,性別,人種,年齢を重視したモデル出力のバイアスを明らかにする。 我々の研究は人間のイメージに根ざしているが、この二重面的アプローチは、他の画像生成にも適用可能な柔軟性を備え、生成モデルの理解を高め、より洗練され、文脈的に認識され、倫理的に直感的な生成モデルへの道を開く。 コード、生成モデルの評価に使用されるデータ、欠陥のある領域に注釈付けされたデータセットを近くリリースします。

In this paper, we present an empirical study introducing a nuanced evaluation framework for text-to-image (T2I) generative models, applied to human image synthesis. Our framework categorizes evaluations into two distinct groups: first, focusing on image qualities such as aesthetics and realism, and second, examining text conditions through concept coverage and fairness. We introduce an innovative aesthetic score prediction model that assesses the visual appeal of generated images and unveils the first dataset marked with low-quality regions in generated human images to facilitate automatic defect detection. Our exploration into concept coverage probes the model's effectiveness in interpreting and rendering text-based concepts accurately, while our analysis of fairness reveals biases in model outputs, with an emphasis on gender, race, and age. While our study is grounded in human imagery, this dual-faceted approach is designed with the flexibility to be applicable to other forms of image generation, enhancing our understanding of generative models and paving the way to the next generation of more sophisticated, contextually aware, and ethically attuned generative models. We will release our code, the data used for evaluating generative models and the dataset annotated with defective areas soon.
翻訳日:2024-03-11 20:38:50 公開日:2024-03-08
# CLIP-Gaze: 視覚言語モデルによる一般的な視線推定に向けて

CLIP-Gaze: Towards General Gaze Estimation via Visual-Linguistic Model ( http://arxiv.org/abs/2403.05124v1 )

ライセンス: Link先を確認
Pengwei Yin, Guanzhong Zeng, Jingjing Wang, Di Xie(参考訳) 注視推定手法は、テストデータとトレーニングデータの間のドメインギャップにより、異なるドメイン間で評価された場合、大きなパフォーマンス劣化を経験することが多い。 既存の手法では、様々なドメインの一般化アプローチでこの問題に対処しようとするが、外観、ウェアラブル、画質など、視線データセットの多様性が限られているため、ほとんど成功していない。 このような制約を克服するために,事前学習された視覚言語モデルを用いて伝達可能な知識を活用するCLIP-Gazeという新しいフレームワークを提案する。 私たちのフレームワークは、視線推定タスクに視覚と言語による相互モダリティアプローチを利用する最初のフレームワークです。 具体的には,言語記述によって柔軟に構築できる視線関連機能から遠ざかることで,視線関連機能を抽出する。 より適切なプロンプトを学ぶために、テキストプロンプトチューニングのためのパーソナライズされたコンテキスト最適化手法を提案する。 さらに,視線サンプル間の関係を利用して視線特徴の分布を洗練し,視線推定モデルの一般化能力を向上させる。 4つのクロスドメイン評価において,CLIP-Gazeの既存手法よりも優れた性能を示した。

Gaze estimation methods often experience significant performance degradation when evaluated across different domains, due to the domain gap between the testing and training data. Existing methods try to address this issue using various domain generalization approaches, but with little success because of the limited diversity of gaze datasets, such as appearance, wearable, and image quality. To overcome these limitations, we propose a novel framework called CLIP-Gaze that utilizes a pre-trained vision-language model to leverage its transferable knowledge. Our framework is the first to leverage the vision-and-language cross-modality approach for gaze estimation task. Specifically, we extract gaze-relevant feature by pushing it away from gaze-irrelevant features which can be flexibly constructed via language descriptions. To learn more suitable prompts, we propose a personalized context optimization method for text prompt tuning. Furthermore, we utilize the relationship among gaze samples to refine the distribution of gaze-relevant features, thereby improving the generalization capability of the gaze estimation model. Extensive experiments demonstrate the excellent performance of CLIP-Gaze over existing methods on four cross-domain evaluations.
翻訳日:2024-03-11 20:38:13 公開日:2024-03-08
# ECToNAS:進化的クロストポロジーニューラルアーキテクチャ検索

ECToNAS: Evolutionary Cross-Topology Neural Architecture Search ( http://arxiv.org/abs/2403.05123v1 )

ライセンス: Link先を確認
Elisabeth J. Schiessler and Roland C. Aydin and Christian J. Cyron(参考訳) 提案するECToNASは,事前学習したメタコントローラを必要としない,コスト効率のよい進化的クロストポロジーニューラルアーキテクチャ探索アルゴリズムである。 我々のフレームワークは、異なるタスクやハイパーパラメータ設定に適したネットワークアーキテクチャを選択でき、必要に応じて、個別にクロストポロジー最適化を行うことができる。 これは、トレーニングとトポロジーの最適化を1つの軽量でリソースフレンドリなプロセスに融合するハイブリッドアプローチである。 6つの標準データセット(cifar-10, cifar-100, eurosat, fashion mnist, mnist, svhn)を用いて、このアプローチの有効性とパワーを実証し、そのアルゴリズムがアーキテクチャタイプ内のトポロジーを最適化するだけでなく、必要に応じて畳み込みセルを動的に追加・削除し、異なるネットワークタイプの境界を横断する能力を示す。 これにより、機械学習のバックグラウンドを持たない研究者たちは、適切なモデルタイプとトポロジを使用し、そのドメインに機械学習メソッドを適用することが可能になる。

We present ECToNAS, a cost-efficient evolutionary cross-topology neural architecture search algorithm that does not require any pre-trained meta controllers. Our framework is able to select suitable network architectures for different tasks and hyperparameter settings, independently performing cross-topology optimisation where required. It is a hybrid approach that fuses training and topology optimisation together into one lightweight, resource-friendly process. We demonstrate the validity and power of this approach with six standard data sets (CIFAR-10, CIFAR-100, EuroSAT, Fashion MNIST, MNIST, SVHN), showcasing the algorithm's ability to not only optimise the topology within an architectural type, but also to dynamically add and remove convolutional cells when and where required, thus crossing boundaries between different network types. This enables researchers without a background in machine learning to make use of appropriate model types and topologies and to apply machine learning methods in their domains, with a computationally cheap, easy-to-use cross-topology neural architecture search framework that fully encapsulates the topology optimisation within the training process.
翻訳日:2024-03-11 20:37:37 公開日:2024-03-08
# ユーザ表現リペインを用いたマルチTowerマルチゲストレコメンデーション

Multi-Tower Multi-Interest Recommendation with User Representation Repel ( http://arxiv.org/abs/2403.05122v1 )

ライセンス: Link先を確認
Tianyu Xiong, Xiaohan Yu(参考訳) 情報過負荷の時代において、推薦システムの価値は学術や産業でも認識されている。 特に多関心シーケンシャルレコメンデーション(multi-interest sequential recommendation)は、近年注目を集めているサブフィールドである。 マルチユーザ表現を生成することで、理論的にも経験的にも、シングルユーザ表現モデルよりも優れた表現性を示す。 この分野の大きな進歩にもかかわらず、多目的学習手法の性能と適用性、訓練と展開目標の違い、アイテム情報へのアクセス不能、シングルトウワーアーキテクチャによる産業採用の難しさの3つの大きな問題が続いている。 これらの課題に対処するために,ユーザ表現を撃退した新しい多層多目的フレームワークを提案する。 複数の大規模産業データセットに対する実験結果から,提案手法の有効性と一般化性が確認された。

In the era of information overload, the value of recommender systems has been profoundly recognized in academia and industry alike. Multi-interest sequential recommendation, in particular, is a subfield that has been receiving increasing attention in recent years. By generating multiple-user representations, multi-interest learning models demonstrate superior expressiveness than single-user representation models, both theoretically and empirically. Despite major advancements in the field, three major issues continue to plague the performance and adoptability of multi-interest learning methods, the difference between training and deployment objectives, the inability to access item information, and the difficulty of industrial adoption due to its single-tower architecture. We address these challenges by proposing a novel multi-tower multi-interest framework with user representation repel. Experimental results across multiple large-scale industrial datasets proved the effectiveness and generalizability of our proposed framework.
翻訳日:2024-03-11 20:37:01 公開日:2024-03-08
# CogView3:リレー拡散によるテキスト画像生成の高速化

CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion ( http://arxiv.org/abs/2403.05121v1 )

ライセンス: Link先を確認
Wendi Zheng, Jiayan Teng, Zhuoyi Yang, Weihan Wang, Jidong Chen, Xiaotao Gu, Yuxiao Dong, Ming Ding, Jie Tang(参考訳) テキスト・画像生成システムの最近の進歩は拡散モデルによって大きく推進されている。 しかし、シングルステージのテキスト・ツー・イメージ拡散モデルは、計算効率と画像の精細化の観点から、依然として課題に直面している。 この問題に対処するために,テキストと画像の拡散性能を向上させる革新的なカスケードフレームワークであるCogView3を提案する。 cogview3は、テキスト対画像生成の領域でリレー拡散を実装する最初のモデルであり、まず低解像度画像を作成し、次にリレーベースの超解像度を適用することでタスクを実行する。 この手法は、競合するテキストと画像の出力をもたらすだけでなく、トレーニングと推論のコストを大幅に削減する。 実験の結果,現在最先端のオープンソーステキスト・画像拡散モデルであるSDXLよりも,人間の評価では77.0\%向上し,推論時間の約1/2しか必要としないことがわかった。 CogView3の蒸留変種は、SDXLによる推論時間の1/10しか利用せず、同等のパフォーマンスを達成する。

Recent advancements in text-to-image generative systems have been largely driven by diffusion models. However, single-stage text-to-image diffusion models still face challenges, in terms of computational efficiency and the refinement of image details. To tackle the issue, we propose CogView3, an innovative cascaded framework that enhances the performance of text-to-image diffusion. CogView3 is the first model implementing relay diffusion in the realm of text-to-image generation, executing the task by first creating low-resolution images and subsequently applying relay-based super-resolution. This methodology not only results in competitive text-to-image outputs but also greatly reduces both training and inference costs. Our experimental results demonstrate that CogView3 outperforms SDXL, the current state-of-the-art open-source text-to-image diffusion model, by 77.0\% in human evaluations, all while requiring only about 1/2 of the inference time. The distilled variant of CogView3 achieves comparable performance while only utilizing 1/10 of the inference time by SDXL.
翻訳日:2024-03-11 20:36:35 公開日:2024-03-08
# 機械学習による材料特性からの電子バンドギャップエネルギーの推定

Estimation of Electronic Band Gap Energy From Material Properties Using Machine Learning ( http://arxiv.org/abs/2403.05119v1 )

ライセンス: Link先を確認
Sagar Prakash Barad, Sajag Kumar, Subhankar Mishra(参考訳) 機械学習技術を用いて、電子バンドギャップエネルギーを推定し、実験的に定量化可能な特性に基づいて材料のバンドギャップカテゴリを予測する。 バンドギャップエネルギーの決定は、その金属の性質や電子デバイスや光電子デバイスにおける潜在的な応用など、様々な材料特性の識別に重要である。 バンドギャップエネルギーの計算には数値的な方法があるが、計算コストが高く、精度とスケーラビリティに限界がある。 容易に得られる実験特性を用いて、材料バンドギャップエネルギーを迅速に予測できる機械学習駆動モデルにより、従来の密度汎関数理論(DFT)法よりも優れた選択肢が得られる。 我々のモデルはDFTに基づく予備的な計算や材料構造に関する知識を必要としない。 本稿では,データセットを複数のクラスタに分割することにより,回帰モデルと分類モデルの性能を向上させる手法を提案する。 従来の評価指標に基づいて, 回帰と分類の両方に関わる物質科学におけるmlモデルの性能を比較する新しい評価手法を提案する。 この新しい評価指標では,データセットのクラスタリング手法により,性能が向上することが示された。

Machine learning techniques are utilized to estimate the electronic band gap energy and forecast the band gap category of materials based on experimentally quantifiable properties. The determination of band gap energy is critical for discerning various material properties, such as its metallic nature, and potential applications in electronic and optoelectronic devices. While numerical methods exist for computing band gap energy, they often entail high computational costs and have limitations in accuracy and scalability. A machine learning-driven model capable of swiftly predicting material band gap energy using easily obtainable experimental properties would offer a superior alternative to conventional density functional theory (DFT) methods. Our model does not require any preliminary DFT-based calculation or knowledge of the structure of the material. We present a scheme for improving the performance of simple regression and classification models by partitioning the dataset into multiple clusters. A new evaluation scheme for comparing the performance of ML-based models in material sciences involving both regression and classification tasks is introduced based on traditional evaluation metrics. It is shown that on this new evaluation metric, our method of clustering the dataset results in better performance.
翻訳日:2024-03-11 20:35:56 公開日:2024-03-08
# 潜在幾何整合学習を用いたvoxelベースネットワークによる任意スケールポイントクラウドアップサンプリング

Arbitrary-Scale Point Cloud Upsampling by Voxel-Based Network with Latent Geometric-Consistent Learning ( http://arxiv.org/abs/2403.05117v1 )

ライセンス: Link先を確認
Hang Du, Xuejun Yan, Jingjing Wang, Di Xie, Shiliang Pu(参考訳) 近年,実用上の利便性と効率性から,任意のスケールのポイントクラウドアップサンプリング機構が普及している。 これを実現するため、従来の手法では表面近似の問題として定式化し、点ベースネットワークを用いて表面表現を学習している。 しかし、疎点雲から表面を学ぶことはより困難であり、したがってしばしば低忠実な幾何近似に苦しむ。 そこで我々は,voxelベースのネットワーク (\textbf{pu-voxelnet}) を用いた任意のスケールのポイントクラウドアップサンプリングフレームワークを提案する。 ボクセル表現から受け継がれた完全性と規則性により、ボクセルベースのネットワークは3次元曲面に予め定義された格子空間を提供し、各格子セル内の予測密度分布に応じて任意の数の点を再構成することができる。 しかし,不正確な密度予測による不正確なグリッドサンプリングについて検討する。 この問題に対処するため,高忠実度点を生成するための密度誘導グリッド再サンプリング法を開発した。 さらに,細かな粒度を改善するために,局所表面パッチ間の潜在幾何一貫性を強制する補助訓練監督を行う。 広範囲な実験により、提案手法は、固定的なアップサンプリング率だけでなく、任意のスケールのアップサンプリングにおいても最先端のアプローチよりも優れていることが示された。

Recently, arbitrary-scale point cloud upsampling mechanism became increasingly popular due to its efficiency and convenience for practical applications. To achieve this, most previous approaches formulate it as a problem of surface approximation and employ point-based networks to learn surface representations. However, learning surfaces from sparse point clouds is more challenging, and thus they often suffer from the low-fidelity geometry approximation. To address it, we propose an arbitrary-scale Point cloud Upsampling framework using Voxel-based Network (\textbf{PU-VoxelNet}). Thanks to the completeness and regularity inherited from the voxel representation, voxel-based networks are capable of providing predefined grid space to approximate 3D surface, and an arbitrary number of points can be reconstructed according to the predicted density distribution within each grid cell. However, we investigate the inaccurate grid sampling caused by imprecise density predictions. To address this issue, a density-guided grid resampling method is developed to generate high-fidelity points while effectively avoiding sampling outliers. Further, to improve the fine-grained details, we present an auxiliary training supervision to enforce the latent geometric consistency among local surface patches. Extensive experiments indicate the proposed approach outperforms the state-of-the-art approaches not only in terms of fixed upsampling rates but also for arbitrary-scale upsampling.
翻訳日:2024-03-11 20:35:15 公開日:2024-03-08
# APPLE:不公平軽減のための潜伏埋め込みに対する敵対的プライバシー意識の妨害

APPLE: Adversarial Privacy-aware Perturbations on Latent Embedding for Unfairness Mitigation ( http://arxiv.org/abs/2403.05114v1 )

ライセンス: Link先を確認
Zikang Xu, Fenghe Tang, Quan Quan, Qingsong Yao, S. Kevin Zhou(参考訳) ディープラーニングに基づくセグメンタの公平性を確保することは、ヘルスエクイティにとって重要である。 トレーニングデータセットや手順における不公平さの緩和に多くの努力が費やされてきた。 しかし, 医用画像解析における基礎モデルの普及に伴い, 実用性を保ちながら公平なモデルをスクラッチから訓練することは困難である。 本稿では,従来のモデルの重みを更新することなく,小型の潜伏型機能摂動器を導入することにより,配置されたセグメンタの公平性を向上する手法であるAdversarial Privacy-aware Perturbations on Latent Embedding (APPLE)を提案する。 潜伏ベクトルに摂動を加えることで、APPLEはセグメントのアーキテクチャとパラメータを保ちながら、公平性に関連する特徴をセグメントのデコーダに渡すことができないようにセグメントの潜伏ベクトルをデコレートする。 2つのセグメンテーションデータセットと5つのセグメンテーションセグメンタ(3つのU-Netライクおよび2つのSAMライク)による実験により,提案手法の有効性が示された。

Ensuring fairness in deep-learning-based segmentors is crucial for health equity. Much effort has been dedicated to mitigating unfairness in the training datasets or procedures. However, with the increasing prevalence of foundation models in medical image analysis, it is hard to train fair models from scratch while preserving utility. In this paper, we propose a novel method, Adversarial Privacy-aware Perturbations on Latent Embedding (APPLE), that can improve the fairness of deployed segmentors by introducing a small latent feature perturber without updating the weights of the original model. By adding perturbation to the latent vector, APPLE decorates the latent vector of segmentors such that no fairness-related features can be passed to the decoder of the segmentors while preserving the architecture and parameters of the segmentor. Experiments on two segmentation datasets and five segmentors (three U-Net-like and two SAM-like) illustrate the effectiveness of our proposed method compared to several unfairness mitigation methods.
翻訳日:2024-03-11 20:34:51 公開日:2024-03-08
# rlperi:強化学習と畳み込み特徴抽出による視覚ペリメトリーテストの高速化

RLPeri: Accelerating Visual Perimetry Test with Reinforcement Learning and Convolutional Feature Extraction ( http://arxiv.org/abs/2403.05112v1 )

ライセンス: Link先を確認
Tanvi Verma, Linh Le Dinh, Nicholas Tan, Xinxing Xu, Chingyu Cheng, Yong Liu(参考訳) 視周測定は、眼疾患や神経疾患による視力障害を検出するのに役立つ重要な眼科検査である。 検査中、患者の視線は特定の場所に固定され、中心視および周辺視では、様々な強度の光刺激が呈示される。 刺激に対する患者の反応に基づいて、視野マッピングと感度を決定する。 しかし、高い濃度を維持することは、患者にとって困難であり、検査時間が増加し、精度が低下する。 本稿では,視覚ペリメトリーテストの最適化を目的とした強化学習ベースアプローチであるrlperiを提案する。 位置と初期刺激値の最適な順序を決定することにより、精度を損なうことなく試験時間を短縮することを目指す。 さらに、テスト性能をさらに向上するために報酬形成技術を導入します。 テスト中の患者の反応をモニターするために、テストの状態を一対の3D行列として表現する。 2つの異なる畳み込みカーネルを適用し、各位置の異なる刺激値にまたがる特徴だけでなく、各位置の空間的特徴を抽出する。 実験により, 最新の手法と比較して精度を維持しつつ, 試験時間を10~20%削減できることを実証した。 提案手法では,視覚周囲検査をより効率的かつ患者フレンドリーにすることを目的としている。

Visual perimetry is an important eye examination that helps detect vision problems caused by ocular or neurological conditions. During the test, a patient's gaze is fixed at a specific location while light stimuli of varying intensities are presented in central and peripheral vision. Based on the patient's responses to the stimuli, the visual field mapping and sensitivity are determined. However, maintaining high levels of concentration throughout the test can be challenging for patients, leading to increased examination times and decreased accuracy. In this work, we present RLPeri, a reinforcement learning-based approach to optimize visual perimetry testing. By determining the optimal sequence of locations and initial stimulus values, we aim to reduce the examination time without compromising accuracy. Additionally, we incorporate reward shaping techniques to further improve the testing performance. To monitor the patient's responses over time during testing, we represent the test's state as a pair of 3D matrices. We apply two different convolutional kernels to extract spatial features across locations as well as features across different stimulus values for each location. Through experiments, we demonstrate that our approach results in a 10-20% reduction in examination time while maintaining the accuracy as compared to state-of-the-art methods. With the presented approach, we aim to make visual perimetry testing more efficient and patient-friendly, while still providing accurate results.
翻訳日:2024-03-11 20:34:32 公開日:2024-03-08
# システム同定のための合成データ生成:類似システムからの知識伝達の活用

Synthetic data generation for system identification: leveraging knowledge transfer from similar systems ( http://arxiv.org/abs/2403.05164v1 )

ライセンス: Link先を確認
Dario Piga, Matteo Rufolo, Gabriele Maroni, Manas Mejari, Marco Forgione(参考訳) 本稿では,データ不足を特徴とするシナリオにおけるモデル一般化とロバスト性の向上を目的とした,新しい合成データ生成手法を導入することで,力学系の学習における過剰フィッティングの課題に対処する。 提案手法の中心は、同一クラス内のシステムからの知識伝達の概念である。 具体的には、興味あるシステムが属すると考えられる幅広い種類のシステムを記述する、事前訓練されたメタモデルによって合成データを生成する。 トレーニングデータには2つの目的がある: まず、事前訓練されたメタモデルへの入力として、システムのダイナミクスを識別し、その振る舞いを予測し、新しい入力シーケンスに対する合成出力シーケンスを生成する。 検証データセットは、損失関数の定義におけるトレーニングと合成データの相対的重要性のバランスをとるスカラーハイパーパラメータをチューニングするために使用される。 同じ検証セットは、トレーニング中の早期停止など、小規模のトレーニングデータセットのオーバーフィットを回避するために、他の目的にも使用することができる。 この手法の有効性は,システム識別プロセスに合成データを組み込むことの利点を強調する数値的な例を通して示される。

This paper addresses the challenge of overfitting in the learning of dynamical systems by introducing a novel approach for the generation of synthetic data, aimed at enhancing model generalization and robustness in scenarios characterized by data scarcity. Central to the proposed methodology is the concept of knowledge transfer from systems within the same class. Specifically, synthetic data is generated through a pre-trained meta-model that describes a broad class of systems to which the system of interest is assumed to belong. Training data serves a dual purpose: firstly, as input to the pre-trained meta model to discern the system's dynamics, enabling the prediction of its behavior and thereby generating synthetic output sequences for new input sequences; secondly, in conjunction with synthetic data, to define the loss function used for model estimation. A validation dataset is used to tune a scalar hyper-parameter balancing the relative importance of training and synthetic data in the definition of the loss function. The same validation set can be also used for other purposes, such as early stopping during the training, fundamental to avoid overfitting in case of small-size training datasets. The efficacy of the approach is shown through a numerical example that highlights the advantages of integrating synthetic data into the system identification process.
翻訳日:2024-03-11 20:29:39 公開日:2024-03-08
# MamMIL: 状態空間モデルによる全スライド画像の複数インスタンス学習

MamMIL: Multiple Instance Learning for Whole Slide Images with State Space Models ( http://arxiv.org/abs/2403.05160v1 )

ライセンス: Link先を確認
Zijie Fang, Yifeng Wang, Zhi Wang, Jian Zhang, Xiangyang Ji, Yongbing Zhang(参考訳) 近年,がん診断のゴールドスタンダードである病理診断は,TransformerとMIL(Multiple Case Learning)フレームワークを併用し,全スライド画像(WSIs)を併用することで,優れたパフォーマンスを実現している。 しかし、WSIs のギガピクセルの性質は、トランスフォーマーの二次複雑自己保持機構を MIL に適用するには大きな課題となる。 既存の研究は通常、線形注意を使って計算効率を向上させるが、必然的に性能ボトルネックをもたらす。 本稿では,wsi 分類のための mammil フレームワークを提案する。まず,選択的構造化状態空間モデル (mamba) と mil を初めて連携させ,線形複雑性を維持しつつインスタンス依存のモデリングを可能にする。 具体的には,mambaが一方向一次元(1次元)シーケンスモデリングしか行えないという問題を解決するために,双方向状態空間モデルと2次元文脈認識ブロックを導入して,mammilが2次元空間関係を持つ双方向インスタンス依存性を学習できるようにする。 2つのデータセットの実験により、MamMILはTransformerをベースにした最先端のMILフレームワークよりもメモリフットプリントが小さい高度な分類性能を達成できることが示された。 コードが受け入れられれば、オープンソース化される。

Recently, pathological diagnosis, the gold standard for cancer diagnosis, has achieved superior performance by combining the Transformer with the multiple instance learning (MIL) framework using whole slide images (WSIs). However, the giga-pixel nature of WSIs poses a great challenge for the quadratic-complexity self-attention mechanism in Transformer to be applied in MIL. Existing studies usually use linear attention to improve computing efficiency but inevitably bring performance bottlenecks. To tackle this challenge, we propose a MamMIL framework for WSI classification by cooperating the selective structured state space model (i.e., Mamba) with MIL for the first time, enabling the modeling of instance dependencies while maintaining linear complexity. Specifically, to solve the problem that Mamba can only conduct unidirectional one-dimensional (1D) sequence modeling, we innovatively introduce a bidirectional state space model and a 2D context-aware block to enable MamMIL to learn the bidirectional instance dependencies with 2D spatial relationships. Experiments on two datasets show that MamMIL can achieve advanced classification performance with smaller memory footprints than the state-of-the-art MIL frameworks based on the Transformer. The code will be open-sourced if accepted.
翻訳日:2024-03-11 20:29:20 公開日:2024-03-08
# LVIC:ビジュアル情報をキューとしてリフティングするマルチモーダリティセグメンテーション

LVIC: Multi-modality segmentation by Lifting Visual Info as Cue ( http://arxiv.org/abs/2403.05159v1 )

ライセンス: Link先を確認
Zichao Dong and Bowen Pang and Xufeng Huang and Hang Ji and Xin Zhan and Junbo Chen(参考訳) マルチモダリティ融合は、自律運転のための3次元知覚に有効な方法であることが証明されている。 しかし、LiDARセマンティックセグメンテーションのための現在の多モード融合パイプラインの多くは複雑な融合機構を持っている。 ポイントペインティングは、視覚情報と直接LiDARポイントを結合する非常に直線的なフォワード方式である。 残念ながら、カメラとLiDARの間の投影誤差に悩まされている。 実験では、この投影誤差がポイントペインティングの悪魔であることが分かりました。 その結果,多モード融合を著しく促進する深度認識点塗装機構が提案されている。 それとは別に、LiDARがセマンティックセグメンテーションを操作するために望まれる視覚的特徴を詳しく見ていきます。 Visual InformationをCueとしてリフティングすることで、LVICはnuScenes LiDARセマンティックセグメンテーションベンチマークで1位にランクインする。 我々の実験は頑健さと有効性を示している。 コードは近々公開される予定だ。

Multi-modality fusion is proven an effective method for 3d perception for autonomous driving. However, most current multi-modality fusion pipelines for LiDAR semantic segmentation have complicated fusion mechanisms. Point painting is a quite straight forward method which directly bind LiDAR points with visual information. Unfortunately, previous point painting like methods suffer from projection error between camera and LiDAR. In our experiments, we find that this projection error is the devil in point painting. As a result of that, we propose a depth aware point painting mechanism, which significantly boosts the multi-modality fusion. Apart from that, we take a deeper look at the desired visual feature for LiDAR to operate semantic segmentation. By Lifting Visual Information as Cue, LVIC ranks 1st on nuScenes LiDAR semantic segmentation benchmark. Our experiments show the robustness and effectiveness. Codes would be make publicly available soon.
翻訳日:2024-03-11 20:28:58 公開日:2024-03-08
# エネルギー制約型無線エッジネットワークによる適応的分割学習

Adaptive Split Learning over Energy-Constrained Wireless Edge Networks ( http://arxiv.org/abs/2403.05158v1 )

ライセンス: Link先を確認
Zuguang Li, Wen Wu, Shaohua Wu, and Wei Wang(参考訳) スプリットラーニング(SL)は、人工知能(AI)モデルをトレーニングするための有望なアプローチであり、デバイスがサーバと協力して、同じ固定されたスプリットポイントに基づいて、分散的にAIモデルをトレーニングする。 しかし,装置の不均一性とチャネル条件の変化により,訓練遅延やエネルギー消費に最適ではない。 本稿では,端末の分割点を動的に選択し,無線エッジネットワークにおけるサーバの計算資源を割り当てる適応分割学習(ASL)方式を設計する。 長期エネルギー消費制約を考慮した平均トレーニングレイテンシを最小化する最適化問題を定式化する。 この問題の解決の難しさは、将来の情報と混合整数プログラミング(MIP)の欠如である。 そこで本研究では,現在の情報のみを用いて新しいmip問題に分解する,openと呼ばれるリアプノフ理論を利用したオンラインアルゴリズムを提案する。 そこで,MIP問題を解くために二層最適化法を提案する。 大規模なシミュレーションの結果、ASLスキームは既存のSLスキームと比較して平均訓練遅延とエネルギー消費をそれぞれ53.7%、22.1%削減できることが示された。

Split learning (SL) is a promising approach for training artificial intelligence (AI) models, in which devices collaborate with a server to train an AI model in a distributed manner, based on a same fixed split point. However, due to the device heterogeneity and variation of channel conditions, this way is not optimal in training delay and energy consumption. In this paper, we design an adaptive split learning (ASL) scheme which can dynamically select split points for devices and allocate computing resource for the server in wireless edge networks. We formulate an optimization problem to minimize the average training latency subject to long-term energy consumption constraint. The difficulties in solving this problem are the lack of future information and mixed integer programming (MIP). To solve it, we propose an online algorithm leveraging the Lyapunov theory, named OPEN, which decomposes it into a new MIP problem only with the current information. Then, a two-layer optimization method is proposed to solve the MIP problem. Extensive simulation results demonstrate that the ASL scheme can reduce the average training delay and energy consumption by 53.7% and 22.1%, respectively, as compared to the existing SL schemes.
翻訳日:2024-03-11 20:28:45 公開日:2024-03-08
# laneptrnet: ポイント投票としてのレーン検出の再検討と曲線のグルーピング

LanePtrNet: Revisiting Lane Detection as Point Voting and Grouping on Curves ( http://arxiv.org/abs/2403.05155v1 )

ライセンス: Link先を確認
Jiayan Cao, Xueyu Zhu, Cheng Qian(参考訳) 車線検出は自動運転の分野で重要な役割を果たしている。 Prevailing methods generally adopt basic concepts (anchors, key points, etc.) from object detection and segmentation tasks, while these approaches require manual adjustments for curved objects, involve exhaustive searches on predefined anchors, require complex post-processing steps, and may lack flexibility when applied to real-world scenarios.In this paper, we propose a novel approach, LanePtrNet, which treats lane detection as a process of point voting and grouping on ordered sets: Our method takes backbone features as input and predicts a curve-aware centerness, which represents each lane as a point and assigns the most probable center point to it. 得られた票に基づいて候補点の集合を生成するための新しい点サンプリング法を提案する。 局所的近傍の特徴と横断的注意スコアを利用することで,隣接点とシード点間のレーン毎のクラスタリングをさらに行うグループ化モジュールをデザインする。 さらに、この方法はバックボーンの代替としてポイントベースのフレームワーク(pointnet++シリーズなど)を適合させることができる。 この柔軟性により、3Dレーン検出タスクへの無駄な拡張が可能になる。 提案手法の有効性を検証するため,包括的な実験を行い,その優れた性能を示す。

Lane detection plays a critical role in the field of autonomous driving. Prevailing methods generally adopt basic concepts (anchors, key points, etc.) from object detection and segmentation tasks, while these approaches require manual adjustments for curved objects, involve exhaustive searches on predefined anchors, require complex post-processing steps, and may lack flexibility when applied to real-world scenarios.In this paper, we propose a novel approach, LanePtrNet, which treats lane detection as a process of point voting and grouping on ordered sets: Our method takes backbone features as input and predicts a curve-aware centerness, which represents each lane as a point and assigns the most probable center point to it. A novel point sampling method is proposed to generate a set of candidate points based on the votes received. By leveraging features from local neighborhoods, and cross-instance attention score, we design a grouping module that further performs lane-wise clustering between neighboring and seeding points. Furthermore, our method can accommodate a point-based framework, (PointNet++ series, etc.) as an alternative to the backbone. This flexibility enables effortless extension to 3D lane detection tasks. We conduct comprehensive experiments to validate the effectiveness of our proposed approach, demonstrating its superior performance.
翻訳日:2024-03-11 20:28:27 公開日:2024-03-08
# GSEdit:ガウススティングによる3Dオブジェクトの効率的なテキストガイド編集

GSEdit: Efficient Text-Guided Editing of 3D Objects via Gaussian Splatting ( http://arxiv.org/abs/2403.05154v1 )

ライセンス: Link先を確認
Francesco Palandra, Andrea Sanchietti, Daniele Baieri, Emanuele Rodol\`a(参考訳) 本稿では,Gaussian Splattingモデルに基づくテキスト誘導型3Dオブジェクト編集パイプラインGSEditを提案する。 本手法では,3dオブジェクトのスタイルや外観を,主ディテールを変更することなく,消費者ハードウェア上で数分で編集することができる。 本研究では,3次元シーンを表現するためにgaussian splattingを活用し,事前学習した画像ベース拡散モデルを用いて,画像監督を段階的に変更しながらモデルを最適化する。 入力対象は3次元三角形メッシュとして与えられるか、あるいはドリームガウスのような生成モデルからガウスとして直接提供される。 GSEditは、異なる視点で一貫性を確保し、元のオブジェクトの情報の整合性を維持する。 従来提案されていたNeRFライクなMLPモデルと比べ,GSEditはその効率性に際し,3D編集作業の高速化を図っている。 編集プロセスは、SDS損失の適用によって洗練され、編集が正確かつ正確であることを保証する。 包括的評価により,GSEditはテキストのコヒーレンスと詳細を保ちながら,与えられたテキストの指示に従ってオブジェクトの形状や外観を効果的に変化させることを示した。

We present GSEdit, a pipeline for text-guided 3D object editing based on Gaussian Splatting models. Our method enables the editing of the style and appearance of 3D objects without altering their main details, all in a matter of minutes on consumer hardware. We tackle the problem by leveraging Gaussian splatting to represent 3D scenes, and we optimize the model while progressively varying the image supervision by means of a pretrained image-based diffusion model. The input object may be given as a 3D triangular mesh, or directly provided as Gaussians from a generative model such as DreamGaussian. GSEdit ensures consistency across different viewpoints, maintaining the integrity of the original object's information. Compared to previously proposed methods relying on NeRF-like MLP models, GSEdit stands out for its efficiency, making 3D editing tasks much faster. Our editing process is refined via the application of the SDS loss, ensuring that our edits are both precise and accurate. Our comprehensive evaluation demonstrates that GSEdit effectively alters object shape and appearance following the given textual instructions while preserving their coherence and detail.
翻訳日:2024-03-11 20:28:09 公開日:2024-03-08
# 組合せ最適化のための量子緩和のノイズロバスト性

Noise Robustness of Quantum Relaxation for Combinatorial Optimization ( http://arxiv.org/abs/2403.05153v1 )

ライセンス: Link先を確認
Kentaro Tamura, Yohichi Suzuki, Rudy Raymond, Hiroshi C. Watanabe, Yuki Sato, Ruho Kondo, Michihiko Sugawara, Naoki Yamamoto(参考訳) QRAO (Quantum Random Access Optimization) は、QRAC (Quantum Random Access Code) を用いて、キュービット当たりの複数の変数を符号化することで、解決に必要なキュービット数を削減できる緩和アルゴリズムである。 量子ビット数を減らすことは、量子アルゴリズムにおけるノイズの影響を扱う一般的な方法である。 当社の関心は、qraoのバイナリソリューションの品質に対するノイズの影響にあります。 本研究では,3-QRACハミルトニアンの平均近似比,すなわちQRACによる3ビットの1量子ビットへの符号化を利用するハミルトニアンが,量子アニールやQAOA(量子近似最適化アルゴリズム)で用いられるイジン・ハミルトニアンと比較してノイズの影響を受けないことを示す。 本研究は, 偏極雑音下でのQRAOの強靭性の背後にある可塑性機構について考察する。 最後に, 2進変数の値を正当に偏極雑音下で推定するために必要なショット数を評価し,Ising Hamiltonianと比較して,3, 1)-QRACハミルトニアンが同じ精度を達成するためにより少ないショットを必要とすることを示す。

QRAO (Quantum Random Access Optimization) is a relaxation algorithm that reduces the number of qubits required to solve a problem by encoding multiple variables per qubit using QRAC (Quantum Random Access Code). Reducing the number of qubits is a common way of dealing with the impact of noise on a quantum algorithm. Our interest lies in the impact of noise on the quality of the binary solution of QRAO, which is unknown. We demonstrate that the mean approximation ratio of the (3, 1)-QRAC Hamiltonian, i.e., the Hamiltonian utilizing the encoding of 3 bits into 1 qubit by QRAC, is less affected by noise compared to the Ising Hamiltonian used in quantum annealer and QAOA (Quantum Approximate Optimization Algorithm). Based on this observation, we discuss a plausible mechanism behind the robustness of QRAO under depolarizing noise. Finally, we assess the number of shots required to estimate the values of binary variables correctly under depolarizing noise and show that the (3, 1)-QRAC Hamiltonian requires less shots to achieve the same accuracy compared to the Ising Hamiltonian.
翻訳日:2024-03-11 20:27:48 公開日:2024-03-08
# 機械心理学に向けて:人間の記憶を予測する大言語モデル

Towards a Psychology of Machines: Large Language Models Predict Human Memory ( http://arxiv.org/abs/2403.05152v1 )

ライセンス: Link先を確認
Markus Huff and Elanur Ulak\c{c}{\i}(参考訳) 大規模言語モデル(LLM)は、人間の認知の基礎が欠如しているにもかかわらず、様々なタスクにわたって顕著な能力を示している。 これらのモデルは、単に人間の言語パターンを模倣するだけでなく、人間の認知の基礎となるメカニズムに関する洞察を与えることができるだろうか? 本研究では,言語ベースのメモリタスクにおいて,ChatGPTが人間のパフォーマンスを予測する能力について検討する。 文章理解の理論に基づいて、曖昧な文(例えば「ビル・ドリンク・ワインは家の中に保管されないため」)の認識は文脈的関連情報で先行することによって促進されると仮定する。 人間とチャットgptの両方の参加者にペアの文章が提示された。 第2文は本質的に曖昧であるようにデザインされたガーデンパス文であり、第1文は適合性(例えば「ビルは慢性アルコール依存症」)か不適合な文脈(例えば「ビルはゴルフをするのが好きだ」)を提供した。 本研究では,人間とChatGPTの文関連性評価,ChatGPTのヤードパス文の記憶可能性評価,およびガーデンパス文の自然記憶の測定を行った。 その結果,ChatGPTの評価と人間のパフォーマンスとの間に顕著な一致が認められた。 ChatGPTの内部メカニズムは人間の認知と大きく異なるが、ChatGPTによりより記憶しやすいと判断され評価された文は、確かに人間によって記憶されている。 同義語を用いた堅牢性チェックで確認されたこの発見は、人間のパフォーマンスを正確に予測する生成AIモデルの可能性を強調している。 心理学的理論の発展におけるLSMの活用と、人間の認知の理解を深めるために、これらの知見の広範な意味について論じる。

Large language models (LLMs) are demonstrating remarkable capabilities across various tasks despite lacking a foundation in human cognition. This raises the question: can these models, beyond simply mimicking human language patterns, offer insights into the mechanisms underlying human cognition? This study explores the ability of ChatGPT to predict human performance in a language-based memory task. Building upon theories of text comprehension, we hypothesize that recognizing ambiguous sentences (e.g., "Because Bill drinks wine is never kept in the house") is facilitated by preceding them with contextually relevant information. Participants, both human and ChatGPT, were presented with pairs of sentences. The second sentence was always a garden-path sentence designed to be inherently ambiguous, while the first sentence either provided a fitting (e.g., "Bill has chronic alcoholism") or an unfitting context (e.g., "Bill likes to play golf"). We measured both human's and ChatGPT's ratings of sentence relatedness, ChatGPT's memorability ratings for the garden-path sentences, and humans' spontaneous memory for the garden-path sentences. The results revealed a striking alignment between ChatGPT's assessments and human performance. Sentences deemed more related and assessed as being more memorable by ChatGPT were indeed better remembered by humans, even though ChatGPT's internal mechanisms likely differ significantly from human cognition. This finding, which was confirmed with a robustness check employing synonyms, underscores the potential of generative AI models to predict human performance accurately. We discuss the broader implications of these findings for leveraging LLMs in the development of psychological theories and for gaining a deeper understanding of human cognition.
翻訳日:2024-03-11 20:27:24 公開日:2024-03-08
# フォトニック結晶表面発光レーザの逆設計はシーケンスモデリング問題である

Inverse Design of Photonic Crystal Surface Emitting Lasers is a Sequence Modeling Problem ( http://arxiv.org/abs/2403.05149v1 )

ライセンス: Link先を確認
Ceyao Zhang, Renjie Li, Cheng Zhang, Zhaoyu Zhang, Feng Yin(参考訳) フォトニック結晶表面発光レーザー(pcsel)の逆設計は、物理学、材料科学、そして強制的に労働集約的な量子力学の専門知識を必要とする。 高度なAI技術、特に強化学習(RL)は、この逆設計プロセスを拡張し加速するための強力なツールとして登場した。 逐次決定問題としてのPCSELの逆設計をモデル化することにより、RLアプローチはスクラッチから良好なPCSEL構造を構築することができる。 しかし、正確で高価なシミュレーション環境とのオンラインインタラクションによるデータ非効率は、RLアプローチの適用性を妨げている。 近年、シーケンシャルモデル、特にトランスフォーマーアーキテクチャは、大規模言語モデルに対する単純さとスケーラビリティのため、シーケンシャルな意思決定問題において魅力的な性能を示している。 本稿では,PCSEL の逆設計をシーケンスモデリング問題として抽象化する PCSEL Inverse Design Transformer (PiT) という新しいフレームワークを提案する。 PiTの中心となる部分はTransformerベースの構造で、過去の軌跡と現在の状態を利用して現在の動作を予測する。 従来のRLアプローチと比較して、PiTは最適な動作を出力し、オフラインデータを活用することでターゲットPCSEL設計を実現する。 その結果,PiTはベースラインよりも優れた性能とデータ効率が得られることがわかった。

Photonic Crystal Surface Emitting Lasers (PCSEL)'s inverse design demands expert knowledge in physics, materials science, and quantum mechanics which is prohibitively labor-intensive. Advanced AI technologies, especially reinforcement learning (RL), have emerged as a powerful tool to augment and accelerate this inverse design process. By modeling the inverse design of PCSEL as a sequential decision-making problem, RL approaches can construct a satisfactory PCSEL structure from scratch. However, the data inefficiency resulting from online interactions with precise and expensive simulation environments impedes the broader applicability of RL approaches. Recently, sequential models, especially the Transformer architecture, have exhibited compelling performance in sequential decision-making problems due to their simplicity and scalability to large language models. In this paper, we introduce a novel framework named PCSEL Inverse Design Transformer (PiT) that abstracts the inverse design of PCSEL as a sequence modeling problem. The central part of our PiT is a Transformer-based structure that leverages the past trajectories and current states to predict the current actions. Compared with the traditional RL approaches, PiT can output the optimal actions and achieve target PCSEL designs by leveraging offline data and conditioning on the desired return. Results demonstrate that PiT achieves superior performance and data efficiency compared to baselines.
翻訳日:2024-03-11 20:26:56 公開日:2024-03-08
# 変分法による断熱量子計算のシミュレーション

Simulating adiabatic quantum computation with a variational approach ( http://arxiv.org/abs/2403.05147v1 )

ライセンス: Link先を確認
Giuseppe Carleo, Bela Bauer, Matthias Troyer(参考訳) Adiabatic Quantum Computation Protocolの理論解析は、古典的なリソース、大規模な量子デバイスのユニタリダイナミクスをシミュレーションすることの難しさから生じるいくつかの課題を提示する。 本稿では,様々な状況においてこの問題を実質的に緩和するための変分的アプローチを提案する。 本手法は時間依存変分モンテカルロ法と相関および時間依存ジャストロウ・アンサッツ法を組み合わせたものである。 本研究では, 1次元の動的相転移による欠陥生成の記述から, 完全連結およびキメラグラフ上のフラストレーションスピングラス問題の複雑な力学まで, 様々な問題において正確な結果が得られることを示した。

The theoretical analysis of the Adiabatic Quantum Computation protocol presents several challenges resulting from the difficulty of simulating, with classical resources, the unitary dynamics of a large quantum device. We present here a variational approach to substantially alleviate this problem in many situations of interest. Our approach is based on the time-dependent Variational Monte Carlo method, in conjunction with a correlated and time-dependent Jastrow ansatz. We demonstrate that accurate results can be obtained in a variety of problems, ranging from the description of defect generation through a dynamical phase transition in 1D to the complex dynamics of frustrated spin-glass problems both on fully-connected and Chimera graphs.
翻訳日:2024-03-11 20:26:35 公開日:2024-03-08
# 胃内視鏡の低コスト技術評価のためのモーションガイドデュアルカメラトラッカー

Motion-Guided Dual-Camera Tracker for Low-Cost Skill Evaluation of Gastric Endoscopy ( http://arxiv.org/abs/2403.05146v1 )

ライセンス: Link先を確認
Yuelin Zhang, Wanquan Yan, Kim Yan, Chun Ping Lam, Yufu Qiu, Pengyu Zheng, Raymond Shing-Yan Tang, Shing Shin Cheng(参考訳) 客観的な教育的フィードバックを持つ胃シミュレータは内視鏡訓練に有用であることが証明されている。 しかし、コストが高いため、既存の電子シミュレータは一般的には採用されていない。 本研究は, 内視鏡技術評価のための機械シミュレータ内で, 信頼性の高い内視鏡先端位置フィードバックを安価に提供するために, モーションガイド付きデュアルカメラトラッカを提案する。 デュアルカメラトラッキングの整合性を保ちながら内視鏡先端の顕著な外観変化に対処するため,デュアルカメラトラッキングに動的過渡的相互テンプレートを導入するために,クロスカメラ相互テンプレート戦略(CMT)を提案する。 内視鏡先端からの光源による大きな閉塞や歪みによる乱れを軽減するため、状態空間モデルでモデル化された歴史的動き情報を用いて、マンバベースの動き誘導予測ヘッド(MMH)を集約する。 提案したトラッカーは, 機械シミュレータ内での内視鏡観察において, 低コストカメラペアで得られたデータセットに基づいて評価した。 トラッカーはデュアルカメラ上で頑健で一貫したトラッキングでSOTA性能を達成する。 さらに下流評価により,提案したトラッカーによって決定される3次元先端位置が,信頼性の高い技術分化を可能にすることを示す。 コードとデータセットは受理時にリリースされる。

Gastric simulators with objective educational feedback have been proven useful for endoscopy training. Existing electronic simulators with feedback are however not commonly adopted due to their high cost. In this work, a motion-guided dual-camera tracker is proposed to provide reliable endoscope tip position feedback at a low cost inside a mechanical simulator for endoscopy skill evaluation, tackling several unique challenges. To address the issue of significant appearance variation of the endoscope tip while keeping dual-camera tracking consistency, the cross-camera mutual template strategy (CMT) is proposed to introduce dynamic transient mutual templates to dual-camera tracking. To alleviate disturbance from large occlusion and distortion by the light source from the endoscope tip, the Mamba-based motion-guided prediction head (MMH) is presented to aggregate visual tracking with historical motion information modeled by the state space model. The proposed tracker was evaluated on datasets captured by low-cost camera pairs during endoscopy procedures performed inside the mechanical simulator. The tracker achieves SOTA performance with robust and consistent tracking on dual cameras. Further downstream evaluation proves that the 3D tip position determined by the proposed tracker enables reliable skill differentiation. The code and dataset will be released upon acceptance.
翻訳日:2024-03-11 20:26:22 公開日:2024-03-08
# med3dinsight: 2次元マルチモーダル大言語モデルによる3次元医用画像理解の強化

Med3DInsight: Enhancing 3D Medical Image Understanding with 2D Multi-Modal Large Language Models ( http://arxiv.org/abs/2403.05141v1 )

ライセンス: Link先を確認
Qiuhui Chen, Huping Ye, Yi Hong(参考訳) 3次元医用画像の量を理解することは医療分野において重要な課題である。 しかし、既存の3D畳み込みとトランスフォーマーベースの手法は、画像ボリュームのセマンティックな理解が限られており、トレーニングには大量のボリュームを必要とする。 マルチモーダル大言語モデル(MLLM)の最近の進歩は、テキスト記述の助けを借りて画像を理解するための、新しくて有望な方法を提供する。 しかし、現在のMLLMのほとんどは2次元の自然画像のために設計されている。 2次元MLLMを用いた3次元医用画像理解を強化するために,既存の3次元画像エンコーダを2次元MLLMでマージし,設計したPSATモジュールを介してブリッジする,Med3DInsightという新しい事前学習フレームワークを提案する。 大規模な実験では,2つの下流セグメンテーションと分類タスクにおけるSOTAの性能を実証し,CTとMRIの3つの公開データセットと10以上のベースラインとの比較を行った。 med3dinsightは、現在の3d医療画像理解ネットワークに容易に統合でき、その性能を良いマージンで改善できる。

Understanding 3D medical image volumes is a critical task in the medical domain. However, existing 3D convolution and transformer-based methods have limited semantic understanding of an image volume and also need a large set of volumes for training. Recent advances in multi-modal large language models (MLLMs) provide a new and promising way to understand images with the help of text descriptions. However, most current MLLMs are designed for 2D natural images. To enhance the 3D medical image understanding with 2D MLLMs, we propose a novel pre-training framework called Med3DInsight, which marries existing 3D image encoders with 2D MLLMs and bridges them via a designed Plane-Slice-Aware Transformer (PSAT) module. Extensive experiments demonstrate our SOTA performance on two downstream segmentation and classification tasks, including three public datasets with CT and MRI modalities and comparison to more than ten baselines. Med3DInsight can be easily integrated into any current 3D medical image understanding network and improves its performance by a good margin.
翻訳日:2024-03-11 20:26:01 公開日:2024-03-08
# 仮想試行のための拡散モデルの改善

Improving Diffusion Models for Virtual Try-on ( http://arxiv.org/abs/2403.05139v1 )

ライセンス: Link先を確認
Yisol Choi, Sangkyung Kwak, Kyungmin Lee, Hyungwon Choi, Jinwoo Shin(参考訳) 本稿では, 被写体と被写体とをそれぞれ一対のイメージとして, 被写体を被写体とする画像ベースの仮想試着について考察する。 以前の研究は、他の方法(例えば、GANベース)と比べて生成した視覚の自然性を改善するために、仮想試行用に既存の模範的な塗布拡散モデルを適用したが、それらは衣服のアイデンティティを保たない。 この制限を克服するために,衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。 IDM-VTONと呼ばれる本手法では,2つの異なるモジュールを用いて衣料画像のセマンティクスを符号化する。 1)視覚エンコーダから抽出されたハイレベルな意味論を横断層に融合させた後 2) 並列UNetから抽出した低レベル特徴を自己保持層に融合させる。 さらに、生成した視覚の信頼性を高めるために、衣服画像と人物画像の両方に詳細なテキストプロンプトを提供する。 最後に,一対の人着画像を用いたカスタマイズ手法を提案する。 実験結果から,本手法は衣服の詳細保存や仮想試行画像の生成において,従来の手法(拡散法とGAN法の両方)より優れており,質的にも定量的にも優れていることがわかった。 さらに,提案手法は実世界シナリオにおいてその効果を示す。

This paper considers image-based virtual try-on, which renders an image of a person wearing a curated garment, given a pair of images depicting the person and the garment, respectively. Previous works adapt existing exemplar-based inpainting diffusion models for virtual try-on to improve the naturalness of the generated visuals compared to other methods (e.g., GAN-based), but they fail to preserve the identity of the garments. To overcome this limitation, we propose a novel diffusion model that improves garment fidelity and generates authentic virtual try-on images. Our method, coined IDM-VTON, uses two different modules to encode the semantics of garment image; given the base UNet of the diffusion model, 1) the high-level semantics extracted from a visual encoder are fused to the cross-attention layer, and then 2) the low-level features extracted from parallel UNet are fused to the self-attention layer. In addition, we provide detailed textual prompts for both garment and person images to enhance the authenticity of the generated visuals. Finally, we present a customization method using a pair of person-garment images, which significantly improves fidelity and authenticity. Our experimental results show that our method outperforms previous approaches (both diffusion-based and GAN-based) in preserving garment details and generating authentic virtual try-on images, both qualitatively and quantitatively. Furthermore, the proposed customization method demonstrates its effectiveness in a real-world scenario.
翻訳日:2024-03-11 20:25:42 公開日:2024-03-08
# グリーディ特徴選択:グリーディ手法による分類器依存特徴選択

Greedy feature selection: Classifier-dependent feature selection via greedy methods ( http://arxiv.org/abs/2403.05138v1 )

ライセンス: Link先を確認
Fabiana Camattari, Sabrina Guastavino, Francesco Marchetti, Michele Piana, Emma Perracchione(参考訳) 本研究の目的は,分類タスクにおける特徴のランク付けに新たなアプローチを導入することである。 統計的学習において、特徴選択は通常、その少ない特徴量を用いて予測を行うために適用される分類器とは独立な手法によって実現される。 代わりに、greedy機能選択は、選択された分類器に従って各ステップで最も重要な特徴を特定する。 本稿では,vapnik-chervonenkis(vc)次元やカーネルアライメントなどのモデル容量指標を用いて,その利点を理論的に検討し,活性太陽の地理的有効発現予測問題への応用を考察した。

The purpose of this study is to introduce a new approach to feature ranking for classification tasks, called in what follows greedy feature selection. In statistical learning, feature selection is usually realized by means of methods that are independent of the classifier applied to perform the prediction using that reduced number of features. Instead, greedy feature selection identifies the most important feature at each step and according to the selected classifier. In the paper, the benefits of such scheme are investigated theoretically in terms of model capacity indicators, such as the Vapnik-Chervonenkis (VC) dimension or the kernel alignment, and tested numerically by considering its application to the problem of predicting geo-effective manifestations of the active Sun.
翻訳日:2024-03-11 20:25:18 公開日:2024-03-08
# ELLA: セマンティックアライメント向上のためのLCMを用いたエクイップ拡散モデル

ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment ( http://arxiv.org/abs/2403.05135v1 )

ライセンス: Link先を確認
Xiwei Hu, Rui Wang, Yixiao Fang, Bin Fu, Pei Cheng, and Gang Yu(参考訳) 拡散モデルはテキスト・画像生成領域において顕著な性能を示した。 しかし、最も広く使われているモデルはテキストエンコーダとしてCLIPを使用しており、複数のオブジェクト、詳細な属性、複雑な関係、長いテキストアライメントなどを含む、密なプロンプトを理解する能力を制限している。 本稿では,U-Net や LLM を訓練せずにテキストアライメントを向上させるために,LLM (Large Language Models) とテキスト・ツー・イメージ拡散モデルを組み合わせた ELLA という高能率大言語モデルアダプタを提案する。 2つの事前学習されたモデルをシームレスにブリッジするために,セマンティクスアライメントコネクタの設計範囲を調査し,llmから時間ステップ依存条件を動的に抽出するtimestep-aware semantic connector(tsc)を提案する。 提案手法は, 分割過程の異なる段階における意味的特徴に適応し, サンプリング段階よりも長大かつ複雑なプロンプトを解釈する拡散モデルを支援する。 さらに、ELLAはコミュニティモデルやツールに簡単に組み込んで、プロンプトフォロー機能を改善することができる。 Dense Prompt Graph Benchmark (DPG-Bench) は、1Kの高密度プロンプトからなる挑戦的なベンチマークである。 特に多種多様な属性や関係性を含む複数の対象合成において, ELAの高密度化に対する優位性を示す実験を行った。

Diffusion models have demonstrated remarkable performance in the domain of text-to-image generation. However, most widely used models still employ CLIP as their text encoder, which constrains their ability to comprehend dense prompts, encompassing multiple objects, detailed attributes, complex relationships, long-text alignment, etc. In this paper, we introduce an Efficient Large Language Model Adapter, termed ELLA, which equips text-to-image diffusion models with powerful Large Language Models (LLM) to enhance text alignment without training of either U-Net or LLM. To seamlessly bridge two pre-trained models, we investigate a range of semantic alignment connector designs and propose a novel module, the Timestep-Aware Semantic Connector (TSC), which dynamically extracts timestep-dependent conditions from LLM. Our approach adapts semantic features at different stages of the denoising process, assisting diffusion models in interpreting lengthy and intricate prompts over sampling timesteps. Additionally, ELLA can be readily incorporated with community models and tools to improve their prompt-following capabilities. To assess text-to-image models in dense prompt following, we introduce Dense Prompt Graph Benchmark (DPG-Bench), a challenging benchmark consisting of 1K dense prompts. Extensive experiments demonstrate the superiority of ELLA in dense prompt following compared to state-of-the-art methods, particularly in multiple object compositions involving diverse attributes and relationships.
翻訳日:2024-03-11 20:25:03 公開日:2024-03-08
# メタバースの相互運用性:デジタル生態系の展望

Interoperability of the Metaverse: A Digital Ecosystem Perspective Review ( http://arxiv.org/abs/2403.05205v1 )

ライセンス: Link先を確認
Liang Yang, Shi-Ting Ni, Yuyang Wang, Ao Yu, Jyh-An Lee, Pan Hui(参考訳) メタバースは差し迫っているデジタル革命の先駆者であり、産業やライフスタイルを大きく変える可能性を秘めている。 しかし、2023年、産業と学術の分野に懐疑論が浮上し、興奮が実際の技術進歩を上回るのではないかという懸念が高まった。 インターオペラビリティはメタバースの潜在能力の大きな障壁として認識されており、この議論の中心となっている。 2023年2月のCoinMarketCapのレポートでは、240以上のメタバースイニシアチブが独立して存在し、相互運用性の課題を浮き彫りにした。 その重要な役割に関するコンセンサスにもかかわらず、メタバース、重要性、発達的範囲への影響を探求する研究のギャップがある。 本研究はこのギャップを体系的な文献レビューとweb of science(wos)とscopusデータベースのコンテンツ分析を通じて橋渡しし,厳格な選択プロセスを経て74の出版物を得た。 様々な状況と標準化の欠如のために定義が難しい相互運用性は、しばしばデジタルエコシステムと見なされるメタバースの中心である。 ハーバード大学ロースクールのUrs Gasserのフレームワークは、技術的、データ、人間的、制度的な次元を概説し、相互運用の複雑さに体系的に対処している。 このフレームワークを組み込んで、総合的なMetaverseインターオペラビリティ概要について文献を識別する。 本研究は,メタバース相互運用研究の複雑な分野をナビゲートし,学術的発展に寄与する,今後の調査のためのベンチマークを確立することを目的とする。

The Metaverse is at the vanguard of the impending digital revolution, with the potential to significantly transform industries and lifestyles. However, in 2023, skepticism surfaced within industrial and academic spheres, raising concerns that excitement may outpace actual technological progress. Interoperability, recognized as a major barrier to the Metaverse's full potential, is central to this debate. CoinMarketCap's report in February 2023 indicated that of over 240 metaverse initiatives, most existed in isolation, underscoring the interoperability challenge. Despite consensus on its critical role, there is a research gap in exploring the impact on the Metaverse, significance, and developmental extent. Our study bridges this gap via a systematic literature review and content analysis of the Web of Science (WoS) and Scopus databases, yielding 74 publications after a rigorous selection process. Interoperability, difficult to define due to varied contexts and lack of standardization, is central to the Metaverse, often seen as a digital ecosystem. Urs Gasser's framework from Harvard Law School, outlining technological, data, human, and institutional dimensions, systematically addresses interoperability complexities. Incorporating this framework, we dissect literature for a comprehensive Metaverse interoperability overview. Our study seeks to establish benchmarks for future inquiries, navigating the complex field of Metaverse interoperability studies and contributing to academic advancement.
翻訳日:2024-03-11 20:19:02 公開日:2024-03-08
# ジェネリックETH:マイクロカノニカルを超える固有状態熱化

Generic ETH: Eigenstate Thermalization beyond the Microcanonical ( http://arxiv.org/abs/2403.05197v1 )

ライセンス: Link先を確認
Elena C\'aceres, Stefan Eccles, Jason Pollack, Sarah Racz(参考訳) 固有状態熱化仮説(eth)は、近年の高エネルギー・凝縮物質コミュニティの発展において重要な役割を担っている。 これは、非平衡初期状態における孤立量子系が、熱平衡と区別できない状態へと進化し、観測可能なものは、従来の統計力学のアンサンブルを用いて記述できるほとんど時間に依存しない結果に緩和することができることを説明している。 本研究では、ETHの限界を探索し、いくつかの方向に原型応用の外部に押し出す。 保存された準局所電荷を持つクトリット格子系の設計を行い、一般化された固有状態熱化の形式を検証する。 また、電荷とエネルギーの両方のマイクロカノニカルウィンドウの外側の状態において熱化のサインを観察し、「ジェネリックETH」を疑う。 '

The Eigenstate Thermalization Hypothesis (ETH) has played a key role in recent advances in the high energy and condensed matter communities. It explains how an isolated quantum system in a far-from-equilibrium initial state can evolve to a state that is indistinguishable from thermal equilibrium, with observables relaxing to almost time-independent results that can be described using traditional statistical mechanics ensembles. In this work we probe the limits of ETH, pushing it outside its prototypical applications in several directions. We design a qutrit lattice system with conserved quasilocal charge, in which we verify a form of generalized eigenstate thermalization. We also observe signatures of thermalization in states well outside microcanonical windows of both charge and energy, which we dub `generic ETH.'
翻訳日:2024-03-11 20:18:33 公開日:2024-03-08
# 自己回帰表現学習の認知

Denoising Autoregressive Representation Learning ( http://arxiv.org/abs/2403.05196v1 )

ライセンス: Link先を確認
Yazhe Li, Jorg Bornschein, Ting Chen(参考訳) 本稿では,視覚表現学習のための新しい生成手法を提案する。 DARLはデコーダのみのトランスフォーマーを用いて,画像パッチの自動回帰予測を行う。 Mean Squared Error (MSE) によるトレーニングだけでも,強い表現につながることが分かっています。 画像生成能力を向上させるため,消音パッチデコーダを用いてmse損失を拡散目標に置き換える。 提案手法では, 適応型ノイズスケジュールを用いて学習表現を改良し, より大規模なモデルでより長い訓練を行えることを示す。 特に、最適なスケジュールは標準画像拡散モデルで使用される典型的なスケジュールと大きく異なる。 全体としては、単純なアーキテクチャにもかかわらず、DARLは微調整プロトコルの下で最先端のマスク付き予測モデルに近いパフォーマンスを提供する。 これは視覚知覚と生成の両方が可能な統一モデルへの重要な一歩であり、自己回帰拡散モデルの強みと消音拡散モデルの強みを効果的に組み合わせている。

In this paper, we explore a new generative approach for learning visual representations. Our method, DARL, employs a decoder-only Transformer to predict image patches autoregressively. We find that training with Mean Squared Error (MSE) alone leads to strong representations. To enhance the image generation ability, we replace the MSE loss with the diffusion objective by using a denoising patch decoder. We show that the learned representation can be improved by using tailored noise schedules and longer training in larger models. Notably, the optimal schedule differs significantly from the typical ones used in standard image diffusion models. Overall, despite its simple architecture, DARL delivers performance remarkably close to state-of-the-art masked prediction models under the fine-tuning protocol. This marks an important step towards a unified model capable of both visual perception and generation, effectively combining the strengths of autoregressive and denoising diffusion models.
翻訳日:2024-03-11 20:18:16 公開日:2024-03-08
# 多言語言語モデルにおけるファクトの根の追跡:独立的、共有的、伝達的知識

Tracing the Roots of Facts in Multilingual Language Models: Independent, Shared, and Transferred Knowledge ( http://arxiv.org/abs/2403.05189v1 )

ライセンス: Link先を確認
Xin Zhao, Naoki Yoshinaga, Daisuke Oba(参考訳) 低リソース言語における言語モデル(LM)の事実知識の獲得は、多言語LM(ML-LM)における言語間移動に頼り、深刻な課題となる。 本研究では,ML-LMが事実知識をいかに獲得し,表現するかを問う。 本研究では,ml-lms(特に多言語bert)のニューロン実験を行った。 そして、事実のルーツを知識ソース(Wikipedia)に遡り、ML-LMが特定の事実を取得する方法を特定した。 ML-LMにおける事実の獲得と表現のパターンを,言語非依存,言語間共有,移動の3つに分類した。 本研究は,ML-LMにおけるファクト表現学習の必要性を浮き彫りにして,言語間の一貫した事実知識を維持することの課題を強調した。

Acquiring factual knowledge for language models (LMs) in low-resource languages poses a serious challenge, thus resorting to cross-lingual transfer in multilingual LMs (ML-LMs). In this study, we ask how ML-LMs acquire and represent factual knowledge. Using the multilingual factual knowledge probing dataset, mLAMA, we first conducted a neuron investigation of ML-LMs (specifically, multilingual BERT). We then traced the roots of facts back to the knowledge source (Wikipedia) to identify the ways in which ML-LMs acquire specific facts. We finally identified three patterns of acquiring and representing facts in ML-LMs: language-independent, cross-lingual shared and transferred, and devised methods for differentiating them. Our findings highlight the challenge of maintaining consistent factual knowledge across languages, underscoring the need for better fact representation learning in ML-LMs.
翻訳日:2024-03-11 20:18:04 公開日:2024-03-08
# CommitBench: コミットメッセージ生成のためのベンチマーク

CommitBench: A Benchmark for Commit Message Generation ( http://arxiv.org/abs/2403.05188v1 )

ライセンス: Link先を確認
Maximilian Schall, Tamara Czinczoll, Gerard de Melo(参考訳) コミットメッセージを書くことは、多くのソフトウェア開発者にとって面倒な作業であり、しばしば無視される。 このタスクの自動化は、メッセージが通知されることを保証しながら、時間を節約する可能性がある。 高品質データセットと客観的ベンチマークは、この目標に向けてしっかりとした研究と評価のための重要な前提条件である。 既存のデータセットはコミット選択の品質、小さなサンプルサイズ、重複、プライバシの問題、再配布のためのライセンスの欠如など、さまざまな問題を示す。 これは、データ内のバイアスによって劣ったモデルがより高い評価スコアを達成する、使用不可能なモデルや歪んだ評価につながる可能性がある。 新しい大規模データセットであるCommitBenchをコンパイルし、データセット作成のベストプラクティスを採用しています。 私たちは、再配布を許可するライセンスを持つさまざまなプロジェクトからのコミットをサンプリングし、生成されたコミットメッセージの品質を改善するためにフィルタリングとデータセットの拡張を適用します。 私たちはCommitBenchを使って既存のモデルを比較し、他のアプローチがソースコードで事前訓練されたTransformerモデルよりも優れていることを示す。 ソースコードを公開することで、将来の研究を加速したいと考えています(https://github.com/Maxscha/commitbench )。

Writing commit messages is a tedious daily task for many software developers, and often remains neglected. Automating this task has the potential to save time while ensuring that messages are informative. A high-quality dataset and an objective benchmark are vital preconditions for solid research and evaluation towards this goal. We show that existing datasets exhibit various problems, such as the quality of the commit selection, small sample sizes, duplicates, privacy issues, and missing licenses for redistribution. This can lead to unusable models and skewed evaluations, where inferior models achieve higher evaluation scores due to biases in the data. We compile a new large-scale dataset, CommitBench, adopting best practices for dataset creation. We sample commits from diverse projects with licenses that permit redistribution and apply our filtering and dataset enhancements to improve the quality of generated commit messages. We use CommitBench to compare existing models and show that other approaches are outperformed by a Transformer model pretrained on source code. We hope to accelerate future research by publishing the source code( https://github.com/Maxscha/commitbench ).
翻訳日:2024-03-11 20:17:46 公開日:2024-03-08
# ROUGE-K:あなたのサマリーはキーワードを持っているか?

ROUGE-K: Do Your Summaries Have Keywords? ( http://arxiv.org/abs/2403.05186v1 )

ライセンス: Link先を確認
Sotaro Takeshita, Simone Paolo Ponzetto, Kai Eckert(参考訳) 要約中の内容関連単語は、効率的な情報伝達において重要な役割を担い、評価中にシステム生成要約がそのような情報伝達語を含むかどうかを評価することが重要である。 しかし、極端な要約モデルの既存の評価指標は、要約中のキーワードに明確な注意を払っておらず、開発者はその存在を知らないままである。 この問題に対処するために,キーワード指向評価指標 rouge-k を提示する。この指標は --\textit{how well do summaries include keywords? } このキーワード対応メトリックのレンズを通して、現在の強力なベースラインモデルは、サマリーにおいて重要な情報を見逃すことがしばしばあります。 解析の結果,人間のアノテータは,ソース文書とより関連性の高いキーワードを持つ要約を見つけることができた。 これは、要約システムの評価において、以前見過ごされていた重要な側面である。 最後に,キーワードの包含性を高めるために,単語重要度をトランスフォーマモデルに組み込むための4つの手法を提案する。 私たちのコードはhttps://github.com/sobamchan/rougekでリリースしています。

Keywords, that is, content-relevant words in summaries play an important role in efficient information conveyance, making it critical to assess if system-generated summaries contain such informative words during evaluation. However, existing evaluation metrics for extreme summarization models do not pay explicit attention to keywords in summaries, leaving developers ignorant of their presence. To address this issue, we present a keyword-oriented evaluation metric, dubbed ROUGE-K, which provides a quantitative answer to the question of -- \textit{How well do summaries include keywords?} Through the lens of this keyword-aware metric, we surprisingly find that a current strong baseline model often misses essential information in their summaries. Our analysis reveals that human annotators indeed find the summaries with more keywords to be more relevant to the source documents. This is an important yet previously overlooked aspect in evaluating summarization systems. Finally, to enhance keyword inclusion, we propose four approaches for incorporating word importance into a transformer-based model and experimentally show that it enables guiding models to include more keywords while keeping the overall quality. Our code is released at https://github.com/sobamchan/rougek.
翻訳日:2024-03-11 20:17:29 公開日:2024-03-08
# グラフニューラルネットワークによるSpotifyのパーソナライズされたオーディオブックレコメンデーション

Personalized Audiobook Recommendations at Spotify Through Graph Neural Networks ( http://arxiv.org/abs/2403.05185v1 )

ライセンス: Link先を確認
Marco De Nadai, Francesco Fabbri, Paul Gigioli, Alice Wang, Ang Li, Fabrizio Silvestri, Laura Kim, Shawn Lin, Vladan Radosavljevic, Sandeep Ghael, David Nyhan, Hugues Bouchard, Mounia Lalmas-Roelleke, Andreas Damianou(参考訳) 進化を続けるデジタルオーディオの世界の中で、音楽やトークのコンテンツで有名なspotifyは最近、膨大なユーザーベースにオーディオブックを導入した。 この動きは有望だが、パーソナライズドレコメンデーションには大きな課題がある。 音楽やポッドキャストとは異なり、オーディオブックは最初は有料で入手でき、購入前に簡単にスキミングすることはできず、レコメンデーションの妥当性を高く評価している。 さらに、既存のプラットフォームに新しいコンテンツタイプを導入すると、ほとんどのユーザーがこの新しいコンテンツタイプに慣れていないため、極端なデータスパーシティに直面する。 最後に、数百万のユーザにコンテンツを推奨するには、迅速に反応し、スケーラブルなモデルが必要です。 これらの課題に対処するために,ポッドキャストと音楽ユーザの好みを活用し,異種グラフニューラルネットワーク(HGNN)と2Tモデルを組み合わせたスケーラブルなレコメンデーションシステムである2T-HGNNを導入する。 この斬新なアプローチは、低レイテンシと複雑性を確保しながら、ニュアンスアイテムの関係を明らかにする。 我々は、ユーザをHGNNグラフから切り離し、革新的なマルチリンク隣りのサンプル手法を提案する。 これらの選択と2Tコンポーネントは、HGNNモデルの複雑さを著しく低減する。 数百万人のユーザによる経験的評価では、パーソナライズされたレコメンデーションの品質が大幅に向上し、新たなオーディオブックの開始レートが46%向上し、ストリーミングレートが23%向上した。 興味深いことに、私たちのモデルの影響はオーディオブックを超えて広がり、ポッドキャストのような確立された製品に利益をもたらします。

In the ever-evolving digital audio landscape, Spotify, well-known for its music and talk content, has recently introduced audiobooks to its vast user base. While promising, this move presents significant challenges for personalized recommendations. Unlike music and podcasts, audiobooks, initially available for a fee, cannot be easily skimmed before purchase, posing higher stakes for the relevance of recommendations. Furthermore, introducing a new content type into an existing platform confronts extreme data sparsity, as most users are unfamiliar with this new content type. Lastly, recommending content to millions of users requires the model to react fast and be scalable. To address these challenges, we leverage podcast and music user preferences and introduce 2T-HGNN, a scalable recommendation system comprising Heterogeneous Graph Neural Networks (HGNNs) and a Two Tower (2T) model. This novel approach uncovers nuanced item relationships while ensuring low latency and complexity. We decouple users from the HGNN graph and propose an innovative multi-link neighbor sampler. These choices, together with the 2T component, significantly reduce the complexity of the HGNN model. Empirical evaluations involving millions of users show significant improvement in the quality of personalized recommendations, resulting in a +46% increase in new audiobooks start rate and a +23% boost in streaming rates. Intriguingly, our model's impact extends beyond audiobooks, benefiting established products like podcasts.
翻訳日:2024-03-11 20:17:09 公開日:2024-03-08
# 対人スパース教師 : 対人例を用いた蒸留モデルステアリング攻撃に対する防御

Adversarial Sparse Teacher: Defense Against Distillation-Based Model Stealing Attacks Using Adversarial Examples ( http://arxiv.org/abs/2403.05181v1 )

ライセンス: Link先を確認
Eda Yilmaz and Hacer Yalim Keles(参考訳) 知識蒸留(KD)は、先進的な教師モデルからより単純な学生モデルへの識別能力を伝達し、精度を損なうことなく性能向上を図る。 また、敵がkdを使って教師モデルの機能を模倣するモデル盗み攻撃にも利用されている。 この領域の最近の発展は、スパースアウトプットが学生モデルの性能を著しく低下させることを示す経験的分析であるスティンギー教師モデルの影響を受けている。 知的財産漏洩のリスクに対処し,本研究は,教師概念の悪影響を生かして,そのロジットを内在的に保護する教師モデルの学習手法を提案する。 既存の方法と異なり, 生徒の蒸留に対する教師の防御を強化するために, 標準訓練データを用いて, 実例のスパースアウトプットを組み込んだ。 提案手法は, 原出力と逆摂動出力の相対エントロピーを慎重に低減し, 対向ロジットの生成が全体の性能に与える影響を最小限に抑える。 ソースコードはまもなく公開される予定だ。

Knowledge Distillation (KD) facilitates the transfer of discriminative capabilities from an advanced teacher model to a simpler student model, ensuring performance enhancement without compromising accuracy. It is also exploited for model stealing attacks, where adversaries use KD to mimic the functionality of a teacher model. Recent developments in this domain have been influenced by the Stingy Teacher model, which provided empirical analysis showing that sparse outputs can significantly degrade the performance of student models. Addressing the risk of intellectual property leakage, our work introduces an approach to train a teacher model that inherently protects its logits, influenced by the Nasty Teacher concept. Differing from existing methods, we incorporate sparse outputs of adversarial examples with standard training data to strengthen the teacher's defense against student distillation. Our approach carefully reduces the relative entropy between the original and adversarially perturbed outputs, allowing the model to produce adversarial logits with minimal impact on overall performance. The source codes will be made publicly available soon.
翻訳日:2024-03-11 20:16:45 公開日:2024-03-08
# 継続的な学習とカタストロフィックフォーミング

Continual Learning and Catastrophic Forgetting ( http://arxiv.org/abs/2403.05175v1 )

ライセンス: Link先を確認
Gido M. van de Ven, Nicholas Soures, Dhireesha Kudithipudi(参考訳) この章は、非定常的なデータストリームから漸進的に学習するプロセスである継続的学習のダイナミクスを掘り下げている。 連続学習は人間の脳にとって自然なスキルであるが、人工ニューラルネットワークでは非常に難しい。 重要な理由は、何か新しいことを学ぶとき、これらのネットワークは、それまで学んだことを素早く、そして劇的に忘れてしまう傾向があることだ。 特に過去10年間で、継続的な学習は深層学習において広範囲に研究されるトピックとなった。 本章は、この分野が生み出した洞察をレビューする。

This book chapter delves into the dynamics of continual learning, which is the process of incrementally learning from a non-stationary stream of data. Although continual learning is a natural skill for the human brain, it is very challenging for artificial neural networks. An important reason is that, when learning something new, these networks tend to quickly and drastically forget what they had learned before, a phenomenon known as catastrophic forgetting. Especially in the last decade, continual learning has become an extensively studied topic in deep learning. This book chapter reviews the insights that this field has generated.
翻訳日:2024-03-11 20:16:24 公開日:2024-03-08
# VTruST:Data-Centric Trustworthy AIのための制御可能な値関数に基づくサブセット選択

VTruST: Controllable value function based subset selection for Data-Centric Trustworthy AI ( http://arxiv.org/abs/2403.05174v1 )

ライセンス: Link先を確認
Soumi Das, Shubhadip Nag, Shreyyash Sharma, Suparna Bhattacharya, Sourangshu Bhattacharya(参考訳) 信頼に値するAIは、公正性、堅牢性、正確性を備えた高度なアプリケーションにAIを広く採用するために不可欠である。 本研究では,データ中心型信頼度AI(DCTAI)-VTruSTのための制御可能なフレームワークを提案する。 効率的なDCTAIフレームワークを実装する上で重要な課題は、オンライン価値関数ベースのトレーニングデータサブセット選択アルゴリズムを設計することである。 オンラインスパース近似定式化として,学習データ評価とサブセット選択問題を提案する。 そこで我々は,この問題を解決するために,Orthogonal Matching Pursuit (OMP)アルゴリズムのオンライン版を提案する。 実験の結果、VTruSTは社会的、画像的、科学的データセットの最先端のベースラインを上回っていることがわかった。 また、VTruSTが生成したデータ値が、信頼性の異なるメトリクスに対して効果的なデータ中心の説明を提供することを示す。

Trustworthy AI is crucial to the widespread adoption of AI in high-stakes applications with fairness, robustness, and accuracy being some of the key trustworthiness metrics. In this work, we propose a controllable framework for data-centric trustworthy AI (DCTAI)- VTruST, that allows users to control the trade-offs between the different trustworthiness metrics of the constructed training datasets. A key challenge in implementing an efficient DCTAI framework is to design an online value-function-based training data subset selection algorithm. We pose the training data valuation and subset selection problem as an online sparse approximation formulation. We propose a novel online version of the Orthogonal Matching Pursuit (OMP) algorithm for solving this problem. Experimental results show that VTruST outperforms the state-of-the-art baselines on social, image, and scientific datasets. We also show that the data values generated by VTruST can provide effective data-centric explanations for different trustworthiness metrics.
翻訳日:2024-03-11 20:16:16 公開日:2024-03-08
# 顔偽造検出のための表現的・一般化可能な動作特徴の学習

Learning Expressive And Generalizable Motion Features For Face Forgery Detection ( http://arxiv.org/abs/2403.05172v1 )

ライセンス: Link先を確認
Jingyi Zhang, Peng Zhang, Jingjing Wang, Di Xie, Shiliang Pu(参考訳) 以前の顔偽造検出法は主に外観の特徴に焦点を合わせており、高度な操作で容易に攻撃できる。 フレームの整合性や調整を考慮に入れない単一フレームに基づく偽の顔を生成する現在の顔操作手法の大部分は、フレームシーケンス上のアーティファクトの方が、顔偽造検出に有効である。 しかし、現在のシーケンスに基づく顔偽造検出手法では、顔操作検出のための特殊および識別動作情報を破棄する一般的なビデオ分類ネットワークを直接使用する。 そこで本研究では,既存のビデオ分類手法に基づくシーケンスに基づく効果的な偽造検出フレームワークを提案する。 動作特徴を操作検出により表現力を持たせるために,元のモーション特徴モジュールではなく,別の動作一貫性ブロックを提案する。 学習した特徴をより一般化するために,補助的異常検出ブロックを提案する。 これら2つの特別に設計された改良により、一般的なビデオ分類ネットワークは3つの顔偽造データセットに対して有望な結果が得られる。

Previous face forgery detection methods mainly focus on appearance features, which may be easily attacked by sophisticated manipulation. Considering the majority of current face manipulation methods generate fake faces based on a single frame, which do not take frame consistency and coordination into consideration, artifacts on frame sequences are more effective for face forgery detection. However, current sequence-based face forgery detection methods use general video classification networks directly, which discard the special and discriminative motion information for face manipulation detection. To this end, we propose an effective sequence-based forgery detection framework based on an existing video classification method. To make the motion features more expressive for manipulation detection, we propose an alternative motion consistency block instead of the original motion features module. To make the learned features more generalizable, we propose an auxiliary anomaly detection block. With these two specially designed improvements, we make a general video classification network achieve promising results on three popular face forgery datasets.
翻訳日:2024-03-11 20:16:00 公開日:2024-03-08
# 軽量不確実性推定による逆最適化の克服

Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation ( http://arxiv.org/abs/2403.05171v1 )

ライセンス: Link先を確認
Xiaoying Zhang, Jean-Francois Ton, Wei Shen, Hongning Wang, Yang Liu(参考訳) 本稿では,大規模言語モデル(llm)のための人的フィードバック(rlhf)からの強化学習における報酬過剰最適化問題に対する新しい解決法であるadvpoを提案する。 過度な最適化は、報酬モデルが人間の嗜好の不完全なプロキシとして機能し、RL駆動のポリシー最適化が誤って報酬の不正確さを利用する場合に発生する。 本稿では,報酬モデルの最終層埋め込みのみに依存して,計算量的に高価な報酬アンサンブルを必要とせず,報酬の不確かさを定量化する軽量な方法を導入することから始める。 AdvPOは、政策改善のための報酬モデルの予測の信頼区間を中心とする分布的に堅牢な最適化問題に対処する。 人類のHHとTL;DRの要約データセットに関する総合的な実験を通じて、過最適化問題を緩和するAdvPOの有効性を説明し、その結果、人間による評価により性能が向上した。

We introduce Adversarial Policy Optimization (AdvPO), a novel solution to the pervasive issue of reward over-optimization in Reinforcement Learning from Human Feedback (RLHF) for Large Language Models (LLMs). Over-optimization occurs when a reward model serves as an imperfect proxy for human preference, and RL-driven policy optimization erroneously exploits reward inaccuracies. In this paper, we begin by introducing a lightweight way to quantify uncertainties in rewards, relying solely on the last layer embeddings of the reward model, without the need for computationally expensive reward ensembles. AdvPO then addresses a distributionally robust optimization problem centred around the confidence interval of the reward model's predictions for policy improvement. Through comprehensive experiments on the Anthropic HH and TL;DR summarization datasets, we illustrate the efficacy of AdvPO in mitigating the overoptimization issue, consequently resulting in enhanced performance as evaluated through human-assisted evaluation.
翻訳日:2024-03-11 20:15:45 公開日:2024-03-08
# DiffuLT: 長距離認識に拡散モデルを利用する方法

DiffuLT: How to Make Diffusion Model Useful for Long-tail Recognition ( http://arxiv.org/abs/2403.05170v1 )

ライセンス: Link先を確認
Jie Shao and Ke Zhu and Hanxiao Zhang and Jianxin Wu(参考訳) 本稿では,Long-tail(LT)認識のための新しいパイプラインを提案する。 再重み付けや再サンプリングの代わりに、長い尾のデータセット自体を使用して、クロスエントロピー(CE)を通じて最適化可能なバランスの取れたプロキシを生成します。 具体的には、ロングテールデータセットのみにトレーニングされたランダム初期化拡散モデルを用いて、未表示クラスのための新しいサンプルを合成する。 そして、元のデータセットに固有の情報を用いて有害なサンプルをフィルタリングし、有用なサンプルを保持する。 我々の戦略であるDiffusion model for Long-Tail Recognition (DiffuLT) は、ロングテール認識における生成モデルの先駆的活用である。 DiffuLTは、CIFAR10-LT、CIFAR100-LT、ImageNet-LTの最先端の成果を達成し、非自明なマージンを持つ最高の競争相手を上回っている。 過剰なアブレーションはパイプラインの解釈にも役立ちます 生成パイプライン全体は外部データや事前トレーニングされたモデルウェイトを使わずに実行され、現実世界の長期設定に非常に一般化できる。

This paper proposes a new pipeline for long-tail (LT) recognition. Instead of re-weighting or re-sampling, we utilize the long-tailed dataset itself to generate a balanced proxy that can be optimized through cross-entropy (CE). Specifically, a randomly initialized diffusion model, trained exclusively on the long-tailed dataset, is employed to synthesize new samples for underrepresented classes. Then, we utilize the inherent information in the original dataset to filter out harmful samples and keep the useful ones. Our strategy, Diffusion model for Long-Tail recognition (DiffuLT), represents a pioneering utilization of generative models in long-tail recognition. DiffuLT achieves state-of-the-art results on CIFAR10-LT, CIFAR100-LT, and ImageNet-LT, surpassing the best competitors with non-trivial margins. Abundant ablations make our pipeline interpretable, too. The whole generation pipeline is done without any external data or pre-trained model weights, making it highly generalizable to real-world long-tailed settings.
翻訳日:2024-03-11 20:15:30 公開日:2024-03-08
# 学習自由コードブック最適化と階層的アライメントによるマルチモーダル統一離散表現の可能性

Unlocking the Potential of Multimodal Unified Discrete Representation through Training-Free Codebook Optimization and Hierarchical Alignment ( http://arxiv.org/abs/2403.05168v1 )

ライセンス: Link先を確認
Hai Huang, Yan Xia, Shengpeng Ji, Shulei Wang, Hanting Wang, Jieming Zhu, Zhenhua Dong, Zhou Zhao(参考訳) 近年の表現学習の進歩は多モーダルアライメントの重要性を示している。 統合されたコードブックを用いたDual Cross-modal Information Disentanglement (DCID)モデルでは,粒度表現とクロスモーダル一般化が期待できる結果を示した。 しかし、全てのチャネルを平等に扱い、小さなイベント情報を無視することで、無関係なチャネルからの干渉と細かなタスクのパフォーマンスの制限が依然として妨げられている。 そこで本研究では,統一空間における重要なチャネルを再学習せずに選択することで,モデル性能を向上させるためのトレーニングフリーなコードブック最適化手法を提案する。 さらに,H-DCID(Hierarchical Dual Cross-modal Information Disentanglement)アプローチを導入して,情報分離とアライメントを2レベルに拡張し,よりクロスモーダルな詳細をキャプチャする。 TOCは4つのタスクにおけるDCIDの平均1.70%の改善に寄与し、H-DCIDはDCIDを平均3.64%上回った。 TOCとH-DCIDの組み合わせによりさらに性能が向上し、DCIDの4.43%を超える。 これらの知見は, 頑健かつニュアンスなクロスモーダル学習の促進, 今後の発展への道を開く上での手法の有効性を浮き彫りにしている。 ソースコードと事前訓練されたモデルはhttps://github.com/haihuangcode/TOC_H-DCIDでアクセスできる。

Recent advances in representation learning have demonstrated the significance of multimodal alignment. The Dual Cross-modal Information Disentanglement (DCID) model, utilizing a unified codebook, shows promising results in achieving fine-grained representation and cross-modal generalization. However, it is still hindered by equal treatment of all channels and neglect of minor event information, resulting in interference from irrelevant channels and limited performance in fine-grained tasks. Thus, in this work, We propose a Training-free Optimization of Codebook (TOC) method to enhance model performance by selecting important channels in the unified space without retraining. Additionally, we introduce the Hierarchical Dual Cross-modal Information Disentanglement (H-DCID) approach to extend information separation and alignment to two levels, capturing more cross-modal details. The experiment results demonstrate significant improvements across various downstream tasks, with TOC contributing to an average improvement of 1.70% for DCID on four tasks, and H-DCID surpassing DCID by an average of 3.64%. The combination of TOC and H-DCID further enhances performance, exceeding DCID by 4.43%. These findings highlight the effectiveness of our methods in facilitating robust and nuanced cross-modal learning, opening avenues for future enhancements. The source code and pre-trained models can be accessed at https://github.com/haihuangcode/TOC_H-DCID.
翻訳日:2024-03-11 20:15:11 公開日:2024-03-08
# 量子相関における画像の隠蔽

Hiding images in quantum correlations ( http://arxiv.org/abs/2403.05166v1 )

ライセンス: Link先を確認
Chlo\'e Verni\`ere, Hugo Defienne(参考訳) 自然パラメトリックダウン変換における光子対相関は量子フォトニクスにおいてユビキタスである。 特定のタスクを最適化するためにプロパティを設計する能力は不可欠だが、実際は難しいことが多い。 任意の振幅と位相オブジェクトの形で、絡み合った光子間の空間相関の形状を示す。 これにより,2つの相関関係内の画像情報を符号化し,従来の強度測定では検出不能となる。 これは光子の量子相関を利用して複雑な高次元情報の伝送を可能にし、量子通信やイメージングプロトコルの開発に有用である。

Photon-pair correlations in spontaneous parametric down conversion are ubiquitous in quantum photonics. The ability to engineer their properties for optimising a specific task is essential, but often challenging in practice. We demonstrate the shaping of spatial correlations between entangled photons in the form of arbitrary amplitude and phase objects. By doing this, we encode image information within the pair correlations, making it undetectable by conventional intensity measurements. It enables the transmission of complex, high-dimensional information using quantum correlations of photons, which can be useful for developing quantum communication and imaging protocols.
翻訳日:2024-03-11 20:14:44 公開日:2024-03-08
# 対角対称部分空間における多部交絡

Multipartite entanglement in the diagonal symmetric subspace ( http://arxiv.org/abs/2403.05244v1 )

ライセンス: Link先を確認
Jordi Romero-Pallej\`a, Jennifer Ahiable, Alessandro Romancino, Carlo Marconi and Anna Sanpera(参考訳) n$-partite $d$-dimensional systems (qudits) の対称部分空間における絡み合い特性について検討した。 対角対称状態に対しては、$d = 3,4 $ および $N = 3$ の有界絡みがないことを示す。 さらに、クアディットの多部対角対称状態をより大きい局所次元の双部対角対称状態にマッピングする構成的アルゴリズムを提案する。 この手法は多角形状態の解析を大幅に単純化し、二角形対称状態から生じるPT条件が多角形対称状態に現れるのと同じPT条件と一致するという事実から、任意の$N \geq 4 $の絡み合い特性を推論することができる。

We investigate the entanglement properties in the symmetric subspace of $N$-partite $d$-dimensional systems (qudits). For diagonal symmetric states, we show that there is no bound entanglement for $d = 3,4 $ and $N = 3$. Further, we present a constructive algorithm to map multipartite diagonal symmetric states of qudits onto bipartite symmetric states of larger local dimension. This technique greatly simplifies the analysis of multipartite states and allows to infer entanglement properties for any even $N \geq 4 $ due to the fact that the PPT conditions that arise from the bipartite symmetric state correspond to the same PPT conditions that appear in the multipartite diagonal symmetric state.
翻訳日:2024-03-11 20:12:05 公開日:2024-03-08
# テキストベース画像生成のための拡散モデルにおける人間中心の事前利用に向けて

Towards Effective Usage of Human-Centric Priors in Diffusion Models for Text-based Human Image Generation ( http://arxiv.org/abs/2403.05239v1 )

ライセンス: Link先を確認
Junyan Wang, Zhenhong Sun, Zhiyu Tan, Xuanbai Chen, Weihua Chen, Hao Li, Cheng Zhang, Yang Song(参考訳) バニラのテキストと画像の拡散モデルは、正確な人間の画像を生成するのに苦労し、通常、不自然な姿勢や不均等な手足のような不完全な解剖を引き起こす。既存の方法は、画像の追加や、ポーズや深度マップのような人間中心の事前制御を追加することで、この問題に対処する。 本稿では、これらの人間中心の先行概念をモデル微調整段階に直接統合し、推論段階における余分な条件の必要性を排除した。 我々は,人間中心のアライメント損失を提案すれば,クロスアテンションマップ内の文章的プロンプトから人間関連情報を強化することができる。 微調整中のセマンティックディテールの豊かさと人間の構造的精度を確保するため,クロスアテンション層の詳細な分析により,拡散過程におけるスケールアウェアとステップワイドの制約を導入する。 広汎な実験により,ユーザによるプロンプトに基づく高品質な人体画像の合成において,最先端のテキスト画像モデルよりも大幅に改善されていることがわかった。 プロジェクトページ: \url{https://hcplayercvpr2024.github.io}

Vanilla text-to-image diffusion models struggle with generating accurate human images, commonly resulting in imperfect anatomies such as unnatural postures or disproportionate limbs.Existing methods address this issue mostly by fine-tuning the model with extra images or adding additional controls -- human-centric priors such as pose or depth maps -- during the image generation phase. This paper explores the integration of these human-centric priors directly into the model fine-tuning stage, essentially eliminating the need for extra conditions at the inference stage. We realize this idea by proposing a human-centric alignment loss to strengthen human-related information from the textual prompts within the cross-attention maps. To ensure semantic detail richness and human structural accuracy during fine-tuning, we introduce scale-aware and step-wise constraints within the diffusion process, according to an in-depth analysis of the cross-attention layer. Extensive experiments show that our method largely improves over state-of-the-art text-to-image models to synthesize high-quality human images based on user-written prompts. Project page: \url{https://hcplayercvpr2024.github.io}.
翻訳日:2024-03-11 20:11:53 公開日:2024-03-08
# 医療における信頼できる機械学習のためのフェアネス・アウェア・インタプリタブル・モデリング(FAIM)

Fairness-Aware Interpretable Modeling (FAIM) for Trustworthy Machine Learning in Healthcare ( http://arxiv.org/abs/2403.05235v1 )

ライセンス: Link先を確認
Mingxuan Liu, Yilin Ning, Yuhe Ke, Yuqing Shang, Bibhas Chakraborty, Marcus Eng Hock Ong, Roger Vaughan, Nan Liu(参考訳) 医療などの高リスク分野における機械学習のさらなる統合は、モデルの公平性に関する大きな懸念を引き起こす。 本稿では,高パフォーマンスモデルから「フェアラー」モデルを識別するための対話インタフェースと,文脈に応じたフェアネスを高めるためのデータ駆動型エビデンスと臨床専門知識の統合を促進するための,モデルフェアネスを改善するための解釈可能なフレームワークであるFAIMを提案する。 FAIMは,MIMIC-IV-EDとSGH-EDの2つの実世界データベースを用いて入院を予測し,性差と人種バイアスの低減に有用であることを示した。 両データセットにおいて, FAIMモデルは, 良好な識別性能を示すだけでなく, 確立された公正度測定値によって測定されたバイアスを著しく低減し, 一般的に使用されているバイアス緩和法よりも優れていた。 提案手法は,パフォーマンスを犠牲にすることなく公正性向上の実現可能性を示し,ドメインエキスパートの参加を促すモデリングモードを提供する。

The escalating integration of machine learning in high-stakes fields such as healthcare raises substantial concerns about model fairness. We propose an interpretable framework - Fairness-Aware Interpretable Modeling (FAIM), to improve model fairness without compromising performance, featuring an interactive interface to identify a "fairer" model from a set of high-performing models and promoting the integration of data-driven evidence and clinical expertise to enhance contextualized fairness. We demonstrated FAIM's value in reducing sex and race biases by predicting hospital admission with two real-world databases, MIMIC-IV-ED and SGH-ED. We show that for both datasets, FAIM models not only exhibited satisfactory discriminatory performance but also significantly mitigated biases as measured by well-established fairness metrics, outperforming commonly used bias-mitigation methods. Our approach demonstrates the feasibility of improving fairness without sacrificing performance and provides an a modeling mode that invites domain experts to engage, fostering a multidisciplinary effort toward tailored AI fairness.
翻訳日:2024-03-11 20:11:15 公開日:2024-03-08
# マイクロアクション認識のベンチマーク:データセット、方法、および応用

Benchmarking Micro-action Recognition: Dataset, Methods, and Applications ( http://arxiv.org/abs/2403.05234v1 )

ライセンス: Link先を確認
Dan Guo, Kun Li, Bin Hu, Yan Zhang, Meng Wang(参考訳) マイクロアクション(Micro-action)は、低強度運動を特徴とする非言語行動である。 個人の感情や意図に関する洞察を与え、感情認識や心理評価といった人間指向の応用に重要である。 しかし、マイクロアクションの識別、分化、理解は、日常生活におけるこれらの微妙な人間の行動の知覚不能で到達不能な性質のために問題となる。 本研究では、マイクロアクション52(MA-52)と呼ばれる新しいマイクロアクションデータセットを革新的に収集し、マイクロアクション認識(MAR)タスクのためのマイクロアクションネットワーク(MANet)というベンチマークを提案する。 MA-52は、ジェスチャー、上肢と下肢の動きを含む全身的な視点を提供し、包括的なマイクロアクションの手がかりを明らかにする。 詳しくは、ma-52には、52のマイクロアクションカテゴリと7つのボディパートラベルが含まれており、205人の参加者と22,422のビデオインスタンスが心理的インタビューから照合されている。 提案するデータセットに基づいて,マネットおよび他の9種類の行動認識手法を評価する。 MANetは、マイクロアクションの時空間特性をモデル化するためのResNetアーキテクチャに、SEとTSMを組み込んでいる。 次に、ビデオラベルとアクションラベルのセマンティックマッチングのためにジョイントエンベディングロスが設計され、その損失は視覚的に類似するが、異なるマイクロアクションカテゴリを区別するために使用される。 感情認識における拡張応用は,提案するデータセットと手法の重要な値の一つであることを示す。 将来的には、人間の行動、感情、心理的評価のさらなる探究が深く行われる。 データセットとソースコードはhttps://github.com/VUT-HFUT/Micro-Actionで公開されている。

Micro-action is an imperceptible non-verbal behaviour characterised by low-intensity movement. It offers insights into the feelings and intentions of individuals and is important for human-oriented applications such as emotion recognition and psychological assessment. However, the identification, differentiation, and understanding of micro-actions pose challenges due to the imperceptible and inaccessible nature of these subtle human behaviors in everyday life. In this study, we innovatively collect a new micro-action dataset designated as Micro-action-52 (MA-52), and propose a benchmark named micro-action network (MANet) for micro-action recognition (MAR) task. Uniquely, MA-52 provides the whole-body perspective including gestures, upper- and lower-limb movements, attempting to reveal comprehensive micro-action cues. In detail, MA-52 contains 52 micro-action categories along with seven body part labels, and encompasses a full array of realistic and natural micro-actions, accounting for 205 participants and 22,422 video instances collated from the psychological interviews. Based on the proposed dataset, we assess MANet and other nine prevalent action recognition methods. MANet incorporates squeeze-and excitation (SE) and temporal shift module (TSM) into the ResNet architecture for modeling the spatiotemporal characteristics of micro-actions. Then a joint-embedding loss is designed for semantic matching between video and action labels; the loss is used to better distinguish between visually similar yet distinct micro-action categories. The extended application in emotion recognition has demonstrated one of the important values of our proposed dataset and method. In the future, further exploration of human behaviour, emotion, and psychological assessment will be conducted in depth. The dataset and source code are released at https://github.com/VUT-HFUT/Micro-Action.
翻訳日:2024-03-11 20:10:41 公開日:2024-03-08
# TrackingがLoRAを発表 - 高速トレーニング,大規模モデル,パフォーマンス向上

Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance ( http://arxiv.org/abs/2403.05231v1 )

ライセンス: Link先を確認
Liting Lin, Heng Fan, Zhipeng Zhang, Yaowei Wang, Yong Xu, Haibin Ling(参考訳) 大規模言語モデルにおけるパラメータ・エフェクト・ファインタニング(PEFT)の動機付けにより,実験室レベルの資源をトラッキングするための大きなビジョン変換器(ViT)のパワーを明らかにする手法であるLoRATを提案する。 私たちの作業の本質は、推論遅延を追加することなく、モデルパラメータの小さなサブセットを視覚的なトラッキング領域に微調整するテクニックであるLoRAを適用することです。 しかし、ユニークな課題と潜在的なドメインギャップにより、この変換は最初の直観ほど簡単ではない。 まず、変換器ベースのトラッカーがテンプレートと検索画像の非共有位置埋め込みを構成する。 これはLoRAをダウンストリームタスクに、トレーニング済みのバックボーンに適用する場合、設計上の一貫性を必要とするという問題を引き起こす。 第二に、畳み込みヘッドに固有の誘導バイアスは、追跡モデルにおけるパラメータ効率の良い微調整の有効性を低下させる。 これらの制約を克服するために、まずトランスフォーマーベースのトラッカーにおける位置埋め込みを共有空間と独立型に分離する。 多解像度画像(すなわちテンプレートと検索画像)の絶対座標を記述する共有埋め込みは、事前学習されたバックボーンから継承される。 対照的に、独立した埋め込みは各トークンのソースを示し、スクラッチから学習される。 さらに,多層パーセプトロン(mlp)のみに基づくアンカーフリーヘッドの設計を行い,petrを適応させ,計算オーバーヘッドを低減した高性能化を実現する。 私たちのデザインで 1) メモリが25.8GB(バッチサイズ16)のGPU上でViT-gバックボーンでトラッカーを訓練することは現実的になる。 2) L-224 の訓練時間を 35.0 から 10.8 GPU に短縮する。 3) L-224 変種を用いて LaSOT SUC スコアを 0.703 から 0.743 に改善する。 4) l-224の推論速度を52fpsから119fpsに高速化した。 コードとモデルはリリースされる。

Motivated by the Parameter-Efficient Fine-Tuning (PEFT) in large language models, we propose LoRAT, a method that unveils the power of larger Vision Transformers (ViT) for tracking within laboratory-level resources. The essence of our work lies in adapting LoRA, a technique that fine-tunes a small subset of model parameters without adding inference latency, to the domain of visual tracking. However, unique challenges and potential domain gaps make this transfer not as easy as the first intuition. Firstly, a transformer-based tracker constructs unshared position embedding for template and search image. This poses a challenge for the transfer of LoRA, usually requiring consistency in the design when applied to the pre-trained backbone, to downstream tasks. Secondly, the inductive bias inherent in convolutional heads diminishes the effectiveness of parameter-efficient fine-tuning in tracking models. To overcome these limitations, we first decouple the position embeddings in transformer-based trackers into shared spatial ones and independent type ones. The shared embeddings, which describe the absolute coordinates of multi-resolution images (namely, the template and search images), are inherited from the pre-trained backbones. In contrast, the independent embeddings indicate the sources of each token and are learned from scratch. Furthermore, we design an anchor-free head solely based on a multilayer perceptron (MLP) to adapt PETR, enabling better performance with less computational overhead. With our design, 1) it becomes practical to train trackers with the ViT-g backbone on GPUs with only memory of 25.8GB (batch size of 16); 2) we reduce the training time of the L-224 variant from 35.0 to 10.8 GPU hours; 3) we improve the LaSOT SUC score from 0.703 to 0.743 with the L-224 variant; 4) we fast the inference speed of the L-224 variant from 52 to 119 FPS. Code and models will be released.
翻訳日:2024-03-11 20:09:55 公開日:2024-03-08
# Kochen-Specker集合の最大非Kochen-Specker集合とKochen-Specker集合のサイズ上の下界

Maximal Non-Kochen-Specker Sets and a Lower Bound on the Size of Kochen-Specker Sets ( http://arxiv.org/abs/2403.05230v1 )

ライセンス: Link先を確認
Tom Williams and Andrei Constantin(参考訳) Kochen-Specker (KS) 集合は、2次元球面上のベクトルの有限集合であり、0 と 1 を割り当てることは不可能であり、2つの直交ベクトルが 1 に割り当てられず、互いに直交ベクトルのすべての三重項のちょうど1つのベクトルが 1 に割り当てられる。 KS集合の存在は、コッチェンとスペクターの非文脈的隠れ変数理論とコンウェイ=コッチェン自由意志定理に対する議論の中心にある。 小さなKS集合を同定することはこれらの議論を単純化し、量子プロトコルにおける文脈性によって引き起こされる役割の理解に寄与する。 本稿では、KS集合のグラフ構造に依存しない確率論を用いて、大きな非KS集合の反対の概念を研究することにより、任意のKS集合のサイズに対する10ベクトルの弱い下界を導出する。 また、2つの球面上の直角廊下のまわりの移動ソファー問題の一般化と興味深い関係を指摘する。

A Kochen-Specker (KS) set is a finite collection of vectors on the two-sphere containing no antipodal pairs for which it is impossible to assign 0s and 1s such that no two orthogonal vectors are assigned 1 and exactly one vector in every triplet of mutually orthogonal vectors is assigned 1. The existence of KS sets lies at the heart of Kochen and Specker's argument against non-contextual hidden variable theories and the Conway-Kochen free will theorem. Identifying small KS sets can simplify these arguments and may contribute to the understanding of the role played by contextuality in quantum protocols. In this paper we derive a weak lower bound of 10 vectors for the size of any KS set by studying the opposite notion of large non-KS sets and using a probability argument that is independent of the graph structure of KS sets. We also point out an interesting connection with a generalisation of the moving sofa problem around a right-angled hallway on the two-sphere.
翻訳日:2024-03-11 20:08:51 公開日:2024-03-08
# 不均質な実世界サバイバルデータを用いたフェデレート時間対イベントスコアの開発

Developing Federated Time-to-Event Scores Using Heterogeneous Real-World Survival Data ( http://arxiv.org/abs/2403.05229v1 )

ライセンス: Link先を確認
Siqi Li, Yuqing Shang, Ziwen Wang, Qiming Wu, Chuan Hong, Yilin Ning, Di Miao, Marcus Eng Hock Ong, Bibhas Chakraborty, Nan Liu(参考訳) 生存分析は、患者の特定の出来事(特定の疾患や死亡の発症など)への時間の決定が臨床意思決定に不可欠である、多くの医療応用において基本的な要素として機能する。 スコーリングシステムは、迅速かつ効率的なリスク予測に広く利用されている。 しかし、サバイバルスコアを構築する既存の方法は、データが単一のソースに由来することを前提としており、複数のデータ所有者とのコラボレーションにおいてプライバシの課題となる。 本稿では,多地点生存のための統合スコアリングシステムを構築するための新しいフレームワークを提案し,プライバシーと通信効率の両立を図っている。 シンガポールと米国の救急部門から得られた異種生存データを用いた地点にアプローチを適用した。 また,各サイトの局所スコアを独自に開発した。 各参加者のサイトからデータセットをテストする際、提案するフェデレーションスコアリングシステムは、受信者動作特性曲線(iauc)値の下の高集積領域で証明され、最大で11.6%改善した。 さらに, フェデレーションスコアの時間依存性AUC(t)値は, 局部スコアよりも有意であり, 多くの時間ポイントにおいてより狭い信頼区間(CI)を示した。 提案手法により開発されたモデルは,各地域において有効なパフォーマンスを示し,医療研究の意義を示す。 提案するフェデレーションスコアリングモデルトレーニングに参加するサイトは,予測精度と効率性が向上したサバイバルモデルを取得することで,そのメリットを得た。 本研究では,プライバシ保存型フェデレーションサバイバルスコア生成フレームワークの有効性と実世界の異種生存データへの適用性を示す。

Survival analysis serves as a fundamental component in numerous healthcare applications, where the determination of the time to specific events (such as the onset of a certain disease or death) for patients is crucial for clinical decision-making. Scoring systems are widely used for swift and efficient risk prediction. However, existing methods for constructing survival scores presume that data originates from a single source, posing privacy challenges in collaborations with multiple data owners. We propose a novel framework for building federated scoring systems for multi-site survival outcomes, ensuring both privacy and communication efficiency. We applied our approach to sites with heterogeneous survival data originating from emergency departments in Singapore and the United States. Additionally, we independently developed local scores at each site. In testing datasets from each participant site, our proposed federated scoring system consistently outperformed all local models, evidenced by higher integrated area under the receiver operating characteristic curve (iAUC) values, with a maximum improvement of 11.6%. Additionally, the federated score's time-dependent AUC(t) values showed advantages over local scores, exhibiting narrower confidence intervals (CIs) across most time points. The model developed through our proposed method exhibits effective performance on each local site, signifying noteworthy implications for healthcare research. Sites participating in our proposed federated scoring model training gained benefits by acquiring survival models with enhanced prediction accuracy and efficiency. This study demonstrates the effectiveness of our privacy-preserving federated survival score generation framework and its applicability to real-world heterogeneous survival data.
翻訳日:2024-03-11 20:08:06 公開日:2024-03-08
# 大規模量子モンテカルロシミュレーションによる1次元および2次元ランダム横場イジングモデルの量子臨界特性

Quantum-critical properties of the one- and two-dimensional random transverse-field Ising model from large-scale quantum Monte Carlo simulations ( http://arxiv.org/abs/2403.05223v1 )

ライセンス: Link先を確認
C. Kr\"amer, J.A. Koziol, A. Langheld, M. H\"ormann, K.P. Schmidt(参考訳) 強磁性逆場イジングモデルについて, 厳密なゼロ温度スキームを用いた確率級数展開量子モンテカルロシミュレーションを用いて, 1次元および2次元で1T = 0$の焼成障害を有する。 サンプル複製法と平均バインダー比を用いて, 有限スケールによる非バイアス臨界点に加えて, $\nu_\mathrm{s}$ および $\nu_\mathrm{w}$ の臨界シフトと幅指数を決定する。 さらに、臨界点における無秩序平均磁化のスケーリングを用いて、平均相関長のオーダーパラメータ臨界指数$\beta$とクリティカル指数$\nu_{\mathrm{av}}$を決定する。 グリフィス相の動的スケーリングについて、乱れ相の局所的感受性を測定し、ダイナミック指数$z’$を抽出することにより検討する。 様々な有限サイズのスケーリングプロトコルを適用することにより、等質な足場における異なるアプローチの広範かつ包括的な比較を行う。 効率的なゼロ温度シミュレーションの強調は、既存の文献におけるいくつかの矛盾を解決する。

We study the ferromagnetic transverse-field Ising model with quenched disorder at $T = 0$ in one and two dimensions by means of stochastic series expansion quantum Monte Carlo simulations using a rigorous zero-temperature scheme. Using a sample-replication method and averaged Binder ratios, we determine the critical shift and width exponents $\nu_\mathrm{s}$ and $\nu_\mathrm{w}$ as well as unbiased critical points by finite-size scaling. Further, scaling of the disorder-averaged magnetisation at the critical point is used to determine the order-parameter critical exponent $\beta$ and the critical exponent $\nu_{\mathrm{av}}$ of the average correlation length. The dynamic scaling in the Griffiths phase is investigated by measuring the local susceptibility in the disordered phase and the dynamic exponent $z'$ is extracted. By applying various finite-size scaling protocols, we provide an extensive and comprehensive comparison between the different approaches on equal footing. The emphasis on effective zero-temperature simulations resolves several inconsistencies in existing literature.
翻訳日:2024-03-11 20:07:38 公開日:2024-03-08
# ハイブリッド空間を理解する:ハイブリッド空間の動的トポロジーを表現する時空モデルの設計

Understanding Hybrid Spaces: Designing a Spacetime Model to Represent Dynamic Topologies of Hybrid Spaces ( http://arxiv.org/abs/2403.05221v1 )

ライセンス: Link先を確認
Wolfgang H\"ohl(参考訳) 本稿では,ハイブリッド空間の動的位相の可視化のための時空間モデルを提案する。 時空間データの可視化は、例えば都市計画におけるデジタル双生児など、よく知られた問題である。 ハイブリッド空間を理解するための基本的なオントロジーも欠如している。 発達した時空間モデルは、場所とメディアタイプのレベル、知覚のレベル、時間と相互作用のレベルという3つのレベルを持つ。 既存の概念とハイブリッド空間の表現形式が提示される。 時空のモデルは、アート展示に基づいてテストされます。 A) メディアの使用(モダリティ)、参加者の相互作用(創造性)と、その知覚(芸術の理解)と、(B) 個人のパラメータ(デクログラフィーデータ、位置と状況、個人の知識)が(芸術の理解)に影響を及ぼすという相関関係がある。 また, 反応範囲, 相互作用数, 応答率についても検討した。 オンライン調査は一般的にメディア使用(モダリティ)と個人活動(創造性)の正の相関を示した。 しかし、参加率が低い(P_{TN} = 14$)ため、残念ながらこの調査はあまり代表的ではない。 ハイブリッド空間の様々な動的トポロジーがうまく可視化された。 実地と仮想的な場所とメディアタイプの共同表現は、場所、範囲、都市密度の新たな基本的な理解をもたらす。 モダリティ、モビリティ、コミュニケーションの相互作用の関係が明らかになる。 マルチローカリティの現在の現象は、うまくマッピングされている。 時空モデルは、例えばデジタル双生児の開発において、より正確なクラスと構造形成を可能にする。 したがって、ソーシャルメディアやイベント、都市開発といったハイブリッド空間の動的トポロジーは、よりよく表現され、比較することができる。

This paper develops a spatiotemporal model for the visualization of dynamic topologies of hybrid spaces. The visualization of spatiotemporal data is a well-known problem, for example in digital twins in urban planning. There is also a lack of a basic ontology for understanding hybrid spaces. The developed spatiotemporal model has three levels: a level of places and media types, a level of perception and a level of time and interaction. Existing concepts and types of representation of hybrid spaces are presented. The space-time model is tested on the basis of an art exhibition. Two hypotheses guide the accompanying online survey: (A) there are correlations between media use (modality), the participants' interactions (creativity) and their perception (understanding of art) and (B) individual parameters (demographic data, location and situation, individual knowledge) influence perception (understanding of art). The range, the number of interactions and the response rate were also evaluated. The online survey generally showed a positive correlation between media use (modality) and individual activity (creativity). However, due to the low participation rate ($P_{TN} = 14$), the survey is unfortunately not very representative. Various dynamic topologies of hybrid spaces were successfully visualized. The joint representation of real and virtual places and media types conveys a new basic understanding of place, range and urban density. Relationships between modality, Mobility and communicative interaction become visible. The current phenomenon of multilocality has been successfully mapped. The space-time model enables more precise class and structure formation, for example in the development of digital twins. Dynamic topologies of hybrid spaces, such as in social media, at events or in urban development, can thus be better represented and compared.
翻訳日:2024-03-11 20:07:19 公開日:2024-03-08
# 医用画像表現学習を支援する合成プライヴィゲード情報

Synthetic Privileged Information Enhances Medical Image Representation Learning ( http://arxiv.org/abs/2403.05220v1 )

ライセンス: Link先を確認
Lucas Farndale, Chris Walsh, Robert Insall, Ke Yuan(参考訳) マルチモーダル自己教師付き表現学習は、一貫して医療画像解析において非常に効果的な方法であることが証明され、強力なタスクパフォーマンスを提供し、生物学的にインフォームドされた洞察を生み出す。 しかし、これらのメソッドは、ペアデータが存在しないか、あるいは少量しか利用できないシナリオでの使用を禁止する、大規模なペアデータデータセットに大きく依存している。 対照的に、画像生成手法は非常に小さなデータセットでうまく機能し、ペアのないデータセット間のマッピングを見つけることができ、事実上無制限にペア化された合成データを生成することができる。 本研究では,単一モダリティ(最大4.4倍の誤差削減)と真正のマルチモーダルペアデータセット(最大5.6倍の誤差削減)のどちらにおいても,合成的にペア情報を生成することで表現学習を著しく改善できることを実証する。

Multimodal self-supervised representation learning has consistently proven to be a highly effective method in medical image analysis, offering strong task performance and producing biologically informed insights. However, these methods heavily rely on large, paired datasets, which is prohibitive for their use in scenarios where paired data does not exist, or there is only a small amount available. In contrast, image generation methods can work well on very small datasets, and can find mappings between unpaired datasets, meaning an effectively unlimited amount of paired synthetic data can be generated. In this work, we demonstrate that representation learning can be significantly improved by synthetically generating paired information, both compared to training on either single-modality (up to 4.4x error reduction) or authentic multi-modal paired datasets (up to 5.6x error reduction).
翻訳日:2024-03-11 20:06:51 公開日:2024-03-08
# スペクトルベースグラフ畳み込みエンコーダを用いた3次元顔再構成

3D Face Reconstruction Using A Spectral-Based Graph Convolution Encoder ( http://arxiv.org/abs/2403.05218v1 )

ライセンス: Link先を確認
Haoxin Xu, Zezheng Zhao, Yuxin Cao, Chunyu Chen, Hao Ge, Ziyao Liu(参考訳) モノクロ3D顔の再構成はアバター生成において重要な役割を担い、FinTechにおける仮想金融アドバイザの生成などWeb関連のアプリケーションにかなりの需要がある。 現在の再構築手法は主に深層学習技術に依存し,モデル学習の指導手段として2次元自己スーパービジョンを採用している。 しかし,これらの手法では,モデル学習のための2次元画像の活用により,顔の包括的3次元構造情報を捉えることが困難となる。 この制限を克服し、3次元構造的特徴の再構築を強化するために、既存の2次元特徴と3次元特徴を統合してモデル学習プロセスを導く革新的なアプローチを提案する。 具体的には、顔メッシュに適用したスペクトルベースのグラフ畳み込みエンコーダから抽出した高次元構造特徴を利用する3D-IDロスを導入する。 このアプローチは、顔メッシュ頂点座標によって提供される3D情報にのみ依存する。 我々のモデルはデータセットの組み合わせから2D-3Dデータペアを用いて訓練され、NoWベンチマークで最先端のパフォーマンスを達成する。

Monocular 3D face reconstruction plays a crucial role in avatar generation, with significant demand in web-related applications such as generating virtual financial advisors in FinTech. Current reconstruction methods predominantly rely on deep learning techniques and employ 2D self-supervision as a means to guide model learning. However, these methods encounter challenges in capturing the comprehensive 3D structural information of the face due to the utilization of 2D images for model training purposes. To overcome this limitation and enhance the reconstruction of 3D structural features, we propose an innovative approach that integrates existing 2D features with 3D features to guide the model learning process. Specifically, we introduce the 3D-ID Loss, which leverages the high-dimensional structure features extracted from a Spectral-Based Graph Convolution Encoder applied to the facial mesh. This approach surpasses the sole reliance on the 3D information provided by the facial mesh vertices coordinates. Our model is trained using 2D-3D data pairs from a combination of datasets and achieves state-of-the-art performance on the NoW benchmark.
翻訳日:2024-03-11 20:06:34 公開日:2024-03-08
# オープンドメイン質問応答のための大規模言語モデルのマルチロール機能活用

Harnessing Multi-Role Capabilities of Large Language Models for Open-Domain Question Answering ( http://arxiv.org/abs/2403.05217v1 )

ライセンス: Link先を確認
Hongda Sun, Yuxuan Liu, Chengwei Wu, Haiyu Yan, Cheng Tai, Xin Gao, Shuo Shang, Rui Yan(参考訳) オープンドメイン質問応答 (ODQA) は情報システムにおいて重要な研究スポットライトとなっている。 既存の手法では、(1) \textit{retrieve-then-read}パラダイムは外部コーパスから関連するドキュメントを検索する、(2) \textit{generate-then-read}パラダイムは、関連するドキュメントを生成するために大規模な言語モデル(llms)を使用する。 しかし、証拠の多面的要求には対処できない。 この目的のために,汎用フレームワークであるLLMQAを提案する。クエリ拡張,文書選択,回答生成という3つの基本ステップでODQAプロセスを定式化する。 LLMは様々なタスクをこなすのに優れた能力を示すので、私たちはLDMにジェネレータ、リランカ、そしてフレームワーク内の評価役として複数の役割を演じるように指示します。 さらに,ロールプレイングプロンプトとステアリングllmを洗練し,高品質なエビデンスと回答を生成するための新しいプロンプト最適化アルゴリズムを提案する。 広く使われているベンチマーク(NQ、WebQ、TriviaQA)の大規模な実験結果によると、LLMQAは答えの正確さと証拠の品質の両方において最高のパフォーマンスを達成しており、ODQAの研究と応用を前進させる可能性を示している。

Open-domain question answering (ODQA) has emerged as a pivotal research spotlight in information systems. Existing methods follow two main paradigms to collect evidence: (1) The \textit{retrieve-then-read} paradigm retrieves pertinent documents from an external corpus; and (2) the \textit{generate-then-read} paradigm employs large language models (LLMs) to generate relevant documents. However, neither can fully address multifaceted requirements for evidence. To this end, we propose LLMQA, a generalized framework that formulates the ODQA process into three basic steps: query expansion, document selection, and answer generation, combining the superiority of both retrieval-based and generation-based evidence. Since LLMs exhibit their excellent capabilities to accomplish various tasks, we instruct LLMs to play multiple roles as generators, rerankers, and evaluators within our framework, integrating them to collaborate in the ODQA process. Furthermore, we introduce a novel prompt optimization algorithm to refine role-playing prompts and steer LLMs to produce higher-quality evidence and answers. Extensive experimental results on widely used benchmarks (NQ, WebQ, and TriviaQA) demonstrate that LLMQA achieves the best performance in terms of both answer accuracy and evidence quality, showcasing its potential for advancing ODQA research and applications.
翻訳日:2024-03-11 20:06:19 公開日:2024-03-08
# ソーシャルPET:ソーシャルメディアにおけるファウショットスタンス検出のためのソーシャルインフォームドパターンエクスプロイトトレーニング

SocialPET: Socially Informed Pattern Exploiting Training for Few-Shot Stance Detection in Social Media ( http://arxiv.org/abs/2403.05216v1 )

ライセンス: Link先を確認
Parisa Jamadi Khiabani, Arkaitz Zubiaga(参考訳) ターゲットに対するソーシャルメディア投稿の視点を「好み」や「アゲインスト」と判断するタスクとしてのスタンス検出は、特定のターゲットに限定されたラベル付きデータが存在するという挑戦的かつ現実的なシナリオにおいて検討されてきた。 本研究は,タスクに言語モデルを活用するための社会的に情報を得たアプローチであるSocialPETを導入することで,数点の姿勢検出における研究を進める。 提案手法は,言語モデルを用いて分類タスクをクローズ問題として扱うPET(Pattern Exploiting Training)技術に基づいている。 ソーシャル・アウェアネスによるアプローチを強化するために,ソーシャルメディア投稿を取り囲むソーシャル・ネットワーク構造を利用する。 マルチターゲットとPスタンスという2つのスタンスデータセットにおけるSocialPETの有効性を実証し,研究対象のラベル付きインスタンスが100に満たないベースモデルであるPETの他,競争姿勢検出モデルよりも優れていることを示す。 結果を調べると、SocialPETは‘against’クラスのインスタンスを識別する上で比較的強力であり、ベースラインモデルは性能が劣っていることが分かる。

Stance detection, as the task of determining the viewpoint of a social media post towards a target as 'favor' or 'against', has been understudied in the challenging yet realistic scenario where there is limited labeled data for a certain target. Our work advances research in few-shot stance detection by introducing SocialPET, a socially informed approach to leveraging language models for the task. Our proposed approach builds on the Pattern Exploiting Training (PET) technique, which addresses classification tasks as cloze questions through the use of language models. To enhance the approach with social awareness, we exploit the social network structure surrounding social media posts. We prove the effectiveness of SocialPET on two stance datasets, Multi-target and P-Stance, outperforming competitive stance detection models as well as the base model, PET, where the labeled instances for the target under study is as few as 100. When we delve into the results, we observe that SocialPET is comparatively strong in identifying instances of the `against' class, where baseline models underperform.
翻訳日:2024-03-11 20:05:48 公開日:2024-03-08
# 畳み込みニューラルネットワークを用いたロボット把持検出の改善

Improving the Successful Robotic Grasp Detection Using Convolutional Neural Networks ( http://arxiv.org/abs/2403.05211v1 )

ライセンス: Link先を確認
Hamed Hosseini, Mehdi Tale Masouleh, Ahmad Kalhor(参考訳) ロボットの把握は適切な精度でリアルタイムに行うべきである。 知覚は、この手順の最初の、そして重要なステップである。 本稿では,異なる物体や見えない物体の矩形表現として把握するパイプラインモデルを提案する。 ロボットは、オブジェクトの適切な部分に近いところから、コントロール手順を開始するのに役立つ。 主なアイデアは前処理、出力正規化、データ拡張であり、システムの動作を遅くすることなく、精度を4.3%向上させる。 また、AlexNet、ResNet、Vgg19といった、オブジェクト検出におけるイメージ処理の最も有名な特徴抽出器に対して、事前訓練されたモデルの比較が行われた。 AlexNetは、他のものよりも複雑さが少ないが、それらよりも優れており、リアルタイムプロパティに役立つ。

Robotic grasp should be carried out in a real-time manner by proper accuracy. Perception is the first and significant step in this procedure. This paper proposes an improved pipeline model trying to detect grasp as a rectangle representation for different seen or unseen objects. It helps the robot to start control procedures from nearer to the proper part of the object. The main idea consists in pre-processing, output normalization, and data augmentation to improve accuracy by 4.3 percent without making the system slow. Also, a comparison has been conducted over different pre-trained models like AlexNet, ResNet, Vgg19, which are the most famous feature extractors for image processing in object detection. Although AlexNet has less complexity than other ones, it outperformed them, which helps the real-time property.
翻訳日:2024-03-11 20:05:26 公開日:2024-03-08
# 半監督領域一般化による領域間のデータ不平等の克服

Overcoming Data Inequality across Domains with Semi-Supervised Domain Generalization ( http://arxiv.org/abs/2403.05209v1 )

ライセンス: Link先を確認
Jinha Park, Wonguk Cho, Taesup Kim(参考訳) 広範なデータセットによる機械学習の進歩はあったが、さまざまなソースや人口にまたがるデータの可用性にはまだ大きな差が残っている。 このドメイン間の不平等は、限られたデータを持つ人たちのモデリングに困難をもたらし、実践的で倫理的な懸念を招きかねない。 本稿では,Semi-Supervised Domain Generalization (SSDG)と呼ばれるドメイン間のデータ不平等問題の代表的な事例について述べる。 本稿では,ラベル付きドメインとラベル付きドメインとの不確かさ適応混合によるプログレッシブな一般化とともに,ドメイン認識プロトタイプを通じてドメイン不変性を効果的に学習するアルゴリズムProUDを提案する。 3つの異なるベンチマークデータセットによる実験により, ProUDの有効性が示され, 単一領域の一般化や半教師付き学習など, ベースラインモデル全体の性能が向上した。 ソースコードは、論文の受理時に公開される。

While there have been considerable advancements in machine learning driven by extensive datasets, a significant disparity still persists in the availability of data across various sources and populations. This inequality across domains poses challenges in modeling for those with limited data, which can lead to profound practical and ethical concerns. In this paper, we address a representative case of data inequality problem across domains termed Semi-Supervised Domain Generalization (SSDG), in which only one domain is labeled while the rest are unlabeled. We propose a novel algorithm, ProUD, which can effectively learn domain-invariant features via domain-aware prototypes along with progressive generalization via uncertainty-adaptive mixing of labeled and unlabeled domains. Our experiments on three different benchmark datasets demonstrate the effectiveness of ProUD, outperforming all baseline models including single domain generalization and semi-supervised learning. Source code will be released upon acceptance of the paper.
翻訳日:2024-03-11 20:05:14 公開日:2024-03-08
# 量子時代後の選挙:複雑性は十分に強固か?

Elections in the Post-Quantum Era: Is the Complexity Shield Strong Enough? ( http://arxiv.org/abs/2403.05273v1 )

ライセンス: Link先を確認
\v{S}imon Schierreich(参考訳) この選挙は民主主義の基盤であり、民主統治の最も認知度の高いシンボルの1つである。 選挙に対する有権者の信頼は不可欠であり、近年では選挙の公正性に対する不信感が生放送で実際に見られるようになっている。 有名なギバード・サッタースウェイトの定理から、社会選択社会では、ほとんどの投票システムは選挙に影響を与える様々なプレイヤーの努力に弱いことが知られている。 幸いにも、選挙結果に影響を与えるような影響を計算することは、計算複雑性の観点からは難しい問題です。 この難易度は、この悪意ある行動に対する投票ルールを確保する「複合性シールド」と見なされる。 本研究では,量子コンピュータが標準的な計算パラダイムから脱却し,新たな計算資源を解き放つことにより,上記の複雑性シールドに対する新たな脅威となると考えている。 この目的のために、選挙攻撃の可能性の概要、量子コンピューティングの能力について議論し、この分野における今後の研究の方向性を示す。

The election, a cornerstone of democracy, is one of the best-recognizable symbols of democratic governance. Voters' confidence in elections is essential, and these days, we can watch practically in live broadcast what consequences distrust in the fairness of elections may have. From the times of the celebrated Gibbard-Satterthwaite theorem, it is well-known in the social-choice community that most voting systems are vulnerable to the efforts of various players to influence elections. Luckily for us, computing such influence to affect election outcomes is a hard problem from the computational complexity perspective. This intractability is regarded as a ``complexity shield'' that secures voting rules against this malicious behavior. In this work, we consider quantum computers to be a new threat to the complexity shield described above, as they break out of standard computing paradigms and unlock additional computational resources. To this end, we provide an overview of possible attacks on election, discuss the abilities of quantum computing, and chart possible directions for future research in this area.
翻訳日:2024-03-11 20:00:27 公開日:2024-03-08
# 乱用言語検出のためのディーププロンプトマルチタスクネットワーク

Deep Prompt Multi-task Network for Abuse Language Detection ( http://arxiv.org/abs/2403.05268v1 )

ライセンス: Link先を確認
Jian Zhu, Yuping Ruan, Jingfei Chang, and Cheng Luo(参考訳) 乱暴な言葉の検出は、ソーシャルネットワークの広範囲な利用に対する長年の課題である。 乱用言語の検出タスクは、限られた精度に悩まされている。 既存の検出手法では,学習済み言語モデル (plms) の微調整技術を用いて下流タスクを処理している。 したがって、これらの手法はplmの一般的な知識を刺激しない。 そこで本研究では,乱用言語検出のためのDPMN(Deep Prompt Multi-task Network)を提案する。 具体的には、dpmnはまず、plmの2種類の深いプロンプトチューニングと光プロンプトチューニングを設計しようとした。 異なるプロンプト長,チューニング戦略,およびプロンプト初期化手法が乱用言語の検出に与える影響について検討した。 さらに,Bi-LSTMとFFNに基づくタスクヘッドを提案する。 最終的に、DPMNはマルチタスク学習を使用して、検出メトリクスをさらに改善する。 マルチタスクネットワークは、効果的な知識を伝達する機能を有する。 提案するdpmnは3つの公開データセット(olid, solid, abuseanalyzer)における8つの典型的な手法に対して評価される。 実験の結果,DPMNは最先端手法よりも優れていた。

The detection of abusive language remains a long-standing challenge with the extensive use of social networks. The detection task of abusive language suffers from limited accuracy. We argue that the existing detection methods utilize the fine-tuning technique of the pre-trained language models (PLMs) to handle downstream tasks. Hence, these methods fail to stimulate the general knowledge of the PLMs. To address the problem, we propose a novel Deep Prompt Multi-task Network (DPMN) for abuse language detection. Specifically, DPMN first attempts to design two forms of deep prompt tuning and light prompt tuning for the PLMs. The effects of different prompt lengths, tuning strategies, and prompt initialization methods on detecting abusive language are studied. In addition, we propose a Task Head based on Bi-LSTM and FFN, which can be used as a short text classifier. Eventually, DPMN utilizes multi-task learning to improve detection metrics further. The multi-task network has the function of transferring effective knowledge. The proposed DPMN is evaluated against eight typical methods on three public datasets: OLID, SOLID, and AbuseAnalyzer. The experimental results show that our DPMN outperforms the state-of-the-art methods.
翻訳日:2024-03-11 20:00:09 公開日:2024-03-08
# ERBench: エンティティ関係に基づく大規模言語モデルのための自動検証型幻覚ベンチマーク

ERBench: An Entity-Relationship based Automatically Verifiable Hallucination Benchmark for Large Language Models ( http://arxiv.org/abs/2403.05266v1 )

ライセンス: Link先を確認
Jio Oh, Soyeon Kim, Junseok Seo, Jindong Wang, Ruochen Xu, Xing Xie, Steven Euijong Whang(参考訳) 大規模言語モデル(LLM)は、様々なアプリケーションで前例のない性能を達成したが、それでも重要な問題である。 既存の幻覚ベンチマークは静的か、徹底的な分析のために調整可能な複雑さを欠いている。 既存のリレーショナルデータベースを利用することは、機能依存による正確な知識記述のため、ベンチマークを構築する上で有望なアプローチであると主張する。 entity-relationship(er)モデルに基づいて、任意のリレーショナルデータベースをベンチマークに自動変換するerbenchを提案する。 私たちの重要なアイデアは、データベーススキーマ、レコード、関数依存を使って、自動的に検証できるように質問を構築することです。 さらに、外部キー制約を用いて関係を結合し、任意に複雑でllmの中間的な回答をデバッグするために使用できるマルチホップ質問を構築する。 最後に、erbenchは継続的評価、マルチモーダル質問、さまざまな即席エンジニアリング技術をサポートする。 実験では,複数のドメインのデータベースを用いたLLMベンチマークを構築し,同時代のLLMを広範囲に比較した。 gpt-4のような優れたllmは、より多様な質問タイプを処理できるが、決して完璧ではない。 また、正しい答えは必ずしも正しい理性を意味するものではないため、ERBenchは様々な質問タイプに対する他のベンチマークよりも優れているという重要な評価である。 コードはhttps: //github.com/DILAB-KAIST/ERBenchで入手できる。

Large language models (LLMs) have achieved unprecedented performance in various applications, yet their evaluation remains a critical issue. Existing hallucination benchmarks are either static or lack adjustable complexity for thorough analysis. We contend that utilizing existing relational databases is a promising approach for constructing benchmarks due to their accurate knowledge description via functional dependencies. We propose ERBench to automatically convert any relational database into a benchmark based on the entity-relationship (ER) model. Our key idea is to construct questions using the database schema, records, and functional dependencies such that they can be automatically verified. In addition, we use foreign key constraints to join relations and construct multihop questions, which can be arbitrarily complex and used to debug the intermediate answers of LLMs. Finally, ERBench supports continuous evaluation, multimodal questions, and various prompt engineering techniques. In our experiments, we construct an LLM benchmark using databases of multiple domains and make an extensive comparison of contemporary LLMs. We observe that better LLMs like GPT-4 can handle a larger variety of question types, but are by no means perfect. Also, correct answers do not necessarily imply correct rationales, which is an important evaluation that ERBench does better than other benchmarks for various question types. Code is available at https: //github.com/DILAB-KAIST/ERBench.
翻訳日:2024-03-11 19:59:50 公開日:2024-03-08
# MMoE:マルチモーダル情報とドメイン認識混合によるロバストスポイラー検出

MMoE: Robust Spoiler Detection with Multi-modal Information and Domain-aware Mixture-of-Experts ( http://arxiv.org/abs/2403.05265v1 )

ライセンス: Link先を確認
Zinan Zeng, Sen Ye, Zijian Cai, Heng Wang, Yuhan Liu, Qinghua Zheng, Minnan Luo(参考訳) オンライン映画レビューサイトは、映画に関する情報や議論に有用である。 しかし、大量のスポイラーレビューは映画視聴体験を損なうことになり、スポイラー検出が重要な課題となる。 以前の方法は、単にレビューのテキストコンテンツにフォーカスし、プラットフォームにおける情報の多様性を無視していた。 例えば、レビューのメタデータとそれに対応するユーザの情報などが役に立ちます。 さらに、映画レビューのスポイラー言語はジャンル特有のものになりがちであり、既存の手法ではドメイン一般化の課題となる。 そこで本研究では,複数のモダリティ情報を用いてロバストスポイラー検出を容易にするマルチモーダルネットワークであるmmoeを提案する。 mmoeはまず、ユーザ・ムーブメント・ネットワーク、レビューのテキストコンテンツ、レビューのメタデータからグラフ、テキスト、メタ機能を抽出する。 ジャンル別スポイラーの処理にはMixture-of-Expertsアーキテクチャを用いて3つのモードで情報を処理する。 最後に、専門家の融合層を使用して、異なる視点から機能を統合し、融合した埋め込みに基づいて予測を行う。 実験により、moeは2つの広く使用されているスポイラー検出データセットにおいて、精度とf1-scoreの点で従来のsoma法を2.56\%と8.41\%上回る最先端の性能を達成できることが示されている。 さらなる実験は、モメエの堅牢性と一般化における優越性も示している。

Online movie review websites are valuable for information and discussion about movies. However, the massive spoiler reviews detract from the movie-watching experience, making spoiler detection an important task. Previous methods simply focus on reviews' text content, ignoring the heterogeneity of information in the platform. For instance, the metadata and the corresponding user's information of a review could be helpful. Besides, the spoiler language of movie reviews tends to be genre-specific, thus posing a domain generalization challenge for existing methods. To this end, we propose MMoE, a multi-modal network that utilizes information from multiple modalities to facilitate robust spoiler detection and adopts Mixture-of-Experts to enhance domain generalization. MMoE first extracts graph, text, and meta feature from the user-movie network, the review's textual content, and the review's metadata respectively. To handle genre-specific spoilers, we then adopt Mixture-of-Experts architecture to process information in three modalities to promote robustness. Finally, we use an expert fusion layer to integrate the features from different perspectives and make predictions based on the fused embedding. Experiments demonstrate that MMoE achieves state-of-the-art performance on two widely-used spoiler detection datasets, surpassing previous SOTA methods by 2.56\% and 8.41\% in terms of accuracy and F1-score. Further experiments also demonstrate MMoE's superiority in robustness and generalization.
翻訳日:2024-03-11 19:59:31 公開日:2024-03-08
# 大規模ビジュアル言語モデルのデバイアス

Debiasing Large Visual Language Models ( http://arxiv.org/abs/2403.05262v1 )

ライセンス: Link先を確認
Yi-Fan Zhang, Weichen Yu, Qingsong Wen, Xue Wang, Zhang Zhang, Liang Wang, Rong Jin, and Tieniu Tan(参考訳) コンピュータビジョンや自然言語処理の分野では、大きな視覚言語モデル(lvlm)が必須のツールとなり、視覚入力に基づいてテキスト記述を生成するのに熟達している。 それらの進歩にもかかわらず,本研究は,入力画像よりも基礎となるLarge Language Models (LLM) の影響を主に受け,生成コンテンツに顕著なバイアスを生じさせる。 LVLMは、関連画像の欠如や、不連続な視覚入力であっても、自信ある回答を提供することが多いため、我々の実証実験は、このバイアスの持続性を強調している。 これらのバイアスを正し、モデルのビジョン情報への焦点をリダイレクトするために、2つの単純なトレーニングフリー戦略を導入する。 まず、分類や複数選択質問応答(QA)といったタスクに対して、アフィン変換による「校正」ステップを提案し、出力分布の調整を行う。 この ‘post-hoc debias'' アプローチは、画像が存在しない場合、各回答の均一なスコアを確保し、llm事前の影響を軽減する効果的な正規化技術となる。 より複雑なオープンエンド生成タスクに対しては、このメソッドを `Debias sample'' に拡張し、対照的な復号法からインスピレーションを引き出す。 さらに,本研究では,様々な復号化構成におけるLVLMの不安定性について検討した。 異なる設定の体系的な探索を通じて、性能を著しく向上させ、報告結果を上回っ、既存の評価の公平性に対する懸念を高める。 包括的実験はバイアス緩和における提案手法の有効性を実証する。 これらの戦略は幻覚の最小化に有用であるだけでなく、より有用で正確な図面の生成にも貢献する。

In the realms of computer vision and natural language processing, Large Vision-Language Models (LVLMs) have become indispensable tools, proficient in generating textual descriptions based on visual inputs. Despite their advancements, our investigation reveals a noteworthy bias in the generated content, where the output is primarily influenced by the underlying Large Language Models (LLMs) prior rather than the input image. Our empirical experiments underscore the persistence of this bias, as LVLMs often provide confident answers even in the absence of relevant images or given incongruent visual input. To rectify these biases and redirect the model's focus toward vision information, we introduce two simple, training-free strategies. Firstly, for tasks such as classification or multi-choice question-answering (QA), we propose a ``calibration'' step through affine transformation to adjust the output distribution. This ``Post-Hoc debias'' approach ensures uniform scores for each answer when the image is absent, serving as an effective regularization technique to alleviate the influence of LLM priors. For more intricate open-ended generation tasks, we extend this method to ``Debias sampling'', drawing inspirations from contrastive decoding methods. Furthermore, our investigation sheds light on the instability of LVLMs across various decoding configurations. Through systematic exploration of different settings, we significantly enhance performance, surpassing reported results and raising concerns about the fairness of existing evaluations. Comprehensive experiments substantiate the effectiveness of our proposed strategies in mitigating biases. These strategies not only prove beneficial in minimizing hallucinations but also contribute to the generation of more helpful and precise illustrations.
翻訳日:2024-03-11 19:58:59 公開日:2024-03-08
# 画像テキスト検索のためのクロスモーダル・ユニモーダルソフトラベルアライメント

Cross-Modal and Uni-Modal Soft-Label Alignment for Image-Text Retrieval ( http://arxiv.org/abs/2403.05261v1 )

ライセンス: Link先を確認
Hailang Huang, Zhijie Nie, Ziqiao Wang, Ziyu Shang(参考訳) 最近の画像テキスト検索手法は近年、印象的な性能を示している。 しかし、それらはいまだに2つの問題に直面している: モーダル間マッチングの欠落問題とモーダル間セマンティック損失問題である。 これらの問題は画像テキスト検索の精度に大きな影響を与える可能性がある。 そこで本研究では, クロスモーダルとユニモーダルソフトラベルアライメント(cusa)と呼ばれる新しい手法を提案する。 本手法は,一様事前学習モデルのパワーを活用し,画像テキスト検索モデルのためのソフトラベル監視信号を提供する。 さらに,クロスモーダルソフトラベルアライメント (csa) とユニモーダルソフトラベルアライメント (usa) という2つのアライメント手法を導入し,偽陰性を克服し,ユニモーダルサンプル間の類似性認識を強化する。 本手法はプラグイン・アンド・プレイとして設計されており,既存の画像テキスト検索モデルに適用することができる。 各種画像テキスト検索モデルとデータセットの大規模な実験により,本手法は画像テキスト検索の性能を一貫して改善し,新たな最先端結果が得られることを示した。 さらに,画像テキスト検索モデルのユニモーダル検索性能も向上させ,汎用検索を可能にした。 コードと追加ファイルはhttps://github.com/lerogo/aaai24_itr_cusaで見ることができる。

Current image-text retrieval methods have demonstrated impressive performance in recent years. However, they still face two problems: the inter-modal matching missing problem and the intra-modal semantic loss problem. These problems can significantly affect the accuracy of image-text retrieval. To address these challenges, we propose a novel method called Cross-modal and Uni-modal Soft-label Alignment (CUSA). Our method leverages the power of uni-modal pre-trained models to provide soft-label supervision signals for the image-text retrieval model. Additionally, we introduce two alignment techniques, Cross-modal Soft-label Alignment (CSA) and Uni-modal Soft-label Alignment (USA), to overcome false negatives and enhance similarity recognition between uni-modal samples. Our method is designed to be plug-and-play, meaning it can be easily applied to existing image-text retrieval models without changing their original architectures. Extensive experiments on various image-text retrieval models and datasets, we demonstrate that our method can consistently improve the performance of image-text retrieval and achieve new state-of-the-art results. Furthermore, our method can also boost the uni-modal retrieval performance of image-text retrieval models, enabling it to achieve universal retrieval. The code and supplementary files can be found at https://github.com/lerogo/aaai24_itr_cusa.
翻訳日:2024-03-11 19:58:28 公開日:2024-03-08
# 適応型重み付け特徴量による単細胞薬剤感受性の予測

Predicting Single-cell Drug Sensitivity by Adaptive Weighted Feature for Adversarial Multi-source Domain Adaptation ( http://arxiv.org/abs/2403.05260v1 )

ライセンス: Link先を確認
Wei Duan, Hui Liu(参考訳) シングルセルシークエンシング技術の発展は、大量のシングルセル転写プロファイルの生成を促進し、腫瘍内の薬剤耐性細胞サブ集団を探索する貴重な機会となった。 しかし, 単一細胞レベルでの薬剤感受性データはいまだに乏しく, 個々の細胞に対する薬剤感受性の予測に緊急かつ極めて困難な課題が迫られている。 本稿では,シングルセル薬物感受性を予測するマルチソース適応重み付けモデルである scAdaDrug を提案する。 自動エンコーダを用いて, 薬物感受性に関連する領域不変な特徴を複数のソースドメインから抽出し, 逆領域適応を活用した。 特に,各試料の埋め込みを,ソースドメインとターゲットドメインの両方の次元レベルで適応的に調整できる,重み付けと相互独立重み付けを行う適応重み生成装置を提案する。 広範な実験結果から,sinle-cellデータセットおよび細胞線および患者データセット上での薬剤感受性予測において,最先端の性能が得られた。

The development of single-cell sequencing technology had promoted the generation of a large amount of single-cell transcriptional profiles, providing valuable opportunities to explore drug-resistant cell subpopulations in a tumor. However, the drug sensitivity data in single-cell level is still scarce to date, pressing an urgent and highly challenging task for computational prediction of the drug sensitivity to individual cells. This paper proposed scAdaDrug, a multi-source adaptive weighting model to predict single-cell drug sensitivity. We used an autoencoder to extract domain-invariant features related to drug sensitivity from multiple source domains by exploiting adversarial domain adaptation. Especially, we introduced an adaptive weight generator to produce importance-aware and mutual independent weights, which could adaptively modulate the embedding of each sample in dimension-level for both source and target domains. Extensive experimental results showed that our model achieved state-of-the-art performance in predicting drug sensitivity on sinle-cell datasets, as well as on cell line and patient datasets.
翻訳日:2024-03-11 19:58:03 公開日:2024-03-08
# ロスシー媒体におけるマルチモードスクイーズ光発生の理論

Theory of Multimode Squeezed Light Generation in Lossy Media ( http://arxiv.org/abs/2403.05259v1 )

ライセンス: Link先を確認
Denis A. Kopylov, Torsten Meier, Polina R. Sharapova(参考訳) 損失媒体で発生する多重モード励起光の特性を記述するための統一的理論的アプローチを示す。 このアプローチはマルコフ環境において有効であり、ビームスプリッター法に基づく離散損失モデルと空間ランゲヴィン方程式に基づく一般化連続損失モデルの両方を含む。 ガウス状態の重要なクラスについて、2階相関関数のマスター方程式を導出し、周波数非依存と周波数依存の両方の損失に対するそれらの解を説明する。 モード構造について検討した結果,損失のある環境では,異なる広帯域モード間の2次相関のない広帯域ベースが存在しないことが示されている。 したがって、ブロードバンドモードを導入するための様々な技術や戦略を考えることができる。 マーサー展開とウィリアムソン分解は,系に含まれる最大スクイーズを計測できるモードを提供していないことを示す。 次に、損失のあるシステムのスクイーズを最大化し、それを構築するためのアルゴリズムを示す新しい広帯域ベースを見つける。

A unified theoretical approach to describe the properties of multimode squeezed light generated in a lossy medium is presented. This approach is valid for Markovian environments and includes both a model of discrete losses based on the beamsplitter approach and a generalized continuous loss model based on the spatial Langevin equation. For an important class of Gaussian states, we derive master equations for the second-order correlation functions and illustrate their solution for both frequency-independent and frequency-dependent losses. Studying the mode structure, we demonstrate that in a lossy environment no broadband basis without quadrature correlations between the different broadband modes exists. Therefore, various techniques and strategies to introduce broadband modes can be considered. We show that the Mercer expansion and the Williamson decomposition do not provide modes in which the maximal squeezing contained in the system can be measured. In turn, we find a new broadband basis that maximizes squeezing in the lossy system and present an algorithm to construct it.
翻訳日:2024-03-11 19:57:47 公開日:2024-03-08
# 言語間移動か機械翻訳か? 単言語意味的テキスト類似性のためのデータ拡張について

Cross-lingual Transfer or Machine Translation? On Data Augmentation for Monolingual Semantic Textual Similarity ( http://arxiv.org/abs/2403.05257v1 )

ライセンス: Link先を確認
Sho Hoshino, Akihiko Kato, Soichiro Murakami, Peinan Zhang(参考訳) より良い文の埋め込みを学習すると、意味的テキスト類似性(STS)や自然言語推論(NLI)を含む自然言語理解タスクのパフォーマンスが向上する。 先行研究では、大規模ラベル付きNLIデータセットを使用して、微調整されたマスキング言語モデルを用いて文の埋め込みを生成するため、英語以外の言語に対するタスクパフォーマンスは、しばしば残されたままである。 本研究では,モノリンガルSTSの潜在的な解決策として,2つのデータ拡張手法を直接比較した。 (a)英語資源のみを訓練データとして活用し、ゼロショット推論として非英語文埋め込みを得る言語間転送 (b)事前に英語データを擬似非英語学習データに隠蔽する機械翻訳。 日本語と韓国語における単言語STSの実験では,2つのデータ技術が同等の性能を発揮することがわかった。 むしろ、これらの言語のNLIドメインよりもWikipediaドメインの方が優れており、トレーニングデータとしてNLIに焦点を当てた以前の研究とは対照的である。 本研究を組み合わせることで,wikipediaデータのクロスリンガル転送は性能の向上,また,wikipediaのネイティブデータは単言語stsの性能をさらに向上できることを示す。

Learning better sentence embeddings leads to improved performance for natural language understanding tasks including semantic textual similarity (STS) and natural language inference (NLI). As prior studies leverage large-scale labeled NLI datasets for fine-tuning masked language models to yield sentence embeddings, task performance for languages other than English is often left behind. In this study, we directly compared two data augmentation techniques as potential solutions for monolingual STS: (a) cross-lingual transfer that exploits English resources alone as training data to yield non-English sentence embeddings as zero-shot inference, and (b) machine translation that coverts English data into pseudo non-English training data in advance. In our experiments on monolingual STS in Japanese and Korean, we find that the two data techniques yield performance on par. Rather, we find a superiority of the Wikipedia domain over the NLI domain for these languages, in contrast to prior studies that focused on NLI as training data. Combining our findings, we demonstrate that the cross-lingual transfer of Wikipedia data exhibits improved performance, and that native Wikipedia data can further improve performance for monolingual STS.
翻訳日:2024-03-11 19:57:30 公開日:2024-03-08
# DuDoUniNeXt:シングルコントラストおよびマルチコントラストアンサンプMRI再構成のためのデュアルドメイン統合ハイブリッドモデル

DuDoUniNeXt: Dual-domain unified hybrid model for single and multi-contrast undersampled MRI reconstruction ( http://arxiv.org/abs/2403.05256v1 )

ライセンス: Link先を確認
Ziqi Gao and Yue Zhang and Xinwen Liu and Kaiyan Li and S. Kevin Zhou(参考訳) マルチコントラスト (MC) 磁気共鳴イメージング (MRI) 再構成は, 目標モードの再構成過程をガイドする補助モードの基準像を組み込むことを目的としている。 MC再構成法は、完全にサンプリングされた参照画像でよく機能するが、参照画像が欠落している場合や品質の低い場合には、シングルコントラスト(SC)法に比べて性能が劣る。 この問題に対処するため、DuDoUniNeXtを提案する。DuDoUniNeXtは、欠落、低品質、高品質な参照画像を含むシナリオに対応可能な、統合されたデュアルドメインMRI再構成ネットワークである。 DuDoUniNeXtはCNNとViTを組み合わせたハイブリッドバックボーンを採用しており、画像領域の特定の調整とk空間再構築を可能にしている。 具体的には、様々な品質の参照画像から情報を動的に処理する適応粗大な特徴融合モジュール(AdaC2F)を考案する。 また、コントラスト間の整合性および相違性情報を扱うために、共有パラメータと異なるパラメータを用いた部分共有浅層特徴抽出器(PaSS)を提案する。 実験により,提案モデルが最先端のSCモデルとMCモデルを大幅に上回ることを示した。 アブレーション研究は、提案されたハイブリッドバックボーン、AdaC2F、PaSSおよび二重ドメイン統合学習方式の有効性を示す。

Multi-contrast (MC) Magnetic Resonance Imaging (MRI) reconstruction aims to incorporate a reference image of auxiliary modality to guide the reconstruction process of the target modality. Known MC reconstruction methods perform well with a fully sampled reference image, but usually exhibit inferior performance, compared to single-contrast (SC) methods, when the reference image is missing or of low quality. To address this issue, we propose DuDoUniNeXt, a unified dual-domain MRI reconstruction network that can accommodate to scenarios involving absent, low-quality, and high-quality reference images. DuDoUniNeXt adopts a hybrid backbone that combines CNN and ViT, enabling specific adjustment of image domain and k-space reconstruction. Specifically, an adaptive coarse-to-fine feature fusion module (AdaC2F) is devised to dynamically process the information from reference images of varying qualities. Besides, a partially shared shallow feature extractor (PaSS) is proposed, which uses shared and distinct parameters to handle consistent and discrepancy information among contrasts. Experimental results demonstrate that the proposed model surpasses state-of-the-art SC and MC models significantly. Ablation studies show the effectiveness of the proposed hybrid backbone, AdaC2F, PaSS, and the dual-domain unified learning scheme.
翻訳日:2024-03-11 19:57:12 公開日:2024-03-08
# フォトニックシステムにおける量子エラーのキャンセル -- 光子損失の排除

Quantum error cancellation in photonic systems -- undoing photon losses ( http://arxiv.org/abs/2403.05252v1 )

ライセンス: Link先を確認
Adam Taylor, Gabriele Bressanini, Hyukjoon Kwon and M. S. Kim(参考訳) 実際のフォトニックデバイスは、システムにエンコードされた量子情報を解くことができる光子損失を受ける。 完全なフォールトトレランスがないため、ノイズの多い量子デバイスでのエラー管理を支援するために量子エラー軽減技術が導入されている。 本稿では,連続変数システムに対する確率的エラーキャンセリング(離散変数システムにおける一般的なエラー緩和手法)に触発されたエラー緩和プロトコルを提案する。 量子誤差キャンセルプロトコルは期待値推定タスクにおける光子損失を解消できることを示す。 これを実現するために、非物理的)逆光子損失チャネルを解析的に導出し、潜在的に負の係数を持つ物理的に実現可能なチャネル上の和に分解する。 理想的な期待値推定器のバイアスをサンプリングオーバーヘッドを増加させるコストで任意に小さくすることができる。 このプロトコルは無ノイズ増幅と一連の光子減算を必要とする。 これらの操作は確率的に実装できるが、初期状態の特定のクラスでは、モンテカルロ法を利用して理想的な期待値の偏りのない推定を行うことで増幅と光子減算の実行の負担を回避できる。 提案プロトコルは, 圧縮真空状態, 猫状態, および絡み合ったコヒーレント状態のスキームをシミュレートすることにより検証した。

Real photonic devices are subject to photon losses that can decohere quantum information encoded in the system. In the absence of full fault tolerance, quantum error mitigation techniques have been introduced to help manage errors in noisy quantum devices. In this work, we introduce an error mitigation protocol inspired by probabilistic error cancellation (a popular error mitigation technique in discrete variable systems) for continuous variable systems. We show that our quantum error cancellation protocol can undo photon losses in expectation value estimation tasks. To do this, we analytically derive the (non-physical) inverse photon loss channel and decompose it into a sum over physically realisable channels with potentially negative coefficients. The bias of our ideal expectation value estimator can be made arbitrarily small at the cost of increasing the sampling overhead. The protocol requires a noiseless amplification followed by a series of photon-subtractions. While these operations can be implemented probabilistically, for certain classes of initial state one can avoid the burden of carrying out the amplification and photon-subtractions by leveraging Monte-Carlo methods to give an unbiased estimate of the ideal expectation value. We validate our proposed mitigation protocol by simulating the scheme on squeezed vacuum states, cat states and entangled coherent states.
翻訳日:2024-03-11 19:56:46 公開日:2024-03-08
# 符号同変ニューラルネットワークを用いた電子波動関数の表現について

On Representing Electronic Wave Functions with Sign Equivariant Neural Networks ( http://arxiv.org/abs/2403.05249v1 )

ライセンス: Link先を確認
Nicholas Gao, Stephan G\"unnemann(参考訳) 最近のニューラルネットワークは、電子基底波関数の驚くほど正確な近似を示した。 このようなニューラルネットワークは通常、置換同変ニューラルネットワークと、電子交換対称性を強制する置換反対称演算からなる。 正確ではあるが、そのようなニューラルネットワークは計算コストが高い。 本研究では,まず電子座標に基づいて非対称量の計算を行い,その反対称性を維持するために符号同変ニューラルネットワークを適用する。 このアプローチは低次元表現による加速を約束するが、波関数における一般的な置換不変乗算係数であるジャストロー因子に還元できることを実証する。 私たちの経験的な結果はこれをさらにサポートし、ベースラインよりもほとんど、あるいは全く改善していません。 本研究の評価において, 電子波動関数を表す符号同変関数の理論的・経験的優位性は認められない。

Recent neural networks demonstrated impressively accurate approximations of electronic ground-state wave functions. Such neural networks typically consist of a permutation-equivariant neural network followed by a permutation-antisymmetric operation to enforce the electronic exchange symmetry. While accurate, such neural networks are computationally expensive. In this work, we explore the flipped approach, where we first compute antisymmetric quantities based on the electronic coordinates and then apply sign equivariant neural networks to preserve the antisymmetry. While this approach promises acceleration thanks to the lower-dimensional representation, we demonstrate that it reduces to a Jastrow factor, a commonly used permutation-invariant multiplicative factor in the wave function. Our empirical results support this further, finding little to no improvements over baselines. We conclude with neither theoretical nor empirical advantages of sign equivariant functions for representing electronic wave functions within the evaluation of this work.
翻訳日:2024-03-11 19:56:25 公開日:2024-03-08
# hide in thicket: 3次元点雲上の知覚不能で合理的な摂動を生成する

Hide in Thicket: Generating Imperceptible and Rational Adversarial Perturbations on 3D Point Clouds ( http://arxiv.org/abs/2403.05247v1 )

ライセンス: Link先を確認
Tianrui Lou, Xiaojun Jia, Jindong Gu, Li Liu, Siyuan Liang, Bangyan He, Xiaochun Cao(参考訳) 3Dポイントクラウド分類のための点操作に基づく逆攻撃法は、3Dモデルの脆弱性を明らかにしているが、それらが生成する逆攻撃例は容易に認識または防御される。 認識不能性と対向強度のトレードオフは、ほとんどのポイント攻撃法において、攻撃成功時に容易に検出可能なアウトリアポイントを導入することにつながる。 もう一つの有望な戦略である形状ベースの攻撃は、効果的に外れ値を取り除くことができるが、既存の手法では、不合理な変形によるインセプティビリティの大幅な低下をしばしば経験する。 人間の眼に敏感な領域における変形摂動の隠蔽は、知覚不可能性と対角的強度とのトレードオフを、特に複雑で劇的な曲率変化を示す物体表面の一部でより良く得ることが判明した。 そこで本研究では,まず2段階の攻撃領域探索を行い,その後ガウスカーネル関数を用いて各攻撃領域に変形摂動を付加する,新しい形状型対向攻撃手法HiT-ADVを提案する。 また、HiT-ADVは物理的攻撃に拡張可能である。 我々は,良性再サンプリングと良性剛性変換を用いることで,不受容性への犠牲がほとんどなく,身体的敵意の強さをさらに高めることができることを示唆する。 デジタル空間と物理空間の両方における対角的・非受容的特性の観点から,本手法の優位性を検証した。 私たちのコードは、 https://github.com/TRLou/HiT-ADV。

Adversarial attack methods based on point manipulation for 3D point cloud classification have revealed the fragility of 3D models, yet the adversarial examples they produce are easily perceived or defended against. The trade-off between the imperceptibility and adversarial strength leads most point attack methods to inevitably introduce easily detectable outlier points upon a successful attack. Another promising strategy, shape-based attack, can effectively eliminate outliers, but existing methods often suffer significant reductions in imperceptibility due to irrational deformations. We find that concealing deformation perturbations in areas insensitive to human eyes can achieve a better trade-off between imperceptibility and adversarial strength, specifically in parts of the object surface that are complex and exhibit drastic curvature changes. Therefore, we propose a novel shape-based adversarial attack method, HiT-ADV, which initially conducts a two-stage search for attack regions based on saliency and imperceptibility scores, and then adds deformation perturbations in each attack region using Gaussian kernel functions. Additionally, HiT-ADV is extendable to physical attack. We propose that by employing benign resampling and benign rigid transformations, we can further enhance physical adversarial strength with little sacrifice to imperceptibility. Extensive experiments have validated the superiority of our method in terms of adversarial and imperceptible properties in both digital and physical spaces. Our code is avaliable at: https://github.com/TRLou/HiT-ADV.
翻訳日:2024-03-11 19:56:12 公開日:2024-03-08
# lightm-unet: 医療用画像セグメンテーションのための軽量unetのmamba支援

LightM-UNet: Mamba Assists in Lightweight UNet for Medical Image Segmentation ( http://arxiv.org/abs/2403.05246v1 )

ライセンス: Link先を確認
Weibin Liao and Yinghao Zhu and Xinyuan Wang and Cehngwei Pan and Yasha Wang and Liantao Ma(参考訳) UNetとその変種は医療画像のセグメンテーションで広く使われている。 しかしながら、これらのモデル、特にTransformerアーキテクチャに基づくモデルは、多数のパラメータと計算負荷のために問題を起こし、モバイルヘルスアプリケーションには適さない。 最近、Mambaによって実証されたState Space Models (SSM) が、CNNやTransformerアーキテクチャの代替として登場した。 これに基づいて我々は、mambaをunet内のcnnとtransformerの軽量な代替として採用し、実際の医療環境での計算資源の制限に起因する課題に取り組むことを目的としています。 この目的のために、軽量フレームワークにMambaとUNetを統合するLightweight Mamba UNet(LightM-UNet)を紹介します。 特に、LightM-UNetはResidual Vision Mamba Layerを純粋なMamba方式で利用し、深い意味的特徴を抽出し、線形計算複雑性で長距離空間依存をモデル化する。 2つの実世界の2D/3Dデータセットで実施された大規模な実験は、LightM-UNetが既存の最先端の文献を上回っていることを示している。 特に、有名なnnU-Netと比較して、LightM-UNetは、パラメータと計算コストをそれぞれ116倍と21倍に大幅に削減しながら、優れたセグメンテーション性能を達成する。 これはモデルの軽量化を促進するMambaの可能性を強調している。 私たちのコード実装はhttps://github.com/MrBlankness/LightM-UNetで公開されています。

UNet and its variants have been widely used in medical image segmentation. However, these models, especially those based on Transformer architectures, pose challenges due to their large number of parameters and computational loads, making them unsuitable for mobile health applications. Recently, State Space Models (SSMs), exemplified by Mamba, have emerged as competitive alternatives to CNN and Transformer architectures. Building upon this, we employ Mamba as a lightweight substitute for CNN and Transformer within UNet, aiming at tackling challenges stemming from computational resource limitations in real medical settings. To this end, we introduce the Lightweight Mamba UNet (LightM-UNet) that integrates Mamba and UNet in a lightweight framework. Specifically, LightM-UNet leverages the Residual Vision Mamba Layer in a pure Mamba fashion to extract deep semantic features and model long-range spatial dependencies, with linear computational complexity. Extensive experiments conducted on two real-world 2D/3D datasets demonstrate that LightM-UNet surpasses existing state-of-the-art literature. Notably, when compared to the renowned nnU-Net, LightM-UNet achieves superior segmentation performance while drastically reducing parameter and computation costs by 116x and 21x, respectively. This highlights the potential of Mamba in facilitating model lightweighting. Our code implementation is publicly available at https://github.com/MrBlankness/LightM-UNet.
翻訳日:2024-03-11 19:55:45 公開日:2024-03-08
# 加速度MRIのロバスト再構成のための雑音レベル適応拡散モデル

Noise Level Adaptive Diffusion Model for Robust Reconstruction of Accelerated MRI ( http://arxiv.org/abs/2403.05245v1 )

ライセンス: Link先を確認
Shoujin Huang, Guanxiong Luo, Xi Wang, Ziran Chen, Yuwan Wang, Huaishui Yang, Pheng-Ann Heng, Lingyan Zhang, Mengye Lyu(参考訳) 一般に、拡散モデルに基づくMRI再構成法は、画像の再構成にデータ一貫性を付与しながら、人工的な付加ノイズを段階的に除去する。 しかし、現実のMRIは熱ゆらぎによる固有のノイズを含んでいる。 この現象は、先進的な研究に超高速で高分解能な撮像配列を使用する場合や、低所得国や中所得国に好まれる低磁場システムを使用する場合に特に顕著である。 これらの一般的なシナリオは、既存の拡散モデルに基づく再構築手法の準最適性能や完全な失敗につながる可能性がある。 具体的には、人工的な付加ノイズが徐々に除去されるにつれて、固有のMRIノイズがますます顕著になり、実際のノイズレベルが予め定義された復調スケジュールと矛盾し、結果として不正確な画像再構成が行われる。 この問題に対処するために,新しいNila-DC(NoIse Level Adaptive Data Consistency)演算を用いた後方サンプリング手法を提案する。 2つの公開データセットと、0.3Tから3Tまでのフィールド強度を持つ社内臨床データセットを用いて、広範囲にわたる実験を行い、この手法が最先端のMRI再構成法を超越し、様々なノイズレベルに対して高い堅牢性を示すことを示した。 コードはレビュー後にリリースされる。

In general, diffusion model-based MRI reconstruction methods incrementally remove artificially added noise while imposing data consistency to reconstruct the underlying images. However, real-world MRI acquisitions already contain inherent noise due to thermal fluctuations. This phenomenon is particularly notable when using ultra-fast, high-resolution imaging sequences for advanced research, or using low-field systems favored by low- and middle-income countries. These common scenarios can lead to sub-optimal performance or complete failure of existing diffusion model-based reconstruction techniques. Specifically, as the artificially added noise is gradually removed, the inherent MRI noise becomes increasingly pronounced, making the actual noise level inconsistent with the predefined denoising schedule and consequently inaccurate image reconstruction. To tackle this problem, we propose a posterior sampling strategy with a novel NoIse Level Adaptive Data Consistency (Nila-DC) operation. Extensive experiments are conducted on two public datasets and an in-house clinical dataset with field strength ranging from 0.3T to 3T, showing that our method surpasses the state-of-the-art MRI reconstruction methods, and is highly robust against various noise levels. The code will be released after review.
翻訳日:2024-03-11 19:55:19 公開日:2024-03-08
# RAT:ロング・ホライゾン・ジェネレーションにおける文脈認識推論の難易度向上

RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation ( http://arxiv.org/abs/2403.05313v1 )

ライセンス: Link先を確認
Zihao Wang and Anji Liu and Haowei Lin and Jiaqi Li and Xiaojian Ma and Yitao Liang(参考訳) 本研究では,情報検索の助けを借りて思考の連鎖を反復的に修正することで,長期化タスクにおける大規模言語モデルの推論と生成能力を大幅に向上すると同時に,幻覚を緩和する。 特に、提案手法である*retrieval-augmented thoughts* (rat)は、タスククエリ、現在のおよび過去の思考ステップに関連する検索情報を含む各思考ステップを、最初のゼロショットcot生成後に1つずつ修正する。 RATをGPT-3.5、GPT-4、CodeLLaMA-7bに適用すると、様々な長軸生成タスクにおけるパフォーマンスが大幅に向上し、コード生成では13.63%、数学的推論では16.96%、創造的記述では19.2%、具体的タスクプランニングでは42.78%向上した。 デモページはhttps://craftjarvis.github.io/RATで見ることができる。

We explore how iterative revising a chain of thoughts with the help of information retrieval significantly improves large language models' reasoning and generation ability in long-horizon generation tasks, while hugely mitigating hallucination. In particular, the proposed method -- *retrieval-augmented thoughts* (RAT) -- revises each thought step one by one with retrieved information relevant to the task query, the current and the past thought steps, after the initial zero-shot CoT is generated. Applying RAT to GPT-3.5, GPT-4, and CodeLLaMA-7b substantially improves their performances on various long-horizon generation tasks; on average of relatively increasing rating scores by 13.63% on code generation, 16.96% on mathematical reasoning, 19.2% on creative writing, and 42.78% on embodied task planning. The demo page can be found at https://craftjarvis.github.io/RAT
翻訳日:2024-03-11 19:40:20 公開日:2024-03-08
# ハイブリッド非線形干渉法による光バイアスリングバーグマイクロ波受信機

Optically-biased Rydberg microwave receiver enabled by hybrid nonlinear interferometry ( http://arxiv.org/abs/2403.05310v1 )

ライセンス: Link先を確認
Sebastian Bor\'owka, Mateusz Mazelanik, Wojciech Wasilewski, Micha{\l} Parniak(参考訳) Rydberg-atomicによるマイクロ波検出の急速な発展は、内在的に測定された新しいタイプのRF測定への道を開いた。 ライドバーグ気相をマイクロ波と光電界の両方に結合することにより、検出器に従来のRFアンテナが欠如しているため、全光学検出の利点、例えば、測定された磁場の弱破壊と極端に強い磁場への不安定性を利用することができる。 このアプローチの問題点は、局所振動子として作用するマイクロ波場を付加することにより最大の感度が示され、測定はもはや全光学的ではないためである。 ここでは, 感度を保ちつつ, 真の全光学演算を可能にする光学バイアス検出法を提案する。 非線形過程における位相スペクトルの分離測定を容易にし, 後処理の結果を用いることで, この種の検出に現れる非相関レーザー位相の問題に対処する。 我々は,176\ \mathrm{nV/cm/\sqrt{Hz}}$の感度と3.5\ \mathrm{mV/cm}$の13.9\ \mathrm{GHz}$の信頼性を報告した。

The rapid development in Rydberg-atomic detection of microwave fields has paved the way to a new type of intrinsically calibrated RF measurements. The coupling of Rydberg vapors medium both to microwave and optical fields allows harnessing the merits of all-optical detection, e.g.~weak disruption of the measured field and invulnerability to extremely strong fields, owing to the lack of conventional RF antenna in the detector. The trouble with this approach arises, as the greatest sensitivity is exhibited with the use of additional microwave field acting as a local oscillator, and the measurement can no longer be all-optical. Here we propose a different solution, optical-bias detection, that allows truly all-optical operation, while retaining most of the sensitivity. We tackle the issue of uncorrelated laser phase, emerging in this type of detection, by facilitating separate measurement of the phase spectrum in a nonlinear process and using the results in post-processing. We report the sensitivity of $176\ \mathrm{nV/cm/\sqrt{Hz}}$ and reliable operation up to $3.5\ \mathrm{mV/cm}$ of $13.9\ \mathrm{GHz}$ electric field, while comparing with the state of the art (although not all-optical) method realized in the same setup.
翻訳日:2024-03-11 19:39:57 公開日:2024-03-08
# Tapilot-Crossing: 対話型データ分析エージェントに向けたLCMのベンチマークと進化

Tapilot-Crossing: Benchmarking and Evolving LLMs Towards Interactive Data Analysis Agents ( http://arxiv.org/abs/2403.05307v1 )

ライセンス: Link先を確認
Jinyang Li, Nan Huo, Yan Gao, Jiayi Shi, Yingxiu Zhao, Ge Qu, Yurong Wu, Chenhao Ma, Jian-Guang Lou, Reynold Cheng(参考訳) 人間とLLMエージェントのコラボレーションであるInteractive Data Analysisは、情報意思決定のためのリアルタイムデータ探索を可能にする。 データ解析のためのリアルな対話ログ収集の課題とコストは、このタスクにおけるLarge Language Model (LLM)エージェントの定量的評価を妨げる。 この問題を軽減するために,対話型データ解析におけるLLMエージェント評価のための新しいベンチマークであるTapilot-Crossingを導入する。 Tapilot-Crossingには1024のインタラクションがあり、通常、アクション、プライベート、プライベートアクションの4つのシナリオをカバーする。 タピロット・クロッシングは、経済的なマルチエージェント環境である意思決定会社(Decision Company)によって建設され、人間の努力は少ない。 対話型データ解析の課題を浮き彫りにしたTapilot-CrossingにおけるLLMエージェントの評価を行った。 さらに, LLMエージェントが成功した歴史から学ぶための自己生成リフレクション戦略であるAdaptive Interaction Reflection (AIR)を提案する。 実験により、AirはLCMを効果的な対話型データ分析エージェントに進化させ、44.5%の相対的な性能向上を達成できることが示された。

Interactive Data Analysis, the collaboration between humans and LLM agents, enables real-time data exploration for informed decision-making. The challenges and costs of collecting realistic interactive logs for data analysis hinder the quantitative evaluation of Large Language Model (LLM) agents in this task. To mitigate this issue, we introduce Tapilot-Crossing, a new benchmark to evaluate LLM agents on interactive data analysis. Tapilot-Crossing contains 1024 interactions, covering 4 practical scenarios: Normal, Action, Private, and Private Action. Notably, Tapilot-Crossing is constructed by an economical multi-agent environment, Decision Company, with few human efforts. We evaluate popular and advanced LLM agents in Tapilot-Crossing, which underscores the challenges of interactive data analysis. Furthermore, we propose Adaptive Interaction Reflection (AIR), a self-generated reflection strategy that guides LLM agents to learn from successful history. Experiments demonstrate that Air can evolve LLMs into effective interactive data analysis agents, achieving a relative performance improvement of up to 44.5%.
翻訳日:2024-03-11 19:39:28 公開日:2024-03-08
# ACLSum:科学論文の要約のための新しいデータセット

ACLSum: A New Dataset for Aspect-based Summarization of Scientific Publications ( http://arxiv.org/abs/2403.05303v1 )

ライセンス: Link先を確認
Sotaro Takeshita, Tommaso Green, Ines Reinig, Kai Eckert, Simone Paolo Ponzetto(参考訳) これまでの大規模な取り組みは、要約データセットの開発に向けられてきた。 しかし、これらのリソースの大部分は、主にWebデータクローリングを通じて(半)自動生成され、結果として、要約システムのトレーニングと評価のためのサブパーリソースとなり、特に多様な言語や専門ドメインにおいて、地平の要約を生成するためのかなりのコストによって、品質上の妥協がもたらされた。 この問題に対処するため、ドメインの専門家によって慎重に作成・評価された新しい要約データセットであるACLSumを提案する。 以前のデータセットとは対照的に、aclsumは科学論文のマルチスペクトル要約を促進し、課題、アプローチ、成果を深くカバーする。 実験により,事前訓練された言語モデルと最先端の大規模言語モデル(LLM)に基づいて,資源の品質とモデルの性能を評価する。 さらに, 学術領域における抽出的・抽象的要約の有効性を, 自動的に発見される側面に基づいて検討する。 以上の結果は,一般領域におけるこれまでの知見と一致し,エンドツーエンドのアスペクトベース要約の汎用性を示している。 私たちのデータはhttps://github.com/sobamchan/aclsumで公開しています。

Extensive efforts in the past have been directed toward the development of summarization datasets. However, a predominant number of these resources have been (semi)-automatically generated, typically through web data crawling, resulting in subpar resources for training and evaluating summarization systems, a quality compromise that is arguably due to the substantial costs associated with generating ground-truth summaries, particularly for diverse languages and specialized domains. To address this issue, we present ACLSum, a novel summarization dataset carefully crafted and evaluated by domain experts. In contrast to previous datasets, ACLSum facilitates multi-aspect summarization of scientific papers, covering challenges, approaches, and outcomes in depth. Through extensive experiments, we evaluate the quality of our resource and the performance of models based on pretrained language models and state-of-the-art large language models (LLMs). Additionally, we explore the effectiveness of extractive versus abstractive summarization within the scholarly domain on the basis of automatically discovered aspects. Our results corroborate previous findings in the general domain and indicate the general superiority of end-to-end aspect-based summarization. Our data is released at https://github.com/sobamchan/aclsum.
翻訳日:2024-03-11 19:39:10 公開日:2024-03-08
# 多様性による統一:マルチモーダルVAEにおける表現学習の改善

Unity by Diversity: Improved Representation Learning in Multimodal VAEs ( http://arxiv.org/abs/2403.05300v1 )

ライセンス: Link先を確認
Thomas M. Sutter, Yang Meng, Norbert Fortin, Julia E. Vogt, Stephan Mandt(参考訳) マルチモーダルデータのための変分オートエンコーダは、表現学習、条件生成、計算などのデータ解析における多くのタスクを約束する。 現在のアーキテクチャはエンコーダ出力を共有したり、デコーダ入力を共有したり、あるいはモダリティを越えて共有表現を学ぶ。 このようなアーキテクチャはモデルに厳しい制約を課します。 本研究では,これらのハード制約をソフト制約に置き換えることで,より優れた潜在表現が得られることを示す。 本稿では,各モダリティの潜在表現を共有アグリゲーションの後方へソフトに誘導する,前もって経験者の混合を新たに提案する。 このアプローチは、優れた潜在表現をもたらし、各エンコーディングは、圧縮されていない元の特徴から情報を保存することができる。 複数のベンチマークデータセットと挑戦的な現実世界の神経科学データセットに関する広範な実験では、既存の手法と比較して学習された潜在表現と欠落したデータモダリティの計算が改善された。

Variational Autoencoders for multimodal data hold promise for many tasks in data analysis, such as representation learning, conditional generation, and imputation. Current architectures either share the encoder output, decoder input, or both across modalities to learn a shared representation. Such architectures impose hard constraints on the model. In this work, we show that a better latent representation can be obtained by replacing these hard constraints with a soft constraint. We propose a new mixture-of-experts prior, softly guiding each modality's latent representation towards a shared aggregate posterior. This approach results in a superior latent representation and allows each encoding to preserve information from its uncompressed original features better. In extensive experiments on multiple benchmark datasets and a challenging real-world neuroscience data set, we show improved learned latent representations and imputation of missing data modalities compared to existing methods.
翻訳日:2024-03-11 19:38:50 公開日:2024-03-08
# PEEB: 説明可能な編集可能な言語ボトルネックを持つ部分ベース画像分類器

PEEB: Part-based Image Classifiers with an Explainable and Editable Language Bottleneck ( http://arxiv.org/abs/2403.05297v1 )

ライセンス: Link先を確認
Thang M. Pham, Peijie Chen, Tin Nguyen, Seunghyun Yoon, Trung Bui, Anh Nguyen(参考訳) CLIPベースの分類器は、テキストエンコーダで知られている {class name} を含むプロンプトに依存する。 つまり、CLIPは新しいクラスやインターネットにはほとんど名前がないクラス(例えば、鳥の科学的名前)でうまく機能しない。 詳細分類のために,(1)クラス名を,そのクラスの視覚的部分を記述する事前定義されたテキスト記述子の集合に表現し,(2)検出された部分を各クラスのテキスト記述子に埋め込み,分類のためのロジットスコアを計算する,説明可能で編集可能な分類子peebを提案する。 クラス名が不明なゼロショット設定では、PEEBはCLIPを大きなマージン(精度はおよそ10倍)で上回る。 部分ベースの分類器と比較して、peebは教師付き学習設定の最先端(88.80%の精度)であるだけでなく、ユーザがクラス定義を編集して再トレーニングせずに新しい分類器を作成できる最初のものでもある。 概念ボトルネックモデルと比較すると、PEEBはゼロショットと教師付き学習設定の両方において最先端である。

CLIP-based classifiers rely on the prompt containing a {class name} that is known to the text encoder. That is, CLIP performs poorly on new classes or the classes whose names rarely appear on the Internet (e.g., scientific names of birds). For fine-grained classification, we propose PEEB - an explainable and editable classifier to (1) express the class name into a set of pre-defined text descriptors that describe the visual parts of that class; and (2) match the embeddings of the detected parts to their textual descriptors in each class to compute a logit score for classification. In a zero-shot setting where the class names are unknown, PEEB outperforms CLIP by a large margin (~10x in accuracy). Compared to part-based classifiers, PEEB is not only the state-of-the-art on the supervised-learning setting (88.80% accuracy) but also the first to enable users to edit the class definitions to form a new classifier without retraining. Compared to concept bottleneck models, PEEB is also the state-of-the-art in both zero-shot and supervised learning settings.
翻訳日:2024-03-11 19:38:33 公開日:2024-03-08
# 対角的線形ネットワークの訓練における運動量理解のための連続時間の利用

Leveraging Continuous Time to Understand Momentum When Training Diagonal Linear Networks ( http://arxiv.org/abs/2403.05293v1 )

ライセンス: Link先を確認
Hristo Papazov, Scott Pesme, Nicolas Flammarion(参考訳) 本研究では,傾斜勾配の最適化軌道に対する運動量の影響について検討する。 ステップサイズ $\gamma$ と運動量パラメータ $\beta$ による運動量勾配降下の解析において、連続時間アプローチを活用し、本質量 $\lambda = \frac{ \gamma }{ (1 - \beta)^2 }$ を識別し、最適化パスを一意に定義し、簡単な加速度ルールを提供する。 過パラメータ回帰設定で$$$のダイアゴナル線形ネットワークをトレーニングするとき、我々は回復した解を暗黙の正規化問題を通じて特徴づける。 そして、$\lambda$の小さな値がスパース解の回復に役立つことを証明します。 最後に、確率運動量勾配降下について類似しているが弱い結果を与える。 我々の主張を裏付ける数値実験を行う。

In this work, we investigate the effect of momentum on the optimisation trajectory of gradient descent. We leverage a continuous-time approach in the analysis of momentum gradient descent with step size $\gamma$ and momentum parameter $\beta$ that allows us to identify an intrinsic quantity $\lambda = \frac{ \gamma }{ (1 - \beta)^2 }$ which uniquely defines the optimisation path and provides a simple acceleration rule. When training a $2$-layer diagonal linear network in an overparametrised regression setting, we characterise the recovered solution through an implicit regularisation problem. We then prove that small values of $\lambda$ help to recover sparse solutions. Finally, we give similar but weaker results for stochastic momentum gradient descent. We provide numerical experiments which support our claims.
翻訳日:2024-03-11 19:38:06 公開日:2024-03-08
# 曖昧なソフトな$\beta$-covering近似空間の基礎的命題

Foundational propositions of hesitant fuzzy soft $\beta$-covering approximation spaces ( http://arxiv.org/abs/2403.05290v1 )

ライセンス: Link先を確認
Shizhan Lu(参考訳) ソフト・セット理論は不確実な情報を扱う数学的枠組みとして機能し、ヘジット・ファジィ・セットは不確実性やためらいを伴うシナリオに広範な応用を見出す。 ヘジットファジィ集合は様々な会員の学位を示し、それらの間の様々な形態の包摂関係を生み出している。 本稿は, ヒューシタンシーファジィ集合間の包含関係の異なる形式に基づいて定式化された, ヒューシタントなファジィソフト$\beta$-coverings と ヒューシタントソフト$\beta$-neighborhoods の概念を紹介する。 その後,いくつかの関連特性について検討した。 さらに、ヘシタトファジィソフト $\beta$-coverings の特定のバリエーションは、ヘシタトファジィラフ集合を組み込んだ後、ヘシタトファジィソフト $\beta$-covering approximation space に関連する性質の探索によって導入される。

Soft set theory serves as a mathematical framework for handling uncertain information, and hesitant fuzzy sets find extensive application in scenarios involving uncertainty and hesitation. Hesitant fuzzy sets exhibit diverse membership degrees, giving rise to various forms of inclusion relationships among them. This article introduces the notions of hesitant fuzzy soft $\beta$-coverings and hesitant fuzzy soft $\beta$-neighborhoods, which are formulated based on distinct forms of inclusion relationships among hesitancy fuzzy sets. Subsequently, several associated properties are investigated. Additionally, specific variations of hesitant fuzzy soft $\beta$-coverings are introduced by incorporating hesitant fuzzy rough sets, followed by an exploration of properties pertaining to hesitant fuzzy soft $\beta$-covering approximation spaces.
翻訳日:2024-03-11 19:37:48 公開日:2024-03-08
# LLM4Decompile: 大きな言語モデルでバイナリコードを分解する

LLM4Decompile: Decompiling Binary Code with Large Language Models ( http://arxiv.org/abs/2403.05286v1 )

ライセンス: Link先を確認
Hanzhuo Tan, Qi Luo, Jing Li, Yuqun Zhang(参考訳) Decompilationは、コンパイルされたコードを可読性のあるソースコードに復元することを目的としている。 大規模言語モデル(LLM)は、プログラムタスクの約束を示し、そのアプリケーションを非コンパイルに動機付ける。 しかし、逆コンパイルのためのオープンソースの LLM は存在しない。 さらに、既存の非コンパイル評価システムは主にトークンレベルの精度を考慮しており、どのプログラムでも最も重要な機能であるコード実行可能性を無視している。 そこで我々は,C ソースコードと対応するアセンブリコードの40億個のトークンを事前訓練した 1B から 33B までの,最初のオープンアクセス逆コンパイル LLM をリリースする。 オープンソースのLLMは、この分野におけるさらなる開発のためのベースラインとして機能する。 実用的なプログラム評価を実現するために,再コンパイル性と再実行性を考慮した最初のデータセットであるDecompile-Evalを導入する。 このベンチマークは、プログラムの意味論の観点から逆コンパイルモデルを評価することの重要性を強調している。 LLM4Decompileは、アセンブリコードの21%を正確に分解できる能力を示しており、GPT-4よりも50%改善されている。 私たちのコード、データセット、モデルはhttps://github.com/albertan017/LLM4Decompileでリリースされます。

Decompilation aims to restore compiled code to human-readable source code, but struggles with details like names and structure. Large language models (LLMs) show promise for programming tasks, motivating their application to decompilation. However, there does not exist any open-source LLM for decompilation. Moreover, existing decompilation evaluation systems mainly consider token-level accuracy and largely ignore code executability, which is the most important feature of any program. Therefore, we release the first open-access decompilation LLMs ranging from 1B to 33B pre-trained on 4 billion tokens of C source code and the corresponding assembly code. The open-source LLMs can serve as baselines for further development in the field. To ensure practical program evaluation, we introduce Decompile-Eval, the first dataset that considers re-compilability and re-executability for decompilation. The benchmark emphasizes the importance of evaluating the decompilation model from the perspective of program semantics. Experiments indicate that our LLM4Decompile has demonstrated the capability to accurately decompile 21% of the assembly code, which achieves a 50% improvement over GPT-4. Our code, dataset, and models are released at https://github.com/albertan017/LLM4Decompile
翻訳日:2024-03-11 19:37:24 公開日:2024-03-08
# マルコフ量子系の時間最適冷却

Provably Time-Optimal Cooling of Markovian Quantum Systems ( http://arxiv.org/abs/2403.05285v1 )

ライセンス: Link先を確認
Emanuel Malvetti(参考訳) 我々は、マルコフ量子系を可能な限り短時間で純粋な状態に冷却する問題に対処する。 ここで、システムドリフトはlindbladマスター方程式の形をとり、高速なユニタリ制御を仮定する。 この設定により、状態密度行列の固有値への制御系の自然な還元が可能になる。 我々は、(漸近的に)冷却可能なシステムの簡易かつ十分な特性を与え、最適な冷却解の探索を著しく単純化する強力な結果を示す。 これらのツールを使用することで、ランク1キュービットシステムの明示的な時間最適冷却プロトコルを導出し、キュートリット上の$\lambda$-systemsを反転させ、2つの結合キュービットからなるシステムを得ることができます。

We address the problem of cooling a Markovian quantum system to a pure state in the shortest amount of time possible. Here the system drift takes the form of a Lindblad master equation and we assume fast unitary control. This setting allows for a natural reduction of the control system to the eigenvalues of the state density matrix. We give a simple necessary and sufficient characterization of systems which are (asymptotically) coolable and present a powerful result which allows to considerably simplify the search for optimal cooling solutions. With these tools at our disposal we derive explicit provably time-optimal cooling protocols for rank one qubit systems, inverted $\Lambda$-systems on a qutrit, and a certain system consisting of two coupled qubits.
翻訳日:2024-03-11 19:37:06 公開日:2024-03-08
# コピュラスの効率的な擬似サンプリング

An Efficient Quasi-Random Sampling for Copulas ( http://arxiv.org/abs/2403.05281v1 )

ライセンス: Link先を確認
Sumin Wang, Chenxian Huang, Yongdao Zhou and Min-Qian Liu(参考訳) 本稿ではモンテカルロ計算におけるコプラの擬似ランダムサンプリング法について検討する。 条件分布法(CDM)のような従来の手法は、高次元または暗黙のコプラを扱う際に制限があり、既存のパラメトリックコプラで正確に表現できないものを指す。 そこで本研究では,GAN(Generative Adversarial Networks)などの生成モデルを用いて,コーパスの準ランダムなサンプルを生成する。 GANは、複雑なデータの分布を学習するために使われる暗黙的な生成モデルの一種であり、簡単にサンプリングできる。 本研究では,GANを用いて一様分布からコプラへのマッピングを学習する。 この写像が学習されると、コプラから準ランダムサンプルを得るには、均一分布から準ランダムサンプルを入力する必要がある。 このアプローチは、任意のcopulaに対してより柔軟な方法を提供します。 さらに,コプラの準ランダムサンプルに基づく準モンテカルロ推定器の理論的解析を行う。 特にリスク管理の分野では,シミュレーションおよび実用的応用により,提案手法を検証し,既存の手法よりも優れていることを示す。

This paper examines an efficient method for quasi-random sampling of copulas in Monte Carlo computations. Traditional methods, like conditional distribution methods (CDM), have limitations when dealing with high-dimensional or implicit copulas, which refer to those that cannot be accurately represented by existing parametric copulas. Instead, this paper proposes the use of generative models, such as Generative Adversarial Networks (GANs), to generate quasi-random samples for any copula. GANs are a type of implicit generative models used to learn the distribution of complex data, thus facilitating easy sampling. In our study, GANs are employed to learn the mapping from a uniform distribution to copulas. Once this mapping is learned, obtaining quasi-random samples from the copula only requires inputting quasi-random samples from the uniform distribution. This approach offers a more flexible method for any copula. Additionally, we provide theoretical analysis of quasi-Monte Carlo estimators based on quasi-random samples of copulas. Through simulated and practical applications, particularly in the field of risk management, we validate the proposed method and demonstrate its superiority over various existing methods.
翻訳日:2024-03-11 19:36:53 公開日:2024-03-08
# コントラスト診断 : コントラスト学習を用いた肺結節診断における解釈性の向上

ContrastDiagnosis: Enhancing Interpretability in Lung Nodule Diagnosis Using Contrastive Learning ( http://arxiv.org/abs/2403.05280v1 )

ライセンス: Link先を確認
Chenglong Wang, Yinqiao Yi, Yida Wang, Chengxiu Zhang, Yun Liu, Kensaku Mori, Mei Yuan, Guang Yang(参考訳) ディープラーニングの継続的な発展に伴い、AIモデルが人間の臨床実践者のパフォーマンスレベルを上回っている。 しかし、実際の臨床実践におけるAI診断製品の頻度は、望んでいたよりも著しく低いままである。 このギャップの重要な理由は、いわゆる“ブラックボックス(black box)”的なaiモデルの性質にある。 臨床医のブラックボックスモデルに対する不信は、AI製品の臨床展開を直接妨げている。 この課題に対処するため, 簡便かつ効果的な診断フレームワークであるContrastDiagnosisを提案する。 本フレームワークは, 深層学習モデルに固有の透明性を導入し, 広範なポストホックな説明性を提供し, 臨床診断に適するように設計されている。 コントラスト診断には対比学習機構が組み込まれており、ケースベースの推論診断の根拠を提供し、モデルの透明性を高め、同様の領域を強調することでポストホックな解釈性を提供する。 AUCは0.977の精度で高い透明性と説明可能性を維持した。

With the ongoing development of deep learning, an increasing number of AI models have surpassed the performance levels of human clinical practitioners. However, the prevalence of AI diagnostic products in actual clinical practice remains significantly lower than desired. One crucial reason for this gap is the so-called `black box' nature of AI models. Clinicians' distrust of black box models has directly hindered the clinical deployment of AI products. To address this challenge, we propose ContrastDiagnosis, a straightforward yet effective interpretable diagnosis framework. This framework is designed to introduce inherent transparency and provide extensive post-hoc explainability for deep learning model, making them more suitable for clinical medical diagnosis. ContrastDiagnosis incorporates a contrastive learning mechanism to provide a case-based reasoning diagnostic rationale, enhancing the model's transparency and also offers post-hoc interpretability by highlighting similar areas. High diagnostic accuracy was achieved with AUC of 0.977 while maintain a high transparency and explainability.
翻訳日:2024-03-11 19:36:36 公開日:2024-03-08
# Tavis-Cummingsモデルにおける二重ハイゼンベルクスケーリング感度のアプローチ

Approaching the double-Heisenberg-scaling sensitivity in the Tavis-Cummings model ( http://arxiv.org/abs/2403.05279v1 )

ライセンス: Link先を確認
Yuguo Su, Hai-Long Shi, Xiao-Guang Wang, Chaohong Lee, and Xi-Wen Guan(参考訳) 非古典的初期状態を必要としない量子エンハンスパラメータ推定の追求は、実験的にアクセス可能な量子メトロロジーを達成するという目標により、長い間推進されてきた。 本稿では,コヒーレント平均化機構を用いて,tavis-cummings (tc) モデルのような初期型キャビティ量子電磁力学 (qed) システムにより,平均光子数と原子数の両方についてハイゼンベルクスケーリング (hs) 精度だけでなく,二重hs感度も達成できることを実証する。 このような二重感性は、量子スクイーズにより光子または原子価の変動を導入することで実験的に実現できる。 さらに, スクイーズが完全ではない現実的な実験環境において, この2重hs精度を達成するための手法について検討する。 本研究は,量子化精度測定のためのコヒーレント平均化機構の解明と,空洞QEDシステムの利用性について考察した。

The pursuit of quantum-enhanced parameter estimations without the need for nonclassical initial states has long been driven by the goal of achieving experimentally accessible quantum metrology. In this paper, employing a coherent averaging mechanism, we prove that the prototypical cavity-quantum electrodynamics (QED) system, such as the Tavis-Cummings (TC) model, enables us to achieve not only the Heisenberg scaling (HS) precision in terms of the average photon number but also the double-HS sensitivity concerning both the average photon and atom numbers. Such a double sensibility can be experimentally realized by introducing either photon- or atom-number fluctuations through quantum squeezing. Furthermore, we discuss the methodology to achieve this double-HS precision in a realistic experimental circumstance where the squeezing is not perfect. Our results provide insights into understanding the coherent averaging mechanism for evaluating quantum-enhanced precision measurements and also present a usable metrological application of the cavity QED systems.
翻訳日:2024-03-11 19:36:21 公開日:2024-03-08
# 量子アニーリングを用いた高性能コンピューティングのためのロードバランシング

Load Balancing For High Performance Computing Using Quantum Annealing ( http://arxiv.org/abs/2403.05278v1 )

ライセンス: Link先を確認
Omer Rathore, Alastair Basden, Nicholas Chancellor and Halim Kusumaatmaja(参考訳) exascale computingの出現により、超並列ソフトウェアアプリケーションにおける効果的なロードバランシングは、高性能コンピューティングシステムの潜在能力を最大限活用するために非常に重要である。 ロードバランシングは利用可能なプロセッサ間の計算作業の分散である。 本稿では,高性能コンピューティングにおける2つのパラダイムアルゴリズムの負荷バランスに対する量子アニーリングの適用について検討する。 すなわち,適応メッシュ微細化と平滑化粒子流体力学を代表格子とオフグリッドターゲットとして選択する。 実際のシミュレーションデータを分割する手法はアプリケーション固有のものであるが、提案した分散プロトコル自体は完全に一般的である。 グリッドベースの文脈では、量子アニーリングはラウンドロビンプロトコルのような古典的な方法よりも優れているが、最も急降下やシミュレートアニーリングのようなより高度な方法よりも決定的なアドバンテージを欠いている。 スケーラビリティに対する主な障害は、現在の量子アニールハードウェアにおける限定的な結合である。 しかし、多目的最適化としてアプローチされたより複雑な粒子の定式化では、量子アニーリング解は、両方の目的において芸術的古典的手法の状態に支配的な存在である。 これは、効果的なCPU使用量に大きな影響を与える、ソリューション品質の注目すべき進歩を示している。

With the advent of exascale computing, effective load balancing in massively parallel software applications is critically important for leveraging the full potential of high performance computing systems. Load balancing is the distribution of computational work between available processors. Here, we investigate the application of quantum annealing to load balance two paradigmatic algorithms in high performance computing. Namely, adaptive mesh refinement and smoothed particle hydrodynamics are chosen as representative grid and off-grid target applications. While the methodology for obtaining real simulation data to partition is application specific, the proposed balancing protocol itself remains completely general. In a grid based context, quantum annealing is found to outperform classical methods such as the round robin protocol but lacks a decisive advantage over more advanced methods such as steepest descent or simulated annealing despite remaining competitive. The primary obstacle to scalability is found to be limited coupling on current quantum annealing hardware. However, for the more complex particle formulation, approached as a multi-objective optimization, quantum annealing solutions are demonstrably Pareto dominant to state of the art classical methods across both objectives. This signals a noteworthy advancement in solution quality which can have a large impact on effective CPU usage.
翻訳日:2024-03-11 19:36:00 公開日:2024-03-08
# vSPACE: スケーラブルでプライバシに配慮した投票と秘密選挙

vSPACE: Voting in a Scalable, Privacy-Aware and Confidential Election ( http://arxiv.org/abs/2403.05275v1 )

ライセンス: Link先を確認
Se Elnour and William J Buchanan and Paul Keating and Mwrwan Abubakar and Sirag Elnour(参考訳) vspace experimental proof-of-concept(poc)は、trueelect[anon][creds]プロトコル上で、セキュアでプライベートでスケーラブルな選挙への新しいアプローチを示し、trueelectとelectanonプロトコルをanoncreds ssi(self-sovereign identity)の統合とともに拡張する。 このようなプロトコル PoC はゼロ・トラスト・アーキテクチャ (ZTA) 内に存在し、機密計算、連続認証、マルチパーティ・コンピューティング (MPC) 、そしてセキュリティ、プライバシ、IP (ToIP) 保護に対する信頼という課題に対処するためのよく設計されたフレームワーク (WAF) の原則を活用する。 エンタープライズスケールランディングゾーン(ESLZ)内にKubernetesの機密クラスタを使用することで、vSPACEは、不変かつ認定可能な監査パスにDistributed Ledger Technology(DLT)を統合する。 Infrastructure as Code(IaC)モデルは、迅速なデプロイメント、一貫性のある管理、セキュリティ標準への準拠を保証する。

The vSPACE experimental proof-of-concept (PoC) on the TrueElect[Anon][Creds] protocol presents a novel approach to secure, private, and scalable elections, extending the TrueElect and ElectAnon protocols with the integration of AnonCreds SSI (Self-Sovereign Identity). Such a protocol PoC is situated within a Zero-Trust Architecture (ZTA) and leverages confidential computing, continuous authentication, multi-party computation (MPC), and well-architected framework (WAF) principles to address the challenges of cybersecurity, privacy, and trust over IP (ToIP) protection. Employing a Kubernetes confidential cluster within an Enterprise-Scale Landing Zone (ESLZ), vSPACE integrates Distributed Ledger Technology (DLT) for immutable and certifiable audit trails. The Infrastructure as Code (IaC) model ensures rapid deployment, consistent management, and adherence to security standards, making vSPACE a future-proof solution for digital voting systems.
翻訳日:2024-03-11 19:35:37 公開日:2024-03-08
# オピニオンダイナミクスモデルにおけるパラメータの変分推論

Variational Inference of Parameters in Opinion Dynamics Models ( http://arxiv.org/abs/2403.05358v1 )

ライセンス: Link先を確認
Jacopo Lenti, Fabrizio Silvestri, Gianmarco De Francisci Morales(参考訳) エージェントベースモデル(ABM)を社会現象の研究に頻繁に使用しているが、パラメータ推定は依然として困難であり、しばしばコストのかかるシミュレーションベースのヒューリスティックに依存している。 本研究は, 推定問題を直接解くことができる最適化タスクに変換することにより, 変分推論を用いてオピニオンダイナミクス abm のパラメータを推定する。 提案手法は確率的生成 ABM (probabilistic generative ABMs: PGABMs): ABMルールから確率的生成モデルを合成することから始まる。 そして、推論プロセスを自動微分に適した最適化問題に変換する。 特に,分類エージェント属性にはGumbel-Softmax再パラメータ化,パラメータ推定には確率的変動推定を用いる。 さらに,複雑性の異なる変分分布(正規分布と正規化フロー)を用いるトレードオフについても検討する。 我々は,エージェントの役割(リーダーとフォロワー)を持つ有界信頼モデルを用いて手法を検証する。 提案手法は, シミュレーションベース法とMCMC法より, マクロ的(有界信頼区間とバックファイア閾値)と微視的(200ドル, エージェントレベル)の両方を正確に推定する。 その結果,ABMを実世界観測に対して調整し,検証することが可能となり,データ駆動分析による社会システムにおける人間の行動の洞察が得られた。

Despite the frequent use of agent-based models (ABMs) for studying social phenomena, parameter estimation remains a challenge, often relying on costly simulation-based heuristics. This work uses variational inference to estimate the parameters of an opinion dynamics ABM, by transforming the estimation problem into an optimization task that can be solved directly. Our proposal relies on probabilistic generative ABMs (PGABMs): we start by synthesizing a probabilistic generative model from the ABM rules. Then, we transform the inference process into an optimization problem suitable for automatic differentiation. In particular, we use the Gumbel-Softmax reparameterization for categorical agent attributes and stochastic variational inference for parameter estimation. Furthermore, we explore the trade-offs of using variational distributions with different complexity: normal distributions and normalizing flows. We validate our method on a bounded confidence model with agent roles (leaders and followers). Our approach estimates both macroscopic (bounded confidence intervals and backfire thresholds) and microscopic ($200$ categorical, agent-level roles) more accurately than simulation-based and MCMC methods. Consequently, our technique enables experts to tune and validate their ABMs against real-world observations, thus providing insights into human behavior in social systems via data-driven analysis.
翻訳日:2024-03-11 13:27:38 公開日:2024-03-08
# mriスキャンによるアルツハイマー病診断の改善を目的とした畳み込みニューラルネットワークと長期記憶のハイブリッド化

Hybridized Convolutional Neural Networks and Long Short-Term Memory for Improved Alzheimer's Disease Diagnosis from MRI Scans ( http://arxiv.org/abs/2403.05353v1 )

ライセンス: Link先を確認
Maleka Khatun, Md Manowarul Islam, Habibur Rahman Rifat, Md. Shamim Bin Shahid, Md. Alamin Talukder, Md Ashraf Uddin(参考訳) 脳関連疾患は、手術手順の複雑さ、高いコスト、その他の課題など、いくつかの要因により、他の疾患よりも敏感である。 アルツハイマー病は、記憶喪失と脳細胞の収縮を引き起こす一般的な脳疾患である。 早期発見は患者に適切な治療を与えるために重要である。 しかし,CTやMRIを手動でスキャンすることで早期にアルツハイマー病を同定することは困難である。 そのため研究者たちは、機械学習とディープラーニングの方法論を用いて、アルツハイマー病を検出するためにデータセットのトレーニングを伴い、コンピュータ支援システムの探索に取り組んできた。 本研究では,CNNモデルの特徴抽出機能とLSTMモデルの検出機能を組み合わせたハイブリッドモデルを提案する。 本研究では,VGG16と呼ばれる伝達学習をハイブリッドモデルに適用し,MRI画像から特徴を抽出した。 lstmは畳み込み層と完全連結層との間の特徴を検出する。 完全連結層の出力層はソフトマックス関数を使用する。 ADNIデータセットを利用したハイブリッドモデルのトレーニング。 実験の結果,モデルの精度は98.8%,感度100%,特異度76%であった。 提案したハイブリッドモデルは、同時代のCNNモデルよりも優れており、優れた性能を示している。

Brain-related diseases are more sensitive than other diseases due to several factors, including the complexity of surgical procedures, high costs, and other challenges. Alzheimer's disease is a common brain disorder that causes memory loss and the shrinking of brain cells. Early detection is critical for providing proper treatment to patients. However, identifying Alzheimer's at an early stage using manual scanning of CT or MRI scans is challenging. Therefore, researchers have delved into the exploration of computer-aided systems, employing Machine Learning and Deep Learning methodologies, which entail the training of datasets to detect Alzheimer's disease. This study aims to present a hybrid model that combines a CNN model's feature extraction capabilities with an LSTM model's detection capabilities. This study has applied the transfer learning called VGG16 in the hybrid model to extract features from MRI images. The LSTM detects features between the convolution layer and the fully connected layer. The output layer of the fully connected layer uses the softmax function. The training of the hybrid model involved utilizing the ADNI dataset. The trial findings revealed that the model achieved a level of accuracy of 98.8%, a sensitivity rate of 100%, and a specificity rate of 76%. The proposed hybrid model outperforms its contemporary CNN counterparts, showcasing a superior performance.
翻訳日:2024-03-11 13:27:14 公開日:2024-03-08
# Denoising Autoencoderによる生成設計の可塑性評価の強化

Enhancing Plausibility Evaluation for Generated Designs with Denoising Autoencoder ( http://arxiv.org/abs/2403.05352v1 )

ライセンス: Link先を確認
Jiajie Fan, Amal Trigui, Thomas B\"ack, Hao Wang(参考訳) 生成設計にDeep Generative Models (DGM)を使うことに大きな関心が寄せられている。 生成した設計の質を評価する際、人間の設計者は、例えば、画像のノイズのような視覚的なアーチファクトではなく、欠落したコンポーネントなどの構造的妥当性に重点を置いている。 一方、Fr\'echet Inception Distance (FID)のような一般的なメトリクスは、構造的不確実性ではなく視覚的アーティファクトを罰する傾向があるため、正確に評価することができない。 したがって、FIDは、生成設計タスクにおけるDGMの性能を評価するのに適していないかもしれない。 そこで本研究では,単純なDenoising Autoencoder (DAE) を用いて入力設計を符号化し,その潜在空間における分布距離を測定することを提案する。 FID や FD$_\text{DINO-V2}$ やトポロジ距離といった最近の研究と比較すると、DAE ベースのメトリクスは、予測不可能な構造を効果的に検出でき、人間の専門家による構造検査とより整合性が高い。

A great interest has arisen in using Deep Generative Models (DGM) for generative design. When assessing the quality of the generated designs, human designers focus more on structural plausibility, e.g., no missing component, rather than visual artifacts, e.g., noises in the images. Meanwhile, commonly used metrics such as Fr\'echet Inception Distance (FID) may not evaluate accurately as they tend to penalize visual artifacts instead of structural implausibility. As such, FID might not be suitable to assess the performance of DGMs for a generative design task. In this work, we propose to encode the input designs with a simple Denoising Autoencoder (DAE) and measure the distribution distance in the latent space thereof. We experimentally test our DAE-based metrics with FID and other state-of-the-art metrics on three data sets: compared to FID and some more recent works, e.g., FD$_\text{DINO-V2}$ and topology distance, DAE-based metrics can effectively detect implausible structures and are more consistent with structural inspection by human experts.
翻訳日:2024-03-11 13:26:56 公開日:2024-03-08
# 全スライド画像分類のためのランダムサンプリングによる複数インスタンス学習

Multiple Instance Learning with random sampling for Whole Slide Image Classification ( http://arxiv.org/abs/2403.05351v1 )

ライセンス: Link先を確認
H. Keshvarikhojasteh, J.P.W. Pluim, M. Veta(参考訳) 計算病理学では、MIL(Multiple Instance Learning)法の訓練中のパッチのランダムサンプリングは、計算効率が高く、正規化戦略として機能する。 その有望な利点にもかかわらず、様々なサンプルサイズのパフォーマンストレンドとそのモデル解釈可能性への影響に関する疑問が残る。 これらの問題に対処するため、CAMELYON16データセットの30%のパッチを使用して1.7%、TUPAC16データセットの8サンプルだけで3.7%の最適なパフォーマンス向上を実現しました。 また,解釈可能性効果はデータセットに依存し,解釈性はCAMELYON16に影響を及ぼすが,TUPAC16には影響しない。 これは、サンプリングとパフォーマンスと解釈可能性の関係が密接にタスク固有であることを裏付ける。 1024のサンプルによるエンドツーエンドのトレーニングでは、既存の機能と比較して、両方のデータセットにまたがる改善が示されている。

In computational pathology, random sampling of patches during training of Multiple Instance Learning (MIL) methods is computationally efficient and serves as a regularization strategy. Despite its promising benefits, questions concerning performance trends for varying sample sizes and its influence on model interpretability remain. Addressing these, we reach an optimal performance enhancement of 1.7% using thirty percent of patches on the CAMELYON16 dataset, and 3.7% with only eight samples on the TUPAC16 dataset. We also find interpretability effects are strongly dataset-dependent, with interpretability impacted on CAMELYON16, while remaining unaffected on TUPAC16. This reinforces that both the performance and interpretability relationships with sampling are closely task-specific. End-to-end training with 1024 samples reveals improvements across both datasets compared to pre-extracted features, further highlighting the potential of this efficient approach.
翻訳日:2024-03-11 13:26:33 公開日:2024-03-08
# VLM-PL:視覚言語モデルを用いたクラスインクリメンタルオブジェクト検出手法

VLM-PL: Advanced Pseudo Labeling approach Class Incremental Object Detection with Vision-Language Model ( http://arxiv.org/abs/2403.05346v1 )

ライセンス: Link先を確認
Junsu Kim, Yunhoe Ku, Jihyeon Kim, Junuk Cha, Seungryul Baek(参考訳) クラスインクリメンタルオブジェクト検出(CIOD)の分野では、人間のように継続的に学習できるモデルを作成することが大きな課題である。 擬似ラベル法は、当初は強力だったが、過去の知識を忘れてしまう傾向があるため、多段階的学習に苦しむ。 これを解決するために,視覚言語モデルを用いた擬似ラベリング(VLM-PL)を提案する。 この手法は視覚言語モデル(VLM)を用いて、追加のモデルトレーニングを必要とせず、擬似接地真実(GT)の正しさを検証する。 VLM-PLは、事前訓練された検出器から擬似GTを誘導することから始まる。 そして,画像とテキストの機能を組み合わせたプロンプトテンプレートを用いて,擬似GT毎にカスタムクエリを生成する。 これにより、VLMは応答によって正しさを分類できる。 さらに、VLM-PLは、今後のトレーニングから改良された擬似GTと実GTを統合し、新しい知識と古い知識を効果的に組み合わせている。 Pascal VOCとMS COCOデータセットで実施された大規模な実験は、マルチシナリオにおけるVLM-PLの例外的な性能を強調しただけでなく、両者で最先端の結果を得ることによって、デュアルシナリオにおけるその効果を照らしている。

In the field of Class Incremental Object Detection (CIOD), creating models that can continuously learn like humans is a major challenge. Pseudo-labeling methods, although initially powerful, struggle with multi-scenario incremental learning due to their tendency to forget past knowledge. To overcome this, we introduce a new approach called Vision-Language Model assisted Pseudo-Labeling (VLM-PL). This technique uses Vision-Language Model (VLM) to verify the correctness of pseudo ground-truths (GTs) without requiring additional model training. VLM-PL starts by deriving pseudo GTs from a pre-trained detector. Then, we generate custom queries for each pseudo GT using carefully designed prompt templates that combine image and text features. This allows the VLM to classify the correctness through its responses. Furthermore, VLM-PL integrates refined pseudo and real GTs from upcoming training, effectively combining new and old knowledge. Extensive experiments conducted on the Pascal VOC and MS COCO datasets not only highlight VLM-PL's exceptional performance in multi-scenario but also illuminate its effectiveness in dual-scenario by achieving state-of-the-art results in both.
翻訳日:2024-03-11 13:26:19 公開日:2024-03-08
# 顔認識システムにおけるプライバシー保護のための連合学習方法

Federated Learning Method for Preserving Privacy in Face Recognition System ( http://arxiv.org/abs/2403.05344v1 )

ライセンス: Link先を確認
Enoch Solomon, and Abraham Woubie(参考訳) 最先端の顔認識システムは、通常、単一のコンピュータ上で訓練され、さまざまなユーザから収集された広範な画像データセットを利用する。 しかし、これらのデータセットには、ユーザが開示をためらう可能性のある機密性の高い個人情報が含まれていることが多い。 潜在的なプライバシー問題に対処するために,教師付き顔認識システムと教師なし顔認識システムの両方の文脈において,セキュアなアグリゲータと非セキュアなアグリゲータによるフェデレーション学習の適用について検討する。 フェデレーション学習は、個々のプライベートデータの共有を必要とすることなく、共有モデルのトレーニングを容易にする。 提案システムでは,各エッジデバイスが独立して独自のモデルをトレーニングし,その後,セキュアなアグリゲータか,あるいは中央サーバに直接送信する。 データ転送を必要とせずに多様なデータを導入するために、生成的対向ネットワークを用いて、エッジで不適切なデータを生成する。 これに続いて、セキュアアグリゲータまたは中央サーバはこれらの個々のモデルを組み合わせてグローバルモデルを構築し、エッジデバイスにリレーする。 celebaデータセットに基づく実験の結果、教師なしと教師なしの両方の顔認識システムで連合学習を採用すると2つの利点があることが明らかになった。 まず、エッジデバイスに元のデータが残っているため、プライバシを保護する。 第2に, 実験結果から, 凝集モデルが個々のモデルとほぼ同じ性能を示し, 特にフェデレートモデルが安全なアグリゲータを利用できない場合には, 実験結果が得られた。 その結果,特にプライバシーと精度のバランスの点で,プライバシー保護の顔画像トレーニングに関する現実的な課題が浮き彫りになった。

The state-of-the-art face recognition systems are typically trained on a single computer, utilizing extensive image datasets collected from various number of users. However, these datasets often contain sensitive personal information that users may hesitate to disclose. To address potential privacy concerns, we explore the application of federated learning, both with and without secure aggregators, in the context of both supervised and unsupervised face recognition systems. Federated learning facilitates the training of a shared model without necessitating the sharing of individual private data, achieving this by training models on decentralized edge devices housing the data. In our proposed system, each edge device independently trains its own model, which is subsequently transmitted either to a secure aggregator or directly to the central server. To introduce diverse data without the need for data transmission, we employ generative adversarial networks to generate imposter data at the edge. Following this, the secure aggregator or central server combines these individual models to construct a global model, which is then relayed back to the edge devices. Experimental findings based on the CelebA datasets reveal that employing federated learning in both supervised and unsupervised face recognition systems offers dual benefits. Firstly, it safeguards privacy since the original data remains on the edge devices. Secondly, the experimental results demonstrate that the aggregated model yields nearly identical performance compared to the individual models, particularly when the federated model does not utilize a secure aggregator. Hence, our results shed light on the practical challenges associated with privacy-preserving face image training, particularly in terms of the balance between privacy and accuracy.
翻訳日:2024-03-11 13:25:57 公開日:2024-03-08
# 低分解能入力による医用セマンティックセグメンテーションの組込み

Embedded Deployment of Semantic Segmentation in Medicine through Low-Resolution Inputs ( http://arxiv.org/abs/2403.05340v1 )

ライセンス: Link先を確認
Erik Ostrowski, Muhammad Shafique(参考訳) ニューラルネットワークを現実の状況にデプロイする場合、サイズと計算労力が制限要因になることが多い。 これは特に、予算が厳しい組み込み医療機器のように、大型で高価なハードウェアが手頃な価格ではない環境では当てはまります。 State-of-the-artは、主にベースモデルアーキテクチャを変更し、入力と出力の解決を考慮せずに、このようなユースケースに対して複数の異なる軽量ソリューションを提案した。 本稿では,ハードウェアに制限のある環境では,高いスループットを保証するために高可用性の入力解像度を使用することをしばしば控えるという事実を生かしたアーキテクチャを提案する。 低解像度の入力を使用すると、計算とメモリ要求が大幅に減少するが、予測品質が低下する可能性がある。 当社のアーキテクチャは,高分解能の地盤をトレーニングに活用できるという事実を生かして,この問題に対処しています。 提案モデルでは,低分解能画像と高分解能地下真実を入力し,予測精度を5.5%向上し,200以下のパラメータをモデルに追加する。 %のフレームを25~20秒に短縮した。 我々は,MRI画像におけるがんの軽量なセマンティックセグメンテーションのための最先端フレームワークを,我々のアーキテクチャが拡張していることを示すために,広範な分析を行う。 また、最新の軽量ネットワークとnvidiaのjetson nanoのアーキテクチャのデプロイ速度をテストし、リソース制約のある組み込みシナリオのデプロイメントをエミュレートしました。

When deploying neural networks in real-life situations, the size and computational effort are often the limiting factors. This is especially true in environments where big, expensive hardware is not affordable, like in embedded medical devices, where budgets are often tight. State-of-the-art proposed multiple different lightweight solutions for such use cases, mostly by changing the base model architecture, not taking the input and output resolution into consideration. In this paper, we propose our architecture that takes advantage of the fact that in hardware-limited environments, we often refrain from using the highest available input resolutions to guarantee a higher throughput. Although using lower-resolution input leads to a significant reduction in computing and memory requirements, it may also incur reduced prediction quality. Our architecture addresses this problem by exploiting the fact that we can still utilize high-resolution ground-truths in training. The proposed model inputs lower-resolution images and high-resolution ground truths, which can improve the prediction quality by 5.5% while adding less than 200 parameters to the model. %reducing the frames per second only from 25 to 20. We conduct an extensive analysis to illustrate that our architecture enhances existing state-of-the-art frameworks for lightweight semantic segmentation of cancer in MRI images. We also tested the deployment speed of state-of-the-art lightweight networks and our architecture on Nvidia's Jetson Nano to emulate deployment in resource-constrained embedded scenarios.
翻訳日:2024-03-11 13:25:29 公開日:2024-03-08
# 属性スコアを用いた事前学習言語モデルの説明:低リソース設定の分析

Explaining Pre-Trained Language Models with Attribution Scores: An Analysis in Low-Resource Settings ( http://arxiv.org/abs/2403.05338v1 )

ライセンス: Link先を確認
Wei Zhou, Heike Adel, Hendrik Schuff, Ngoc Thang Vu(参考訳) 属性スコアは、異なる入力部品の重要性を示し、モデル動作を説明することができる。 現在、プロンプトベースのモデルの人気が高まっている。 しかし,プロンプトモデルから抽出した属性スコアの質についてはまだ調査されていない。 本稿では,プロンプトベースモデルから抽出した帰属スコアw.r.t.の帰属可能性と忠実性を分析し,細調整されたモデルと大規模言語モデルから抽出した帰属スコアと比較する。 従来の研究とは対照的に、分析にトレーニングサイズを別の次元として導入する。 我々は、プロンプトパラダイム(エンコーダベースまたはデコーダベースモデルのいずれか)を使用することで、低リソース設定でモデルを微調整するよりも、より妥当な説明が得られることを発見した。

Attribution scores indicate the importance of different input parts and can, thus, explain model behaviour. Currently, prompt-based models are gaining popularity, i.a., due to their easier adaptability in low-resource settings. However, the quality of attribution scores extracted from prompt-based models has not been investigated yet. In this work, we address this topic by analyzing attribution scores extracted from prompt-based models w.r.t. plausibility and faithfulness and comparing them with attribution scores extracted from fine-tuned models and large language models. In contrast to previous work, we introduce training size as another dimension into the analysis. We find that using the prompting paradigm (with either encoder-based or decoder-based models) yields more plausible explanations than fine-tuning the models in low-resource settings and Shapley Value Sampling consistently outperforms attention and Integrated Gradients in terms of leading to more plausible and faithful explanations.
翻訳日:2024-03-11 13:25:03 公開日:2024-03-08
# WatChat: メンタルモデルをデバッギングしてパープレッシャプログラムを説明する

WatChat: Explaining perplexing programs by debugging mental models ( http://arxiv.org/abs/2403.05334v1 )

ライセンス: Link先を確認
Kartik Chandra, Tzu-Mao Li, Rachit Nigam, Joshua Tenenbaum, Jonathan Ragan-Kelley(参考訳) 多くの場合、プログラムの予期せぬ振る舞いのよい説明は、プログラマのコードのバグである。 しかし、時として、より優れた説明は、プログラマが使用している言語のメンタルモデルにバグがある場合もあります。 単に現在のコードをデバッグする("プログラマに魚を与える")のではなく、私たちのツールがメンタルモデルを直接デバッグできるとしたらどうでしょう("プログラマに魚を教える")? 本稿では,計算認知科学のアイデアを正確に行うために応用する。 プログラムが複雑化すると、プログラム合成技術を用いてプログラムの動作に驚かされる可能性のある潜在的な誤解を自動的に推測する。 これらの誤解を分析することで、プログラムの振る舞いの簡潔で有用な説明を提供する。 本手法は,学生の誤解を診断し,修正するための教育的サンプルプログラムを合成することも可能である。

Often, a good explanation for a program's unexpected behavior is a bug in the programmer's code. But sometimes, an even better explanation is a bug in the programmer's mental model of the language they are using. Instead of merely debugging our current code ("giving the programmer a fish"), what if our tools could directly debug our mental models ("teaching the programmer to fish")? In this paper, we apply ideas from computational cognitive science to do exactly that. Given a perplexing program, we use program synthesis techniques to automatically infer potential misconceptions that might cause the user to be surprised by the program's behavior. By analyzing these misconceptions, we provide succinct, useful explanations of the program's behavior. Our methods can even be inverted to synthesize pedagogical example programs for diagnosing and correcting misconceptions in students.
翻訳日:2024-03-11 13:24:43 公開日:2024-03-08
# バッチとHooKレイヤを併用した連続モデル編集

Consecutive Model Editing with Batch alongside HooK Layers ( http://arxiv.org/abs/2403.05330v1 )

ライセンス: Link先を確認
Shuaiyi Li, Yang Deng, Deng Cai, Hongyuan Lu, Liang Chen, Wai Lam(参考訳) 典型的なリトレーニングパラダイムは、許容できる時間とリソースを消費するので、研究者はモデル行動を直接編集する効果的で連続的でバッチをサポートする方法を求めるために、モデル編集に目を向けている。 これらの実用的な期待にもかかわらず、既存のモデル編集手法はこれらすべてを実現できていない。 さらに、継承サポート型モデル編集アプローチのメモリ要求は禁忌であり、時間とともに徐々に増大する外部メモリを必要とすることが多い。 これらの課題に対処するために,逐次およびバッチ支援のモデル編集手法である comeba-hk を提案する。 COMEBA-HKはメモリフレンドリーで、いくつかのフック層を更新した重みで保存するために、少量しか必要としない。 実験の結果,単回および連発のバッチ編集シナリオにおいて,他のバッチモデル編集手法よりも優れた方法が得られた。 COMEBA-HKの大規模解析を行い,本手法の安定性を検証した。 1) 連続段数及び連続段数 2) 編集インスタンスの数。

As the typical retraining paradigm is unacceptably time- and resource-consuming, researchers are turning to model editing in order to seek an effective, consecutive, and batch-supportive way to edit the model behavior directly. Despite all these practical expectations, existing model editing methods fail to realize all of them. Furthermore, the memory demands for such succession-supportive model editing approaches tend to be prohibitive, frequently necessitating an external memory that grows incrementally over time. To cope with these challenges, we propose COMEBA-HK, a model editing method that is both consecutive and batch-supportive. COMEBA-HK is memory-friendly as it only needs a small amount of it to store several hook layers with updated weights. Experimental results demonstrate the superiority of our method over other batch-supportive model editing methods under both single-round and consecutive batch editing scenarios. Extensive analyses of COMEBA-HK have been conducted to verify the stability of our method over 1) the number of consecutive steps and 2) the number of editing instance.
翻訳日:2024-03-11 13:24:31 公開日:2024-03-08
# occfusion:3次元占有予測のための深度推定自由マルチセンサー融合

OccFusion: Depth Estimation Free Multi-sensor Fusion for 3D Occupancy Prediction ( http://arxiv.org/abs/2403.05329v1 )

ライセンス: Link先を確認
Ji Zhang and Yiran Ding(参考訳) 信頼性の高い自律運転システムに不可欠なマルチセンサ融合に基づく3次元占有予測により、3Dシーンのきめ細かい理解が可能になる。 従来の核融合による3次元占有予測は2次元画像特徴の深度推定に頼っていた。 しかし、深さ推定は不適切な問題であり、これらの手法の精度と堅牢性を妨げる。 さらに、微粒な占有率予測は広範な計算資源を必要とする。 本稿では,奥行き推定を含まないマルチモーダル融合手法であるoccfusionと,画像特徴の密結合のための対応するポイントクラウドサンプリングアルゴリズムを提案する。 そこで本研究では,複雑なサンプルからより適応的に学習し,小さなオブジェクトや重複するオブジェクトなどの課題領域を対象とした予測を最適化する,アクティブトレーニング手法とアクティブ粗いパイプラインを提案する。 提案手法は,任意の占有予測モデルに自然に拡張することができる。 OpenOccupancyベンチマークの実験は、IoUにおける既存のSOTA(State-of-the-art)マルチモーダル手法をあらゆるカテゴリで超越していることを示している。 さらに、トレーニングと推論の両方のフェーズにおいて、我々のモデルはより効率的であり、はるかに少ない計算資源を必要とする。 包括的アブレーション研究は,提案手法の有効性を示す。

3D occupancy prediction based on multi-sensor fusion, crucial for a reliable autonomous driving system, enables fine-grained understanding of 3D scenes. Previous fusion-based 3D occupancy predictions relied on depth estimation for processing 2D image features. However, depth estimation is an ill-posed problem, hindering the accuracy and robustness of these methods. Furthermore, fine-grained occupancy prediction demands extensive computational resources. We introduce OccFusion, a multi-modal fusion method free from depth estimation, and a corresponding point cloud sampling algorithm for dense integration of image features. Building on this, we propose an active training method and an active coarse to fine pipeline, enabling the model to adaptively learn more from complex samples and optimize predictions specifically for challenging areas such as small or overlapping objects. The active methods we propose can be naturally extended to any occupancy prediction model. Experiments on the OpenOccupancy benchmark show our method surpasses existing state-of-the-art (SOTA) multi-modal methods in IoU across all categories. Additionally, our model is more efficient during both the training and inference phases, requiring far fewer computational resources. Comprehensive ablation studies demonstrate the effectiveness of our proposed techniques.
翻訳日:2024-03-11 13:24:15 公開日:2024-03-08
# DiffSF:シーンフロー推定のための拡散モデル

DiffSF: Diffusion Models for Scene Flow Estimation ( http://arxiv.org/abs/2403.05327v1 )

ライセンス: Link先を確認
Yushan Zhang, Bastian Wandt, Maria Magnusson, Michael Felsberg(参考訳) シーンフロー推定は、様々な実世界のアプリケーション、特に自動運転車やロボットのような自律エージェントにとって必須の要素である。 最近のシーンフロー推定手法は妥当な精度を達成するが、現実のシステムへの適用性は信頼性の指標から恩恵を受ける。 不確かさを推定しながら精度を向上させることを目的として,変圧器を用いたシーンフロー推定と雑音拡散モデルを組み合わせた差分sfを提案する。 拡散過程において、ガウス雑音を付加することにより、基底真理シーンフローベクトル場を徐々に摂動させる。 逆処理では、ランダムサンプリングされたガウスノイズからスタートし、ソースとターゲットポイントクラウドとの条件付けによりシーンフローベクトル場予測を復元する。 拡散過程が予測のロバスト性を大幅に向上させることは,従来の手法と比較して,標準的なシーンフロー推定ベンチマークにおいて最先端のパフォーマンスをもたらすことを示す。 さらに,初期状態の異なる複数回をサンプリングすることにより,複数の仮説を予測し,出力の不確かさを計測し,不正確な予測の大部分を検出する。

Scene flow estimation is an essential ingredient for a variety of real-world applications, especially for autonomous agents, such as self-driving cars and robots. While recent scene flow estimation approaches achieve a reasonable accuracy, their applicability to real-world systems additionally benefits from a reliability measure. Aiming at improving accuracy while additionally providing an estimate for uncertainty, we propose DiffSF that combines transformer-based scene flow estimation with denoising diffusion models. In the diffusion process, the ground truth scene flow vector field is gradually perturbed by adding Gaussian noise. In the reverse process, starting from randomly sampled Gaussian noise, the scene flow vector field prediction is recovered by conditioning on a source and a target point cloud. We show that the diffusion process greatly increases the robustness of predictions compared to prior approaches resulting in state-of-the-art performance on standard scene flow estimation benchmarks. Moreover, by sampling multiple times with different initial states, the denoising process predicts multiple hypotheses, which enables measuring the output uncertainty, allowing our approach to detect a majority of the inaccurate predictions.
翻訳日:2024-03-11 13:23:54 公開日:2024-03-08
# ChatASU:LLMの反射を真に理解するための対話

ChatASU: Evoking LLM's Reflexion to Truly Understand Aspect Sentiment in Dialogues ( http://arxiv.org/abs/2403.05326v1 )

ライセンス: Link先を確認
Yiding Liu and Jingjing Wang and Jiaming Luo and Tao Zeng and Guodong Zhou(参考訳) 対話型シナリオ(例えば質問応答や対話)におけるアスペクト感情理解(asu)は近年ますます関心を集め、重要な進歩を遂げている。 しかしながら、対話型ASUに関する既存の研究は、意見目標(つまりアスペクト)のコア参照問題をほとんど無視しているが、この現象は対話型シナリオ、特に対話型シナリオにおいて広く見られ、ASUのパフォーマンスを制限している。 近年,大規模言語モデル (LLM) は,様々なNLPタスクをチャットパラダイムに統合する強力な能力を示している。 そこで本稿では,対話シナリオにおけるアスペクト感情を理解するLLMの能力を探究する,Chat-based Aspect Sentiment Understanding (ChatASU)タスクを提案する。 特に、このChatASUタスクはアスペクトコア参照問題に対処するためにサブタスク、すなわちアスペクトチェイン推論(ACR)タスクを導入する。 そこで我々は,ChatASUのバックボーンとしてChatGLMを用いた信頼自己回帰アプローチ(TSA)を提案する。 特に、このtsaは、acrタスクを主 asuタスクの性能を高める補助タスクとして扱い、さらに、信頼された学習を反射機構に統合し、tsaにおけるllms-intrinsic factual hallucination問題を軽減する。 さらに,高品質なChatASUデータセットをアノテートしてTSAを評価することで,提案したTSAは,ChatASUに対するTSAの有効性を正当化し,ChatASUのコアと幻覚の問題を考慮し,最先端のベースラインを著しく上回ることを示す。

Aspect Sentiment Understanding (ASU) in interactive scenarios (e.g., Question-Answering and Dialogue) has attracted ever-more interest in recent years and achieved important progresses. However, existing studies on interactive ASU largely ignore the coreference issue for opinion targets (i.e., aspects), while this phenomenon is ubiquitous in interactive scenarios especially dialogues, limiting the ASU performance. Recently, large language models (LLMs) shows the powerful ability to integrate various NLP tasks with the chat paradigm. In this way, this paper proposes a new Chat-based Aspect Sentiment Understanding (ChatASU) task, aiming to explore LLMs' ability in understanding aspect sentiments in dialogue scenarios. Particularly, this ChatASU task introduces a sub-task, i.e., Aspect Chain Reasoning (ACR) task, to address the aspect coreference issue. On this basis, we propose a Trusted Self-reflexion Approach (TSA) with ChatGLM as backbone to ChatASU. Specifically, this TSA treats the ACR task as an auxiliary task to boost the performance of the primary ASU task, and further integrates trusted learning into reflexion mechanisms to alleviate the LLMs-intrinsic factual hallucination problem in TSA. Furthermore, a high-quality ChatASU dataset is annotated to evaluate TSA, and extensive experiments show that our proposed TSA can significantly outperform several state-of-the-art baselines, justifying the effectiveness of TSA to ChatASU and the importance of considering the coreference and hallucination issues in ChatASU.
翻訳日:2024-03-11 13:23:37 公開日:2024-03-08
# マスキングコンテキストモデリングと知識蒸留による複数インスタンス学習特徴抽出器の微調整

Fine-tuning a Multiple Instance Learning Feature Extractor with Masked Context Modelling and Knowledge Distillation ( http://arxiv.org/abs/2403.05325v1 )

ライセンス: Link先を確認
Juan I. Pisula and Katarzyna Bozek(参考訳) 完全スライド画像(WSI)分類のための多重インスタンス学習(MIL)アルゴリズムの最初のステップは、入力画像を小さなパッチにタイリングし、事前訓練された特徴抽出モデルによって生成された特徴ベクトルを計算することである。 ImageNetで事前訓練された特徴抽出器モデルは、この領域にうまく移行することが証明されているが、この事前訓練タスクは、隣接するパッチの視覚情報が高い相関関係にあることを考慮しない。 そこで本研究では,<textit{Masked Context Modelling with Knowledge Distillation} を用いて特徴抽出モデルを微調整することにより,下流MIL分類を改善することを提案する。 このタスクでは,マスク付きパッチをより大きなコンテキストウィンドウで予測することにより,特徴抽出モデルを微調整する。 入力画像の再構成には強力な画像生成モデルが必要となるため,より大規模な教師ネットワークで生成した特徴ベクトルを現実的に見ることではなく,その代わりに予測する。 提案するタスクの1つのエポックは、milシナリオで使用する場合のフィーチャー・エクストラクタモデルのダウンストリームパフォーマンスを増加させ、教師モデルのダウンストリームパフォーマンスを上回っても、かなり小さく、計算のごく一部を必要とする。

The first step in Multiple Instance Learning (MIL) algorithms for Whole Slide Image (WSI) classification consists of tiling the input image into smaller patches and computing their feature vectors produced by a pre-trained feature extractor model. Feature extractor models that were pre-trained with supervision on ImageNet have proven to transfer well to this domain, however, this pre-training task does not take into account that visual information in neighboring patches is highly correlated. Based on this observation, we propose to increase downstream MIL classification by fine-tuning the feature extractor model using \textit{Masked Context Modelling with Knowledge Distillation}. In this task, the feature extractor model is fine-tuned by predicting masked patches in a bigger context window. Since reconstructing the input image would require a powerful image generation model, and our goal is not to generate realistically looking image patches, we predict instead the feature vectors produced by a larger teacher network. A single epoch of the proposed task suffices to increase the downstream performance of the feature-extractor model when used in a MIL scenario, even capable of outperforming the downstream performance of the teacher model, while being considerably smaller and requiring a fraction of its compute.
翻訳日:2024-03-11 13:23:06 公開日:2024-03-08
# 遅刻を避けるために:難解な旅行セールスマン問題を解決する

Looking Ahead to Avoid Being Late: Solving Hard-Constrained Traveling Salesman Problem ( http://arxiv.org/abs/2403.05318v1 )

ライセンス: Link先を確認
Jingxiao Chen, Ziqin Gong, Minghuan Liu, Jun Wang, Yong Yu, Weinan Zhang(参考訳) 多くの現実世界の問題は、制約付きトラベルセールスマン問題(TSP)として定式化することができる。 しかし、制約は常に複雑で多様であり、TSPの解決は困難である。 複雑な制約の数が増えると、不正な結果を避けるために従来のヒューリスティックアルゴリズムに時間がかかる。 学習ベースの手法は、TSPをソフトに解決する代替手段を提供する。 それでも、ソフトなやり方は学習アルゴリズムによる難解な問題の解決を困難にし、合法性と最適性の対立は解の最適性に大きく影響する可能性がある。 この問題を克服し, ハード制約に対する効果的な解決策を得るために, TSP と Time Windows (TSPTW) の正当性を改善するために, ルックアヘッド情報を用いた新しい学習手法を提案する。 さらに,tsptwデータセットを厳密な制約付きで構築し,今後の研究のためにコミュニティに役立つ様々なアプローチの統計的性能を正確に評価・評価した。 多様なデータセットに関する包括的な実験により、MUSLAは既存のベースラインを上回り、一般化可能性を示す。

Many real-world problems can be formulated as a constrained Traveling Salesman Problem (TSP). However, the constraints are always complex and numerous, making the TSPs challenging to solve. When the number of complicated constraints grows, it is time-consuming for traditional heuristic algorithms to avoid illegitimate outcomes. Learning-based methods provide an alternative to solve TSPs in a soft manner, which also supports GPU acceleration to generate solutions quickly. Nevertheless, the soft manner inevitably results in difficulty solving hard-constrained problems with learning algorithms, and the conflicts between legality and optimality may substantially affect the optimality of the solution. To overcome this problem and to have an effective solution against hard constraints, we proposed a novel learning-based method that uses looking-ahead information as the feature to improve the legality of TSP with Time Windows (TSPTW) solutions. Besides, we constructed TSPTW datasets with hard constraints in order to accurately evaluate and benchmark the statistical performance of various approaches, which can serve the community for future research. With comprehensive experiments on diverse datasets, MUSLA outperforms existing baselines and shows generalizability potential.
翻訳日:2024-03-11 13:22:42 公開日:2024-03-08
# DualBEV:CNNはビュートランスフォーメーションに必要なもの

DualBEV: CNN is All You Need in View Transformation ( http://arxiv.org/abs/2403.05402v1 )

ライセンス: Link先を確認
Peidong Li, Wancheng Shen, Qihao Huang and Dixiao Cui(参考訳) カメラベースのBird's-Eye-View (BEV) の知覚は、しばしば3Dから2D、または2Dから3Dへのビュー変換(VT)に苦戦する。 3D-to-2D VTは通常、リソース集約トランスフォーマーを使用して3D特徴と2D特徴の堅牢な対応を確立する。 これらの制約に対処するために,両戦略の3つの確率的測定を組み込んだ共有CNNベースの特徴変換を利用する統合フレームワークであるDualBEVを提案する。 1段階のデュアルビュー対応を考慮することで、DualBEVはこれらの戦略間のギャップを効果的に橋渡しし、個々の強みを活用する。 提案手法は Transformer を使わずに, 55.2% mAP と63.4% NDS を nuScenes テストセット上で, LSS 手法に匹敵する性能を実現する。 コードはhttps://github.com/PeidongLi/DualBEV.comでリリースされる。

Camera-based Bird's-Eye-View (BEV) perception often struggles between adopting 3D-to-2D or 2D-to-3D view transformation (VT). The 3D-to-2D VT typically employs resource intensive Transformer to establish robust correspondences between 3D and 2D feature, while the 2D-to-3D VT utilizes the Lift-Splat-Shoot (LSS) pipeline for real-time application, potentially missing distant information. To address these limitations, we propose DualBEV, a unified framework that utilizes a shared CNN-based feature transformation incorporating three probabilistic measurements for both strategies. By considering dual-view correspondences in one-stage, DualBEV effectively bridges the gap between these strategies, harnessing their individual strengths. Our method achieves state-of-the-art performance without Transformer, delivering comparable efficiency to the LSS approach, with 55.2% mAP and 63.4% NDS on the nuScenes test set. Code will be released at https://github.com/PeidongLi/DualBEV.
翻訳日:2024-03-11 13:17:53 公開日:2024-03-08
# HistGen:ローカル-グローバル特徴エンコーディングとモーダル間相互作用による組織学的報告

HistGen: Histopathology Report Generation via Local-Global Feature Encoding and Cross-modal Context Interaction ( http://arxiv.org/abs/2403.05396v1 )

ライセンス: Link先を確認
Zhengrui Guo, Jiabo Ma, Yingxue Xu, Yihui Wang, Liansheng Wang, and Hao Chen(参考訳) 病理組織学はがん診断の黄金の標準であり、がん治療と患者のケアを導くこの過程の解釈と理解に臨床報告が不可欠である。 深層学習による病理組織学レポート作成の自動化は、臨床効率を著しく向上させ、レポート執筆における病理医の労働集約的、時間的負担を軽減する。 この進歩を追求するために,組織病理レポート生成のための複数インスタンス学習型フレームワークであるhistgenと,評価のための最初のベンチマークデータセットを紹介する。 診断とレポート書き込みのワークフローにインスパイアされたhistgenは,2つの微妙な設計のモジュールを備えている。スライドイメージ全体(wsis)と,ローカルおよびグローバル粒度からの診断レポートの調整によるレポート生成の促進を目的とする。 これを実現するため、地域対スライドの観点から効率的な視覚的特徴集約を実現するために、局所的グローバル階層エンコーダが開発されている。 一方,WSIの広範囲な視覚的シーケンスとそれに対応する高度に要約されたレポートとのギャップを効果的に埋めて,異なるモダリティ間のアライメントと相互作用を明確化するために,クロスモーダルなコンテキストモジュールを提案する。 WSIレポート生成実験の結果,提案手法は最先端モデル(SOTA)よりも大きなマージンで優れていた。 さらに, 癌サブタイプおよび生存分析タスクにおけるモデル微調整の結果, SOTA法よりも優れた性能を示し, 強い伝達学習能力を示している。 データセット、モデルウェイト、ソースコードはhttps://github.com/dddavid4real/HistGen.comで入手できる。

Histopathology serves as the gold standard in cancer diagnosis, with clinical reports being vital in interpreting and understanding this process, guiding cancer treatment and patient care. The automation of histopathology report generation with deep learning stands to significantly enhance clinical efficiency and lessen the labor-intensive, time-consuming burden on pathologists in report writing. In pursuit of this advancement, we introduce HistGen, a multiple instance learning-empowered framework for histopathology report generation together with the first benchmark dataset for evaluation. Inspired by diagnostic and report-writing workflows, HistGen features two delicately designed modules, aiming to boost report generation by aligning whole slide images (WSIs) and diagnostic reports from local and global granularity. To achieve this, a local-global hierarchical encoder is developed for efficient visual feature aggregation from a region-to-slide perspective. Meanwhile, a cross-modal context module is proposed to explicitly facilitate alignment and interaction between distinct modalities, effectively bridging the gap between the extensive visual sequences of WSIs and corresponding highly summarized reports. Experimental results on WSI report generation show the proposed model outperforms state-of-the-art (SOTA) models by a large margin. Moreover, the results of fine-tuning our model on cancer subtyping and survival analysis tasks further demonstrate superior performance compared to SOTA methods, showcasing strong transfer learning capability. Dataset, model weights, and source code are available in https://github.com/dddavid4real/HistGen.
翻訳日:2024-03-11 13:17:29 公開日:2024-03-08
# 勾配降下を訓練した逆問題に対する教師なしニューラルネットワークの回復保証

Recovery Guarantees of Unsupervised Neural Networks for Inverse Problems trained with Gradient Descent ( http://arxiv.org/abs/2403.05395v1 )

ライセンス: Link先を確認
Nathan Buskulic, Jalal Fadili, Yvain Qu\'eau(参考訳) 高度な機械学習手法、特にニューラルネットワークは、ここ数年で逆問題を解くための標準となっている。 しかし、そのような手法の理論的回復保証は依然として少なく、達成が難しい。 最近になって、Deep Image Prior (DIP)のような教師なしの手法が、適切な初期化で勾配流をトレーニングする際に、一般的な損失関数の収束と回復を保証するようになった。 本稿では,ステップサイズ/学習率を適切に選択した勾配降下を用いた場合,これらの保証が有効であることを証明して,これらの結果を拡張する。 また, この離散化は, 2層ディップネットワークに束縛されたオーバーパラメータ化に定数しか影響せず, 勾配流の異なる保証が勾配降下に寄与することを示した。

Advanced machine learning methods, and more prominently neural networks, have become standard to solve inverse problems over the last years. However, the theoretical recovery guarantees of such methods are still scarce and difficult to achieve. Only recently did unsupervised methods such as Deep Image Prior (DIP) get equipped with convergence and recovery guarantees for generic loss functions when trained through gradient flow with an appropriate initialization. In this paper, we extend these results by proving that these guarantees hold true when using gradient descent with an appropriately chosen step-size/learning rate. We also show that the discretization only affects the overparametrization bound for a two-layer DIP network by a constant and thus that the different guarantees found for the gradient flow will hold for gradient descent.
翻訳日:2024-03-11 13:17:01 公開日:2024-03-08
# 深層学習による親和性アートワークの分類

A Deep Learning Method for Classification of Biophilic Artworks ( http://arxiv.org/abs/2403.05394v1 )

ライセンス: Link先を確認
Purna Kar, Jordan J. Bird, Yangang Xing, Alexander Sumich, Andrew Knight, Ahmad Lotfi, Benedict Carpenter van Barthold(参考訳) バイオフィリア(biophilia)は、生物や自然そのものに対する内発的な愛であり、精神的健康や幸福にポジティブな影響を与えてきた。 本研究は,絵画の視覚的表現における生体親和性の特徴を学習し,説明するために,生体親和性アートワークの分類に深層学習手法を適用した。 人間と自然の深いつながりを仮定するバイオフィリアという概念を用いて、人工的な知的なアルゴリズムを用いて、アートワークの親和的な特徴の根底にある異なるパターンを認識する。 提案手法では,画像の低次元表現とデコーダモデルを用いて,形状,テクスチャ,照明などの学習的要素に基づいて,植物,水体,季節,動物など,各好気性形質の画像の高度特徴を抽出する。 提案した分類モデルは, 美術家, 収集家, 研究者が, 自然に触発された視覚美への露出に対する精神的幸福感の影響を解釈し, 活用するだけでなく, 美的嗜好のために, バイオフィリア, バイオフィリックアートの研究を体系的に探究することができる。 提案されたアルゴリズムを使って、ヨーロッパとアメリカの異なるアートギャラリーの有名なアートワークからなる、親和性のあるコレクションのギャラリーを作成しました。

Biophilia is an innate love for living things and nature itself that has been associated with a positive impact on mental health and well-being. This study explores the application of deep learning methods for the classification of Biophilic artwork, in order to learn and explain the different Biophilic characteristics present in a visual representation of a painting. Using the concept of Biophilia that postulates the deep connection of human beings with nature, we use an artificially intelligent algorithm to recognise the different patterns underlying the Biophilic features in an artwork. Our proposed method uses a lower-dimensional representation of an image and a decoder model to extract salient features of the image of each Biophilic trait, such as plants, water bodies, seasons, animals, etc., based on learnt factors such as shape, texture, and illumination. The proposed classification model is capable of extracting Biophilic artwork that not only helps artists, collectors, and researchers studying to interpret and exploit the effects of mental well-being on exposure to nature-inspired visual aesthetics but also enables a methodical exploration of the study of Biophilia and Biophilic artwork for aesthetic preferences. Using the proposed algorithms, we have also created a gallery of Biophilic collections comprising famous artworks from different European and American art galleries, which will soon be published on the Vieunite@ online community.
翻訳日:2024-03-11 13:16:49 公開日:2024-03-08
# クロストーク抑制のためのマルチキュービット動的デカップリング

Multi-qubit Dynamical Decoupling for Enhanced Crosstalk Suppression ( http://arxiv.org/abs/2403.05391v1 )

ライセンス: Link先を確認
Siyuan Niu, Aida Todri-Sanial, and Nicholas T. Bronn(参考訳) 動的デカップリング(DD)は、オープン量子系における量子ビットのコヒーレンスを高めることを目的とした、最も単純なエラー抑制手法の1つである。 さらにDDは、2種類の相互作用から現れる短期量子ハードウェアにおける1つの大きなエラー源であるコヒーレントクロストークの低減効果を示した。 静的なクロストークは超伝導体や半導体量子ビットを含む様々なハードウェアプラットフォームに存在する。 さらに、駆動されたクロストークは、他のキュービット上の駆動ゲートからの漏れにより、望ましくない駆動項として発生することがある。 本稿では,マルチキュービットシステム向けに,デコヒーレンスエラーと両タイプのコヒーレントなクロストークを抑える新しいDDプロトコルについて検討する。 2組の量子ビットが同時に自由進化する「アイドル・アイドル」実験と、一方のペアが他方のペアの自由進化の間連続的に駆動される「駆動・アイドル」実験の2つの実験系を開発した。 これらの実験はibm量子超伝導プロセッサ上で行われ、両種類のコヒーレントクロストークの抑制におけるスタッガードddプロトコルの影響を実証する。 X2 シークエンスの適用による最先端手法の標準 DD シークエンスと比較すると,この2 つのクロストークタイプに対処する上で,ステージングされた DD プロトコルは回路忠実度を 16.9% と 8.5% に向上させる。

Dynamical decoupling (DD) is one of the simplest error suppression methods, aiming to enhance the coherence of qubits in open quantum systems. Moreover, DD has demonstrated effectiveness in reducing coherent crosstalk, one major error source in near-term quantum hardware, which manifests from two types of interactions. Static crosstalk exists in various hardware platforms, including superconductor and semiconductor qubits, by virtue of always-on qubit-qubit coupling. Additionally, driven crosstalk may occur as an unwanted drive term due to leakage from driven gates on other qubits. Here we explore a novel staggered DD protocol tailored for multi-qubit systems that suppresses the decoherence error and both types of coherent crosstalk. We develop two experimental setups - an "idle-idle" experiment in which two pairs of qubits undergo free evolution simultaneously and a "driven-idle" experiment in which one pair is continuously driven during the free evolution of the other pair. These experiments are performed on an IBM Quantum superconducting processor and demonstrate the significant impact of the staggered DD protocol in suppressing both types of coherent crosstalk. When compared to the standard DD sequences from state-of-the-art methodologies with the application of X2 sequences, our staggered DD protocol enhances circuit fidelity by 16.9% and 8.5%, respectively, in addressing these two crosstalk types.
翻訳日:2024-03-11 13:16:23 公開日:2024-03-08
# フレキシブル階層化とパッチ記述子蒸留による一般対応マッチング

Generalized Correspondence Matching via Flexible Hierarchical Refinement and Patch Descriptor Distillation ( http://arxiv.org/abs/2403.05388v1 )

ライセンス: Link先を確認
Yu Han, Ziwei Long, Yanting Zhang, Jin Wu, Zhijun Fang and Rui Fan(参考訳) 対応マッチングは多くのロボティクス応用において重要な役割を果たす。 従来の手作り手法や最近のデータ駆動手法と比較して、マルチスケールの特徴抽出に事前学習されたバックボーンネットワークをフル活用し、階層的洗練戦略を利用して一致した対応を生成するプラグイン・アンド・プレイアルゴリズムに大きな関心がある。 本稿では,DFM(Deep-of-the-art(SoTA)プラグイン・アンド・プレイ対応マッチング手法)の限界に対処することを目的とする。 まず,よりフレキシブルな近辺探索戦略を活用し,dfmの階層的改良プロセスで用いられる予め定義されたしきい値を排除することにより,初期段階における反復的かつ有効なマッチングの排除を図る。 第2の技術的貢献は、画像分類、セマンティックセグメンテーション、ステレオマッチングを含む様々なコンピュータビジョンタスクで事前訓練された幅広いバックボーンネットワークに対応するために、DFMの適用性を拡張するパッチ記述子の統合である。 実世界のロボティクス応用における本手法の実用性を考慮して,マッチングマッチングの計算複雑性をさらに軽減するための新しいパッチ記述子蒸留法を提案する。 3つの公開データセットに対して行った大規模な実験は,提案手法の優れた性能を示す。 具体的には,HPatchesデータセット上の1,3,5ピクセルに対する平均マッチング精度0.68,0.92,0.95の総合的な性能を達成し,他のSoTAアルゴリズムよりも優れていた。 ソースコード、デモビデオ、サプリメントはmias.group/gcmで公開されている。

Correspondence matching plays a crucial role in numerous robotics applications. In comparison to conventional hand-crafted methods and recent data-driven approaches, there is significant interest in plug-and-play algorithms that make full use of pre-trained backbone networks for multi-scale feature extraction and leverage hierarchical refinement strategies to generate matched correspondences. The primary focus of this paper is to address the limitations of deep feature matching (DFM), a state-of-the-art (SoTA) plug-and-play correspondence matching approach. First, we eliminate the pre-defined threshold employed in the hierarchical refinement process of DFM by leveraging a more flexible nearest neighbor search strategy, thereby preventing the exclusion of repetitive yet valid matches during the early stages. Our second technical contribution is the integration of a patch descriptor, which extends the applicability of DFM to accommodate a wide range of backbone networks pre-trained across diverse computer vision tasks, including image classification, semantic segmentation, and stereo matching. Taking into account the practical applicability of our method in real-world robotics applications, we also propose a novel patch descriptor distillation strategy to further reduce the computational complexity of correspondence matching. Extensive experiments conducted on three public datasets demonstrate the superior performance of our proposed method. Specifically, it achieves an overall performance in terms of mean matching accuracy of 0.68, 0.92, and 0.95 with respect to the tolerances of 1, 3, and 5 pixels, respectively, on the HPatches dataset, outperforming all other SoTA algorithms. Our source code, demo video, and supplement are publicly available at mias.group/GCM.
翻訳日:2024-03-11 13:15:55 公開日:2024-03-08
# 損失の切り替えはバッチ強化学習のコストを削減する

Switching the Loss Reduces the Cost in Batch Reinforcement Learning ( http://arxiv.org/abs/2403.05385v1 )

ライセンス: Link先を確認
Alex Ayoub, Kaiwen Wang, Vincent Liu, Samuel Robertson, James McInerney, Dawen Liang, Nathan Kallus, and Csaba Szepesv\'ari(参考訳) バッチ強化学習(RL)のためのログロス付きQ-定位学習(FQI-LOG)を提案する。 本稿では,FQI-LOGによる準最適政策の学習に必要なサンプルの数が最適政策の累積コストと一致していることを示す。 そのような場合、バッチ RL で $\textit{small-cost}$ bounds, すなわち、最適な達成可能なコストでスケールするバウンドを証明するための一般的なフレームワークを提供する。 さらに,FQI-LOGが目標を確実に達成する問題に対して,2乗損失を訓練したFQIよりも少ないサンプルを用いていることを実証的に検証した。

We propose training fitted Q-iteration with log-loss (FQI-LOG) for batch reinforcement learning (RL). We show that the number of samples needed to learn a near-optimal policy with FQI-LOG scales with the accumulated cost of the optimal policy, which is zero in problems where acting optimally achieves the goal and incurs no cost. In doing so, we provide a general framework for proving $\textit{small-cost}$ bounds, i.e. bounds that scale with the optimal achievable cost, in batch RL. Moreover, we empirically verify that FQI-LOG uses fewer samples than FQI trained with squared loss on problems where the optimal policy reliably achieves the goal.
翻訳日:2024-03-11 13:15:27 公開日:2024-03-08
# GANを用いた3次元心エコー画像の合成ラベルデータセット生成のためのデータ拡張パイプライン

A Data Augmentation Pipeline to Generate Synthetic Labeled Datasets of 3D Echocardiography Images using a GAN ( http://arxiv.org/abs/2403.05384v1 )

ライセンス: Link先を確認
Cristiana Tiago, Andrew Gilbert, Ahmed S. Beela, Svein Arne Aase, Sten Roar Snare, Jurica Sprem(参考訳) 医用画像の領域におけるプライバシー問題と公開ラベル付きデータセットの限られた量のために、画像生成パイプラインを提案し、3次元心エコー画像と対応する基底真理ラベルを合成し、データ収集の必要性を軽減し、その後のDeep Learning (DL)タスクのために、画像の残酷でエラーを起こしやすいラベル付けを行う。 提案手法は心臓の詳細な解剖学的区分を基底真理ラベル源として利用する。 この初期データセットは、実際の3D心エコー画像からなる第2のデータセットと組み合わせて、生成補助ネットワーク(GAN)をトレーニングし、地上の真理ラベルと組み合わせたリアルな3D心血管超音波画像の合成を行う。 合成3Dデータセットを生成するために、訓練されたGANはCT(Computed Tomography)から高分解能解剖モデルを用いている。 合成画像の定性的解析により, 心臓の主要構造は高度にデライン化され, 解剖学的モデルから得られたラベルに密接に従っていることが明らかとなった。 DLタスクにおけるこれらの合成画像の有用性を評価するため, 左心室, 左心房, 心筋にセグメンテーションアルゴリズムを適用した。 合成画像を用いて訓練したモデルから得られた3次元セグメンテーションの定量的解析は,gan法を用いて3次元合成データを生成する可能性を示し,そのデータを用いて臨床課題のdlモデルの訓練を行い,3次元ラベル付き心エコー図データセットの不足の問題に対処した。

Due to privacy issues and limited amount of publicly available labeled datasets in the domain of medical imaging, we propose an image generation pipeline to synthesize 3D echocardiographic images with corresponding ground truth labels, to alleviate the need for data collection and for laborious and error-prone human labeling of images for subsequent Deep Learning (DL) tasks. The proposed method utilizes detailed anatomical segmentations of the heart as ground truth label sources. This initial dataset is combined with a second dataset made up of real 3D echocardiographic images to train a Generative Adversarial Network (GAN) to synthesize realistic 3D cardiovascular Ultrasound images paired with ground truth labels. To generate the synthetic 3D dataset, the trained GAN uses high resolution anatomical models from Computed Tomography (CT) as input. A qualitative analysis of the synthesized images showed that the main structures of the heart are well delineated and closely follow the labels obtained from the anatomical models. To assess the usability of these synthetic images for DL tasks, segmentation algorithms were trained to delineate the left ventricle, left atrium, and myocardium. A quantitative analysis of the 3D segmentations given by the models trained with the synthetic images indicated the potential use of this GAN approach to generate 3D synthetic data, use the data to train DL models for different clinical tasks, and therefore tackle the problem of scarcity of 3D labeled echocardiography datasets.
翻訳日:2024-03-11 13:15:14 公開日:2024-03-08
# 衛星画像におけるFew-Shotオブジェクト検出のためのロバストな特徴の探索

Exploring Robust Features for Few-Shot Object Detection in Satellite Imagery ( http://arxiv.org/abs/2403.05381v1 )

ライセンス: Link先を確認
Xavier Bou, Gabriele Facciolo, Rafael Grompone von Gioi, Jean-Michel Morel, Thibaud Ehret(参考訳) 本研究の目的は,衛星画像におけるオブジェクト検出を少数の例で行うことで,最小限のアノテーションで任意のオブジェクトクラスを指定できるようにすることである。 そこで本研究では,リモートセンシング領域に対するオープン語彙検出の手法とアイデアについて検討する。 そこで我々は,従来の2段階アーキテクチャに基づく数発物体検出器を開発し,分類ブロックをプロトタイプベースの分類器に置き換えた。 大規模な事前学習モデルを用いて、ラベル予測のための領域提案内容と比較したクラス参照埋め込みやプロトタイプを構築する。 さらに,実機種別などの類似クラス間の差異を学習するために,利用可能な訓練画像のプロトタイプを微調整することを提案する。 課題と稀なオブジェクトを含む2つのリモートセンシングデータセットに対して、広範囲な評価を行う。 さらに、リモートセンシングアプリケーションに特化した2つのCLIPモデルを含む、DINOv2とCLIPという視覚的および画像テキスト機能の性能について検討した。 その結果、視覚的特徴は視覚言語モデルよりも優れていることが示唆された。 最後に、開発した検出器は、最小限のトレーニングパラメータにもかかわらず、SIMDおよびDIORデータセットで評価された完全な教師付きおよび少数ショットの手法より優れている。

The goal of this paper is to perform object detection in satellite imagery with only a few examples, thus enabling users to specify any object class with minimal annotation. To this end, we explore recent methods and ideas from open-vocabulary detection for the remote sensing domain. We develop a few-shot object detector based on a traditional two-stage architecture, where the classification block is replaced by a prototype-based classifier. A large-scale pre-trained model is used to build class-reference embeddings or prototypes, which are compared to region proposal contents for label prediction. In addition, we propose to fine-tune prototypes on available training images to boost performance and learn differences between similar classes, such as aircraft types. We perform extensive evaluations on two remote sensing datasets containing challenging and rare objects. Moreover, we study the performance of both visual and image-text features, namely DINOv2 and CLIP, including two CLIP models specifically tailored for remote sensing applications. Results indicate that visual features are largely superior to vision-language models, as the latter lack the necessary domain-specific vocabulary. Lastly, the developed detector outperforms fully supervised and few-shot methods evaluated on the SIMD and DIOR datasets, despite minimal training parameters.
翻訳日:2024-03-11 13:14:44 公開日:2024-03-08
# スペクトログラムによる音楽録音中の自動調音声の検出

Spectrogram-Based Detection of Auto-Tuned Vocals in Music Recordings ( http://arxiv.org/abs/2403.05380v1 )

ライセンス: Link先を確認
Mahyar Gohari, Paolo Bestagini, Sergio Benini, Nicola Adami(参考訳) 音楽制作と音声処理の分野では、オートチューン(Auto-Tune)として知られる歌唱音声の自動ピッチ補正の実装は、声楽演奏の景観を大きく変えた。 自動チューニング技術は、ミュージシャンに声のピッチを調整し、望ましいレベルの精度を達成する能力を与えてきたが、その使用は、その真正性や芸術的整合性への影響に関する議論を引き起こした。 その結果、音楽学者、プロデューサー、リスナーにとって、録音中のオートチューニング音声の検出と分析が不可欠となった。 しかし、私たちの知る限りでは、この方向への事前の努力は行われていない。 本研究では,トリプレットネットワークを活用したデータ駆動アプローチを導入し,オリジナルと自動調整された音声クリップからなるデータセットの作成を支援する。 実験により,提案手法の精度とロバスト性の両方に優れることを示すとともに,他の音声法医学的タスクに広く用いられているアンチ・スポーフィングのためのエンドツーエンドモデルであるRawnet2との比較を行った。

In the domain of music production and audio processing, the implementation of automatic pitch correction of the singing voice, also known as Auto-Tune, has significantly transformed the landscape of vocal performance. While auto-tuning technology has offered musicians the ability to tune their vocal pitches and achieve a desired level of precision, its use has also sparked debates regarding its impact on authenticity and artistic integrity. As a result, detecting and analyzing Auto-Tuned vocals in music recordings has become essential for music scholars, producers, and listeners. However, to the best of our knowledge, no prior effort has been made in this direction. This study introduces a data-driven approach leveraging triplet networks for the detection of Auto-Tuned songs, backed by the creation of a dataset composed of original and Auto-Tuned audio clips. The experimental results demonstrate the superiority of the proposed method in both accuracy and robustness compared to Rawnet2, an end-to-end model proposed for anti-spoofing and widely used for other audio forensic tasks.
翻訳日:2024-03-11 13:14:23 公開日:2024-03-08
# 急性骨髄性白血病分類のための自己監督型マルチインスタンス学習

Self-Supervised Multiple Instance Learning for Acute Myeloid Leukemia Classification ( http://arxiv.org/abs/2403.05379v1 )

ライセンス: Link先を確認
Salome Kazeminia, Max Joosten, Dragan Bosnacki, Carsten Marr(参考訳) 医用画像解析を用いた疾患の自動診断はディープラーニングに依存しており、しばしば教師付きモデルトレーニングのために大きなラベル付きデータセットを必要とする。 急性骨髄性白血病(AML)のような疾患は、単細胞レベルでのアノテーションが不足し、コストがかかる。 複数のインスタンス学習(mil)は弱いラベル付きシナリオに対処するが、ラベル付きデータで訓練される強力なエンコーダが必要となる。 本研究では,MILをベースとしたAMLサブタイプの血液スミア分類のための事前学習手法として,自己監視学習(SSL)を探索し,エンコーダトレーニング中のラベル付きデータの必要性を排除した。 そこで本研究では,SimCLR,SwaV,DINOの3つの最先端SSL手法について検討し,その性能を教師付き事前学習と比較する。 以上の結果から,SSL-pretrained encoder は MIL における SSL の可能性を示した。 このブレークスルーは、aiベースの疾患診断の分野を促進する、コスト効率とデータ効率のよいソリューションを提供する。

Automated disease diagnosis using medical image analysis relies on deep learning, often requiring large labeled datasets for supervised model training. Diseases like Acute Myeloid Leukemia (AML) pose challenges due to scarce and costly annotations on a single-cell level. Multiple Instance Learning (MIL) addresses weakly labeled scenarios but necessitates powerful encoders typically trained with labeled data. In this study, we explore Self-Supervised Learning (SSL) as a pre-training approach for MIL-based AML subtype classification from blood smears, removing the need for labeled data during encoder training. We investigate the three state-of-the-art SSL methods SimCLR, SwAV, and DINO, and compare their performance against supervised pre-training. Our findings show that SSL-pretrained encoders achieve comparable performance, showcasing the potential of SSL in MIL. This breakthrough offers a cost-effective and data-efficient solution, propelling the field of AI-based disease diagnosis.
翻訳日:2024-03-11 13:14:04 公開日:2024-03-08
# サービスアーキテクチャとしてのスケーラブルソフトウェア

Scalable Software as a Service Architecture ( http://arxiv.org/abs/2403.05377v1 )

ライセンス: Link先を確認
Ardy Dedase(参考訳) 本稿では,saas(software as a service)プラットフォームのアーキテクチャについて検討し,スケーラビリティと保守性を強調した。 個人や組織に適した柔軟なソフトウェア配布モデルであるSaaSは、クラウドサービスの出現とともに普及している。 本稿では、スケーラブルでメンテナンス可能なSaaSアーキテクチャを確立するための高レベルの設計基準を提供することを目的とする。

This paper explores the architecture of Software as a Service (SaaS) platforms, emphasizing scalability and maintainability. SaaS, a flexible software distribution model suitable for individuals and organizations, has become prevalent with the advent of Cloud services. This paper aims to provide a high-level design reference for establishing a scalable and maintainable SaaS architecture.
翻訳日:2024-03-11 13:13:46 公開日:2024-03-08
# セマンティクスセグメンテーションのための周波数適応拡張畳み込み

Frequency-Adaptive Dilated Convolution for Semantic Segmentation ( http://arxiv.org/abs/2403.05369v1 )

ライセンス: Link先を確認
Linwei Chen, Lin Gu, Ying Fu(参考訳) 連続する要素間のギャップを挿入することによって受容場を広げる拡張畳み込みは、コンピュータビジョンにおいて広く用いられている。 本研究では,スペクトル分析の観点から,拡張畳み込みの個々の位相を改善するための3つの戦略を提案する。 グローバルディレーションレートをハイパーパラメータとして固定する従来の手法とは別に,周波数適応型ディレイト・コンボリューション(FADC, Frequency-Adaptive Dilated Convolution)を導入する。 その後、有効帯域幅と受容フィールドサイズを直接拡張する2つのプラグインモジュールを設計する。 Adaptive Kernel (AdaKern) モジュールは、畳み込み重みを低周波および高周波成分に分解し、チャネル単位でこれらの成分間の比を動的に調整する。 畳み込み重みの高周波部分を増やすことで、AdaKernはより多くの高周波成分を捕捉し、有効帯域幅を改善する。 周波数選択(freqselect)モジュールは、空間的に変化する再重み付けを通じて、特徴表現における高周波数および低周波数成分を最適にバランスさせる。 背景の高周波数を抑え、FADCにより大きな拡張学習を促すことにより、拡張されたスコープに対する受容野を増加させる。 セグメンテーションと物体検出に関する広範囲な実験は,提案手法の有効性を一貫して検証している。 コードは \url{https://github.com/Linwei-Chen/FADC} で公開されている。

Dilated convolution, which expands the receptive field by inserting gaps between its consecutive elements, is widely employed in computer vision. In this study, we propose three strategies to improve individual phases of dilated convolution from the view of spectrum analysis. Departing from the conventional practice of fixing a global dilation rate as a hyperparameter, we introduce Frequency-Adaptive Dilated Convolution (FADC), which dynamically adjusts dilation rates spatially based on local frequency components. Subsequently, we design two plug-in modules to directly enhance effective bandwidth and receptive field size. The Adaptive Kernel (AdaKern) module decomposes convolution weights into low-frequency and high-frequency components, dynamically adjusting the ratio between these components on a per-channel basis. By increasing the high-frequency part of convolution weights, AdaKern captures more high-frequency components, thereby improving effective bandwidth. The Frequency Selection (FreqSelect) module optimally balances high- and low-frequency components in feature representations through spatially variant reweighting. It suppresses high frequencies in the background to encourage FADC to learn a larger dilation, thereby increasing the receptive field for an expanded scope. Extensive experiments on segmentation and object detection consistently validate the efficacy of our approach. The code is publicly available at \url{https://github.com/Linwei-Chen/FADC}.
翻訳日:2024-03-11 13:13:41 公開日:2024-03-08
# 基礎補題とカーネル回帰の関連性を探る

Exploring the Links between the Fundamental Lemma and Kernel Regression ( http://arxiv.org/abs/2403.05368v1 )

ライセンス: Link先を確認
Oleksii Molodchyk and Timm Faulwasser(参考訳) Willemsらによる基本的な補題の一般化とバリエーションは、最近の研究の活発なトピックである。 本稿では,核回帰と既知の基本補題の非線形拡張との関係を探究し,定式化する。 ハンケル行列の通常の線型方程式への変換を適用すると、励起の持続性の要求を保ちながら、系の軌跡の別の暗黙的なカーネル表現に到達する。 この表現は、特定のカーネル回帰問題の解と同値であることを示す。 我々は、基盤となるカーネルの構造と、それらに対応するシステムクラスについて検討する。

Generalizations and variations of the fundamental lemma by Willems et al. are an active topic of recent research. In this note, we explore and formalize the links between kernel regression and known nonlinear extensions of the fundamental lemma. Applying a transformation to the usual linear equation in Hankel matrices, we arrive at an alternative implicit kernel representation of the system trajectories while keeping the requirements on persistency of excitation. We show that this representation is equivalent to the solution of a specific kernel regression problem. We explore the possible structures of the underlying kernel as well as the system classes to which they correspond.
翻訳日:2024-03-11 13:13:16 公開日:2024-03-08
# 変圧器を用いたテキスト分類器のロバスト性に及ぼす量子化の影響

The Impact of Quantization on the Robustness of Transformer-based Text Classifiers ( http://arxiv.org/abs/2403.05365v1 )

ライセンス: Link先を確認
Seyed Parsa Neshaei, Yasaman Boreshban, Gholamreza Ghassem-Sani, Seyed Abolghasem Mirroshandel(参考訳) 変圧器ベースのモデルは様々なnlp領域で顕著な進歩を遂げている。 しかしながら、これらのモデルは敵の攻撃に直面するとしばしば脆弱性を示す。 本稿では,トランスベースモデルのロバスト性に及ぼす量子化の影響について検討する。 量子化は通常、高精度実数を低精度値にマッピングし、手元のモデルのサイズを減らすことを目的としている。 我々の知る限りでは、この研究はNLPモデルの堅牢性に対する量子化の最初の応用である。 本研究では,SST-2, Emotion, MRデータセットを用いたテキスト分類において, BERTモデルとDistilBERTモデルに対する量子化の影響を評価する。 また,これらのモデルの性能をTextFooler,PWWS,PSO攻撃に対して評価した。 その結果、量子化は(平均18.68%)モデルの逆精度を大幅に向上させることがわかった。 さらに, 量子化の効果と, 対向訓練アプローチがロバスト性に与える影響を比較した。 実験の結果,量子化は,学習中に余分な計算オーバーヘッドを伴わずに,平均18.80%の精度でモデルのロバスト性を高めることが示唆された。 そこで本研究では,NLPモデルのロバスト性向上における量子化の有効性を強調した。

Transformer-based models have made remarkable advancements in various NLP areas. Nevertheless, these models often exhibit vulnerabilities when confronted with adversarial attacks. In this paper, we explore the effect of quantization on the robustness of Transformer-based models. Quantization usually involves mapping a high-precision real number to a lower-precision value, aiming at reducing the size of the model at hand. To the best of our knowledge, this work is the first application of quantization on the robustness of NLP models. In our experiments, we evaluate the impact of quantization on BERT and DistilBERT models in text classification using SST-2, Emotion, and MR datasets. We also evaluate the performance of these models against TextFooler, PWWS, and PSO adversarial attacks. Our findings show that quantization significantly improves (by an average of 18.68%) the adversarial accuracy of the models. Furthermore, we compare the effect of quantization versus that of the adversarial training approach on robustness. Our experiments indicate that quantization increases the robustness of the model by 18.80% on average compared to adversarial training without imposing any extra computational overhead during training. Therefore, our results highlight the effectiveness of quantization in improving the robustness of NLP models.
翻訳日:2024-03-11 13:13:06 公開日:2024-03-08
# 離散分布のドリフト学習のための改良アルゴリズム

An Improved Algorithm for Learning Drifting Discrete Distributions ( http://arxiv.org/abs/2403.05446v1 )

ライセンス: Link先を確認
Alessio Mazzetto(参考訳) 分散ドリフト下で離散分布を学習するための適応アルゴリズムを提案する。 この設定では、時間とともに変化する離散分布から独立したサンプルの列を観察し、その目標は現在の分布を推定することである。 時間ステップ毎に単一のサンプルのみにアクセスできるので、適切な推定には、使用する過去のサンプル数を慎重に選択する必要があります。 より多くのサンプルを使用するには、過去にさらにサンプルに頼らなければならず、分布の変化によって生じるバイアスによりドリフトエラーが発生する。 一方、過去の少数のサンプルを用いると、推定値のばらつきが大きいため、大きな統計的誤差が発生する。 本稿では,ドリフトの事前知識を必要とせずに,このトレードオフを解く新しい適応アルゴリズムを提案する。 従来の適応結果とは異なり,本アルゴリズムはデータ依存境界を用いて統計誤差を特徴付ける。 この技術により、前もってサイズが知られ、時間とともに変化しない固定有限サポートを必要とする以前の作業の制限を克服することができる。 さらに、ドリフト分布の複雑さに応じてより厳密な境界を得ることができ、また無限に支持された分布も考慮できる。

We present a new adaptive algorithm for learning discrete distributions under distribution drift. In this setting, we observe a sequence of independent samples from a discrete distribution that is changing over time, and the goal is to estimate the current distribution. Since we have access to only a single sample for each time step, a good estimation requires a careful choice of the number of past samples to use. To use more samples, we must resort to samples further in the past, and we incur a drift error due to the bias introduced by the change in distribution. On the other hand, if we use a small number of past samples, we incur a large statistical error as the estimation has a high variance. We present a novel adaptive algorithm that can solve this trade-off without any prior knowledge of the drift. Unlike previous adaptive results, our algorithm characterizes the statistical error using data-dependent bounds. This technicality enables us to overcome the limitations of the previous work that require a fixed finite support whose size is known in advance and that cannot change over time. Additionally, we can obtain tighter bounds depending on the complexity of the drifting distribution, and also consider distributions with infinite support.
翻訳日:2024-03-11 13:09:20 公開日:2024-03-08
# 日内電力価格のベイズ的階層的確率予測

Bayesian Hierarchical Probabilistic Forecasting of Intraday Electricity Prices ( http://arxiv.org/abs/2403.05441v1 )

ライセンス: Link先を確認
Daniel Nickelsen, Gernot M\"uller(参考訳) 我々は,ドイツにおける日内連続市場で取引される電力価格のベイズ予測について,パラメータの不確実性を完全に組み込んだ最初の研究を行う。 我々のターゲット変数はIDFull価格指数であり、予測は後続の予測分布で与えられる。 検証には、これまで予測研究の対象とならなかった2022年の超過揮発性電力価格を用いる。 ベンチマークモデルとして、予測生成時に利用可能なすべての日内トランザクションを使用して、IDFullの現在の値を計算します。 弱形式効率仮説によれば、最終価格情報から構築したベンチマークを大幅に改善することは不可能である。 しかし、我々は点測度と確率スコアの両方の観点から統計的に有意な改善を観察する。 最後に,直交マッチング追跡(omp)が予測性能の向上に繋がる強い統計的証拠を提示することにより,電力価格予測における特徴選択にlassoを使用するという金本位制に挑戦する。

We present a first study of Bayesian forecasting of electricity prices traded on the German continuous intraday market which fully incorporates parameter uncertainty. Our target variable is the IDFull price index, forecasts are given in terms of posterior predictive distributions. For validation we use the exceedingly volatile electricity prices of 2022, which have hardly been the subject of forecasting studies before. As a benchmark model, we use all available intraday transactions at the time of forecast creation to compute a current value for the IDFull. According to the weak-form efficiency hypothesis, it would not be possible to significantly improve this benchmark built from last price information. We do, however, observe statistically significant improvement in terms of both point measures and probability scores. Finally, we challenge the declared gold standard of using LASSO for feature selection in electricity price forecasting by presenting strong statistical evidence that Orthogonal Matching Pursuit (OMP) leads to better forecasting performance.
翻訳日:2024-03-11 13:08:50 公開日:2024-03-08
# Cosine-Similarity of Embeddings is reallyly About similarity?

Is Cosine-Similarity of Embeddings Really About Similarity? ( http://arxiv.org/abs/2403.05440v1 )

ライセンス: Link先を確認
Harald Steck, Chaitanya Ekanadham, Nathan Kallus(参考訳) コサイン相似性(Cosine-similarity)は、2つのベクトル間の角度のコサイン、すなわちそれらの正規化の間のドット積である。 一般的な応用は、学習した低次元特徴埋め込みにコサイン類似性を適用することで、高次元オブジェクト間の意味的類似性を定量化することである。 これはうまく機能するが、実際には組込みベクトル間の非正規化ドット積よりも悪い場合もある。 この経験的観察の洞察を得るために,閉形式解が解析的洞察を促進する正規化線形モデルからの埋め込みについて検討した。 分析的に、コサイン相似性が任意で意味のない「相似性」をいかに生み出すかを導出する。 ' 線形モデルでは類似性は一意ではなく、他のモデルでは正規化によって暗黙的に制御される。 深層モデルを学ぶ際に異なる正規化の組み合わせが用いられる;これらの組み合わせは、結果の埋め込みのコサイン相似性を取る際に暗黙的かつ意図しない効果を持ち、その結果は不透明であり、おそらくは任意である。 これらの知見に基づいて,コサイン相似性とアウトライン代替法を盲目的に使用することを警告する。

Cosine-similarity is the cosine of the angle between two vectors, or equivalently the dot product between their normalizations. A popular application is to quantify semantic similarity between high-dimensional objects by applying cosine-similarity to a learned low-dimensional feature embedding. This can work better but sometimes also worse than the unnormalized dot-product between embedded vectors in practice. To gain insight into this empirical observation, we study embeddings derived from regularized linear models, where closed-form solutions facilitate analytical insights. We derive analytically how cosine-similarity can yield arbitrary and therefore meaningless `similarities.' For some linear models the similarities are not even unique, while for others they are implicitly controlled by the regularization. We discuss implications beyond linear models: a combination of different regularizations are employed when learning deep models; these have implicit and unintended effects when taking cosine-similarities of the resulting embeddings, rendering results opaque and possibly arbitrary. Based on these insights, we caution against blindly using cosine-similarity and outline alternatives.
翻訳日:2024-03-11 13:08:16 公開日:2024-03-08
# VideoElevator:Versatile Text-to-Image Diffusion Modelによるビデオ生成品質の向上

VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models ( http://arxiv.org/abs/2403.05438v1 )

ライセンス: Link先を確認
Yabo Zhang, Yuxiang Wei, Xianhui Lin, Zheng Hui, Peiran Ren, Xuansong Xie, Xiangyang Ji, Wangmeng Zuo(参考訳) text-to-image diffusion models (t2i)は、現実的で美的な画像を作成する前例のない能力を示している。 逆に、テキスト間拡散モデル(T2V)は、トレーニングビデオの品質と量不足のため、フレーム品質とテキストアライメントがまだ遅れている。 本稿では,T2I の優れた機能を利用して,T2V の性能を向上させる訓練不要でプラグアンドプレイ方式である VideoElevator を紹介する。 従来のT2Vサンプリング(時間的および空間的モデリング)とは異なり、VideoElevatorは各サンプリングステップを時間的動きの精細化と空間的品質向上に明示的に分解する。 具体的には、時間運動精製はT2Vをカプセル化して時間的一貫性を高め、続いてT2Iが要求する雑音分布を反転させる。 次に、空間的品質上昇ハーネスが膨らんだT2Iを使って、ノイズの少ない潜水剤を直接予測し、より写真リアリスティックな詳細を追加する。 各種T2VとT2Iを組み合わせた広範囲なプロンプト実験を行った。 その結果, VideoElevatorは, 基礎的T2IによるT2Vベースラインの性能向上だけでなく, パーソナライズされたT2Iによるスタイリスティックなビデオ合成を促進することがわかった。 私たちのコードはhttps://github.com/ybybzhang/videoelevatorで利用可能です。

Text-to-image diffusion models (T2I) have demonstrated unprecedented capabilities in creating realistic and aesthetic images. On the contrary, text-to-video diffusion models (T2V) still lag far behind in frame quality and text alignment, owing to insufficient quality and quantity of training videos. In this paper, we introduce VideoElevator, a training-free and plug-and-play method, which elevates the performance of T2V using superior capabilities of T2I. Different from conventional T2V sampling (i.e., temporal and spatial modeling), VideoElevator explicitly decomposes each sampling step into temporal motion refining and spatial quality elevating. Specifically, temporal motion refining uses encapsulated T2V to enhance temporal consistency, followed by inverting to the noise distribution required by T2I. Then, spatial quality elevating harnesses inflated T2I to directly predict less noisy latent, adding more photo-realistic details. We have conducted experiments in extensive prompts under the combination of various T2V and T2I. The results show that VideoElevator not only improves the performance of T2V baselines with foundational T2I, but also facilitates stylistic video synthesis with personalized T2I. Our code is available at https://github.com/YBYBZhang/VideoElevator.
翻訳日:2024-03-11 13:07:46 公開日:2024-03-08
# OmniCount:Semantic-Geometric Priorsを用いたマルチラベルオブジェクトカウント

OmniCount: Multi-label Object Counting with Semantic-Geometric Priors ( http://arxiv.org/abs/2403.05435v1 )

ライセンス: Link先を確認
Anindya Mondal, Sauradip Nag, Xiatian Zhu, Anjan Dutta(参考訳) オブジェクトのカウントはシーンの構成を理解する上で重要である。 以前は、このタスクはクラス固有のメソッドに支配され、徐々に適応可能なクラスに依存しない戦略へと進化してきた。 しかしながら、これらの戦略には、手動の模範入力の必要性や複数のカテゴリの複数のパスなど、独自の制限があるため、大きな非効率性が生じる。 本稿では,オープン語彙フレームワークを用いて複数のオブジェクトカテゴリを同時カウント可能な,より実用的なアプローチを提案する。 我々のソリューションであるOmniCountは、事前訓練されたモデルから意味的および幾何学的な洞察を用いて、ユーザーが指定した複数のカテゴリのオブジェクトを、追加のトレーニングなしでカウントすることで際立っている。 OmniCountは、正確なオブジェクトマスクを生成し、Segment Anything Modelを介してポイントプロンプトを活用することで、自分自身を区別する。 OmniCount-191ベンチマークは、ポイント、バウンディングボックス、VQAアノテーションを含む、複数ラベルのオブジェクトカウントを備えたファーストオブザイズ型データセットです。 OmniCount-191の包括的な評価は、他の主要なベンチマークとともに、OmniCountの優れたパフォーマンスを示し、既存のソリューションを大幅に上回り、オブジェクトカウント技術の新たな時代を告げています。

Object counting is pivotal for understanding the composition of scenes. Previously, this task was dominated by class-specific methods, which have gradually evolved into more adaptable class-agnostic strategies. However, these strategies come with their own set of limitations, such as the need for manual exemplar input and multiple passes for multiple categories, resulting in significant inefficiencies. This paper introduces a new, more practical approach enabling simultaneous counting of multiple object categories using an open vocabulary framework. Our solution, OmniCount, stands out by using semantic and geometric insights from pre-trained models to count multiple categories of objects as specified by users, all without additional training. OmniCount distinguishes itself by generating precise object masks and leveraging point prompts via the Segment Anything Model for efficient counting. To evaluate OmniCount, we created the OmniCount-191 benchmark, a first-of-its-kind dataset with multi-label object counts, including points, bounding boxes, and VQA annotations. Our comprehensive evaluation in OmniCount-191, alongside other leading benchmarks, demonstrates OmniCount's exceptional performance, significantly outpacing existing solutions and heralding a new era in object counting technology.
翻訳日:2024-03-11 13:07:20 公開日:2024-03-08
# 商用LLMを用いた低リソース言語タスクのコストパフォーマンス最適化

Cost-Performance Optimization for Processing Low-Resource Language Tasks Using Commercial LLMs ( http://arxiv.org/abs/2403.05434v1 )

ライセンス: Link先を確認
Arijit Nag, Animesh Mukherjee, Niloy Ganguly, Soumen Chakrabarti(参考訳) 大規模言語モデル(llms)は、高リソース言語(hrls)のゼロ/フェーショット推論と生成品質を示す。 いくつかは低リソース言語(LRL)でトレーニングされ、優れたパフォーマンスを提供している。 LLMのトレーニングの禁止コストのため、通常はネットワークサービスとして使用され、クライアントは入力トークンと出力トークンのカウントによって課金される。 トークンの数は、LLMのサブワード語彙と同様に、スクリプトと言語に強く依存する。 LLM は HRL よりも LRL よりも多くのトークンを生成するため,LRL が価格面で不利であることを示す。 これは、現在広く使われているLLMがHRL語彙に最適化されているためである。 我々の目標は、現代のLLMにおけるLRLの処理コストを低減し、予測的および生成的品質が損なわれないようにすることである。 LLMによって処理されるトークンの数を減らす手段として、LRLのコード混合、翻訳、HRLへの翻訳を検討する。 インド語15言語をカバーするIndicXTREMEデータセットを用いて広範に研究を行い、商業LLMとしてGPT-4(これまでリリースされた最も高価なLCMサービスの一つ)を用いた。 我々は,多数の言語やタスクにわたるトークン数,コスト,品質といった興味深いパターンを観察し,分析する。 従来のLRLのLLMとの通信と比較して,LLMと対話する最善のポリシーを選択することで,性能が向上する一方,コストを90%削減できることを示す。

Large Language Models (LLMs) exhibit impressive zero/few-shot inference and generation quality for high-resource languages(HRLs). A few of them have been trained in low-resource languages (LRLs) and give decent performance. Owing to the prohibitive costs of training LLMs, they are usually used as a network service, with the client charged by the count of input and output tokens. The number of tokens strongly depends on the script and language, as well as the LLM's sub-word vocabulary. We show that LRLs are at a pricing disadvantage, because the well-known LLMs produce more tokens for LRLs than HRLs. This is because most currently popular LLMs are optimized for HRL vocabularies. Our objective is to level the playing field: reduce the cost of processing LRLs in contemporary LLMs while ensuring that predictive and generative qualities are not compromised. As means to reduce the number of tokens processed by the LLM, we consider code-mixing, translation, and transliteration of LRLs to HRLs. We perform an extensive study using the IndicXTREME dataset, covering 15 Indian languages, while using GPT-4 (one of the costliest LLM services released so far) as a commercial LLM. We observe and analyze interesting patterns involving token count, cost,and quality across a multitude of languages and tasks. We show that choosing the best policy to interact with the LLM can reduce cost by 90% while giving better or comparable performance, compared to communicating with the LLM in the original LRL.
翻訳日:2024-03-11 13:06:56 公開日:2024-03-08
# 患者特異的セグメンテーションのためのパーソナライズされたセグメンテーションモデル

Part-aware Personalized Segment Anything Model for Patient-Specific Segmentation ( http://arxiv.org/abs/2403.05433v1 )

ライセンス: Link先を確認
Chenhui Zhao and Liyue Shen(参考訳) 医用画像を利用した患者適応治療などの精密医療は,(1)患者間の大きなばらつき,(2)各患者に対する注釈付きデータの限定的利用により,画像分割アルゴリズムに新たな課題を提起する。 本研究では,これらの課題,すなわちP^2SAM(Part-aware Personalized Segment Anything Model)に対処するデータ効率のセグメンテーション手法を提案する。 モデルの微調整がなければ、p^2samはワンショットの患者固有のデータのみに依存する新しい患者に対してシームレスに適応できる。 ワンショットデータのパートレベル特徴に基づいて複数ポイントプロンプトを選択する新しいパートアウェアプロンプト機構を提案する。 選択したプロンプトのロバスト性をさらに向上させるため,外部プロンプトを扱う検索手法を提案する。 広範な実験により、p^2samは2つの患者固有のセグメンテーション設定で+8.0%と+2.0%の平均サイススコアを向上し、persegベンチマークで+6.4%miouのように、異なるアプリケーションドメインにまたがる印象的な汎用性を示している。 コードは受理時にリリースされる。

Precision medicine, such as patient-adaptive treatments utilizing medical images, poses new challenges for image segmentation algorithms due to (1) the large variability across different patients and (2) the limited availability of annotated data for each patient. In this work, we propose a data-efficient segmentation method to address these challenges, namely Part-aware Personalized Segment Anything Model (P^2SAM). Without any model fine-tuning, P^2SAM enables seamless adaptation to any new patients relying only on one-shot patient-specific data. We introduce a novel part-aware prompt mechanism to select multiple-point prompts based on part-level features of the one-shot data. To further promote the robustness of the selected prompt, we propose a retrieval approach to handle outlier prompts. Extensive experiments demonstrate that P^2SAM improves the performance by +8.0% and +2.0% mean Dice score within two patient-specific segmentation settings, and exhibits impressive generality across different application domains, e.g., +6.4% mIoU on the PerSeg benchmark. Code will be released upon acceptance.
翻訳日:2024-03-11 13:06:31 公開日:2024-03-08
# 高次元ベイズ最適化のための適応次元削減推定法

An Adaptive Dimension Reduction Estimation Method for High-dimensional Bayesian Optimization ( http://arxiv.org/abs/2403.05425v1 )

ライセンス: Link先を確認
Shouri Hu, Jiawei Li, and Zhibo Cai(参考訳) ベイズ最適化(BO)は、低次元ユークリッド空間における様々な応用において印象的な結果を示している。 しかし、BOを高次元に拡張することは大きな課題である。 2段階最適化フレームワークを提案することで、この問題に対処する。 まず、最小平均分散推定法(MAVE)を用いて、目的関数に対する有効次元縮小(EDR)部分空間を同定する。 次に、このEDR部分空間内にガウス過程モデルを構築し、期待される改善基準を用いて最適化する。 私たちのアルゴリズムは、これらのステップを並列またはシーケンスで操作する柔軟性を提供します。 逐次的アプローチでは,部分空間推定と関数最適化の間にサンプリング予算を分散することで探索・探索トレードオフを慎重にバランスさせ,高次元文脈におけるアルゴリズムの収束率を確立した。 数値実験により,本手法の有効性が検証された。

Bayesian optimization (BO) has shown impressive results in a variety of applications within low-to-moderate dimensional Euclidean spaces. However, extending BO to high-dimensional settings remains a significant challenge. We address this challenge by proposing a two-step optimization framework. Initially, we identify the effective dimension reduction (EDR) subspace for the objective function using the minimum average variance estimation (MAVE) method. Subsequently, we construct a Gaussian process model within this EDR subspace and optimize it using the expected improvement criterion. Our algorithm offers the flexibility to operate these steps either concurrently or in sequence. In the sequential approach, we meticulously balance the exploration-exploitation trade-off by distributing the sampling budget between subspace estimation and function optimization, and the convergence rate of our algorithm in high-dimensional contexts has been established. Numerical experiments validate the efficacy of our method in challenging scenarios.
翻訳日:2024-03-11 13:06:08 公開日:2024-03-08
# 高利得自発パラメトリックダウンコンバージョンからの未検出光子を用いたフーリエ変換赤外分光

Fourier-transform infrared spectroscopy with undetected photons from high-gain spontaneous parametric down-conversion ( http://arxiv.org/abs/2403.05423v1 )

ライセンス: Link先を確認
Kazuki Hashimoto, Dmitri B. Horoshko, Mikhail I. Kolobov, Yoad Michael, Ziv Gefen, and Maria V. Chekhova(参考訳) フーリエ変換赤外分光法(英: Fourier-transform infrared spectroscopy、FTIR)は、基本的な分子振動を通じて物質をラベル無しで同定できる分析法である。 しかし、FTIRの感度は、中赤外光検出器の低効率によって制限されることが多い。 SU(1,1)インターフェロメトリは、低パラメトリックゲイン状態における自発的なパラメトリックダウンコンバージョンを通じて、未検出のMIR光子をFTIRで有効にしており、モード当たりの光子の数は1よりもはるかに少なく、感度の高い光検出器が必要である。 本研究では、未検出光子を用いたMIRレンジFTIRのための高パラメトリックゲインSU(1,1)干渉計を開発した。 新たな手法を用いて,干渉計出力における高い光子数,試料におけるかなり低い光子数,干渉コントラストの改善の3つの大きな利点を示した。 また, 干渉計のスペクトル範囲を非周期ポリングとゲイン媒質の温度勾配によって広めるために, 異なる手法を解析した。 ブロードバンドSU(1,1)干渉計を照射し, 3-{\mu}m領域におけるポリマーのMIR吸収スペクトルを測定し, 評価する。

Fourier-transform infrared spectroscopy (FTIR) is an indispensable analytical method that allows label-free identification of substances via fundamental molecular vibrations. However, the sensitivity of FTIR is often limited by the low efficiency of mid-infrared (MIR) photodetectors. SU(1,1) interferometry has previously enabled FTIR with undetected MIR photons via spontaneous parametric down-conversion in the low-parametric-gain regime, where the number of photons per mode is much less than one and sensitive photodetectors are needed. In this work, we develop a high-parametric-gain SU(1,1) interferometer for MIR-range FTIR with undetected photons. Using our new method, we demonstrate three major advantages: a high photon number at the interferometer output, a considerably lower photon number at the sample, and improved interference contrast. In addition, we analyze different methods to broaden the spectral range of the interferometer by aperiodic poling and temperature gradient in the gain medium. Exploiting the broadband SU(1,1) interferometer, we measure and evaluate the MIR absorption spectra of polymers in the 3-{\mu}m region.
翻訳日:2024-03-11 13:05:53 公開日:2024-03-08
# EVD4UAV:UAVにおける車両検出の高感度ベンチマーク

EVD4UAV: An Altitude-Sensitive Benchmark to Evade Vehicle Detection in UAV ( http://arxiv.org/abs/2403.05422v1 )

ライセンス: Link先を確認
Huiming Sun, Jiacheng Guo, Zibo Meng, Tianyun Zhang, Jianwu Fang, Yuewei Lin, Hongkai Yu(参考訳) 無人航空機(UAV)の撮影画像における車両検出は、航空写真やリモートセンシングに広く応用されている。 UAV画像の車両検出と追跡のために、多くの公開ベンチマークデータセットが提案されている。 近年の研究では、オブジェクトに敵のパッチを加えることで、よく訓練されたディープニューラルネットワークベースのオブジェクト検出器を騙し、下流のタスクにセキュリティ上の懸念を生じさせることが示されている。 しかし、現在のUAVデータセットは、様々な高度、車両特性、細かいインスタンスレベルのアノテーションを、ぼやけた車両屋根の側面で無視する可能性があるため、敵のパッチベースの車両検知攻撃問題を研究するのに良いものはない。 本稿では6,284枚の画像と90,886枚の微粒化アノテート車両を用いたUAVにおける車両検出を回避するための高度感度ベンチマークとしてEVD4UAVという新しいデータセットを提案する。 EVD4UAVデータセットは、さまざまな高度(50m、70m、90m)、車両属性(色、型)、細粒度アノテーション(水平および回転するバウンディングボックス、インスタンスレベルのマスク)を、車両の屋根が透明である。 1つのホワイトボックスと2つのブラックボックスパッチベースの攻撃方法は、EVD4UAV上の3つの古典的なディープニューラルネットワークベースのオブジェクト検出器を攻撃するために実装されている。 実験の結果,これらの代表的な攻撃手法は,高度に敏感な攻撃性能を達成できなかった。

Vehicle detection in Unmanned Aerial Vehicle (UAV) captured images has wide applications in aerial photography and remote sensing. There are many public benchmark datasets proposed for the vehicle detection and tracking in UAV images. Recent studies show that adding an adversarial patch on objects can fool the well-trained deep neural networks based object detectors, posing security concerns to the downstream tasks. However, the current public UAV datasets might ignore the diverse altitudes, vehicle attributes, fine-grained instance-level annotation in mostly side view with blurred vehicle roof, so none of them is good to study the adversarial patch based vehicle detection attack problem. In this paper, we propose a new dataset named EVD4UAV as an altitude-sensitive benchmark to evade vehicle detection in UAV with 6,284 images and 90,886 fine-grained annotated vehicles. The EVD4UAV dataset has diverse altitudes (50m, 70m, 90m), vehicle attributes (color, type), fine-grained annotation (horizontal and rotated bounding boxes, instance-level mask) in top view with clear vehicle roof. One white-box and two black-box patch based attack methods are implemented to attack three classic deep neural networks based object detectors on EVD4UAV. The experimental results show that these representative attack methods could not achieve the robust altitude-insensitive attack performance.
翻訳日:2024-03-11 13:05:31 公開日:2024-03-08
# マルチスペクトル衛星画像のための変圧器事前学習の再考

Rethinking Transformers Pre-training for Multi-Spectral Satellite Imagery ( http://arxiv.org/abs/2403.05419v1 )

ライセンス: Link先を確認
Mubashir Noman, Muzammal Naseer, Hisham Cholakkal, Rao Muhammad Anwar, Salman Khan, Fahad Shahbaz Khan(参考訳) 教師なし学習の最近の進歩は、大量のラベルなしデータを事前学習することで、ダウンストリームタスクで有望な結果を達成するための大きなビジョンモデルの能力を示している。 このような事前トレーニング技術は、大量のラベルなしデータの利用可能性から、リモートセンシング領域でも近年研究されている。 標準の自然画像データセットとは異なり、リモートセンシングデータは様々なセンサー技術から取得され、様々なスケールのバリエーションとモダリティを示す。 既存の衛星画像事前訓練方法は、リモートセンシング画像に存在するスケール情報を無視するか、あるいは単一のデータモダリティのみを使用するように制限する。 本稿では,複数のモダリティを効果的に活用するマルチスケール情報を事前学習し,活用するトランスフォーマティブを再検討する。 提案手法であるsatmae++は,マルチスケール事前トレーニングを行い,畳み込みに基づくアップサンプリングブロックを用いて高スケールで画像を再構成することにより,拡張性を高めた。 既存の研究と比較すると、マルチスケール事前トレーニングを備えたSatMAE++は、光学およびマルチスペクトル画像の両方に等しく有効である。 6つのデータセットに対する大規模な実験は、提案されたコントリビューションのメリットを明らかにし、すべてのデータセットに対する最先端のパフォーマンスをもたらす。 SatMAE++は、BigEarthNetデータセット上のマルチラベル分類タスクにおいて平均平均精度(mAP)が2.5\%向上する。 私たちのコードと事前トレーニングされたモデルは、 \url{https://github.com/techmn/satmae_pp}で利用可能です。

Recent advances in unsupervised learning have demonstrated the ability of large vision models to achieve promising results on downstream tasks by pre-training on large amount of unlabelled data. Such pre-training techniques have also been explored recently in the remote sensing domain due to the availability of large amount of unlabelled data. Different from standard natural image datasets, remote sensing data is acquired from various sensor technologies and exhibit diverse range of scale variations as well as modalities. Existing satellite image pre-training methods either ignore the scale information present in the remote sensing imagery or restrict themselves to use only a single type of data modality. In this paper, we re-visit transformers pre-training and leverage multi-scale information that is effectively utilized with multiple modalities. Our proposed approach, named SatMAE++, performs multi-scale pre-training and utilizes convolution based upsampling blocks to reconstruct the image at higher scales making it extensible to include more scales. Compared to existing works, the proposed SatMAE++ with multi-scale pre-training is equally effective for both optical as well as multi-spectral imagery. Extensive experiments on six datasets reveal the merits of proposed contributions, leading to state-of-the-art performance on all datasets. SatMAE++ achieves mean average precision (mAP) gain of 2.5\% for multi-label classification task on BigEarthNet dataset. Our code and pre-trained models are available at \url{https://github.com/techmn/satmae_pp}.
翻訳日:2024-03-11 13:05:03 公開日:2024-03-08
# SIRST-5K:ロバスト赤外小ターゲット検出のための自己教師付き学習による大規模負の合成探索

SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised Learning for Robust Infrared Small Target Detection ( http://arxiv.org/abs/2403.05416v1 )

ライセンス: Link先を確認
Yahao Lu, Yupei Lin, Han Wu, Xiaoyu Xian, Yukai Shi, Liang Lin(参考訳) 単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。 近年,畳み込みニューラルネットワークは一般物体検出において大きな利点を享受している。 Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。 限られたトレーニングサンプルのため、パフォーマンスは改善されていない。 赤外線データセットの品質、量、多様性は、小さなターゲットの検出に不可欠である。 そこで本稿では,本論文では負のサンプル増補法を提案する。 特に,自己教師付き学習のための膨大な否定を生成するために,負の強化手法が提案されている。 まず、現実的な赤外線データを生成するためのシーケンシャルノイズモデリング技術を実行する。 次に、抽出したノイズを元のデータと融合することで、生成されたデータの多様性と忠実性が向上する。 最後に,多様性を豊かにし,意味的不変性を維持するための負の強化戦略を提案した。 提案アルゴリズムは,大量の擬似データと対応するラベルを含む合成SIRST-5Kデータセットを生成する。 赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。 本手法は他のSOTA法と比較して,検出確率 (Pd), 偽アラーム率 (Fa), 結合の交叉率 (IoU) の点で優れた性能を発揮する。

Single-frame infrared small target (SIRST) detection aims to recognize small targets from clutter backgrounds. Recently, convolutional neural networks have achieved significant advantages in general object detection. With the development of Transformer, the scale of SIRST models is constantly increasing. Due to the limited training samples, performance has not been improved accordingly. The quality, quantity, and diversity of the infrared dataset are critical to the detection of small targets. To highlight this issue, we propose a negative sample augmentation method in this paper. Specifically, a negative augmentation approach is proposed to generate massive negatives for self-supervised learning. Firstly, we perform a sequential noise modeling technology to generate realistic infrared data. Secondly, we fuse the extracted noise with the original data to facilitate diversity and fidelity in the generated data. Lastly, we proposed a negative augmentation strategy to enrich diversity as well as maintain semantic invariance. The proposed algorithm produces a synthetic SIRST-5K dataset, which contains massive pseudo-data and corresponding labels. With a rich diversity of infrared small target data, our algorithm significantly improves the model performance and convergence speed. Compared with other state-of-the-art (SOTA) methods, our method achieves outstanding performance in terms of probability of detection (Pd), false-alarm rate (Fa), and intersection over union (IoU).
翻訳日:2024-03-11 13:04:41 公開日:2024-03-08
# fedfms: 医療画像セグメンテーションのためのフェデレーション基礎モデルの検討

FedFMS: Exploring Federated Foundation Models for Medical Image Segmentation ( http://arxiv.org/abs/2403.05408v1 )

ライセンス: Link先を確認
Yuxi Liu, Guibo Luo and Yuesheng Zhu(参考訳) 臨床診断には医用画像分割が不可欠である。 Segmentation Anything Model (SAM) は視覚的セグメンテーションの強力な基盤モデルとして機能し、医用画像セグメンテーションに適応することができる。 しかし、医療画像データは一般的にプライバシーに敏感な情報を含んでいるため、集中ストレージと共有による基礎モデルのトレーニングは困難である。 これまでのところ、フェデレーション学習フレームワーク内の医療画像配置用に調整された基礎モデルはほとんど存在せず、セグメンテーションのパフォーマンスやコミュニケーションやトレーニングの効率は未調査のままである。 これらの問題に対応して,federated sam (fedsam) とmedical sam adapter (fedmsa) を組み込んだfederated foundation model for medical image segmentation (fedfms) を開発した。 多様なデータセットに関する総合的な実験を行い、FedFMSの様々な構成における集中学習とフェデレーション学習のパフォーマンス格差について検討した。 実験の結果、feedfmsはプライバシを維持しながら集中トレーニング方法でトレーニングされたモデルに匹敵するパフォーマンスを達成できることが判明した。 さらに、FedMSAはコミュニケーションと訓練効率を高める可能性を実証した。 私たちのモデル実装コードはhttps://github.com/liu-yuxi/fedfmsで利用可能です。

Medical image segmentation is crucial for clinical diagnosis. The Segmentation Anything Model (SAM) serves as a powerful foundation model for visual segmentation and can be adapted for medical image segmentation. However, medical imaging data typically contain privacy-sensitive information, making it challenging to train foundation models with centralized storage and sharing. To date, there are few foundation models tailored for medical image deployment within the federated learning framework, and the segmentation performance, as well as the efficiency of communication and training, remain unexplored. In response to these issues, we developed Federated Foundation models for Medical image Segmentation (FedFMS), which includes the Federated SAM (FedSAM) and a communication and training-efficient Federated SAM with Medical SAM Adapter (FedMSA). Comprehensive experiments on diverse datasets are conducted to investigate the performance disparities between centralized training and federated learning across various configurations of FedFMS. The experiments revealed that FedFMS could achieve performance comparable to models trained via centralized training methods while maintaining privacy. Furthermore, FedMSA demonstrated the potential to enhance communication and training efficiency. Our model implementation codes are available at https://github.com/LIU-YUXI/FedFMS.
翻訳日:2024-03-11 13:04:25 公開日:2024-03-08
# 脳ネットワークにおける因果補充に必須な外因性ノードのアルゴリズムによる同定

Algorithmic Identification of Essential Exogenous Nodes for Causal Sufficiency in Brain Networks ( http://arxiv.org/abs/2403.05407v1 )

ライセンス: Link先を確認
Abdolmahdi Bagheri, Mahdi Dehshiri, Babak Nadjar Araabi, Alireza Akhondi Asl(参考訳) 脳の因果ネットワークなどの因果機構の調査において、因果不十分性の仮定が重要な役割を果たす。 特に、この仮定を無視すると重大なエラーが発生し、脳ネットワークの因果解析では無視されることが多い。 本研究では,本研究における因果補充性の重要要件を満たす重要な外因性ノードを決定するためのアルゴリズム的同定手法を提案する。 まず、peter-clark(pc)アルゴリズムの本質を捉えることで、ネットワーク内の領域のペアに対して独立テストを行い、他のネットワークのノードで条件付けられた同じペアについても独立テストを行う。 次に,Kolmogorov-Smirnov テストを用いて,条件付き結果と条件なし結果の違いを分析することで,候補共同創設者を識別する。 次に,NF-iVAE(Non-Factorized identible Variational Autoencoders)と相関係数指標(CCI)を用いて,これらの候補ノード内の共役変数を同定する。 本手法をヒューマン・コネクトーム・プロジェクト(HCP)映画視聴タスクデータに適用することにより,背側領域と腹側領域との相互作用は存在するものの,背側領域のみが視覚ネットワークの共同創設者として機能することを示す。 これらの知見は神経科学の観点から得られたものと一致している。 最後に,NF-iVAE初期化のための30個の独立したランニングテストにより,結果の信頼性を示す。

In the investigation of any causal mechanisms, such as the brain's causal networks, the assumption of causal sufficiency plays a critical role. Notably, neglecting this assumption can result in significant errors, a fact that is often disregarded in the causal analysis of brain networks. In this study, we propose an algorithmic identification approach for determining essential exogenous nodes that satisfy the critical need for causal sufficiency to adhere to it in such inquiries. Our approach consists of three main steps: First, by capturing the essence of the Peter-Clark (PC) algorithm, we conduct independence tests for pairs of regions within a network, as well as for the same pairs conditioned on nodes from other networks. Next, we distinguish candidate confounders by analyzing the differences between the conditional and unconditional results, using the Kolmogorov-Smirnov test. Subsequently, we utilize Non-Factorized identifiable Variational Autoencoders (NF-iVAE) along with the Correlation Coefficient index (CCI) metric to identify the confounding variables within these candidate nodes. Applying our method to the Human Connectome Projects (HCP) movie-watching task data, we demonstrate that while interactions exist between dorsal and ventral regions, only dorsal regions serve as confounders for the visual networks, and vice versa. These findings align consistently with those resulting from the neuroscientific perspective. Finally, we show the reliability of our results by testing 30 independent runs for NF-iVAE initialization.
翻訳日:2024-03-11 13:03:59 公開日:2024-03-08
# 予測用変分階層変換器を用いた多変量時系列内の非定常性の検討

Considering Nonstationary within Multivariate Time Series with Variational Hierarchical Transformer for Forecasting ( http://arxiv.org/abs/2403.05406v1 )

ライセンス: Link先を確認
Muyao Wang, Wenchao Chen, Bo Chen(参考訳) 多変量時系列(MTS)の予測は、長い間重要で困難な課題であった。 長距離時間ステップにまたがる非定常問題により、従来の研究では、予測可能性を改善するために、元のシリーズの非定常問題を減衰させる固定化法を主に採用していた。 しかし、既存の手法は常に定常化級数を採用しており、非定常性を無視し、確率性の欠如により複雑な分布を持つMSSをモデル化することは困難である。 これらの問題に対処するために、我々はまず、MTS内の非定常性および確率特性を考慮した強力な階層的確率的生成モジュールを開発し、それを階層時間系列変分変換器(HTV-Trans)と組み合わせ、固有非定常情報を時間依存性に復元する。 HTV-Transは強力な確率モデルであり、MTSの表現表現を学習し、予測タスクに適用する。 MTS予測タスクにおけるHTV-Transの効率性を示す多種多様なデータセットに関する大規模な実験

The forecasting of Multivariate Time Series (MTS) has long been an important but challenging task. Due to the non-stationary problem across long-distance time steps, previous studies primarily adopt stationarization method to attenuate the non-stationary problem of the original series for better predictability. However, existing methods always adopt the stationarized series, which ignores the inherent non-stationarity, and has difficulty in modeling MTS with complex distributions due to the lack of stochasticity. To tackle these problems, we first develop a powerful hierarchical probabilistic generative module to consider the non-stationarity and stochastic characteristics within MTS, and then combine it with transformer for a well-defined variational generative dynamic model named Hierarchical Time series Variational Transformer (HTV-Trans), which recovers the intrinsic non-stationary information into temporal dependencies. Being a powerful probabilistic model, HTV-Trans is utilized to learn expressive representations of MTS and applied to forecasting tasks. Extensive experiments on diverse datasets show the efficiency of HTV-Trans on MTS forecasting tasks
翻訳日:2024-03-11 13:03:32 公開日:2024-03-08
# 開発者とユーザ保護の実現 - vrにおけるハラスメントと安全性の調査

Enabling Developers, Protecting Users: Investigating Harassment and Safety in VR ( http://arxiv.org/abs/2403.05499v1 )

ライセンス: Link先を確認
Abhinaya S.B., Aafaq Sabir, Anupam Das(参考訳) VR(Virtual Reality)はハラスメントの高まりを目の当たりにしており、VRアプリケーションにミュートやブロッキングといった安全管理の統合を促している。 しかし、vrアプリケーション間で標準化された安全対策の欠如は、ソーシャル化、ゲーム、ストリーミングといったコンテキストにおいて、その普遍的な効果を妨げる。 これまでの研究はソーシャルvrアプリケーションにおける安全制御を研究してきましたが、ユーザ調査(n = 27)では、安全制御のユーザビリティと有効性に対するユーザの認識と、開発者がvrの安全制御の設計とデプロイで直面する課題の両方について、マルチパースペクティブなアプローチを採用しています。 私たちは、混み合った仮想空間のユーザーをブロックするなど、安全管理を採用する際にVRユーザーが直面する課題を特定します。 また、VRユーザーはハラスメントに対処する上で、コントロールが効果的でないことに気付き、例えば、ハザースの存在を環境から排除することができない。 さらに、vrユーザーは、レポートの時間的消費と面倒さの証拠を提出する現在の方法を見つける。 ユーザーが望む改善には、vrアプリ間でのライブモデレーションと行動追跡が含まれるが、開発者はそのようなソリューションを実装するための技術的、財政的、法的障害を挙げている。 仮想環境におけるユーザ安全性向上のための技術的および法的ガイドラインの確立の重要性を強調する。

Virtual Reality (VR) has witnessed a rising issue of harassment, prompting the integration of safety controls like muting and blocking in VR applications. However, the lack of standardized safety measures across VR applications hinders their universal effectiveness, especially across contexts like socializing, gaming, and streaming. While prior research has studied safety controls in social VR applications, our user study (n = 27) takes a multi-perspective approach, examining both users' perceptions of safety control usability and effectiveness as well as the challenges that developers face in designing and deploying VR safety controls. We identify challenges VR users face while employing safety controls, such as finding users in crowded virtual spaces to block them. VR users also find controls ineffective in addressing harassment; for instance, they fail to eliminate the harassers' presence from the environment. Further, VR users find the current methods of submitting evidence for reports time-consuming and cumbersome. Improvements desired by users include live moderation and behavior tracking across VR apps; however, developers cite technological, financial, and legal obstacles to implementing such solutions, often due to a lack of awareness and high development costs. We emphasize the importance of establishing technical and legal guidelines to enhance user safety in virtual environments.
翻訳日:2024-03-11 12:57:41 公開日:2024-03-08
# errは人間ですが ラマも学ぶことができます

To Err Is Human, but Llamas Can Learn It Too ( http://arxiv.org/abs/2403.05493v1 )

ライセンス: Link先を確認
Agnes Luhtaru, Taido Purason, Martin Vainikko, Maksym Del, Mark Fishel(参考訳) 本研究では,言語モデル(LM)を用いた人工誤り生成(AEG)による文法的誤り訂正(GEC)の強化について検討する。 具体的には,Llama 2-based LMsを微調整し,人間の誤りに類似した合成誤差を生じることを発見した。 次に、これらの人工的エラーの助けを借りてGEC Llamaモデルをトレーニングし、従来の最先端の誤り訂正モデルより優れており、テスト対象言語(ドイツ語、ウクライナ語、エストニア語)の0.8から6F0.5ポイントの範囲でゲインが得られる。 さらに,より小さなシーケンスからシーケンスまでのモデルを微調整し,大きな商業用lmm(gpt-3.5,gpt-4)を誘導することにより,エラーの発生がエラー生成モデルに有益であることを示す。

This study explores enhancing grammatical error correction (GEC) through artificial error generation (AEG) using language models (LMs). Specifically, we fine-tune Llama 2-based LMs for error generation and find that this approach yields synthetic errors akin to human errors. Next, we train GEC Llama models with the help of these artificial errors and outperform previous state-of-the-art error correction models, with gains ranging between 0.8 and 6 F0.5 points across all tested languages (German, Ukrainian, and Estonian). Moreover, we demonstrate that generating errors by fine-tuning smaller sequence-to-sequence models and prompting large commercial LMs (GPT-3.5 and GPT-4) also results in synthetic errors beneficially affecting error generation models.
翻訳日:2024-03-11 12:57:16 公開日:2024-03-08
# レーザーの周波数シフト測定感度の極端向上のための低光増倍不平衡干渉計

Slow Light Augmented Unbalanced Interferometry for Extreme Enhancement in Sensitivity of Measuring Frequency Shift in a Laser ( http://arxiv.org/abs/2403.05491v1 )

ライセンス: Link先を確認
Ruoxi Zhu, Zifan Zhou, Jinyang Li, Jason Bonacum, David D. Smith and Selim M. Shahriar(参考訳) 我々は、レーザーの周波数シフトを測定する感度を著しく向上するために、低照度非平衡マッハ・ツェンダー干渉計(MZI)を実証する。 エンハンスメントの度合いは、スローライト媒体の群指数、MZIの2本の腕の物理的長さとレーザーのスペクトル幅の間の不均衡度に依存する。 高精細度キャビティをベースとしたレーザーの場合、測定感度を高めるために、量子ノイズ制限スペクトル幅が狭くなり、グループ指数が微細さよりも大きくなる必要がある。 報告した結果に対し,rb原子のバッファーガスを担持した蒸気電池において,コヒーレント集団による電気磁気誘起透過性を用いて,最大群指数が1759である強弱光効果が得られた。 観察された群指標に対する感度の増強は理論モデルとよく一致している。 観測される最大増強係数は ~22355 であり、例えばスローライト効果を生成するためにコールド原子を用いると、はるかに大きな値が得られる。 レーザの周波数シフトの測定に依存するセンサの感度は、この技術により大幅に向上することができる。 これらは、従来のリングレーザーまたはスーパールミナルリングレーザーに基づくジャイロスコープと加速度計と、ウイルス化された超光磁場ダークマターの検出器を含む。 また,低光度拡張アンバランスミシェルソン干渉計を用いて,同様の拡張を実現する方法を示す。

We demonstrate a slow-light augmented unbalanced Mach-Zehnder interferometer (MZI) which can be used to enhance very significantly the sensitivity of measuring the frequency shift in a laser. The degree of enhancement depends on the group index of the slow-light medium, the degree of imbalance between the physical lengths of the two arms of the MZI, and the spectral width of the laser. For a laser based on a high-finesse cavity, yielding a narrow quantum noise limited spectral width, the group index has to be larger than the finesse in order to achieve enhancement in measurement sensitivity. For the reported results, strong slow-light effect is produced by employing electro-magnetically induced transparency via coherent population trapping in a buffer-gas loaded vapor cell of Rb atoms, with a maximum group index of ~1759. The observed enhancement in sensitivity for a range of group indices agrees well with the theoretical model. The maximum enhancement factor observed is ~22355, and much larger values can be obtained using cold atoms for producing the slow-light effect, for example. The sensitivity of any sensor that relies on measuring the frequency shift of a laser can be enhanced substantially using this technique. These include, but are not limited to, gyroscopes and accelerometers based on a conventional ring laser or a superluminal ring laser, and detectors for virialized ultra-light field dark matter. We also show how similar enhancements can be achieved in a slow-light augmented unbalanced Michelson interferometer.
翻訳日:2024-03-11 12:56:58 公開日:2024-03-08
# 多視点コントラスト学習

Poly-View Contrastive Learning ( http://arxiv.org/abs/2403.05490v1 )

ライセンス: Link先を確認
Amitis Shidani, Devon Hjelm, Jason Ramapuram, Russ Webb, Eeshan Gunesh Dhekane, Dan Busbridge(参考訳) 対照的な学習は通常、関連しない多くの否定的な視点のペアにマッチする。 ビューは(拡張によって)生成したり、観察したりできる。 多視点タスクと呼ばれる2つ以上の関連するビューが存在する場合のマッチングを調査し、情報最大化と十分な統計量を用いた新しい表現学習目標を導出する。 計算量無制限の場合,関連するビュー数を最大化する必要があり,計算予算が固定された場合には,各サンプルのビュー数を増加させながら,ユニークなサンプル数を減らすことが有益である。 特に、バッチサイズ256の128エポックをトレーニングしたポリビューコントラストモデルは、imagenet1kのバッチサイズ4096で1024エポックをトレーニングしたsimclrよりも優れており、コントラストモデルには大きなバッチサイズと多くのトレーニングエポックが必要であるという信念に挑戦している。

Contrastive learning typically matches pairs of related views among a number of unrelated negative views. Views can be generated (e.g. by augmentations) or be observed. We investigate matching when there are more than two related views which we call poly-view tasks, and derive new representation learning objectives using information maximization and sufficient statistics. We show that with unlimited computation, one should maximize the number of related views, and with a fixed compute budget, it is beneficial to decrease the number of unique samples whilst increasing the number of views of those samples. In particular, poly-view contrastive models trained for 128 epochs with batch size 256 outperform SimCLR trained for 1024 epochs at batch size 4096 on ImageNet1k, challenging the belief that contrastive models require large batch sizes and many training epochs.
翻訳日:2024-03-11 12:56:29 公開日:2024-03-08
# Joint Motion: 関節運動予測のためのジョイント・セルフ・スーパービジョン

JointMotion: Joint Self-supervision for Joint Motion Prediction ( http://arxiv.org/abs/2403.05489v1 )

ライセンス: Link先を確認
Royden Wagner, \"Omer \c{S}ahin Ta\c{s}, Marvin Klemp, Carlos Fernandez(参考訳) 自動運転における関節運動予測のための自己教師型学習手法であるJointMotionを提案する。 本手法は,動作と環境を接続するシーンレベルの目標と,学習表現を洗練するためのインスタンスレベルの目標を含む。 提案手法は, 関節運動予測のための事前学習法として, 最近のコントラスト・オートエンコーディング法を補完し, 補完的に評価した。 さらに、ジョイントモーションは、動き予測に用いられる一般的な環境表現(エージェント中心、シーン中心、ペア回り相対など)に適応し、waymoオープンモーションとargoverse 2予測データセットとの効果的な転送学習を可能にする。 特に,Wayformer,Scene Transformer,HPTRの最終的な変位誤差を3%,7%,HPTRは11%改善した。

We present JointMotion, a self-supervised learning method for joint motion prediction in autonomous driving. Our method includes a scene-level objective connecting motion and environments, and an instance-level objective to refine learned representations. Our evaluations show that these objectives are complementary and outperform recent contrastive and autoencoding methods as pre-training for joint motion prediction. Furthermore, JointMotion adapts to all common types of environment representations used for motion prediction (i.e., agent-centric, scene-centric, and pairwise relative), and enables effective transfer learning between the Waymo Open Motion and the Argoverse 2 Forecasting datasets. Notably, our method improves the joint final displacement error of Wayformer, Scene Transformer, and HPTR by 3%, 7%, and 11%, respectively.
翻訳日:2024-03-11 12:56:12 公開日:2024-03-08
# FFSTC:フランスの音声翻訳会社に出資

FFSTC: Fongbe to French Speech Translation Corpus ( http://arxiv.org/abs/2403.05488v1 )

ライセンス: Link先を確認
D. Fortune Kponou, Frejus A. A. Laleye, Eugene C. Ezin(参考訳) 本稿では,Fongbe to French Speech Translation Corpus (FFSTC)を初めて紹介する。 このコーパスは、約31時間のfongbe言語コンテンツを含んでおり、フランス語の書き起こしと対応するfongbe音声録音の両方を特徴としている。 FFSTCは、様々な収集方法と専用個人の努力によってまとめられた包括的なデータセットである。 さらに,fairseqのtransform_sとconformerモデルを用いたベースライン実験を行い,データ品質と妥当性を評価した。 その結果, コンバータモデルでは8.96点, コンバータモデルでは8.14点を示し, FFSTCコーパスではベースラインを確立した。

In this paper, we introduce the Fongbe to French Speech Translation Corpus (FFSTC) for the first time. This corpus encompasses approximately 31 hours of collected Fongbe language content, featuring both French transcriptions and corresponding Fongbe voice recordings. FFSTC represents a comprehensive dataset compiled through various collection methods and the efforts of dedicated individuals. Furthermore, we conduct baseline experiments using Fairseq's transformer_s and conformer models to evaluate data quality and validity. Our results indicate a score of 8.96 for the transformer_s model and 8.14 for the conformer model, establishing a baseline for the FFSTC corpus.
翻訳日:2024-03-11 12:55:56 公開日:2024-03-08
# アト秒科学における量子現象

Quantum phenomena in attosecond science ( http://arxiv.org/abs/2403.05482v1 )

ライセンス: Link先を確認
Lidice Cruz-Rodriguez, Diptesh Dey, Antonia Freibert and Philipp Stammer(参考訳) アト秒科学は、電子の内在的な時間スケールで起こるプロセスの理解に新たなフロンティアを開いた。 アト秒レベルで現象を操り観測する能力は、電子力学や極端な条件下での物質の挙動といったプロセスに対する画期的な洞察をもたらした。 この学際的な分野は、量子光学、量子化学、量子情報科学などの様々な研究領域を橋渡しし、凝集的理解を促進する。 しかし、多くの成功例があるにもかかわらず、本質的な量子効果に関する議論は主に無視されている。 この視点では、実験と理論の両方の進歩を含む、アト秒科学における量子現象の最新の進歩を探求する。 具体的には、高調波発生と高閾値イオン化の文脈において、真に量子的な観測を識別し、古典的な現象と区別することに焦点を当てる。 さらに,アト秒プロセスにおいてしばしば見過ごされるが重要なエンタングルメントの役割を照らし,実験結果への影響を明らかにする。

Attosecond science has opened up new frontiers in our understanding of processes happening on the intrinsic timescale of electrons. The ability to manipulate and observe phenomena at the attosecond level has yielded groundbreaking insights into processes such as electron dynamics and the behavior of matter under extreme conditions. This interdisciplinary field bridges various research areas such as quantum optics, quantum chemistry and quantum information science facilitating a cohesive understanding. However, despite many emerging successful applications, the discussion about intrinsic quantum effects has mainly been ignored. In this Perspective, we explore the latest advancements in quantum phenomena within attosecond science, encompassing both experimental and theoretical progress. Specifically, in the context of high-harmonic generation and above-threshold ionization, we focus on discerning genuinely quantum observations and distinguishing them from classical phenomena. Additionally, we illuminate the often overlooked yet significant role of entanglement in attosecond processes, elucidating its influence on experimental outcomes.
翻訳日:2024-03-11 12:55:45 公開日:2024-03-08
# スピンオシレータ系におけるスクイーズ、トリスキューズ、およびクワッドキューズ

Squeezing, trisqueezing, and quadsqueezing in a spin-oscillator system ( http://arxiv.org/abs/2403.05471v1 )

ライセンス: Link先を確認
O. B\u{a}z\u{a}van, S. Saner, D. J. Webb, E. M. Ainley, P. Drmota, D. P. Nadlinger, G. Araneda, D. M. Lucas, C. J. Ballance, R. Srinivas(参考訳) 量子調和振動子は、電磁場から分子中の原子の振動まで幅広い現象をモデル化する。 これらの励起は、光子、光の単粒子、あるいは振動エネルギーの量子数であるフォノンなどのボソンによって表される。 単一ボソンを生成・消滅させる線形相互作用は光や運動のコヒーレントな状態を生成する。 n次非線形相互作用の導入は、代わりにnボソンを含む、より複雑な量子挙動をもたらす。 例えば、二階間相互作用はスクイージングを可能にするが、高階間相互作用は連続変数の量子計算に必須な非ガウス状態を生成する。 しかし、非線形相互作用の生成は困難であり、典型的には駆動場や専用ハードウェアの高階微分を必要とする。 線形相互作用が振動子を追加スピンに結合するハイブリッドシステムは、ソリューションを提供し、多くのプラットフォームで容易に利用できる。 ここでは、その運動に結合した単一のイオンのスピンを用いて、2つの線形相互作用を用いて4階のボソニック相互作用を実証し、一般化されたスクイーズ相互作用に注目し、スクイーズ、トリスキューズ、クワッドスキューズを実証する。 スピン依存を含むこれらの相互作用を特徴づけ、結果として生じる状態のウィグナー関数を再構築する。 また,従来の手法の100倍以上の速度でクワッドスチーズ相互作用を駆動する相互作用強度のスケーリングについても論じる。 本手法は相互作用次数nの基本的な極限を示さず,スピン依存線形相互作用を支持する任意のプラットフォームに適用する。 強い高次の非線形相互作用は、基礎量子光学、量子シミュレーション、および未探索状態における計算の研究を解き放つ。

Quantum harmonic oscillators model a wide variety of phenomena ranging from electromagnetic fields to vibrations of atoms in molecules. Their excitations can be represented by bosons such as photons, single particles of light, or phonons, the quanta of vibrational energy. Linear interactions that only create and annihilate single bosons can generate coherent states of light or motion. Introducing nth-order nonlinear interactions, that instead involve n bosons, leads to increasingly complex quantum behaviour. For example, second-order interactions enable squeezing, used to enhance the precision of measurements beyond classical limits, while higher-order interactions create non-Gaussian states essential for continuous-variable quantum computation. However, generating nonlinear interactions is challenging, typically requiring higher-order derivatives of the driving field or specialized hardware. Hybrid systems, where linear interactions couple an oscillator to an additional spin, offer a solution and are readily available across many platforms. Here, using the spin of a single trapped ion coupled to its motion, we employ two linear interactions to demonstrate up to fourth-order bosonic interactions; we focus on generalised squeezing interactions and demonstrate squeezing, trisqueezing, and quadsqueezing. We characterise these interactions, including their spin dependence, and reconstruct the Wigner function of the resulting states. We also discuss the scaling of the interaction strength, where we drive the quadsqueezing interaction more than 100 times faster than using conventional techniques. Our method presents no fundamental limit in the interaction order n and applies to any platform supporting spin-dependent linear interactions. Strong higher-order nonlinear interactions unlock the study of fundamental quantum optics, quantum simulation, and computation in a hitherto unexplored regime.
翻訳日:2024-03-11 12:55:28 公開日:2024-03-08
# 半コヒーレント対称量子プロセス:理論と応用

Semicoherent Symmetric Quantum Processes: Theory and Applications ( http://arxiv.org/abs/2403.05470v1 )

ライセンス: Link先を確認
Yan Wang, Sarah Chehade, Eugene Dumitrescu(参考訳) 基本的な量子演算(ゲート)の観点で、実(虚数)時間発展プロパゲータのような量子作用素に$\varepsilon$近似を合成する実用的かつ効率的な方法を見つけることは困難である。 これらの貴重な$\varepsilon$-approximationsは古典的および量子アルゴリズムのモデリング、例えば動的性質のコンパイルを可能にする。 平行して、対称性は自然の基本的な法則を簡潔に記述する強力な道具であり、物理的法則の対称的な基礎は一貫して深い洞察を与え、予測力を大幅に増加させた。 本研究では,各論理クロックサイクルで測定を行う半コヒーレントな文脈における,$\varepsilon$近似過程と対称性の相互作用について考察する。 我々はパスカル・ヨルダンの非連想的だが可換な代数形式という画期的な定式化から着想を得た。 我々の対称性形式論は、量子ランダムウォーク、リアルタイム進化、変分アルゴリズム ansatzes、効率的な絡み合い検証といった様々な領域に適用される。 我々の研究は、近未来の量子力学の制御に対称性をどのように利用できるか、より深く理解し、より深い評価の道を開く。

Discovering pragmatic and efficient approaches to synthesize $\varepsilon$-approximations to quantum operators such as real (imaginary) time-evolution propagators in terms of the basic quantum operations (gates) is challenging. These invaluable $\varepsilon$-approximations enable the compilation of classical and quantum algorithms modeling, e.g., dynamical properties. In parallel, symmetries are powerful tools concisely describing the fundamental laws of nature; the symmetrical underpinnings of physical laws having consistently provided profound insights and substantially increased predictive power. In this work, we consider the interplay between $\varepsilon$-approximations processes and symmetries in a semi-coherent context--where measurements occur at each logical clock cycle. We draw inspiration from Pascual Jordan's groundbreaking formulation of non-associative, but commutative, algebraic forms. Our symmetrized formalism is applied in various domains such as quantum random walks, real-time-evolutions, variational algorithms ansatzes, and efficient entanglement verification. Our work paves the way for a deeper understanding and greater appreciation of how symmetries can be used to control quantum dynamics in the near-term.
翻訳日:2024-03-11 12:54:59 公開日:2024-03-08
# GPT-4はDOOMを走らせるか?

Will GPT-4 Run DOOM? ( http://arxiv.org/abs/2403.05468v1 )

ライセンス: Link先を確認
Adrian de Wynter(参考訳) GPT-4の推論と計画能力は1993年のシューティングゲーム『Doom』にも及んでいる。 この大きな言語モデル(LLM)は、ほんの数命令でゲームを実行してプレイすることができ、また、ゲームが観察されている状態に関するスクリーンショットからモデル自体が生成したテキスト記述も可能である。 GPT-4は、ドアを操作し、敵と対戦し、パスを行うことができる。 複数のモデル呼び出しを含むより複雑なプロンプト戦略は、より良い結果をもたらす。 LLMが古典的な強化学習ベースでプレイできるようにするためには、さらなる作業が必要であるが、GPT-4はトレーニングを必要とせず、独自の推論と観察能力に頼っている。 私たちの研究が、ビデオゲームにおける知的LLMベースのエージェントの境界を押し進めることを願っています。 私たちは仕事の倫理的意味を議論することで締めくくります。

We show that GPT-4's reasoning and planning capabilities extend to the 1993 first-person shooter Doom. This large language model (LLM) is able to run and play the game with only a few instructions, plus a textual description--generated by the model itself from screenshots--about the state of the game being observed. We find that GPT-4 can play the game to a passable degree: it is able to manipulate doors, combat enemies, and perform pathing. More complex prompting strategies involving multiple model calls provide better results. While further work is required to enable the LLM to play the game as well as its classical, reinforcement learning-based counterparts, we note that GPT-4 required no training, leaning instead on its own reasoning and observational capabilities. We hope our work pushes the boundaries on intelligent, LLM-based agents in video games. We conclude by discussing the ethical implications of our work.
翻訳日:2024-03-11 12:54:43 公開日:2024-03-08
# 点雲による軌道最適化

Grasping Trajectory Optimization with Point Clouds ( http://arxiv.org/abs/2403.05466v1 )

ライセンス: Link先を確認
Yu Xiang, Sai Haneesh Allu, Rohith Peddi, Tyler Summers, Vibhav Gogate(参考訳) 本稿では,ロボットとタスク空間のポイントクラウド表現に基づくロボット把持のための新しい軌道最適化手法を提案する。 本手法では,ロボットはリンク面上の3Dポイントで表現される。 ロボットのタスク空間は、深度センサから得られる点雲によって表現される。 このポイントクラウド表現を用いて、把持における目標到達をポイントマッチングとして定式化することができ、シーンポイントの符号付き距離フィールドにおいてロボットポイントの符号付き距離値をクエリすることにより、衝突回避を効率的に達成することができる。 これにより、制約付き非線形最適化問題を定式化し、関節運動及び把持計画問題を解く。 本手法の利点は,どの環境においても,どのロボットでもポイントクラウド表現が利用可能である点にある。 本研究では,Fetch移動マニピュレータとFranka Pandaアームを用いて,テーブルトップシーンと棚シーンで実験を行い,本手法の有効性を実証する。

We introduce a new trajectory optimization method for robotic grasping based on a point-cloud representation of robots and task spaces. In our method, robots are represented by 3D points on their link surfaces. The task space of a robot is represented by a point cloud that can be obtained from depth sensors. Using the point-cloud representation, goal reaching in grasping can be formulated as point matching, while collision avoidance can be efficiently achieved by querying the signed distance values of the robot points in the signed distance field of the scene points. Consequently, a constrained non-linear optimization problem is formulated to solve the joint motion and grasp planning problem. The advantage of our method is that the point-cloud representation is general to be used with any robot in any environment. We demonstrate the effectiveness of our method by conducting experiments on a tabletop scene and a shelf scene for grasping with a Fetch mobile manipulator and a Franka Panda arm.
翻訳日:2024-03-11 12:54:28 公開日:2024-03-08
# 効率的なDNN推論のための分布対応対数-電位符号化のアルゴリズムハードウェア共同設計

Algorithm-Hardware Co-Design of Distribution-Aware Logarithmic-Posit Encodings for Efficient DNN Inference ( http://arxiv.org/abs/2403.05465v1 )

ライセンス: Link先を確認
Akshat Ramachandran, Zishen Wan, Geonhwa Jeong, John Gustafson, Tushar Krishna(参考訳) 整数、固定点、浮動小数点データ型を用いた従来のディープニューラルネットワーク(DNN)量子化手法は、低精度で多様なDNNパラメータの分布を捉えるのに苦労し、大きなシリコンオーバーヘッドと集中的な量子化対応トレーニングを必要とすることが多い。 本研究では,lpビットフィールドをパラメータ化することにより,dnnの重み/活性化分布に動的に適応するポジットにインスパイアされた適応型ハードウェアフレンドリなデータ型であるlogarithmic posits(lp)を提案する。 我々はまた,新しい遺伝的アルゴリズムに基づくLP量子化(LPQ)フレームワークを開発し,新しいグローバルなコントラスト的目的を通じて,量子化モデルと完全精度モデルとの表現のばらつきを減らしながら,最適な層次LPパラメータを求める。 さらに,計算データパスにLPを組み込んだ処理要素(PE)からなる混合精度LPアクセラレータ(LPA)アーキテクチャを設計する。 我々のアルゴリズムとハードウェアの共設計は、様々なCNNおよびViTモデルにおいて、平均<1%の精度低下を示す。 また、異なるデータ型を用いた最先端量子化加速器と比較して、単位面積当たりのパフォーマンスが約2倍向上し、エネルギー効率が2.2倍向上する。

Traditional Deep Neural Network (DNN) quantization methods using integer, fixed-point, or floating-point data types struggle to capture diverse DNN parameter distributions at low precision, and often require large silicon overhead and intensive quantization-aware training. In this study, we introduce Logarithmic Posits (LP), an adaptive, hardware-friendly data type inspired by posits that dynamically adapts to DNN weight/activation distributions by parameterizing LP bit fields. We also develop a novel genetic-algorithm based framework, LP Quantization (LPQ), to find optimal layer-wise LP parameters while reducing representational divergence between quantized and full-precision models through a novel global-local contrastive objective. Additionally, we design a unified mixed-precision LP accelerator (LPA) architecture comprising of processing elements (PEs) incorporating LP in the computational datapath. Our algorithm-hardware co-design demonstrates on average <1% drop in top-1 accuracy across various CNN and ViT models. It also achieves ~ 2x improvements in performance per unit area and 2.2x gains in energy efficiency compared to state-of-the-art quantization accelerators using different data types.
翻訳日:2024-03-11 12:54:13 公開日:2024-03-08
# r2d2 deep neural network series paradigm for fast precision imaging in radio astronomy (特集 深層ニューラルネットワーク)

The R2D2 deep neural network series paradigm for fast precision imaging in radio astronomy ( http://arxiv.org/abs/2403.05452v1 )

ライセンス: Link先を確認
Amir Aghabiglou, Chung San Chu, Arwa Dabbech, Yves Wiaux(参考訳) ラジオインターフェロメトリ(RI)イメージングは、大容量データから高解像度の高ダイナミックレンジ逆問題を解決する。 最近の最適化理論に基づく画像再構成技術は、クリーンの能力を超えて、画像精度に顕著な能力を示している。 これらは、SARAファミリーなどの手作り正規化演算子によって推進される高度な近位アルゴリズムから、AIRIのような学習正規化復号器によって推進されるハイブリッドプラグアンドプレイ(PnP)アルゴリズムまで様々である。 しかし、最適化とPnP構造は非常に反復的であり、将来の機器から期待される極端なデータサイズを扱う能力を妨げる。 このスケーラビリティの課題に対処するため,我々は'residual-to-residual dnn series for high-dynamic range imaging'と呼ばれる新しいディープラーニング手法を導入する。 R2D2の再構成は一連の残像として形成され、前回の繰り返しの画像推定と関連するデータを入力として取り込むディープニューラルネットワーク(DNN)の出力として反復的に推定される。 これにより、PnPアルゴリズムとCLEANの基盤となるマッチング追従アルゴリズムの学習バージョンとのハイブリッド構造を取る。 本稿では,DNNアーキテクチャによって区別される複数のインカーネーションを特徴とするアプローチを包括的に検討する。 我々は、望遠鏡固有のアプローチをターゲットとして、トレーニングプロセスの詳細を説明する。 高精度を実現するR2D2の能力は、Very Large Array (VLA) を用いた様々な画像および観測設定のシミュレーションで実証されている。 ダイナミックレンジ105までのデータの残差をきれいにするのに必要なイテレーションはごくわずかだが、r2d2は高速精密イメージングの扉を開く。 R2D2コードはGitHubのBASPLibライブラリから入手できる。

Radio-interferometric (RI) imaging entails solving high-resolution high-dynamic range inverse problems from large data volumes. Recent image reconstruction techniques grounded in optimization theory have demonstrated remarkable capability for imaging precision, well beyond CLEAN's capability. These range from advanced proximal algorithms propelled by handcrafted regularization operators, such as the SARA family, to hybrid plug-and-play (PnP) algorithms propelled by learned regularization denoisers, such as AIRI. Optimization and PnP structures are however highly iterative, which hinders their ability to handle the extreme data sizes expected from future instruments. To address this scalability challenge, we introduce a novel deep learning approach, dubbed ``Residual-to-Residual DNN series for high-Dynamic range imaging'. R2D2's reconstruction is formed as a series of residual images, iteratively estimated as outputs of Deep Neural Networks (DNNs) taking the previous iteration's image estimate and associated data residual as inputs. It thus takes a hybrid structure between a PnP algorithm and a learned version of the matching pursuit algorithm that underpins CLEAN. We present a comprehensive study of our approach, featuring its multiple incarnations distinguished by their DNN architectures. We provide a detailed description of its training process, targeting a telescope-specific approach. R2D2's capability to deliver high precision is demonstrated in simulation, across a variety of image and observation settings using the Very Large Array (VLA). Its reconstruction speed is also demonstrated: with only few iterations required to clean data residuals at dynamic ranges up to 105, R2D2 opens the door to fast precision imaging. R2D2 codes are available in the BASPLib library on GitHub.
翻訳日:2024-03-11 12:53:51 公開日:2024-03-08
# セマンティクスセグメンテーションのための注意誘導型特徴蒸留

Attention-guided Feature Distillation for Semantic Segmentation ( http://arxiv.org/abs/2403.05451v1 )

ライセンス: Link先を確認
Amir M. Mansourian, Arya Jalali, Rozhan Ahmadi, Shohreh Kasaei(参考訳) 教師から生徒への知識の蒸留に一般的に用いられている既存の複雑な方法論とは対照的に,提案手法は,改良された特徴マップを応用して注目を伝達する,シンプルかつ強力な手法の有効性を示す。 提案手法は, セマンティックセグメンテーションにおける既存手法を高密度な予測課題として優れ, リッチな情報の蒸留に有効であることが証明された。 AttnFD (Convolutional Block Attention Module, CBAM) は, チャネル固有情報と空間情報の両方を考慮し, 特徴マップを改良する手法である。 AttnFDは、教師と生徒の洗練された特徴マップ間の平均正方形誤差(MSE)損失関数のみを使用することで、意味的セグメンテーションにおける優れたパフォーマンスを示し、PascalVoc 2012とCityscapesデータセットにおける平均的統合(mIoU)の平均的な結果を達成する。 コードはhttps://github.com/AmirMansurian/AttnFD.comで入手できる。

In contrast to existing complex methodologies commonly employed for distilling knowledge from a teacher to a student, the pro-posed method showcases the efficacy of a simple yet powerful method for utilizing refined feature maps to transfer attention. The proposed method has proven to be effective in distilling rich information, outperforming existing methods in semantic segmentation as a dense prediction task. The proposed Attention-guided Feature Distillation (AttnFD) method, em-ploys the Convolutional Block Attention Module (CBAM), which refines feature maps by taking into account both channel-specific and spatial information content. By only using the Mean Squared Error (MSE) loss function between the refined feature maps of the teacher and the student,AttnFD demonstrates outstanding performance in semantic segmentation, achieving state-of-the-art results in terms of mean Intersection over Union (mIoU) on the PascalVoc 2012 and Cityscapes datasets. The Code is available at https://github.com/AmirMansurian/AttnFD.
翻訳日:2024-03-11 12:53:22 公開日:2024-03-08
# 完全に還元可能な状態の構造について

On the structure of Completely Reducible States ( http://arxiv.org/abs/2403.05449v1 )

ライセンス: Link先を確認
Daniel Cariello(参考訳) バイパルタイト状態の完全再現性は、分離性問題を部分的な転置状態の下で正の正の部分集合に還元し、いくつかの定理を内外絡み理論で証明した。 これまでのところ、この性質を持つのは3種類の二成分状態のみであった。 本研究では、この性質を持つ状態を生成するための手順を提供し、完全に再現可能な状態の名前でこれらの状態を呼び出す。 そのような状態の凸結合は最初の手順であり、完全既約状態の集合が凸錐であることを示している。 我々はまた、この集合の極端線の完全な説明を提供する。 そして、完全に再現可能な状態のパワー、根および部分的トレースが、同じタイプの状態をもたらすことを示す。 最後に、この性質を保存する状態のシャッフルを考える。 このシャッフルによって、この特性を暗示する唯一の3つの条件を避ける完全な還元性を持つ状態を構築することができる。

The complete reducibility property for bipartite states reduced the separability problem to a proper subset of positive under partial transpose states and was used to prove several theorems inside and outside entanglement theory. So far only three types of bipartite states were proved to possess this property. In this work, we provide some procedures to create states with this property, we call these states by the name of completely reducible states. The convex combination of such states is the first procedure, showing that the set of completely reducible states is a convex cone. We also provide a complete description of the extreme rays of this set. Then we show that powers, roots and partial traces of completely reducible states result in states of the same type. Finally, we consider a shuffle of states that preserves this property. This shuffle allow us to construct states with the complete reducibility property avoiding the only three conditions known to date that imply this property.
翻訳日:2024-03-11 12:52:59 公開日:2024-03-08
# 見せないで! 画像とビデオにおけるドメイン間の言語指導

Tell, Don't Show!: Language Guidance Eases Transfer Across Domains in Images and Videos ( http://arxiv.org/abs/2403.05535v1 )

ライセンス: Link先を確認
Tarun Kalluri and Bodhisattwa Prasad Majumder and Manmohan Chandraker(参考訳) ラベル付きソースからラベル付きターゲットデータへの識別的知識の堅牢な転送をドメインシフトで導くために,手軽に入手可能あるいは容易に取得可能なテキスト記述を利用する新しいフレームワークであるLaGTranを紹介する。 この問題を解決するために教師なし適応法が確立されているが、ピクセル空間内の排他的操作のため、ドメインシフトの扱いに制限がある。 意味的にリッチなテキストモダリティがより有利な転送特性を持つという観察に動機づけられ、ソース学習されたテキスト分類器を使用して対象テキスト記述の予測を生成する転送機構を考案し、これらの予測を対応する画像の監督として活用する。 言語指導による私たちのアプローチは驚くほど簡単でシンプルですが、GeoNetやDomainNetといった挑戦的なデータセットに対する従来のアプローチよりもはるかに優れています。 画像を超えて研究の範囲をさらに拡大するために,ビデオにおけるego-exo転送を研究するための新しいベンチマークを導入し,言語支援のlagtranが,この極めて困難で非自明な転送環境において大きな成果をもたらすことを見出します。 コード、モデル、提案されたデータセットはhttps://tarun005.github.io/lagtran/で公開されている。

We introduce LaGTran, a novel framework that utilizes readily available or easily acquired text descriptions to guide robust transfer of discriminative knowledge from labeled source to unlabeled target data with domain shifts. While unsupervised adaptation methods have been established to address this problem, they show limitations in handling challenging domain shifts due to their exclusive operation within the pixel-space. Motivated by our observation that semantically richer text modality has more favorable transfer properties, we devise a transfer mechanism to use a source-trained text-classifier to generate predictions on the target text descriptions, and utilize these predictions as supervision for the corresponding images. Our approach driven by language guidance is surprisingly easy and simple, yet significantly outperforms all prior approaches on challenging datasets like GeoNet and DomainNet, validating its extreme effectiveness. To further extend the scope of our study beyond images, we introduce a new benchmark to study ego-exo transfer in videos and find that our language-aided LaGTran yields significant gains in this highly challenging and non-trivial transfer setting. Code, models, and proposed datasets are publicly available at https://tarun005.github.io/lagtran/.
翻訳日:2024-03-11 12:49:14 公開日:2024-03-08
# 言語モデルを用いたベイズ選好

Bayesian Preference Elicitation with Language Models ( http://arxiv.org/abs/2403.05534v1 )

ライセンス: Link先を確認
Kunal Handa, Yarin Gal, Ellie Pavlick, Noah Goodman, Jacob Andreas, Alex Tamkin, Belinda Z. Li(参考訳) AIシステムをユーザーの興味に合わせるには、人間の複雑な価値観や好みを理解し、取り入れる必要がある。 近年,人間の好みに関する情報収集に言語モデル (LM) が用いられている。 この選好データは、他のlmsおよび/またはaiシステムの微調整やガイドに使用できる。 しかしながら、LMは、不確実性の定量化、人間の精神状態のモデル化、情報的質問といった、選好学習の重要な側面に苦しむことが示されている。 これらの課題は、ベイズ最適実験設計(boed: bayesian optimal experimental design)のような、明確に定義された機能空間内で有益なクエリを設計することに焦点を当てた機械学習の他の領域で対処されている。 しかし、これらの手法はスケールが難しく、関連する機能を特定することが難しい現実世界の問題にも適用が難しい。 我々は,boedを用いて情報的質問の選択を指導するフレームワークopen (optimal preference elicitation with natural language) と,機能抽出および抽象boedクエリを自然言語質問に翻訳するlmを提案する。 LMの柔軟性とBOEDの厳密さを組み合わせることで、OPENは実際のドメインに適応しながらクエリのインフォメーション性を最適化できる。 ユーザスタディでは,OPEN が既存の LM- や BOED をベースとした選好手法よりも優れていることが判明した。

Aligning AI systems to users' interests requires understanding and incorporating humans' complex values and preferences. Recently, language models (LMs) have been used to gather information about the preferences of human users. This preference data can be used to fine-tune or guide other LMs and/or AI systems. However, LMs have been shown to struggle with crucial aspects of preference learning: quantifying uncertainty, modeling human mental states, and asking informative questions. These challenges have been addressed in other areas of machine learning, such as Bayesian Optimal Experimental Design (BOED), which focus on designing informative queries within a well-defined feature space. But these methods, in turn, are difficult to scale and apply to real-world problems where simply identifying the relevant features can be difficult. We introduce OPEN (Optimal Preference Elicitation with Natural language) a framework that uses BOED to guide the choice of informative questions and an LM to extract features and translate abstract BOED queries into natural language questions. By combining the flexibility of LMs with the rigor of BOED, OPEN can optimize the informativity of queries while remaining adaptable to real-world domains. In user studies, we find that OPEN outperforms existing LM- and BOED-based methods for preference elicitation.
翻訳日:2024-03-11 12:48:47 公開日:2024-03-08
# 超放射光ダイナミクスにおけるポーラロンドレッシングの役割

The role of polaron dressing in superradiant emission dynamics ( http://arxiv.org/abs/2403.05533v1 )

ライセンス: Link先を確認
Julian Wiercinski, Moritz Cygorek, Erik M. Gauger(参考訳) 複数の量子エミッタの協調効果は、エミッタ間のコヒーレンスの存在によって放出特性が変化する非局在化された集合状態の遷移によって特徴づけられる。 励起縮合物質ナノ構造によって実現されると、これらの効果は強力なエミッタ-フォノンカップリングの存在によって大きな影響を受ける。 自由空間への単一エミッタの放出では、この生成はその放射寿命に影響を与えないが、超放射能の放出には同じことが当てはまる。 2つの識別不能な量子エミッタの場合を考えると、ポーラロンドレッシングが明暗のディッケ状態の混合によって集団光子放出にどのように影響するかを解析する。 励起レーザーのパルス長に依存すると、極性ディック状態または素電子ディック状態を用意し、系の超ラジカル減衰特性を変化させることができる。 さらに,これらの制限ケースに対する解析式を導出し,数値計算の結果と一致する。

Cooperative effects of multiple quantum emitters are characterized by transitions via delocalized collective states with altered emission properties due to the existence of inter-emitter coherences. When realized with excitonic condensed matter nanostructures, these effects are significantly affected by the presence of strong emitter-phonon coupling, which leads to the formation of polarons. We show that, while for single-emitter emission into free space this formation has no impact on its radiative lifetime, the same is not true for superradiant emission. Considering the case of two indistinguishable quantum emitters, we analyse how polaron dressing affects collective photon emission by mixing bright and dark Dicke states. Our numerical simulations show that this mixing crucially depends on the circumstances of the excitation of the system: Depending on the pulse length of an exciting laser, one can choose to either prepare polaronic Dicke states, or bare electronic Dicke states, changing the superradiant decay characteristics of the system. Additionally, we derive analytic expressions for these limiting cases, which match the results of numerically exact calculations.
翻訳日:2024-03-11 12:48:23 公開日:2024-03-08
# 検証なしチューン:トレーニングセットにおける学習率と体重減少の探索

Tune without Validation: Searching for Learning Rate and Weight Decay on Training Sets ( http://arxiv.org/abs/2403.05532v1 )

ライセンス: Link先を確認
Lorenzo Brigato and Stavroula Mougiakakou(参考訳) Tune without Validation (Twin) は,検証セットを使わずに学習率や体重減少をチューニングするためのパイプラインである。 仮説空間における学習フェーズに関する最近の理論的枠組みを利用して、ハイパーパラメータ(hp)の組み合わせがより一般化をもたらすかを予測できるヒューリスティックを考案する。 Twinは、早期/早期のスケジューラに従って試行をグリッドで検索し、トレーニング損失の観点で最良の結果を提供する領域をセグメント化する。 これらの試行の中で、ウェイトノルムは予測一般化と強く相関する。 ツインの有効性を評価するため,20種類の画像分類データセットを広範囲に実験し,畳み込み,トランスフォーマー,フィードフォワードモデルなど,複数の深層ネットワークを訓練した。 我々は,スクラッチと微調整の訓練において適切なHP選択を示し,小サンプルシナリオを強調した。

We introduce Tune without Validation (Twin), a pipeline for tuning learning rate and weight decay without validation sets. We leverage a recent theoretical framework concerning learning phases in hypothesis space to devise a heuristic that predicts what hyper-parameter (HP) combinations yield better generalization. Twin performs a grid search of trials according to an early-/non-early-stopping scheduler and then segments the region that provides the best results in terms of training loss. Among these trials, the weight norm strongly correlates with predicting generalization. To assess the effectiveness of Twin, we run extensive experiments on 20 image classification datasets and train several families of deep networks, including convolutional, transformer, and feed-forward models. We demonstrate proper HP selection when training from scratch and fine-tuning, emphasizing small-sample scenarios.
翻訳日:2024-03-11 12:48:05 公開日:2024-03-08
# Gemini 1.5: 数百万のコンテキストトークンにわたるマルチモーダル理解のアンロック

Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context ( http://arxiv.org/abs/2403.05530v1 )

ライセンス: Link先を確認
Machel Reid, Nikolay Savinov, Denis Teplyashin, Dmitry Lepikhin, Timothy Lillicrap, Jean-baptiste Alayrac, Radu Soricut, Angeliki Lazaridou, Orhan Firat, Julian Schrittwieser, Ioannis Antonoglou, Rohan Anil, Sebastian Borgeaud, Andrew Dai, Katie Millican, Ethan Dyer, Mia Glaese, Thibault Sottiaux, Benjamin Lee, Fabio Viola, Malcolm Reynolds, Yuanzhong Xu, James Molloy, Jilin Chen, Michael Isard, Paul Barham, Tom Hennigan, Ross McIlroy, Melvin Johnson, Johan Schalkwyk, Eli Collins, Eliza Rutherford, Erica Moreira, Kareem Ayoub, Megha Goel, Clemens Meyer, Gregory Thornton, Zhen Yang, Henryk Michalewski, Zaheer Abbas, Nathan Schucher, Ankesh Anand, Richard Ives, James Keeling, Karel Lenc, Salem Haykal, Siamak Shakeri, Pranav Shyam, Aakanksha Chowdhery, Roman Ring, Stephen Spencer, Eren Sezener, Luke Vilnis, Oscar Chang, Nobuyuki Morioka, George Tucker, Ce Zheng, Oliver Woodman, Nithya Attaluri, Tomas Kocisky, Evgenii Eltyshev, Xi Chen, Timothy Chung, Vittorio Selo, Siddhartha Brahma, Petko Georgiev, Ambrose Slone, Zhenkai Zhu, James Lottes, Siyuan Qiao, Ben Caine, Sebastian Riedel, Alex Tomala, Martin Chadwick, Juliette Love, Peter Choy, Sid Mittal, Neil Houlsby, Yunhao Tang, Matthew Lamm, Libin Bai, Qiao Zhang, Luheng He, Yong Cheng, Peter Humphreys, Yujia Li, Sergey Brin, Albin Cassirer, Yingjie Miao, Lukas Zilka, Taylor Tobin, Kelvin Xu, Lev Proleev, Daniel Sohn, Alberto Magni, Lisa Anne Hendricks, Isabel Gao, Santiago Onta\~n\'on, Oskar Bunyan, Nathan Byrd, Abhanshu Sharma, Biao Zhang, Mario Pinto, Rishika Sinha, Harsh Mehta, Dawei Jia, Sergi Caelles, Albert Webson, Alex Morris, Becca Roelofs, Yifan Ding, Robin Strudel, Xuehan Xiong, Marvin Ritter, Mostafa Dehghani, Rahma Chaabouni, Abhijit Karmarkar, Guangda Lai, Fabian Mentzer, Bibo Xu, YaGuang Li, Yujing Zhang, Tom Le Paine, Alex Goldin, Behnam Neyshabur, Kate Baumli, Anselm Levskaya, Michael Laskin, Wenhao Jia, Jack W. Rae, Kefan Xiao, Antoine He, Skye Giordano, Lakshman Yagati, Jean-Baptiste Lespiau, Paul Natsev, Sanjay Ganapathy, Fangyu Liu, Danilo Martins, Nanxin Chen, Yunhan Xu, Megan Barnes, Rhys May, Arpi Vezer, Junhyuk Oh, Ken Franko, Sophie Bridgers, Ruizhe Zhao, Boxi Wu, Basil Mustafa, Sean Sechrist, Emilio Parisotto, Thanumalayan Sankaranarayana Pillai, Chris Larkin, Chenjie Gu, Christina Sorokin, Maxim Krikun, Alexey Guseynov, Jessica Landon, Romina Datta, Alexander Pritzel, Phoebe Thacker, Fan Yang, Kevin Hui, Anja Hauth, Chih-Kuan Yeh, David Barker, Justin Mao-Jones, Sophia Austin, Hannah Sheahan, Parker Schuh, James Svensson, Rohan Jain, Vinay Ramasesh, Anton Briukhov, Da-Woon Chung, Tamara von Glehn, Christina Butterfield, Priya Jhakra, Matthew Wiethoff, Justin Frye, Jordan Grimstad, Beer Changpinyo, Charline Le Lan, Anna Bortsova, Yonghui Wu, Paul Voigtlaender, Tara Sainath, Charlotte Smith, Will Hawkins, Kris Cao, James Besley, Srivatsan Srinivasan, Mark Omernick, Colin Gaffney, Gabriela Surita, Ryan Burnell, Bogdan Damoc, Junwhan Ahn, Andrew Brock, Mantas Pajarskas, Anastasia Petrushkina, Seb Noury, Lorenzo Blanco, Kevin Swersky, Arun Ahuja, Thi Avrahami, Vedant Misra, Raoul de Liedekerke, Mariko Iinuma, Alex Polozov, Sarah York, George van den Driessche, Paul Michel, Justin Chiu, Rory Blevins, Zach Gleicher, Adri\`a Recasens, Alban Rrustemi, Elena Gribovskaya, Aurko Roy, Wiktor Gworek, S\'eb Arnold, Lisa Lee, James Lee-Thorp, Marcello Maggioni, Enrique Piqueras, Kartikeya Badola, Sharad Vikram, Lucas Gonzalez, Anirudh Baddepudi, Evan Senter, Jacob Devlin, James Qin, Michael Azzam, Maja Trebacz, Martin Polacek, Kashyap Krishnakumar, Shuo-yiin Chang, Matthew Tung, Ivo Penchev, Rishabh Joshi, Kate Olszewska, Carrie Muir, Mateo Wirth, Ale Jakse Hartman, Josh Newlan, Sheleem Kashem, Vijay Bolina, Elahe Dabir, Joost van Amersfoort, Zafarali Ahmed, James Cobon-Kerr, Aishwarya Kamath, Arnar Mar Hrafnkelsson, Le Hou, Ian Mackinnon, Alexandre Frechette, Eric Noland, Xiance Si, Emanuel Taropa, Dong Li, Phil Crone, Anmol Gulati, S\'ebastien Cevey, Jonas Adler, Ada Ma, David Silver, Simon Tokumine, Richard Powell, Stephan Lee, Michael Chang, Samer Hassan, Diana Mincu, Antoine Yang, Nir Levine, Jenny Brennan, Mingqiu Wang, Sarah Hodkinson, Jeffrey Zhao, Josh Lipschultz, Aedan Pope, Michael B. Chang, Cheng Li, Laurent El Shafey, Michela Paganini, Sholto Douglas, Bernd Bohnet, Fabio Pardo, Seth Odoom, Mihaela Rosca, Cicero Nogueira dos Santos, Kedar Soparkar, Arthur Guez, Tom Hudson, Steven Hansen, Chulayuth Asawaroengchai, Ravi Addanki, Tianhe Yu, Wojciech Stokowiec, Mina Khan, Justin Gilmer, Jaehoon Lee, Carrie Grimes Bostock, Keran Rong, Jonathan Caton, Pedram Pejman, Filip Pavetic, Geoff Brown, Vivek Sharma, Mario Lu\v{c}i\'c, Rajkumar Samuel, Josip Djolonga, Amol Mandhane, Lars Lowe Sj\"osund, Elena Buchatskaya, Elspeth White, Natalie Clay, Jiepu Jiang, Hyeontaek Lim, Ross Hemsley, Jane Labanowski, Nicola De Cao, David Steiner, Sayed Hadi Hashemi, Jacob Austin, Anita Gergely, Tim Blyth, Joe Stanton, Kaushik Shivakumar, Aditya Siddhant, Anders Andreassen, Carlos Araya, Nikhil Sethi, Rakesh Shivanna, Steven Hand, Ankur Bapna, Ali Khodaei, Antoine Miech, Garrett Tanzer, Andy Swing, Shantanu Thakoor, Zhufeng Pan, Zachary Nado, Stephanie Winkler, Dian Yu, Mohammad Saleh, Loren Maggiore, Iain Barr, Minh Giang, Thais Kagohara, Ivo Danihelka, Amit Marathe, Vladimir Feinberg, Mohamed Elhawaty, Nimesh Ghelani, Dan Horgan, Helen Miller, Lexi Walker, Richard Tanburn, Mukarram Tariq, Disha Shrivastava, Fei Xia, Chung-Cheng Chiu, Zoe Ashwood, Khuslen Baatarsukh, Sina Samangooei, Fred Alcober, Axel Stjerngren, Paul Komarek, Katerina Tsihlas, Anudhyan Boral, Ramona Comanescu, Jeremy Chen, Ruibo Liu, Dawn Bloxwich, Charlie Chen, Yanhua Sun, Fangxiaoyu Feng, Matthew Mauger, Xerxes Dotiwalla, Vincent Hellendoorn, Michael Sharman, Ivy Zheng, Krishna Haridasan, Gabe Barth-Maron, Craig Swanson, Dominika Rogozi\'nska, Alek Andreev, Paul Kishan Rubenstein, Ruoxin Sang, Dan Hurt, Gamaleldin Elsayed, Renshen Wang, Dave Lacey, Anastasija Ili\'c, Yao Zhao, Lora Aroyo, Chimezie Iwuanyanwu, Vitaly Nikolaev, Balaji Lakshminarayanan, Sadegh Jazayeri, Rapha\"el Lopez Kaufman, Mani Varadarajan, Chetan Tekur, Doug Fritz, Misha Khalman, David Reitter, Kingshuk Dasgupta, Shourya Sarcar, Tina Ornduff, Javier Snaider, Fantine Huot, Johnson Jia, Rupert Kemp, Nejc Trdin, Anitha Vijayakumar, Lucy Kim, Christof Angermueller, Li Lao, Tianqi Liu, Haibin Zhang, David Engel, Somer Greene, Ana\"is White, Jessica Austin, Lilly Taylor, Shereen Ashraf, Dangyi Liu, Maria Georgaki, Irene Cai, Yana Kulizhskaya, Sonam Goenka, Brennan Saeta, Kiran Vodrahalli, Christian Frank, Dario de Cesare, Brona Robenek, Harry Richardson, Mahmoud Alnahlawi, Christopher Yew, Priya Ponnapalli, Marco Tagliasacchi, Alex Korchemniy, Yelin Kim, Dinghua Li, Bill Rosgen, Zoe Ashwood, Kyle Levin, Jeremy Wiesner, Praseem Banzal, Praveen Srinivasan, Hongkun Yu, \c{C}a\u{g}lar \"Unl\"u, David Reid, Zora Tung, Daniel Finchelstein, Ravin Kumar, Andre Elisseeff, Jin Huang, Ming Zhang, Rui Zhu, Ricardo Aguilar, Mai Gim\'enez, Jiawei Xia, Olivier Dousse, Willi Gierke, Soheil Hassas Yeganeh, Damion Yates, Komal Jalan, Lu Li, Eri Latorre-Chimoto, Duc Dung Nguyen, Ken Durden, Praveen Kallakuri, Yaxin Liu, Matthew Johnson, Tomy Tsai, Alice Talbert, Jasmine Liu, Alexander Neitz, Chen Elkind, Marco Selvi, Mimi Jasarevic, Livio Baldini Soares, Albert Cui, Pidong Wang, Alek Wenjiao Wang, Xinyu Ye, Krystal Kallarackal, Lucia Loher, Hoi Lam, Josef Broder, Dan Holtmann-Rice, Nina Martin, Bramandia Ramadhana, Daniel Toyama, Mrinal Shukla, Sujoy Basu, Abhi Mohan, Nick Fernando, Noah Fiedel, Kim Paterson, Hui Li, Ankush Garg, Jane Park, DongHyun Choi, Diane Wu, Sankalp Singh, Zhishuai Zhang, Amir Globerson, Lily Yu, John Carpenter, F\'elix de Chaumont Quitry, Carey Radebaugh, Chu-Cheng Lin, Alex Tudor, Prakash Shroff, Drew Garmon, Dayou Du, Neera Vats, Han Lu, Shariq Iqbal, Alex Yakubovich, Nilesh Tripuraneni, James Manyika, Haroon Qureshi, Nan Hua, Christel Ngani, Maria Abi Raad, Hannah Forbes, Anna Bulanova, Jeff Stanway, Mukund Sundararajan, Victor Ungureanu, Colton Bishop, Yunjie Li, Balaji Venkatraman, Bo Li, Chloe Thornton, Salvatore Scellato, Nishesh Gupta, Yicheng Wang, Ian Tenney, Xihui Wu, Ashish Shenoy, Gabriel Carvajal, Diana Gage Wright, Ben Bariach, Zhuyun Xiao, Peter Hawkins, Sid Dalmia, Clement Farabet, Pedro Valenzuela, Quan Yuan, Chris Welty, Ananth Agarwal, Mia Chen, Wooyeol Kim, Brice Hulse, Nandita Dukkipati, Adam Paszke, Andrew Bolt, Elnaz Davoodi, Kiam Choo, Jennifer Beattie, Jennifer Prendki, Harsha Vashisht, Rebeca Santamaria-Fernandez, Luis C. Cobo, Jarek Wilkiewicz, David Madras, Ali Elqursh, Grant Uy, Kevin Ramirez, Matt Harvey, Tyler Liechty, Heiga Zen, Jeff Seibert, Clara Huiyi Hu, Mohamed Elhawaty, Andrey Khorlin, Maigo Le, Asaf Aharoni, Megan Li, Lily Wang, Sandeep Kumar, Alejandro Lince, Norman Casagrande, Jay Hoover, Dalia El Badawy, David Soergel, Denis Vnukov, Matt Miecnikowski, Jiri Simsa, Anna Koop, Praveen Kumar, Thibault Sellam, Daniel Vlasic, Samira Daruki, Nir Shabat, John Zhang, Guolong Su, Jiageng Zhang, Jeremiah Liu, Yi Sun, Evan Palmer, Alireza Ghaffarkhah, Xi Xiong, Victor Cotruta, Michael Fink, Lucas Dixon, Ashwin Sreevatsa, Adrian Goedeckemeyer, Alek Dimitriev, Mohsen Jafari, Remi Crocker, Nicholas FitzGerald, Aviral Kumar, Sanjay Ghemawat, Ivan Philips, Frederick Liu, Yannie Liang, Rachel Sterneck, Alena Repina, Marcus Wu, Laura Knight, Marin Georgiev, Hyo Lee, Harry Askham and Abhishek Chakladar and Annie Louis and Carl Crous and Hardie Cate and Dessie Petrova and Michael Quinn and Denese Owusu-Afriyie and Achintya Singhal, Nan Wei, Solomon Kim, Damien Vincent, Milad Nasr, Christopher A. Choquette-Choo, Reiko Tojo, Shawn Lu, Diego de Las Casas, Yuchung Cheng, Tolga Bolukbasi, Katherine Lee, Saaber Fatehi, Rajagopal Ananthanarayanan, Miteyan Patel, Charbel Kaed, Jing Li, Jakub Sygnowski, Shreyas Rammohan Belle, Zhe Chen, Jaclyn Konzelmann, Siim P\~oder, Roopal Garg, Vinod Koverkathu, Adam Brown, Chris Dyer, Rosanne Liu, Azade Nova, Jun Xu, Slav Petrov, Demis Hassabis, Koray Kavukcuoglu, Jeffrey Dean and Oriol Vinyals(参考訳) 本稿では,Geminiファミリーの最新モデルであるGemini 1.5 Proについて紹介する。これは,複数の長い文書やビデオや音声の時間を含む数百万のコンテキストのトークンから,きめ細かい情報をリコールし,推論することのできる,計算効率の高いマルチモーダル・オブ・エキスパート・モデルである。 Gemini 1.5 Proは、モダリティの長いコンテキスト検索タスクのほぼ完全なリコールを実現し、長いドキュメントQA、長いビデオQA、長いコンテキストASRの最先端を改善し、幅広いベンチマークでGemini 1.0 Ultraの最先端のパフォーマンスにマッチするか、上回っている。 Gemini 1.5 Proの長文能力の限界を調べたところ、少なくとも10万個のトークン(Claude 2.1 (200k) や GPT-4 Turbo (128k) といった既存のモデルに対する世代的な飛躍)まで、次のトーケン予測とほぼ完璧な検索(>99%)の改善が継続されていることがわかった。 最後に、フロンティアにおける大きな言語モデルの驚くべき新機能を強調します。世界200人未満の話者を持つ言語であるKalamangの文法マニュアルを与えられたとき、同じコンテンツから学んだ人と同じようなレベルで、英語をKalamangに翻訳することを学ぶ。

In this report, we present the latest model of the Gemini family, Gemini 1.5 Pro, a highly compute-efficient multimodal mixture-of-experts model capable of recalling and reasoning over fine-grained information from millions of tokens of context, including multiple long documents and hours of video and audio. Gemini 1.5 Pro achieves near-perfect recall on long-context retrieval tasks across modalities, improves the state-of-the-art in long-document QA, long-video QA and long-context ASR, and matches or surpasses Gemini 1.0 Ultra's state-of-the-art performance across a broad set of benchmarks. Studying the limits of Gemini 1.5 Pro's long-context ability, we find continued improvement in next-token prediction and near-perfect retrieval (>99%) up to at least 10M tokens, a generational leap over existing models such as Claude 2.1 (200k) and GPT-4 Turbo (128k). Finally, we highlight surprising new capabilities of large language models at the frontier; when given a grammar manual for Kalamang, a language with fewer than 200 speakers worldwide, the model learns to translate English to Kalamang at a similar level to a person who learned from the same content.
翻訳日:2024-03-11 12:47:51 公開日:2024-03-08
# gaussian single-indexモデル学習の計算複雑性

The Computational Complexity of Learning Gaussian Single-Index Models ( http://arxiv.org/abs/2403.05529v1 )

ライセンス: Link先を確認
Alex Damian, Loucas Pillaud-Vivien, Jason D. Lee, Joan Bruna(参考訳) 単インデックスモデルは植木構造を持つ高次元回帰問題であり、ラベルは、ジェネリック、非線形、そして潜在的に非決定論的変換を介して入力の未知の一次元射影に依存する。 このように、それらは幅広い統計推論タスクを包含し、高次元のシステムにおける統計的および計算的トレードオフを研究するための豊富なテンプレートを提供する。 隠れた方向を復元する情報理論的なサンプル複雑性は$d$で線形であるが、統計的クエリ (SQ) と低デグレ多項式 (LDP) フレームワークの両方において計算効率のよいアルゴリズムは、必然的に$\Omega(d^{k^\star/2})$サンプルを必要とする。 さらに,このサンプルの複雑性は,部分追跡アルゴリズムを用いて上界のマッチングを確立することで十分であることを示す。 したがって、この結果は、$k^\star>2$のときに(SQクラスとLDPクラスの両方で)鋭い計算と統計のギャップを示す。 この研究を終えるために、任意の大きな生成指数 $k^\star$ を持つ滑らかでリプシッツ決定論的対象関数の例を示す。

Single-Index Models are high-dimensional regression problems with planted structure, whereby labels depend on an unknown one-dimensional projection of the input via a generic, non-linear, and potentially non-deterministic transformation. As such, they encompass a broad class of statistical inference tasks, and provide a rich template to study statistical and computational trade-offs in the high-dimensional regime. While the information-theoretic sample complexity to recover the hidden direction is linear in the dimension $d$, we show that computationally efficient algorithms, both within the Statistical Query (SQ) and the Low-Degree Polynomial (LDP) framework, necessarily require $\Omega(d^{k^\star/2})$ samples, where $k^\star$ is a "generative" exponent associated with the model that we explicitly characterize. Moreover, we show that this sample complexity is also sufficient, by establishing matching upper bounds using a partial-trace algorithm. Therefore, our results provide evidence of a sharp computational-to-statistical gap (under both the SQ and LDP class) whenever $k^\star>2$. To complete the study, we provide examples of smooth and Lipschitz deterministic target functions with arbitrarily large generative exponents $k^\star$.
翻訳日:2024-03-11 12:47:23 公開日:2024-03-08
# 1次元ボースガス干渉法による相対位相抽出の系統解析

Systematic analysis of relative phase extraction in one-dimensional Bose gases interferometry ( http://arxiv.org/abs/2403.05528v1 )

ライセンス: Link先を確認
Taufiq Murtadho, Marek Gluza, Khatee Zathul Arifa, Sebastian Erne, J\"org Schmiedmayer, Nelly Ng(参考訳) 近接する2つの1次元ボースガスの空間分解相対位相測定は、自由膨張時の物質波干渉によって可能となる。 しかし, 実験データの解析では, 縦方向のダイナミクスは無視されるのが一般的である。 本稿では, 相対位相の長手展開による読み出しに対する補正と, 共通位相との混合に関する解析式を提案する。 相関関数や温度などのガスの物理量の推定に対する誤差伝播を数値的に評価する。 本研究は,干渉計測の信頼性とロバスト性を特徴とし,冷原子量子シミュレータにおける新しい物理現象観測に必要な既存の位相抽出法の改善に導く。

Spatially resolved relative phase measurement of two adjacent 1D Bose gases is enabled by matter-wave interference upon free expansion. However, longitudinal dynamics is typically ignored in the analysis of experimental data. We provide an analytical formula showing a correction to the readout of the relative phase due to longitudinal expansion and mixing with the common phase. We numerically assess the error propagation to the estimation of the gases' physical quantities such as correlation functions and temperature. Our work characterizes the reliability and robustness of interferometric measurements, directing us to the improvement of existing phase extraction methods necessary to observe new physical phenomena in cold-atomic quantum simulators.
翻訳日:2024-03-11 12:46:58 公開日:2024-03-08
# GEAR: LLMのニアロスレス生成推論のための効率的なKVキャッシュ圧縮

GEAR: An Efficient KV Cache Compression Recipefor Near-Lossless Generative Inference of LLM ( http://arxiv.org/abs/2403.05527v1 )

ライセンス: Link先を確認
Hao Kang, Qingru Zhang, Souvik Kundu, Geonhwa Jeong, Zaoxing Liu, Tushar Krishna, Tuo Zhao(参考訳) キーバリュー(KV)キャッシングは,大規模言語モデル(LLM)推論における生成速度を高速化するデファクトとなっている。 しかし、シーケンス長の増加に伴うキャッシュ需要の増加は、LLM推論をメモリバウンド問題に転換し、システムのスループットを著しく制限している。 既存のメソッドは、重要でないトークンをドロップしたり、すべてのエントリを一様に定量化する。 しかし、そのような方法はしばしば圧縮行列を表現するために高い近似誤差を生じる。 自己回帰復号プロセスは、各ステップの誤差をさらに複雑にし、モデル生成と性能低下の致命的な偏差をもたらす。 そこで本研究では,高精細度圧縮を実現する効率的なkvキャッシュ圧縮フレームワークであるgearを提案する。 GEAR は最初、超低精度に近い大きさの成分のほとんどに量子化を適用する。 その後、量子化誤差を近似する低ランク行列と、外れたエントリから個々のエラーを修正できるスパース行列を用いる。 3つの技術を統合することで、GEARはシナジスティックなポテンシャルを完全に活用することができる。 我々の実験では、GEARは代替技術と比較して、最大2.38倍のスループット向上を実現し、ピークメモリサイズを2.29倍に削減した。 私たちのコードはhttps://github.com/HaoKang-Timmy/GEAR.comで公開されています。

Key-value (KV) caching has become the de-facto to accelerate generation speed for large language models (LLMs) inference. However, the growing cache demand with increasing sequence length has transformed LLM inference to be a memory bound problem, significantly constraining the system throughput. Existing methods rely on dropping unimportant tokens or quantizing all entries uniformly. Such methods, however, often incur high approximation errors to represent the compressed matrices. The autoregressive decoding process further compounds the error of each step, resulting in critical deviation in model generation and deterioration of performance. To tackle this challenge, we propose GEAR, an efficient KV cache compression framework that achieves near-lossless high-ratio compression. GEAR first applies quantization to majority of entries of similar magnitudes to ultra-low precision. It then employs a low rank matrix to approximate the quantization error, and a sparse matrix to remedy individual errors from outlier entries. By adeptly integrating three techniques, GEAR is able to fully exploit their synergistic potentials. Our experiments demonstrate that compared to alternatives, GEAR achieves near-lossless 4-bit KV cache compression with up to 2.38x throughput improvement, while reducing peak-memory size up to 2.29x. Our code is publicly available at https://github.com/HaoKang-Timmy/GEAR.
翻訳日:2024-03-11 12:46:48 公開日:2024-03-08
# DeepSeek-VL: 実世界のビジョンランゲージ理解を目指して

DeepSeek-VL: Towards Real-World Vision-Language Understanding ( http://arxiv.org/abs/2403.05525v1 )

ライセンス: Link先を確認
Haoyu Lu, Wen Liu, Bo Zhang, Bingxuan Wang, Kai Dong, Bo Liu, Jingxiang Sun, Tongzheng Ren, Zhuoshu Li, Yaofeng Sun, Chengqi Deng, Hanwei Xu, Zhenda Xie, Chong Ruan(参考訳) 本稿では、実世界のビジョンと言語理解アプリケーション用に設計されたオープンソースのVision-Language(VL)モデルであるDeepSeek-VLを紹介する。 私たちは、Webスクリーンショット、PDF、OCR、チャート、知識ベースのコンテンツを含む現実世界のシナリオを幅広くカバーし、実用的なコンテキストの包括的な表現を目指しています。 さらに,実際のユーザシナリオからユースケース分類を作成し,それに応じて命令チューニングデータセットを構築する。 このデータセットによる微調整は、実用アプリケーションにおけるモデルのユーザエクスペリエンスを大幅に改善します。 DeepSeek-VLは高解像度画像(1024 x 1024)を効率よく処理するハイブリッドビジョンエンコーダを内蔵しており、計算オーバーヘッドは比較的低い。 この設計選択は、モデルが様々な視覚的タスクにまたがる重要な意味的および詳細な情報をキャプチャする能力を保証する。 我々は、有能な視覚言語モデルが言語能力を持つべきであると仮定する。 プレトレーニング中のLLM能力の維持を確保するため,LLMトレーニングを最初から統合し,視覚と言語モダリティの競合ダイナミクスを慎重に管理することにより,有効なVL事前訓練戦略を検討する。 DeepSeek-VLファミリ(バージョン1.3Bと7Bモデルの両方)は、現実のアプリケーションにおける視覚言語チャットボットとしての優れたユーザエクスペリエンスを示し、言語中心のベンチマークで堅牢なパフォーマンスを維持しながら、さまざまなビジュアル言語ベンチマークで最先端または競合的なパフォーマンスを達成する。 我々は、この基盤モデルに基づいてイノベーションを促進するために、1.3Bモデルと7Bモデルの両方を一般公開した。

We present DeepSeek-VL, an open-source Vision-Language (VL) Model designed for real-world vision and language understanding applications. Our approach is structured around three key dimensions: We strive to ensure our data is diverse, scalable, and extensively covers real-world scenarios including web screenshots, PDFs, OCR, charts, and knowledge-based content, aiming for a comprehensive representation of practical contexts. Further, we create a use case taxonomy from real user scenarios and construct an instruction tuning dataset accordingly. The fine-tuning with this dataset substantially improves the model's user experience in practical applications. Considering efficiency and the demands of most real-world scenarios, DeepSeek-VL incorporates a hybrid vision encoder that efficiently processes high-resolution images (1024 x 1024), while maintaining a relatively low computational overhead. This design choice ensures the model's ability to capture critical semantic and detailed information across various visual tasks. We posit that a proficient Vision-Language Model should, foremost, possess strong language abilities. To ensure the preservation of LLM capabilities during pretraining, we investigate an effective VL pretraining strategy by integrating LLM training from the beginning and carefully managing the competitive dynamics observed between vision and language modalities. The DeepSeek-VL family (both 1.3B and 7B models) showcases superior user experiences as a vision-language chatbot in real-world applications, achieving state-of-the-art or competitive performance across a wide range of visual-language benchmarks at the same model size while maintaining robust performance on language-centric benchmarks. We have made both 1.3B and 7B models publicly accessible to foster innovations based on this foundation model.
翻訳日:2024-03-11 12:46:26 公開日:2024-03-08
# 有限データを超えて:外挿によるデータ非分配一般化へ向けて

Beyond Finite Data: Towards Data-free Out-of-distribution Generalization via Extrapola ( http://arxiv.org/abs/2403.05523v1 )

ライセンス: Link先を確認
Yijiang Li, Sucheng Ren, Weipeng Deng, Yuzhi Xu, Ying Gao, Edith Ngai and Haohan Wang(参考訳) out-of-distribution (ood) 一般化はディープニューラルネットワークにとって好都合だが挑戦的な性質である。 主な課題は、モデルがスプリアスの特徴から不変表現を学ぶのを助ける、ソースドメインの可用性の制限にある。 様々なドメイン拡張が提案されているが、ほとんどが既存のドメインの補間に依存しており、真の"ノベル"ドメインを作成するのにしばしば困難に直面している。 一方、人間は簡単に新しいドメインを外挿できるため、興味深い疑問が生じる: ニューラルネットワークは人間のように外挿してOODの一般化を実現することができるのか? 本稿では,大言語モデル(LLM)にカプセル化された推論能力と広範な知識を活用して,全く新しいドメインを合成する領域外挿手法を提案する。 興味のクラスから始めて、これらの新しいドメインに関する関連知識を抽出するためにLLMに問い合わせる。 次に、LLMから導出されるテキスト中心の知識と、テキスト・画像生成技術を用いてモデルの画素入力空間とのギャップを埋める。 ドメイン一般化データセットのトレーニングセットを、これらの新しいドメインの高忠実で写実的な画像で拡張することにより、様々なベンチマークで示されるように、既存のすべてのメソッドよりも大幅に改善される。 任意のクラスの任意のドメインを外挿することができるので、このメソッドはデータなしで任意のタスクの一般化モデルを学ぶことができる。 そこで本研究では,収集データがない場合に一般化されたモデルを学習することを目的とした,データフリーな領域一般化という,はるかに難しい設定を述べる。 本手法は, VLCSなどのデータセットにおいて, 教師付き設定を約1~2倍の精度で上回っても, この設定で満足できる性能を示す。

Out-of-distribution (OOD) generalization is a favorable yet challenging property for deep neural networks. The core challenges lie in the limited availability of source domains that help models learn an invariant representation from the spurious features. Various domain augmentation have been proposed but largely rely on interpolating existing domains and frequently face difficulties in creating truly "novel" domains. Humans, on the other hand, can easily extrapolate novel domains, thus, an intriguing question arises: How can neural networks extrapolate like humans and achieve OOD generalization? We introduce a novel approach to domain extrapolation that leverages reasoning ability and the extensive knowledge encapsulated within large language models (LLMs) to synthesize entirely new domains. Starting with the class of interest, we query the LLMs to extract relevant knowledge for these novel domains. We then bridge the gap between the text-centric knowledge derived from LLMs and the pixel input space of the model using text-to-image generation techniques. By augmenting the training set of domain generalization datasets with high-fidelity, photo-realistic images of these new domains, we achieve significant improvements over all existing methods, as demonstrated in both single and multi-domain generalization across various benchmarks. With the ability to extrapolate any domains for any class, our method has the potential to learn a generalized model for any task without any data. To illustrate, we put forth a much more difficult setting termed, data-free domain generalization, that aims to learn a generalized model in the absence of any collected data. Our empirical findings support the above argument and our methods exhibit commendable performance in this setting, even surpassing the supervised setting by approximately 1-2\% on datasets such as VLCS.
翻訳日:2024-03-11 12:45:56 公開日:2024-03-08
# リモートセンシングによる確率的画像駆動交通モデリング

Probabilistic Image-Driven Traffic Modeling via Remote Sensing ( http://arxiv.org/abs/2403.05521v1 )

ライセンス: Link先を確認
Scott Workman, Armin Hadzic(参考訳) 画像駆動トラフィックモデリング(image-driven traffic modeling)と呼ぶ、頭上画像から直接、時空間的トラフィックパターンをモデル化するタスクを扱う。 我々は、この作業ラインを拡張し、密集した都市規模の交通モデルの作成に使用できるマルチモーダルマルチタスクトランスフォーマティブベースのセグメンテーションアーキテクチャを導入する。 本手法は,時空間的文脈統合のための時空間符号化モジュールと,時間的変動を自然にモデル化するトラヒック速度推定のための確率的客観的関数を含む。 提案手法は,DTS(Dynamic Traffic Speeds)ベンチマークデータセットを用いて広範に評価し,現状を著しく改善する。 最後に,モビリティ関連のロケーション適応実験をサポートするdts++データセットを紹介する。

This work addresses the task of modeling spatiotemporal traffic patterns directly from overhead imagery, which we refer to as image-driven traffic modeling. We extend this line of work and introduce a multi-modal, multi-task transformer-based segmentation architecture that can be used to create dense city-scale traffic models. Our approach includes a geo-temporal positional encoding module for integrating geo-temporal context and a probabilistic objective function for estimating traffic speeds that naturally models temporal variations. We evaluate our method extensively using the Dynamic Traffic Speeds (DTS) benchmark dataset and significantly improve the state-of-the-art. Finally, we introduce the DTS++ dataset to support mobility-related location adaptation experiments.
翻訳日:2024-03-11 12:45:25 公開日:2024-03-08
# ULMFiTを用いたトランスファーラーニングによるバングラ文学(AABL)の著者属性

Authorship Attribution in Bangla Literature (AABL) via Transfer Learning using ULMFiT ( http://arxiv.org/abs/2403.05519v1 )

ライセンス: Link先を確認
Aisha Khatun, Anisur Rahman, Md Saiful Islam, Hemayet Ahmed Chowdhury, Ayesha Tasnim(参考訳) 著者の帰属(authorship attribution)は、著者の執筆スタイルを捉えたテキストの適切なキャラクタリゼーションを作成し、与えられたテキストの原作者を識別するタスクである。 インターネット上の匿名性の向上に伴い、このタスクは様々なセキュリティや盗作検出分野でますます重要になっている。 英語、スペイン語、中国語などの他言語での大幅な進歩にもかかわらず、バングラは複雑な言語的特徴と文構造のため、この分野における包括的な研究を欠いている。 さらに、著者数が増えると既存のシステムは拡張性がなく、著者1人当たりのサンプル数が少ないと性能が低下する。 本稿では、AWD-LSTMアーキテクチャと、バングラ文学(AABL)における著者帰属のための複雑な言語的特徴抽出とスケーラビリティの問題に対処する効果的な伝達学習手法を提案する。 単語,サブワード,文字レベルのトークン化などの異なるトークン化の効果を分析し,提案モデルにおけるトークン化の有効性を示す。 さらに、標準データセット不足問題を解決するために、17,966のサンプルテキストと13.4百万語を含む16名の著者のBangla Authorship Attribution Dataset(BAAD16)を導入し、任意のBangla NLPダウンストリームタスクで使用する事前学習言語モデルの6つのバリエーションをリリースする。 評価のために開発したBAAD16データセットと他の公開データセットを使用しました。 実験により,提案モデルは最先端モデルより優れ,BAAD16データセットの精度は99.8%向上した。 さらに,本システムでは,著者数が増えても性能が向上し,トレーニングサンプルが少ないにもかかわらず,性能が安定していることを示した。

Authorship Attribution is the task of creating an appropriate characterization of text that captures the authors' writing style to identify the original author of a given piece of text. With increased anonymity on the internet, this task has become increasingly crucial in various security and plagiarism detection fields. Despite significant advancements in other languages such as English, Spanish, and Chinese, Bangla lacks comprehensive research in this field due to its complex linguistic feature and sentence structure. Moreover, existing systems are not scalable when the number of author increases, and the performance drops for small number of samples per author. In this paper, we propose the use of Average-Stochastic Gradient Descent Weight-Dropped Long Short-Term Memory (AWD-LSTM) architecture and an effective transfer learning approach that addresses the problem of complex linguistic features extraction and scalability for authorship attribution in Bangla Literature (AABL). We analyze the effect of different tokenization, such as word, sub-word, and character level tokenization, and demonstrate the effectiveness of these tokenizations in the proposed model. Moreover, we introduce the publicly available Bangla Authorship Attribution Dataset of 16 authors (BAAD16) containing 17,966 sample texts and 13.4+ million words to solve the standard dataset scarcity problem and release six variations of pre-trained language models for use in any Bangla NLP downstream task. For evaluation, we used our developed BAAD16 dataset as well as other publicly available datasets. Empirically, our proposed model outperformed state-of-the-art models and achieved 99.8% accuracy in the BAAD16 dataset. Furthermore, we showed that the proposed system scales much better even with an increasing number of authors, and performance remains steady despite few training samples.
翻訳日:2024-03-11 12:45:12 公開日:2024-03-08
# バイアス提示型一貫性トレーニングは、思考連鎖におけるバイアスド・推論を減少させる

Bias-Augmented Consistency Training Reduces Biased Reasoning in Chain-of-Thought ( http://arxiv.org/abs/2403.05518v1 )

ライセンス: Link先を確認
James Chua, Edward Rees, Hunar Batra, Samuel R. Bowman, Julian Michael, Ethan Perez, Miles Turpin(参考訳) cot(chain-of-thought prompting)は、言語モデル推論の説明可能性を向上させる可能性を秘めているが、モデルの振る舞いに影響を与える要因を体系的に誤表現することができる。 このバイアスド・推論問題を緩和するために,バイアス・エイジメント・一貫性・トレーニング (bct) という非教師なし微調整方式を導入する。 我々は,7つの質問応答タスクにおいて,9種類の偏り推論をテストスイートを構築し,1つの偏りを持つGPT-3.5-TurboにBCTを適用することで,ホールドアウトタスクにおいて,偏り推論の率を86%削減できることを確認した。 さらに、このモデルは、他の形式の偏見に一般化し、保留バイアスに対する偏見推論を平均37%削減する。 BCTは、ホールドアウトバイアスに一般化し、金のラベルを必要としないため、この方法は、未発見バイアスから偏見推論を減らすことや、根拠真理推論の監督が不可能なタスクを約束することができる。

While chain-of-thought prompting (CoT) has the potential to improve the explainability of language model reasoning, it can systematically misrepresent the factors influencing models' behavior--for example, rationalizing answers in line with a user's opinion without mentioning this bias. To mitigate this biased reasoning problem, we introduce bias-augmented consistency training (BCT), an unsupervised fine-tuning scheme that trains models to give consistent reasoning across prompts with and without biasing features. We construct a suite testing nine forms of biased reasoning on seven question-answering tasks, and find that applying BCT to GPT-3.5-Turbo with one bias reduces the rate of biased reasoning by 86% on held-out tasks. Moreover, this model generalizes to other forms of bias, reducing biased reasoning on held-out biases by an average of 37%. As BCT generalizes to held-out biases and does not require gold labels, this method may hold promise for reducing biased reasoning from as-of-yet unknown biases and on tasks where supervision for ground truth reasoning is unavailable.
翻訳日:2024-03-11 12:44:35 公開日:2024-03-08
# 任意の次元のPXPおよび関連するモデルにおける体積絡み合った正確な固有状態

Volume-entangled exact eigenstates in the PXP and related models in any dimension ( http://arxiv.org/abs/2403.05515v1 )

ライセンス: Link先を確認
Andrew N. Ivanov and Olexei I. Motrunich(参考訳) 本稿では,多体アインシュタイン-ポドルスキー-ローゼン型体積絡み合わされた正確な傷をライドバーグ型原子系の多種PXP型モデルで提示するアプローチについて述べる。

In this work, we describe an approach for unveiling many-body Einstein-Podolsky-Rosen-like volume-entangled exact scars hosted by diverse PXP-type models for Rydberg-blockaded atom systems and discuss experimentally relevant aspects of these previously unknown states.
翻訳日:2024-03-11 12:44:11 公開日:2024-03-08
# コンパイルされたXORゲームと$d$-outcome CHSHゲームに対する量子境界

Quantum bounds for compiled XOR games and $d$-outcome CHSH games ( http://arxiv.org/abs/2403.05502v1 )

ライセンス: Link先を確認
Matilde Baroni, Quoc-Huy Vu, Boris Bourdoncle, Eleni Diamanti, Damian Markham, Ivan \v{S}upi\'c(参考訳) 非局所ゲームは量子情報理論において重要な役割を果たし、認証や暗号プロトコルに多くの応用がある。 Kalai et al. (STOC 2023) は、量子同型暗号スキームを用いて、非局所的なゲームを単一プロデューサの対話的証明にコンパイルする手順を導入し、それらのコンパイル方法がゲームの古典的境界を保存することを示した。 Natarajan and Zhang (FOCS 2023) はCHSHゲームの特定のケースに対して量子境界が保存されていることを示した。 ナタラジャンと張の証明手法を拡張して、カライらのコンパイル手順は、XORゲームとd-outcome CHSHゲームという2種類のゲームの量子境界を保存することを示す。 また、任意の量子ビット測度に対して、その最適な勝利確率が特定の測度対の自己テストとなるようなXORゲームが存在することも確認した。

Nonlocal games play a crucial role in quantum information theory and have numerous applications in certification and cryptographic protocols. Kalai et al. (STOC 2023) introduced a procedure to compile a nonlocal game into a single-prover interactive proof, using a quantum homomorphic encryption scheme, and showed that their compilation method preserves the classical bound of the game. Natarajan and Zhang (FOCS 2023) then showed that the quantum bound is preserved for the specific case of the CHSH game. Extending the proof techniques of Natarajan and Zhang, we show that the compilation procedure of Kalai et al. preserves the quantum bound for two classes of games: XOR games and d-outcome CHSH games. We also establish that, for any pair of qubit measurements, there exists an XOR game such that its optimal winning probability serves as a self-test for that particular pair of measurements.
翻訳日:2024-03-11 12:44:01 公開日:2024-03-08
# LLMは単純なルールに従うことができるか?

Can LLMs Follow Simple Rules? ( http://arxiv.org/abs/2311.04235v3 )

ライセンス: Link先を確認
Norman Mu, Sarah Chen, Zifan Wang, Sizhe Chen, David Karamardian, Lulwa Aljeraisy, Basel Alomair, Dan Hendrycks, David Wagner(参考訳) LLM(Large Language Models)は,実世界の責任を増大させると同時に展開されるため,これらのシステムの振る舞いを信頼性の高い方法で特定・制約できることが重要である。 モデル開発者は、"乱用コンテンツを生成しない"など、モデルの明示的なルールを設定したがるかもしれませんが、これらはジェイルブレイクのテクニックによって回避されます。 既存のLSMに対する敵の攻撃と防御の評価には、高額な手作業によるレビューまたは信頼性の低いヒューリスティックチェックが必要である。 本稿では,llmsにおけるルール追従能力を測定するためのプログラムフレームワークであるルール追従言語評価シナリオ(rules)を提案する。 ルールは14の単純なテキストシナリオから成り、モデルがユーザと対話しながらさまざまなルールに従うように指示される。 各シナリオにはプログラムによる評価機能があり、モデルが会話におけるルールを破ったかどうかを判断する。 プロプライエタリでオープンなモデルの評価から、現在のモデルのほとんどはシナリオルールに従うのに苦労しています。 また,単純な最適化攻撃では,テストケースの障害率を大幅に向上できることを示す。 テストタイムステアリングと教師付き微調整という,改善のための潜在的な2つの道を探究する。

As Large Language Models (LLMs) are deployed with increasing real-world responsibilities, it is important to be able to specify and constrain the behavior of these systems in a reliable manner. Model developers may wish to set explicit rules for the model, such as "do not generate abusive content", but these may be circumvented by jailbreaking techniques. Existing evaluations of adversarial attacks and defenses on LLMs generally require either expensive manual review or unreliable heuristic checks. To address this issue, we propose Rule-following Language Evaluation Scenarios (RuLES), a programmatic framework for measuring rule-following ability in LLMs. RuLES consists of 14 simple text scenarios in which the model is instructed to obey various rules while interacting with the user. Each scenario has a programmatic evaluation function to determine whether the model has broken any rules in a conversation. Our evaluations of proprietary and open models show that almost all current models struggle to follow scenario rules, even on straightforward test cases. We also demonstrate that simple optimization attacks suffice to significantly increase failure rates on test cases. We conclude by exploring two potential avenues for improvement: test-time steering and supervised fine-tuning.
翻訳日:2024-03-11 10:55:59 公開日:2024-03-08
# 大規模地図を用いたオンデマンド都市モビリティ問題に対する近似マルチエージェント強化学習(拡張版)

Approximate Multiagent Reinforcement Learning for On-Demand Urban Mobility Problem on a Large Map (extended version) ( http://arxiv.org/abs/2311.01534v3 )

ライセンス: Link先を確認
Daniel Garces, Sushmita Bhattacharya, Dimitri Bertsekas, Stephanie Gil(参考訳) 本稿では,大都市環境における自律型マルチエージェントタクシー経路問題に焦点をあてる。これは,将来の乗車要求の場所と回数が未知であるが,実証的な分布から推定することができる。 最近の理論では、安定したベースポリシーを持つロールアウトアルゴリズムが最適に近い安定ポリシーを生成することが示されている。 ルーティング設定では、その実行が時間とともに一様に境界づけられた優れたリクエストの数を維持するとポリシーが安定する。 ロールアウト型アプローチは,今後の需要を考慮した協調型マルチエージェント政策の学習に適しているが,安定に必要なタクシーが多数存在するため,大規模都市環境への適用は計算コストがかかる可能性がある。 本稿では, 近似的マルチエージェントロールアウトに基づく2相アルゴリズムを提案し, 計算コストを低減しつつ, 安定な準最適ポリシを実現することで, マルチエージェントロールアウトの計算ボトルネックに対処することを目的とする。 提案手法では,予測された需要と,ユーザの計算資源を逐次的に考慮したタクシーの最大数に基づいて,グラフをセクターに分割する。 このアルゴリズムは、セクタ間のタクシーの再バランスと、セクタ毎に並列に実行されるセクタ全体のマルチエージェントロールアウトアルゴリズムに即時割り当て(ia)を適用する。 主な理論的結果は2つある。 1) IAが安定するのに十分なタクシー数$m$を特徴付ける。 2) 時間が無限に進むにつれて、IAの安定性を維持するために$m$で必要条件を導出する。 数値解析の結果,理論条件を満たす$m$の安定性が得られた。 また,提案した2相アルゴリズムは,マップ全体のワン・ア・ア・タイム・ロールアウトに匹敵する性能を持つが,実行時間が大幅に低いことを示す。

In this paper, we focus on the autonomous multiagent taxi routing problem for a large urban environment where the location and number of future ride requests are unknown a-priori, but can be estimated by an empirical distribution. Recent theory has shown that a rollout algorithm with a stable base policy produces a near-optimal stable policy. In the routing setting, a policy is stable if its execution keeps the number of outstanding requests uniformly bounded over time. Although, rollout-based approaches are well-suited for learning cooperative multiagent policies with considerations for future demand, applying such methods to a large urban environment can be computationally expensive due to the large number of taxis required for stability. In this paper, we aim to address the computational bottleneck of multiagent rollout by proposing an approximate multiagent rollout-based two phase algorithm that reduces computational costs, while still achieving a stable near-optimal policy. Our approach partitions the graph into sectors based on the predicted demand and the maximum number of taxis that can run sequentially given the user's computational resources. The algorithm then applies instantaneous assignment (IA) for re-balancing taxis across sectors and a sector-wide multiagent rollout algorithm that is executed in parallel for each sector. We provide two main theoretical results: 1) characterize the number of taxis $m$ that is sufficient for IA to be stable; 2) derive a necessary condition on $m$ to maintain stability for IA as time goes to infinity. Our numerical results show that our approach achieves stability for an $m$ that satisfies the theoretical conditions. We also empirically demonstrate that our proposed two phase algorithm has equivalent performance to the one-at-a-time rollout over the entire map, but with significantly lower runtimes.
翻訳日:2024-03-11 10:55:39 公開日:2024-03-08
# 絡み合い軌道とその境界

Entanglement Trajectory and its Boundary ( http://arxiv.org/abs/2303.13587v5 )

ライセンス: Link先を確認
Ruge Lin(参考訳) 本稿では,量子コンピューティングの文脈における絡み合いを調べるための新しい手法を提案する。 本手法は,量子アルゴリズムの実行の異なる段階における密度行列の縮小を解析し,グラフ上の支配的固有値とフォン・ノイマンエントロピーを表現し,「絡み合い軌道」を生成する。 軌道の境界を確立するために、ランダム行列理論を用いる。 量子断熱計算、グローバーアルゴリズム、ショアアルゴリズムなどの例の検証を通じて、エンタングルメント軌道は確立された境界内にとどまり、それぞれの例に特有の特徴を示すことを証明した。 さらに、これらの境界と特徴を、代替エントロピー測度によって定義される軌道へ拡張できることを示した。 絡み合い軌道は量子系の不変性として機能し、様々な状況と絡み合いの定義の整合性を維持する。 この研究に付随する数値シミュレーションはオープンアクセスで利用できる。

In this article, we present a novel approach to investigating entanglement in the context of quantum computing. Our methodology involves analyzing reduced density matrices at different stages of a quantum algorithm's execution and representing the dominant eigenvalue and von Neumann entropy on a graph, creating an "entanglement trajectory." To establish the trajectory's boundaries, we employ random matrix theory. Through the examination of examples such as quantum adiabatic computation, the Grover algorithm, and the Shor algorithm, we demonstrate that the entanglement trajectory remains within the established boundaries, exhibiting unique characteristics for each example. Moreover, we show that these boundaries and features can be extended to trajectories defined by alternative entropy measures. The entanglement trajectory serves as an invariant property of a quantum system, maintaining consistency across varying situations and definitions of entanglement. Numerical simulations accompanying this research are available via open access.
翻訳日:2024-03-11 10:54:56 公開日:2024-03-08
# DPOT:大規模PDE事前訓練のための自動回帰デノイング演算子変換器

DPOT: Auto-Regressive Denoising Operator Transformer for Large-Scale PDE Pre-Training ( http://arxiv.org/abs/2403.03542v3 )

ライセンス: Link先を確認
Zhongkai Hao, Chang Su, Songming Liu, Julius Berner, Chengyang Ying, Hang Su, Anima Anandkumar, Jian Song, Jun Zhu(参考訳) データ・スカース・セッティングにおけるニューラル演算子の訓練効率と性能を向上させるために,事前学習を行った。 しかし、それは主に、長い軌跡、多重スケール、偏微分方程式(PDE)データの様々な次元など、固有の複雑さと多様性のため、その初期段階にある。 本稿では,pdeデータに対して,より安定かつ効率的な事前学習を可能にし,様々な下流タスクに一般化する,新しい自己回帰脱調プリトレーニング戦略を提案する。 さらに,フーリエ注意に基づくフレキシブルでスケーラブルなモデルアーキテクチャを設計することにより,大規模事前トレーニングのためのモデルスケールアップが容易になる。 我々は,100k以上の軌道を持つ10以上のPDEデータセットに対して,最大0.5BパラメータでPDEファンデーションモデルをトレーニングする。 大規模な実験により、これらのベンチマークでSOTAを達成し、3Dデータのような様々な下流PDEタスクの性能を大幅に向上させるため、モデルの強力な一般化可能性を検証する。 コードは \url{https://github.com/thu-ml/DPOT} で入手できる。

Pre-training has been investigated to improve the efficiency and performance of training neural operators in data-scarce settings. However, it is largely in its infancy due to the inherent complexity and diversity, such as long trajectories, multiple scales and varying dimensions of partial differential equations (PDEs) data. In this paper, we present a new auto-regressive denoising pre-training strategy, which allows for more stable and efficient pre-training on PDE data and generalizes to various downstream tasks. Moreover, by designing a flexible and scalable model architecture based on Fourier attention, we can easily scale up the model for large-scale pre-training. We train our PDE foundation model with up to 0.5B parameters on 10+ PDE datasets with more than 100k trajectories. Extensive experiments show that we achieve SOTA on these benchmarks and validate the strong generalizability of our model to significantly enhance performance on diverse downstream PDE tasks like 3D data. Code is available at \url{https://github.com/thu-ml/DPOT}.
翻訳日:2024-03-11 10:53:10 公開日:2024-03-08
# SplAgger: メタ強化学習のための分割集約

SplAgger: Split Aggregation for Meta-Reinforcement Learning ( http://arxiv.org/abs/2403.03020v2 )

ライセンス: Link先を確認
Jacob Beck, Matthew Jackson, Risto Vuorio, Zheng Xiong, Shimon Whiteson(参考訳) 強化学習(RL)の中核的な野望は、新しいタスクで迅速に学習できるエージェントを作ることである。 Meta-RLはこのようなエージェントを直接学習することでこれを実現する。 black boxメソッドは、市販のシーケンスモデルをエンドツーエンドでトレーニングする。 対照的に、タスク推論法は未知のタスク上での後方分布を明示的に推論し、タスク推論を可能にするために設計された異なる目的とシーケンスモデルを使用する。 近年の研究では、タスク推論手法は高い性能には必要ないことが示されている。 しかし,タスク推論対象がそうでない場合でも,タスク推論シーケンスモデルが有用かどうかは不明である。 本稿では,タスク推論シーケンスモデルが依然として有益であることを示す。 特に,マルコフ特性により後段のタスクがデータの順序に依存しないという事実を生かして,置換不変なアグリゲーションを持つシーケンスモデルについて検討する。 我々はタスク推論の目的を使わずに置換不変数列モデルの利点を実証的に確認する。 しかし、驚くべきことに、置換分散が有用である条件が複数存在することも判明した。 そこで本研究では,両世界の最善を達成するために置換変分成分と不変成分の両方を用いて,連続制御とメモリ環境において,すべてのベースラインを上回っているsplaggerを提案する。

A core ambition of reinforcement learning (RL) is the creation of agents capable of rapid learning in novel tasks. Meta-RL aims to achieve this by directly learning such agents. Black box methods do so by training off-the-shelf sequence models end-to-end. By contrast, task inference methods explicitly infer a posterior distribution over the unknown task, typically using distinct objectives and sequence models designed to enable task inference. Recent work has shown that task inference methods are not necessary for strong performance. However, it remains unclear whether task inference sequence models are beneficial even when task inference objectives are not. In this paper, we present strong evidence that task inference sequence models are still beneficial. In particular, we investigate sequence models with permutation invariant aggregation, which exploit the fact that, due to the Markov property, the task posterior does not depend on the order of data. We empirically confirm the advantage of permutation invariant sequence models without the use of task inference objectives. However, we also find, surprisingly, that there are multiple conditions under which permutation variance remains useful. Therefore, we propose SplAgger, which uses both permutation variant and invariant components to achieve the best of both worlds, outperforming all baselines on continuous control and memory environments.
翻訳日:2024-03-11 10:52:52 公開日:2024-03-08
# 観測可能な測定のための量子ゼノモンテカルロ

Quantum Zeno Monte Carlo for observable measurement ( http://arxiv.org/abs/2403.02763v2 )

ライセンス: Link先を確認
Mancheon Han, Hyowon Park, and Sangkook Choi(参考訳) 論理量子プロセッサの出現は、誤り訂正量子計算の初期段階の始まりである。 ノイズの多い中間スケール量子 (NISQ) 時代とフォールトトレラント量子コンピューティング (FTQC) 時代の間の橋渡しとして、これらのデバイスとその後継者は古典的な課題の解決に革命をもたらす可能性がある。 量子コンピュータの重要な応用は、量子システムの可観測性を計算することである。 この問題は、量子多体および最適化問題の解決に不可欠である。 しかし、誤り訂正能力が限られているため、この新しい時代はまだノイズの影響を受けやすいため、新しい量子アルゴリズムは多項式複雑性とノイズ耐性を必要とする。 本稿では,量子ゼノモンテカルロと呼ばれる新しい雑音耐性・アンサツフリーアルゴリズムを提案する。 量子ゼノ効果とモンテカルロ積分を利用して、ターゲット固有状態への多段階の断熱遷移を行う。 静止状態エネルギー、励起状態エネルギー、グリーン関数などの動的物理的性質と同様に、変分パラメータを使わずに効率的に静的な性質を見つけることができる。 このアルゴリズムは、量子位相推定よりも大幅に低い多項式計算コストと量子回路深さを提供する。

The advent of logical quantum processors marks the beginning of the early stages of error-corrected quantum computation. As a bridge between the noisy intermediate scale quantum (NISQ) era and the fault-tolerant quantum computing (FTQC) era, these devices and their successors have the potential to revolutionize the solution of classically challenging problems. An important application of quantum computers is to calculate observables of quantum systems. This problem is crucial for solving quantum many-body and optimization problems. However, due to limited error correction capabilities, this new era are still susceptible to noise, thereby necessitating new quantum algorithms with polynomial complexity as well as noisy-resilency. This paper proposes a new noise-resilient and ansatz-free algorithm, called Quantum Zeno Monte Carlo. It utilizes the quantum Zeno effect and Monte Carlo integration for multi-step adiabatic transitions to the target eigenstates. It can efficiently find static as well as dynamic physical properties such as ground state energy, excited state energies, and Green's function without the use of variational parameters. This algorithm offers a polynomial computational cost and quantum circuit depth that is significantly lower than the quantum phase estimation.
翻訳日:2024-03-11 10:52:06 公開日:2024-03-08
# 厳密な指導を伴わない学習:低解像度歴史ラベルによる大規模高解像度土地被覆マップの更新

Learning without Exact Guidance: Updating Large-scale High-resolution Land Cover Maps from Low-resolution Historical Labels ( http://arxiv.org/abs/2403.02746v2 )

ライセンス: Link先を確認
Zhuohong Li, Wei He, Jiepan Li, Fangxiao Lu, Hongyan Zhang(参考訳) 大規模な高解像度(HR)の土地被覆マッピングは、地球の表面を調査し、人類が直面する多くの課題を解決するために不可欠である。 しかし、複雑な地形、様々な地形、広範にわたる地理的領域での正確な訓練ラベルの不足などによって妨げられている非自明な作業である。 本稿では,低解像度の歴史的土地被覆データ(LR)を用いた大規模人為的土地被覆地図作成のための,効率的で弱教師付きフレームワーク(Paraformer)を提案する。 特に、既存の土地被覆マッピングアプローチは、ローカルな土地の詳細を保存するのにcnnが優勢であるが、様々な地形におけるグローバルモデリングが不十分であることを示している。 そこで、パラフォーマにおける並列cnn変換機能抽出器を、ダウンサンプリングフリーcnnブランチとトランスフォーマブランチからなる並列cnn変換機能抽出器で設計し、局所的およびグローバル的コンテクスト情報を同時取得する。 さらに、トレーニングデータの空間的ミスマッチに直面して、擬似ラベル支援トレーニング(PLAT)モジュールを用いて、HR画像の弱い教師付きセマンティックセグメンテーションのためにLRラベルを合理的に洗練する。 2つの大規模データセットの実験は、LR履歴ラベルからHRランドカバーマップを自動更新する他の最先端手法よりもParaformerの方が優れていることを示す。

Large-scale high-resolution (HR) land-cover mapping is a vital task to survey the Earth's surface and resolve many challenges facing humanity. However, it is still a non-trivial task hindered by complex ground details, various landforms, and the scarcity of accurate training labels over a wide-span geographic area. In this paper, we propose an efficient, weakly supervised framework (Paraformer) to guide large-scale HR land-cover mapping with easy-access historical land-cover data of low resolution (LR). Specifically, existing land-cover mapping approaches reveal the dominance of CNNs in preserving local ground details but still suffer from insufficient global modeling in various landforms. Therefore, we design a parallel CNN-Transformer feature extractor in Paraformer, consisting of a downsampling-free CNN branch and a Transformer branch, to jointly capture local and global contextual information. Besides, facing the spatial mismatch of training data, a pseudo-label-assisted training (PLAT) module is adopted to reasonably refine LR labels for weakly supervised semantic segmentation of HR images. Experiments on two large-scale datasets demonstrate the superiority of Paraformer over other state-of-the-art methods for automatically updating HR land-cover maps from LR historical labels.
翻訳日:2024-03-11 10:51:49 公開日:2024-03-08
# Wukong: 大規模勧告のスケーリング法を目指して

Wukong: Towards a Scaling Law for Large-Scale Recommendation ( http://arxiv.org/abs/2403.02545v2 )

ライセンス: Link先を確認
Buyun Zhang, Liang Luo, Yuxin Chen, Jade Nie, Xi Liu, Daifeng Guo, Yanli Zhao, Shen Li, Yuchen Hao, Yantao Yao, Guna Lakshminarayanan, Ellie Dingqiao Wen, Jongsoo Park, Maxim Naumov, Wenlin Chen(参考訳) スケーリング法則はモデル品質の持続可能な改善に重要な役割を果たしている。 残念ながら、これまでのレコメンデーションモデルは、大規模言語モデルの領域で見られるような法則を示さない。 この制限は、これらのモデルをより複雑な現実世界のデータセットに適応させる上で大きな課題となる。 本稿では,階層化された因子化マシンをベースとした効率的なネットワークアーキテクチャと,Wukongと呼ばれる相乗的アップスケーリング戦略を提案し,推薦領域におけるスケーリング法則を確立する。 Wukongのユニークなデザインは、より高層で広い層を通して、多様な、あらゆる順序の相互作用を捉えることができる。 我々は,6つの公開データセットに対して広範な評価を行い,その結果から,Wukongが常に最先端のモデルよりも品質的に優れていることを示した。 さらに、内部の大規模データセット上でWukongのスケーラビリティを評価した。 その結果,Wukongは,100Gflopを超える,あるいはそれに相当する大規模言語モデル(GPT-3)トレーニング計算スケールの2桁のスケール法則を保ちながら,最先端のモデルよりも高品質を維持していることがわかった。

Scaling laws play an instrumental role in the sustainable improvement in model quality. Unfortunately, recommendation models to date do not exhibit such laws similar to those observed in the domain of large language models, due to the inefficiencies of their upscaling mechanisms. This limitation poses significant challenges in adapting these models to increasingly more complex real-world datasets. In this paper, we propose an effective network architecture based purely on stacked factorization machines, and a synergistic upscaling strategy, collectively dubbed Wukong, to establish a scaling law in the domain of recommendation. Wukong's unique design makes it possible to capture diverse, any-order of interactions simply through taller and wider layers. We conducted extensive evaluations on six public datasets, and our results demonstrate that Wukong consistently outperforms state-of-the-art models quality-wise. Further, we assessed Wukong's scalability on an internal, large-scale dataset. The results show that Wukong retains its superiority in quality over state-of-the-art models, while holding the scaling law across two orders of magnitude in model complexity, extending beyond 100 Gflop or equivalently up to Large Language Model (GPT-3) training compute scale, where prior arts fall short.
翻訳日:2024-03-11 10:51:25 公開日:2024-03-08
# MiM-ISTD: 効率的な赤外小ターゲット検出のためのマンバインマンバ

MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection ( http://arxiv.org/abs/2403.02148v2 )

ライセンス: Link先を確認
Tianxiang Chen, Zhentao Tan, Tao Gong, Qi Chu, Yue Wu, Bin Liu, Jieping Ye, Nenghai Yu(参考訳) 近年,基本モデルの開発により,赤外線小目標検出 (ISTD) が大幅に進歩している。 具体的には、畳み込みネットワークと変圧器を組み合わせた構造は、局所的特徴と大域的特徴の両方を抽出することができる。 しかし、変換器の欠点、すなわちシーケンスの長さに対する二次計算の複雑さも継承される。 長距離モデリングのための線形複雑度を持つ最近の基本モデルであるMambaに触発され、本論文の有効性と効率性の観点から、ISTDタスクのための状態空間モデルの可能性を探る。 しかし,Mambaの直接適用は,小さなターゲットを検出する上で重要なローカル機能を完全に活用できないため,性能が低下する。 代わりに、効率的なISTDのためにMamba-in-Mamba(MiM-ISTD)構造を調整する。 具体的には,局所パッチを"視覚文"として扱い,外マンバを用いてグローバル情報を探索する。 次に,各視覚文を「視覚語」としてサブパッチに分解し,内部マンバを用いて,可視文中の単語間の局所情報を無視可能な計算コストで探索する。 単語と文の特徴を集約することにより、MiM-ISTDはグローバル情報とローカル情報の両方を効果的に探索することができる。 NUAA-SIRSTとIRSTD-1kの実験により,本手法の精度と効率が向上した。 具体的には、MiM-ISTDはSOTA法よりも10 \times$速く、2048 \times 2048$イメージでテストすると、GPUメモリ使用量を73.4$$$%削減し、高解像度赤外線画像の計算とメモリ制約を克服する。 ソースコードはhttps://github.com/txchen-USTC/MiM-ISTDで入手できる。

Recently, infrared small target detection (ISTD) has made significant progress, thanks to the development of basic models. Specifically, the structures combining convolutional networks with transformers can successfully extract both local and global features. However, the disadvantage of the transformer is also inherited, i.e., the quadratic computational complexity to the length of the sequence. Inspired by the recent basic model with linear complexity for long-distance modeling, called Mamba, we explore the potential of this state space model for ISTD task in terms of effectiveness and efficiency in the paper. However, directly applying Mamba achieves poor performance since local features, which are critical to detecting small targets, cannot be fully exploited. Instead, we tailor a Mamba-in-Mamba (MiM-ISTD) structure for efficient ISTD. Specifically, we treat the local patches as "visual sentences" and use the Outer Mamba to explore the global information. We then decompose each visual sentence into sub-patches as "visual words" and use the Inner Mamba to further explore the local information among words in the visual sentence with negligible computational costs. By aggregating the word and sentence features, the MiM-ISTD can effectively explore both global and local information. Experiments on NUAA-SIRST and IRSTD-1k show the superior accuracy and efficiency of our method. Specifically, MiM-ISTD is $10 \times$ faster than the SOTA method and reduces GPU memory usage by 73.4$\%$ when testing on $2048 \times 2048$ image, overcoming the computation and memory constraints on high-resolution infrared images. Source code is available at https://github.com/txchen-USTC/MiM-ISTD.
翻訳日:2024-03-11 10:50:41 公開日:2024-03-08
# テキスト・画像間モデルの暗黙的プロンプトに向けて

Towards Implicit Prompt For Text-To-Image Models ( http://arxiv.org/abs/2403.02118v3 )

ライセンス: Link先を確認
Yue Yang, Yuqi lin, Hong Liu, Wenqi Shao, Runjian Chen, Hailong Shang, Yu Wang, Yu Qiao, Kaipeng Zhang, Ping Luo(参考訳) 最近のテキスト・ツー・イメージ(T2I)モデルは大きな成功を収め、その性能と安全性を評価するために多くのベンチマークが提案されている。 しかし、明示的なプロンプトのみを考慮し、暗黙的なプロンプトを無視する(明示的に言及せずにターゲットに隠れる)。 これらのプロンプトは安全性の制約を排除し、これらのモデルの応用に潜在的な脅威をもたらす可能性がある。 本稿では,T2Iモデルの現状を暗黙のプロンプトに向けて強調する。 我々は、ImplicitBenchというベンチマークを示し、一般的なT2Iモデルを用いた暗黙的なプロンプトの性能と影響について調査する。 具体的には、一般シンボル、セレブプライバシ、Not-Safe-For-Work(NSFW)問題という3つの側面の2000以上の暗黙的なプロンプトを設計し、収集し、これらの暗黙的なプロンプトの下で6つのよく知られたT2Iモデルの能力を評価する。 実験結果から,(1)T2Iモデルが暗黙のプロンプトによって示される様々なターゲットシンボルを正確に生成できること,(2)暗黙のプロンプトがT2Iモデルのプライバシー漏洩の潜在的なリスクをもたらすことが示唆された。 (3) 評価されたほとんどのT2IモデルにおけるNSFWの制約は暗黙のプロンプトでバイパスすることができる。 我々は,t2iコミュニティにおける暗黙のプロンプトの可能性とリスクに対する注意の高まりと,暗黙のプロンプトの能力と影響に関するさらなる調査を求め,そのリスクを緩和しながらそのメリットを活用するバランスのとれたアプローチを提唱する。

Recent text-to-image (T2I) models have had great success, and many benchmarks have been proposed to evaluate their performance and safety. However, they only consider explicit prompts while neglecting implicit prompts (hint at a target without explicitly mentioning it). These prompts may get rid of safety constraints and pose potential threats to the applications of these models. This position paper highlights the current state of T2I models toward implicit prompts. We present a benchmark named ImplicitBench and conduct an investigation on the performance and impacts of implicit prompts with popular T2I models. Specifically, we design and collect more than 2,000 implicit prompts of three aspects: General Symbols, Celebrity Privacy, and Not-Safe-For-Work (NSFW) Issues, and evaluate six well-known T2I models' capabilities under these implicit prompts. Experiment results show that (1) T2I models are able to accurately create various target symbols indicated by implicit prompts; (2) Implicit prompts bring potential risks of privacy leakage for T2I models. (3) Constraints of NSFW in most of the evaluated T2I models can be bypassed with implicit prompts. We call for increased attention to the potential and risks of implicit prompts in the T2I community and further investigation into the capabilities and impacts of implicit prompts, advocating for a balanced approach that harnesses their benefits while mitigating their risks.
翻訳日:2024-03-11 10:50:10 公開日:2024-03-08
# 冷却による量子計算

Quantum Computation by Cooling ( http://arxiv.org/abs/2403.01760v2 )

ライセンス: Link先を確認
Jaeyoon Cho(参考訳) 断熱量子計算は、解をカプセル化した多体基底状態を発見し、計算問題を解くことを目的としたパラダイムモデルである。 しかし、複雑な多体ハミルトニアンのスペクトルギャップによる断熱的進化の利用は、その分析をばかげている。 代わりに断熱進化の最終的なガッピング系を直接冷却することは可能であるが、そのようなスキームの分析は驚くほど欠落している。 ここでは,この目的のためにハミルトニアンモデルを提案する。 このスキームは空洞冷却にインスパイアされ、ゼロ温度貯水池のエミュレーションを含む。 アシラ貯水池の繰り返し廃棄はシステムのエントロピーを抽出し、システムをその基底状態に向かって駆動する。 同時に、廃棄された量子ビットの測定は、システムのエネルギー準位構造を回帰として示唆する。 この冷却法に基づく量子計算は、その計算能力において量子回路に基づくものと等価であることを示す。 次に、組合せ最適化問題に対するいくつかの例示的なユースケースでスキームを例示する。 最初の例では、冷却は任意の局所エネルギーミニマから自由であり、いくつかの改良によってグローバーの探索アルゴリズムにスキームを還元する。 第2の例では、冷却は豊富な局所エネルギーミニマに悩まされる。 これを回避するために、ハミルトニアンに、局所的なミニマに閉じ込められた集団が高次遷移によってトンネルアウトできるようなメカニズムを埋め込む。 このアイデアを,特定の組合せ最適化問題に対する数値シミュレーションで支持する。 また、スペクトルギャップは冷却の時間スケールを決定する上で重要な要素であるとして、量子多体基底状態の生成への応用についても論じる。

Adiabatic quantum computation is a paradigmatic model aiming to solve a computational problem by finding the many-body ground state encapsulating the solution. However, its use of an adiabatic evolution depending on the spectral gap of an intricate many-body Hamiltonian makes its analysis daunting. While it is plausible to directly cool the final gapped system of the adiabatic evolution instead, an analysis of such a scheme is surprisingly missing. Here, we propose a specific Hamiltonian model for this purpose. The scheme is inspired by cavity cooling, involving the emulation of a zero-temperature reservoir. Repeated discarding of ancilla reservoir qubits extracts the entropy of the system, driving the system toward its ground state. At the same time, the measurement of the discarded qubits hints at the energy level structure of the system as a return. We show that quantum computation based on this cooling procedure is equivalent in its computational power to the one based on quantum circuits. We then exemplify the scheme with a few illustrative use cases for combinatorial optimization problems. In the first example, the cooling is free from any local energy minima, reducing the scheme to Grover's search algorithm with a few improvements. In the second example, the cooling suffers from abundant local energy minima. To circumvent this, we implant a mechanism in the Hamiltonian so that the population trapped in the local minima can tunnel out by high-order transitions. We support this idea with a numerical simulation for a particular combinatorial optimization problem. We also discuss its application to preparing quantum many-body ground states, arguing that the spectral gap is a crucial factor in determining the time scale of the cooling.
翻訳日:2024-03-11 10:49:43 公開日:2024-03-08
# トレーニングフリー事前学習モデルマージ

Training-Free Pretrained Model Merging ( http://arxiv.org/abs/2403.01753v2 )

ライセンス: Link先を確認
Zhengqi Xu, Ke Yuan, Huiqiong Wang, Yong Wang, Mingli Song, Jie Song(参考訳) 近年,複数の単一タレントモデルと単一マルチタレントモデルを組み合わせたソリューションとして,モデルマージ技術が浮上している。 しかし、この分野における以前の取り組みでは、追加のトレーニングや微調整のプロセスが必要になるか、あるいはモデルに同じ事前訓練された初期化が必要である。 本研究では、ウェイト空間とアクティベーション空間における単位類似性の矛盾について、先行研究における共通の欠点を特定する。 この不整合に対処するために,双対空間制約(MuDSC)の下でのマージという,革新的なモデルマージフレームワークを提案する。 具体的には、単一空間の目的のみを最大化するのではなく、活性化と重み類似度行列の線形結合によって達成される双対空間の統一された類似性のある領域に位置する置換行列の探索を提唱する。 ユーザビリティを高めるために,マルチヘッドの注意やグループ正規化など,グループ構造への適応も取り入れた。 総合的な比較実験により、MuDSCは様々なタスクの組み合わせとアーキテクチャによる統合モデルの性能を大幅に向上させることができることが示された。 さらに、マルチタスクロスランドスケープにおけるマージモデルの可視化により、mudscはマージモデルを重なり合うセグメントに配置することができ、各タスクに統一された損失を特徴付ける。 私たちのコードはhttps://github.com/zju-vipa/training_free_model_mergingで公開されています。

Recently, model merging techniques have surfaced as a solution to combine multiple single-talent models into a single multi-talent model. However, previous endeavors in this field have either necessitated additional training or fine-tuning processes, or require that the models possess the same pre-trained initialization. In this work, we identify a common drawback in prior works w.r.t. the inconsistency of unit similarity in the weight space and the activation space. To address this inconsistency, we propose an innovative model merging framework, coined as merging under dual-space constraints (MuDSC). Specifically, instead of solely maximizing the objective of a single space, we advocate for the exploration of permutation matrices situated in a region with a unified high similarity in the dual space, achieved through the linear combination of activation and weight similarity matrices. In order to enhance usability, we have also incorporated adaptations for group structure, including Multi-Head Attention and Group Normalization. Comprehensive experimental comparisons demonstrate that MuDSC can significantly boost the performance of merged models with various task combinations and architectures. Furthermore, the visualization of the merged model within the multi-task loss landscape reveals that MuDSC enables the merged model to reside in the overlapping segment, featuring a unified lower loss for each task. Our code is publicly available at https://github.com/zju-vipa/training_free_model_merging.
翻訳日:2024-03-11 10:49:20 公開日:2024-03-08
# 混合測度のデンドログラム:有限混合モデルの階層的クラスタリングとモデル選択

Dendrogram of mixing measures: Hierarchical clustering and model selection for finite mixture models ( http://arxiv.org/abs/2403.01684v2 )

ライセンス: Link先を確認
Dat Do, Linh Do, Scott A. McKinley, Jonathan Terhorst, XuanLong Nguyen(参考訳) 本稿では,過剰な潜在混合尺度から構築した階層的クラスタリング木 (dendrogram) を用いて混合モデルを要約・選択する新しい手法を提案する。 提案手法は階層的クラスタリングと混合モデリングを橋渡しする。 デンドログラムの構成は混合測度の収束の理論から導出され、その結果、モデルパラメータが弱識別可能であっても、真の混合成分数を一貫して選択し、木からパラメータ推定のためのポイントワイズ最適収束率を得ることができる。 理論的には、階層的クラスタリングにおいて最適な数のクラスタを選択する。 実際には、デンドログラムは、混合モデルを要約する伝統的な方法と比較して、サブポピュレーションの階層に関するより多くの情報を明らかにする。 我々の理論を支持するためにいくつかのシミュレーション研究が行われた。 また,この手法を単細胞RNA配列解析に適用する方法について述べる。

We present a new way to summarize and select mixture models via the hierarchical clustering tree (dendrogram) constructed from an overfitted latent mixing measure. Our proposed method bridges agglomerative hierarchical clustering and mixture modeling. The dendrogram's construction is derived from the theory of convergence of the mixing measures, and as a result, we can both consistently select the true number of mixing components and obtain the pointwise optimal convergence rate for parameter estimation from the tree, even when the model parameters are only weakly identifiable. In theory, it explicates the choice of the optimal number of clusters in hierarchical clustering. In practice, the dendrogram reveals more information on the hierarchy of subpopulations compared to traditional ways of summarizing mixture models. Several simulation studies are carried out to support our theory. We also illustrate the methodology with an application to single-cell RNA sequence analysis.
翻訳日:2024-03-11 10:48:56 公開日:2024-03-08
# PillarGen: Pillarベースのポイント生成ネットワークによるレーダポイントクラウド密度と品質の向上

PillarGen: Enhancing Radar Point Cloud Density and Quality via Pillar-based Point Generation Network ( http://arxiv.org/abs/2403.01663v2 )

ライセンス: Link先を確認
Jisong Kim, Geonho Bang, Kwangjin Choi, Minjae Seong, Jaechang Yoo, Eunjong Pyo, Jun Won Choi(参考訳) 本稿では,ピラーベースポイント生成ネットワーク (pilar-based point generation network, pillargen) と呼ばれる新しいポイント生成モデルを提案する。 PillarGenは、提供される入力ポイントクラウドに基づいて、密度と品質を向上した合成ポイントクラウドを生成することができる。 PillarGenモデルは以下の3つのステップを実行する。 1)柱符号化 2)占有柱予測(opp)、及び 3) Pillar to Point Generation (PPG)。 入力点雲は、柱格子構造を用いて符号化され、柱特徴を生成する。 そして、oppはポイント生成に使用するアクティブなピラーを決定し、アクティブなピラーごとに生成されるポイントの中心とポイントの数を予測する。 PPGは、OPPが提供する情報に基づいて、各アクティブピラーの合成点を生成する。 プロプライエタリなレーダデータセットを用いてPillarGenの性能を評価し,長距離レーダデータを監視対象とする短距離レーダデータの密度と品質の向上に着目した。 実験の結果,PillarGenは従来の点検法よりも定量的,定性的に優れていることがわかった。 また,鳥の眼球物体検出にピラーゲンを組み込むと,検出精度が大幅に向上することを確認した。

In this paper, we present a novel point generation model, referred to as Pillar-based Point Generation Network (PillarGen), which facilitates the transformation of point clouds from one domain into another. PillarGen can produce synthetic point clouds with enhanced density and quality based on the provided input point clouds. The PillarGen model performs the following three steps: 1) pillar encoding, 2) Occupied Pillar Prediction (OPP), and 3) Pillar to Point Generation (PPG). The input point clouds are encoded using a pillar grid structure to generate pillar features. Then, OPP determines the active pillars used for point generation and predicts the center of points and the number of points to be generated for each active pillar. PPG generates the synthetic points for each active pillar based on the information provided by OPP. We evaluate the performance of PillarGen using our proprietary radar dataset, focusing on enhancing the density and quality of short-range radar data using the long-range radar data as supervision. Our experiments demonstrate that PillarGen outperforms traditional point upsampling methods in quantitative and qualitative measures. We also confirm that when PillarGen is incorporated into bird's eye view object detection, a significant improvement in detection accuracy is achieved.
翻訳日:2024-03-11 10:48:44 公開日:2024-03-08
# 超音波セグメンテーション改善のためのマスク画像モデリングによる視覚内コンテキスト学習の簡易フレームワーク

A Simple Framework Uniting Visual In-context Learning with Masked Image Modeling to Improve Ultrasound Segmentation ( http://arxiv.org/abs/2402.14300v3 )

ライセンス: Link先を確認
Yuyue Zhou, Banafshe Felfeliyan, Shrimanti Ghosh, Jessica Knight, Fatima Alves-Pereira, Christopher Keen, Jessica K\"upper, Abhilash Rakkunedeth Hareendranathan, Jacob L. Jaremko(参考訳) 従来のディープラーニングモデルは、医用画像の分野における費用と時間のかかる専門家のラベル付けと、ドメイン固有の制限モデル一般化可能性を必要とする。 visual in-context learning(icl)は、コンピュータビジョンにおける新しい、エキサイティングな研究分野である。 従来のディープラーニングとは異なり、ICLはモデルが与えられた例に基づいて新しいタスクに迅速に適応できる能力を強調している。 MAE-VQGAN に触発されて,視覚的 ICL 対画像とマスク画像モデリング (MIM) を組み合わせて自己教師付き学習を行う,SimICL というシンプルな視覚的 ICL 手法を提案した。 そこで本研究では,手関節超音波(us)データセットにおける骨構造セグメント化法を限定的なアノテーションで検証し,骨構造セグメント化の臨床的意義について検討した。 骨領域セグメンテーションに18例の3822画像を含む検査セットを用いた。 SimICLは、Dice coeffient(DC)が0.96、Jaccard Index(IoU)が0.92で、最先端のセグメンテーションとビジュアルICLモデル(最大DC 0.86とIoU 0.76)を上回り、SimICL DCとIoUは0.10と0.16に増加した。 限られた手動アノテーションとのこの驚くほど高い合意は、SimICLが米国の小さなデータセットでもAIモデルのトレーニングに使用できることを示している。 これにより、従来のアプローチと比較して、画像ラベリングに要する専門家の時間を劇的に短縮し、アメリカの画像分析におけるAIアシストの現実的利用を高めることができる。

Conventional deep learning models deal with images one-by-one, requiring costly and time-consuming expert labeling in the field of medical imaging, and domain-specific restriction limits model generalizability. Visual in-context learning (ICL) is a new and exciting area of research in computer vision. Unlike conventional deep learning, ICL emphasizes the model's ability to adapt to new tasks based on given examples quickly. Inspired by MAE-VQGAN, we proposed a new simple visual ICL method called SimICL, combining visual ICL pairing images with masked image modeling (MIM) designed for self-supervised learning. We validated our method on bony structures segmentation in a wrist ultrasound (US) dataset with limited annotations, where the clinical objective was to segment bony structures to help with further fracture detection. We used a test set containing 3822 images from 18 patients for bony region segmentation. SimICL achieved an remarkably high Dice coeffient (DC) of 0.96 and Jaccard Index (IoU) of 0.92, surpassing state-of-the-art segmentation and visual ICL models (a maximum DC 0.86 and IoU 0.76), with SimICL DC and IoU increasing up to 0.10 and 0.16. This remarkably high agreement with limited manual annotations indicates SimICL could be used for training AI models even on small US datasets. This could dramatically decrease the human expert time required for image labeling compared to conventional approaches, and enhance the real-world use of AI assistance in US image analysis.
翻訳日:2024-03-11 10:48:24 公開日:2024-03-08
# 大規模言語モデルにおける間接的プロンプトインジェクション攻撃のベンチマークと防御

Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models ( http://arxiv.org/abs/2312.14197v3 )

ライセンス: Link先を確認
Jingwei Yi, Yueqi Xie, Bin Zhu, Emre Kiciman, Guangzhong Sun, Xing Xie, Fangzhao Wu(参考訳) 大規模言語モデル(LLM)と外部コンテンツの統合により、Microsoft CopilotのようなLLMのより最新かつ広範囲な応用が可能になった。 しかし、この統合により、攻撃者が外部コンテンツに悪意のある命令を埋め込み、llm出力を妥協し、ユーザの期待から外れる応答を発生させる、間接的なプロンプトインジェクション攻撃のリスクもllmに晒されている。 そこで本研究では,このような攻撃のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入する。 この評価に基づいて,本研究は,攻撃が成功した理由,すなわち命令と外部内容の区別をllmができないこと,および外部コンテンツ内で命令を実行しないことに対するllmsの意識の欠如について,重要な分析を行った。 この分析に基づいて, 素早い学習に基づく2つのブラックボックス法と, 逆学習を伴う微調整に基づくホワイトボックス防御法を開発した。 実験の結果,ブラックボックス防御はこれらの攻撃を軽減し,ホワイトボックス防御は攻撃成功率をほぼゼロレベルに低下させることがわかった。 全体として,本研究は,ベンチマーク導入による間接的インジェクション攻撃を体系的に検討し,攻撃成功の根本原因を分析し,初期防御装置の開発を行った。

The integration of large language models (LLMs) with external content has enabled more up-to-date and wide-ranging applications of LLMs, such as Microsoft Copilot. However, this integration has also exposed LLMs to the risk of indirect prompt injection attacks, where an attacker can embed malicious instructions within external content, compromising LLM output and causing responses to deviate from user expectations. To investigate this important but underexplored issue, we introduce the first benchmark for indirect prompt injection attacks, named BIPIA, to evaluate the risk of such attacks. Based on the evaluation, our work makes a key analysis of the underlying reason for the success of the attack, namely the inability of LLMs to distinguish between instructions and external content and the absence of LLMs' awareness to not execute instructions within external content. Building upon this analysis, we develop two black-box methods based on prompt learning and a white-box defense method based on fine-tuning with adversarial training accordingly. Experimental results demonstrate that black-box defenses are highly effective in mitigating these attacks, while the white-box defense reduces the attack success rate to near-zero levels. Overall, our work systematically investigates indirect prompt injection attacks by introducing a benchmark, analyzing the underlying reason for the success of the attack, and developing an initial set of defenses.
翻訳日:2024-03-11 10:47:51 公開日:2024-03-08
# Intelligent Visual Deductive Reasoningからどのくらい離れているのか?

How Far Are We from Intelligent Visual Deductive Reasoning? ( http://arxiv.org/abs/2403.04732v2 )

ライセンス: Link先を確認
Yizhe Zhang, He Bai, Ruixiang Zhang, Jiatao Gu, Shuangfei Zhai, Josh Susskind, Navdeep Jaitly(参考訳) gpt-4vのような視覚言語モデル(vlms)は最近、多様な視覚言語タスクに関する驚くべき進歩を実証している。 私たちは、より洗練された、より探索の少ない領域であるビジョンに基づく推論を掘り下げ、現在のsoma vlmsで未公開の盲点を見つけます。 具体的には、Ravenのプログレッシブ・マトリクス(RPM)を利用して、視覚的手がかりのみに依存するマルチホップ・リレーショナルおよび帰納的推論を行うVLMの能力を評価する。 我々は、Mensa IQテスト、インテリジェンステスト、RAVENを含む3つの多様なデータセット上で、コンテキスト内学習、自己整合性、チェーン・オブ・シント(CoT)といった標準的な戦略を用いて、いくつかの人気のあるVLMの包括的な評価を行う。 その結果、テキストベース推論におけるllmの印象的な能力にもかかわらず、視覚的推論における同等の能力を達成するには程遠いことが判明した。 LLMに適用した場合に有効な標準的な戦略は、視覚的推論タスクによってもたらされる課題にシームレスに対応しないことがわかった。 さらに、詳細な分析により、VLMは、主にRPMの例において複数の抽象パターンを知覚し理解できないため、これらの課題を解決するのに苦労していることが明らかとなった。

Vision-Language Models (VLMs) such as GPT-4V have recently demonstrated incredible strides on diverse vision language tasks. We dig into vision-based deductive reasoning, a more sophisticated but less explored realm, and find previously unexposed blindspots in the current SOTA VLMs. Specifically, we leverage Raven's Progressive Matrices (RPMs), to assess VLMs' abilities to perform multi-hop relational and deductive reasoning relying solely on visual clues. We perform comprehensive evaluations of several popular VLMs employing standard strategies such as in-context learning, self-consistency, and Chain-of-thoughts (CoT) on three diverse datasets, including the Mensa IQ test, IntelligenceTest, and RAVEN. The results reveal that despite the impressive capabilities of LLMs in text-based reasoning, we are still far from achieving comparable proficiency in visual deductive reasoning. We found that certain standard strategies that are effective when applied to LLMs do not seamlessly translate to the challenges presented by visual reasoning tasks. Moreover, a detailed analysis reveals that VLMs struggle to solve these tasks mainly because they are unable to perceive and comprehend multiple, confounding abstract patterns in RPM examples.
翻訳日:2024-03-11 10:42:54 公開日:2024-03-08
# フォトンボース・アインシュタイン凝縮体における非線形応答とオンザガー回帰の観測

Observation of Nonlinear Response and Onsager Regression in a Photon Bose-Einstein Condensate ( http://arxiv.org/abs/2403.04705v2 )

ライセンス: Link先を確認
Alexander Sazhin, Vladimir N. Gladilin, Andris Erglis, G\"oran Hellmann, Frank Vewinger, Martin Weitz, Michiel Wouters, Julian Schmitt(参考訳) 量子回帰定理は、2つの異なる時間における系の相関が平均値の時間応答と同じ運動方程式によって制御されていることを述べる。 このような関係は、内在的な微視的挙動と外的「原因」によるマクロ的「効果」との形式的接続を確立することによって、物理系の研究のための強力な枠組みを提供する。 このように制御された摂動に対する応答を測定することで、例えば凝縮物質系の構造因子や物質系の他の相関関数を決定できる。 ここでは,光子ボース・アインシュタイン凝縮体中の2時間粒子数相関が,色素分子浴の急激な摂動に対する凝縮物の応答と同じダイナミクスを示すことを実験的に実証した。 これにより、量子気体の回帰定理が証明され、さらに、摂動が浴槽に作用し、凝縮反応のみを監視する非慣習的な形式でこの関係のテストが確立される。 強い摂動に対しては、微視的理論が平衡揺らぎと関連している非線形緩和ダイナミクスを観察し、線形応答の系を超えて回帰定理を拡張する。 凝縮-熱系の非線形性は、駆動散逸光子凝縮格子における新しい初等励起の研究の道を開く。

The quantum regression theorem states that the correlations of a system at two different times are governed by the same equations of motion as the temporal response of the average values. Such a relation provides a powerful framework for the investigation of physical systems by establishing a formal connection between intrinsic microscopic behaviour and a macroscopic 'effect' due to an external 'cause'. Measuring the response to a controlled perturbation in this way allows to determine, for example, structure factors in condensed matter systems as well as other correlation functions of material systems. Here we experimentally demonstrate that the two-time particle number correlations in a photon Bose-Einstein condensate inside a dye-filled microcavity exhibit the same dynamics as the response of the condensate to a sudden perturbation of the dye molecule bath. This confirms the regression theorem for a quantum gas and, moreover, establishes a test of this relation in an unconventional form where the perturbation acts on the bath and only the condensate response is monitored. For strong perturbations, we observe nonlinear relaxation dynamics which our microscopic theory relates to the equilibrium fluctuations, thereby extending the regression theorem beyond the regime of linear response. The demonstrated nonlinearity of the condensate-bath system paves the way for studies of novel elementary excitations in lattices of driven-dissipative photon condensates.
翻訳日:2024-03-11 10:42:31 公開日:2024-03-08
# コンテキストベースマルチモーダル融合

Context-Based Multimodal Fusion ( http://arxiv.org/abs/2403.04650v2 )

ライセンス: Link先を確認
Bilal Faye, Hanane Azzag, Mustapha Lebbah, Djamel Bouchaffra(参考訳) 異なるソースからの情報を効果的に組み合わせた融合モデルは、マルチモーダルタスクの解決に広く利用されている。 しかし、異なるモダリティ間でのデータ分散を調整することには、大きな制限がある。 この課題は、堅牢な表現を学ぶ上での矛盾と困難につながる可能性がある。 アライメントモデルは、特にこの問題に対処しながら、リソースと時間の観点からはコストがかかるが、最適な結果を得るためには、大きなデータセットで「スクラッチから」トレーニングする必要があることが多い。 これらの制約を克服するために,モダリティ融合とデータ分散アライメントを組み合わせたContext-based Multimodal Fusion (CBMF) と呼ばれる革新的なモデルを提案する。 CBMFでは、各モダリティは特定のコンテキストベクトルによって表現され、各モダリティの埋め込みと融合する。 これにより、凍結可能な大規模な事前学習モデルの使用が可能になり、計算およびトレーニングデータ要求が削減される。 さらに、ネットワークはコンテキストとの融合を通じて異なるモーダルの埋め込みを区別することを学び、自己教師型学習のための対照的なアプローチを用いてデータ分布を整列する。 したがって、CBMFは複雑なマルチモーダルタスクを解決するための効果的で経済的ソリューションを提供する。

The fusion models, which effectively combine information from different sources, are widely used in solving multimodal tasks. However, they have significant limitations related to aligning data distributions across different modalities. This challenge can lead to inconsistencies and difficulties in learning robust representations. Alignment models, while specifically addressing this issue, often require training "from scratch" with large datasets to achieve optimal results, which can be costly in terms of resources and time. To overcome these limitations, we propose an innovative model called Context-Based Multimodal Fusion (CBMF), which combines both modality fusion and data distribution alignment. In CBMF, each modality is represented by a specific context vector, fused with the embedding of each modality. This enables the use of large pre-trained models that can be frozen, reducing the computational and training data requirements. Additionally, the network learns to differentiate embeddings of different modalities through fusion with context and aligns data distributions using a contrastive approach for self-supervised learning. Thus, CBMF offers an effective and economical solution for solving complex multimodal tasks.
翻訳日:2024-03-11 10:42:11 公開日:2024-03-08
# Pix2Gif:GIF生成のためのモーションガイド付き拡散

Pix2Gif: Motion-Guided Diffusion for GIF Generation ( http://arxiv.org/abs/2403.04634v2 )

ライセンス: Link先を確認
Hitesh Kandala, Jianfeng Gao, Jianwei Yang(参考訳) 画像からGIF(ビデオ)生成のための移動誘導拡散モデルPix2Gifを提案する。 そこで本研究では,提案手法が動作誘導に準拠することを保証するため,テクストと動き大小プロンプトによる画像翻訳問題としてタスクを定式化し,これら2種類のプロンプトに条件づけられた音源画像の特徴を空間的に変換する新しいモーションガイド型ワーピングモジュールを提案する。 さらに,変換された特徴マップを対象画像と同じ空間に残し,コンテンツの一貫性と一貫性を確保するための知覚的損失を導入する。 モデル学習に備えて, tgifビデオキャプチャデータセットからコヒーレントな画像フレームを抽出し, 被験者の時間変化に関する豊富な情報を提供する。 事前トレーニング後、多数のビデオデータセットに対してゼロショット方式でモデルを適用します。 広範な質的・定量的実験により,本モデルの有効性が示された。テキストから意味的プロンプトをキャプチャするだけでなく,運動指導から空間的プロンプトをキャプチャする。 16xv100 gpuの単一ノードを使って、すべてのモデルをトレーニングします。 コード、データセット、モデルは、https://hiteshk03.github.io/Pix2Gif/で公開されています。

We present Pix2Gif, a motion-guided diffusion model for image-to-GIF (video) generation. We tackle this problem differently by formulating the task as an image translation problem steered by text and motion magnitude prompts, as shown in teaser fig. To ensure that the model adheres to motion guidance, we propose a new motion-guided warping module to spatially transform the features of the source image conditioned on the two types of prompts. Furthermore, we introduce a perceptual loss to ensure the transformed feature map remains within the same space as the target image, ensuring content consistency and coherence. In preparation for the model training, we meticulously curated data by extracting coherent image frames from the TGIF video-caption dataset, which provides rich information about the temporal changes of subjects. After pretraining, we apply our model in a zero-shot manner to a number of video datasets. Extensive qualitative and quantitative experiments demonstrate the effectiveness of our model -- it not only captures the semantic prompt from text but also the spatial ones from motion guidance. We train all our models using a single node of 16xV100 GPUs. Code, dataset and models are made public at: https://hiteshk03.github.io/Pix2Gif/.
翻訳日:2024-03-11 10:41:52 公開日:2024-03-08
# 共有値によるベイズ最適化の解説と人間とAIの連携

Explaining Bayesian Optimization by Shapley Values Facilitates Human-AI Collaboration ( http://arxiv.org/abs/2403.04629v2 )

ライセンス: Link先を確認
Julian Rodemann, Federico Croppi, Philipp Arens, Yusuf Sale, Julia Herbinger, Bernd Bischl, Eyke H\"ullermeier, Thomas Augustin, Conor J. Walsh, Giuseppe Casalicchio(参考訳) ガウス過程(GP)を用いたベイズ最適化(BO)はブラックボックス最適化問題にとって必須のアルゴリズムとなっている。 皮肉なことに、BOはブラックボックス自体と見なされることが多く、なぜ特定のパラメータが評価されるかについての理由を提供する方法がない。 これは、ロボット工学のようなBOの人間とループの応用に特に関係している。 本稿では,BOの獲得関数に対する各パラメータの寄与を定量化するために,ゲーム理論のShapley値を用いてBOの提案を解釈するフレームワークであるShapleyBOを提案する。 さらに,Shapley値の線形性をエクスプロイトすることで,信頼性境界のような付加的獲得関数に対するBOの探索と利用を,各パラメータがいかに強く推し進めるかを明らかにすることができる。 また、ShapleyBOは、アレタリックおよびてんかん不確実性を探究する人々への探索への貢献を解消できることを示す。 さらに,提案手法はシャプレーボ支援型ヒューマンマシンインタフェース(hmi)を生み出しており,提案が人間の推論と一致しない場合,ユーザがboに干渉できる。 我々は、このHMIのメリットを、人間のループBOによってウェアラブルロボットデバイス(補助バックエクソスーツ)をパーソナライズするユースケースとして示す。 結果から,ShapleyBOにアクセス可能な人間-BOチームは,無関係のチームよりも後悔度が低いことが示唆された。

Bayesian optimization (BO) with Gaussian processes (GP) has become an indispensable algorithm for black box optimization problems. Not without a dash of irony, BO is often considered a black box itself, lacking ways to provide reasons as to why certain parameters are proposed to be evaluated. This is particularly relevant in human-in-the-loop applications of BO, such as in robotics. We address this issue by proposing ShapleyBO, a framework for interpreting BO's proposals by game-theoretic Shapley values.They quantify each parameter's contribution to BO's acquisition function. Exploiting the linearity of Shapley values, we are further able to identify how strongly each parameter drives BO's exploration and exploitation for additive acquisition functions like the confidence bound. We also show that ShapleyBO can disentangle the contributions to exploration into those that explore aleatoric and epistemic uncertainty. Moreover, our method gives rise to a ShapleyBO-assisted human machine interface (HMI), allowing users to interfere with BO in case proposals do not align with human reasoning. We demonstrate this HMI's benefits for the use case of personalizing wearable robotic devices (assistive back exosuits) by human-in-the-loop BO. Results suggest human-BO teams with access to ShapleyBO can achieve lower regret than teams without.
翻訳日:2024-03-11 10:41:29 公開日:2024-03-08
# In-n-Out: リンク予測のためのグラフニューラルネットワークの校正

In-n-Out: Calibrating Graph Neural Networks for Link Prediction ( http://arxiv.org/abs/2403.04605v2 )

ライセンス: Link先を確認
Erik Nascimento, Diego Mesquita, Samuel Kaski, Amauri H Souza(参考訳) ディープニューラルネットワークの出力は、我々が予測しようとしている事象の真の確率を反映していない、という悪名高い。 グラフデータや画像データのネットワークは通常過信されるが、近年の研究では、グラフニューラルネットワーク(GNN)がノードレベルの分類の逆の振る舞いを示すことが示されている。 しかし、リンクを予測するとどうなるのか? この場合、GNNは混合行動を示すことが多い。 より具体的には、負の予測では過信されるが、正の予測では過信される。 本稿では,リンク予測のためのGNNの校正手法であるIN-N-OUTを提案する。 IN-N-OUTは2つの単純な直観に基づいている。 i) GNNの予測を尊重しながら真偽のラベルをエッジに付与することは、そのエッジの埋め込みにおいて小さな変動を引き起こし、逆に ii)GNNと矛盾する同じエッジにラベルを付けると、埋め込みはより大きく変化する。 大規模な実験的キャンペーンでは、IN-N-OUTはリンク予測におけるGNNの校正を大幅に改善し、この特定のタスクのために設計されていないベースラインを一貫して上回っている。

Deep neural networks are notoriously miscalibrated, i.e., their outputs do not reflect the true probability of the event we aim to predict. While networks for tabular or image data are usually overconfident, recent works have shown that graph neural networks (GNNs) show the opposite behavior for node-level classification. But what happens when we are predicting links? We show that, in this case, GNNs often exhibit a mixed behavior. More specifically, they may be overconfident in negative predictions while being underconfident in positive ones. Based on this observation, we propose IN-N-OUT, the first-ever method to calibrate GNNs for link prediction. IN-N-OUT is based on two simple intuitions: i) attributing true/false labels to an edge while respecting a GNNs prediction should cause but small fluctuations in that edge's embedding; and, conversely, ii) if we label that same edge contradicting our GNN, embeddings should change more substantially. An extensive experimental campaign shows that IN-N-OUT significantly improves the calibration of GNNs in link prediction, consistently outperforming the baselines available -- which are not designed for this specific task.
翻訳日:2024-03-11 10:41:05 公開日:2024-03-08
# waldoの発見:nyrfシーン空間の効率的な探索に向けて

Finding Waldo: Towards Efficient Exploration of NeRF Scene Spaces ( http://arxiv.org/abs/2403.04508v2 )

ライセンス: Link先を確認
Evangelos Skartados, Mehmet Kerim Yucel, Bruno Manganelli, Anastasios Drosou, Albert Sa\`a-Garriga(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は,近年,その顕著な性能から3次元再構成と新しいビュー・シンセサイザーの主要なアプローチとなっている。 NeRF法への大きな関心にもかかわらず、NeRFの実用的なユースケースは無視されており、NeRFをモデルとしたシーン空間の探索が行なわれている。 本稿では,本論文で初めて,ユーザの選択した基準に準拠した新しいビューを描画できる,NeRFモデル入力(座標と視角)の効率的な発見として,シーン探索フレームワークを提案し,正式に定義する。 シーン探索に対処するアプローチの欠如を解消するため,まず誘導ランダム探索 (GRS) と擬似補間探索 (PIBS) という2つのベースライン手法を提案する。 そこで我々は,シーン探索を最適化問題としてキャストし,効率的な探索のための基準に依存しない進化誘導ポーズ探索(EGPS)を提案する。 様々な基準(例えば、サリエンシの最大化、画質の最大化、光合成品質の改善)で3つのアプローチを試験し、EGPSが他のベースラインよりも好適であることを示す。 最終的に重要なポイントと限界を強調し、今後の現場探査研究の方向性を概説する。

Neural Radiance Fields (NeRF) have quickly become the primary approach for 3D reconstruction and novel view synthesis in recent years due to their remarkable performance. Despite the huge interest in NeRF methods, a practical use case of NeRFs has largely been ignored; the exploration of the scene space modelled by a NeRF. In this paper, for the first time in the literature, we propose and formally define the scene exploration framework as the efficient discovery of NeRF model inputs (i.e. coordinates and viewing angles), using which one can render novel views that adhere to user-selected criteria. To remedy the lack of approaches addressing scene exploration, we first propose two baseline methods called Guided-Random Search (GRS) and Pose Interpolation-based Search (PIBS). We then cast scene exploration as an optimization problem, and propose the criteria-agnostic Evolution-Guided Pose Search (EGPS) for efficient exploration. We test all three approaches with various criteria (e.g. saliency maximization, image quality maximization, photo-composition quality improvement) and show that our EGPS performs more favourably than other baselines. We finally highlight key points and limitations, and outline directions for future research in scene exploration.
翻訳日:2024-03-11 10:40:44 公開日:2024-03-08
# イメージが現実的になる理由?

What makes an image realistic? ( http://arxiv.org/abs/2403.04493v2 )

ライセンス: Link先を確認
Lucas Theis(参考訳) 過去10年間は、画像、テキスト、オーディオ、ビデオなど、現実的なデータを生成する能力が大幅に進歩してきました。 本稿では,非現実的データから現実データを確実に把握できる関数の設計という,実数論を定量化する密接な関係の問題について議論する。 この問題は、機械学習の普及と最近の生成AIのブレークスルーにもかかわらず、解決が極めて困難であることが判明した。 アルゴリズム情報理論からの洞察に基づいて、なぜこの問題が難しいのか、なぜ良い生成モデルだけでは解決できないのか、良い解決策がどのようなものになるのかを論じる。 特に, 敵の批判者とは異なり, 敵の訓練を必要としない普遍的な批判者の概念を導入する。 普遍的批評家はすぐには実践的ではないが、実践的な実践を導くためのノーススターや、現実主義を捉えようとする既存の試みを分析するツールとしても機能する。

The last decade has seen tremendous progress in our ability to generate realistic-looking data, be it images, text, audio, or video. Here, we discuss the closely related problem of quantifying realism, that is, designing functions that can reliably tell realistic data from unrealistic data. This problem turns out to be significantly harder to solve and remains poorly understood, despite its prevalence in machine learning and recent breakthroughs in generative AI. Drawing on insights from algorithmic information theory, we discuss why this problem is challenging, why a good generative model alone is insufficient to solve it, and what a good solution would look like. In particular, we introduce the notion of a universal critic, which unlike adversarial critics does not require adversarial training. While universal critics are not immediately practical, they can serve both as a North Star for guiding practical implementations and as a tool for analyzing existing attempts to capture realism.
翻訳日:2024-03-11 10:40:24 公開日:2024-03-08
# クロスドメインFew-Shot学習のための識別的サンプルガイドとパラメータ効率の良い特徴空間適応

Discriminative Sample-Guided and Parameter-Efficient Feature Space Adaptation for Cross-Domain Few-Shot Learning ( http://arxiv.org/abs/2403.04492v2 )

ライセンス: Link先を確認
Rashindrie Perera and Saman Halgamuge(参考訳) 本稿では,ラベル付き例の少ない未熟な領域で新しいクラスを学ぶことの難題を提示する,クロスドメインの少数ショット分類について述べる。 既存のメソッドは、多少有効ではあるが、いくつかの制限に遭遇します。 まず、小データセット上で多数のパラメータを微調整するオーバーフィッティングに対処するため、軽量なパラメータ効率適応戦略を導入する。 この戦略は事前訓練された特徴の線形変換を採用し、トレーニング可能なパラメータ数を著しく削減する。 第2に,従来のCentroid分類器を分散認識損失関数に置き換え,特徴空間におけるクラスタリングを改善するためのトレーニングセット内およびクラス内分散に対するモデルの感度を高める。 meta-datasetベンチマークにおける経験的評価は、このアプローチが、視認されたデータセット上での精度を7.7%と5.3%に向上させるだけでなく、既存の方法よりも少なくとも3倍のパラメータ効率を保ちながら、このパフォーマンスを達成し、クロスドメインのマイノリティ学習における新たな最先端を確立していることを示している。 私たちのコードはhttps://github.com/rashindrie/DIPA.orgで参照できます。

In this paper, we look at cross-domain few-shot classification which presents the challenging task of learning new classes in unseen domains with few labelled examples. Existing methods, though somewhat effective, encounter several limitations, which we address in this work through two significant improvements. First, to address overfitting associated with fine-tuning a large number of parameters on small datasets, we introduce a lightweight parameter-efficient adaptation strategy. This strategy employs a linear transformation of pre-trained features, significantly reducing the trainable parameter count. Second, we replace the traditional nearest centroid classifier with a variance-aware loss function, enhancing the model's sensitivity to the inter- and intra-class variances within the training set for improved clustering in feature space. Empirical evaluations on the Meta-Dataset benchmark showcase that our approach not only improves accuracy up to 7.7% and 5.3% on seen and unseen datasets respectively but also achieves this performance while being at least ~3x more parameter-efficient than existing methods, establishing a new state-of-the-art in cross-domain few-shot learning. Our code can be found at https://github.com/rashindrie/DIPA.
翻訳日:2024-03-11 10:40:08 公開日:2024-03-08
# 大規模言語モデルは多言語音声言語を理解するか?

Do Large Language Model Understand Multi-Intent Spoken Language ? ( http://arxiv.org/abs/2403.04481v2 )

ライセンス: Link先を確認
Shangjian Yin, Peijie Huang, Yuhong Xu, Haojing Huang, Jiatian Chen(参考訳) 本研究は多言語言語理解(SLU)にLLM(Large Language Models, LLMs)を応用し, SLUの文脈におけるLLMの生成力を生かした独自の方法論を提案する。 提案手法は,マルチインテントslu環境におけるllmアプリケーションに特化したエンティティスロットを再構成し,サブインテント命令(sii)の概念を導入し,様々な領域における複雑なマルチインテント通信の分割と解釈を強化する。 LM-MixATISとLM-MixSNIPSと呼ばれるデータセットは、既存のベンチマークから作成されている。 我々の研究は、LLMが現在の最先端のマルチインテリジェントSLUモデルの能力に適合し、潜在的に優れていることを示している。 さらに、LLMの有効性を、様々な意図構成とデータセットの比率で調べる。 さらに、この複雑な分野におけるLLMの精度の詳細な分析を行うために、Entity Slot Accuracy(ESA)とCombined Semantic Accuracy(CSA)の2つの先駆的な指標を紹介した。

This study marks a significant advancement by harnessing Large Language Models (LLMs) for multi-intent spoken language understanding (SLU), proposing a unique methodology that capitalizes on the generative power of LLMs within an SLU context. Our innovative technique reconfigures entity slots specifically for LLM application in multi-intent SLU environments and introduces the concept of Sub-Intent Instruction (SII), enhancing the dissection and interpretation of intricate, multi-intent communication within varied domains. The resultant datasets, dubbed LM-MixATIS and LM-MixSNIPS, are crafted from pre-existing benchmarks. Our research illustrates that LLMs can match and potentially excel beyond the capabilities of current state-of-the-art multi-intent SLU models. It further explores LLM efficacy across various intent configurations and dataset proportions. Moreover, we introduce two pioneering metrics, Entity Slot Accuracy (ESA) and Combined Semantic Accuracy (CSA), to provide an in-depth analysis of LLM proficiency in this complex field.
翻訳日:2024-03-11 10:39:45 公開日:2024-03-08
# pearl: レビュー駆動のペルソナ知識に基づく会話レコメンデーションデータセット

Pearl: A Review-driven Persona-Knowledge Grounded Conversational Recommendation Dataset ( http://arxiv.org/abs/2403.04460v2 )

ライセンス: Link先を確認
Minjin Kim, Minju Kim, Hana Kim, Beong-woo Kwak, Soyeon Chun, Hyunseo Kim, SeongKu Kang, Youngjae Yu, Jinyoung Yeo, Dongha Lee(参考訳) 会話型レコメンデーションシステムは、特に会話入力よりも多様な推論を可能にする大規模言語モデル(llm)の発展に伴い、コミュニティへの関心が高まっている新興分野である。 進歩にもかかわらず、フィールドには探索する多くの側面があります。 現在利用可能な会話レコメンデーション用の公開データセットには、特定のユーザの好みやレコメンデーションの説明がなく、高品質なレコメンデーションを妨げる。 そこで本研究では,パーソナライズとナレッジによるllmシミュレータを用いた対話型レコメンデーションデータセットであるpearlを提案する。 実世界のレビューから詳細なペルソナと知識を取得し,57k以上の対話を伴う大規模データセットを構築した。 実験の結果, PEARLにおける発話には, より具体的なユーザの嗜好, 対象領域における専門知識の提示, 従来のデータセットよりも対話コンテキストに関連のあるレコメンデーションが提供されることがわかった。

Conversational recommender system is an emerging area that has garnered an increasing interest in the community, especially with the advancements in large language models (LLMs) that enable diverse reasoning over conversational input. Despite the progress, the field has many aspects left to explore. The currently available public datasets for conversational recommendation lack specific user preferences and explanations for recommendations, hindering high-quality recommendations. To address such challenges, we present a novel conversational recommendation dataset named PEARL, synthesized with persona- and knowledge-augmented LLM simulators. We obtain detailed persona and knowledge from real-world reviews and construct a large-scale dataset with over 57k dialogues. Our experimental results demonstrate that utterances in PEARL include more specific user preferences, show expertise in the target domain, and provide recommendations more relevant to the dialogue context than those in prior datasets.
翻訳日:2024-03-11 10:39:27 公開日:2024-03-08
# 学習エージェントの不均質集団におけるモラル行動のダイナミクス

Dynamics of Moral Behavior in Heterogeneous Populations of Learning Agents ( http://arxiv.org/abs/2403.04202v2 )

ライセンス: Link先を確認
Elizaveta Tennant, Stephen Hailes, Mirco Musolesi(参考訳) aiシステムの安全性とアライメントに関する懸念が高まる中、aiエージェントに道徳的能力を埋め込むことの重要性が強調される。 有望な解決策は、経験から学ぶこと、すなわち強化学習を使うことである。 マルチエージェント(社会)環境では、複雑な集団レベルの現象が個々の学習エージェント間の相互作用から生じることがある。 既存の研究の多くは、独立した学習エージェントの相互作用を研究するために、シミュレーションされた社会的ジレンマ環境に依存している。 しかし、実際にはエージェントの社会に存在するであろう道徳的不均一性を無視する傾向がある。 例えば、異なる時点において、単一の学習エージェントは、連続主義者である相手(すなわち、時間とともに結果の最大化に気を配る)やノルムベース(すなわち、ここでは特定の規範に従うことに集中する)と対決することがある。 エージェントの共同開発が集団におけるそのような道徳的不均一性によってどの程度影響を受けるかはよく理解されていない。 本稿では,道徳的に異質な集団が社会的ジレンマ設定で相互作用する学習動態について考察する。 パートナー選択機構を備えた囚人のジレンマ環境を用いて,集団における多様な道徳的エージェントの出現が,個々のエージェントの学習行動や集団レベルの創発的成果に与える影響について検討する。 我々は,反社会的エージェントと反社会的エージェントの非自明な相互作用を数種類観察し,ある種の道徳的エージェントが,より協調的な行動に向けて利己的なエージェントを操ることができることを発見した。

Growing concerns about safety and alignment of AI systems highlight the importance of embedding moral capabilities in artificial agents. A promising solution is the use of learning from experience, i.e., Reinforcement Learning. In multi-agent (social) environments, complex population-level phenomena may emerge from interactions between individual learning agents. Many of the existing studies rely on simulated social dilemma environments to study the interactions of independent learning agents. However, they tend to ignore the moral heterogeneity that is likely to be present in societies of agents in practice. For example, at different points in time a single learning agent may face opponents who are consequentialist (i.e., caring about maximizing some outcome over time) or norm-based (i.e., focusing on conforming to a specific norm here and now). The extent to which agents' co-development may be impacted by such moral heterogeneity in populations is not well understood. In this paper, we present a study of the learning dynamics of morally heterogeneous populations interacting in a social dilemma setting. Using a Prisoner's Dilemma environment with a partner selection mechanism, we investigate the extent to which the prevalence of diverse moral agents in populations affects individual agents' learning behaviors and emergent population-level outcomes. We observe several types of non-trivial interactions between pro-social and anti-social agents, and find that certain classes of moral agents are able to steer selfish agents towards more cooperative behavior.
翻訳日:2024-03-11 10:39:09 公開日:2024-03-08
# DNAct: 拡散誘導型マルチタスク3D政策学習

DNAct: Diffusion Guided Multi-Task 3D Policy Learning ( http://arxiv.org/abs/2403.04115v2 )

ライセンス: Link先を確認
Ge Yan, Yueh-Hua Wu, Xiaolong Wang(参考訳) 本稿では,ニューラルネットワークによる事前学習と拡散学習を統合し,アクションシーケンス空間におけるマルチモダリティ学習を実現する,言語条件付きマルチタスクポリシフレームワークであるdnactを提案する。 デモの少ない一般化可能なマルチタスクポリシを学ぶために、DNActの事前学習フェーズでは、ニューラルネットワークを利用して、安定拡散のような基礎モデルから3D空間への2Dセマンティックな特徴を抽出し、シーンに関する包括的なセマンティック理解を提供する。 そのため、複雑な3dセマンティクスと正確な幾何学を必要とするロボットタスクに対して、様々な応用が可能となる。 さらに,拡散学習を利用した視覚・言語の特徴を学習し,マルチタスクのデモにおいて固有のマルチモーダリティをカプセル化する手法を提案する。 拡散過程を通じて異なるタスクから動作シーケンスを再構成することにより、モデルは異なるモードを区別し、学習された表現の堅牢性と一般化性を改善することができる。 DNActはSOTA NeRFベースのマルチタスク操作アプローチを大幅に上回り、30%以上の成功率向上を実現している。 プロジェクトサイト: dnact.github.io

This paper presents DNAct, a language-conditioned multi-task policy framework that integrates neural rendering pre-training and diffusion training to enforce multi-modality learning in action sequence spaces. To learn a generalizable multi-task policy with few demonstrations, the pre-training phase of DNAct leverages neural rendering to distill 2D semantic features from foundation models such as Stable Diffusion to a 3D space, which provides a comprehensive semantic understanding regarding the scene. Consequently, it allows various applications to challenging robotic tasks requiring rich 3D semantics and accurate geometry. Furthermore, we introduce a novel approach utilizing diffusion training to learn a vision and language feature that encapsulates the inherent multi-modality in the multi-task demonstrations. By reconstructing the action sequences from different tasks via the diffusion process, the model is capable of distinguishing different modalities and thus improving the robustness and the generalizability of the learned representation. DNAct significantly surpasses SOTA NeRF-based multi-task manipulation approaches with over 30% improvement in success rate. Project website: dnact.github.io.
翻訳日:2024-03-11 10:38:43 公開日:2024-03-08
# Treespilation: アーキテクチャと状態最適化されたフェルミオン-ビットマッピング

Treespilation: Architecture- and State-Optimised Fermion-to-Qubit Mappings ( http://arxiv.org/abs/2403.03992v2 )

ライセンス: Link先を確認
Aaron Miller and Adam Glos and Zolt\'an Zimbor\'as(参考訳) 量子コンピュータは、フェルミオン系を効率的にシミュレートし、量子化学や材料科学のような分野に利益をもたらす。 これを達成するためにアルゴリズムは通常、量子コンピュータの量子ビットにフェルミインック問題をエンコードするためにフェルミオンから量子ビットへのマッピングを選択することから始める。 そこで本研究では,著者らによって以前に紹介された木ベースマッピングの大規模なファミリを用いて,フェルミオン系を効率的にマッピングする手法であるtreespilationを提案する。 本手法は,ADAPT-VQEアルゴリズムを用いて化学基底状態のシミュレーションに必要なCNOTゲート数を最小化する。 我々は,IBM EagleやGoogle Sycamoreのような,完全な接続性および限定的なqubit接続型デバイスにおいて,CNOTカウントの最大7,4 %の大幅な削減を観察し,同様のCNOTカウントの削減を観察した。 多くの場合、これらの限られた接続デバイスで達成された削減は、最初の完全接続cnot数を上回ることさえある。 さらに,本手法は分子状態調製のための最もCNOT効率の高いVQEプロトコルであるQEB-およびqubit-ADAPT-VQEのCNOTおよびパラメータ効率を改善した。

Quantum computers hold great promise for efficiently simulating Fermionic systems, benefiting fields like quantum chemistry and materials science. To achieve this, algorithms typically begin by choosing a Fermion-to-qubit mapping to encode the Fermioinc problem in the qubits of a quantum computer. In this work, we introduce "treespilation," a technique for efficiently mapping Fermionic systems using a large family of favourable tree-based mappings previously introduced by some of the authors. We use this technique to minimise the number of CNOT gates required to simulate chemical groundstates found numerically using the ADAPT-VQE algorithm. We observe significant reductions, up to $74\%$, in CNOT counts on full connectivity and for limited qubit connectivity-type devices such as IBM Eagle and Google Sycamore, we observe similar reductions in CNOT counts. In many instances, the reductions achieved on these limited connectivity devices even surpass the initial full connectivity CNOT count. Additionally, we find our method improves the CNOT and parameter efficiency of QEB- and qubit-ADAPT-VQE, which are, to our knowledge, the most CNOT-efficient VQE protocols for molecular state preparation.
翻訳日:2024-03-11 10:38:24 公開日:2024-03-08
# MolNexTR:分子画像認識のための一般化ディープラーニングモデル

MolNexTR: A Generalized Deep Learning Model for Molecular Image Recognition ( http://arxiv.org/abs/2403.03691v2 )

ライセンス: Link先を確認
Yufan Chen, Ching Ting Leung, Yong Huang, Jianwei Sun, Hao Chen, Hanyu Gao(参考訳) 化学構造認識の分野では、分子像をグラフ構造やスマイルストリングに変換する作業は、主に化学文献に共通する様々な描画スタイルや慣習のために、重要な課題となっている。 このギャップを埋めるため、我々は、強力な畳み込みニューラルネットワークであるConvNextとVision-TRansformerの強みを融合させる新しい画像-グラフ深層学習モデルであるMolNexTRを提案した。 この統合により、分子画像からの局所的特徴と大域的特徴のより微妙な抽出が促進される。 MolNexTRは原子と結合を同時に予測し、それらの配置規則を理解することができる。 また、シンボリック化学の原理を柔軟に統合し、キラリティを識別し、短縮構造を解読する。 さらに,改良されたデータ拡張モジュール,イメージ汚染モジュール,および最終的なスマイル出力を得るための後処理モジュールなど,一連の高度なアルゴリズムを組み込んだ。 これらのモジュールは、実文献に見られる多様な分子イメージのスタイルに対するモデルの強固さを相乗的に強化する。 本試験では, 分子構造認識の領域において, 81~97%の精度を達成し, 優れた性能を示した。 科学的な貢献: MolNexTRは、ユニークなデュアルストリームエンコーダを組み込んで複雑な分子画像の特徴を抽出し、化学規則を組み合わせて原子と結合を予測し、原子と結合配置の規則を理解している。 さらに、モデルの堅牢性と性能を大幅に向上させるために、一連の新しい拡張アルゴリズムを採用している。

In the field of chemical structure recognition, the task of converting molecular images into graph structures and SMILES string stands as a significant challenge, primarily due to the varied drawing styles and conventions prevalent in chemical literature. To bridge this gap, we proposed MolNexTR, a novel image-to-graph deep learning model that collaborates to fuse the strengths of ConvNext, a powerful Convolutional Neural Network variant, and Vision-TRansformer. This integration facilitates a more nuanced extraction of both local and global features from molecular images. MolNexTR can predict atoms and bonds simultaneously and understand their layout rules. It also excels at flexibly integrating symbolic chemistry principles to discern chirality and decipher abbreviated structures. We further incorporate a series of advanced algorithms, including improved data augmentation module, image contamination module, and a post-processing module to get the final SMILES output. These modules synergistically enhance the model's robustness against the diverse styles of molecular imagery found in real literature. In our test sets, MolNexTR has demonstrated superior performance, achieving an accuracy rate of 81-97%, marking a significant advancement in the domain of molecular structure recognition. Scientific contribution: MolNexTR is a novel image-to-graph model that incorporates a unique dual-stream encoder to extract complex molecular image features, and combines chemical rules to predict atoms and bonds while understanding atom and bond layout rules. In addition, it employs a series of novel augmentation algorithms to significantly enhance the robustness and performance of the model.
翻訳日:2024-03-11 10:38:01 公開日:2024-03-08