このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231125となっている論文です。

PDF登録状況(公開日: 20231125)

TitleAuthorsAbstract論文公表日・翻訳日
# 精密農業:機械学習とセンチネル2衛星画像を用いた作物マッピング

Precision Agriculture: Crop Mapping using Machine Learning and Sentinel-2 Satellite Imagery ( http://arxiv.org/abs/2403.09651v1 )

ライセンス: Link先を確認
Kui Zhao, Siyang Wu, Chang Liu, Yue Wu, Natalia Efremova, (参考訳) 気候変動と温暖化の影響により、食料安全保障の重要性が高まっている。 農作物の需要増加を支え、気候変動や大量栽培の負の影響を最小限に抑えるため、精密農業は作物栽培にとってますます重要になっている。 本研究では,Sentinel-2衛星画像から抽出した様々なスペクトル帯域の組み合わせを用いて,精密農業のためのラベンダーフィールドを高精度に分割するために,ディープラーニングと画素ベース機械学習手法を用いた。 我々の微調整最終モデルであるU-Netアーキテクチャは、Dice係数 0.8324 を達成することができる。 さらに,本課題における画素法とRGBスペクトルバンドの組み合わせの予期せぬ有効性について検討した。

Food security has grown in significance due to the changing climate and its warming effects. To support the rising demand for agricultural products and to minimize the negative impact of climate change and mass cultivation, precision agriculture has become increasingly important for crop cultivation. This study employs deep learning and pixel-based machine learning methods to accurately segment lavender fields for precision agriculture, utilizing various spectral band combinations extracted from Sentinel-2 satellite imagery. Our fine-tuned final model, a U-Net architecture, can achieve a Dice coefficient of 0.8324. Additionally, our investigation highlights the unexpected efficacy of the pixel-based method and the RGB spectral band combination in this task.
翻訳日:2024-03-25 08:06:28 公開日:2023-11-25
# 公開鍵暗号におけるグループのサブセット

Subsets of groups in public-key cryptography ( http://arxiv.org/abs/2311.15039v1 )

ライセンス: Link先を確認
André Carvalho, António Malheiro, (参考訳) 公開鍵暗号における部分群の代わりに代数部分集合の使用を提案する。 特に、Shpilrain と Ushakov が導入した2つのプロトコルのサブセット版を、自由アーベル群の HNN-拡張の上昇におけるいくつかの例を示し、長さと距離に基づく攻撃に対する抵抗について論じる。 また,本研究から生じる新たなグループ理論問題についても紹介する。

We suggest the usage of algebraic subsets instead of subgroups in public-key cryptography. In particular, we present the subset version of two protocols introduced by Shpilrain and Ushakov with some examples in ascending HNN-extensions of free-abelian groups and discuss their resistance to length and distance based attacks. We also introduce several new group theoretic problems arising from this work.
翻訳日:2024-03-18 15:51:52 公開日:2023-11-25
# 時系列エネルギー消費クラスタリングのためのハイブリッドSOMとK平均モデル

A Hybrid SOM and K-means Model for Time Series Energy Consumption Clustering ( http://arxiv.org/abs/2312.11475v1 )

ライセンス: Link先を確認
Farideh Majidi(参考訳) エネルギー消費分析は持続可能性と資源管理の課題に取り組む上で重要な役割を果たしている。 本稿では,2つの強力な手法である自己組織化マップとk-meansクラスタリングを統合することにより,月々のエネルギー消費パターンを効果的にクラスタ化する新しい手法を提案する。 提案手法は,これら2つのアルゴリズムの利点を生かして,パターン発見が難しいデータセットのクラスタリング結果の精度と解釈性を高めることを目的としている。 この研究の主な焦点は、ロンドンのデータセットにあるsmartmeterから時系列エネルギー消費データを選択することである。 データは前処理され、基礎構造を維持しながら重要な時間パターンを捉えるために次元が縮小された。 SOMアルゴリズムを用いて,毎月各世帯の消費パターンの中央表現を抽出し,データセットの次元性を効果的に低減し,分析を容易にする。 その後、得られたSOMセントロイドをK平均でクラスタリングした。 実験の結果,66%のシルエットスコアが得られ,クラスタ内凝集とクラスタ間分離が強く,クラスタリング作業における提案手法の有効性が確認された。

Energy consumption analysis plays a pivotal role in addressing the challenges of sustainability and resource management. This paper introduces a novel approach to effectively cluster monthly energy consumption patterns by integrating two powerful techniques: Self-organizing maps and K-means clustering. The proposed method aims to exploit the benefits of both of these algorithms to enhance the accuracy and interpretability of clustering results for a dataset in which finding patterns is difficult. The main focus of this study is on a selection of time series energy consumption data from the Smart meters in London dataset. The data was preprocessed and reduced in dimensionality to capture essential temporal patterns while retaining their underlying structures. The SOM algorithm was utilized to extract the central representatives of the consumption patterns for each one of the houses over the course of each month, effectively reducing the dimensionality of the dataset and making it easier for analysis. Subsequently, the obtained SOM centroids were clustered using K-means, a popular centroid-based clustering technique. The experimental results demonstrated a significant silhouette score of 66%, indicating strong intra-cluster cohesion and inter-cluster separation which confirms the effectiveness of the proposed approach in the clustering task.
翻訳日:2024-01-15 13:36:47 公開日:2023-11-25
# 新しいオンラインコミュニティ - 匿名投票ネットワークにおけるグラフ深層学習による多元的ガバナンスの脆弱性の特定

New Online Communities: Graph Deep Learning on Anonymous Voting Networks to Identify Sybils in Polycentric Governance ( http://arxiv.org/abs/2311.17929v1 )

ライセンス: Link先を確認
Quinn DuPont(参考訳) 本研究では、分散自治機構(DAO)におけるデジタル資産の多元的ガバナンスについて検討する。 理論的な枠組みを提供し、シビルや急激なアイデンティティを識別する手法を開発することによって、分散型ガバナンスに直面する重要な課題に対処する。 この手法は、DAOガバナンスデータセット(snapshot.org)のシビルアクティビティをグラフ深層学習技術を用いて識別する。 特に、グラフ畳み込みニューラルネットワーク(GCNN)は投票行動を学び、高速なk平均ベクトルクラスタリングアルゴリズム(FAISS)はグラフ内の類似ノードを特定するために高次元埋め込みを使用した。 その結果、ディープラーニングはシビルを効果的に識別し、投票グラフを2-5%削減できることがわかった。 この研究は、DAOにおけるシビル抵抗の重要性を浮き彫りにして、分散ガバナンス、将来の政策、規制、ガバナンスの実践について新しい視点を提供する。

This research examines the polycentric governance of digital assets in Decentralized Autonomous Organizations (DAOs). It offers a theoretical framework and addresses a critical challenge facing decentralized governance by developing a method to identify sybils, or spurious identities. The method uses graph deep learning techniques to identify sybil activity in a DAO governance dataset (snapshot.org). Specifically, a Graph Convolutional Neural Network (GCNN) learned voting behaviours and a fast k-means vector clustering algorithm (FAISS) used the high dimensional embeddings to identify similar nodes in a graph. The results reveal that deep learning can effectively identify sybils, reducing the voting graph by 2-5%. This research underscores the importance of sybil resistance in DAOs and offers a novel perspective on decentralized governance, informing future policy, regulation, and governance practices.
翻訳日:2023-12-03 13:09:43 公開日:2023-11-25
# 集団カウントにおけるグローバルコンテキストの再考

Rethinking Global Context in Crowd Counting ( http://arxiv.org/abs/2105.10926v2 )

ライセンス: Link先を確認
Guolei Sun, Yun Liu, Thomas Probst, Danda Pani Paudel, Nikola Popovic, Luc Van Gool(参考訳) 本稿では,群衆数におけるグローバルコンテキストの役割について検討する。 具体的には、重なり合う画像パッチからグローバル情報で特徴を抽出するために純粋変換器を用いる。 分類により、入力シーケンスにコンテキストトークンを追加し、トランスフォーマー層全体にわたる画像パッチに対応するトークンとの情報交換を容易にする。 トランスフォーマーは、試行錯誤のチャネルワイドインタラクションを明示的にモデル化していないため、コンテクストトークンによって通知されるチャネルワイドアテンションを通じて符号化された特徴を再検討するトークンアテンションモジュール(TAM)を提案する。 さらに、回帰分岐モジュール(rtm)によって画像の総人物数を予測するために採用されている。 hanghaiTech、UCF-QNRF、JHU-CROWD++、NWPUなど、さまざまなデータセットに対する大規模な実験により、提案したコンテキスト抽出技術がベースラインよりも性能を大幅に向上することを示した。

This paper investigates the role of global context for crowd counting. Specifically, a pure transformer is used to extract features with global information from overlapping image patches. Inspired by classification, we add a context token to the input sequence, to facilitate information exchange with tokens corresponding to image patches throughout transformer layers. Due to the fact that transformers do not explicitly model the tried-and-true channel-wise interactions, we propose a token-attention module (TAM) to recalibrate encoded features through channel-wise attention informed by the context token. Beyond that, it is adopted to predict the total person count of the image through regression-token module (RTM). Extensive experiments on various datasets, including ShanghaiTech, UCF-QNRF, JHU-CROWD++ and NWPU, demonstrate that the proposed context extraction techniques can significantly improve the performance over the baselines.
翻訳日:2023-11-30 18:15:38 公開日:2023-11-25
# 弱減衰平均場ランジュバンダイナミクスのエルゴード性

Ergodicity of the underdamped mean-field Langevin dynamics ( http://arxiv.org/abs/2007.14660v3 )

ライセンス: Link先を確認
Anna Kazeykina, Zhenjie Ren, Xiaolu Tan, Junjian Yang(参考訳) 本研究では, アンダーダムド平均場ランゲヴィン(MFL)方程式の長期挙動について検討し, 一般収束と, 異なる条件下での指数収束率を求める。 mfl方程式の結果は、過パラメータ最適化のためのハミルトン勾配降下アルゴリズムの収束を研究するために応用できる。 次に,gan(generative adversarial networks)を訓練するアルゴリズムの数値例を示す。

We study the long time behavior of an underdamped mean-field Langevin (MFL) equation, and provide a general convergence as well as an exponential convergence rate result under different conditions. The results on the MFL equation can be applied to study the convergence of the Hamiltonian gradient descent algorithm for the overparametrized optimization. We then provide a numerical example of the algorithm to train a generative adversarial networks (GAN).
翻訳日:2023-11-30 18:13:54 公開日:2023-11-25
# ワンショット参照による自己監督顔画像復元

Self-Supervised Face Image Restoration with a One-Shot Reference ( http://arxiv.org/abs/2203.03005v3 )

ライセンス: Link先を確認
Yanhui Guo, Fangzhou Luo, Shaoyuan Xu(参考訳) 画像復元のために, 生成モデルから先行情報を活用する手法が提案され, 光現実性と高品質な結果を確実に復元する有望な能力を示した。 しかし、これらの手法は、特に顔画像のような明らかに正しい意味を持つ画像において、意味曖昧さの影響を受けやすい。 本稿では,画像復元のための意味認識型潜在空間探索手法(sair)を提案する。 与えられた参照画像からセマンティック情報を明示的にモデル化することにより、sairは、高度で高精細な外観だけでなく、セマンティクスの修正も確実に行うことができる。 定量的および定性的な実験は、提案したSAIRの優れた性能を総合的に示す。 私たちのコードはhttps://github.com/liamkuo/sairで利用可能です。

For image restoration, methods leveraging priors from generative models have been proposed and demonstrated a promising capacity to robustly restore photorealistic and high-quality results. However, these methods are susceptible to semantic ambiguity, particularly with images that have obviously correct semantics such as facial images. In this paper, we propose a semantic-aware latent space exploration method for image restoration (SAIR). By explicitly modeling semantics information from a given reference image, SAIR is able to reliably restore severely degraded images not only to high-resolution and highly realistic looks but also to correct semantics. Quantitative and qualitative experiments collectively demonstrate the superior performance of the proposed SAIR. Our code is available at https://github.com/Liamkuo/SAIR.
翻訳日:2023-11-30 18:07:01 公開日:2023-11-25
# カーネル正規化畳み込みネットワーク

Kernel Normalized Convolutional Networks ( http://arxiv.org/abs/2205.10089v3 )

ライセンス: Link先を確認
Reza Nasirigerdeh, Reihaneh Torkzadehmahani, Daniel Rueckert, Georgios Kaissis(参考訳) 既存の畳み込みニューラルネットワークアーキテクチャは、モデルを効果的にトレーニングするためにバッチ正規化(BatchNorm)に依存することが多い。 しかし、BatchNormは小さなバッチサイズではパフォーマンスが悪く、差分プライバシーには適用できない。 これらの制限に対処するために、カーネル正規化とカーネル正規化畳み込み層を提案し、それらをカーネル正規化畳み込みネットワーク(knconvnets)にメインビルディングブロックとして組み込む。 我々は、BatchNormレイヤを転送しながら、最先端のResNetに対応するKNConvNetを実装します。 画像分類やセマンティクスセグメンテーションにおいて,knconvnetsはバッチノルムに比べて高い,あるいは競争的な性能を発揮することを示す。 彼らはまた、非プライベートおよび微分プライベートトレーニングにおいて、レイヤーやグループ正規化を含むバッチ非依存の競争相手を著しく上回る。 KNConvNetsは、レイヤのバッチ独立性とグループ正規化と、BatchNormのパフォーマンス上の利点を組み合わせたものだ。

Existing convolutional neural network architectures frequently rely upon batch normalization (BatchNorm) to effectively train the model. BatchNorm, however, performs poorly with small batch sizes, and is inapplicable to differential privacy. To address these limitations, we propose kernel normalization and kernel normalized convolutional layers, and incorporate them into kernel normalized convolutional networks (KNConvNets) as the main building blocks. We implement KNConvNets corresponding to the state-of-the-art ResNets while forgoing BatchNorm layers. Through extensive experiments, we illustrate KNConvNets achieve higher or competitive performance compared to the BatchNorm counterparts in image classification and semantic segmentation. They also significantly outperform their batch-independent competitors including layer and group normalization in non-private and differentially private training. Given that, KNConvNets combine the batch-independence property of layer and group normalization with the performance advantage of BatchNorm.
翻訳日:2023-11-30 17:52:58 公開日:2023-11-25
# 視覚的ドローン群を用いた協調目標探索--適応型カリキュラム組込み多段階強化学習アプローチ

Collaborative Target Search with a Visual Drone Swarm: An Adaptive Curriculum Embedded Multistage Reinforcement Learning Approach ( http://arxiv.org/abs/2204.12181v3 )

ライセンス: Link先を確認
Jiaping Xiao, Phumrapee Pisutsin and Mir Feroskhan(参考訳) 災害救助やスマートウェアハウス配送システムへの応用には,ターゲット探索機能を備えたドローンの取得が極めて望ましい。 複数のインテリジェントドローンが互いに協力し、障害物間を操縦することで、タスクを短時間で達成する効果が向上する。 しかし、特に視覚ドローン群では、事前の目標情報のない協調目標探索(CTS)の実行は非常に困難である。 本研究では,適応型多段階学習(ACEMSL)と呼ばれるデータ効率の高い深層強化学習(DRL)手法を提案し,これらの課題に対処する。 具体的には, CTSタスクを個別の障害物回避, 対象探索, エージェント間協調などのサブタスクに分解し, 多段階学習でエージェントを段階的に訓練する。 一方、適応型組込みカリキュラム(AEC)を設計し、トレーニングで達成した成功率(SR)に基づいてタスク難易度(TDL)を適応的に調整することができる。 ACEMSLは、視覚ドローン群に対するデータ効率のトレーニングとチーム毎の報酬割り当てを可能にする。 さらに、トレーニングされたモデルを実際の視覚ドローン群にデプロイし、微調整なしでCTS操作を行う。 大規模なシミュレーションと実世界の飛行試験はACEMSLの有効性と一般化性を検証する。 このプロジェクトはhttps://github.com/NTU-UAVG/CTS-visual-drone-swarm.gitで入手できる。

Equipping drones with target search capabilities is highly desirable for applications in disaster rescue and smart warehouse delivery systems. Multiple intelligent drones that can collaborate with each other and maneuver among obstacles show more effectiveness in accomplishing tasks in a shorter amount of time. However, carrying out collaborative target search (CTS) without prior target information is extremely challenging, especially with a visual drone swarm. In this work, we propose a novel data-efficient deep reinforcement learning (DRL) approach called adaptive curriculum embedded multistage learning (ACEMSL) to address these challenges, mainly 3-D sparse reward space exploration with limited visual perception and collaborative behavior requirements. Specifically, we decompose the CTS task into several subtasks including individual obstacle avoidance, target search, and inter-agent collaboration, and progressively train the agents with multistage learning. Meanwhile, an adaptive embedded curriculum (AEC) is designed, where the task difficulty level (TDL) can be adaptively adjusted based on the success rate (SR) achieved in training. ACEMSL allows data-efficient training and individual-team reward allocation for the visual drone swarm. Furthermore, we deploy the trained model over a real visual drone swarm and perform CTS operations without fine-tuning. Extensive simulations and real-world flight tests validate the effectiveness and generalizability of ACEMSL. The project is available at https://github.com/NTU-UAVG/CTS-visual-drone-swarm.git.
翻訳日:2023-11-30 17:52:21 公開日:2023-11-25
# 光合成エネルギー移動による結合共振器の光非線形性

Optical Non-Reciprocity in Coupled Resonators Inspired by Photosynthetic Energy Transfer ( http://arxiv.org/abs/2208.05841v2 )

ライセンス: Link先を確認
Yi-Xuan Yao and Qing Ai(参考訳) 光合成エネルギー伝達プロセスに着想を得て,結合共振器のアレイにおける非相互光伝送を実現する手法を理論的に提案する。 結合共振器の光学的非相互性は、隣接キャビティ間の周波数勾配と、光合成エネルギー移動に類似した環境との相互作用から生じる。 周波数勾配の増大やキャビティの数の増加により、非相反性が向上する可能性がある。 しかし、より高い環境温度では結合したキャビティの光子数を増加させるが、非相反性は弱まる。 これらの結果は、詳細なバランスによってよく説明できる。 自然光合成におけるノイズ誘起光非相反性と励起子エネルギー移動の類似性を明らかにする。

Inspired by the photosynthetic energy transfer process, we theoretically propose a method to realize non-reciprocal optical transmission in an array of coupled resonators. The optical non-reciprocity of the coupled resonators arises from the frequency gradient between adjacent cavities and the interaction with the environment, which is similar to photosynthetic energy transfer. An increase in the frequency gradient or the number of the cavities can lead to better non-reciprocity. However, although a higher environment temperature will increase the total photon number in the coupled cavities, non-reciprocity will be weakened. All these findings can be well described by the detailed balance. Our discovery reveals the similarity between the noise-induced optical non-reciprocity and exciton energy transfer in natural photosynthesis.
翻訳日:2023-11-30 17:43:23 公開日:2023-11-25
# 低リソース言語における名前付きエンティティ認識におけるデータ破損の影響

The Impact of Data Corruption on Named Entity Recognition for Low-resourced Languages ( http://arxiv.org/abs/2208.04568v2 )

ライセンス: Link先を確認
Manuel Fokam, Michael Beukman(参考訳) データ可用性と品質は、低リソース言語の自然言語処理において大きな課題である。 特に、高リソースの言語よりもはるかに少ないデータがある。 このデータは、しばしば品質が低く、エラーや不正なテキスト、誤ったアノテーションに悩まされる。 多くの先行研究は、合成データを生成するか、データセットの低品質部分をフィルタリングすることで、これらの問題に対処することに焦点を当てている。 その代わりに、データ量と品質が低リソース環境での事前学習言語モデルの性能に与える影響を体系的に測定することで、これらの要因をより深く研究する。 以上の結果から,完全ラベル付き文の少ない文の方がラベルの少ない文よりも格段に良い結果が得られ,トレーニングデータの10%に過ぎなかったモデルでは極めて良好な結果が得られた。 重要なことに、これらの結果は10の低リソース言語、英語、および4つの事前訓練されたモデルで一致している。

Data availability and quality are major challenges in natural language processing for low-resourced languages. In particular, there is significantly less data available than for higher-resourced languages. This data is also often of low quality, rife with errors, invalid text or incorrect annotations. Many prior works focus on dealing with these problems, either by generating synthetic data, or filtering out low-quality parts of datasets. We instead investigate these factors more deeply, by systematically measuring the effect of data quantity and quality on the performance of pre-trained language models in a low-resourced setting. Our results show that having fewer completely-labelled sentences is significantly better than having more sentences with missing labels; and that models can perform remarkably well with only 10% of the training data. Importantly, these results are consistent across ten low-resource languages, English, and four pre-trained models.
翻訳日:2023-11-30 17:43:10 公開日:2023-11-25
# 永続ホモロジーのための$k$-Meansクラスタリング

$k$-Means Clustering for Persistent Homology ( http://arxiv.org/abs/2210.10003v4 )

ライセンス: Link先を確認
Yueqi Cao, Prudence Leung, Anthea Monod(参考訳) 永続ホモロジー(Persistent homology)は、データセット内のトポロジ的特徴を永続化ダイアグラムとして抽出し要約するトポロジ的データ分析の中心となる方法論である。 しかし、その代数的構成は、非常に複雑な幾何学を持つ永続図形の計量空間を誘導する。 本稿では,永続図空間上での$k$-meansクラスタリングアルゴリズムの収束を証明し,karush-kuhn-tuckerフレームワークにおける最適化問題に対する解の理論的性質を確立する。 さらに, 持続的ホモロジーの表現に関する数値実験を行い, 永続性図の埋め込みや, 持続性尺度としてのダイアグラムの一般化などを行い, 持続性図上でのクラスタリング性能を$k$-means で評価し, ベクトル化表現よりも優れていることを示した。

Persistent homology is a methodology central to topological data analysis that extracts and summarizes the topological features within a dataset as a persistence diagram; it has recently gained much popularity from its myriad successful applications to many domains. However, its algebraic construction induces a metric space of persistence diagrams with a highly complex geometry. In this paper, we prove convergence of the $k$-means clustering algorithm on persistence diagram space and establish theoretical properties of the solution to the optimization problem in the Karush--Kuhn--Tucker framework. Additionally, we perform numerical experiments on various representations of persistent homology, including embeddings of persistence diagrams as well as diagrams themselves and their generalizations as persistence measures; we find that $k$-means clustering performance directly on persistence diagrams and measures outperform their vectorized representations.
翻訳日:2023-11-30 17:32:24 公開日:2023-11-25
# rppg-toolbox: 深いリモートppgツールボックス

rPPG-Toolbox: Deep Remote PPG Toolbox ( http://arxiv.org/abs/2210.00716v3 )

ライセンス: Link先を確認
Xin Liu, Girish Narayanswamy, Akshay Paruchuri, Xiaoyu Zhang, Jiankai Tang, Yuzhe Zhang, Soumyadip Sengupta, Shwetak Patel, Yuntao Wang, Daniel McDuff(参考訳) カメラに基づく生理学的測定はコンピュータビジョンの急速に成長する分野である。 RPPG(Remote Photoplethysmography)は、画像装置(例えばカメラ)を用いて、光胸腺撮影により末梢血量パルス(BVP)を測定し、ウェブカメラやスマートフォンによる心臓測定を可能にする。 しかし、そのタスクは、最先端の結果を得るために必要となる、重要な前処理、モデリング、後処理ステップを持つ非自明である。 結果のレプリケーションと新しいモデルのベンチマークは、科学的な進歩には不可欠であるが、ディープラーニングの他の多くのアプリケーションと同様、信頼できるコードベースは発見や使用が容易ではない。 我々は、公開ベンチマークデータセット、データ拡張、体系的評価をサポートする、教師なしおよび教師なしのrPPGモデルを含む包括的なツールボックス、rPPG-Toolboxを提案する。

Camera-based physiological measurement is a fast growing field of computer vision. Remote photoplethysmography (rPPG) utilizes imaging devices (e.g., cameras) to measure the peripheral blood volume pulse (BVP) via photoplethysmography, and enables cardiac measurement via webcams and smartphones. However, the task is non-trivial with important pre-processing, modeling, and post-processing steps required to obtain state-of-the-art results. Replication of results and benchmarking of new models is critical for scientific progress; however, as with many other applications of deep learning, reliable codebases are not easy to find or use. We present a comprehensive toolbox, rPPG-Toolbox, that contains unsupervised and supervised rPPG models with support for public benchmark datasets, data augmentation, and systematic evaluation: \url{https://github.com/ubicomplab/rPPG-Toolbox}
翻訳日:2023-11-30 17:29:15 公開日:2023-11-25
# autows-bench-101:100ラベルによる自動弱い監督

AutoWS-Bench-101: Benchmarking Automated Weak Supervision with 100 Labels ( http://arxiv.org/abs/2208.14362v2 )

ライセンス: Link先を確認
Nicholas Roberts, Xintong Li, Tzu-Heng Huang, Dyah Adila, Spencer Schoenberg, Cheng-Yu Liu, Lauren Pick, Haotian Ma, Aws Albarghouthi, Frederic Sala(参考訳) 弱監視(WS)はラベル付きデータセットを構築するための強力な手法であり、ラベル付きデータに対して教師付きモデルをトレーニングする。 ハンドラベルデータを、ラベル機能(lfs)で表現された複数のノイズ・ボタン・チープラベル推定値に置き換える。 多くのドメインでうまく使われているが、複雑なまたは高次元の特徴を持つドメインのラベリング関数を構築することの難しさにより、弱い監督のアプリケーションスコープは制限されている。 これを解決するために、少数の手法が、小さな基底真理ラベルを用いてLF設計プロセスを自動化することを提案した。 本稿では、従来のWS技術の適用がこれまで困難あるいは不可能であった様々なアプリケーションドメインのセットであるWS設定に挑戦する上で、自動化WS(AutoWS)テクニックを評価するためのフレームワークであるAutoWS-Bench-101を紹介します。 AutoWS は、WS のアプリケーションスコープの拡大に向けた有望な方向であるが、ゼロショット基礎モデルのような強力なメソッドの出現は、AutoWS の技術が現代のゼロショットや少数ショットの学習者とどのように比較または協力するかを理解する必要があることを示している。 このことはAutoWS-Bench-101の中心的な問題である: 各タスクに100のラベルの初期セットが与えられたら、実践者はAutoWSメソッドを使って追加のラベルを生成するべきか、あるいは基礎モデルのゼロショット予測や教師付き学習のようなより単純なベースラインを使うべきかを問う。 多くの環境では、autowsメソッドが基礎モデルからの信号を取り込む必要があると観察し、autows-bench-101はこの方向の将来の研究を促進する。 我々はAutoWS手法の徹底的なアブレーション研究を結論付けている。

Weak supervision (WS) is a powerful method to build labeled datasets for training supervised models in the face of little-to-no labeled data. It replaces hand-labeling data with aggregating multiple noisy-but-cheap label estimates expressed by labeling functions (LFs). While it has been used successfully in many domains, weak supervision's application scope is limited by the difficulty of constructing labeling functions for domains with complex or high-dimensional features. To address this, a handful of methods have proposed automating the LF design process using a small set of ground truth labels. In this work, we introduce AutoWS-Bench-101: a framework for evaluating automated WS (AutoWS) techniques in challenging WS settings -- a set of diverse application domains on which it has been previously difficult or impossible to apply traditional WS techniques. While AutoWS is a promising direction toward expanding the application-scope of WS, the emergence of powerful methods such as zero-shot foundation models reveals the need to understand how AutoWS techniques compare or cooperate with modern zero-shot or few-shot learners. This informs the central question of AutoWS-Bench-101: given an initial set of 100 labels for each task, we ask whether a practitioner should use an AutoWS method to generate additional labels or use some simpler baseline, such as zero-shot predictions from a foundation model or supervised learning. We observe that in many settings, it is necessary for AutoWS methods to incorporate signal from foundation models if they are to outperform simple few-shot baselines, and AutoWS-Bench-101 promotes future research in this direction. We conclude with a thorough ablation study of AutoWS methods.
翻訳日:2023-11-30 17:27:09 公開日:2023-11-25
# 長期記憶ネットワークを用いたコロナホール領域の予測モデル

Predictive Modeling of Coronal Hole Areas Using Long Short-Term Memory Networks ( http://arxiv.org/abs/2301.06732v6 )

ライセンス: Link先を確認
Juyoung Yun(参考訳) 宇宙探査の時代には、宇宙の天気の影響がますます明白になっている。 これの中心はコロナホールの現象であり、衛星や航空機の機能に大きな影響を及ぼす可能性がある。 これらのコロナホールは、太陽上に存在し、オープン磁場線と比較的低温の温度によって区別され、太陽風が高速度で放出される。 これらのコロナホールが地球に与える影響を予測すべく、本研究ではコンピュータビジョンを用いてコロナホール領域を特定し、太陽動力学観測所(sdo)の画像を用いて次元を推定する。 さらに, 深層学習手法, 特にLong Short-Term Memory (LSTM) アプローチを展開し, コロナホールの面積に関するデータの動向を分析し, それらの次元を7日間にわたって予測する。 本研究は, コロナホールの面積に関する時系列データから, コロナホールの挙動のパターンを明らかにし, 宇宙気象への影響を解明することを目的とする。 この調査は、地球とその技術機器に影響を及ぼす可能性のある、宇宙天気の予報と観測能力を高めるための重要な一歩となる。

In the era of space exploration, the implications of space weather have become increasingly evident. Central to this is the phenomenon of coronal holes, which can significantly influence the functioning of satellites and aircraft. These coronal holes, present on the sun, are distinguished by their open magnetic field lines and comparatively cooler temperatures, leading to the emission of solar winds at heightened rates. To anticipate the effects of these coronal holes on Earth, our study harnesses computer vision to pinpoint the coronal hole regions and estimate their dimensions using imagery from the Solar Dynamics Observatory (SDO). Further, we deploy deep learning methodologies, specifically the Long Short-Term Memory (LSTM) approach, to analyze the trends in the data related to the area of the coronal holes and predict their dimensions across various solar regions over a span of seven days. By evaluating the time series data concerning the area of the coronal holes, our research seeks to uncover patterns in the behavior of coronal holes and comprehend their potential influence on space weather occurrences. This investigation marks a pivotal stride towards bolstering our capacity to anticipate and brace for space weather events that could have ramifications for Earth and its technological apparatuses.
翻訳日:2023-11-30 17:05:06 公開日:2023-11-25
# ラウンドロビントーナメントにおけるEloレーティングアルゴリズムの確率解析

Stochastic analysis of the Elo rating algorithm in round-robin tournaments ( http://arxiv.org/abs/2212.12015v2 )

ライセンス: Link先を確認
Daniel Gomes de Pinho Zanco, Leszek Szczecinski, Eduardo Vinicius Kuhn, Rui Seara(参考訳) eloアルゴリズムはその単純さで有名であり、スポーツトーナメントなどでの評価に広く使われている。 しかし、広く使われているにもかかわらず、Eloアルゴリズムの収束特性の詳細な理解はいまだに欠けている。 本稿では,このギャップを埋めるため,ラウンドロビントーナメントを考慮したEloアルゴリズムの包括的(確率的)解析を行う。 具体的には、スキルとパフォーマンス指標の進化を記述する分析式が導出されます。 次に、アルゴリズムの挙動と、制御可能なハイパーパラメータであるステップサイズ値との関係を考慮して、アルゴリズムの性能に関する設計ガイドラインと議論を提供する。 イタリアバレーボールリーグのスーパーレガから得られた実世界データを用いて,分析の正確性を確認し,理論結果の適用性を示す実験結果を示した。

The Elo algorithm, renowned for its simplicity, is widely used for rating in sports tournaments and other applications. However, despite its widespread use, a detailed understanding of the convergence characteristics of the Elo algorithm is still lacking. Aiming to fill this gap, this paper presents a comprehensive (stochastic) analysis of the Elo algorithm, considering round-robin tournaments. Specifically, analytical expressions are derived describing the evolution of the skills and performance metrics. Then, taking into account the relationship between the behavior of the algorithm and the step-size value, which is a hyperparameter that can be controlled, design guidelines and discussions about the performance of the algorithm are provided. Experimental results are shown confirming the accuracy of the analysis and illustrating the applicability of the theoretical findings using real-world data obtained from SuperLega, the Italian volleyball league.
翻訳日:2023-11-30 17:03:59 公開日:2023-11-25
# リーマン量子回路最適化によるハミルトンシミュレーション

Riemannian quantum circuit optimization for Hamiltonian simulation ( http://arxiv.org/abs/2212.07556v2 )

ライセンス: Link先を確認
Ayse Kotil, Rahul Banerjee, Qunsheng Huang, Christian B. Mendl(参考訳) ハミルトンシミュレーション、すなわち、ターゲット量子システムのリアルタイム進化をシミュレーションすることは、量子コンピューティングの自然な応用である。 トロッタースズキ分割法は対応する量子回路を生成することができるが、忠実な近似は比較的深い回路につながる。 ここでは、変換不変系の場合、そのような回路トポロジのゲートを古典的なコンピュータに最適化して回路深さを減らし、精度を向上できるという知見から始める。 本研究ではテンソルネットワーク手法を用いて,ユニタリ行列多様体上のリーマン信頼領域アルゴリズムに基づく手法を考案する。 一次元格子上のIsingとHeisenbergのモデルでは、4階分割法に比べて精度が大幅に向上する。 最適化された回路は、時間進化ブロックデシミテーション(TEBD)アルゴリズムにも実用的に利用できる。

Hamiltonian simulation, i.e., simulating the real time evolution of a target quantum system, is a natural application of quantum computing. Trotter-Suzuki splitting methods can generate corresponding quantum circuits; however, a faithful approximation can lead to relatively deep circuits. Here we start from the insight that for translation invariant systems, the gates in such circuit topologies can be further optimized on classical computers to decrease the circuit depth and/or increase the accuracy. We employ tensor network techniques and devise a method based on the Riemannian trust-region algorithm on the unitary matrix manifold for this purpose. For the Ising and Heisenberg models on a one-dimensional lattice, we achieve orders of magnitude accuracy improvements compared to fourth-order splitting methods. The optimized circuits could also be of practical use for the time-evolving block decimation (TEBD) algorithm.
翻訳日:2023-11-30 17:02:10 公開日:2023-11-25
# 環境不変な線形最小正方形

Environment Invariant Linear Least Squares ( http://arxiv.org/abs/2303.03092v2 )

ライセンス: Link先を確認
Jianqing Fan, Cong Fang, Yihong Gu, Tong Zhang(参考訳) 本稿では,複数の実験環境からのデータを収集する多環境線形回帰モデルについて考察する。 応答変数と共変量の合同分布は異なる環境にまたがるが、未知の重要な変数の集合が与えられた場合、y$の条件付き期待値は不変である。 このような統計モデルは内在性、因果推論、移動学習の問題と関連している。 その背後にある動機は、予測と帰属という目標が、真のパラメータと重要な変数集合を推定することの本質であることを示している。 実パラメータを決定するために,上記の条件付き予測不変構造と異質性を利用する線形最小二乗回帰のマルチ環境バージョンである,新しい環境不変線形最小二乗関数(EILLS)を構築する。 提案手法は, 構造的知識を必要とせず, 最小の同定条件下で真のパラメータを同定できる。 我々は、スプリアス変数の存在下でのEILLS推定器の推定誤差に基づいて、非漸近$\ell_2$エラー境界を確立する。 さらに、$\ell_0$ のペナル化 EILLS 推定器は高次元アレーにおける可変選択整合性を達成することができることを示す。 これらの非漸近的な結果は、EILLS推定器のサンプル効率と、事前の構造知識のないアルゴリズム的な方法で内在性の呪いを回避する能力を示している。 本論文は,一般線形モデルにおいて統計的に効率的な不変性学習を実現する最初の方法である。

This paper considers a multi-environment linear regression model in which data from multiple experimental settings are collected. The joint distribution of the response variable and covariates may vary across different environments, yet the conditional expectations of $y$ given the unknown set of important variables are invariant. Such a statistical model is related to the problem of endogeneity, causal inference, and transfer learning. The motivation behind it is illustrated by how the goals of prediction and attribution are inherent in estimating the true parameter and the important variable set. We construct a novel environment invariant linear least squares (EILLS) objective function, a multi-environment version of linear least-squares regression that leverages the above conditional expectation invariance structure and heterogeneity among different environments to determine the true parameter. Our proposed method is applicable without any additional structural knowledge and can identify the true parameter under a near-minimal identification condition. We establish non-asymptotic $\ell_2$ error bounds on the estimation error for the EILLS estimator in the presence of spurious variables. Moreover, we further show that the $\ell_0$ penalized EILLS estimator can achieve variable selection consistency in high-dimensional regimes. These non-asymptotic results demonstrate the sample efficiency of the EILLS estimator and its capability to circumvent the curse of endogeneity in an algorithmic manner without any prior structural knowledge. To the best of our knowledge, this paper is the first to realize statistically efficient invariance learning in the general linear model.
翻訳日:2023-11-30 16:53:39 公開日:2023-11-25
# IRFL:図形言語の画像認識

IRFL: Image Recognition of Figurative Language ( http://arxiv.org/abs/2303.15445v3 )

ライセンス: Link先を確認
Ron Yosef, Yonatan Bitton, Dafna Shahaf(参考訳) 比喩、シミュレート、イディオムなどの音声の図は人間のコミュニケーションの不可欠な部分である。 それらは様々な形態の言論においてユビキタスであり、人々は複雑な抽象的な考えを伝え、感情を誘発することができる。 図形形式はしばしば複数のモダリティ(テキストと画像の両方)を通して伝達されるため、多モーダルな図形言語を理解することは重要なAI課題であり、深いビジョン、言語、常識、文化的知識を織り合わせている。 本研究では,IRFL(Image Recognition of Figurative Language)データセットの開発を行う。 人間のアノテーションと自動パイプラインを利用して、マルチモーダルデータセットを生成し、マルチモーダル・フィギュラティブ言語理解のためのベンチマークとして2つの新しいタスクを導入する。 我々は最先端のビジョンと言語モデルを実験し、最高の(22%)は人間(97%)よりもかなり悪い結果が得られた。 私たちは、図形言語をよりよく理解できるモデルの開発を推進するために、データセット、ベンチマーク、コードをリリースしています。

Figures of speech such as metaphors, similes, and idioms are integral parts of human communication. They are ubiquitous in many forms of discourse, allowing people to convey complex, abstract ideas and evoke emotion. As figurative forms are often conveyed through multiple modalities (e.g., both text and images), understanding multimodal figurative language is an important AI challenge, weaving together profound vision, language, commonsense and cultural knowledge. In this work, we develop the Image Recognition of Figurative Language (IRFL) dataset. We leverage human annotation and an automatic pipeline we created to generate a multimodal dataset, and introduce two novel tasks as a benchmark for multimodal figurative language understanding. We experimented with state-of-the-art vision and language models and found that the best (22%) performed substantially worse than humans (97%). We release our dataset, benchmark, and code, in hopes of driving the development of models that can better understand figurative language.
翻訳日:2023-11-30 16:43:50 公開日:2023-11-25
# 高次元多目的問題に対するランクベース学習と局所モデルに基づく進化的アルゴリズム

Rank-Based Learning and Local Model Based Evolutionary Algorithm for High-Dimensional Expensive Multi-Objective Problems ( http://arxiv.org/abs/2304.09444v3 )

ライセンス: Link先を確認
Guodong Chen, Jiu Jimmy Jiao, Xiaoming Xue and Zhongzheng Wang(参考訳) 近年,複雑で計算コストのかかる多目的最適化問題を解くためにサロゲート支援進化アルゴリズムが広く開発されている。 しかし、高次元最適化問題を扱う場合、これらのサロゲート支援多目的進化アルゴリズムの性能は大幅に低下する。 本研究では,高次元高コスト多目的最適化問題に対して,新しい分類器支援のランクベース学習と局所モデルに基づく多目的進化アルゴリズム(CLMEA)を提案する。 提案アルゴリズムは,分類子支援のランクベース学習,ハイパーボリュームベース非支配探索,比較的少ない対象空間での局所探索の3つの部分からなる。 具体的には、確率論的ニューラルネットワークを分類器として構築し、子孫を複数のランクに分割する。 異なる階級の子孫はランクベースの学習戦略を用いて、実機能評価のためのより有望で有意義な候補を生成する。 次に、対象関数を近似する代理として放射基底関数ネットワークを構築する。 サーロゲートモデルに支援された非優位解を探索した後、高体積改善候補を実評価に選定する。 その後、溶液の多様性を維持するため、群集距離で測定した非支配溶液からの最も不確定なサンプルポイントを誘導親として選択し、前線の不確実領域にさらに侵入する。 地熱貯留層熱抽出最適化におけるベンチマーク問題と実世界の応用の実験結果から,提案アルゴリズムは現状のサロゲート支援多目的進化アルゴリズムと比較して優れた性能を示した。 この作業のソースコードはhttps://github.com/jellychen7/clmeaで入手できる。

Surrogate-assisted evolutionary algorithms have been widely developed to solve complex and computationally expensive multi-objective optimization problems in recent years. However, when dealing with high-dimensional optimization problems, the performance of these surrogate-assisted multi-objective evolutionary algorithms deteriorate drastically. In this work, a novel Classifier-assisted rank-based learning and Local Model based multi-objective Evolutionary Algorithm (CLMEA) is proposed for high-dimensional expensive multi-objective optimization problems. The proposed algorithm consists of three parts: classifier-assisted rank-based learning, hypervolume-based non-dominated search, and local search in the relatively sparse objective space. Specifically, a probabilistic neural network is built as classifier to divide the offspring into a number of ranks. The offspring in different ranks uses rank-based learning strategy to generate more promising and informative candidates for real function evaluations. Then, radial basis function networks are built as surrogates to approximate the objective functions. After searching non-dominated solutions assisted by the surrogate model, the candidates with higher hypervolume improvement are selected for real evaluations. Subsequently, in order to maintain the diversity of solutions, the most uncertain sample point from the non-dominated solutions measured by the crowding distance is selected as the guided parent to further infill in the uncertain region of the front. The experimental results of benchmark problems and a real-world application on geothermal reservoir heat extraction optimization demonstrate that the proposed algorithm shows superior performance compared with the state-of-the-art surrogate-assisted multi-objective evolutionary algorithms. The source code for this work is available at https://github.com/JellyChen7/CLMEA.
翻訳日:2023-11-30 16:31:13 公開日:2023-11-25
# 知人や友人、地図は領域ではない! マルチエージェントパラドックスにおける文脈性

Wigner and friends, a map is not the territory! Contextuality in multi-agent paradoxes ( http://arxiv.org/abs/2305.07792v2 )

ライセンス: Link先を確認
Sidiney B. Montanhano(参考訳) Wignerの友人やFrauchiger-Rennerのシナリオのようなマルチエージェントシナリオは、非古典的な形式主義がエージェント間の知識を扱う必要がある場合に矛盾する結果を示す。 このようなパラドックスは、古典論理の構造に反するものとしてマルチモーダル論理で記述される。 知識が信頼の概念と関係して扱われても、矛盾する結果はマルチエージェントのシナリオでも見ることができる。 文脈性は、局所的な一貫性がある場合でも、測定シナリオで定義された経験モデルにおけるグローバルな不整合を扱う。 本研究は,知識演算子を用いて,完全関係言語におけるシナリオを更に扱い,信頼が真理公理と等価であることを示すものである。 マルチモーダル論理のトポロジ的意味論を用いて, 測定シナリオをマルチエージェントシナリオに変換し, 相互知識を仮定することで, 論理的文脈性は音質違反と解釈できることを示す。 矛盾に対処するため、分散知識を仮定すると、このような違反は排除されるが、ラムダ依存のコストがかかる。 最後に、マルチエージェントシナリオの主要な例を経験的モデル表現に翻訳することで、文脈性は矛盾する結果の原因として特定される。

Multi-agent scenarios, like Wigner's friend and Frauchiger-Renner scenarios, can show contradictory results when a non-classical formalism must deal with the knowledge between agents. Such paradoxes are described with multi-modal logic as violations of the structure in classical logic. Even if knowledge is treated in a relational way with the concept of trust, contradictory results can still be found in multi-agent scenarios. Contextuality deals with global inconsistencies in empirical models defined on measurement scenarios even when there is local consistency. In the present work, we take a step further to treat the scenarios in full relational language by using knowledge operators, thus showing that trust is equivalent to the Truth Axiom. A translation of measurement scenarios into multi-agent scenarios by using the topological semantics of multi-modal logic is constructed, demonstrating that logical contextuality can be understood as the violation of soundness by supposing mutual knowledge. To address the contradictions, assuming distributed knowledge is considered, which eliminates such violations but at the cost of lambda dependence. Finally, by translating the main examples of multi-agent scenarios to their empirical model representation, contextuality is identified as the cause of their contradictory results.
翻訳日:2023-11-30 16:19:42 公開日:2023-11-25
# text2cohort:自然言語コホート発見による生体医学データへの直感的アクセスの促進

Text2Cohort: Facilitating Intuitive Access to Biomedical Data with Natural Language Cohort Discovery ( http://arxiv.org/abs/2305.07637v3 )

ライセンス: Link先を確認
Pranav Kulkarni, Adway Kanhere, Paul H. Yi, Vishwa S. Parekh(参考訳) imaging data commons(idc)はクラウドベースのデータベースで、研究者にがん画像データへのオープンアクセスを提供し、コラボレーションを促進することを目的としている。 しかし、IDCデータベース内のコホート発見は、重要な技術学習曲線を持っている。 近年、大規模言語モデル(llm)は自然言語処理タスクに例外的な有用性を示している。 我々は,idcにおけるユーザフレンドリーな自然言語コホート発見を容易にする,llmを活用したツールキットtext2cohortを開発した。 提案手法は,ユーザ入力をグラウンド手法を用いてIDCクエリに変換し,クエリの応答を返す。 情報抽出からコホート発見まで,50の自然言語入力に対するtext2cohortの評価を行った。 ツールキットは88%の精度と0.94のF1スコアで応答を生成できた。 text2cohortは、研究者がより直感的でユーザーフレンドリーな方法で自然言語を使用して、idc上のコホートを高い精度で発見し、キュレートすることができることを実証する。

The Imaging Data Commons (IDC) is a cloud-based database that provides researchers with open access to cancer imaging data, with the goal of facilitating collaboration. However, cohort discovery within the IDC database has a significant technical learning curve. Recently, large language models (LLM) have demonstrated exceptional utility for natural language processing tasks. We developed Text2Cohort, a LLM-powered toolkit to facilitate user-friendly natural language cohort discovery in the IDC. Our method translates user input into IDC queries using grounding techniques and returns the query's response. We evaluate Text2Cohort on 50 natural language inputs, from information extraction to cohort discovery. Our toolkit successfully generated responses with an 88% accuracy and 0.94 F1 score. We demonstrate that Text2Cohort can enable researchers to discover and curate cohorts on IDC with high levels of accuracy using natural language in a more intuitive and user-friendly way.
翻訳日:2023-11-30 16:18:52 公開日:2023-11-25
# 自然言語要件における匂いの自動検出と推薦

Automated Smell Detection and Recommendation in Natural Language Requirements ( http://arxiv.org/abs/2305.07097v2 )

ライセンス: Link先を確認
Alvaro Veizaga, Seung Yeob Shin, Lionel C. Briand(参考訳) 要求仕様は一般的に自然言語(NL)で記述されるが、それは複数のドメインにまたがるユーザビリティと、すべての利害関係者による理解性のためである。 しかし、非構造化nlは要求を書く際に品質の問題(例えばあいまいさ)を起こしやすいため、プロジェクトの失敗につながる可能性がある。 この問題に対処するため、我々はPaskaというツールを提案し、NL要求を入力として、要求の匂いとして品質問題を自動的に検出し、品質を改善するためのレコメンデーションを提供する。 提案手法は,要求(Rimay)に対する自然言語処理(NLP)技術と最先端制御自然言語(CNL)に依存し,匂いを検出し,要求品質を向上させるためにRimayで定義されたパターンを用いて推奨する。 13のシステムと2725のアノテート要件を含む金融分野での産業ケーススタディを通じてPaskaを評価した。 その結果,このツールは嗅覚検出 (89% の精度とリコール) と適切なリメイパターン推薦 (96% の精度と 94% のリコール) に有効であることがわかった。

Requirement specifications are typically written in natural language (NL) due to its usability across multiple domains and understandability by all stakeholders. However, unstructured NL is prone to quality problems (e.g., ambiguity) when writing requirements, which can result in project failures. To address this issue, we present a tool, named Paska, that takes as input any NL requirements, automatically detects quality problems as smells in the requirements, and offers recommendations to improve their quality. Our approach relies on natural language processing (NLP) techniques and a state-of-the-art controlled natural language (CNL) for requirements (Rimay), to detect smells and suggest recommendations using patterns defined in Rimay to improve requirement quality. We evaluated Paska through an industrial case study in the financial domain involving 13 systems and 2725 annotated requirements. The results show that our tool is accurate in detecting smells (89% precision and recall) and suggesting appropriate Rimay pattern recommendations (96% precision and 94% recall).
翻訳日:2023-11-30 16:18:23 公開日:2023-11-25
# GNN学習評価の不確実性:コミュニティ検出のための一貫性ベンチマークの重要性

Uncertainty in GNN Learning Evaluations: The Importance of a Consistent Benchmark for Community Detection ( http://arxiv.org/abs/2305.06026v5 )

ライセンス: Link先を確認
William Leeney, Ryan McConville(参考訳) グラフニューラルネットワーク(gnns)は、グラフの接続性と特徴情報空間の2次元性をエンコードする能力により、クラスタ化されたノードの教師なしのコミュニティ検出を改善した。 潜在コミュニティを特定することは、ソーシャルネットワークからゲノム学まで、多くの実用的な応用がある。 この課題におけるGNNの評価に影響を及ぼす様々な決定が原因で、現在の現実世界のパフォーマンスのベンチマークは混乱している。 そこで我々は,共通評価プロトコルを確立するためのフレームワークを提案する。 プロトコルの有無の違いを示すことによって、モチベーションと正当化を行います。 Wランダムネス係数(W Randomness Coefficient)は、アルゴリズムランキングの一貫性を評価し、ランダム性の存在下で結果の信頼性を定量化する指標である。 また,同じ評価基準に従うことで,本課題において報告された手法の性能と有意な差が生じる可能性があるが,より完全な評価と手法の比較が可能となる。

Graph Neural Networks (GNNs) have improved unsupervised community detection of clustered nodes due to their ability to encode the dual dimensionality of the connectivity and feature information spaces of graphs. Identifying the latent communities has many practical applications from social networks to genomics. Current benchmarks of real world performance are confusing due to the variety of decisions influencing the evaluation of GNNs at this task. To address this, we propose a framework to establish a common evaluation protocol. We motivate and justify it by demonstrating the differences with and without the protocol. The W Randomness Coefficient is a metric proposed for assessing the consistency of algorithm rankings to quantify the reliability of results under the presence of randomness. We find that by ensuring the same evaluation criteria is followed, there may be significant differences from the reported performance of methods at this task, but a more complete evaluation and comparison of methods is possible.
翻訳日:2023-11-30 16:18:04 公開日:2023-11-25
# ISLE:医療画像における高出力AI推論のためのインテリジェントストリーミングフレームワーク

ISLE: An Intelligent Streaming Framework for High-Throughput AI Inference in Medical Imaging ( http://arxiv.org/abs/2305.15617v2 )

ライセンス: Link先を確認
Pranav Kulkarni, Sean Garin, Adway Kanhere, Eliot Siegel, Paul H. Yi, Vishwa S. Parekh(参考訳) 臨床環境における人工知能(AI)システムの採用が増加するにつれて、帯域幅と計算の制限により、画像データのストリーミング時に通信ボトルネックが発生し、患者の治療が遅れ、コストが上昇する。 そのため、医療提供者やAIベンダーはより大きな計算インフラを必要とするため、コストは劇的に増加する。 そこで我々は,高スループット,計算量,帯域幅最適化,コスト効率のよいAI推論のためのインテリジェントストリーミングフレームワークISLEを開発した。 実験では、平均でデータ伝送量を98.02%削減し、復号化時間を98.09%削減し、スループットを2,730%向上させた。 我々は,aiシステムを用いた臨床意思決定に悪影響を及ぼすことなく,isleのターンアラウンド時間が速くなり,データ,送信,計算全体のコストが削減されることを示した。

As the adoption of Artificial Intelligence (AI) systems within the clinical environment grows, limitations in bandwidth and compute can create communication bottlenecks when streaming imaging data, leading to delays in patient care and increased cost. As such, healthcare providers and AI vendors will require greater computational infrastructure, therefore dramatically increasing costs. To that end, we developed ISLE, an intelligent streaming framework for high-throughput, compute- and bandwidth- optimized, and cost effective AI inference for clinical decision making at scale. In our experiments, ISLE on average reduced data transmission by 98.02% and decoding time by 98.09%, while increasing throughput by 2,730%. We show that ISLE results in faster turnaround times, and reduced overall cost of data, transmission, and compute, without negatively impacting clinical decision making using AI systems.
翻訳日:2023-11-30 16:09:38 公開日:2023-11-25
# ChatGPTのユーザ視点を探る:AI統合教育への応用, 知覚, 含意

Exploring User Perspectives on ChatGPT: Applications, Perceptions, and Implications for AI-Integrated Education ( http://arxiv.org/abs/2305.13114v3 )

ライセンス: Link先を確認
Reza Hadi Mogavi, Chao Deng, Justin Juho Kim, Pengyuan Zhou, Young D. Kwon, Ahmed Hosny Saleh Metwally, Ahmed Tlili, Simone Bassanelli, Antonio Bucchiarone, Sujit Gujar, Lennart E. Nacke, and Pan Hui(参考訳) 教育的に強力な、倫理的に健全なai統合学習環境の開発を促進するために、これらの文脈に没入したユーザの認識と経験を批判的に探究することが重要である。 本研究では,4つのソーシャルメディアプラットフォームにまたがる詳細な質的コンテンツ分析を行う。 私たちの目標は、さまざまな教育分野におけるChatGPTのユーザエクスペリエンス(UX)とアーリーアダプターの視点を理解することです。 本研究の結果から,ChatGPTは高等教育,K-12教育,実践的スキルトレーニングの領域でよく用いられている。 ソーシャルメディアの対話では、ChatGPTと最もよく関連するトピックは生産性、効率、倫理である。 ChatGPTに対するアーリーアダプターの態度は多面的である。 一方で、学生の自己効力感と学習意欲を増幅できる変革的ツールであると考えるユーザもいる。 一方で、関連するユーザの間では、ある程度の理解度がある。 彼らは、表向きの学習習慣を奨励し、学生の社会的・批判的な思考スキルを損なう恐れのあるAIシステムへの過度な依存を心配している。 この意見の二分は、教育の文脈における人間とAIの相互作用の複雑さを浮き彫りにする。 当社の調査は、ChatGPTや同様の生成AIツールを教育戦略に取り入れることを検討している教育者や学習者に、クラウドソースによる洞察を提供する。

To foster the development of pedagogically potent and ethically sound AI-integrated learning landscapes, it is pivotal to critically explore the perceptions and experiences of the users immersed in these contexts. In this study, we perform a thorough qualitative content analysis across four key social media platforms. Our goal is to understand the user experience (UX) and views of early adopters of ChatGPT across different educational sectors. The results of our research show that ChatGPT is most commonly used in the domains of higher education, K-12 education, and practical skills training. In social media dialogues, the topics most frequently associated with ChatGPT are productivity, efficiency, and ethics. Early adopters' attitudes towards ChatGPT are multifaceted. On one hand, some users view it as a transformative tool capable of amplifying student self-efficacy and learning motivation. On the other hand, there is a degree of apprehension among concerned users. They worry about a potential overdependence on the AI system, which they fear might encourage superficial learning habits and erode students' social and critical thinking skills. This dichotomy of opinions underscores the complexity of Human-AI Interaction in educational contexts. Our investigation adds depth to this ongoing discourse, providing crowd-sourced insights for educators and learners who are considering incorporating ChatGPT or similar generative AI tools into their pedagogical strategies.
翻訳日:2023-11-30 16:06:45 公開日:2023-11-25
# curve your enthusiasm: 微分可能一般化加法モデルにおけるconcurvity regularization

Curve Your Enthusiasm: Concurvity Regularization in Differentiable Generalized Additive Models ( http://arxiv.org/abs/2305.11475v3 )

ライセンス: Link先を確認
Julien Siems, Konstantin Ditschuneit, Winfried Ripken, Alma Lindborg, Maximilian Schambach, Johannes S. Otterbach, Martin Genzel(参考訳) 一般化加法モデル(GAM)は、最近、その解釈可能性によって、特徴の非線形変換の和として目的値を表現することから、人気が回復した。 GAMに対する現在の熱意にもかかわらず、その不確実性への感受性、すなわち機能間の(おそらく非線形ではない)依存関係は、ほとんど見過ごされてしまった。 本稿では, コンカービリティがガンの解釈可能性に悪影響を及ぼすことを実証し, 非線型変換された特徴変数の対関係をペナライズする概念的単純かつ効果的な正則化法を提案する。 この手順は、Neural Additive ModelsやNeuralProphetなど、任意の微分可能な付加モデルに適用でき、自己キャンセル機能によるあいまいさを排除して解釈性を高める。 時系列および表データのための実世界のデータセットと合成実験における正規化器の有効性を検証する。 実験の結果,GAMの精度は予測品質を著しく損なうことなく低下し,解釈性が向上し,特徴量のばらつきを低減できることがわかった。

Generalized Additive Models (GAMs) have recently experienced a resurgence in popularity due to their interpretability, which arises from expressing the target value as a sum of non-linear transformations of the features. Despite the current enthusiasm for GAMs, their susceptibility to concurvity - i.e., (possibly non-linear) dependencies between the features - has hitherto been largely overlooked. Here, we demonstrate how concurvity can severly impair the interpretability of GAMs and propose a remedy: a conceptually simple, yet effective regularizer which penalizes pairwise correlations of the non-linearly transformed feature variables. This procedure is applicable to any differentiable additive model, such as Neural Additive Models or NeuralProphet, and enhances interpretability by eliminating ambiguities due to self-canceling feature contributions. We validate the effectiveness of our regularizer in experiments on synthetic as well as real-world datasets for time-series and tabular data. Our experiments show that concurvity in GAMs can be reduced without significantly compromising prediction quality, improving interpretability and reducing variance in the feature importances.
翻訳日:2023-11-30 16:05:37 公開日:2023-11-25
# 確率的多次元分類

Probabilistic Multi-Dimensional Classification ( http://arxiv.org/abs/2306.06517v2 )

ライセンス: Link先を確認
Vu-Linh Nguyen, Yang Yang and Cassio de Campos(参考訳) 多次元分類(MDC)は、各インスタンスごとに複数のクラス変数を予測する必要がある様々なアプリケーションに適用できる。 多くの既存のmdcメソッドは、少なくとも1つの不正確さ、スケーラビリティ、特定の種類のデータへの限定使用、解釈の困難さ、確率的(確実性のない)推定の欠如に苦しんでいる。 本稿は,これらすべての欠点を同時に解決する試みである。 本稿では,最適多次元分類器の学習を一般性を失うことなく分解し,(より小さい)単一変数の確率的分類器と有向非巡回グラフの集合を学習する確率的MDCの形式的枠組みを提案する。 確率的分類とグラフィカルモデル学習の両立は, 柔軟かつ確実に最適なフレームワークを, 直接的に強化することができる。 このMDCフレームワークの有用性を明らかにするために,実験の収集を行う。

Multi-dimensional classification (MDC) can be employed in a range of applications where one needs to predict multiple class variables for each given instance. Many existing MDC methods suffer from at least one of inaccuracy, scalability, limited use to certain types of data, hardness of interpretation or lack of probabilistic (uncertainty) estimations. This paper is an attempt to address all these disadvantages simultaneously. We propose a formal framework for probabilistic MDC in which learning an optimal multi-dimensional classifier can be decomposed, without loss of generality, into learning a set of (smaller) single-variable multi-class probabilistic classifiers and a directed acyclic graph. Current and future developments of both probabilistic classification and graphical model learning can directly enhance our framework, which is flexible and provably optimal. A collection of experiments is conducted to highlight the usefulness of this MDC framework.
翻訳日:2023-11-30 15:45:06 公開日:2023-11-25
# 時間アライメントによる未ペアエゴエゴ映像からの微粒なビュー不変表現の学習

Learning Fine-grained View-Invariant Representations from Unpaired Ego-Exo Videos via Temporal Alignment ( http://arxiv.org/abs/2306.05526v2 )

ライセンス: Link先を確認
Zihui Xue, Kristen Grauman(参考訳) 人間の活動のエゴセントリックでエキソセントリックな視点は劇的に異なるように見えるが、それらをリンクするための不変表現は、ロボティクスと拡張現実の多くの潜在的な応用に不可欠である。 事前の作業は、ペアの同期された視点からビュー不変機能を学ぶことに限られる。 その強固なデータの仮定を緩和し、同時に撮影されたり、同じ環境で撮影されていなくても、エゴセントリックでエキソセントリックなビデオを時間内に調整することで、視点に不変な細かなアクション特徴を学ぶことを提案する。 そこで本研究では,(1)手とアクティブオブジェクトに対応する領域に明示的に焦点を絞ったオブジェクト中心エンコーダ,(2)時間反転フレームを負のサンプルとして活用するコントラストに基づくアライメント目的の2つの主要な設計を持つ自己教師型埋め込み手法であるAE2を提案する。 評価のために、収集したエゴテニスフォアハンドデータセットを含む4つのデータセットと、各データセットにアノテートしたフレーム毎の密度の高いラベルからなる、エゴエキソコンテキストにおけるきめ細かいビデオ理解のためのベンチマークを確立します。 4つのデータセットでは、ae2メソッドは、通常の設定とクロスビュー設定の両方において、さまざまなきめ細かいダウンストリームタスクで、以前の作業を大きく上回っています。

The egocentric and exocentric viewpoints of a human activity look dramatically different, yet invariant representations to link them are essential for many potential applications in robotics and augmented reality. Prior work is limited to learning view-invariant features from paired synchronized viewpoints. We relax that strong data assumption and propose to learn fine-grained action features that are invariant to the viewpoints by aligning egocentric and exocentric videos in time, even when not captured simultaneously or in the same environment. To this end, we propose AE2, a self-supervised embedding approach with two key designs: (1) an object-centric encoder that explicitly focuses on regions corresponding to hands and active objects; and (2) a contrastive-based alignment objective that leverages temporally reversed frames as negative samples. For evaluation, we establish a benchmark for fine-grained video understanding in the ego-exo context, comprising four datasets -- including an ego tennis forehand dataset we collected, along with dense per-frame labels we annotated for each dataset. On the four datasets, our AE2 method strongly outperforms prior work in a variety of fine-grained downstream tasks, both in regular and cross-view settings.
翻訳日:2023-11-30 15:44:30 公開日:2023-11-25
# GRDD:ギリシャ方言NLPのためのデータセット

GRDD: A Dataset for Greek Dialectal NLP ( http://arxiv.org/abs/2308.00802v3 )

ライセンス: Link先を確認
Stergios Chatzikyriakidis and Chatrine Qwaider and Ilias Kolokousis and Christina Koula and Dimitris Papadakis and Efthymia Sakellariou(参考訳) 本稿では,いくつかの現代ギリシア方言の計算研究のためのデータセットを提案する。 原文は、現代のギリシア語、クレタ語、ポントス語、北ギリシア語、キプロス語の4つの方言から得られる。 データセットはかなりの大きさであり、不均衡であるにもかかわらず、このタイプの大規模な方言資源を現代ギリシア語の方言のために作成する最初の試みである。 次に、データセットを使用して方言の idefntificationを実行します。 従来のMLアルゴリズムやシンプルなDLアーキテクチャを実験する。 この結果から,課題の方言には,単純なMLモデルでもタスク上でうまく機能できる十分な特徴がある可能性が示唆された。 上位実行アルゴリズムではエラー解析が行われ、多くの場合、エラーはデータセットのクリーニング不足によるものである。

In this paper, we present a dataset for the computational study of a number of Modern Greek dialects. It consists of raw text data from four dialects of Modern Greek, Cretan, Pontic, Northern Greek and Cypriot Greek. The dataset is of considerable size, albeit imbalanced, and presents the first attempt to create large scale dialectal resources of this type for Modern Greek dialects. We then use the dataset to perform dialect idefntification. We experiment with traditional ML algorithms, as well as simple DL architectures. The results show very good performance on the task, potentially revealing that the dialects in question have distinct enough characteristics allowing even simple ML models to perform well on the task. Error analysis is performed for the top performing algorithms showing that in a number of cases the errors are due to insufficient dataset cleaning.
翻訳日:2023-11-30 15:26:21 公開日:2023-11-25
# kapitza-dirac効果におけるスピン依存電子回折のパラメータ空間による研究

Parameter space investigation for spin-dependent electron diffraction in the Kapitza-Dirac effect ( http://arxiv.org/abs/2308.13200v2 )

ライセンス: Link先を確認
Yang Wang, Sven Ahrens(参考訳) スピン依存電子回折は、カピツァ・ディラック効果の2光子ブラッグ散乱シナリオにおいて、逆電子モーメントのスムーズな範囲で可能であることを示す。 スピン依存回折を定量化するための一般化された仕様を導入し,ニュートン勾配反復法を用いて解く最適化問題を実現することで,解析が可能となった。 この方法では、異なる横電子モーメントに対するスピン依存効果と、立位光波カピツァ・ディラック散乱の異なるレーザー偏光について検討する。 スピン依存kapitza-dirac実験をセットアップする場合、任意に低横電子モーメントを使用する可能性により、電子とレーザーの相互作用時間が長くなり、その結果、効果の実装に対する制約パラメータが小さくなる。

We demonstrate that spin-dependent electron diffraction is possible for a smooth range of transverse electron momenta in a two-photon Bragg scattering scenario of the Kapitza-Dirac effect. Our analysis is rendered possible by introducing a generalized specification for quantifying spin-dependent diffraction, yielding an optimization problem which is solved by making use of a Newton gradient iteration scheme. With this procedure, we investigate the spin-dependent effect for different transverse electron momenta and different laser polarizations of the standing light wave Kapitza-Dirac scattering. The possibility for using arbitrarily low transverse electron momenta, when setting up a spin-dependent Kapitza-Dirac experiment allows longer interaction times of the electron with the laser and therefore enables less constraining parameters for an implementation of the effect.
翻訳日:2023-11-30 15:13:46 公開日:2023-11-25
# プロンプトインジェクションに対する大規模言語モデルの指示追従ロバスト性の評価

Evaluating the Instruction-Following Robustness of Large Language Models to Prompt Injection ( http://arxiv.org/abs/2308.10819v3 )

ライセンス: Link先を確認
Zekun Li and Baolin Peng and Pengcheng He and Xifeng Yan(参考訳) 大規模言語モデル (LLM) は命令追従に優れた能力を示しており、様々なアプリケーションでますます重要になっている。 しかし、この能力は、攻撃者がLLMの入力に命令を注入して望ましくないアクションやコンテンツを誘発するインジェクション攻撃のリスクをもたらす。 このような攻撃に対するLLMの堅牢性を理解することは、その安全な実装に不可欠である。 本研究では,インジェクション攻撃に対する命令追従LDMの堅牢性を評価するためのベンチマークを確立する。 本研究の目的は, インジェクション命令がllmに与える影響と, インジェクション命令と本来の目標命令を区別する能力について検討することである。 先導的な命令追従LDMによる広範な実験を通じて、このような攻撃に対するロバスト性の重大な脆弱性を明らかにする。 その結果、いくつかのモデルはプロンプト内の埋め込み命令に従うように過度に調整されており、コンテキスト全体を把握せずにプロンプトの後半部分に集中していることがわかった。 対照的に、文脈や命令追従能力をよりよく把握したモデルでは、インジェクションによって妥協する可能性が高くなる。 これは、単にllmsの命令追従能力の強化から、プロンプトの全体的な理解と従うのに適した指示の識別の改善へと焦点を移す必要性を強調する。 当社の詳細な分析が,これらの脆弱性の根本原因に関する洞察を提供し,今後のソリューションの開発を支援することを願っています。 コードとデータはhttps://github.com/leezekun/instruction-following-robustness-evalで入手できる。

Large Language Models (LLMs) have demonstrated exceptional proficiency in instruction-following, becoming increasingly crucial across various applications. However, this capability brings with it the risk of prompt injection attacks, where attackers inject instructions into LLMs' input to elicit undesirable actions or content. Understanding the robustness of LLMs against such attacks is vital for their safe implementation. In this work, we establish a benchmark to evaluate the robustness of instruction-following LLMs against prompt injection attacks. Our objective is to determine the extent to which LLMs can be influenced by injected instructions and their ability to differentiate between these injected and original target instructions. Through extensive experiments with leading instruction-following LLMs, we uncover significant vulnerabilities in their robustness to such attacks. Our results indicate that some models are overly tuned to follow any embedded instructions in the prompt, overly focusing on the latter parts of the prompt without fully grasping the entire context. By contrast, models with a better grasp of the context and instruction-following capabilities will potentially be more susceptible to compromise by injected instructions. This underscores the need to shift the focus from merely enhancing LLMs' instruction-following capabilities to improving their overall comprehension of prompts and discernment of instructions that are appropriate to follow. We hope our in-depth analysis offers insights into the underlying causes of these vulnerabilities, aiding in the development of future solutions. Code and data are available at https://github.com/Leezekun/instruction-following-robustness-eval
翻訳日:2023-11-30 15:12:23 公開日:2023-11-25
# MovePose: モバイルおよびエッジデバイス上での高性能なヒューマンポース推定アルゴリズム

MovePose: A High-performance Human Pose Estimation Algorithm on Mobile and Edge Devices ( http://arxiv.org/abs/2308.09084v2 )

ライセンス: Link先を確認
Dongyang Yu and Haoyue Zhang and Zhirui Zhou and Wangpeng An and Yanhong Yang(参考訳) 我々は,cpu ベースのモバイルデバイス上でのリアルタイムボディポーズ推定用に設計された,最適化された軽量畳み込みニューラルネットワークである movepose を提案する。 現在のソリューションは人間の姿勢推定に十分な精度とスピードを提供しておらず、MovePoseはこのギャップに対処しています。 モバイルデバイスの姿勢推定精度を向上しつつ、リアルタイムパフォーマンスを維持することを目的としている。 このネットワークは、毎秒11フレームを超えるレートで、各個人に対して17のキーポイントを生成し、フィットネストラッキング、手話解釈、高度な移動体姿勢推定などのリアルタイムアプリケーションに適合する。 我々のMovePoseアルゴリズムはCOCO \cite{cocodata}バリデーションデータセットで平均平均精度(mAP)スコア67.7に達した。 MovePoseアルゴリズムは、Intel i9-10920x CPU上で動作する場合、効率は69フレーム/秒(fps)以上であった。 さらに、NVIDIA RTX3090 GPU上で452以上のfpsのパフォーマンスも向上した。 Snapdragon 8 + 4Gプロセッサを搭載したAndroidスマートフォンでは、fpsは11.7GHz以上に達した。 精度を高めるために,デコンボリューション,大規模カーネル畳み込み,座標分類という3つの手法を取り入れた。 基本的なアップサンプリングと比較して、デコンボリューションはトレーニング可能で、モデルのキャパシティが向上し、レセプティブフィールドが強化される。 大きなカーネルの畳み込みは計算コストを下げてこれらの特性を強化する。 要約すると、MovePoseは高精度でリアルタイムのパフォーマンスを提供しており、モバイル側の人間の姿勢推定など、さまざまなアプリケーションにとって潜在的なツールである。 このアルゴリズムのコードとモデルは、公開アクセス可能である。

We present MovePose, an optimized lightweight convolutional neural network designed specifically for real-time body pose estimation on CPU-based mobile devices. The current solutions do not provide satisfactory accuracy and speed for human posture estimation, and MovePose addresses this gap. It aims to maintain real-time performance while improving the accuracy of human posture estimation for mobile devices. The network produces 17 keypoints for each individual at a rate exceeding 11 frames per second, making it suitable for real-time applications such as fitness tracking, sign language interpretation, and advanced mobile human posture estimation. Our MovePose algorithm has attained an Mean Average Precision (mAP) score of 67.7 on the COCO \cite{cocodata} validation dataset. The MovePose algorithm displayed efficiency with a performance of 69+ frames per second (fps) when run on an Intel i9-10920x CPU. Additionally, it showcased an increased performance of 452+ fps on an NVIDIA RTX3090 GPU. On an Android phone equipped with a Snapdragon 8 + 4G processor, the fps reached above 11. To enhance accuracy, we incorporated three techniques: deconvolution, large kernel convolution, and coordinate classification methods. Compared to basic upsampling, deconvolution is trainable, improves model capacity, and enhances the receptive field. Large kernel convolution strengthens these properties at a decreased computational cost. In summary, MovePose provides high accuracy and real-time performance, marking it a potential tool for a variety of applications, including those focused on mobile-side human posture estimation. The code and models for this algorithm will be made publicly accessible.
翻訳日:2023-11-30 15:11:24 公開日:2023-11-25
# 患者記録からの実際の治療経路の推測

Inferring Actual Treatment Pathways from Patient Records ( http://arxiv.org/abs/2309.01897v3 )

ライセンス: Link先を確認
Adrian Wilkins-Caruana, Madhushi Bandara, Katarzyna Musial, Daniel Catchpoole and Paul J. Kennedy(参考訳) 治療経路は、特定の疾患に対する推奨医療を概説するステップ・バイ・ステップの計画であり、異なる治療が患者の予後を改善すると修正される。 健康記録の検査は, この改訂プロセスにおいて重要な部分であるが, 複雑なイベントコーディング手法と経路関連アノテーションの欠如により, 患者の実際の治療を健康データから推測することは困難である。 本研究は, 表型医療データの共通形態である行政医療記録(ahr)から特定の患者集団の実際の治療手順を推測し, 治療経路関連研究における技術と方法論に基づくギャップに対処することを目的とする。 特定の患者群に対する現実的な治療手順を推測するためのAHRの検査方法であるDefragを紹介する。 Defragは、医療イベントシーケンスの意味と時間的意味を学び、複雑な医療データから治療ステップを確実に推測する。 私たちの知る限り、Defragはニューラルネットワーク(NN)を利用する最初の経路推論手法です。 また,経路推定のためのテストおよび検証フレームワークを開発し,Defragの経路推定能力を特徴付け,評価し,ベースラインと比較した。 乳がん, 肺癌, メラノーマに最も有効な経路断片を公衆医療記録で同定し, Defragの有効性を実証した。 さらに,defrag法の特性を示すために合成データ実験を行い,非nn法を大きく上回る複数のベースラインと比較した。 defragは既存の経路参照法を著しく上回り、ahrsから治療経路を推定する革新的な効果的なアプローチを提供する。 オープンソースコードは、この分野のさらなる研究を促進するために提供されている。

Treatment pathways are step-by-step plans outlining the recommended medical care for specific diseases; they get revised when different treatments are found to improve patient outcomes. Examining health records is an important part of this revision process, but inferring patients' actual treatments from health data is challenging due to complex event-coding schemes and the absence of pathway-related annotations. This study aims to infer the actual treatment steps for a particular patient group from administrative health records (AHR) - a common form of tabular healthcare data - and address several technique- and methodology-based gaps in treatment pathway-inference research. We introduce Defrag, a method for examining AHRs to infer the real-world treatment steps for a particular patient group. Defrag learns the semantic and temporal meaning of healthcare event sequences, allowing it to reliably infer treatment steps from complex healthcare data. To our knowledge, Defrag is the first pathway-inference method to utilise a neural network (NN), an approach made possible by a novel, self-supervised learning objective. We also developed a testing and validation framework for pathway inference, which we use to characterise and evaluate Defrag's pathway inference ability and compare against baselines. We demonstrate Defrag's effectiveness by identifying best-practice pathway fragments for breast cancer, lung cancer, and melanoma in public healthcare records. Additionally, we use synthetic data experiments to demonstrate the characteristics of the Defrag method, and to compare Defrag to several baselines where it significantly outperforms non-NN-based methods. Defrag significantly outperforms several existing pathway-inference methods and offers an innovative and effective approach for inferring treatment pathways from AHRs. Open-source code is provided to encourage further research in this area.
翻訳日:2023-11-30 15:02:05 公開日:2023-11-25
# 物体認識のための脳波からの自然画像の復号

Decoding Natural Images from EEG for Object Recognition ( http://arxiv.org/abs/2308.13234v2 )

ライセンス: Link先を確認
Yonghao Song, Bingchuan Liu, Xiang Li, Nanlin Shi, Yijun Wang, Xiaorong Gao(参考訳) 脳波(EEG)信号は, 簡便な非侵襲的取得で知られているが, 自然画像の復号化の可能性から近年注目されている。 本稿では,脳波信号,特に物体認識における学習画像表現の実現可能性を示す自己教師型フレームワークを提案する。 このフレームワークは、画像と脳波エンコーダを使用して、ペア画像刺激と脳波応答から特徴を抽出する。 対照的な学習は、それらの類似性を制約することにより、これらの2つの様相を整合させる。 このフレームワークでは,包括的脳波画像データセットにおいて,200方向ゼロショット課題に対してトップ1精度15.6%,トップ5精度42.8%を達成した。 さらに,脳波信号の時間的,空間的,スペクトル的,意味的側面を解明し,生物学的な可能性を探るための広範な実験を行った。 また,脳波データから知覚される脳活動の暗黙の証拠として,空間的相関を捉えるために注意モジュールを導入する。 これらの発見は、実世界のシナリオにおける神経復号と脳-コンピュータインタフェースの貴重な洞察をもたらす。 コードはhttps://github.com/eeyhsong/NICE-EEGでリリースされる。

Electroencephalography (EEG) signals, known for convenient non-invasive acquisition but low signal-to-noise ratio, have recently gained substantial attention due to the potential to decode natural images. This paper presents a self-supervised framework to demonstrate the feasibility of learning image representations from EEG signals, particularly for object recognition. The framework utilizes image and EEG encoders to extract features from paired image stimuli and EEG responses. Contrastive learning aligns these two modalities by constraining their similarity. With the framework, we attain significantly above-chance results on a comprehensive EEG-image dataset, achieving a top-1 accuracy of 15.6% and a top-5 accuracy of 42.8% in challenging 200-way zero-shot tasks. Moreover, we perform extensive experiments to explore the biological plausibility by resolving the temporal, spatial, spectral, and semantic aspects of EEG signals. Besides, we introduce attention modules to capture spatial correlations, providing implicit evidence of the brain activity perceived from EEG data. These findings yield valuable insights for neural decoding and brain-computer interfaces in real-world scenarios. The code will be released on https://github.com/eeyhsong/NICE-EEG.
翻訳日:2023-11-30 14:57:36 公開日:2023-11-25
# 逐次推定による逐次変化検出の低減

Reducing sequential change detection to sequential estimation ( http://arxiv.org/abs/2309.09111v2 )

ライセンス: Link先を確認
Shubhanshu Shekhar and Aaditya Ramdas(参考訳) パラメータや関数の$\theta$で検出遅延が小さいが、変更がない場合の誤報頻度の制御が保証されるデータストリーム分布を,パラメータや関数的な$\theta$で検出するスキームを設計することを目的として,逐次的な変更検出の問題を考える。 本稿では,各ステップ毎に1-\alpha($-confidence)の新たな$(1-\alpha)$-confidenceシーケンスを起動し,すべてのアクティブな信頼シーケンスの交叉が空になった場合の変化を宣言する。 平均ラン長が少なくとも1/\alpha$であることを証明するため、構造的仮定を最小限に抑えた変更検出スキームが成立する(従属的な観測や非パラメトリック分布クラスを許容する)が、強い保証は得られない。 提案手法は,1971年のLordenと2022年のShinらのe-detectorによる変化検出からシーケンシャルなテストへの削減と類似している。

We consider the problem of sequential change detection, where the goal is to design a scheme for detecting any changes in a parameter or functional $\theta$ of the data stream distribution that has small detection delay, but guarantees control on the frequency of false alarms in the absence of changes. In this paper, we describe a simple reduction from sequential change detection to sequential estimation using confidence sequences: we begin a new $(1-\alpha)$-confidence sequence at each time step, and proclaim a change when the intersection of all active confidence sequences becomes empty. We prove that the average run length is at least $1/\alpha$, resulting in a change detection scheme with minimal structural assumptions~(thus allowing for possibly dependent observations, and nonparametric distribution classes), but strong guarantees. Our approach bears an interesting parallel with the reduction from change detection to sequential testing of Lorden (1971) and the e-detector of Shin et al. (2022).
翻訳日:2023-11-30 14:49:07 公開日:2023-11-25
# 最適かつ公平な奨励政策の評価と学習

Optimal and Fair Encouragement Policy Evaluation and Learning ( http://arxiv.org/abs/2309.07176v2 )

ライセンス: Link先を確認
Angela Zhou(参考訳) 連続的な領域では、個人に治療を強制することはしばしば不可能であり、最適な政策ルールは、治療勧告に対するヒトの非順守の存在において単に提案である。 これらの同じ領域では、治療を受ける際に反応する人と治療効果の多様性の両方に異質性がある可能性がある。 最適な治療規則は、人口全体の因果関係を最大化することができるが、アクセスパリティ制約やその他の公平性考慮は、奨励の場合に関係がある。 例えば、ソーシャルサービスでは、永続的なパズルは、最も利益を享受できる人々の間で、有益なサービスを取り上げる際のギャップです。 さらに、意思決定者がアクセスと平均結果の両方に対して分布的選好を持つ場合、最適な決定ルールが変化する。 本研究は, 正の潜在的な違反を含む最適処理規則の因果同定, 統計的分散推定, およびロバスト推定について検討した。 本研究は, 治療における人口統計学的パリティなどの公平性制約や, その他の制約について, 制約付き最適化によって検討する。 提案手法は,提案手法における肯定性欠如のロバスト性チェックを用いて,共変量条件排他的制約下でアルゴリズム的推奨を扱うように拡張することができる。 一般制約下でのパラメタライズされたポリシークラスを解くための2段階のアルゴリズムを開発し、分散感応的後悔境界を求める。 本研究は,無作為化促進から保険加入までのデータと,電子モニタリングによる事前監督リリースの2つのケーススタディである。

In consequential domains, it is often impossible to compel individuals to take treatment, so that optimal policy rules are merely suggestions in the presence of human non-adherence to treatment recommendations. In these same domains, there may be heterogeneity both in who responds in taking-up treatment, and heterogeneity in treatment efficacy. While optimal treatment rules can maximize causal outcomes across the population, access parity constraints or other fairness considerations can be relevant in the case of encouragement. For example, in social services, a persistent puzzle is the gap in take-up of beneficial services among those who may benefit from them the most. When in addition the decision-maker has distributional preferences over both access and average outcomes, the optimal decision rule changes. We study causal identification, statistical variance-reduced estimation, and robust estimation of optimal treatment rules, including under potential violations of positivity. We consider fairness constraints such as demographic parity in treatment take-up, and other constraints, via constrained optimization. Our framework can be extended to handle algorithmic recommendations under an often-reasonable covariate-conditional exclusion restriction, using our robustness checks for lack of positivity in the recommendation. We develop a two-stage algorithm for solving over parametrized policy classes under general constraints to obtain variance-sensitive regret bounds. We illustrate the methods in two case studies based on data from randomized encouragement to enroll in insurance and from pretrial supervised release with electronic monitoring.
翻訳日:2023-11-30 14:48:19 公開日:2023-11-25
# xai評価手法としてのトレーサブルノイズモデル:リモートセンシング画像セグメンテーションにおけるsobolの適用

Trainable Noise Model as an XAI evaluation method: application on Sobol for remote sensing image segmentation ( http://arxiv.org/abs/2310.01828v2 )

ライセンス: Link先を確認
Hossein Shreim, Abdul Karim Gizzini and Ali J. Ghandour(参考訳) eXplainable Artificial Intelligence(XAI)は、ミッションクリティカルなアプリケーションを扱う上で必須の要件として現れ、採用されているブラックボックスAIモデルの透明性と解釈性を保証する。 XAIの重要性は、医療から金融まで様々な分野に及び、ディープラーニングアルゴリズムの意思決定プロセスを理解することが不可欠である。 ほとんどのAIベースのコンピュータビジョンモデルはブラックボックスであることが多いため、画像処理におけるディープニューラルネットワークの説明可能性を提供することは、医療画像分析、自律運転、リモートセンシングアプリケーションにおいて広く採用および展開するために重要である。 近年,画像分類タスクのためのXAI手法がいくつか紹介されている。 対照的に、画像分割は説明可能性の文脈では比較的注目されていないが、コンピュータビジョンアプリケーション、特にリモートセンシングでは基本的なタスクである。 画像セグメンテーションのための勾配に基づくXAIアルゴリズムを提案する研究はほとんどない。 本稿では,最近のソボルXAI法をセマンティックセグメンテーションに適用する。 セグメンテーションのためのSobol法の性能を測定するために,学習可能な雑音モデルに基づく定量的XAI評価法を提案する。 このモデルの主な目的は、高次誘導雑音が低精度かつその逆を意味する説明地図上でノイズを誘導することである。 提案手法を用いて,Seg-Grad-CAM,Seg-Grad-CAM++,Seg-Sobolの3つのXAI手法の性能評価と評価を行う。 これは、高解像度衛星画像を用いてXAI法を実行・評価する最初の試みである。

eXplainable Artificial Intelligence (XAI) has emerged as an essential requirement when dealing with mission-critical applications, ensuring transparency and interpretability of the employed black box AI models. The significance of XAI spans various domains, from healthcare to finance, where understanding the decision-making process of deep learning algorithms is essential. Most AI-based computer vision models are often black boxes; hence, providing explainability of deep neural networks in image processing is crucial for their wide adoption and deployment in medical image analysis, autonomous driving, and remote sensing applications. Recently, several XAI methods for image classification tasks have been introduced. On the contrary, image segmentation has received comparatively less attention in the context of explainability, although it is a fundamental task in computer vision applications, especially in remote sensing. Only some research proposes gradient-based XAI algorithms for image segmentation. This paper adapts the recent gradient-free Sobol XAI method for semantic segmentation. To measure the performance of the Sobol method for segmentation, we propose a quantitative XAI evaluation method based on a learnable noise model. The main objective of this model is to induce noise on the explanation maps, where higher induced noise signifies low accuracy and vice versa. A benchmark analysis is conducted to evaluate and compare performance of three XAI methods, including Seg-Grad-CAM, Seg-Grad-CAM++ and Seg-Sobol using the proposed noise-based evaluation technique. This constitutes the first attempt to run and evaluate XAI methods using high-resolution satellite images.
翻訳日:2023-11-30 14:27:34 公開日:2023-11-25
# 有界平均に対する賭け信頼集合の準最適性について

On the near-optimality of betting confidence sets for bounded means ( http://arxiv.org/abs/2310.01547v2 )

ライセンス: Link先を確認
Shubhanshu Shekhar and Aaditya Ramdas(参考訳) 独立分布と同一分布の観測からの一変量分布の平均に対する漸近的信頼区間(CI)を構築することは統計学における基本的な課題である。 有界な観測では、古典的な非パラメトリックなアプローチは、ホッフィングやベルンシュタインの不等式のような標準濃度境界を反転させることで進行する。 近年、CIとその時間一様変種を定義するための代替ベッティングベースのアプローチである信頼シーケンス (CS) が、古典的手法よりも経験的に優れていることが示されている。 本稿では,このベッティングCIとCSの実証性能の改善を理論的に正当化する。 主な貢献は以下の通りである。 (i)まず第一次漸近幅($\sqrt{n}$)の値を用いてCIを比較し,2023年のWaudby-SmithとRamdasの賭けCIは既存の経験的Bernstein(EB)-CIよりも幅が小さいことを示す。 次に、ある逆情報投影の観点からCI/CSを構築する方法によって達成可能な最小幅を特徴付ける2つの下位境界を確立する。 3) 最後に, ベッティングCIとCSが基本限界に一致し, 加算対数項と乗法定数を変調することを示した。 これらの結果は、ベンティングCI~(およびCS)が既存の最先端のEB-CI~(およびCS)よりも強い理論的保証を認めることを示唆している。

Constructing nonasymptotic confidence intervals (CIs) for the mean of a univariate distribution from independent and identically distributed (i.i.d.) observations is a fundamental task in statistics. For bounded observations, a classical nonparametric approach proceeds by inverting standard concentration bounds, such as Hoeffding's or Bernstein's inequalities. Recently, an alternative betting-based approach for defining CIs and their time-uniform variants called confidence sequences (CSs), has been shown to be empirically superior to the classical methods. In this paper, we provide theoretical justification for this improved empirical performance of betting CIs and CSs. Our main contributions are as follows: (i) We first compare CIs using the values of their first-order asymptotic widths (scaled by $\sqrt{n}$), and show that the betting CI of Waudby-Smith and Ramdas (2023) has a smaller limiting width than existing empirical Bernstein (EB)-CIs. (ii) Next, we establish two lower bounds that characterize the minimum width achievable by any method for constructing CIs/CSs in terms of certain inverse information projections. (iii) Finally, we show that the betting CI and CS match the fundamental limits, modulo an additive logarithmic term and a multiplicative constant. Overall these results imply that the betting CI~(and CS) admit stronger theoretical guarantees than the existing state-of-the-art EB-CI~(and CS); both in the asymptotic and finite-sample regimes.
翻訳日:2023-11-30 14:26:39 公開日:2023-11-25
# 多体系の基底状態特性の証明

Certifying ground-state properties of many-body systems ( http://arxiv.org/abs/2310.05844v3 )

ライセンス: Link先を確認
Jie Wang, Jacopo Surace, Ir\'en\'ee Fr\'erot, Beno\^it Legat, Marc-Olivier Renou, Victor Magron, Antonio Ac\'in(参考訳) 量子物理学におけるユビキタス問題は、多体系の基底状態の性質を理解することである。 システムサイズを増加させると、正確な対角化がすぐに不可能になるという事実に直面すると、変分的アプローチは一般的にスケーラブルな代替手段として採用される: エネルギーはすべての可能な状態のサブセット上で最小化され、解状態上で異なる物理量を計算する。 顕著な成功にもかかわらず、厳密に言えば、変分法が提供するものはすべて基底状態エネルギーの上限である。 一方、半有限計画法に基づく基底状態問題の緩和は相補的なアプローチであり、基底状態エネルギーの低い境界を与える。 しかし、現在の実装では、変分法も緩和法もエネルギー以外の基底状態にある他の観測物に証明可能な束縛を与えない。 本研究では,任意の順序の相関関数や構造因子,順序パラメータなど,基底状態における観測可能な任意の値に対する証明可能な境界を導出するために,この2つのアプローチの組み合わせが有効であることを示す。 このアプローチのパワーを1Dおよび2Dスピン1半ハイゼンベルクモデルのパラダイム的な例で説明する。 提案手法のスケーラビリティを向上させるため, 従来よりもはるかに高精度に数百個の粒子の粒度に到達するため, 検討されたシステムの対称性と疎性を利用する。 そこで本研究では,多体基底状態特性の検証可能な境界を,エネルギーを超えたスケーラブルな方法で得る方法を示す。

A ubiquitous problem in quantum physics is to understand the ground-state properties of many-body systems. Confronted with the fact that exact diagonalisation quickly becomes impossible when increasing the system size, variational approaches are typically employed as a scalable alternative: energy is minimised over a subset of all possible states and then different physical quantities are computed over the solution state. Despite remarkable success, rigorously speaking, all what variational methods offer are upper bounds on the ground-state energy. On the other hand, so-called relaxations of the ground-state problem based on semidefinite programming represent a complementary approach, providing lower bounds to the ground-state energy. However, in their current implementation, neither variational nor relaxation methods offer provable bound on other observables in the ground state beyond the energy. In this work, we show that the combination of the two classes of approaches can be used to derive certifiable bounds on the value of any observable in the ground state, such as correlation functions of arbitrary order, structure factors, or order parameters. We illustrate the power of this approach in paradigmatic examples of 1D and 2D spin-one-half Heisenberg models. To improve the scalability of the method, we exploit the symmetries and sparsity of the considered systems to reach sizes of hundreds of particles at much higher precision than previous works. Our analysis therefore shows how to obtain certifiable bounds on many-body ground-state properties beyond energy in a scalable way.
翻訳日:2023-11-30 14:14:45 公開日:2023-11-25
# モデルアーキテクチャと文脈内学習能力の関係を探る

Exploring the Relationship Between Model Architecture and In-Context Learning Ability ( http://arxiv.org/abs/2310.08049v2 )

ライセンス: Link先を確認
Ivan Lee, Nan Jiang, Taylor Berg-Kirkpatrick(参考訳) モデルアーキテクチャとコンテキスト内学習の能力の関係はどのようなものか? この経験的研究では、この質問に答える第一歩を踏み出します。 合成テキスト内学習タスクのスイート間で因果言語モデリングが可能な12のモデルアーキテクチャを評価する。 これらの選択されたアーキテクチャは、リカレントおよび畳み込みベースのニューラルネットワーク、トランスフォーマー、状態空間モデルにインスパイアされたその他の注目の選択肢を含む、幅広いパラダイムを表している。 検討されたアーキテクチャはすべて,従来よりも広い範囲の条件下でコンテキスト内学習を行うことができることがわかった。 さらに,状況やタスクの難易度によって,統計的効率と一貫性の相違が観察される。 また,タスク解決のための代替経路が提示された場合,各アーキテクチャのコンテキスト内学習の前提条件も測定する。 最後に、驚くべきことに、いくつかの注意すべき代替手段が、トランスフォーマーよりもコンテキスト内学習者の方が堅牢であることがわかった。 このようなアプローチが推論時に一定のサイズのメモリフットプリントを持つことを考えると、この結果はコンテキスト内学習をスケールアップし、コンテキスト内サンプルの数が大幅に増加する可能性を開く。

What is the relationship between model architecture and the ability to perform in-context learning? In this empirical study, we take the first steps toward answering this question. We evaluate twelve model architectures capable of causal language modeling across a suite of synthetic in-context learning tasks. These selected architectures represent a broad range of paradigms, including recurrent and convolution-based neural networks, transformers, state-space model inspired, and other emerging attention alternatives. We discover that all the considered architectures can perform in-context learning under a wider range of conditions than previously documented. Additionally, we observe stark differences in statistical efficiency and consistency by varying context length and task difficulty. We also measure each architecture's predisposition towards in-context learning when presented with alternative routes for task resolution. Finally, and somewhat surprisingly, we find that several attention alternatives are more robust in-context learners than transformers. Given that such approaches have constant-sized memory footprints at inference time, this result opens the possibility of scaling up in-context learning to accommodate vastly larger numbers of in-context examples.
翻訳日:2023-11-30 14:02:44 公開日:2023-11-25
# PG-NeuS:多視点神経表面再構成のためのロバストで効率的なポイントガイダンス

PG-NeuS: Robust and Efficient Point Guidance for Multi-View Neural Surface Reconstruction ( http://arxiv.org/abs/2310.07997v2 )

ライセンス: Link先を確認
Chen Zhang, Wanjuan Su, Qingshan Xu, Wenbing Tao(参考訳) 近年,点雲や深度マップの監督による多視点ニューラルサーフェス再構成の学習は有望な方法である。 しかし、事前情報の利用が不十分なため、現在の手法は精度の制限と過度な時間複雑性の課題に苦慮している。 さらに、事前のデータ摂動も重要ではあるが、稀に考慮される問題である。 そこで本研究では,点雑音に対してロバストに対処しながら高精度かつ効率的な再構成を実現する,pg-neusという新しい点案内手法を提案する。 特に、点雲の不確かさはノイズの分布を捉えるためにモデル化され、ノイズのロバスト性をもたらす。 さらに,暗黙の面に幾何学的制約を加え,正確な点誘導を実現するために,点と像をつなぐニューラルプロジェクションモジュールを提案する。 ボリュームレンダリングとポイントモデリングの幾何学的バイアスを補正するために、高忠実度点をバイアスネットワークにフィルタリングして詳細表現をさらに改善する。 提案したPG-NeuSは,高速収束を実現し,11倍の高速化を実現している。 特に細かな細部や滑らかな領域において,本手法は高効率で高品質な表面が得られることを示す。 さらに、ノイズデータとスパースデータに対して強いロバスト性を示す。

Recently, learning multi-view neural surface reconstruction with the supervision of point clouds or depth maps has been a promising way. However, due to the underutilization of prior information, current methods still struggle with the challenges of limited accuracy and excessive time complexity. In addition, prior data perturbation is also an important but rarely considered issue. To address these challenges, we propose a novel point-guided method named PG-NeuS, which achieves accurate and efficient reconstruction while robustly coping with point noise. Specifically, aleatoric uncertainty of the point cloud is modeled to capture the distribution of noise, leading to noise robustness. Furthermore, a Neural Projection module connecting points and images is proposed to add geometric constraints to implicit surface, achieving precise point guidance. To better compensate for geometric bias between volume rendering and point modeling, high-fidelity points are filtered into a Bias Network to further improve details representation. Benefiting from the effective point guidance, even with a lightweight network, the proposed PG-NeuS achieves fast convergence with an impressive 11x speedup compared to NeuS. Extensive experiments show that our method yields high-quality surfaces with high efficiency, especially for fine-grained details and smooth regions, outperforming the state-of-the-art methods. Moreover, it exhibits strong robustness to noisy data and sparse data.
翻訳日:2023-11-30 14:02:28 公開日:2023-11-25
# 反射境界の存在下での真空量子場からの相関の抽出

Harvesting correlations from vacuum quantum fields in the presence of a reflecting boundary ( http://arxiv.org/abs/2310.07164v2 )

ライセンス: Link先を確認
Zhihong Liu, Jialin Zhang, Hongwei Yu(参考訳) 真空質量の無いスカラー場と局所的に相互作用する2つの静的検出器による、無限完全反射境界の存在下での相関関係について検討する。 本研究では,2つの検出器境界アライメント,すなわち並列-境界アライメントと垂直-境界アライメントの相互情報収集と絡み合い収穫の現象について検討した。 その結果,境界の存在は,境界のない平坦な時空における相互情報収集を一般的に阻害することが示された。 対照的に、境界はエンタングルメントの収穫において二重のエッジの役割を担い、すなわち境界の近傍の領域におけるエンタングルメントの収穫を阻止し、境界の遠方領域でそれを補助する。 さらに、検出器間分離が十分である限り、相関抽出に有利な2つの非固有検出器間の最適な検出器エネルギーギャップ差が存在する。 最適検出器エネルギーギャップ差の値は、検出器間分離と検出器間距離の両方に依存する。 2つの異なるアライメントで得られた相関関係を比較すると、正準に同じ性質で収穫する相関関係を示すが、垂直-境界アライメントの検出器は常に平行-境界アライメントよりも相対的に多くの相互情報を収集し、境界付近でのみ比較的多くの絡み合いを収穫することを示す。

We explore correlations harvesting by two static detectors locally interacting with vacuum massless scalar fields in the presence of an infinite perfectly reflecting boundary. We study the phenomena of mutual information harvesting and entanglement harvesting for two detector-boundary alignments, i.e., parallel-to-boundary and vertical-to-boundary alignments. Our results show that the presence of the boundary generally inhibits mutual information harvesting relative to that in flat spacetime without any boundaries. In contrast, the boundary may play a doubled-edged role in entanglement harvesting, i.e., inhibiting entanglement harvesting in the near zone of the boundary while assisting it in the far zone of the boundary. Moreover, there exists an optimal detector energy gap difference between two nonidentical detectors that makes such detectors advantageous in correlations harvesting as long as the interdetector separation is large enough. The value of the optimal detector energy gap difference depends on both the interdetector separation and the detector-to-boundary distance. A comparison of the correlations harvesting in two different alignments shows that although correlations harvesting share qualitatively the same properties, they also display quantitative differences in that the detectors in vertical-to-boundary alignment always harvest comparatively more mutual information than the parallel-to-boundary ones, while they harvest comparatively more entanglement only near the boundary.
翻訳日:2023-11-30 14:00:55 公開日:2023-11-25
# リードベルク原子を用いたキタエフ量子スピン液体の実現と検出

Realization and detection of Kitaev quantum spin liquid with Rydberg atoms ( http://arxiv.org/abs/2310.12905v2 )

ライセンス: Link先を確認
Yi-Hong Chen, Bao-Zong Wang, Ting-Fung Jeffrey Poon, Xin-Chi Zhou, Zheng-Xin Liu, and Xiong-Jun Liu(参考訳) キタエフのキラルスピン液体は、本質的な非可換励起のため、近年広く関心を集めているが、実験的な実現は困難である。 本稿では,リドベルグ原子の変形したハニカム配列におけるキタエフキラルスピン液体の実現と検出を提案する。 新しいレーザー支援双極子-双極子相互作用機構により、ハードコアボソンの効果的なホッピングとペアリング項の両方を生成し、ファンデルワールス相互作用とともに高精度に純粋なキタエフモデルを実現する。 ギャップ付き非アベリアスピン液体相はゼーマン場を導入して得られる。 さらに,光ブラッグ散乱によるカイラルマヨラナエッジモードの探索と,それらのカイラル運動の想像による革新的な手法を提案する。 我々の研究は、原子系で実現および検出できる異方性量子多体相の範囲を広げ、非アベリア異性体を操作するための重要なステップとなる。

The Kitaev chiral spin liquid has captured widespread interest in recent decades because of its intrinsic non-Abelian excitations, yet the experimental realization is challenging. Here we propose to realize and detect Kitaev chiral spin liquid in a deformed honeycomb array of Rydberg atoms. Through a novel laser-assisted dipole-dipole interaction mechanism to generate both effective hopping and pairing terms for hard-core bosons, together with van der Waals interactions, we achieve the pure Kitaev model with high precision. The gapped non-Abelian spin liquid phase is then obtained by introducing Zeeman fields. Moreover, we propose innovative strategies to probe the chiral Majorana edge modes by light Bragg scattering and by imagining their chiral motion. Our work broadens the range of exotic quantum many-body phases that can be realized and detected in atomic systems, and makes an important step toward manipulating non-Abelian anyons.
翻訳日:2023-11-30 13:55:39 公開日:2023-11-25
# 協調ゲームにおける確率的フレーズの使用:人間対GPT-4

Use of probabilistic phrases in a coordination game: human versus GPT-4 ( http://arxiv.org/abs/2310.10544v3 )

ライセンス: Link先を確認
Laurence T Maloney, Maria F Dal Martello, Vivian Fei and Valerie Ma(参考訳) 英語話者は確率的フレーズを使って、出来事の確率や可能性に関する情報を伝える。 コミュニケーションは、リスナーが伝達する意味を把握できる程度に成功し、もしコミュニケーションが成功すれば、個人は不確実性に関する共有知識に基づいて行動を調整することができる。 まず,2つの異なる文脈における協調ゲームにおける23の確率的フレーズの確率とあいまいさ(精度)を推定する人間の能力を評価した。 そして、大きな言語モデルであるGPT4(OpenAI)が、人間の参加者と同じタスクを完了しました。 中央値のヒト参加者とgpt4は、良好な一致にある確率推定値を割り当てた(分散のプロポーションは .90 に近い)。 GPT4の投資状況と医療状況の双方の確率の推定値は、ヒトの参加者の見積が互いに近いか近いかのどちらかであった。 ヒトとgpt4の確率は文脈によってほとんど影響されなかった。 対照的に、人間とGPT4によるあいまいさの推定は、それほど良い一致ではなかった。

English speakers use probabilistic phrases such as likely to communicate information about the probability or likelihood of events. Communication is successful to the extent that the listener grasps what the speaker means to convey and, if communication is successful, individuals can potentially coordinate their actions based on shared knowledge about uncertainty. We first assessed human ability to estimate the probability and the ambiguity (imprecision) of twenty-three probabilistic phrases in a coordination game in two different contexts, investment advice and medical advice. We then had GPT4 (OpenAI), a Large Language Model, complete the same tasks as the human participants. We found that the median human participant and GPT4 assigned probability estimates that were in good agreement (proportions of variance accounted for close to .90). GPT4's estimates of probability both in the investment and Medical contexts were as close or closer to that of the human participants as the human participants' estimates were to one another. Estimates of probability for both the human participants and GPT4 were little affected by context. In contrast, human and GPT4 estimates of ambiguity were not in such good agreement.
翻訳日:2023-11-30 13:53:16 公開日:2023-11-25
# ゼロショット対話状態追跡の複雑な更新戦略のための大規模言語モデルによる意味解析

Semantic Parsing by Large Language Models for Intricate Updating Strategies of Zero-Shot Dialogue State Tracking ( http://arxiv.org/abs/2310.10520v3 )

ライセンス: Link先を確認
Yuxiang Wu, Guanting Dong, Weiran Xu(参考訳) Zero-shot Dialogue State Tracking (DST)は、タスク指向対話の取得と注釈付けという課題に対処する。 しかし、DSTは単純なスロットフィリングを超えて、会話の進行に伴って対話状態を追跡する効果的な更新戦略を必要とする。 本稿では、ゼロショットDSTにおける複雑な更新戦略を導入するために、新しいインコンテキスト学習(ICL)手法であるParsingDSTを提案する。 提案手法は,強力な大言語モデル(LLM)を活用してDSTタスクを再構築し,セマンティック解析を中間状態として,元の対話文をJSONに変換する。 また、テキストからJSONへのプロセスにおける戦略の更新の有効性を保証するために、より多くのモジュールを含む新しいフレームワークを設計する。 実験の結果,提案手法はマルチウォズにおける既存のゼロショットdst法よりも優れており,既存のicl法に比べてジョイントゴール精度 (jga) とスロット精度が大幅に向上した。 私たちのコードはリリースされました。

Zero-shot Dialogue State Tracking (DST) addresses the challenge of acquiring and annotating task-oriented dialogues, which can be time-consuming and costly. However, DST extends beyond simple slot-filling and requires effective updating strategies for tracking dialogue state as conversations progress. In this paper, we propose ParsingDST, a new In-Context Learning (ICL) method, to introduce additional intricate updating strategies in zero-shot DST. Our approach reformulates the DST task by leveraging powerful Large Language Models (LLMs) and translating the original dialogue text to JSON through semantic parsing as an intermediate state. We also design a novel framework that includes more modules to ensure the effectiveness of updating strategies in the text-to-JSON process. Experimental results demonstrate that our approach outperforms existing zero-shot DST methods on MultiWOZ, exhibiting significant improvements in Joint Goal Accuracy (JGA) and slot accuracy compared to existing ICL methods. Our code has been released.
翻訳日:2023-11-30 13:51:51 公開日:2023-11-25
# 組み込みFPGA用LSTMセルのスループットボトルネックによるエネルギー効率向上

Enhancing Energy-efficiency by Solving the Throughput Bottleneck of LSTM Cells for Embedded FPGAs ( http://arxiv.org/abs/2310.16842v2 )

ライセンス: Link先を確認
Chao Qian, Tianheng Ling, Gregor Schiele(参考訳) センサデータをIoT(Internet of Things)で処理するには,1次元データの組み込みディープラーニングが重要となる。 これまでcnnはfpgaのような特殊な組み込みハードウェアに最適化しやすいため、頻繁に使用されていた。 本研究は,エンドデバイス上でのエネルギー効率を考慮した新しいLSTMセル最適化を提案する。 交通速度予測をケーススタディとして、最適化LSTMセルを持つバニラLSTMモデルは、Spartan-7ファミリーのFPGA XC7S15で1秒あたり3.8ドル\mu$Jしか消費せず、毎秒17534の推論を達成する。 少なくとも5.4$\times$高速スループットと1.37$\times$既存の手法よりもエネルギー効率が高い。

To process sensor data in the Internet of Things(IoTs), embedded deep learning for 1-dimensional data is an important technique. In the past, CNNs were frequently used because they are simple to optimise for special embedded hardware such as FPGAs. This work proposes a novel LSTM cell optimisation aimed at energy-efficient inference on end devices. Using the traffic speed prediction as a case study, a vanilla LSTM model with the optimised LSTM cell achieves 17534 inferences per second while consuming only 3.8 $\mu$J per inference on the FPGA XC7S15 from Spartan-7 family. It achieves at least 5.4$\times$ faster throughput and 1.37$\times$ more energy efficient than existing approaches.
翻訳日:2023-11-30 13:40:36 公開日:2023-11-25
# 公平性、プライバシー、規制規範を備えた責任ある機械学習データセットについて

On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms ( http://arxiv.org/abs/2310.15848v3 )

ライセンス: Link先を確認
Surbhi Mittal, Kartik Thakral, Richa Singh, Mayank Vatsa, Tamar Glaser, Cristian Canton Ferrer, Tal Hassner(参考訳) 人工知能(AI)は様々な科学分野に進出し、様々なタスクのために既存のアルゴリズムよりも驚くほど改善されている。 近年、AI技術の信頼性に対する深刻な懸念が高まっている。 科学コミュニティは信頼できるAIアルゴリズムの開発に注力してきた。 しかし、今日のaiコミュニティで人気がある機械学習とディープラーニングのアルゴリズムは、開発中のデータに大きく依存している。 これらの学習アルゴリズムはデータのパターンを特定し、行動目標を学習する。 データ中のあらゆる欠陥は、直接アルゴリズムに翻訳する可能性がある。 本研究では,Responsible Machine Learning Datasetsの重要性を論じ,責任のあるルーリックを用いてデータセットを評価するフレームワークを提案する。 既存の研究は,アルゴリズムの信頼性評価に重点を置いているが,我々は,データコンポーネントを別々に考慮し,アルゴリズムにおけるその役割を理解するフレームワークを提供する。 我々は、公正、プライバシー、規制遵守のレンズを通して責任あるデータセットを議論し、将来のデータセットを構築するための推奨事項を提供する。 100以上のデータセットを調査した後、分析に60のデータセットを使用し、フェアネス、プライバシ保護、規制遵守の問題に影響を受けないことを示した。 私たちは ``datasheets for datasets" の修正を行い、データセットドキュメントの改善に重要な追加を加えました。 世界中の政府がデータ保護法を規則化しているため、科学コミュニティでデータセットを作成するには修正が必要である。 この研究は、今日のAIの時代において、タイムリーで重要なものだと考えています。

Artificial Intelligence (AI) has made its way into various scientific fields, providing astonishing improvements over existing algorithms for a wide variety of tasks. In recent years, there have been severe concerns over the trustworthiness of AI technologies. The scientific community has focused on the development of trustworthy AI algorithms. However, machine and deep learning algorithms, popular in the AI community today, depend heavily on the data used during their development. These learning algorithms identify patterns in the data, learning the behavioral objective. Any flaws in the data have the potential to translate directly into algorithms. In this study, we discuss the importance of Responsible Machine Learning Datasets and propose a framework to evaluate the datasets through a responsible rubric. While existing work focuses on the post-hoc evaluation of algorithms for their trustworthiness, we provide a framework that considers the data component separately to understand its role in the algorithm. We discuss responsible datasets through the lens of fairness, privacy, and regulatory compliance and provide recommendations for constructing future datasets. After surveying over 100 datasets, we use 60 datasets for analysis and demonstrate that none of these datasets is immune to issues of fairness, privacy preservation, and regulatory compliance. We provide modifications to the ``datasheets for datasets" with important additions for improved dataset documentation. With governments around the world regularizing data protection laws, the method for the creation of datasets in the scientific community requires revision. We believe this study is timely and relevant in today's era of AI.
翻訳日:2023-11-30 13:39:57 公開日:2023-11-25
# 量子重力におけるユニタリティのリアリスト解釈

A Realist Interpretation of Unitarity in Quantum Gravity ( http://arxiv.org/abs/2310.15157v3 )

ライセンス: Link先を確認
Indrajit Sen, Stephon Alexander, Justin Dressel(参考訳) ユニタリティは、状態の非正規化性と時間の問題のため、正準量子重力において実装するのが難しい概念である。 パイロット波理論に基づく現実主義的アプローチを採用し、ホイーラー・ド・ウィット方程式のアシュテカール式でこの問題に対処する。 我々は,最近議論された重力-フェルミオン系の大域的時間を定義するために,理論における定配置の仮定を用いる(Phys)。 D 106.10 (2022): 106012) コダマ状態に依存するワイルスピナーの変種をパラメータ化する。 全体ハミルトニアン制約は、半古典近似を含まずに時間依存シュロディンガー方程式を与え、構成空間上の局所連続性方程式を導出する。 誘導方程式のレベルで現実条件を実装し,システム軌道に沿った実スピン接続,外在曲率,トライアドを得る。 誘導方程式から時空をデシッターする量子補正を得る。 非正規化可能なコダマ状態は、保存電流密度の完全な量子状態から自然に分解され、量子力学的ユニタリティの可能性を開く。 また,非正規化可能な状態に適用可能なユニタリティの概念をパイロット波で一般化し,系の平衡密度の存在を示す。 最後に、ハミルトニアン制約の近似解を見つけることにより、ミニ超空間におけるユニタリ状態を見つける。

Unitarity is a difficult concept to implement in canonical quantum gravity because of state non-normalizability and the problem of time. We take a realist approach based on pilot-wave theory to address this issue in the Ashtekar formulation of the Wheeler-de Witt equation. We use the postulate of a definite configuration in the theory to define a global time for the gravitational-fermionic system recently discussed in (Phys. Rev. D 106.10 (2022): 106012), by parameterizing a variation of a Weyl-spinor that depends on the Kodama state. The total Hamiltonian constraint yields a time-dependent Schrodinger equation, without semi-classical approximations, which we use to derive a local continuity equation over the configuration space. We implement the reality conditions at the level of the guidance equation, and obtain a real spin-connection, extrinsic curvature and triad along the system trajectory. We obtain quantum corrections to deSitter spacetime from the guidance equation. The non-normalizable Kodama state is naturally factored out of the full quantum state in the conserved current density, opening the possibility for quantum-mechanical unitarity. We also give a pilot-wave generalisation of the notion of unitarity applicable to non-normalizable states, and show the existence of equilibrium density for our system. Lastly, we find unitary states in mini-superspace by finding an approximate solution to the Hamiltonian constraint.
翻訳日:2023-11-30 13:39:35 公開日:2023-11-25
# 変圧器の追加を理解する

Understanding Addition in Transformers ( http://arxiv.org/abs/2310.13121v4 )

ライセンス: Link先を確認
Philip Quirke, Fazl Barez(参考訳) Transformersのような機械学習モデルの内部動作を理解することは、安全で倫理的な使用に不可欠である。 本稿では,n桁整数加算のための1層トランスフォーマーモデルの詳細解析を行う。 本モデルでは,タスクを並列な桁別ストリームに分割し,異なる桁位置の異なるアルゴリズムを用いる。 我々の研究は、モデルが計算を遅く開始するが、迅速に実行することも見出した。 高損失の稀なユースケースが同定され、説明される。 全体として、モデルのアルゴリズムは詳細に説明されている。 これらの発見は厳密なテストと数学的モデリングを通じて検証され、機械的解釈可能性、AI安全性、アライメントにおける幅広い研究に貢献した。 我々のアプローチは、より複雑なタスクと多層トランスフォーマーモデルを分析するための扉を開く。

Understanding the inner workings of machine learning models like Transformers is vital for their safe and ethical use. This paper presents an in-depth analysis of a one-layer Transformer model trained for n-digit integer addition. We reveal that the model divides the task into parallel, digit-specific streams and employs distinct algorithms for different digit positions. Our study also finds that the model starts calculations late but executes them rapidly. A rare use case with high loss is identified and explained. Overall, the model's algorithm is explained in detail. These findings are validated through rigorous testing and mathematical modeling, contributing to the broader works in Mechanistic Interpretability, AI safety, and alignment. Our approach opens the door for analyzing more complex tasks and multi-layer Transformer models.
翻訳日:2023-11-30 13:36:50 公開日:2023-11-25
# 先進論理プログラムにおける等価性の自動検証 -- Bachelor Thesis

Automated Verification of Equivalence Properties in Advanced Logic Programs -- Bachelor Thesis ( http://arxiv.org/abs/2310.19806v2 )

ライセンス: Link先を確認
Jan Heuer(参考訳) 回答セットプログラミングを用いた産業アプリケーションの増加に伴い、特に重要なアプリケーション向けの形式的検証ツールの必要性も高まっている。 プログラム最適化プロセスでは、最適化されたサブプログラムが元のサブプログラムを置き換えることができるかどうかを自動的に検証するツールが望ましい。 形式的には、2つのプログラムの強い等価性を検証する問題に対応する。 そのため、翻訳ツールのアンセムが開発された。 2つのプログラムが強く同値であることを検証するために、古典論理の自動定理証明器と併用することができる。 現在のバージョンのアンセムでは、限定された入力言語を持つ正のプログラムの強い等価性のみが検証できる。 これは、ここで論理式を生成するアンセムで実装された翻訳$\tau^*$の結果であり、これは正のプログラムに対してのみ古典論理と一致する。 この論文はこれらの制限を克服するために国歌を拡張している。 まず、変換 $\sigma^*$ が提示され、ここでの論理式から古典論理へ変換される。 定理は、$\sigma^*$ が古典論理学のここでの論理における同値性を表現するのにどのように使用できるかを定式化する。 第二に、$\tau^*$ はプールを含むプログラムに拡張される。 別の定理は、2つのプログラムの古典論理における強同値を表現するために、$\sigma^*$ と$\tau^*$ を組み合わせる方法を示している。 拡張された$\sigma^*$ と$\tau^*$ により、否定、単純な選択、プールを含む論理プログラムの強い等価性を表現することができる。 拡張された$\tau^*$ と $\sigma^*$ の両方が、新しいバージョンのアンセムで実装されている。 アンセムの新しいバージョンが古典論理に翻訳できるプール、否定、簡単な選択規則を含む論理プログラムのいくつかの例を示す。 ちょっと...

With the increase in industrial applications using Answer Set Programming, the need for formal verification tools, particularly for critical applications, has also increased. During the program optimisation process, it would be desirable to have a tool which can automatically verify whether an optimised subprogram can replace the original subprogram. Formally this corresponds to the problem of verifying the strong equivalence of two programs. In order to do so, the translation tool anthem was developed. It can be used in conjunction with an automated theorem prover for classical logic to verify that two programs are strongly equivalent. With the current version of anthem, only the strong equivalence of positive programs with a restricted input language can be verified. This is a result of the translation $\tau^*$ implemented in anthem that produces formulas in the logic of here-and-there, which coincides with classical logic only for positive programs. This thesis extends anthem in order to overcome these limitations. First, the transformation $\sigma^*$ is presented, which transforms formulas from the logic of here-and-there to classical logic. A theorem formalises how $\sigma^*$ can be used to express equivalence in the logic of here-and-there in classical logic. Second, the translation $\tau^*$ is extended to programs containing pools. Another theorem shows how $\sigma^*$ can be combined with $\tau^*$ to express the strong equivalence of two programs in classical logic. With $\sigma^*$ and the extended $\tau^*$, it is possible to express the strong equivalence of logic programs containing negation, simple choices, and pools. Both the extended $\tau^*$ and $\sigma^*$ are implemented in a new version of anthem. Several examples of logic programs containing pools, negation, and simple choice rules, which the new version of anthem can translate to classical logic, are presented. Some a...
翻訳日:2023-11-30 13:29:04 公開日:2023-11-25
# 大規模言語モデルの評価: 包括的調査

Evaluating Large Language Models: A Comprehensive Survey ( http://arxiv.org/abs/2310.19736v3 )

ライセンス: Link先を確認
Zishan Guo, Renren Jin, Chuang Liu, Yufei Huang, Dan Shi, Supryadi, Linhao Yu, Yan Liu, Jiaxuan Li, Bojian Xiong, Deyi Xiong(参考訳) 大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な能力を示している。 それらは大きな注目を集め、多くの下流アプリケーションにデプロイされた。 しかし、両刃の剣と同様、LLMも潜在的なリスクを生じさせる。 プライベートなデータ漏洩に悩まされたり、不適切で有害なコンテンツや誤解を招く可能性がある。 さらに、LSMの急速な進歩は、適切な安全を守ることなく超知能システムの出現を懸念する。 LLMのキャパシティを効果的に活用し、その安全で有益な開発を確保するためには、厳密かつ包括的なLCMの評価を行うことが重要である。 本調査は, LLMの評価に対するパノラマ的な視点を提供するためのものである。 llmの評価を,知識・能力評価,アライメント評価,安全性評価の3つのグループに分類した。 これら3つの側面に関する評価手法とベンチマークに関する総合的なレビューに加えて、特殊領域におけるLLMの性能に関する評価のコンペティションをまとめ、能力、アライメント、安全性、適用性に関するLCM評価をカバーする総合的な評価プラットフォームの構築について論じる。 この総合的な概要は、LCMの評価におけるさらなる研究の関心を刺激し、LCMの責任を負う開発を導く上で、最終的な目的として評価を行うことを期待する。 これが彼らの進化を、潜在的なリスクを最小化しつつ、社会的利益を最大化する方向に導くと期待している。 関連論文のキュレーションリストはhttps://github.com/tjunlp-lab/awesome-llms-evaluation-papersで公開されている。

Large language models (LLMs) have demonstrated remarkable capabilities across a broad spectrum of tasks. They have attracted significant attention and been deployed in numerous downstream applications. Nevertheless, akin to a double-edged sword, LLMs also present potential risks. They could suffer from private data leaks or yield inappropriate, harmful, or misleading content. Additionally, the rapid progress of LLMs raises concerns about the potential emergence of superintelligent systems without adequate safeguards. To effectively capitalize on LLM capacities as well as ensure their safe and beneficial development, it is critical to conduct a rigorous and comprehensive evaluation of LLMs. This survey endeavors to offer a panoramic perspective on the evaluation of LLMs. We categorize the evaluation of LLMs into three major groups: knowledge and capability evaluation, alignment evaluation and safety evaluation. In addition to the comprehensive review on the evaluation methodologies and benchmarks on these three aspects, we collate a compendium of evaluations pertaining to LLMs' performance in specialized domains, and discuss the construction of comprehensive evaluation platforms that cover LLM evaluations on capabilities, alignment, safety, and applicability. We hope that this comprehensive overview will stimulate further research interests in the evaluation of LLMs, with the ultimate goal of making evaluation serve as a cornerstone in guiding the responsible development of LLMs. We envision that this will channel their evolution into a direction that maximizes societal benefit while minimizing potential risks. A curated list of related papers has been publicly available at https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers.
翻訳日:2023-11-30 13:28:13 公開日:2023-11-25
# マルチモーダル卓球ロボットシステム

A multi-modal table tennis robot system ( http://arxiv.org/abs/2310.19062v2 )

ライセンス: Link先を確認
Andreas Ziegler, Thomas Gossard, Karl Vetter, Jonas Tebbe, Andreas Zell(参考訳) 近年では、ロボットによる卓球が認知とロボット制御のための研究課題となっている。 本稿では,高精度な視覚検出と高速なロボット反応を備えたテーブルテニスロボットシステムを提案する。 これまでの研究に基づいて、我々のシステムはKUKAロボットアームと6 DOF、フレームベースのカメラ4台とイベントベースのカメラ2台を備えている。 このマルチモーダル認識システムを校正するための新しい校正手法を開発した。 卓球ではスピン推定が重要である。 そこで我々は,新しい,より正確なスピン推定手法を導入した。 最後に,イベントベースカメラの出力とスパイクニューラルネットワーク(snn)を組み合わせることで,球の検出精度が向上することを示す。

In recent years, robotic table tennis has become a popular research challenge for perception and robot control. Here, we present an improved table tennis robot system with high accuracy vision detection and fast robot reaction. Based on previous work, our system contains a KUKA robot arm with 6 DOF, with four frame-based cameras and two additional event-based cameras. We developed a novel calibration approach to calibrate this multimodal perception system. For table tennis, spin estimation is crucial. Therefore, we introduced a novel, and more accurate spin estimation approach. Finally, we show how combining the output of an event-based camera and a Spiking Neural Network (SNN) can be used for accurate ball detection.
翻訳日:2023-11-30 13:27:05 公開日:2023-11-25
# 動的最適輸送問題のための新しいスキップ直交リスト

A Novel Skip Orthogonal List for Dynamic Optimal Transport Problem ( http://arxiv.org/abs/2310.18446v2 )

ライセンス: Link先を確認
Xiaoyang Xu, Hu Ding(参考訳) 最適な輸送は、過去数十年間、機械学習コミュニティから多くの注目を集めてきた基本的なトピックである。 本稿では,データポイントの重みや位置が変化するとき,最適輸送計画を効率的に更新できるかという,興味深い離散的動的最適輸送問題を考える。 この問題は、機械学習のいくつかの応用によって自然に動機付けられている。 例えば、2つの異なるデータセット間の最適な輸送コストを計算する必要がある。いくつかのデータポイントに何らかの変更が発生した場合、高複雑性コスト関数を再計算するか、あるいは効率的な動的データ構造によってコストを更新するべきか? これまでいくつかの動的最大フローアルゴリズムが提案されてきたが、我々の知る限りでは、動的最小コストフロー問題の研究はまだかなり限られている。 本稿では,新しい2次元スキップ直交リストと動的木手法を提案する。 このアルゴリズムは従来のsimplex法に基づいているが、各ピボット操作をo(|v|)$時間で効率的に完了でき、そこでは$v$が全ての需給ノードの集合である確率が高い。 動的修正は通常大きな変更を起こさないため、我々のアルゴリズムは実際に数回の単純な反復しか必要としない。 したがって、一般的な場合、O(|E|) = O(|V|^2)$変数に対して少なくとも1つのトラバーサルを必要とする最適な輸送コストを再計算するよりも効率的である。 実験により,本アルゴリズムが動的シナリオにおいて既存のアルゴリズムを大きく上回ることを示した。

Optimal transportation is a fundamental topic that has attracted a great amount of attention from machine learning community in the past decades. In this paper, we consider an interesting discrete dynamic optimal transport problem: can we efficiently update the optimal transport plan when the weights or the locations of the data points change? This problem is naturally motivated by several applications in machine learning. For example, we often need to compute the optimal transportation cost between two different data sets; if some change happens to a few data points, should we re-compute the high complexity cost function or update the cost by some efficient dynamic data structure? We are aware that several dynamic maximum flow algorithms have been proposed before, however, the research on dynamic minimum cost flow problem is still quite limited, to the best of our knowledge. We propose a novel 2D Skip Orthogonal List together with some dynamic tree techniques. Although our algorithm is based on the conventional simplex method, it can efficiently complete each pivoting operation within $O(|V|)$ time with high probability where $V$ is the set of all supply and demand nodes. Since dynamic modifications typically do not introduce significant changes, our algorithm requires only a few simplex iterations in practice. So our algorithm is more efficient than re-computing the optimal transportation cost that needs at least one traversal over all the $O(|E|) = O(|V|^2)$ variables in general cases. Our experiments demonstrate that our algorithm significantly outperforms existing algorithms in the dynamic scenarios.
翻訳日:2023-11-30 13:26:35 公開日:2023-11-25
# OffMix-3L: 攻撃的言語識別のためのバングラ・イングリッシュ・ヒンディーにおける新しいコード混合データセット

OffMix-3L: A Novel Code-Mixed Dataset in Bangla-English-Hindi for Offensive Language Identification ( http://arxiv.org/abs/2310.18387v2 )

ライセンス: Link先を確認
Dhiman Goswami, Md Nishat Raihan, Antara Mahmud, Antonios Anastasopoulos, Marcos Zampieri(参考訳) コードミキシング(code-mixing)は、2つ以上の言語をテキストまたは音声で混合するよく研究された言語現象である。 データセットの構築や、コード混合データ上で下流のnlpタスクを実行する作業がいくつか行われている。 3つ以上の言語のコード混合を観察することは珍しくないが、このドメインで利用可能なデータセットのほとんどは、2つの言語からのコード混合データを含んでいる。 本稿では,3言語間のコード混合データを含む攻撃的言語識別データセットであるOFMix-3Lを紹介する。 本稿では,BanglishBERTが他のトランスフォーマーモデルやGPT-3.5より優れていることを示す。

Code-mixing is a well-studied linguistic phenomenon when two or more languages are mixed in text or speech. Several works have been conducted on building datasets and performing downstream NLP tasks on code-mixed data. Although it is not uncommon to observe code-mixing of three or more languages, most available datasets in this domain contain code-mixed data from only two languages. In this paper, we introduce OffMix-3L, a novel offensive language identification dataset containing code-mixed data from three different languages. We experiment with several models on this dataset and observe that BanglishBERT outperforms other transformer-based models and GPT-3.5.
翻訳日:2023-11-30 13:26:10 公開日:2023-11-25
# 量子キックトップにおけるカオスの動的シグネチャの周期性

Periodicity of dynamical signatures of chaos in quantum kicked top ( http://arxiv.org/abs/2311.03795v2 )

ライセンス: Link先を確認
Sreeram PG, M.S. Santhanam(参考訳) 量子相関の一連の動的測度(時間外順序相関子、ロスシュミットエコー、一般化された絡み合い、観測エントロピー)は、量子構造における古典的カオスダイナミクスを推測するのに有用である。 本研究では、これらの測度を用いて、キック強度を$k$で解析する。 定義の違いにもかかわらず、これらの測度は k$ の周期的であり、周期性はキックされたトップで表されるスピンの数に依存することが示されている。 周期的な振舞いはキックされたトップフロケ作用素の構造から生じ、対応する古典力学が主にカオスである体制にまたがる。 この結果は、繰り返しのダイナミクスを避けるために、正しいキック強度の選択に向けて実験を導くことができる。

A host of dynamical measures of quantum correlations -- out-of-time ordered correlators, Loschmidt echo, generalized entanglement and observational entropy -- are useful to infer about the underlying classical chaotic dynamics in quantum regime. In this work, these measures are employed to analyse quantum kicked top with kick strength $k$. It is shown that, despite the differences in their definitions, these measures are periodic with $k$, and the periodicity depends on the number of spins represented by the kicked top. The periodic behaviour arises from the structure of the kicked top Floquet operator and spans the regime in which the corresponding classical dynamics is predominantly chaotic. This result can guide experiments towards the right choice of kick strengths to avoid repetitive dynamics.
翻訳日:2023-11-30 13:19:02 公開日:2023-11-25
# 部分絡み合いエントロピーの測地:PEEスレッドからビットスレッドへ

Geometrizing the Partial Entanglement Entropy: from PEE Threads to Bit Threads ( http://arxiv.org/abs/2311.02301v2 )

ライセンス: Link先を確認
Jiong Lin, Yizhou Lu, Qiang Wen(参考訳) ホログラフィックCFTにおける部分絡み合いエントロピー(PEE)をAdS/CFTの文脈で測る手法を提案する。 より具体的には、ある点 $\textbf{x}$ が与えられたとき、これらの2点を接続するバルク測地学の観点で、$\textbf{x}$ と他の任意の点の間の2点 PEE を測地する。 我々はこれらの測地線を \textit{pee threads} と呼び、これは自然に分岐のないベクトル場 $v_{\textbf{x}}^{\mu}$ の積分曲線と見なすことができ、これは我々が \emph{pee thread flow} と呼ぶ。 PEEスレッドの密度を特徴付ける$V_{\textbf{x}}^{\mu}$のノルムは、PEEの物理的要求によって決定できる。 任意の静的区間または球面領域$A$に対して、状態によって決定されるPEEスレッド構成からユニークなビットスレッド構成を生成することができることを示す。 したがって、中性でないビットスレッドは、内在的なpeスレッドから発生する。 静的非連結区間の場合、分散のない流れを記述するベクトル場はRT式を再現するのにより適している。 我々は、PEEスレッドを任意のホモロジー曲面と交差する回数で重み付けする。 代わりに、RT式は、全ての重みの割り当てが可能なPEEスレッドの和の最小化として完全に再構成される。

We give a scheme to geometrize the partial entanglement entropy (PEE) for holographic CFT in the context of AdS/CFT. More explicitly, given a point $\textbf{x}$ we geometrize the two-point PEEs between $\textbf{x}$ and any other points in terms of the bulk geodesics connecting these two points. We refer to these geodesics as the \textit{PEE threads}, which can be naturally regarded as the integral curves of a divergenceless vector field $V_{\textbf{x}}^{\mu}$, which we call \emph{PEE thread flow}. The norm of $V_{\textbf{x}}^{\mu}$ that characterizes the density of the PEE threads can be determined by some physical requirements of the PEE. We show that, for any static interval or spherical region $A$, a unique bit thread configuration can be generated from the PEE thread configuration determined by the state. Hence, the non-intrinsic bit threads are emergent from the intrinsic PEE threads. For static disconnected intervals, the vector fields describing a divergenceless flow is are longer suitable to reproduce the RT formula. We weight the PEE threads with the number of times it intersects with any homologous surface. Instead the RT formula is perfectly reformulated to be the minimization of the summation of the PEE threads with all possible assignment of weights.
翻訳日:2023-11-30 13:18:02 公開日:2023-11-25
# エントロピーに基づくビジュアル説明による衛星部品認識のためのPEEKをYOLOv5に取り入れる

Taking a PEEK into YOLOv5 for Satellite Component Recognition via Entropy-based Visual Explanations ( http://arxiv.org/abs/2311.01703v2 )

ライセンス: Link先を確認
Mackenzie J. Meni, Trupti Mahendrakar, Olivia D. M. Raney, Ryan T. White, Michael L. Mayo, and Kevin Pilkiewicz(参考訳) 衝突のリスクの増大と、低軌道軌道(LEO)における宇宙ゴミの蓄積は、宇宙機の増加により重大な懸念を浴びている。 この危機への対処、特に非協力的で未確認の宇宙ゴミを扱うことは重要な課題である。 本稿では,小型チェイス衛星の自律群集を目標形状決定やLEOの近接運用のための安全な飛行軌道計画に活用するための取り組みに貢献する。 本研究は、衛星部品検出訓練対象検出モデル「You Only Look Once v5」(YOLOv5)の軌道上での利用について検討する。 このモデルには有望さが示されているが、本質的に解釈可能性の欠如は、安全クリティカルなミッションで使用するアルゴリズムを検証する上で重要な側面である人間の理解を妨げる。 決定過程を分析するために,モデルの隠れた層内における潜在表現の情報理論解析を利用したエントロピー知識抽出(peek)の確率論的説明を紹介する。 ハードウェア・イン・ザ・ループの実験の両方を通じて、PEEKはモデルの意思決定プロセスを照らし、その強さ、限界、バイアスを特定するのに役立つ。

The escalating risk of collisions and the accumulation of space debris in Low Earth Orbit (LEO) has reached critical concern due to the ever increasing number of spacecraft. Addressing this crisis, especially in dealing with non-cooperative and unidentified space debris, is of paramount importance. This paper contributes to efforts in enabling autonomous swarms of small chaser satellites for target geometry determination and safe flight trajectory planning for proximity operations in LEO. Our research explores on-orbit use of the You Only Look Once v5 (YOLOv5) object detection model trained to detect satellite components. While this model has shown promise, its inherent lack of interpretability hinders human understanding, a critical aspect of validating algorithms for use in safety-critical missions. To analyze the decision processes, we introduce Probabilistic Explanations for Entropic Knowledge extraction (PEEK), a method that utilizes information theoretic analysis of the latent representations within the hidden layers of the model. Through both synthetic in hardware-in-the-loop experiments, PEEK illuminates the decision-making processes of the model, helping identify its strengths, limitations and biases.
翻訳日:2023-11-30 13:16:56 公開日:2023-11-25
# 動的マルチモーダル情報ボトルネックによるマルチモーダリティ分類

Dynamic Multimodal Information Bottleneck for Multimodality Classification ( http://arxiv.org/abs/2311.01066v3 )

ライセンス: Link先を確認
Yingying Fang, Shuang Wu, Sheng Zhang, Chaoyan Huang, Tieyong Zeng, Xiaodan Xing, Simon Walsh, Guang Yang(参考訳) 様々な画像、検査、臨床情報などのマルチモーダルデータを効果的に活用することは、さまざまなAIベースの診断や予後タスクにおいて、注目を集めている。 既存のマルチモーダル技術のほとんどは、さまざまなモダリティの差異や共有機能を活用し、異なるモダリティにまたがる特徴を融合することによって、パフォーマンスの向上にのみ重点を置いている。 これらのアプローチは概して臨床に最適ではなく、訓練データに制限があるという追加の課題を生じさせ、冗長なデータやノイズのあるモダリティチャネルに悩まされ、サブパーのパフォーマンスをもたらす。 このギャップに対処するために,データ冗長性とノイズに対する既存手法のロバスト性について検討し,ロバストな融合特徴表現を実現するための一般化された動的マルチモーダル情報ボトルネックフレームワークを提案する。 具体的には,我々の情報ボトルネックモジュールは, 溶融機能におけるタスク関連情報やノイズをフィルタリングし, さらに, タスク関連情報の削除を防止するための十分損失を導入し, 蒸留機能における予測情報の効率を明示的に保存する。 我々は、死亡予測のための社内および公的covid-19データセットおよび診断タスクのための2つの公的バイオメディカルデータセット上で、このモデルを検証する。 広汎な実験により,本手法は最先端を超越し,より堅牢であり,大規模ノイズチャネルが存在する場合にのみ性能を維持する方法であることがわかった。 私たちのコードはhttps://github.com/ayanglab/DMIB.comで公開されています。

Effectively leveraging multimodal data such as various images, laboratory tests and clinical information is gaining traction in a variety of AI-based medical diagnosis and prognosis tasks. Most existing multi-modal techniques only focus on enhancing their performance by leveraging the differences or shared features from various modalities and fusing feature across different modalities. These approaches are generally not optimal for clinical settings, which pose the additional challenges of limited training data, as well as being rife with redundant data or noisy modality channels, leading to subpar performance. To address this gap, we study the robustness of existing methods to data redundancy and noise and propose a generalized dynamic multimodal information bottleneck framework for attaining a robust fused feature representation. Specifically, our information bottleneck module serves to filter out the task-irrelevant information and noises in the fused feature, and we further introduce a sufficiency loss to prevent dropping of task-relevant information, thus explicitly preserving the sufficiency of prediction information in the distilled feature. We validate our model on an in-house and a public COVID19 dataset for mortality prediction as well as two public biomedical datasets for diagnostic tasks. Extensive experiments show that our method surpasses the state-of-the-art and is significantly more robust, being the only method to remain performance when large-scale noisy channels exist. Our code is publicly available at https://github.com/ayanglab/DMIB.
翻訳日:2023-11-30 13:15:33 公開日:2023-11-25
# Vision-Language Instruction Tuning: レビューと分析

Vision-Language Instruction Tuning: A Review and Analysis ( http://arxiv.org/abs/2311.08172v2 )

ライセンス: Link先を確認
Chen Li, Yixiao Ge, Dian Li, and Ying Shan(参考訳) インストラクションチューニングは、LLMが命令実行を一般化し、ユーザの好みに適応する能力を高めることを目的とした、Large Language Models(LLM)における重要な教師付きトレーニングフェーズである。 マルチモーダルデータのLLMへの統合が進むにつれ、純粋なテキスト命令チューニングよりも複雑な特徴を示すビジョン・ランゲージ・インストラクション・チューニング(VLIT)への関心が高まっている。 本稿では,マルチモーダルLLMにおける最新のVLIT設定と対応するデータセットを体系的にレビューし,その背景にある本質的なモチベーションについて考察する。 最初に、既存のVLITデータセットの詳細な多重パースペクティブ分類を提供し、高品質なVLITデータが持つべき特性を識別する。 これらの特徴を既存のVLITデータ構築プロセスに導出する原理として取り入れることで、我々は広範囲な実験を行い、調整されたマルチモーダルLCMの性能に対する肯定的な影響を検証した。 さらに,VLITの現在の課題と今後の研究方向性について論じ,この分野の継続的な発展に対する洞察を提供する。 本論文に関連するコードとデータセットはhttps://github.com/palchenli/VL-Instruction-Tuning.comで公開されている。

Instruction tuning is a crucial supervised training phase in Large Language Models (LLMs), aiming to enhance the LLM's ability to generalize instruction execution and adapt to user preferences. With the increasing integration of multi-modal data into LLMs, there is growing interest in Vision-Language Instruction Tuning (VLIT), which presents more complex characteristics compared to pure text instruction tuning. In this paper, we systematically review the latest VLIT settings and corresponding datasets in multi-modal LLMs and provide insights into the intrinsic motivations behind their design. For the first time, we offer a detailed multi-perspective categorization for existing VLIT datasets and identify the characteristics that high-quality VLIT data should possess. By incorporating these characteristics as guiding principles into the existing VLIT data construction process, we conduct extensive experiments and verify their positive impact on the performance of tuned multi-modal LLMs. Furthermore, we discuss the current challenges and future research directions of VLIT, providing insights for the continuous development of this field. The code and dataset related to this paper have been open-sourced at https://github.com/palchenli/VL-Instruction-Tuning.
翻訳日:2023-11-30 12:53:36 公開日:2023-11-25
# ローターおよび発振器のクリフォード演算とホモロジー符号

Clifford operations and homological codes for rotors and oscillators ( http://arxiv.org/abs/2311.07679v3 )

ライセンス: Link先を確認
Yijia Xu, Yixu Wang, and Victor V. Albert(参考訳) 本研究では,円上の粒子の状態空間である平面ローターの量子情報処理プリミティブを開発する。 ロータ波動関数を周期的に同定された高調波発振器の波動関数として解釈することにより、ロータが継承するボゾンガウス演算のグループを決定する。 この$n$-rotor Clifford group, $\text{U}(1)^{n(n+1)/2} \rtimes \text{GL}_n(\mathbb{Z})$, は連続な$\text{U}(1)$ gates で表される。 我々は、クリフォード演算の等価性に基づいて、ホモロジーロータ誤り訂正符号(arXiv:2303.13723)と様々なロータ状態の分類を行う。 逆方向では、非負角運動量のロータ状態として占有数状態を解釈することにより、ホモロジーロータ符号とロータクリフォード演算を振動子にマッピングする。 これにより、新しいマルチモードホモロジーボソニック符号が、対応するエンコーディングとデコード回路とともに、占有数や変化に対する防御を行う。 特に,条件付き職業数加算とポスト選択を用いて振動子位相を非破壊的に測定する方法を示す。 また,gkp安定化符号 [arxiv:1903.12615] の複数のロータと発振器について概説する。

We develop quantum information processing primitives for the planar rotor, the state space of a particle on a circle. By interpreting rotor wavefunctions as periodically identified wavefunctions of a harmonic oscillator, we determine the group of bosonic Gaussian operations inherited by the rotor. This $n$-rotor Clifford group, $\text{U}(1)^{n(n+1)/2} \rtimes \text{GL}_n(\mathbb{Z})$, is represented by continuous $\text{U}(1)$ gates generated by polynomials quadratic in angular momenta, as well as discrete $\text{GL}_n(\mathbb Z)$ momentum sign-flip and sum gates. We classify homological rotor error-correcting codes [arXiv:2303.13723] and various rotor states based on equivalence under Clifford operations. Reversing direction, we map homological rotor codes and rotor Clifford operations back into oscillators by interpreting occupation-number states as rotor states of non-negative angular momentum. This yields new multimode homological bosonic codes protecting against dephasing and changes in occupation number, along with their corresponding encoding and decoding circuits. In particular, we show how to non-destructively measure the oscillator phase using conditional occupation-number addition and post selection. We also outline several rotor and oscillator varieties of the GKP-stabilizer codes [arXiv:1903.12615].
翻訳日:2023-11-30 12:53:14 公開日:2023-11-25
# スペクトルGPT:スペクトル基礎モデル

SpectralGPT: Spectral Foundation Model ( http://arxiv.org/abs/2311.07113v2 )

ライセンス: Link先を確認
Danfeng Hong, Bing Zhang, Xuyang Li, Yuxuan Li, Chenyu Li, Jing Yao, Naoto Yokoya, Hao Li, Pedram Ghamisi, Xiuping Jia, Antonio Plaza, Gamba Paolo, Jon Atli Benediktsson, Jocelyn Chanussot(参考訳) ファウンデーションモデルは、視覚表現学習の分野を自己指導的に革新する可能性から、近年大きな注目を集めている。 ほとんどの基礎モデルは、様々な視覚的タスクのためにRGB画像を効果的に処理するように調整されているが、特にリモートセンシング(RS)アプリケーションにおいて、シーン理解に有用な情報を提供するスペクトルデータに焦点を当てた研究には、顕著なギャップがある。 このギャップを埋めるために,新しい3次元生成プリトレーニングトランス(gpt)を用いて,スペクトルrs画像を処理する目的で開発されたspectrumgptというユニバーサルrs基盤モデルが初めて作成した。 既存の基礎モデルとの比較,SpectralGPT 1) さまざまなサイズ,解像度,時系列,領域の入力画像をプログレッシブなトレーニング方法で収容し,広範なrsビッグデータのフル活用を可能にする。 2)空間-スペクトル結合のための3次元トークン生成を利用する。 3)多目的再構成によるスペクトル逐次パターンのキャプチャ 4) スペクトルRS画像100万枚をトレーニングし、6億以上のパラメータを持つモデルを生成する。 我々の評価は、事前訓練されたスペクトルGPTモデルによる顕著な性能向上を強調し、単一/複数ラベルシーン分類、セマンティックセグメンテーション、変化検出の4つの下流タスクにまたがる地球科学分野におけるスペクトルRSビッグデータ応用の進歩の可能性を示している。

The foundation model has recently garnered significant attention due to its potential to revolutionize the field of visual representation learning in a self-supervised manner. While most foundation models are tailored to effectively process RGB images for various visual tasks, there is a noticeable gap in research focused on spectral data, which offers valuable information for scene understanding, especially in remote sensing (RS) applications. To fill this gap, we created for the first time a universal RS foundation model, named SpectralGPT, which is purpose-built to handle spectral RS images using a novel 3D generative pretrained transformer (GPT). Compared to existing foundation models, SpectralGPT 1) accommodates input images with varying sizes, resolutions, time series, and regions in a progressive training fashion, enabling full utilization of extensive RS big data; 2) leverages 3D token generation for spatial-spectral coupling; 3) captures spectrally sequential patterns via multi-target reconstruction; 4) trains on one million spectral RS images, yielding models with over 600 million parameters. Our evaluation highlights significant performance improvements with pretrained SpectralGPT models, signifying substantial potential in advancing spectral RS big data applications within the field of geoscience across four downstream tasks: single/multi-label scene classification, semantic segmentation, and change detection.
翻訳日:2023-11-30 12:51:54 公開日:2023-11-25
# 等方性ハイゼンベルクスピン鎖における近藤効果

Kondo effect in the isotropic Heisenberg spin chain ( http://arxiv.org/abs/2311.10569v2 )

ライセンス: Link先を確認
Pradip Kattel, Parameshwar R. Pasnoori, J. H. Pixley, Patrick Azaria, and Natan Andrei(参考訳) スピン交換相互作用を通じて反強磁性スピン-$\frac{1}{2}$ハイゼンベルク鎖のエッジとスピン-$\frac{1}{2}$不純物が相互作用する際に生じる境界効果を調べる。 結合が強磁性または反強磁性である場合も考慮する。 反強磁性相互作用の場合,不純物結合強度がバルクよりもはるかに弱い場合,コンド効果により地中において不純物が遮蔽されることがわかった。 近藤相は状態のローレンツ密度と動的に生成する近藤温度$t_k$によって特徴づけられる。 不純物結合強度が増加すると、T_K$は最大値である$T_0=2\pi J$に達するまで増加する。 不純物結合強度がさらに増加すると、不純物結合端に指数関数的に局在する単一粒子結合モードにより、不純物が基底状態で遮蔽される境界モード相である別の相に入る。 境界モードを除去することで不純物を非表示にすることができる。 金堂と有界モード相の間には境界固有状態相転移があり、ヒルベルト空間の塔数の変化を特徴とする遷移である。 この遷移は、状態の局所不純物密度や局所不純物磁化のような基底状態の量にも現れる。 不純物カップリングが強磁性の場合、不純物は基底状態において非遮蔽されるが、不純物とバルクカップリング強度の比の絶対値が$\frac{4}{5}$ を超える場合は、エネルギーが $t_0$ を超えるバウンドモードを加えることで、不純物を遮蔽することができる。 2つの不純物を考慮すると、各不純物で表される相は熱力学的限界で変化しないが、それでもシステムは豊富な相図を示す。

We investigate the boundary effects that arise when spin-$\frac{1}{2}$ impurities interact with the edges of the antiferromagnetic spin-$\frac{1}{2}$ Heisenberg chain through spin exchange interactions. We consider both cases when the couplings are ferromagnetic or anti-ferromagnetic. We find that in the case of antiferromagnetic interaction, when the impurity coupling strength is much weaker than that in the bulk, the impurity is screened in the ground state via the Kondo effect. The Kondo phase is characterized by the Lorentzian density of states and dynamically generated Kondo temperature $T_K$. As the impurity coupling strength increases, $T_K$ increases until it reaches its maximum value $T_0=2\pi J$ which is the maximum energy carried by a single spinon. When the impurity coupling strength is increased further, we enter another phase, the bound mode phase, where the impurity is screened in the ground state by a single particle bound mode exponentially localized at the edge to which the impurity is coupled. We find that the impurity can be unscreened by removing the bound mode. There exists a boundary eigenstate phase transition between the Kondo and the bound-mode phases, a transition which is characterized by the change in the number of towers of the Hilbert space. The transition also manifests itself in ground state quantities like local impurity density of states and the local impurity magnetization. When the impurity coupling is ferromagnetic, the impurity is unscreened in the ground state; however, when the absolute value of the ratio of the impurity and bulk coupling strengths is greater than $\frac{4}{5}$, the impurity can be screened by adding a bound mode that costs energy greater than $T_0$. When two impurities are considered, the phases exhibited by each impurity remain unchanged in the thermodynamic limit, but nevertheless the system exhibits a rich phase diagram.
翻訳日:2023-11-30 12:44:00 公開日:2023-11-25
# レイアウト画像合成におけるオブジェクトコヒーレンス向上

Enhancing Object Coherence in Layout-to-Image Synthesis ( http://arxiv.org/abs/2311.10522v2 )

ライセンス: Link先を確認
Yibin Wang and Weizhong Zhang and Jianwei Zheng and Cheng Jin(参考訳) レイアウトから画像への合成は条件付き画像生成における新しい技術である。 複雑なシーンを生成することを目的としており、ユーザーはシーン内のオブジェクトのレイアウトを細かく制御する必要がある。 しかし、意味的コヒーレンス(例:猫が花を見るかどうか)や物理的コヒーレンス(例:手とラケットを間違えてはならない)など、オブジェクトのコヒーレンスを制御することは依然として困難である。 本稿では,実効的グローバル・セマンティクス・フュージョン(gsf)と自己相似性特徴拡張モジュールを用いた新しい拡散モデルを提案する。 セマンティックコヒーレンスについては,イメージキャプションには画像内のオブジェクト内の意味的関係を定義するための豊富な情報が含まれていることを議論する。 本実験では, キャプションと生成画像間の相互アテンションを個別に扱うのではなく, レイアウト制約とセマンティックコヒーレンスを個別に扱うことで, レイアウト制約とセマンティックコヒーレンス要求から監督を解き放ち, 画像合成プロセスの指針として利用するために, GSFを開発した。 さらに、物理コヒーレンスを改善するために、各画素の生成プロセスに局所的な物理的コヒーレンスを明示的に統合する自己相似コヒーレンスアテンション(SCA)モジュールを開発した。 具体的には,コヒーレンス制約を符号化する自己相似写像を採用し,テキスト埋め込みからコヒーレント特徴を抽出する。 自己相似性マップの可視化を通じて、SCAの本質を探求し、信頼性の高い物理的コヒーレンスパターンのキャプチャだけでなく、複雑なテクスチャ生成の強化にも有効であることを示した。 画像生成品質と制御性の両方において,提案手法の優位性を示す実験を行った。

Layout-to-image synthesis is an emerging technique in conditional image generation. It aims to generate complex scenes, where users require fine control over the layout of the objects in a scene. However, it remains challenging to control the object coherence, including semantic coherence (e.g., the cat looks at the flowers or not) and physical coherence (e.g., the hand and the racket should not be misaligned). In this paper, we propose a novel diffusion model with effective global semantic fusion (GSF) and self-similarity feature enhancement modules to guide the object coherence for this task. For semantic coherence, we argue that the image caption contains rich information for defining the semantic relationship within the objects in the images. Instead of simply employing cross-attention between captions and generated images, which addresses the highly relevant layout restriction and semantic coherence separately and thus leads to unsatisfying results shown in our experiments, we develop GSF to fuse the supervision from the layout restriction and semantic coherence requirement and exploit it to guide the image synthesis process. Moreover, to improve the physical coherence, we develop a Self-similarity Coherence Attention (SCA) module to explicitly integrate local contextual physical coherence into each pixel's generation process. Specifically, we adopt a self-similarity map to encode the coherence restrictions and employ it to extract coherent features from text embedding. Through visualization of our self-similarity map, we explore the essence of SCA, revealing that its effectiveness is not only in capturing reliable physical coherence patterns but also in enhancing complex texture generation. Extensive experiments demonstrate the superiority of our proposed method in both image generation quality and controllability.
翻訳日:2023-11-30 12:43:20 公開日:2023-11-25
# TextGuard: テキスト分類によるバックドア攻撃に対する防御

TextGuard: Provable Defense against Backdoor Attacks on Text Classification ( http://arxiv.org/abs/2311.11225v2 )

ライセンス: Link先を確認
Hengzhi Pei, Jinyuan Jia, Wenbo Guo, Bo Li, Dawn Song(参考訳) バックドア攻撃は、セキュリティクリティカルなアプリケーションに機械学習モデルをデプロイする上で、大きなセキュリティ脅威となっている。 既存の研究はバックドア攻撃に対する多くの防御を提案している。 特定の実証的な防御効果を示すにもかかわらず、これらの技術は任意の攻撃に対して形式的で証明可能なセキュリティ保証を提供することはできない。 その結果,本評価で示すように,強力な適応攻撃によって容易に破られる。 本稿では,テキスト分類におけるバックドア攻撃に対する最初の防御手法であるtextguardを提案する。 特にTextGuardは、まず(バックドア付き)トレーニングデータをサブトレーニングセットに分割し、各トレーニング文をサブ文に分割する。 このパーティショニングにより、サブトレーニングセットの大部分がバックドアトリガを含まないことが保証される。 その後、各サブトレーニングセットからベース分類器を訓練し、そのアンサンブルが最終予測を提供する。 理論的には、バックドアトリガの長さが一定のしきい値に収まると、TextGuardは、トレーニングやテストにおけるトリガーの存在によって、その予測が影響を受けないことを保証します。 本評価では,3つのベンチマークテキスト分類タスクにおけるTextGuardの有効性を実証し,バックドア攻撃に対する既存の認証防御の認証精度を上回った。 さらに,TextGuardの実証性能を高めるための新たな戦略を提案する。 最先端の実証的防御との比較は、複数のバックドア攻撃に対するTextGuardの優位性を検証する。 私たちのコードとデータはhttps://github.com/ai-secure/textguardで入手できます。

Backdoor attacks have become a major security threat for deploying machine learning models in security-critical applications. Existing research endeavors have proposed many defenses against backdoor attacks. Despite demonstrating certain empirical defense efficacy, none of these techniques could provide a formal and provable security guarantee against arbitrary attacks. As a result, they can be easily broken by strong adaptive attacks, as shown in our evaluation. In this work, we propose TextGuard, the first provable defense against backdoor attacks on text classification. In particular, TextGuard first divides the (backdoored) training data into sub-training sets, achieved by splitting each training sentence into sub-sentences. This partitioning ensures that a majority of the sub-training sets do not contain the backdoor trigger. Subsequently, a base classifier is trained from each sub-training set, and their ensemble provides the final prediction. We theoretically prove that when the length of the backdoor trigger falls within a certain threshold, TextGuard guarantees that its prediction will remain unaffected by the presence of the triggers in training and testing inputs. In our evaluation, we demonstrate the effectiveness of TextGuard on three benchmark text classification tasks, surpassing the certification accuracy of existing certified defenses against backdoor attacks. Furthermore, we propose additional strategies to enhance the empirical performance of TextGuard. Comparisons with state-of-the-art empirical defenses validate the superiority of TextGuard in countering multiple backdoor attacks. Our code and data are available at https://github.com/AI-secure/TextGuard.
翻訳日:2023-11-30 12:28:39 公開日:2023-11-25
# de-fine:自動フィードバックによるビジュアルプログラムの分解とリファイン

De-fine: Decomposing and Refining Visual Programs with Auto-Feedback ( http://arxiv.org/abs/2311.12890v2 )

ライセンス: Link先を確認
Minghe Gao, Juncheng Li, Hao Fei, Liang Pang, Wei Ji, Guoming Wang, Wenqiao Zhang, Siliang Tang, Yueting Zhuang(参考訳) モジュール化可能なパラダイムであるビジュアルプログラミングは、様々なモジュールとPython演算子を統合し、様々な視覚言語タスクを解決する。 タスク固有のデータを必要とするエンドツーエンドモデルとは異なり、教師なしの方法で視覚処理と推論を行う。 現在のビジュアルプログラミング手法では,フィードバックに基づいて評価と最適化を行う能力が不足しているタスク毎に,ひとつのパスでプログラムを生成する。 複雑なタスクを自動的に単純なサブタスクに分解し、自動フィードバックによってプログラムを洗練する一般的なフレームワークであるde-fineを紹介する。 このモデルに依存しないアプローチは、複数のモデルの強みを統合することで論理的推論性能を向上させることができる。 様々なビジュアルタスクで実験した結果、de-fineはより正確で堅牢なプログラムを作成し、フィールドに新しいベンチマークを設定しました。

Visual programming, a modular and generalizable paradigm, integrates different modules and Python operators to solve various vision-language tasks. Unlike end-to-end models that need task-specific data, it advances in performing visual processing and reasoning in an unsupervised manner. Current visual programming methods generate programs in a single pass for each task where the ability to evaluate and optimize based on feedback, unfortunately, is lacking, which consequentially limits their effectiveness for complex, multi-step problems. Drawing inspiration from benders decomposition, we introduce De-fine, a general framework that automatically decomposes complex tasks into simpler subtasks and refines programs through auto-feedback. This model-agnostic approach can improve logical reasoning performance by integrating the strengths of multiple models. Our experiments across various visual tasks show that De-fine creates more accurate and robust programs, setting new benchmarks in the field.
翻訳日:2023-11-30 10:15:34 公開日:2023-11-25
# BEND:生物学的に意味のあるタスクに関するDNA言語モデルのベンチマーク

BEND: Benchmarking DNA Language Models on biologically meaningful tasks ( http://arxiv.org/abs/2311.12570v2 )

ライセンス: Link先を確認
Frederikke Isa Marin, Felix Teufel, Marc Horlacher, Dennis Madsen, Dennis Pultz, Ole Winther, Wouter Boomsma(参考訳) ゲノム配列は、細胞プロセスを管理するための青写真を含む。 ゲノムの入手は過去数十年で大幅に増加したが、DNA配列にコードされる様々な機能的、非コード的、規制的要素の実験的なアノテーションは高価かつ困難である。 これは、タンパク質配列データに大きな成功を収めたパラダイムであるゲノムDNAの教師なし言語モデルへの関心を喚起した。 様々なdna言語モデルが提案されているが、評価タスクは個々の作品によって異なり、データの長さ、スケール、スパース性など、ゲノムアノテーションの基本的な課題を完全には再現できない。 本研究では,ヒトゲノム上に定義された現実的で生物学的に意味のある下流タスクの集合を特徴とする,DNA言語モデルのベンチマークであるBENDを紹介する。 現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。 BENDはhttps://github.com/frederikkemarin/BENDで入手できる。

The genome sequence contains the blueprint for governing cellular processes. While the availability of genomes has vastly increased over the last decades, experimental annotation of the various functional, non-coding and regulatory elements encoded in the DNA sequence remains both expensive and challenging. This has sparked interest in unsupervised language modeling of genomic DNA, a paradigm that has seen great success for protein sequence data. Although various DNA language models have been proposed, evaluation tasks often differ between individual works, and might not fully recapitulate the fundamental challenges of genome annotation, including the length, scale and sparsity of the data. In this study, we introduce BEND, a Benchmark for DNA language models, featuring a collection of realistic and biologically meaningful downstream tasks defined on the human genome. We find that embeddings from current DNA LMs can approach performance of expert methods on some tasks, but only capture limited information about long-range features. BEND is available at https://github.com/frederikkemarin/BEND.
翻訳日:2023-11-30 10:13:16 公開日:2023-11-25
# $\sigma$-PCA:線形および非線形主成分分析のための統一ニューラルネットワークモデル

$\sigma$-PCA: a unified neural model for linear and nonlinear principal component analysis ( http://arxiv.org/abs/2311.13580v2 )

ライセンス: Link先を確認
Fahdi Kanavati, Lucy Katsnith, Masayuki Tsuneki(参考訳) 線形主成分分析(PCA)、非線形PCA、線形独立成分分析(ICA)は、データから線形変換を学ぶための単層オートエンコーダを用いた3つの方法である。 線形PCAは、東洋軸が分散を最大化するために直交変換(回転)を学ぶが、これは部分空間回転の不確定性(英語版)(subspace rotational indeterminacy)に悩まされる。 非線形PCAと線形ICAは、単位分散の仮定の下で統計的独立性を最大化することにより、部分空間の不確定性を回転から置換に還元する。 これら3つの関係は、線形ICA変換の特異値分解を回転、スケール、回転の列に分解することで理解することができる。 線形PCAは第1回転を学習し、非線形PCAは第2回転を学習する。 スケールは単に標準偏差の逆である。 問題は、線形なpcaとは対照的に、従来の非線形pcaをデータに直接使用して最初の回転を学ぶことができないことである。 本稿では,その原因を特定し,一層オートエンコーダとして線形および非線形PCAの統一ニューラルモデルである$\sigma$-PCAを提案する。 重要な要素の1つは、回転だけでなくスケールもモデル化することである。 このモデルは線形PCAと非線形PCAの相違を橋渡しする。 したがって、線形PCAと同様に、次元と秩序を分散によって減少させる半直交変換を学ぶことができるが、線形PCAとは異なり、回転の不確定性に苦しむことはない。

Linear principal component analysis (PCA), nonlinear PCA, and linear independent component analysis (ICA) -- those are three methods with single-layer autoencoder formulations for learning linear transformations from data. Linear PCA learns orthogonal transformations (rotations) that orient axes to maximise variance, but it suffers from a subspace rotational indeterminacy: it fails to find a unique rotation for axes that share the same variance. Both nonlinear PCA and linear ICA reduce the subspace indeterminacy from rotational to permutational by maximising statistical independence under the assumption of unit variance. The relationship between all three can be understood by the singular value decomposition of the linear ICA transformation into a sequence of rotation, scale, rotation. Linear PCA learns the first rotation; nonlinear PCA learns the second. The scale is simply the inverse of the standard deviations. The problem is that, in contrast to linear PCA, conventional nonlinear PCA cannot be used directly on the data to learn the first rotation, the first being special as it reduces dimensionality and orders by variances. In this paper, we have identified the cause, and as a solution we propose $\sigma$-PCA: a unified neural model for linear and nonlinear PCA as single-layer autoencoders. One of its key ingredients: modelling not just the rotation but also the scale -- the variances. This model bridges the disparity between linear and nonlinear PCA. And so, like linear PCA, it can learn a semi-orthogonal transformation that reduces dimensionality and orders by variances, but, unlike linear PCA, it does not suffer from rotational indeterminacy.
翻訳日:2023-11-30 10:01:53 公開日:2023-11-25
# 分類から臨床へ:大規模言語モデルを用いたモバイルおよび行動保健データの分析と分析に向けて

From Classification to Clinical Insights: Towards Analyzing and Reasoning About Mobile and Behavioral Health Data With Large Language Models ( http://arxiv.org/abs/2311.13063v2 )

ライセンス: Link先を確認
Zachary Englhardt, Chengqian Ma, Margaret E. Morris, Xuhai "Orson" Xu, Chun-Cheng Chang, Lianhui Qin, Daniel McDuff, Xin Liu, Shwetak Patel, Vikram Iyer(参考訳) ユビキタスセンサからの受動的に収集された行動健康データは、患者の日常生活からメンタルヘルスの専門家に洞察を提供するという大きな約束を持っているが、このデータを臨床で使用する分析ツールの開発には、デバイス間の一般化の課題と、測定された信号と個人のメンタルヘルスとの弱い、あるいはあいまいな相関に対処する必要がある。 これらの課題に対処するために,我々は,大規模言語モデル(LLM)を活用して,多センサデータから臨床的に有用な知見を合成する新しいアプローチを採用する。 歩数や睡眠などのデータにおける傾向がうつ病や不安などの状態とどのように関係しているかを,LSMを用いて推論する思考促進手法の連鎖を構築した。 まず,LLMによる2次うつ病分類を行い,61.1%のアキュラシーを達成した。 分類よりも影響があり、価値の高いアプローチは、新たな人間とAIのコラボレーションアプローチであり、臨床の専門家がこれらのツールを対話的にクエリし、臨床意思決定をサポートするために、患者が生成したAI推論に関するドメインの専門知識とコンテキストを組み合わせる。 GPT-4のようなモデルでは数値データの75%を正確に参照しており、臨床参加者は自己追跡データの解釈にこのアプローチを使うことに強い関心を示している。

Passively collected behavioral health data from ubiquitous sensors holds significant promise to provide mental health professionals insights from patient's daily lives; however, developing analysis tools to use this data in clinical practice requires addressing challenges of generalization across devices and weak or ambiguous correlations between the measured signals and an individual's mental health. To address these challenges, we take a novel approach that leverages large language models (LLMs) to synthesize clinically useful insights from multi-sensor data. We develop chain of thought prompting methods that use LLMs to generate reasoning about how trends in data such as step count and sleep relate to conditions like depression and anxiety. We first demonstrate binary depression classification with LLMs achieving accuracies of 61.1% which exceed the state of the art. While it is not robust for clinical use, this leads us to our key finding: even more impactful and valued than classification is a new human-AI collaboration approach in which clinician experts interactively query these tools and combine their domain expertise and context about the patient with AI generated reasoning to support clinical decision-making. We find models like GPT-4 correctly reference numerical data 75% of the time, and clinician participants express strong interest in using this approach to interpret self-tracking data.
翻訳日:2023-11-30 09:59:04 公開日:2023-11-25
# マルチビュー学習のためのmvlearnRとShiny App

mvlearnR and Shiny App for multiview learning ( http://arxiv.org/abs/2311.16181v1 )

ライセンス: Link先を確認
Elise F. Palzer and Sandra E. Safo(参考訳) パッケージmvlearnRとそれに伴うShiny Appは、複数のソースやビューやモダリティ(ゲノム学、プロテオミクス、臨床および人口統計データなど)からのデータを統合することを意図している。 マルチビュー学習のための既存のソフトウェアパッケージのほとんどは分散化されており、限られた機能を提供しているため、総合的な統合分析を行うことは困難である。 新しいパッケージは統計的および機械学習メソッドとグラフィカルツールをラップし、便利で簡単なデータ統合ワークフローを提供する。 限られたプログラム言語を持つユーザには、あらゆるデバイスでデータ統合を容易にするShiny Applicationを提供しています。 この手法は複雑な疾患のメカニズムについて深い洞察を与える可能性がある。 可用性と実装: mvlearnrは以下のgithubリポジトリから入手できる。 ウェブアプリケーションはshinyapps.ioにホストされ、https://multi-viewlearn.shinyapps.io/multiview_modeling/で入手できる。

The package mvlearnR and accompanying Shiny App is intended for integrating data from multiple sources or views or modalities (e.g. genomics, proteomics, clinical and demographic data). Most existing software packages for multiview learning are decentralized and offer limited capabilities, making it difficult for users to perform comprehensive integrative analysis. The new package wraps statistical and machine learning methods and graphical tools, providing a convenient and easy data integration workflow. For users with limited programming language, we provide a Shiny Application to facilitate data integration anywhere and on any device. The methods have potential to offer deeper insights into complex disease mechanisms. Availability and Implementation: mvlearnR is available from the following GitHub repository: https://github.com/lasandrall/mvlearnR. The web application is hosted on shinyapps.io and available at: https://multi-viewlearn.shinyapps.io/MultiView_Modeling/
翻訳日:2023-11-30 09:40:37 公開日:2023-11-25
# Resfusion: 拡散確率モデルによる残響ノイズの埋込み

Resfusion: Prior Residual Noise embedded Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2311.14900v1 )

ライセンス: Link先を確認
Shi Zhenning, Dong Changsheng, Pan Bin, Xie Xueshuo, He Along, Qu Qiaoying, Li Tao(参考訳) 近年,入力画像に条件付きセグメンテーションマスクを生成することにより,画像セグメンテーションにおいて拡散確率モデルが広く用いられている。 しかし、既存のエンドツーエンドモデルとノイズ拡散モデルとのシームレスな統合は不可能である。 既存の研究は、特に計算するのではなく、経験に基づいて加速ステップを選択できる。 さらに、ほとんどの手法は小さなモデルと小さなデータセットに限られており、一般的なデータセットや幅広いタスクに一般化できない。 そこで本研究では,セグメンテーションマスクやターゲット画像の種類を徐々に生成し,最先端のエンド・ツー・エンドモデルをシームレスに統合し,拡散モデルを生成する新しいリズノーズ・ディフフュージョン法を提案する。 再拡散は、確率出力とマルコフ過程を通じて出力される基底真理との相違を橋渡しする。 共振器拡散過程における新しいスムーズな等価変換を通じて、最適な加速ステップを決定する。 実験の結果、Resfusionは既存のエンドツーエンドモデルの能力と拡散モデルの認知を組み合わせ、さらなる性能向上と優れた結果の達成を図っている。 さらに,Resfusionはセグメンテーションタスクに限らず,画像生成の一般的なタスクに容易に一般化でき,強力な競争力を示す。

Recently, Denoising Diffusion Probabilistic Models have been widely used in image segmentation, by generating segmentation masks conditioned on the input image. However, previous works can not seamlessly integrate existing end-to-end models with denoising diffusion models. Existing research can only select acceleration steps based on experience rather than calculating them specifically. Moreover, most methods are limited to small models and small-scale datasets, unable to generalize to general datasets and a wider range of tasks. Therefore, we propose Resfusion with a novel resnoise-diffusion process, which gradually generates segmentation masks or any type of target image, seamlessly integrating state-of-the-art end-to-end models and denoising diffusion models. Resfusion bridges the discrepancy between the likelihood output and the ground truth output through a Markov process. Through the novel smooth equivalence transformation in resnoise-diffusion process, we determine the optimal acceleration step. Experimental results demonstrate that Resfusion combines the capabilities of existing end-to-end models and denoising diffusion models, further enhancing performance and achieving outstanding results. Moreover, Resfusion is not limited to segmentation tasks, it can easily generalize to any general tasks of image generation and exhibit strong competitiveness.
翻訳日:2023-11-29 23:12:37 公開日:2023-11-25
# HyperDID:Deep Feature Embeddingを用いたハイパースペクトル固有画像分解

HyperDID: Hyperspectral Intrinsic Image Decomposition with Deep Feature Embedding ( http://arxiv.org/abs/2311.14899v1 )

ライセンス: Link先を確認
Zhiqiang Gong and Xian Zhou and Wen Yao and Xiaohu Zheng and Ping Zhong(参考訳) HIID(Hyperspectral Intrinsic Image decomposition)による内在成分へのハイパースペクトル画像の分解は、ハイパースペクトルデータの解釈可能性を高め、より正確な分類結果の基盤となる。 しかし、hiidの分類性能はモデルの表現能力によって制限される。 この制限に対処するため,本研究では,深い特徴埋め込みを導入することで,分類タスクの超スペクトル固有画像分解を再考する。 提案フレームワークであるHyperDIDには,環境特徴モジュール(EFM)とカテゴリー特徴モジュール(CFM)が組み込まれ,固有の特徴を抽出する。 さらに、FDM(Feature Discrimination Module)は、環境関連およびカテゴリ関連の特徴を分離するために導入された。 3つの一般的なデータセットに対する実験結果は、ハイパースペクトル画像分類性能を改善するためにHyperDIDの有効性を検証する。 この新しいアプローチは、深い特徴埋め込みの原則を活用することで、ハイパースペクトル画像解析の能力向上を約束する。 提案手法の実装は、再現性のためにhttps://github.com/shendu-sw/HyperDIDですぐにアクセスできる。

The dissection of hyperspectral images into intrinsic components through hyperspectral intrinsic image decomposition (HIID) enhances the interpretability of hyperspectral data, providing a foundation for more accurate classification outcomes. However, the classification performance of HIID is constrained by the model's representational ability. To address this limitation, this study rethinks hyperspectral intrinsic image decomposition for classification tasks by introducing deep feature embedding. The proposed framework, HyperDID, incorporates the Environmental Feature Module (EFM) and Categorical Feature Module (CFM) to extract intrinsic features. Additionally, a Feature Discrimination Module (FDM) is introduced to separate environment-related and category-related features. Experimental results across three commonly used datasets validate the effectiveness of HyperDID in improving hyperspectral image classification performance. This novel approach holds promise for advancing the capabilities of hyperspectral image analysis by leveraging deep feature embedding principles. The implementation of the proposed method could be accessed soon at https://github.com/shendu-sw/HyperDID for the sake of reproducibility.
翻訳日:2023-11-29 23:12:16 公開日:2023-11-25
# スケーラブルな3次元異常検出と局所化に向けて:3次元異常合成と自己改善学習ネットワークによるベンチマーク

Towards Scalable 3D Anomaly Detection and Localization: A Benchmark via 3D Anomaly Synthesis and A Self-Supervised Learning Network ( http://arxiv.org/abs/2311.14897v1 )

ライセンス: Link先を確認
Wenqiao Li, Xiaohao Xu(参考訳) 近年,細粒度形状の識別に関わる重要な問題である3次元異常検出が注目されている。 しかし、豊富な実3D異常データの欠如は、現在のモデルのスケーラビリティを制限している。 スケーラブルな異常データ収集を実現するため,既存の大規模3次元モデルに適応する3次元異常合成パイプラインを提案する。 具体的には,ShapeNetに基づく合成データセット,すなわちAnomaly-ShapeNetを構築する。 Anomaly-ShapeNetは、40カテゴリ以下の1600点のクラウドサンプルで構成されており、豊かで多様なデータの収集を提供し、効率的なトレーニングと産業シナリオへの適応性の向上を可能にする。 一方,3次元異常局所化のためのスケーラブルな表現学習を実現するために,反復マスク再構成ネットワーク(IMRNet)を提案する。 学習中,ポイントクラウドダウンサンプリング中に異常な局所領域を保存できる幾何対応サンプルモジュールを提案する。 そして、ランダムに点パッチをマスクし、可視パッチを変換器に送信し、再構成に基づく自己監督を行う。 テスト中、ポイントクラウドは繰り返しマスク再構成ネットワークを通過し、各イテレーションの出力が次の入力となる。 最終再構成点雲と初期入力をマージして対比することにより, 異常を同定することに成功した。 実験の結果、IMRNetは従来の最先端の手法よりも優れており、Anomaly-ShapeNetデータセットでは66.1%、Real3D-ADデータセットでは72.5%である。 私たちのデータセットはhttps://github.com/Chopper-233/Anomaly-ShapeNetでリリースされます。

Recently, 3D anomaly detection, a crucial problem involving fine-grained geometry discrimination, is getting more attention. However, the lack of abundant real 3D anomaly data limits the scalability of current models. To enable scalable anomaly data collection, we propose a 3D anomaly synthesis pipeline to adapt existing large-scale 3Dmodels for 3D anomaly detection. Specifically, we construct a synthetic dataset, i.e., Anomaly-ShapeNet, basedon ShapeNet. Anomaly-ShapeNet consists of 1600 point cloud samples under 40 categories, which provides a rich and varied collection of data, enabling efficient training and enhancing adaptability to industrial scenarios. Meanwhile,to enable scalable representation learning for 3D anomaly localization, we propose a self-supervised method, i.e., Iterative Mask Reconstruction Network (IMRNet). During training, we propose a geometry-aware sample module to preserve potentially anomalous local regions during point cloud down-sampling. Then, we randomly mask out point patches and sent the visible patches to a transformer for reconstruction-based self-supervision. During testing, the point cloud repeatedly goes through the Mask Reconstruction Network, with each iteration's output becoming the next input. By merging and contrasting the final reconstructed point cloud with the initial input, our method successfully locates anomalies. Experiments show that IMRNet outperforms previous state-of-the-art methods, achieving 66.1% in I-AUC on Anomaly-ShapeNet dataset and 72.5% in I-AUC on Real3D-AD dataset. Our dataset will be released at https://github.com/Chopper-233/Anomaly-ShapeNet
翻訳日:2023-11-29 23:11:58 公開日:2023-11-25
# コンピュータサイエンスにおけるシンプソンのパラドックスと不登校学生の完成傾向の遅れ

Simpson's Paradox and Lagging Progress in Completion Trends of Underrepresented Students in Computer Science ( http://arxiv.org/abs/2311.14891v1 )

ライセンス: Link先を確認
John Mason Taylor, Rebecca Drucker, Chris Alvin, Syed Fahad Sultan(参考訳) コンピュータサイエンス(CS)コミュニティにとって、様々な背景を持つ学生の積極的な参加と成功を保証することが不可欠である。 この研究は、女性、黒人、ヒスパニック、ラテン系の3つのグループからの学生の成功に関して、csと他の分野の研究を比較している。 データ駆動型アプローチを用いることで、CSの未表現グループにおける成功傾向が、他の分野に遅れを取っていることが分かる。 黒人学生によるCSプログラムの完成は、特に2011年から2019年にかけての顕著なレグレッションを示している。 この国家レベルの低下はアメリカ合衆国南東部に最も集中しており、大半は少数の卒業生を輩出する機関によって支えられているようである。 我々は、より公平で包括的なCSコミュニティへ進むためには、この分野におけるより多くのデータ駆動型研究が必要であると強く信じている。 基礎となるダイナミクスの理解がなければ、政策立案者や実践者は、問題に対処するためのリソースの割り当て方法や場所について、情報的な決定を下すことができないでしょう。

It is imperative for the Computer Science (CS) community to ensure active participation and success of students from diverse backgrounds. This work compares CS to other areas of study with respect to success of students from three underrepresented groups: Women, Black and Hispanic or Latino. Using a data-driven approach, we show that trends of success over the years for underrepresented groups in CS are lagging behind other disciplines. Completion of CS programs by Black students in particular shows an alarming regression in the years 2011 through 2019. This national level decline is most concentrated in the Southeast of the United States and seems to be driven mostly by a small number of institutes that produce a large number of graduates. We strongly believe that more data-driven studies in this area are necessary to make progress towards a more equitable and inclusive CS community. Without an understanding of underlying dynamics, policy makers and practitioners will be unable to make informed decisions about how and where to allocate resources to address the problem.
翻訳日:2023-11-29 23:11:30 公開日:2023-11-25
# 任意の線形サンプルから非線形モデルクラスを学習するための統一フレームワーク

A unified framework for learning with nonlinear model classes from arbitrary linear samples ( http://arxiv.org/abs/2311.14886v1 )

ライセンス: Link先を確認
Ben Adcock, Juan M. Cardenas, Nick Dexter(参考訳) 本研究は、与えられたモデルクラスを用いたトレーニングデータから未知のオブジェクトを学習する基本的な問題を考える。 任意のヒルベルト空間のオブジェクト、訓練データとしての(ランダムな)線形計測の一般型、および非線形モデルクラスの一般型を可能にする統一フレームワークを提案する。 我々は、このフレームワークの一連の学習保証を確立する。 これらの保証は、トレーニングデータの量とモデルクラスの特性の間に明確な関係を持ち、ほぼ最高の一般化境界を保証する。 また、サンプリング演算子の分布に関して、モデルクラスの変動に関する重要な概念を導入し、発展させる。 この枠組みの汎用性を示すため、様々な種類のよく知られた問題に適合できることを示す。 本稿では, ランダムサンプリングによる行列スケッチ, 等方的ベクトルを用いた圧縮センシング, 回帰学習, 生成モデルによる圧縮センシングなどの例を示す。 いずれの場合も、既知の結果が私たちの一般的な学習保証の直接的な分類となることを示す。 生成モデルを用いた圧縮センシングには、最近の結果の一般化と改善もいくつか提示する。 まとめると、本研究は、未知のオブジェクトを一般的なデータから学習するための統一的な方法を導入するだけでなく、様々な既知の結果を集約し改善する一連の一般的な理論的保証を確立する。

This work considers the fundamental problem of learning an unknown object from training data using a given model class. We introduce a unified framework that allows for objects in arbitrary Hilbert spaces, general types of (random) linear measurements as training data and general types of nonlinear model classes. We establish a series of learning guarantees for this framework. These guarantees provide explicit relations between the amount of training data and properties of the model class to ensure near-best generalization bounds. In doing so, we also introduce and develop the key notion of the variation of a model class with respect to a distribution of sampling operators. To exhibit the versatility of this framework, we show that it can accommodate many different types of well-known problems of interest. We present examples such as matrix sketching by random sampling, compressed sensing with isotropic vectors, active learning in regression and compressed sensing with generative models. In all cases, we show how known results become straightforward corollaries of our general learning guarantees. For compressed sensing with generative models, we also present a number of generalizations and improvements of recent results. In summary, our work not only introduces a unified way to study learning unknown objects from general types of data, but also establishes a series of general theoretical guarantees which consolidate and improve various known results.
翻訳日:2023-11-29 23:11:13 公開日:2023-11-25
# オフライン強化学習の安定化を目的としたオフラインQラーニング(POP-QL)の計画

Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline Reinforcement Learning ( http://arxiv.org/abs/2311.14885v1 )

ライセンス: Link先を確認
Melrose Roderick, Gaurav Manek, Felix Berkenkamp, J. Zico Kolter(参考訳) オフ・ポリティクス強化学習(RL)における鍵となる問題は、データセットと学習方針が訪れた状態と行動に対する分布の間のミスマッチ(分散シフト)である。 この問題は完全なオフライン設定で悪化する。 このシフトを正す主なアプローチは、重要度サンプリングであり、これは高分散勾配をもたらす。 保守主義や行動規則化といった他のアプローチは、パフォーマンスの犠牲でポリシーを規則化する。 本稿では,政治外Q-Learningのための新しいアプローチを提案する。 提案手法であるpop-ql(projected off-policy q-learning)は,非policyサンプルの重み付けとポリシの制約を同時に行う新しいアクタ-批判アルゴリズムである。 我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。

A key problem in off-policy Reinforcement Learning (RL) is the mismatch, or distribution shift, between the dataset and the distribution over states and actions visited by the learned policy. This problem is exacerbated in the fully offline setting. The main approach to correct this shift has been through importance sampling, which leads to high-variance gradients. Other approaches, such as conservatism or behavior-regularization, regularize the policy at the cost of performance. In this paper, we propose a new approach for stable off-policy Q-Learning. Our method, Projected Off-Policy Q-Learning (POP-QL), is a novel actor-critic algorithm that simultaneously reweights off-policy samples and constrains the policy to prevent divergence and reduce value-approximation error. In our experiments, POP-QL not only shows competitive performance on standard benchmarks, but also out-performs competing methods in tasks where the data-collection policy is significantly sub-optimal.
翻訳日:2023-11-29 23:10:52 公開日:2023-11-25
# GBD-TS:ツリーサンプリングアルゴリズムを用いた拡散に基づくゴールベース歩行者軌道予測

GBD-TS: Goal-based Pedestrian Trajectory Prediction with Diffusion using Tree Sampling Algorithm ( http://arxiv.org/abs/2311.14922v1 )

ライセンス: Link先を確認
Ge Sun, Sheng Wang, Yang Xiao, Lei Zhu, Ming Liu(参考訳) 歩行者の軌跡予測は、自動運転と移動ロボットの安全性と有効性を改善するために不可欠である。 しかし、このタスクは人間の運動に固有の確率性があるため非自明であり、これは自然に予測者が多モデル予測を生成する必要がある。 以前の研究では、歩行者軌道予測にGANやVAEといった様々な生成手法が用いられてきた。 それでもこれらの手法はモード崩壊や比較的低品質な結果などの問題に悩まされる可能性がある。 DDPM(denoising diffusion probabilistic model)は, 単純なトレーニングプロセスと強力な再構築能力により, 軌道予測に応用されている。 しかし、現在の拡散ベース手法は入力情報を完全に活用することなく簡単であり、通常、長い推論時間や初期化のための追加のネットワークにつながる多くのデノイジングイテレーションを必要とする。 これらの課題に対処し, 軌道予測における拡散モデルの適用を促進するために, gbdと呼ばれる, シーンアウェア型歩行者軌道予測フレームワークを提案する。 GBDは目標予測と拡散ネットワークを組み合わせる。 まず、目標予測器は複数の目標を生成し、次に拡散ネットワークはこれらの目標に条件付きマルチモーダル軌道を生成する。 さらに,複数モーダル予測における推定時間削減と精度向上のために,共通の特徴を生かした新しい拡散サンプリングアルゴリズムであるツリーサンプリング(TS)を導入する。 実験の結果,GBD-TS法はリアルタイムの推論速度で最先端の性能を実現することがわかった。

Predicting pedestrian trajectories is crucial for improving the safety and effectiveness of autonomous driving and mobile robots. However, this task is nontrivial due to the inherent stochasticity of human motion, which naturally requires the predictor to generate multi-model prediction. Previous works have used various generative methods, such as GAN and VAE, for pedestrian trajectory prediction. Nevertheless, these methods may suffer from problems, including mode collapse and relatively low-quality results. The denoising diffusion probabilistic model (DDPM) has recently been applied to trajectory prediction due to its simple training process and powerful reconstruction ability. However, current diffusion-based methods are straightforward without fully leveraging input information and usually require many denoising iterations leading to a long inference time or an additional network for initialization. To address these challenges and promote the application of diffusion models in trajectory prediction, we propose a novel scene-aware multi-modal pedestrian trajectory prediction framework called GBD. GBD combines goal prediction with the diffusion network. First, the goal predictor produces multiple goals, and then the diffusion network generates multi-modal trajectories conditioned on these goals. Furthermore, we introduce a new diffusion sampling algorithm named tree sampling (TS), which leverages common feature to reduce the inference time and improve accuracy for multi-modal prediction. Experimental results demonstrate that our GBD-TS method achieves state-of-the-art performance with real-time inference speed.
翻訳日:2023-11-29 23:01:16 公開日:2023-11-25
# 非エルミート帯域のグラフ形態

Graph Morphology of Non-Hermitian Bands ( http://arxiv.org/abs/2311.14921v1 )

ライセンス: Link先を確認
Yuncheng Xiong and Haiping Hu(参考訳) 非エルミート系は、開境界条件下でエネルギースペクトルの多様なグラフパターンを示す。 本稿では,非ブロッホバンドのスペクトル幾何学とグラフトポロジーを包括的に特徴付ける代数的枠組みを提案する。 局所的に定義されたポテンシャル関数を用いて、ブロッホから非ブロッホ帯域へのスペクトル崩壊機構を解き、スペクトルグラフをポテンシャルランドスケープのトラフに微妙に配置する。 ポテンシャル形式論は非ブロッホバンド理論を導出し、ポアソン方程式を介して状態密度を生成する。 さらに、スペクトル頂点を一般化ブリルアンゾーン上の多重性と射影に基づいて分類することにより、オイラーグラフトポロジーをさらに検討する。 具体的なモデルを用いて,一般化ブリルアンゾーンにおける特異点の出現に伴う3つの基本グラフトポロジー遷移(UVY,PT様,自己交差)を同定する。 最後に、スペクトルグラフの外側の孤立したエッジ状態を説明する方法を紹介する。 我々の研究は、非エルミート非ブロッホ帯域の多彩なスペクトル幾何学とグラフトポロジーを探求するための基礎となる。

Non-Hermitian systems exhibit diverse graph patterns of energy spectra under open boundary conditions. Here we present an algebraic framework to comprehensively characterize the spectral geometry and graph topology of non-Bloch bands. Using a locally defined potential function, we unravel the spectral-collapse mechanism from Bloch to non-Bloch bands, delicately placing the spectral graph at the troughs of the potential landscape. The potential formalism deduces non-Bloch band theory and generates the density of states via Poisson equation. We further investigate the Euler-graph topology by classifying spectral vertices based on their multiplicities and projections onto the generalized Brillouin zone. Through concrete models, we identify three elementary graph-topology transitions (UVY, PT-like, and self-crossing), accompanied by the emergence of singularities in the generalized Brillouin zone. Lastly, we unveil how to generally account for isolated edge states outside the spectral graph. Our work lays the cornerstone for exploring the versatile spectral geometry and graph topology of non-Hermitian non-Bloch bands.
翻訳日:2023-11-29 23:00:54 公開日:2023-11-25
# DECap: 拡散機構による汎用的明示的キャプション編集を目指して

DECap: Towards Generalized Explicit Caption Editing via Diffusion Mechanism ( http://arxiv.org/abs/2311.14920v1 )

ライセンス: Link先を確認
Zhen Wang, Jun Xiao, Tao Chen, Long Chen(参考訳) 明示的なキャプション編集(ece) -- 明示的な編集操作(例えばkeep, detele)のシーケンスを通して参照画像キャプションを精錬する -- は、説明可能で人間のような性質のため、大きな注目を集めている。 注意深く設計された参照と接頭辞のペアでトレーニングした後、最先端のeceモデルは、オリジナルのトレーニングデータ分布を超えた限定的な一般化能力、すなわち、ドメイン内サンプルのみの内容詳細を洗練するように調整されるが、ドメイン外サンプルのエラーを訂正できない。 そこで本稿では,Diffusion ベースの Explicit Caption 編集手法である DECap を提案する。 具体的には,ECEタスクを拡散機構下でのデノナイズプロセスとして再構成し,革新的な編集に基づくノナイズプロセスを導入する。 この設計により、学習のための単語レベルのノイズを直接導入し、入力参照キャプションよりも多様な分布を学習することにより、綿密なペアデータ選択の必要性を解消することができる。 復調処理は、編集操作と対応するコンテンツワードの明示的な予測と、反復的なステップワイズ編集による参照キャプションの精製を含む。 拡散プロセスを効率的に実装し、推論速度を向上させるために、広く普及している多段階設計を捨て、編集操作とコンテンツワードを同時に生成する。 様々なシナリオにおいて、DeCapの強力な一般化能力が広く証明されている。 さらに興味深いことに、キャプション生成の品質と制御性を改善する大きな可能性を秘めている。

Explicit Caption Editing (ECE) -- refining reference image captions through a sequence of explicit edit operations (e.g., KEEP, DETELE) -- has raised significant attention due to its explainable and human-like nature. After training with carefully designed reference and ground-truth caption pairs, state-of-the-art ECE models exhibit limited generalization ability beyond the original training data distribution, i.e., they are tailored to refine content details only in in-domain samples but fail to correct errors in out-of-domain samples. To this end, we propose a new Diffusion-based Explicit Caption editing method: DECap. Specifically, we reformulate the ECE task as a denoising process under the diffusion mechanism, and introduce innovative edit-based noising and denoising processes. Thanks to this design, the noising process can help to eliminate the need for meticulous paired data selection by directly introducing word-level noises for training, learning diverse distribution over input reference caption. The denoising process involves the explicit predictions of edit operations and corresponding content words, refining reference captions through iterative step-wise editing. To further efficiently implement our diffusion process and improve the inference speed, DECap discards the prevalent multi-stage design and directly generates edit operations and content words simultaneously. Extensive ablations have demonstrated the strong generalization ability of DECap in various scenarios. More interestingly, it even shows great potential in improving the quality and controllability of caption generation.
翻訳日:2023-11-29 23:00:34 公開日:2023-11-25
# 信頼に基づくプルーニングによる最小ベイズリスクデコーディングの高速化

Faster Minimum Bayes Risk Decoding with Confidence-based Pruning ( http://arxiv.org/abs/2311.14919v1 )

ライセンス: Link先を確認
Julius Cheng, Andreas Vlachos(参考訳) 最小ベイズリスク (MBR) は、いくつかのユーティリティ関数のモデル分布よりも最も期待されたユーティリティで仮説を出力する。 条件付き言語生成問題、特にニューラルマシン翻訳において、人間と自動評価の両方においてビーム探索よりも精度が向上することが示されている。 しかし、mbrの標準的なサンプリングベースアルゴリズムはビーム探索よりも計算コストがかなり高く、多数のサンプルとユーティリティ関数への2次呼び出しを必要とするため、適用性が制限される。 ブートストラップサンプリングにより得られた信頼度推定値に基づいて,最も有用性が高い仮説を定式化しつつ,有用性推定に用いるサンプル数を徐々に増加させるmbrアルゴリズムについて述べる。 本手法では, 精度の点で統計的に区別できないが, サンプルが少なく, 実用機能への呼び出し数が標準のMBRに比べて大幅に減少する。 実用・評価指標として chrF++ と COMET を用いた3つの言語対の実験において,本手法の有効性を示す。

Minimum Bayes risk (MBR) decoding outputs the hypothesis with the highest expected utility over the model distribution for some utility function. It has been shown to improve accuracy over beam search in conditional language generation problems and especially neural machine translation, in both human and automatic evaluations. However, the standard sampling-based algorithm for MBR is substantially more computationally expensive than beam search, requiring a large number of samples as well as a quadratic number of calls to the utility function, limiting its applicability. We describe an algorithm for MBR which gradually grows the number of samples used to estimate the utility while pruning hypotheses that are unlikely to have the highest utility according to confidence estimates obtained with bootstrap sampling. Our method requires fewer samples and drastically reduces the number of calls to the utility function compared to standard MBR while being statistically indistinguishable in terms of accuracy. We demonstrate the effectiveness of our approach in experiments on three language pairs, using chrF++ and COMET as utility/evaluation metrics.
翻訳日:2023-11-29 22:59:50 公開日:2023-11-25
# 超高磁場機能MRIの高分解能・高感度超解像 : 視覚研究への応用

Resolution- and Stimulus-agnostic Super-Resolution of Ultra-High-Field Functional MRI: Application to Visual Studies ( http://arxiv.org/abs/2311.14918v1 )

ライセンス: Link先を確認
Hongwei Bran Li, Matthew S. Rosen, Shahin Nasr, and Juan Eugenio Iglesias(参考訳) 高分解能fMRIは脳のメソスケール組織への窓を提供する。 しかし、高い空間分解能はスキャン時間を増加させ、低信号とコントラスト-ノイズ比を補う。 本研究では,fMRIのための深層学習に基づく3次元超解像法を提案する。 解像度に依存しない画像拡張フレームワークを組み込むことで,リトレーニングなしで様々なボクセルサイズに適応できる。 初期視覚領域における微細な動き選択部位のローカライズにこの革新的な手法を適用した。 これらのサイトの検出には一般的に1mm等方性以上の解像度を必要とするが、ここでは低分解能(2-3mm等方性)fMRIデータに基づいて可視化する。 興味深いことに、超解像fMRIは、異なる被験者から得られたトレーニングデータや実験パラダイム(非視覚的静止状態fMRIを含む)から得られたデータであっても、これらのサイトの相互に結合した組織(色選択された部位)の高周波詳細を復元することができる。 定量的および定性的な結果から,fMRIの空間分解能が向上する可能性が示唆された。

High-resolution fMRI provides a window into the brain's mesoscale organization. Yet, higher spatial resolution increases scan times, to compensate for the low signal and contrast-to-noise ratio. This work introduces a deep learning-based 3D super-resolution (SR) method for fMRI. By incorporating a resolution-agnostic image augmentation framework, our method adapts to varying voxel sizes without retraining. We apply this innovative technique to localize fine-scale motion-selective sites in the early visual areas. Detection of these sites typically requires a resolution higher than 1 mm isotropic, whereas here, we visualize them based on lower resolution (2-3mm isotropic) fMRI data. Remarkably, the super-resolved fMRI is able to recover high-frequency detail of the interdigitated organization of these sites (relative to the color-selective sites), even with training data sourced from different subjects and experimental paradigms -- including non-visual resting-state fMRI, underscoring its robustness and versatility. Quantitative and qualitative results indicate that our method has the potential to enhance the spatial resolution of fMRI, leading to a drastic reduction in acquisition time.
翻訳日:2023-11-29 22:59:21 公開日:2023-11-25
# CUCL:教師なし連続学習のためのコードブック

CUCL: Codebook for Unsupervised Continual Learning ( http://arxiv.org/abs/2311.14911v1 )

ライセンス: Link先を確認
Chen Cheng, Jingkuan Song, Xiaosu Zhu, Junchen Zhu, Lianli Gao, Hengtao Shen(参考訳) 本研究は、高品質な手動ラベル付きデータを必要とするSupervised Continual Learningに代わるものとして、教師なし連続学習(UCL)に焦点を当てている。 UCLパラダイムに基づく実験は、最初の数タスクの結果が最適以下である現象を示している。 この現象により、モデルが実用的な用途には不適当になる。 そこで本研究では,この現象を解析し,多様性の欠如を重要要因として同定した上で,識別的特徴を学習し,クラス境界を完遂する手法であるCodebook for Unsupervised Continual Learning (CUCL)を提案する。 具体的には、まず製品量子化を導入し、その表現に多様性を注入し、元の表現と量子化された表現とのクロス量子化コントラスト損失を適用して識別情報を取得する。 そこで,この量化器を用いて,破滅的忘れを解消する効果的なコードブックリハーサルを提案する。 この研究は、CIFAR100、TinyImageNet、MiniImageNetベンチマークデータセットに関する広範な実験を含む。 本手法は教師なしおよび教師なしの手法の性能を著しく向上させる。 例えば、TinyImageNetでは、SimsiamとBYOLと比較して相対的に12.76%、7%改善した。

The focus of this study is on Unsupervised Continual Learning (UCL), as it presents an alternative to Supervised Continual Learning which needs high-quality manual labeled data. The experiments under the UCL paradigm indicate a phenomenon where the results on the first few tasks are suboptimal. This phenomenon can render the model inappropriate for practical applications. To address this issue, after analyzing the phenomenon and identifying the lack of diversity as a vital factor, we propose a method named Codebook for Unsupervised Continual Learning (CUCL) which promotes the model to learn discriminative features to complete the class boundary. Specifically, we first introduce a Product Quantization to inject diversity into the representation and apply a cross quantized contrastive loss between the original representation and the quantized one to capture discriminative information. Then, based on the quantizer, we propose an effective Codebook Rehearsal to address catastrophic forgetting. This study involves conducting extensive experiments on CIFAR100, TinyImageNet, and MiniImageNet benchmark datasets. Our method significantly boosts the performances of supervised and unsupervised methods. For instance, on TinyImageNet, our method led to a relative improvement of 12.76% and 7% when compared with Simsiam and BYOL, respectively.
翻訳日:2023-11-29 22:58:47 公開日:2023-11-25
# グラフ上の非線形結合振動子の潜在線形モデル

A latent linear model for nonlinear coupled oscillators on graphs ( http://arxiv.org/abs/2311.14910v1 )

ライセンス: Link先を確認
Agam Goyal, Zhaoxing Wu, Richard P. Yim, Binhao Chen, Zihong Xu, Hanbaek Lyu(参考訳) 任意のグラフ上の結合発振器の系は、近傍の発振器間の相互同期傾向によって局所的に駆動されるが、グラフ全体に非線形な挙動を示すこともしばしばある。 このような非線形挙動を理解することは、システム内の全ての発振器が最終的に同期するかどうかを予測する上で重要な課題である。 本稿では,このような非線形振動子の非線形挙動が,ある潜在動的空間において効果的に線形化できることを示す。 重要な洞察は、サブグラフ上での同期と非同期のダイナミクスと特定の関係を持ち、サブグラフ上の観測されたダイナミクスは、そのような基本ダイナミックパターンの適切な線形結合によって近似できるという、少数の「相対力学フィルタ」が存在することである。 サブグラフレベルの予測をアンサンブルすることで、グラフ全体のシステムがグローバル同期に達するかどうかを解釈可能な予測する。 このような潜在ダイナミクスフィルタを学習するために,教師付き行列分解に基づくアルゴリズムを提案する。 本手法は,単純かつ解釈可能なアーキテクチャであるにもかかわらず,ベースラインやブラックボックス分類アルゴリズムに対して,同期予測タスクにおいて競合することを実証する。

A system of coupled oscillators on an arbitrary graph is locally driven by the tendency to mutual synchronization between nearby oscillators, but can and often exhibit nonlinear behavior on the whole graph. Understanding such nonlinear behavior has been a key challenge in predicting whether all oscillators in such a system will eventually synchronize. In this paper, we demonstrate that, surprisingly, such nonlinear behavior of coupled oscillators can be effectively linearized in certain latent dynamic spaces. The key insight is that there is a small number of `latent dynamics filters', each with a specific association with synchronizing and non-synchronizing dynamics on subgraphs so that any observed dynamics on subgraphs can be approximated by a suitable linear combination of such elementary dynamic patterns. Taking an ensemble of subgraph-level predictions provides an interpretable predictor for whether the system on the whole graph reaches global synchronization. We propose algorithms based on supervised matrix factorization to learn such latent dynamics filters. We demonstrate that our method performs competitively in synchronization prediction tasks against baselines and black-box classification algorithms, despite its simple and interpretable architecture.
翻訳日:2023-11-29 22:57:53 公開日:2023-11-25
# Dual Modular Memorizationによる連続参照表現の理解

Continual Referring Expression Comprehension via Dual Modular Memorization ( http://arxiv.org/abs/2311.14909v1 )

ライセンス: Link先を確認
Heng Tao Shen, Cheng Chen, Peng Wang, Lianli Gao, Meng Wang, Jingkuan Song(参考訳) Referring Expression Comprehension (REC)は、自然言語で記述された対象のイメージ領域をローカライズすることを目的としている。 有望なパフォーマンスが実証されているが、既存のRECアルゴリズムは、モデルへのデータ供給のトレーニングが事前に行われると強く仮定している。 本稿では,recの新しい設定であるcontinual reference expression comprehension (crec)を提案する。 先行知識を忘れずに連続的なタスクのモデルを改善するために,2つの記憶モジュール(インプリシットメモリとエクスプリシットメモリ)による破滅的記憶の問題を緩和する,DMM(Dual Modular Memorization)と呼ばれる効果的なベースライン手法を提案する。 具体的には、新しいタスクを学ぶ際に、古いタスクで学んだ重要なパラメータに劇的な変更を限定することを目的としており、後者のモジュールはバッファプールを保持し、将来のリハーサルのために、各タスクの代表サンプルを動的に選択、保存する。 RefCOCO、RefCOCO+、RefCOCOgの3つの広く使われているRECデータセットを逐次的なタスクに分割することで、新しいCREC設定のための3つのベンチマークを作成します。 構築されたベンチマークに対する大規模な実験により、我々のDMM法は2つの一般的なRECバックボーンに基づいて、他の方法よりも大幅に優れていることが示された。 この分野の将来の発展を促進するために、ソースコードとベンチマークを公開しています。

Referring Expression Comprehension (REC) aims to localize an image region of a given object described by a natural-language expression. While promising performance has been demonstrated, existing REC algorithms make a strong assumption that training data feeding into a model are given upfront, which degrades its practicality for real-world scenarios. In this paper, we propose Continual Referring Expression Comprehension (CREC), a new setting for REC, where a model is learning on a stream of incoming tasks. In order to continuously improve the model on sequential tasks without forgetting prior learned knowledge and without repeatedly re-training from a scratch, we propose an effective baseline method named Dual Modular Memorization (DMM), which alleviates the problem of catastrophic forgetting by two memorization modules: Implicit-Memory and Explicit-Memory. Specifically, the former module aims to constrain drastic changes to important parameters learned on old tasks when learning a new task; while the latter module maintains a buffer pool to dynamically select and store representative samples of each seen task for future rehearsal. We create three benchmarks for the new CREC setting, by respectively re-splitting three widely-used REC datasets RefCOCO, RefCOCO+ and RefCOCOg into sequential tasks. Extensive experiments on the constructed benchmarks demonstrate that our DMM method significantly outperforms other alternatives, based on two popular REC backbones. We make the source code and benchmarks publicly available to foster future progress in this field: https://github.com/zackschen/DMM.
翻訳日:2023-11-29 22:57:26 公開日:2023-11-25
# MPI-CUDAとTensorflowフレームワークによるベクトルマシンの実装

Support Vector Machine Implementation on MPI-CUDA and Tensorflow Framework ( http://arxiv.org/abs/2311.14908v1 )

ライセンス: Link先を確認
Islam Elgarhy(参考訳) Support Vector Machine (SVM)アルゴリズムは、トレーニングプロセス中に複雑な二次プログラミング(QP)最適化問題を解決するために、高い計算コスト(メモリと時間の両方)を必要とする。 その結果、SVMは高いコンピューティングハードウェア能力を必要とする。 中央処理ユニット(CPU)クロック周波数は、小型化プロセスにおける物理的制限のために増加できない。 しかし、マルチコアCPUと高度にスケーラブルなGPUの両方で利用可能な並列マルチアーキテクチャの可能性は、アルゴリズム性能を向上させるための有望なソリューションとして現れている。 したがって、QP最適化問題を解決するためにSVMが必要とする高い計算時間を削減できる。 本稿では,異なる並列アーキテクチャフレームワーク上でSVMアルゴリズムを実装した比較研究を提案する。 実験の結果,SVM MPI-CUDA実装は,異なるデータセット上でのSVM TensorFlow実装の高速化を実現することがわかった。 さらに、SVM TensorFlow実装は、代替ハードウェアコンポーネントに移行することができるクロスプラットフォームソリューションを提供し、開発時間を短縮する。

Support Vector Machine (SVM) algorithm requires a high computational cost (both in memory and time) to solve a complex quadratic programming (QP) optimization problem during the training process. Consequently, SVM necessitates high computing hardware capabilities. The central processing unit (CPU) clock frequency cannot be increased due to physical limitations in the miniaturization process. However, the potential of parallel multi-architecture, available in both multi-core CPUs and highly scalable GPUs, emerges as a promising solution to enhance algorithm performance. Therefore, there is an opportunity to reduce the high computational time required by SVM for solving the QP optimization problem. This paper presents a comparative study that implements the SVM algorithm on different parallel architecture frameworks. The experimental results show that SVM MPI-CUDA implementation achieves a speedup over SVM TensorFlow implementation on different datasets. Moreover, SVM TensorFlow implementation provides a cross-platform solution that can be migrated to alternative hardware components, which will reduces the development time.
翻訳日:2023-11-29 22:56:57 公開日:2023-11-25
# AutoEval-Video: オープンエンディングビデオ質問応答における大規模視覚言語モデルの自動ベンチマーク

AutoEval-Video: An Automatic Benchmark for Assessing Large Vision Language Models in Open-Ended Video Question Answering ( http://arxiv.org/abs/2311.14906v1 )

ライセンス: Link先を確認
Xiuyuan Chen, Yuan Lin, Yuchen Zhang, Weiran Huang(参考訳) 本稿では,オープンエンドビデオ質問応答において,大規模視覚言語モデルの包括的評価を行うための,新しく挑戦的なベンチマークであるautoeval-videoを提案する。 AutoEval-Videoの包括性は2つの側面で示される。 1)自己評価ビデオは9つのスキル次元にまたがるオープンエンドビデオクエスチョーションを構築し,知覚,理解,生成の能力に対処している。 2)AutoEval-Videoには40以上のテーマをカバーしたビデオが新たに集められている。 オープンエンド質問に対する回答を効率よく評価するために,LLMに基づく評価手法を用いるが,単に参照回答を提供するのではなく,各インスタンス(ビデオ検索ペア)ごとに独自の評価ルールを注釈付けする。 これらのルールのロバスト性を最大化するために,新しい対角的アノテーション機構を開発する。 インスタンス固有のルールを即座に使用することにより、GPT-4を自動評価器として、人間の評価器の94.9\%から97.5\%に匹敵する、97.0\%の安定した評価精度を達成することができる。 さらに,8つの大規模視覚言語モデルの性能評価を行った。 GPT-4V(ision)は他のモデルよりも大幅に優れ、精度は32.2\%である。 しかし、人間の精度が72.8\%であるのに対して、改善の余地は依然として十分にある。 広範なケーススタディを行い,gpt-4vの限界時間的および動的理解,過度に一般的な応答など,いくつかの欠点を明らかにする。 コードは \href{https://github.com/Xiuyuan-Chen/AutoEval-Video}{\color{magenta}https://github.com/Xiuyuan-Chen/AutoEval-Video} で公開されている。

We propose a novel and challenging benchmark, AutoEval-Video, to comprehensively evaluate large vision-language models in open-ended video question answering. The comprehensiveness of AutoEval-Video is demonstrated in two aspects: 1) AutoEval-Video constructs open-ended video-questions across 9 skill dimensions, addressing capabilities of perception, comprehension, and generation. 2) AutoEval-Video contains newly collected videos that cover over 40 distinct themes. To efficiently evaluate responses to the open-ended questions, we employ an LLM-based evaluation approach, but instead of merely providing a reference answer, we annotate unique evaluation rules for every single instance (video-question pair). To maximize the robustness of these rules, we develop a novel adversarial annotation mechanism. By using instance-specific rules as prompt, GPT-4, as an automatic evaluator, can achieve a stable evaluation accuracy of around 97.0\%, comparable to the 94.9\% - 97.5\% accuracy of a human evaluator. Furthermore, we assess the performance of eight large vision-language models on AutoEval-Video. Among them, GPT-4V(ision) significantly outperforms other models, achieving an accuracy of 32.2\%. However, there is still substantial room for improvement compared to human accuracy of 72.8\%. By conducting an extensive case study, we uncover several drawbacks of GPT-4V, such as limited temporal and dynamic comprehension, and overly general responses. Code is available at \href{https://github.com/Xiuyuan-Chen/AutoEval-Video}{\color{magenta}https://github.com/Xiuyuan-Chen/AutoEval-Video}.
翻訳日:2023-11-29 22:56:40 公開日:2023-11-25
# 連続学習のためのクラス勾配投影

Class Gradient Projection For Continual Learning ( http://arxiv.org/abs/2311.14905v1 )

ライセンス: Link先を確認
Cheng Chen, Ji Zhang, Jingkuan Song, Lianli Gao(参考訳) 破滅的な忘れは継続的学習(CL)における最も重要な課題の1つです。 最近のアプローチでは、既存のタスクの勾配部分空間に直交する勾配更新を投影することでこの問題に対処している。 結果は目覚ましいが、これらの計算された勾配は、例えば "Man" と "Sea" v.s. と "Boy" と "Girl" を区別する "Man" のようなタスクのクラス偏差によって、各クラスの勾配部分空間に直交することが保証されていないという事実を無視している。 したがって、この戦略は一部のクラスで破滅的なことを忘れてしまう可能性がある。 本稿では,タスクではなく個々のクラスから勾配部分空間を計算するクラスグラディエント・プロジェクション(CGP)を提案する。 既存のクラスの勾配部分空間に直交する勾配更新は、他のクラスからの干渉を最小限にするために効果的に利用できる。 一般化と効率を改善するために,類似したクラスとクラスベースを動的に組み合わせたベース精製(BR)アルゴリズムを設計する。 さらに,モデルの非知覚タスク処理能力を向上させるために,コントラスト学習手法を活用する。 ベンチマークデータセットに関する広範な実験により,提案手法の有効性が示された。 CIFAR-100データセットでは、以前のメソッドを2.0%改善している。

Catastrophic forgetting is one of the most critical challenges in Continual Learning (CL). Recent approaches tackle this problem by projecting the gradient update orthogonal to the gradient subspace of existing tasks. While the results are remarkable, those approaches ignore the fact that these calculated gradients are not guaranteed to be orthogonal to the gradient subspace of each class due to the class deviation in tasks, e.g., distinguishing "Man" from "Sea" v.s. differentiating "Boy" from "Girl". Therefore, this strategy may still cause catastrophic forgetting for some classes. In this paper, we propose Class Gradient Projection (CGP), which calculates the gradient subspace from individual classes rather than tasks. Gradient update orthogonal to the gradient subspace of existing classes can be effectively utilized to minimize interference from other classes. To improve the generalization and efficiency, we further design a Base Refining (BR) algorithm to combine similar classes and refine class bases dynamically. Moreover, we leverage a contrastive learning method to improve the model's ability to handle unseen tasks. Extensive experiments on benchmark datasets demonstrate the effectiveness of our proposed approach. It improves the previous methods by 2.0% on the CIFAR-100 dataset.
翻訳日:2023-11-29 22:56:10 公開日:2023-11-25
# 正確なコードジェネレータを訓練するためのllm支援コードクリーニング

LLM-Assisted Code Cleaning For Training Accurate Code Generators ( http://arxiv.org/abs/2311.14904v1 )

ライセンス: Link先を確認
Naman Jain, Tianjun Zhang, Wei-Lin Chiang, Joseph E. Gonzalez, Koushik Sen, Ion Stoica(参考訳) 自然言語からコード生成はllmの重要な応用分野であり、コミュニティから広く注目を集めている。 関連する研究の大部分は、プログラムの他のスタイル的要素を無視しながら、トレーニングセットの量と機能的正しさの増大に集中している。 最近では、データ品質が多くの関心を集めており、複数の研究がパフォーマンス向上の重要性を示しています。 本研究では,コードのデータ品質を調査し,より構造化され,読みやすくすることで,システムのコード生成性能が向上することを示す。 私たちはこれらの原則を使って既存のプログラムを変換する新しいデータクリーニングパイプラインを構築します。 1.変数名を変更。 2) 複雑なコードをより小さなヘルパーサブファンクションにモジュール化して分解し、 3) LLMベースの変換による自然言語ベースの計画の挿入。 2つのアルゴリズムコード生成ベンチマークに対するアプローチを評価し、変換されたモジュール化プログラム上での細調整のCodeLLaMa-7Bは、元のデータセットの細調整と比較して最大30%性能が向上することを確認した。 さらに、より少ない量の高品質データを使用することによるパフォーマンスの向上を実証し、元のデータセット全体に微調整されたモデルは、クリーンなデータセットの15%でトレーニングされたモデルよりも優れています。 クローズドソースモデルと比較しても、私たちのモデルはずっと大きなalphacoderモデルよりも優れています。

Natural language to code generation is an important application area of LLMs and has received wide attention from the community. The majority of relevant studies have exclusively concentrated on increasing the quantity and functional correctness of training sets while disregarding other stylistic elements of programs. More recently, data quality has garnered a lot of interest and multiple works have showcased its importance for improving performance. In this work, we investigate data quality for code and find that making the code more structured and readable leads to improved code generation performance of the system. We build a novel data-cleaning pipeline that uses these principles to transform existing programs by 1.) renaming variables, 2.) modularizing and decomposing complex code into smaller helper sub-functions, and 3.) inserting natural-language based plans via LLM based transformations. We evaluate our approach on two challenging algorithmic code generation benchmarks and find that fine-tuning CodeLLaMa-7B on our transformed modularized programs improves the performance by up to 30% compared to fine-tuning on the original dataset. Additionally, we demonstrate improved performance from using a smaller amount of higher-quality data, finding that a model fine-tuned on the entire original dataset is outperformed by a model trained on 15% of our cleaned dataset. Even in comparison to closed-source models, our models outperform the much larger AlphaCoder models.
翻訳日:2023-11-29 22:55:49 公開日:2023-11-25
# コード生成に基づく格付け:「説明・説明・英語」質問の自動格付け機構の評価

Code Generation Based Grading: Evaluating an Auto-grading Mechanism for "Explain-in-Plain-English" Questions ( http://arxiv.org/abs/2311.14903v1 )

ライセンス: Link先を確認
David H. Smith IV and Craig Zilles(参考訳) コードの目的の理解と解明は、入門プログラミングコースにおける重要な学習目標として言及されることが多い。 この目的である「説明-in-Plain- English」質問に対処するため、学生はコードの一部を示し、コードの目的を抽象的に記述するよう依頼された。 しかし、固有質問は自然言語応答を必要とするため、授業スタッフに時間がかかる手動の採点と学生へのフィードバックの遅れがしばしば必要となる。 コードを生成する大きな言語モデル(LLM)の出現により、EePE質問に対する応答を使用してコードセグメントを生成することができ、その正確性はテストケースを使って容易に検証できる。 本稿では,この手法をCGBG(Code Generation Based Grading)と呼ぶ。本論文では,Pythonで教えられた入門プログラミングコースにおいて,過去の試験からEePE応答を用いた人間グレーダとの合意について検討する。 概して、CGBGは、低レベルのコードや行ごとのコード記述に対して、主要な不一致領域が冗長性であることから、人間の中等生と適度な合意を達成している。

Comprehending and elucidating the purpose of code is often cited as being a key learning objective within introductory programming courses. To address this objective ``Explain-in-Plain-English'' questions, in which students are shown a segment of code and asked to provide an abstract description of the code's purpose, have been adopted. However, given EiPE questions require a natural language response, they often require manual grading which is time-consuming for course staff and delays feedback for students. With the advent of large language models (LLMs) capable of generating code, responses to EiPE questions can be used to generate code segments, the correctness of which can then be easily verified using test cases. We refer to this approach as "Code Generation Based Grading" (CGBG) and in this paper we explore its agreement with human graders using EiPE responses from past exams in an introductory programming course taught in Python. Overall, we find that CGBG achieves moderate agreement with human graders with the primary area of disagreement being its leniency with respect to low-level and line-by-line descriptions of code.
翻訳日:2023-11-29 22:55:28 公開日:2023-11-25
# コントラストグラフクロスビュー学習を用いたSPECT画像のマルチモーダル融合と臨床像を用いたパーキンソン病分類

Parkinson Disease classification Using Contrastive Graph Cross-View Learning with Multimodal Fusion of SPECT Images and Clinical Features ( http://arxiv.org/abs/2311.14902v1 )

ライセンス: Link先を確認
Jun-En Ding, Chien-Chin Hsu, and Feng Liu(参考訳) パーキンソン病(英: Parkinson's Disease、PD)は、神経変性性神経疾患であり、世界中で1000万人以上の患者に影響を与えている。 これまでの研究では、パーキンソン病を主に医療画像を用いて予測するためのディープラーニングモデルが考案され、データセットの多様体構造を活用できなかった。 本研究は,パーキンソン病分類のために,画像と非画像の特徴を併用したマルチモーダルアプローチを提案する。 具体的には、画像と臨床特徴の低次元表現から導かれる2つの異なるグラフビューからの埋め込みを統合するマルチモーダルコアテンションモジュールを設計し、マルチビューデータからより安定かつ構造化された特徴の抽出を可能にする。 さらに,モデル全体のクロスビュー融合学習能力を向上させるため,正対と負対のコントラスト損失を利用した簡易融合法を考案した。 実験では,グラフビューのマルチモーダル手法は,5倍のクロスバリデーションにおいて精度91%,AUC92.8%を達成することができ,機械学習手法のみに依存する手法に比べて,非画像データに対して優れた予測能力を示す。

Parkinson's Disease (PD) is a neurodegenerative neurological disorder that impacts movement and afflicts over 10 million people worldwide. Previous researches have come up with deep learning models for predicting Parkinson's disease primarily using medical images and didn't leverage the manifold structure in the dataset. Our study introduces a multimodal approach with both image and non-image features with a contrastive cross-view graph fusion for Parkinson's disease classification. Specifically, we designed a multimodal co-attention module to integrate embeddings from two distinct graph views derived from low dimensional representation of images and clinical features, enabling the extraction of more stable and structured features from the multiview data. Additionally, we have devised a simplified fusion method utilizing a contrastive loss for positive and negative pairs, to enhance the model's overall cross-view fusion learning capabilities. In our experiments, the graph-view multimodal approach can achieve an accuracy rate of 91% and an AUC of 92.8% in five-fold cross-validation, and it also demonstrates superior predictive capabilities on non-image data as compared to methods that rely solely on machine learning methods.
翻訳日:2023-11-29 22:55:04 公開日:2023-11-25
# code search debiasing: 総合的なランキング性能を超えた検索結果の改善

Code Search Debiasing:Improve Search Results beyond Overall Ranking Performance ( http://arxiv.org/abs/2311.14901v1 )

ライセンス: Link先を確認
Sheng Zhang, Hui Li, Yanlin Wang, Zhao Wei, Yong Xiu, Juhong Wang, Rongong Ji(参考訳) コード検索エンジンはソフトウェア開発に不可欠なツールである。 多くのコード検索手法が登場し、コード検索の総合的な性能に焦点を当てている。 本稿では,コード検索モデルのバイアスを分析することによって,別の視点からコード検索を行う。 バイアスドコード検索エンジンは、全体的なパフォーマンスが期待できるにもかかわらず、ユーザエクスペリエンスが劣っている。 異なる開発規約(例えば長いクエリや略語を好む)のため、エンジンが役に立つと考えるプログラマもいれば、望ましい検索結果を得るのが難しいプログラマもいる。 バイアスを軽減するために,検索結果の校正に再ランキングを用いる汎用デバイアスフレームワークを開発した。 既存のエンジンに簡単に接続でき、将来発見された新しいコード検索バイアスを処理することができる。 実験により、我々のフレームワークは、バイアスを効果的に低減できることが示される。 一方、コード検索の全体的なランク付け性能はデバイアス後に改善される。

Code search engine is an essential tool in software development. Many code search methods have sprung up, focusing on the overall ranking performance of code search. In this paper, we study code search from another perspective by analyzing the bias of code search models. Biased code search engines provide poor user experience, even though they show promising overall performance. Due to different development conventions (e.g., prefer long queries or abbreviations), some programmers will find the engine useful, while others may find it hard to get desirable search results. To mitigate biases, we develop a general debiasing framework that employs reranking to calibrate search results. It can be easily plugged into existing engines and handle new code search biases discovered in the future. Experiments show that our framework can effectively reduce biases. Meanwhile, the overall ranking performance of code search gets improved after debiasing.
翻訳日:2023-11-29 22:54:42 公開日:2023-11-25
# Tightropeのウォーキング - ハイリスクドメインにおける大規模言語モデルの評価

Walking a Tightrope -- Evaluating Large Language Models in High-Risk Domains ( http://arxiv.org/abs/2311.14966v1 )

ライセンス: Link先を確認
Chia-Chien Hung, Wiem Ben Rim, Lindsay Frost, Lars Bruckner, Carolin Lawrence(参考訳) 高リスクドメインは、正確で安全な応答を提供するために言語モデルを必要とするユニークな課題をもたらす。 ChatGPTなどの大規模言語モデル(LLM)の成功にもかかわらず、ハイリスク領域におけるパフォーマンスは依然として不明である。 本研究は, 実測精度と安全性に焦点をあてて, 指導調整LDMの性能の詳細な分析を行った。 llmsの能力を総合的に評価するために,質問応答や要約タスクを含む6つのnlpデータセットについて,法的および医学的2つのリスク領域で実験を行った。 さらに質的な分析は、リスクの高いドメインの評価において、現在のLLMに固有の既存の制限を強調している。 このことは、LLM能力の向上だけでなく、ドメイン固有のメトリクスの洗練を優先し、安全性と事実の信頼性を高めるためにより人間中心のアプローチを採用することの重要性を強調している。 本研究は、リスクの高い領域におけるLSMを適切に評価することの懸念に焦点をあて、社会的義務を履行し、EU AI法などの今後の規制と整合することを目的としている。

High-risk domains pose unique challenges that require language models to provide accurate and safe responses. Despite the great success of large language models (LLMs), such as ChatGPT and its variants, their performance in high-risk domains remains unclear. Our study delves into an in-depth analysis of the performance of instruction-tuned LLMs, focusing on factual accuracy and safety adherence. To comprehensively assess the capabilities of LLMs, we conduct experiments on six NLP datasets including question answering and summarization tasks within two high-risk domains: legal and medical. Further qualitative analysis highlights the existing limitations inherent in current LLMs when evaluating in high-risk domains. This underscores the essential nature of not only improving LLM capabilities but also prioritizing the refinement of domain-specific metrics, and embracing a more human-centric approach to enhance safety and factual reliability. Our findings advance the field toward the concerns of properly evaluating LLMs in high-risk domains, aiming to steer the adaptability of LLMs in fulfilling societal obligations and aligning with forthcoming regulations, such as the EU AI Act.
翻訳日:2023-11-29 22:47:01 公開日:2023-11-25
# リカレントニューラルネットワークによる変化点検出の選択的推定

Selective Inference for Changepoint detection by Recurrent Neural Network ( http://arxiv.org/abs/2311.14964v1 )

ライセンス: Link先を確認
Tomohiro Shiraishi, Daiki Miwa, Vo Nguyen Le Duy, Ichiro Takeuchi(参考訳) 本研究では,リカレントニューラルネットワーク(RNN)を用いた時系列における検出された変化点(CP)の統計的信頼性の定量化について検討した。 その柔軟性のおかげで、RNNは複雑なダイナミクスによって特徴づけられる時系列におけるCPを効果的に識別する可能性を持っている。 しかし、CPとしてランダムノイズ変動を誤って検出するリスクが増大している。 本研究の目的は,RNNが検出したCPに理論的に有効なp値を提供することにより,誤検出のリスクを厳格に制御することである。 そこで我々は,選択推論(Selective Inference, SI)の枠組みに基づく新しい手法を提案する。 SIは仮説選択の事象を条件付けすることで有効な推論を可能にし、選択バイアスを緩和する。 本研究では, RNNによるCP検出にSIフレームワークを適用し, RNNによるCP選択の複雑なプロセスの特徴付けが主な技術的課題である。 人工および実データ実験により提案手法の有効性と有効性を示す。

In this study, we investigate the quantification of the statistical reliability of detected change points (CPs) in time series using a Recurrent Neural Network (RNN). Thanks to its flexibility, RNN holds the potential to effectively identify CPs in time series characterized by complex dynamics. However, there is an increased risk of erroneously detecting random noise fluctuations as CPs. The primary goal of this study is to rigorously control the risk of false detections by providing theoretically valid p-values to the CPs detected by RNN. To achieve this, we introduce a novel method based on the framework of Selective Inference (SI). SI enables valid inferences by conditioning on the event of hypothesis selection, thus mitigating selection bias. In this study, we apply SI framework to RNN-based CP detection, where characterizing the complex process of RNN selecting CPs is our main technical challenge. We demonstrate the validity and effectiveness of the proposed method through artificial and real data experiments.
翻訳日:2023-11-29 22:46:35 公開日:2023-11-25
# 拡散モデルによる点雲事前学習

Point Cloud Pre-training with Diffusion Models ( http://arxiv.org/abs/2311.14960v1 )

ライセンス: Link先を確認
Xiao Zheng, Xiaoshui Huang, Guofeng Mei, Yuenan Hou, Zhaoyang Lyu, Bo Dai, Wanli Ouyang, Yongshun Gong(参考訳) モデルの事前トレーニングと下流タスクでの微調整は、2D画像とNLPドメインにおいて大きな成功を収めた。 しかしながら、点雲の無秩序で不均一な密度特性のため、点雲の事前知識を探求し、点雲のバックボーンを事前訓練することは非自明である。 本稿では,Point cloud Diffusion pre-training (PointDif) と呼ばれる新しい事前学習手法を提案する。 我々は,ポイントクラウド事前学習タスクを条件付きポイントツーポイント生成問題と考え,条件付きポイントジェネレータを導入する。 このジェネレータは、バックボーンによって抽出された特徴を集約し、ノイズ点雲からのポイント・ツー・ポイント・リカバリを誘導する条件として使用する。 また,モデルが様々なノイズレベルから均一に回復し,バランスの取れた監視から学習することのできる一様サンプリング最適化手法を提案する。 我々のPointDifは、分類、セグメンテーション、検出といった様々な下流タスクのために、様々な現実世界のデータセット間で大幅に改善されている。 具体的には,S3DIS領域5では,S3DIS領域5で70.0% mIoUを獲得し,TAPと比較してScanObjectNNでは平均2.4%向上した。 さらに、当社の事前トレーニングフレームワークは、さまざまなポイントクラウドバックボーンに柔軟に適用でき、大幅な向上を実現しています。

Pre-training a model and then fine-tuning it on downstream tasks has demonstrated significant success in the 2D image and NLP domains. However, due to the unordered and non-uniform density characteristics of point clouds, it is non-trivial to explore the prior knowledge of point clouds and pre-train a point cloud backbone. In this paper, we propose a novel pre-training method called Point cloud Diffusion pre-training (PointDif). We consider the point cloud pre-training task as a conditional point-to-point generation problem and introduce a conditional point generator. This generator aggregates the features extracted by the backbone and employs them as the condition to guide the point-to-point recovery from the noisy point cloud, thereby assisting the backbone in capturing both local and global geometric priors as well as the global point density distribution of the object. We also present a recurrent uniform sampling optimization strategy, which enables the model to uniformly recover from various noise levels and learn from balanced supervision. Our PointDif achieves substantial improvement across various real-world datasets for diverse downstream tasks such as classification, segmentation and detection. Specifically, PointDif attains 70.0% mIoU on S3DIS Area 5 for the segmentation task and achieves an average improvement of 2.4% on ScanObjectNN for the classification task compared to TAP. Furthermore, our pre-training framework can be flexibly applied to diverse point cloud backbones and bring considerable gains.
翻訳日:2023-11-29 22:46:19 公開日:2023-11-25
# 準コンフォーマルマッピングとコントラスト学習を用いた周産期脳の形態的指紋の同定

Identification of morphological fingerprint in perinatal brains using quasi-conformal mapping and contrastive learning ( http://arxiv.org/abs/2311.14955v1 )

ライセンス: Link先を確認
Boyang Wang, Weihao Zheng, Ying Wang, Zhe Zhang, Yuchen Sheng and Minmin Wang(参考訳) 脳内の形態的指紋は、個人の特異性を識別することができる。 しかし、そのような個々のパターンが周産期脳に存在するかどうか、ネオン酸の個体差をよりよく特徴付ける形態的特徴や皮質領域は明らかでない。 本研究では,3つの形態的特徴(皮質厚,平均曲率,sulcal depth)からなる3次元球面メッシュを準等角写像により2次元平面に投影する深層学習フレームワークを提案し,ResNet18と対比学習を個人識別に適用した。 682名の乳児の縦断的構造MRIデータを用いて, 模型の訓練を行い, 縦断的スキャンを行った60名の乳児を対象にパラメータを微調整した。 このモデルは, 乳児の縦スキャンデータ30件で検証され, それぞれ71.37%, 84.10%の顕著なTop1とTop5の精度が得られた。 感覚運動と視覚皮質は個人識別において最も寄与する領域として認識された。 さらに, 折りたたみ型は, 周産期脳における形態的指紋として機能する皮質の厚さよりも, 判別能力が高かった。 これらの発見は、第3三期開始時に脳に形態学的指紋が出現する証拠となり、初期発達中に脳の個体内特異性の形成を理解する上で有望な意味を持つ可能性がある。

The morphological fingerprint in the brain is capable of identifying the uniqueness of an individual. However, whether such individual patterns are present in perinatal brains, and which morphological attributes or cortical regions better characterize the individual differences of ne-onates remain unclear. In this study, we proposed a deep learning framework that projected three-dimensional spherical meshes of three morphological features (i.e., cortical thickness, mean curvature, and sulcal depth) onto two-dimensional planes through quasi-conformal mapping, and employed the ResNet18 and contrastive learning for individual identification. We used the cross-sectional structural MRI data of 682 infants, incorporating with data augmentation, to train the model and fine-tuned the parameters based on 60 infants who had longitudinal scans. The model was validated on 30 longitudinal scanned infant data, and remarkable Top1 and Top5 accuracies of 71.37% and 84.10% were achieved, respectively. The sensorimotor and visual cortices were recognized as the most contributive regions in individual identification. Moreover, the folding morphology demonstrated greater discriminative capability than the cortical thickness, which could serve as the morphological fingerprint in perinatal brains. These findings provided evidence for the emergence of morphological fingerprints in the brain at the beginning of the third trimester, which may hold promising implications for understanding the formation of in-dividual uniqueness in the brain during early development.
翻訳日:2023-11-29 22:45:51 公開日:2023-11-25
# パラフレーズ生成のためのベクトル量子プロンプト学習

Vector-Quantized Prompt Learning for Paraphrase Generation ( http://arxiv.org/abs/2311.14949v1 )

ライセンス: Link先を確認
Haotian Luo, Yixin Liu, Peidong Liu, Xianggen Liu(参考訳) 自然言語の深い生成モデリングは、流動的な文の生成や、ある言語から別の言語への翻訳など、多くの成功を収めてきた。 しかし、表現多様性と意味保存の複雑な対立に対処する上での課題により、パラフレーズ生成のための生成的モデリング技術の開発はいまだに遅れている。 本稿では,インスタンス依存プロンプトを用いた事前学習モデルを用いて,多様で高品質なパラフレーズを生成することを提案する。 一般化されたプロンプトを学ぶために、パラファーゼ生成の抽象的変換パターン(プロンプトによって引き起こされる)の数は有限であり、通常大きくはないと仮定する。 そこで本研究では,ベクトル量子化プロンプトを用いて事前学習モデルの生成を制御する。 実験により,提案手法はQuora,Wikianswers,MSCOCOの3つのベンチマークデータセットに対して,新たな最先端結果が得られることを示した。 受け入れ次第、すべてのコードをリリースします。

Deep generative modeling of natural languages has achieved many successes, such as producing fluent sentences and translating from one language into another. However, the development of generative modeling techniques for paraphrase generation still lags behind largely due to the challenges in addressing the complex conflicts between expression diversity and semantic preservation. This paper proposes to generate diverse and high-quality paraphrases by exploiting the pre-trained models with instance-dependent prompts. To learn generalizable prompts, we assume that the number of abstract transforming patterns of paraphrase generation (governed by prompts) is finite and usually not large. Therefore, we present vector-quantized prompts as the cues to control the generation of pre-trained models. Extensive experiments demonstrate that the proposed method achieves new state-of-art results on three benchmark datasets, including Quora, Wikianswers, and MSCOCO. We will release all the code upon acceptance.
翻訳日:2023-11-29 22:44:30 公開日:2023-11-25
# 事前学習目標によるバックドアの効果的緩和

Effective Backdoor Mitigation Depends on the Pre-training Objective ( http://arxiv.org/abs/2311.14948v1 )

ライセンス: Link先を確認
Sahil Verma and Gantavya Bhatt and Avi Schwarzschild and Soumye Singhal and Arnav Mohanty Das and Chirag Shah and John P Dickerson and Jeff Bilmes(参考訳) 現代の機械学習(ML)モデルの高度な能力にもかかわらず、敵やバックドア攻撃に弱いままである。 この脆弱性は、重要なシナリオで予測不可能な振る舞いを示す可能性のある、妥協されたモデルが現実のデプロイメントに特に関係している。 このようなリスクは、大規模なインターネットソースのデータセットを収集して、マルチモーダルモデルの事前トレーニングを行うことによって高められる。 現在最先端のアプローチであるCleanCLIPなど、これらのモデルにおけるバックドアの効果を緩和する様々な手法が提案されている。 本研究では,バックドアの緩和におけるcleanclipの有効性が,モデル事前学習における特定の目的に大きく依存していることを示す。 我々は,より強固な事前学習目標とバックドアの動作の除去が難しいことに注目した。 我々は,300万 (cc3m) と600万 (cc6m) のデータポイントからなる2つの大規模データセットでマルチモーダルモデルをトレーニングし,さらにcleanclipを用いた毒物除去を行った。 広範囲なハイパーパラメータチューニングであっても、より強力な事前学習目標が使用される場合、CleanCLIPは効果がないことが判明した。 本研究は,大規模ウェブカレーションデータを用いた事前トレーニングモデルを構築し,バックドアの脅威を懸念するML実践者にとって重要な考察である。 特に,より単純な事前学習目標が,効果的なバックドア除去に適していることが示唆された。 この洞察は、より強い事前訓練目標とバックドア攻撃に対するセキュリティとのトレードオフのバランスを求める実践者にとって重要なものだ。

Despite the advanced capabilities of contemporary machine learning (ML) models, they remain vulnerable to adversarial and backdoor attacks. This vulnerability is particularly concerning in real-world deployments, where compromised models may exhibit unpredictable behavior in critical scenarios. Such risks are heightened by the prevalent practice of collecting massive, internet-sourced datasets for pre-training multimodal models, as these datasets may harbor backdoors. Various techniques have been proposed to mitigate the effects of backdooring in these models such as CleanCLIP which is the current state-of-the-art approach. In this work, we demonstrate that the efficacy of CleanCLIP in mitigating backdoors is highly dependent on the particular objective used during model pre-training. We observe that stronger pre-training objectives correlate with harder to remove backdoors behaviors. We show this by training multimodal models on two large datasets consisting of 3 million (CC3M) and 6 million (CC6M) datapoints, under various pre-training objectives, followed by poison removal using CleanCLIP. We find that CleanCLIP is ineffective when stronger pre-training objectives are used, even with extensive hyperparameter tuning. Our findings underscore critical considerations for ML practitioners who pre-train models using large-scale web-curated data and are concerned about potential backdoor threats. Notably, our results suggest that simpler pre-training objectives are more amenable to effective backdoor removal. This insight is pivotal for practitioners seeking to balance the trade-offs between using stronger pre-training objectives and security against backdoor attacks.
翻訳日:2023-11-29 22:44:13 公開日:2023-11-25
# opennet: バランスのとれた損失を伴う自律走行物体検出のためのインクリメンタル学習

OpenNet: Incremental Learning for Autonomous Driving Object Detection with Balanced Loss ( http://arxiv.org/abs/2311.14939v1 )

ライセンス: Link先を確認
Zezhou Wang, Guitao Cao, Xidong Xi, Jiangtao Wang(参考訳) 自動走行物体検出は環境の不確実性からコンピュータビジョンにおいて常に困難な課題となっている。 これらの不確実性は、オブジェクトサイズとunseenクラスとの重大な違いを含む。 従来の物体検出モデルが自動運転検出に直接適用されると、性能が低下する可能性がある。 彼らは通常、歩行者や車といった一般的な交通参加者の一定のカテゴリーを想定している。 さらに悪いことに、共通クラスと新規クラスの大きなクラス不均衡はパフォーマンスの低下をさらに悪化させる。 上記の問題に対処するために,クロスエントロピー損失に基づくバランスのとれた損失に対するクラス不均衡を緩和するopennetを提案する。 さらに,グラデーションリシェーピングに基づく帰納的層を採用し,インクリメンタル学習中に限られたサンプルで新しいクラスを素早く学習する。 壊滅的な忘れを防止するため、我々は正規化特徴蒸留を用いる。 これにより,FPNとエネルギーに基づく検出により,マルチスケール検出の堅牢性と未知のクラス認識が改善される。 CODAデータセットを用いた実験結果から,提案手法は既存手法よりも優れた性能が得られることが示された。

Automated driving object detection has always been a challenging task in computer vision due to environmental uncertainties. These uncertainties include significant differences in object sizes and encountering the class unseen. It may result in poor performance when traditional object detection models are directly applied to automated driving detection. Because they usually presume fixed categories of common traffic participants, such as pedestrians and cars. Worsely, the huge class imbalance between common and novel classes further exacerbates performance degradation. To address the issues stated, we propose OpenNet to moderate the class imbalance with the Balanced Loss, which is based on Cross Entropy Loss. Besides, we adopt an inductive layer based on gradient reshaping to fast learn new classes with limited samples during incremental learning. To against catastrophic forgetting, we employ normalized feature distillation. By the way, we improve multi-scale detection robustness and unknown class recognition through FPN and energy-based detection, respectively. The Experimental results upon the CODA dataset show that the proposed method can obtain better performance than that of the existing methods.
翻訳日:2023-11-29 22:43:48 公開日:2023-11-25
# 無バイアスアグリゲーションによるロバストグラフニューラルネットワーク

Robust Graph Neural Networks via Unbiased Aggregation ( http://arxiv.org/abs/2311.14934v1 )

ライセンス: Link先を確認
Ruiqi Feng, Zhichao Hou, Tyler Derr, Xiaorui Liu(参考訳) グラフニューラルネットワーク(GNN)の敵対的堅牢性は、多数の防御が存在するにもかかわらず、強力な適応攻撃によって発見されたセキュリティの誤った感覚によって疑問視されている。 本研究では,代表的ロバストGNNのロバスト性解析を探求し,そのロバスト性と制限を理解するために,統一的ロバスト推定視点を提供する。 推定バイアスの新しい解析は、ロバストで偏りのないグラフ信号推定器の設計を動機付ける。 そこで我々は,理論収束保証付きGNNにおける頑健な非バイアス集約層として展開する推定問題を解くために,効率的な準ニュートン反復最小二乗アルゴリズムを開発した。 包括的実験により,提案モデルの強靭性が確認され,アブレーション研究は,その利点を深く理解する。

The adversarial robustness of Graph Neural Networks (GNNs) has been questioned due to the false sense of security uncovered by strong adaptive attacks despite the existence of numerous defenses. In this work, we delve into the robustness analysis of representative robust GNNs and provide a unified robust estimation point of view to understand their robustness and limitations. Our novel analysis of estimation bias motivates the design of a robust and unbiased graph signal estimator. We then develop an efficient Quasi-Newton iterative reweighted least squares algorithm to solve the estimation problem, which unfolds as robust unbiased aggregation layers in GNNs with a theoretical convergence guarantee. Our comprehensive experiments confirm the strong robustness of our proposed model, and the ablation study provides a deep understanding of its advantages.
翻訳日:2023-11-29 22:43:33 公開日:2023-11-25
# 非線形ODEに対するワンショットトランスファー学習

One-Shot Transfer Learning for Nonlinear ODEs ( http://arxiv.org/abs/2311.14931v1 )

ライセンス: Link先を確認
Wanzhou Lei, Pavlos Protopapas, Joy Parikh(参考訳) 物理インフォームドニューラルネットワーク(PINN)を用いて,非線形ODEを1つの多項式項で解くため,摂動法とワンショット変換学習を組み合わせた一般化可能なアプローチを提案する。 提案手法は,非線形ODEを線形ODEシステムに変換し,異なる条件でPINNを訓練し,同じ非線形ODEクラス内の新しいインスタンスに対して閉形式のソリューションを提供する。 本手法がダッフィング方程式に与える影響を実証し,同様の構造を持つPDEやODEシステムへの適用性を提案する。

We introduce a generalizable approach that combines perturbation method and one-shot transfer learning to solve nonlinear ODEs with a single polynomial term, using Physics-Informed Neural Networks (PINNs). Our method transforms non-linear ODEs into linear ODE systems, trains a PINN across varied conditions, and offers a closed-form solution for new instances within the same non-linear ODE class. We demonstrate the effectiveness of this approach on the Duffing equation and suggest its applicability to similarly structured PDEs and ODE systems.
翻訳日:2023-11-29 22:43:20 公開日:2023-11-25
# オープンワークプレースにおけるビューベース輝度マッピング

View-Based Luminance Mapping in Open Workplace ( http://arxiv.org/abs/2311.14927v1 )

ライセンス: Link先を確認
Guanzhou Ji, Tingsong Ou, Azadeh O. Sawyer(参考訳) 本稿では,室内の輝度値をオープン・ワークスペースのファサードにマッピングし,昼光性能を向上させる新しい計算手法を提案する。 屋内の異なる場所からの180度の魚眼図、展望位置、年中時刻が作成されている。 これらのレンダリングは2次元(2D)画像から3次元(3D)半球に変換される。 高い輝度値がフィルターされ、半球からファサード面に投影される。 このフレームワークは、内部環境への過剰な光透過を可能にするファサードの領域を強調します。 フレキシブルワークフローは、複数の設計パラメータを計算し、局所的なファサード最適化と日光設計のための結果を合成する、占有中心の照明分析を可能にする。

This paper introduces a novel computational method for mapping indoor luminance values on the facade of an open workplace to improve its daylight performance. 180-degree fisheye renderings from different indoor locations, view positions, and times of the year are created. These renderings are then transformed from two-dimensional (2D) images into three-dimensional (3D) hemispheres. High luminance values are filtered and projected from the hemisphere to the facade surface. This framework will highlight the areas of the facade that allow too much light penetration into the interior environment. The flexible workflow allows occupant centric lighting analysis that computes multiple design parameters and synthesizes results for localized facade optimization and daylight design.
翻訳日:2023-11-29 22:43:10 公開日:2023-11-25
# FreePIH:拡散モデルによる無訓練絵画の高調波化

FreePIH: Training-Free Painterly Image Harmonization with Diffusion Model ( http://arxiv.org/abs/2311.14926v1 )

ライセンス: Link先を確認
Ruibin Li, Jingcai Guo, Song Guo, Qihua Zhou, Jie Zhang(参考訳) 本稿では,フリーPIH(FreePIH)と呼ばれる,学習前の拡散モデルのみを活用して,最先端のハーモニゼーション結果を得る,効率的な訓練自由な画像調和手法を提案する。 補助ネットワークのトレーニングや、事前学習された大きなバックボーンの微調整を必要とする既存の方法とは異なり、このfreepihは、フォアグラウンド画像スタイル転送のためのプラグインモジュールとして、デノジン化プロセスを緩和する。 具体的には,画像のスタイリスティックな情報に対して,デノイジング(つまり生成)プロセスの最後の数ステップが強く対応していることを明らかにし,これに基づいて,前景と背景画像の両方の潜在特徴をガウス人とともに強化し,直接デノイジングに基づく調和を実現することを提案する。 調和画像の忠実性を保証するために,複数スケール特徴を用いて潜在空間における前景オブジェクトの内容の一貫性と安定性を強制すると同時に,前景と後景の両方を同一のスタイルに整合させる。 さらに,より構造的かつテクスト的詳細を持つ生成に対応するため,潜在機能に適合するテキストプロンプトをさらに統合することで,生成品質の向上を図る。 COCOおよびLAION 5Bデータセットの定量および定性評価により,本手法が代表ベースラインをはるかに超えることを示す。

This paper provides an efficient training-free painterly image harmonization (PIH) method, dubbed FreePIH, that leverages only a pre-trained diffusion model to achieve state-of-the-art harmonization results. Unlike existing methods that require either training auxiliary networks or fine-tuning a large pre-trained backbone, or both, to harmonize a foreground object with a painterly-style background image, our FreePIH tames the denoising process as a plug-in module for foreground image style transfer. Specifically, we find that the very last few steps of the denoising (i.e., generation) process strongly correspond to the stylistic information of images, and based on this, we propose to augment the latent features of both the foreground and background images with Gaussians for a direct denoising-based harmonization. To guarantee the fidelity of the harmonized image, we make use of multi-scale features to enforce the consistency of the content and stability of the foreground objects in the latent space, and meanwhile, aligning both fore-/back-grounds with the same style. Moreover, to accommodate the generation with more structural and textural details, we further integrate text prompts to attend to the latent features, hence improving the generation quality. Quantitative and qualitative evaluations on COCO and LAION 5B datasets demonstrate that our method can surpass representative baselines by large margins.
翻訳日:2023-11-29 22:42:58 公開日:2023-11-25
# フーリエ位相検索のための座標ベースニューラルネットワーク

Coordinate-based Neural Network for Fourier Phase Retrieval ( http://arxiv.org/abs/2311.14925v1 )

ライセンス: Link先を確認
Tingyou Li, Zixin Xu, Yong S. Chu, Xiaojing Huang, Jizhou Li(参考訳) フーリエ位相検索は様々な分野、特にコヒーレント回折イメージングにおけるナノスケール構造の高分解能イメージングに不可欠である。 本研究では、位相探索性能の向上を目的としたニューラルネットワークの協調設計ツールであるSingle ImpliCit neurAl Network(SCAN)を提案する。 高い計算負荷に直面し、ノイズ干渉を起こしやすい従来の反復的手法の落とし穴を回避して、オブジェクトの座標を統一ネットワーク内の振幅と位相に教師なしの方法で連続的に接続する。 既存手法の多くは損失関数にフーリエ等級を用いるが,本手法では予測等級と位相を併用し,検索精度を向上させる。 総合的なテストにより、SCANは従来のディープラーニングモデルよりも精度とノイズ堅牢性に関して優れていることが検証される。 また,SCANがptychography設定で優れていることを示す。

Fourier phase retrieval is essential for high-definition imaging of nanoscale structures across diverse fields, notably coherent diffraction imaging. This study presents the Single impliCit neurAl Network (SCAN), a tool built upon coordinate neural networks meticulously designed for enhanced phase retrieval performance. Bypassing the pitfalls of conventional iterative methods, which frequently face high computational loads and are prone to noise interference, SCAN adeptly connects object coordinates to their amplitude and phase within a unified network in an unsupervised manner. While many existing methods primarily use Fourier magnitude in their loss function, our approach incorporates both the predicted magnitude and phase, enhancing retrieval accuracy. Comprehensive tests validate SCAN's superiority over traditional and other deep learning models regarding accuracy and noise robustness. We also demonstrate that SCAN excels in the ptychography setting.
翻訳日:2023-11-29 22:42:30 公開日:2023-11-25
# NlpBDpatriots at BLP-2023 Task 1: A Two-Step Classification for Violence Inciting Text Detection in Bangla (特集 バイオサイバネティックスとバイオサイバネティックス)

nlpBDpatriots at BLP-2023 Task 1: A Two-Step Classification for Violence Inciting Text Detection in Bangla ( http://arxiv.org/abs/2311.15029v1 )

ライセンス: Link先を確認
Md Nishat Raihan, Dhiman Goswami, Sadiya Sayara Chowdhury Puspo, Marcos Zampieri(参考訳) 本稿では,Bangla Language Processing (BLP) とEMNLPを併用した最初のワークショップの一環として企画された VITD (Violence Inciting Text Detection) における共有タスクへのnlpBDpatriotsの参加について述べる。 この任務の目的は、さらに違法な暴力行為を引き起こす暴力的な脅威を特定し分類することである。 提案手法は,27チーム中6位,マクロf1スコア0.74で,バック翻訳と多言語性を用いて2段階の分類を行う。

In this paper, we discuss the nlpBDpatriots entry to the shared task on Violence Inciting Text Detection (VITD) organized as part of the first workshop on Bangla Language Processing (BLP) co-located with EMNLP. The aim of this task is to identify and classify the violent threats, that provoke further unlawful violent acts. Our best-performing approach for the task is two-step classification using back translation and multilinguality which ranked 6th out of 27 teams with a macro F1 score of 0.74.
翻訳日:2023-11-29 22:36:01 公開日:2023-11-25
# 不完全な測定を受ける開量子系に対する厳密解と投影フィルタ

Exact solution and projection filters for open quantum systems subject to imperfect measurements ( http://arxiv.org/abs/2311.15015v1 )

ライセンス: Link先を確認
Ibrahim Ramadan, Nina H. Amini, Paolo Mason(参考訳) 本稿では,不完全かつ間接的な測定を行うオープン量子システムについて考察する。 qnd(quantum non-demolition)測定では、システムは適切に選択された多様体上で進化し、より低い次元の確率微分方程式の解を用いて量子フィルタ方程式の厳密な解を表現する。 実験中の系の次元を更に小さくするために, [1] で最初に導入された下方次元多様体の射影を, 完全な測定値に対して検討する。 この近似量子フィルタの精度を評価するために,QND測定の場合に着目した誤差解析を行った。 シミュレーションは、投影フィルタに依存する安定化フィードバック制御が存在する場合でも、提案する量子投影フィルタの効率を示唆する。

In this paper, we consider an open quantum system undergoing imperfect and indirect measurement. For quantum non-demolition (QND) measurement, we show that the system evolves on an appropriately chosen manifold and we express the exact solution of the quantum filter equation in terms of the solution of a lower dimensional stochastic differential equation. In order to further reduce the dimension of the system under study, we consider the projection on the lower dimensional manifold originally introduced in [1] for the case of perfect measurements. An error analysis is performed to evaluate the precision of this approximate quantum filter, focusing on the case of QND measurement. Simulations suggest the efficiency of the proposed quantum projection filter, even in presence of a stabilizing feedback control which depends on the projection filter.
翻訳日:2023-11-29 22:35:48 公開日:2023-11-25
# 2軌道非エルミート結合鎖の回路実現

Circuit realisation of a two-orbital non-Hermitian tight-binding chain ( http://arxiv.org/abs/2311.15014v1 )

ライセンス: Link先を確認
Dipendu Halder, Ronny Thomale, Saurabh Basu(参考訳) 単位セル当たり2つの軌道と電気回路アナログからなる非ヘルミタン(nh)タイト結合系について検討した。 非相反的近傍結合とオンサイトゲイン/ロス項によって特徴づけられるpt対称と非pt対称のケースを区別する。 エッジモードの局所化や位相的性質の出現は、ハミルトニアンを定義するパラメータに異なる依存性を持つ最大逆参加比によって決定される。 上記のシナリオはいずれも非エルミート皮膚効果を示すものではない。 2ポートインピーダンスを解析し、周期的境界条件を課すことで回路のアプタンスバンド構造を復元することにより、適切な設計の電気回路における位相位相に対応する境界モードについて検討する。 得られた結果は、2軌道モデルのエルミートバージョンに対してベンチマークされ、NH変種と比較および識別される。

We examine a non-Hermitian (NH) tight-binding system comprising of two orbitals per unit cell and their electrical circuit analogues. We distinguish the PT-symmetric and non-PT symmetric cases characterised by non-reciprocal nearest neighbour couplings and onsite gain/loss terms, respectively. The localisation of the edge modes or the emergence of the topological properties are determined via the maximum inverse participation ratio, which has distinct dependencies on the parameters that define the Hamiltonian. None of the above scenarios exhibits the non-Hermitian skin effect. We investigate the boundary modes corresponding to the topological phases in a suitably designed electrical circuit by analyzing the two-port impedance and retrieve the admittance band structure of the circuit via imposing periodic boundary conditions. The obtained results are benchmarked against the Hermitian version of the two-orbital model to compare and discriminate against those obtained for the NH variants.
翻訳日:2023-11-29 22:35:36 公開日:2023-11-25
# VSCode: 2D Prompt Learningによる汎用視覚とカモフラージュオブジェクト検出

VSCode: General Visual Salient and Camouflaged Object Detection with 2D Prompt Learning ( http://arxiv.org/abs/2311.15011v1 )

ライセンス: Link先を確認
Ziyang Luo, Nian Liu, Wangbo Zhao, Xuguang Yang, Dingwen Zhang, Deng-Ping Fan, Fahad Khan, Junwei Han(参考訳) salient object detection (sod) と camouflaged object detection (cod) は別個のバイナリマッピングタスクである。 これらのタスクには複数のモダリティが含まれ、共通点とユニークな手がかりを共有する。 既存の研究はしばしば複雑なタスク固有の専門モデルを採用しており、冗長性と準最適結果をもたらす可能性がある。 4つのSODタスクと3つのCODタスクを共同で扱うために,新しい2Dプロンプト学習を備えた汎用モデルVSCodeを導入する。 基礎モデルとしてVSTを利用し、エンコーダ・デコーダアーキテクチャ内で2Dプロンプトを導入し、2つの異なる次元についてドメインとタスク固有の知識を学習する。 迅速な識別損失は、モデル最適化の恩恵を受けるために特異性を歪めるのに役立つ。 VSCodeは26のデータセット上の6つのタスクの最先端メソッドよりも優れており、RGB-D CODのような2Dプロンプトを組み合わせることで、目に見えないタスクにゼロショットの一般化を示す。

Salient object detection (SOD) and camouflaged object detection (COD) are related yet distinct binary mapping tasks. These tasks involve multiple modalities, sharing commonalities and unique cues. Existing research often employs intricate task-specific specialist models, potentially leading to redundancy and suboptimal results. We introduce VSCode, a generalist model with novel 2D prompt learning, to jointly address four SOD tasks and three COD tasks. We utilize VST as the foundation model and introduce 2D prompts within the encoder-decoder architecture to learn domain and task-specific knowledge on two separate dimensions. A prompt discrimination loss helps disentangle peculiarities to benefit model optimization. VSCode outperforms state-of-the-art methods across six tasks on 26 datasets and exhibits zero-shot generalization to unseen tasks by combining 2D prompts, such as RGB-D COD.
翻訳日:2023-11-29 22:35:20 公開日:2023-11-25
# 視覚タスクをチューニングするためのアダプタは、すべて必要です

Adapter is All You Need for Tuning Visual Tasks ( http://arxiv.org/abs/2311.15010v1 )

ライセンス: Link先を確認
Dongshuo Yin, Leiyi Hu. Bin Li and Youqun Zhang(参考訳) 事前トレーニングと微調整は視覚タスクの転送効率と性能を向上させる。 最近のデルタチューニング手法は、視覚分類タスクにより多くのオプションを提供する。 その成功にもかかわらず、既存のビジュアルデルタチューニングアートは、インスタンスセグメンテーションやセマンティクスセグメンテーションのような困難なタスクの完全な微調整の上限を超えることができない。 完全微調整に代わる競争的な選択肢を見出すため、我々は、新しいアダプタベースのチューニング方法であるmulti-cognitive visual adapter (mona) tuningを提案する。 まず,複数の視覚に優しいフィルタを導入し,視覚信号の処理能力を高め,従来の手法は言語に優しい線形フィルタに大きく依存していた。 第2に,視覚フィルタの入力特性の分布を規制するために,アダプタにスケールド正規化層を追加する。 モナの実用性と汎用性を実証するため,COCOのインスタンスセグメンテーション,ADE20Kのセマンティックセグメンテーション,パスカルVOCのオブジェクト検出,複数の共通データセットのイメージ分類など,複数の視覚的タスクの実験を行った。 興奮的な結果は、Monaがこれらすべてのタスクの完全な微調整を超えており、インスタンスセグメンテーションとセマンティックセグメンテーションタスクで完全な微調整を行う唯一のデルタ微調整メソッドであることを示している。 例えば、Monaは完全な微調整に比べてCOCOデータセットで1%のパフォーマンス向上を達成した。 総合的な結果は、モナチューニングは完全な微調整よりも、事前訓練されたモデルの能力の保持と活用に適していることを示唆している。 コードはhttps://github.com/leiyi-hu/monaでリリースされる。

Pre-training & fine-tuning can enhance the transferring efficiency and performance in visual tasks. Recent delta-tuning methods provide more options for visual classification tasks. Despite their success, existing visual delta-tuning art fails to exceed the upper limit of full fine-tuning on challenging tasks like instance segmentation and semantic segmentation. To find a competitive alternative to full fine-tuning, we propose the Multi-cognitive Visual Adapter (Mona) tuning, a novel adapter-based tuning method. First, we introduce multiple vision-friendly filters into the adapter to enhance its ability to process visual signals, while previous methods mainly rely on language-friendly linear filters. Second, we add the scaled normalization layer in the adapter to regulate the distribution of input features for visual filters. To fully demonstrate the practicality and generality of Mona, we conduct experiments on multiple representative visual tasks, including instance segmentation on COCO, semantic segmentation on ADE20K, object detection on Pascal VOC, and image classification on several common datasets. Exciting results illustrate that Mona surpasses full fine-tuning on all these tasks and is the only delta-tuning method outperforming full fine-tuning on instance segmentation and semantic segmentation tasks. For example, Mona achieves a 1% performance gain on the COCO dataset compared to full fine-tuning. Comprehensive results suggest that Mona-tuning is more suitable for retaining and utilizing the capabilities of pre-trained models than full fine-tuning. The code will be released at https://github.com/Leiyi-Hu/mona.
翻訳日:2023-11-29 22:35:03 公開日:2023-11-25
# 魚類の生物毒汚染の衛星による特徴抽出と多変量時系列予測

Satellite-based feature extraction and multivariate time-series prediction of biotoxin contamination in shellfish ( http://arxiv.org/abs/2311.15000v1 )

ライセンス: Link先を確認
Sergio Tavares, Pedro R. Costa, Ludwig Krippahl, Marta B. Lopes(参考訳) 貝生産は多くのポルトガル沿岸地域の経済にとって重要な分野であるが、貝毒汚染の課題は公衆衛生上の懸念と経済的リスクの両方を引き起こす。 したがって、貝類の汚染レベルを予測することは、生産管理の強化と公衆衛生の保護に大きな可能性がある。 本研究では,ポルトガルの西海岸沿いの様々な生産地から収集された貝類生物毒汚染データとともに,センチネル3衛星画像の年次データセットを海洋監視に利用した。 本研究の目的は, 貝類中の毒素濃度を最大4週間まで予測する予測モデルにおける衛星データの統合を評価することであり, 少数の有用な特徴を抽出し, 予測モデルへの影響を評価することである。 我々は,この課題を時系列予測問題として,特定地域における過去の汚染レベルと衛星画像を活用した。 汚染測定は毎週行われたが、衛星画像は週に複数回アクセスできた。 雲の覆い、陸地、異常などの要因による非無効画素を処理できるオートエンコーダを用いて、教師なしの特徴抽出を行った。 最後に、複数のニューラルネットワークモデルを用いて、不平等(汚染のみ)と多変量(汚染と衛星データ)の時系列予測を比較した。 これらの特徴を取り入れることで,特にラグーン生産地域(RIAV)では1週間以上,L5B地域では1週間および2週間の地平線(海洋性)が予測される。 本手法は,モデル予測能力を損なうことなく,リモートセンシングのような高次元データソースからの情報を統合できることを示す。

Shellfish production constitutes an important sector for the economy of many Portuguese coastal regions, yet the challenge of shellfish biotoxin contamination poses both public health concerns and significant economic risks. Thus, predicting shellfish contamination levels holds great potential for enhancing production management and safeguarding public health. In our study, we utilize a dataset with years of Sentinel-3 satellite imagery for marine surveillance, along with shellfish biotoxin contamination data from various production areas along Portugal's western coastline, collected by Portuguese official control. Our goal is to evaluate the integration of satellite data in forecasting models for predicting toxin concentrations in shellfish given forecasting horizons up to four weeks, which implies extracting a small set of useful features and assessing their impact on the predictive models. We framed this challenge as a time-series forecasting problem, leveraging historical contamination levels and satellite images for designated areas. While contamination measurements occurred weekly, satellite images were accessible multiple times per week. Unsupervised feature extraction was performed using autoencoders able to handle non-valid pixels caused by factors like cloud cover, land, or anomalies. Finally, several Artificial Neural Networks models were applied to compare univariate (contamination only) and multivariate (contamination and satellite data) time-series forecasting. Our findings show that incorporating these features enhances predictions, especially beyond one week in lagoon production areas (RIAV) and for the 1-week and 2-week horizons in the L5B area (oceanic). The methodology shows the feasibility of integrating information from a high-dimensional data source like remote sensing without compromising the model's predictive ability.
翻訳日:2023-11-29 22:34:35 公開日:2023-11-25
# グラフニューラルネットワークによる因果学習の探索 - 詳細レビュー

Exploring Causal Learning through Graph Neural Networks: An In-depth Review ( http://arxiv.org/abs/2311.14994v1 )

ライセンス: Link先を確認
Simi Job, Xiaohui Tao, Taotao Cai, Haoran Xie, Lin Li, Jianming Yong and Qing Li(参考訳) 機械学習では、結果を予測するためにデータ相関を探索することが基本的なタスクである。 データに埋め込まれた因果関係を認識することは、データ駆動意思決定プロセスにおいて最も重要なシステムダイナミクスの包括的理解にとって重要である。 従来の手法以外にも、汎用データ近似器としての機能を考えると、因果学習にグラフニューラルネットワーク(GNN)の使用が急増している。 したがって、GNNを用いた因果学習の進歩に関する徹底的なレビューは、関連性があり、タイムリーである。 本総説では, 因果関係の研究に用いられている様々な最先端のGNN手法を包含する新しい分類法を提案する。 GNNは、その因果領域における応用に基づいてさらに分類される。 さらに,本研究では,GNNによる因果学習に不可欠なデータセットを総合的にコンパイルし,実践研究の資源として活用する。 このレビューは、様々な分野にまたがる因果学習の適用にも触れている。 我々は、この急速に進化する機械学習の分野における、潜在的な課題と将来的な探究への道筋について、レビューを締めくくった。

In machine learning, exploring data correlations to predict outcomes is a fundamental task. Recognizing causal relationships embedded within data is pivotal for a comprehensive understanding of system dynamics, the significance of which is paramount in data-driven decision-making processes. Beyond traditional methods, there has been a surge in the use of graph neural networks (GNNs) for causal learning, given their capabilities as universal data approximators. Thus, a thorough review of the advancements in causal learning using GNNs is both relevant and timely. To structure this review, we introduce a novel taxonomy that encompasses various state-of-the-art GNN methods employed in studying causality. GNNs are further categorized based on their applications in the causality domain. We further provide an exhaustive compilation of datasets integral to causal learning with GNNs to serve as a resource for practical study. This review also touches upon the application of causal learning across diverse sectors. We conclude the review with insights into potential challenges and promising avenues for future exploration in this rapidly evolving field of machine learning.
翻訳日:2023-11-29 22:34:04 公開日:2023-11-25
# 神経磁場の座標認識変調

Coordinate-Aware Modulation for Neural Fields ( http://arxiv.org/abs/2311.14993v1 )

ライセンス: Link先を確認
Joo Chan Lee, Daniel Rho, Seungtae Nam, Jong Hwan Ko, Eunbyung Park(参考訳) 低次元の入力座標を対応する信号にマッピングするニューラルフィールドは、様々な信号を表現する有望な結果を示している。 多数の手法が提案され、MLPとグリッド表現を用いた技術は大きな成功を収めている。 MLPはコンパクトで高い表現性を実現するが、しばしばスペクトルバイアスと緩やかな収束速度に悩まされる。 一方で、格子を用いる手法はスペクトルバイアスがなく、高い空間的複雑性を犠牲にして高速トレーニング速度を達成している。 本研究では,ニューラルネットワークにおけるMLPとグリッド表現の両方を活用する新しい手法を提案する。 逐次的に組み合わせる一般的な手法と異なり(まずグリッドから特徴を抽出し、MLPに供給する)、スペクトルバイアスのないグリッド表現をMLPの中間特徴に注入する。 具体的には、グリッド表現から抽出したスケールとシフトパラメータを用いて中間特徴を変調するコーディネート・アウェア変調(CAM)を提案する。 これにより、MPPの強度を維持しつつ、潜在的なバイアスを緩和し、高周波成分の迅速な学習を促進することができる。 さらに, ニューラルパブリッシュ文学で成功しなかった特徴正規化は, 提案したCAMと併用して適用した場合に有効であることが実証された。 実験により、CAMは神経表現の性能を高め、様々な信号の学習安定性を向上させることが示された。 特に、新しいビュー合成タスクにおいて、動的シーンの最小パラメータと高速トレーニング速度、静的シーンの1MBメモリ下での最高のパフォーマンスで最先端のパフォーマンスを実現した。 また、CAMは、大きなマージンでニューラルネットワークを使用して、最高のパフォーマンスの動画圧縮方法よりも優れています。

Neural fields, mapping low-dimensional input coordinates to corresponding signals, have shown promising results in representing various signals. Numerous methodologies have been proposed, and techniques employing MLPs and grid representations have achieved substantial success. MLPs allow compact and high expressibility, yet often suffer from spectral bias and slow convergence speed. On the other hand, methods using grids are free from spectral bias and achieve fast training speed, however, at the expense of high spatial complexity. In this work, we propose a novel way for exploiting both MLPs and grid representations in neural fields. Unlike the prevalent methods that combine them sequentially (extract features from the grids first and feed them to the MLP), we inject spectral bias-free grid representations into the intermediate features in the MLP. More specifically, we suggest a Coordinate-Aware Modulation (CAM), which modulates the intermediate features using scale and shift parameters extracted from the grid representations. This can maintain the strengths of MLPs while mitigating any remaining potential biases, facilitating the rapid learning of high-frequency components. In addition, we empirically found that the feature normalizations, which have not been successful in neural filed literature, proved to be effective when applied in conjunction with the proposed CAM. Experimental results demonstrate that CAM enhances the performance of neural representation and improves learning stability across a range of signals. Especially in the novel view synthesis task, we achieved state-of-the-art performance with the least number of parameters and fast training speed for dynamic scenes and the best performance under 1MB memory for static scenes. CAM also outperforms the best-performing video compression methods using neural fields by a large margin.
翻訳日:2023-11-29 22:33:48 公開日:2023-11-25
# 放射線技師のように見る:CT画像の深層学習のためのシフト窓

View it like a radiologist: Shifted windows for deep learning augmentation of CT images ( http://arxiv.org/abs/2311.14990v1 )

ライセンス: Link先を確認
Eirik A. {\O}stmo, Kristoffer K. Wickstr{\o}m, Keyur Radiya, Michael C. Kampffmeyer, Robert Jenssen(参考訳) 深層学習は、医療画像におけるがんの大きさと場所を検知し、境界づけするといった重要なタスクを自動化し実行することで、医療プラクティスに革命をもたらす可能性がある。 しかし、ほとんどのディープラーニングモデルは、医学画像を自然画像として扱う拡張技術に依存している。 特にCT画像の場合、ボクセル強度を生成する信号は物理的意味を持ち、これらを自然画像として扱う際、前処理や増大時に失われる。 そこで本研究では,CT画像の評価において,複数のビューイングウインドウを活用する方法に着想を得た,新しい前処理と強度増強手法を提案する。 提案手法であるウインドウシフトは,学習中に興味のある領域の周囲にランダムにウインドウを配置する。 このアプローチは肝病変の分画性能と低時間造影剤による画像のロバスト性を改善する。 提案手法は,複数のデータセット上でのn-UNetの高強度化と高強度化のパイプラインよりも優れる。

Deep learning has the potential to revolutionize medical practice by automating and performing important tasks like detecting and delineating the size and locations of cancers in medical images. However, most deep learning models rely on augmentation techniques that treat medical images as natural images. For contrast-enhanced Computed Tomography (CT) images in particular, the signals producing the voxel intensities have physical meaning, which is lost during preprocessing and augmentation when treating such images as natural images. To address this, we propose a novel preprocessing and intensity augmentation scheme inspired by how radiologists leverage multiple viewing windows when evaluating CT images. Our proposed method, window shifting, randomly places the viewing windows around the region of interest during training. This approach improves liver lesion segmentation performance and robustness on images with poorly timed contrast agent. Our method outperforms classical intensity augmentations as well as the intensity augmentation pipeline of the popular nn-UNet on multiple datasets.
翻訳日:2023-11-29 22:32:58 公開日:2023-11-25
# METHOD++: 安定サンプリングと正規化変換を用いた自己監督型解剖学的eMbeddings強化医用画像登録フレームワーク

SAME++: A Self-supervised Anatomical eMbeddings Enhanced medical image registration framework using stable sampling and regularized transformation ( http://arxiv.org/abs/2311.14986v1 )

ライセンス: Link先を確認
Lin Tian, Zi Li, Fengze Liu, Xiaoyu Bai, Jia Ge, Le Lu, Marc Niethammer, Xianghua Ye, Ke Yan, Daikai Jin(参考訳) 画像登録は基本的な医療画像解析タスクである。 理想的には、登録は意味的に対応するボクセル、すなわち同じ解剖学的位置の整列に焦点を当てるべきである。 しかし、既存の手法はしばしば、解剖学的意味情報を欠く、強度や手作りの特徴に直接計算される類似度を最適化する。 これらの類似性尺度は、大きな変形、複雑な解剖学的差異、あるいは相互モダリティ像が存在する準最適解をもたらす可能性がある。 本研究では,フォクセルレベルでの2つの画像間の密接な解剖学的対応を計算可能な自己監督型解剖学的eMbedding(SAM)アルゴリズム上に,教師なしの医用画像登録ビルを高速かつ高精度に構築する手法を提案する。 我々は、画像登録をアフィン変換、粗い変形、深度非パラメトリック変換、インスタンス最適化の4つのステップに分割するアプローチSAM-Enhanced registration (SAME++) を命名した。 SAM埋め込みを用いて、よりコヒーレントな対応を見つけ、よりセマンティックなガイダンスを提供することにより、これらのステップを強化する。 今回我々は,50以上のラベル付き臓器を用いて,異なる部位の3つのオブジェクト間登録タスクについて評価を行った。 完全な登録フレームワークとして、Mate++はDiceスコアの点で4.2 %$ - 8.2 %$で、数値最適化ベースのメソッドよりも桁違いに高速である。 コードは \url{https://github.com/alibaba-damo-academy/same} で入手できる。

Image registration is a fundamental medical image analysis task. Ideally, registration should focus on aligning semantically corresponding voxels, i.e., the same anatomical locations. However, existing methods often optimize similarity measures computed directly on intensities or on hand-crafted features, which lack anatomical semantic information. These similarity measures may lead to sub-optimal solutions where large deformations, complex anatomical differences, or cross-modality imagery exist. In this work, we introduce a fast and accurate method for unsupervised 3D medical image registration building on top of a Self-supervised Anatomical eMbedding (SAM) algorithm, which is capable of computing dense anatomical correspondences between two images at the voxel level. We name our approach SAM-Enhanced registration (SAME++), which decomposes image registration into four steps: affine transformation, coarse deformation, deep non-parametric transformation, and instance optimization. Using SAM embeddings, we enhance these steps by finding more coherent correspondence and providing features with better semantic guidance. We extensively evaluated SAME++ using more than 50 labeled organs on three challenging inter-subject registration tasks of different body parts. As a complete registration framework, SAME++ markedly outperforms leading methods by $4.2\%$ - $8.2\%$ in terms of Dice score while being orders of magnitude faster than numerical optimization-based methods. Code is available at \url{https://github.com/alibaba-damo-academy/same}.
翻訳日:2023-11-29 22:32:31 公開日:2023-11-25
# ミニユーソ望遠鏡データにおける流星軌道認識へのニューラルネットワークによるアプローチ

Neural Network Based Approach to Recognition of Meteor Tracks in the Mini-EUSO Telescope Data ( http://arxiv.org/abs/2311.14983v1 )

ライセンス: Link先を確認
Mikhail Zotov, Dmitry Anzhiganov, Aleksandr Kryazhenkov, Dario Barghini, Matteo Battisti, Alexander Belov, Mario Bertaina, Marta Bianciotto, Francesca Bisconti, Carl Blaksley, Sylvie Blin, Giorgio Cambi\`e, Francesca Capel, Marco Casolino, Toshikazu Ebisuzaki, Johannes Eser, Francesco Fenu, Massimo Alberto Franceschi, Alessio Golzio, Philippe Gorodetzky, Fumiyoshi Kajino, Hiroshi Kasuga, Pavel Klimov, Massimiliano Manfrin, Laura Marcelli, Hiroko Miyamoto, Alexey Murashov, Tommaso Napolitano, Hiroshi Ohmori, Angela Olinto, Etienne Parizot, Piergiorgio Picozza, Lech Wiktor Piotrowski, Zbigniew Plebaniak, Guillaume Pr\'ev\^ot, Enzo Reali, Marco Ricci, Giulia Romoli, Naoto Sakaki, Kenji Shinozaki, Christophe De La Taille, Yoshiyuki Takizawa, Michal Vr\'abel and Lawrence Wiencke(参考訳) ミニEUSO(Mini-EUSO)は、国際宇宙ステーションから地球の夜間大気に紫外線を登録する広角蛍光望遠鏡である。 メータは可視域だけでなく、紫外線にも現れる複数の現象の1つである。 2値分類問題の観点から,Mini-EUSOデータの流星信号を高精度に認識できる2つの単純な人工ニューラルネットワークを提案する。 同様のアーキテクチャは、信号の性質に関わらず、他の蛍光望遠鏡の信号認識に効果的に利用できると期待する。 ネットワークは単純であるため、将来の軌道実験や気球実験のオンボードエレクトロニクスに実装することができる。

Mini-EUSO is a wide-angle fluorescence telescope that registers ultraviolet (UV) radiation in the nocturnal atmosphere of Earth from the International Space Station. Meteors are among multiple phenomena that manifest themselves not only in the visible range but also in the UV. We present two simple artificial neural networks that allow for recognizing meteor signals in the Mini-EUSO data with high accuracy in terms of a binary classification problem. We expect that similar architectures can be effectively used for signal recognition in other fluorescence telescopes, regardless of the nature of the signal. Due to their simplicity, the networks can be implemented in onboard electronics of future orbital or balloon experiments.
翻訳日:2023-11-29 22:31:23 公開日:2023-11-25
# 特徴ゆがみ指導によるマルチタスク平面再構成

Multi-task Planar Reconstruction with Feature Warping Guidance ( http://arxiv.org/abs/2311.14981v1 )

ライセンス: Link先を確認
Luan Wei, Anna Hilsmann and Peter Eisert(参考訳) ピアースワイドな平面3D再構成は、平面のインスタンスを同時に分割し、画像からそれらの3D平面パラメータを復元する。 3次元平面の効率的な再構成と意味予測は、シーン理解と同時空間マッピングを必要とする幅広いアプリケーションに有利である。 しかし、ほとんどの既存の平面再構成モデルは意味論的予測を無視するか、リアルタイムアプリケーションで十分に効率的に動作しない。 本稿ではsoloplanesについて紹介する。soloplanesは,改良されたインスタンスセグメンテーションアーキテクチャに基づくリアルタイム平面再構築モデルであり,各プレーンインスタンスのセマンティクスとプレーンパラメータ,スプリットワイズプレーンインスタンスマスクを同時に予測する。 機能空間におけるマルチビューガイダンスを提供することにより,マルチタスク学習における機能共有の性質から,平面的特徴を逸脱させるだけで,例マスクセグメンテーションの改善を実現する。 本モデルでは,43FPSでリアルタイムな予測を行いながら,単一画像の推測時にセマンティクスを同時に予測する。 コードは公開後公開される。

Piece-wise planar 3D reconstruction simultaneously segments plane instances and recovers their 3D plane parameters from an image, which is particularly useful for indoor or man-made environments. Efficient reconstruction of 3D planes coupled with semantic predictions offers advantages for a wide range of applications requiring scene understanding and concurrent spatial mapping. However, most existing planar reconstruction models either neglect semantic predictions or do not run efficiently enough for real-time applications. We introduce SoloPlanes, a real-time planar reconstruction model based on a modified instance segmentation architecture which simultaneously predicts semantics for each plane instance, along with plane parameters and piece-wise plane instance masks. By providing multi-view guidance in feature space, we achieve an improvement in instance mask segmentation despite only warping plane features due to the nature of feature sharing in multi-task learning. Our model simultaneously predicts semantics using single images at inference time, while achieving real-time predictions at 43 FPS. The code will be released post-publication.
翻訳日:2023-11-29 22:31:09 公開日:2023-11-25
# ビデオキャプションにおけるコントラストロスのマージンとしての粒度バイアス

Incorporating granularity bias as the margin into contrastive loss for video captioning ( http://arxiv.org/abs/2311.14977v1 )

ライセンス: Link先を確認
Jiayang Gu, Fengming Yao(参考訳) ビデオキャプションモデルはフレーズの長いテール分布に簡単に苦しむため、キャプションモデルは正確なものの代わりに曖昧な文を生成する傾向がある。 しかしながら、既存のデバイアス戦略は、単語の依存木を構築するために外部の知識をエクスポートしたり、複雑な損失と追加の入力機能によって周波数分布を洗練したりする傾向がある。 モデルに対する粒度バイアスの影響を軽減するため,統計に基づくバイアス抽出器を導入した。 この抽出装置は、文やビデオ内の情報内容の定量化を行い、ビデオ・センスペアが粒度バイアスの影響を受ける可能性を推定する。 さらに,ビデオキャプションタスクにコントラスト学習手法を統合する傾向が高まる中,双方向三重項損失を用いてバッチ内のよりネガティブなサンプルを得る。 その後,比較学習損失にマージンスコアを組み込み,頭尾文の異なる学習目標を確立した。 このアプローチは、テールサンプルに対するモデルのトレーニングの有効性を促進する。 粒度のバイアスを取り入れた単純な損失は、Margin-Contrastive Loss(GMC Loss)と呼ばれる。 提案モデルでは、サイダーが57.17であるmsrvttと、サイダーが最大138.68に達するmsvdで最新性能を示す。

Video captioning models easily suffer from long-tail distribution of phrases, which makes captioning models prone to generate vague sentences instead of accurate ones. However, existing debiasing strategies tend to export external knowledge to build dependency trees of words or refine frequency distribution by complex losses and extra input features, which lack interpretability and are hard to train. To mitigate the impact of granularity bias on the model, we introduced a statistical-based bias extractor. This extractor quantifies the information content within sentences and videos, providing an estimate of the likelihood that a video-sentence pair is affected by granularity bias. Furthermore, with the growing trend of integrating contrastive learning methods into video captioning tasks, we use a bidirectional triplet loss to get more negative samples in a batch. Subsequently, we incorporate the margin score into the contrastive learning loss, establishing distinct training objectives for head and tail sentences. This approach facilitates the model's training effectiveness on tail samples. Our simple yet effective loss, incorporating Granularity bias, is referred to as the Margin-Contrastive Loss (GMC Loss). The proposed model demonstrates state-of-the-art performance on MSRVTT with a CIDEr of 57.17, and MSVD, where CIDEr reaches up to 138.68.
翻訳日:2023-11-29 22:30:44 公開日:2023-11-25
# 表現空間におけるフェデレーション学習のためのドメインバイアスの除去

Eliminating Domain Bias for Federated Learning in Representation Space ( http://arxiv.org/abs/2311.14975v1 )

ライセンス: Link先を確認
Jianqing Zhang, Yang Hua, Jian Cao, Hao Wang, Tao Song, Zhengui Xue, Ruhui Ma, and Haibing Guan(参考訳) 近年、フェデレーション学習(FL)は、プライバシー保護と協調学習能力で人気がある。 しかし, 統計的に異質なシナリオでは, クライアント上のバイアスデータドメインが表現バイアス現象を引き起こし, 局所訓練中に汎用表現, すなわち表現退化現象を引き起こすことが観察される。 これらの問題に対処するため,我々はflのための汎用フレームワークドメインバイアスエリミネータ(dbe)を提案する。 我々の理論的分析により,dbeはサーバとクライアント間の双方向の知識伝達を促進することができることが明らかとなった。 さらに、4つのデータセットに対する広範な実験により、DBEは一般化能力とパーソナライズ能力の両方において既存のFL法を大幅に改善できることが示された。 DBEを具備したFL法は、10の最先端のパーソナライズされたFL法を大きなマージンで上回ることができる。 私たちのコードはhttps://github.com/TsingZ0/DBE.comで公開されています。

Recently, federated learning (FL) is popular for its privacy-preserving and collaborative learning abilities. However, under statistically heterogeneous scenarios, we observe that biased data domains on clients cause a representation bias phenomenon and further degenerate generic representations during local training, i.e., the representation degeneration phenomenon. To address these issues, we propose a general framework Domain Bias Eliminator (DBE) for FL. Our theoretical analysis reveals that DBE can promote bi-directional knowledge transfer between server and client, as it reduces the domain discrepancy between server and client in representation space. Besides, extensive experiments on four datasets show that DBE can greatly improve existing FL methods in both generalization and personalization abilities. The DBE-equipped FL method can outperform ten state-of-the-art personalized FL methods by a large margin. Our code is public at https://github.com/TsingZ0/DBE.
翻訳日:2023-11-29 22:30:19 公開日:2023-11-25
# ウォームアップを伴う運動失調の大型カタパルト : 実証的研究

Large Catapults in Momentum Gradient Descent with Warmup: An Empirical Study ( http://arxiv.org/abs/2311.15051v1 )

ライセンス: Link先を確認
Prin Phunyaphibarn, Junghyun Lee, Bohan Wang, Huishuai Zhang, Chulhee Yun(参考訳) 運動量による勾配降下は現代の深層学習で広く用いられているが、訓練軌道に対するその影響の具体的な理解はいまだに解明されていない。 本研究では,学習速度が大きい運動量勾配降下と学習速度ウォームアップが大きなカタパルトを表示し,傾斜降下によって得られるものよりも平坦な最小値に向かってイテレートを駆動することを示す。 すると、大きなカタパルトが自安定効果を「増幅する」運動量によって引き起こされるという実証的な証拠と理論的直観を与える(damian et al., 2023)。

Although gradient descent with momentum is widely used in modern deep learning, a concrete understanding of its effects on the training trajectory still remains elusive. In this work, we empirically show that momentum gradient descent with a large learning rate and learning rate warmup displays large catapults, driving the iterates towards flatter minima than those found by gradient descent. We then provide empirical evidence and theoretical intuition that the large catapult is caused by momentum "amplifying" the self-stabilization effect (Damian et al., 2023).
翻訳日:2023-11-29 22:21:36 公開日:2023-11-25
# 平衡伝播を伴うホップフィールド変分オートエンコーダの訓練

Training a Hopfield Variational Autoencoder with Equilibrium Propagation ( http://arxiv.org/abs/2311.15047v1 )

ライセンス: Link先を確認
Tom Van Der Meersch, Johannes Deleu, Thomas Demeester(参考訳) 専用のアナログハードウェアでは、平衡伝播はバックプロパゲーションのエネルギー効率の代替となる。 その理論的保証にもかかわらず、AI領域におけるその適用は差別的な設定に限られている。 一方、高い計算要求にもかかわらず、生成AIは増加傾向にある。 本稿では,変分オートエンコーダ(VAE)の学習における平衡伝播の適用例を示す。 ホップフィールドネットワークの対称性を生かして,単一モデルを用いてエンコーダとデコーダの両方として機能し,VAE実装に必要なチップサイズを半減させ,より効率的なアナログハードウェア構成を実現することを提案する。

On dedicated analog hardware, equilibrium propagation is an energy-efficient alternative to backpropagation. In spite of its theoretical guarantees, its application in the AI domain remains limited to the discriminative setting. Meanwhile, despite its high computational demands, generative AI is on the rise. In this paper, we demonstrate the application of Equilibrium Propagation in training a variational autoencoder (VAE) for generative modeling. Leveraging the symmetric nature of Hopfield networks, we propose using a single model to serve as both the encoder and decoder which could effectively halve the required chip size for VAE implementations, paving the way for more efficient analog hardware configurations.
翻訳日:2023-11-29 22:21:25 公開日:2023-11-25
# MPCNN: CNNに基づく睡眠時無呼吸分類のための新しいマトリックスプロファイルアプローチ

MPCNN: A Novel Matrix Profile Approach for CNN-based Sleep Apnea Classification ( http://arxiv.org/abs/2311.15041v1 )

ライセンス: Link先を確認
Hieu X. Nguyen, Duong V. Nguyen, Hieu H. Pham, and Cuong D. Do(参考訳) 睡眠時無呼吸(SA)は重要な呼吸状態であり、世界的な健康問題を引き起こす。 心電図(ECG)に基づくSA診断における,いくつかの機械学習モデルとディープラーニングモデルについて検討した。 これらの進歩にもかかわらず、RピークやRR間隔などのECG信号から抽出される従来の特徴抽出は、完全なPQRSTセグメントに含まれる重要な情報を捕捉できない可能性がある。 本研究では,ecg信号の包括的セグメントを深く掘り下げることで,この診断ギャップに対処するための革新的なアプローチを提案する。 提案手法は,固定長信号列からユークリッド距離プロファイルを生成する行列プロファイルアルゴリズムから着想を得ている。 この結果から,Min Distance Profile (MinDP), Max Distance Profile (MaxDP), Mean Distance Profile (MeanDP) を各プロファイル距離の最小値,最大値,平均値に基づいて抽出した。 提案手法の有効性を検証するため,修正LeNet-5アーキテクチャを主要なCNNモデルとし,既存の2つの軽量モデルであるBAFNetとSE-MSCNNをECG分類タスクに用いる。 PhysioNet Apnea-ECG データセットの広範な実験結果から,新しい特徴抽出法により,最大92.11 \%,記録毎の精度が100\%に達することがわかった。 さらに,その相関係数は0.989で,最先端法と比較して最も高い相関率を示した。 距離関係に基づく新たな特徴抽出手法を導入することにより,特定の軽量モデルの性能を高め,IoTデバイスにおけるホーム睡眠時無呼吸テスト(HSAT)とSA検出の可能性を示した。 この作業のソースコードはGitHubで公開されている。 https://github.com/vinuni-vishc/MPCNN-Sleep-Apnea。

Sleep apnea (SA) is a significant respiratory condition that poses a major global health challenge. Previous studies have investigated several machine and deep learning models for electrocardiogram (ECG)-based SA diagnoses. Despite these advancements, conventional feature extractions derived from ECG signals, such as R-peaks and RR intervals, may fail to capture crucial information encompassed within the complete PQRST segments. In this study, we propose an innovative approach to address this diagnostic gap by delving deeper into the comprehensive segments of the ECG signal. The proposed methodology draws inspiration from Matrix Profile algorithms, which generate an Euclidean distance profile from fixed-length signal subsequences. From this, we derived the Min Distance Profile (MinDP), Max Distance Profile (MaxDP), and Mean Distance Profile (MeanDP) based on the minimum, maximum, and mean of the profile distances, respectively. To validate the effectiveness of our approach, we use the modified LeNet-5 architecture as the primary CNN model, along with two existing lightweight models, BAFNet and SE-MSCNN, for ECG classification tasks. Our extensive experimental results on the PhysioNet Apnea-ECG dataset revealed that with the new feature extraction method, we achieved a per-segment accuracy up to 92.11 \% and a per-recording accuracy of 100\%. Moreover, it yielded the highest correlation compared to state-of-the-art methods, with a correlation coefficient of 0.989. By introducing a new feature extraction method based on distance relationships, we enhanced the performance of certain lightweight models, showing potential for home sleep apnea test (HSAT) and SA detection in IoT devices. The source code for this work is made publicly available in GitHub: https://github.com/vinuni-vishc/MPCNN-Sleep-Apnea.
翻訳日:2023-11-29 22:21:15 公開日:2023-11-25
# InstaStyle:スタイリングされた画像の逆ノイズは秘かにスタイルアドバイス

InstaStyle: Inversion Noise of a Stylized Image is Secretly a Style Adviser ( http://arxiv.org/abs/2311.15040v1 )

ライセンス: Link先を確認
Xing Cui, Zekun Li, Pei Pei Li, Huaibo Huang, Zhaofeng He(参考訳) スティル化されたテキスト画像生成は、いくつかの参照画像で指定されたスタイルに固執しながら、テキスト記述から画像を作成することに焦点を当てる。 しかし、異なる参照画像内の微妙なスタイルの変化は、モデルがターゲットのスタイルを正確に学習することを妨げる。 本稿では,単一の参照画像のみを用いた高忠実度スタイリッシュ画像の生成に優れた新しい手法であるinstastyleを提案する。 提案手法は,非ゼロ信号対雑音比で示されるように,スタイリングされた参照画像からの逆ノイズが本質的にスタイル信号を運ぶことに基づく。 我々は,この雑音を基準画像から抽出するためにddimインバージョンを用い,拡散モデルを用いて ``style" ノイズから新たなスタイライゼーション画像を生成する。 さらに、テキストプロンプトの本来の曖昧さと偏見は、スタイルの正確な伝達を妨げる。 そこで本研究では,参照画像のスタイル記述の精度を高めるために,即時改善による学習可能なスタイルトークンを提案する。 質的かつ定量的な実験結果は、instastyleが現在のベンチマークよりも優れた性能を達成していることを示している。 さらに,本手法は,混合反転雑音と組み合わせたスタイルの創造的タスクにおいて,その能力を示す。

Stylized text-to-image generation focuses on creating images from textual descriptions while adhering to a style specified by a few reference images. However, subtle style variations within different reference images can hinder the model from accurately learning the target style. In this paper, we propose InstaStyle, a novel approach that excels in generating high-fidelity stylized images with only a single reference image. Our approach is based on the finding that the inversion noise from a stylized reference image inherently carries the style signal, as evidenced by their non-zero signal-to-noise ratio. We employ DDIM inversion to extract this noise from the reference image and leverage a diffusion model to generate new stylized images from the ``style" noise. Additionally, the inherent ambiguity and bias of textual prompts impede the precise conveying of style. To address this, we introduce a learnable style token via prompt refinement, which enhances the accuracy of the style description for the reference image. Qualitative and quantitative experimental results demonstrate that InstaStyle achieves superior performance compared to current benchmarks. Furthermore, our approach also showcases its capability in the creative task of style combination with mixed inversion noise.
翻訳日:2023-11-29 22:20:43 公開日:2023-11-25
# 大型シンクロトロンマイクロctデータセットの低遅延視覚プレビュー

Low-latency Visual Previews of Large Synchrotron Micro-CT Datasets ( http://arxiv.org/abs/2311.15038v1 )

ライセンス: Link先を確認
Nicholas Tan Jerome, Suren Chilingaryan, Thomas van de Kamp, Andreas Kopmann(参考訳) シンクロトロン放射施設がマイクロ計算(マイクロct)データセットを生産する前例のない速度は、科学者がリアルタイムで閲覧したり対話したりするのに苦労する膨大なデータを生み出した。 何千もの節足動物がNOVAプロジェクトの中で微小CTにスキャンされ、大量のギガバイトサイズのデータセットが生成される。 本研究では,データサイズをギガバイトからメガバイトに拡大し,マイクロCTデータセットをリアルタイムで配信する手法を提案する。 加えて、節足動物はデータ還元手法を実装した後でも科学者によって識別できる。 最初のステップは、データ探索のベストプラクティスに従う3つの異なるビジュアルプレビューを開発することです。 その後、各ビジュアルプレビューは独自の設計上の考慮事項を保証し、個々のデータ処理パイプラインを必要とする。 データ処理パイプラインに適用されるデータ削減アルゴリズムを提案することを目的としている。 特に,マルチレゾリューションスライスマップ,サーバサイドレンダリング,ヒストグラムフィルタリングアプローチを用いて,サイズを小さくする。 評価では,各手法の相違を検証し,操作に最も適した配置を同定し,これと同等の必要条件を持つ他の実験に対して調整することができる。 実験の結果,arthropodの幾何情報を妥協することなく,データセットサイズをメガバイトの範囲に縮小できることが証明された。

The unprecedented rate at which synchrotron radiation facilities are producing micro-computed (micro-CT) datasets has resulted in an overwhelming amount of data that scientists struggle to browse and interact with in real-time. Thousands of arthropods are scanned into micro-CT within the NOVA project, producing a large collection of gigabyte-sized datasets. In this work, we present methods to reduce the size of this data, scaling it from gigabytes to megabytes, enabling the micro-CT dataset to be delivered in real-time. In addition, arthropods can be identified by scientists even after implementing data reduction methodologies. Our initial step is to devise three distinct visual previews that comply with the best practices of data exploration. Subsequently, each visual preview warrants its own design consideration, thereby necessitating an individual data processing pipeline for each. We aim to present data reduction algorithms applied across the data processing pipelines. Particularly, we reduce size by using the multi-resolution slicemaps, the server-side rendering, and the histogram filtering approaches. In the evaluation, we examine the disparities of each method to identify the most favorable arrangement for our operation, which can then be adjusted for other experiments that have comparable necessities. Our demonstration proved that reducing the dataset size to the megabyte range is achievable without compromising the arthropod's geometry information.
翻訳日:2023-11-29 22:20:25 公開日:2023-11-25
# 信号-画像AIモデルによる任意磁場中の核スピンの自動検出

Automatic Detection of Nuclear Spins at Arbitrary Magnetic Fields via Signal-to-Image AI Model ( http://arxiv.org/abs/2311.15037v1 )

ライセンス: Link先を確認
B. Varona-Uriarte, C. Munuera-Javaloy, E. Terradillos, A. Alvarez-Gila, E. Garrote, J. Casanova(参考訳) 量子センサーは物質の量子特性を利用して、前例のない空間分解能とスペクトル分解能の測定を可能にする。 これらのセンサーのうち、ダイヤモンドの窒素空隙(nv)中心を利用するものは室温での操作の利点がある。 それでも、NV中心から受信した信号はしばしば複雑であり、解釈は困難である。 これは、システムモデリングの標準的な近似が失敗する低磁場のシナリオに特に関係している。 さらに、NV信号は顕著なノイズ成分を特徴とする。 本研究では,NVセンサを取り巻く核スピンの数と,センサと核スピン間の超微細結合を自動的に推測できる信号対画像深層学習モデルを提案する。 我々のモデルは、様々な磁場シナリオにおいて効果的に動作するように訓練することができ、関連する核の事前知識を必要とせず、ノイズ信号を処理するように設計され、実際の実験環境での核環境の迅速なキャラクタリゼーションに繋がる。 詳細な数値シミュレーションにより、推定超微粒子定数で平均誤差が2\ \rm{kHz}$未満となる原子核数の変化を伴うシナリオにおいて、我々のモデルの性能を検証した。

Quantum sensors leverage matter's quantum properties to enable measurements with unprecedented spatial and spectral resolution. Among these sensors, those utilizing nitrogen-vacancy (NV) centers in diamond offer the distinct advantage of operating at room temperature. Nevertheless, signals received from NV centers are often complex, making interpretation challenging. This is especially relevant in low magnetic field scenarios, where standard approximations for modeling the system fail. Additionally, NV signals feature a prominent noise component. In this work, we present a signal-to-image deep learning model capable to automatically infer the number of nuclear spins surrounding an NV sensor and the hyperfine couplings between the sensor and the nuclear spins. Our model can be trained to operate effectively across various magnetic field scenarios, requires no prior knowledge of the involved nuclei, and is designed to handle noisy signals, leading to fast characterization of nuclear environments in real experimental conditions. With detailed numerical simulations, we test the performance of our model in scenarios involving varying numbers of nuclei, achieving an average error of less than $2\ \rm{kHz}$ in the estimated hyperfine constants.
翻訳日:2023-11-29 22:20:02 公開日:2023-11-25
# オンデバイスソフトセンサ : レベルセンサデータからの実時間流体流量推定

On-Device Soft Sensors: Real-Time Fluid Flow Estimation from Level Sensor Data ( http://arxiv.org/abs/2311.15036v1 )

ライセンス: Link先を確認
Tianheng Ling, Chao Qian, Gregor Schiele(参考訳) ソフトセンサーは、自律システムの物理的およびデジタル的領域を橋渡しし、センサーの融合と知覚を高める上で重要である。 クラウド上にソフトセンサーを配置する代わりに、この研究はデバイス上のソフトセンサーの採用に移行し、効率の向上とデータセキュリティの強化を約束する。 本手法は,無線センサネットワーク内のデバイスに直接人工知能(AI)を配置することにより,エネルギー効率を大幅に向上させる。 さらに、Microcontroller UnitとField-Programmable Gate Array(FPGA)の相乗的な統合は、後者の高速AI推論機能を活用する。 私たちの実世界のユースケースによる実証的な証拠は、FPGAベースのソフトセンサーが1.04から12.04マイクロ秒までの推論時間を実現していることを示している。 これらの魅力的な結果は、リアルタイム推論タスクを効率的に実行するための革新的なアプローチのかなりの可能性を強調します。

Soft sensors are crucial in bridging autonomous systems' physical and digital realms, enhancing sensor fusion and perception. Instead of deploying soft sensors on the Cloud, this study shift towards employing on-device soft sensors, promising heightened efficiency and bolstering data security. Our approach substantially improves energy efficiency by deploying Artificial Intelligence (AI) directly on devices within a wireless sensor network. Furthermore, the synergistic integration of the Microcontroller Unit and Field-Programmable Gate Array (FPGA) leverages the rapid AI inference capabilities of the latter. Empirical evidence from our real-world use case demonstrates that FPGA-based soft sensors achieve inference times ranging remarkably from 1.04 to 12.04 microseconds. These compelling results highlight the considerable potential of our innovative approach for executing real-time inference tasks efficiently, thereby presenting a feasible alternative that effectively addresses the latency challenges intrinsic to Cloud-based deployments.
翻訳日:2023-11-29 22:19:43 公開日:2023-11-25
# セレブラムとしてのエージェント、小脳としてのコントローラ: ドローンに具体化されたlmmベースのエージェントを実装する

Agent as Cerebrum, Controller as Cerebellum: Implementing an Embodied LMM-based Agent on Drones ( http://arxiv.org/abs/2311.15033v1 )

ライセンス: Link先を確認
Haoran Zhao, Fengxing Pan, Huqiuyue Ping and Yaoming Zhou(参考訳) 本研究では,「小脳,小脳のエージェント,小脳のコントローラ」アーキテクチャをカプセル化した産業用ロボットエンボディエージェントの新しいパラダイムを提案する。 当社のアプローチでは,産業環境でのドローン技術に適したエージェントフレームワークであるAeroAgent内で,LMM(Large Multimodal Models)のパワーを活用する。 ロボットシステムとのシームレスな統合を容易にするため,ロボットオペレーティングシステム(ROS)にLMMベースのエージェントを接続する疎結合フレームワークであるROSchainを導入する。 本研究では,Airgenおよび実世界のケーススタディ,特に個別の捜索救助活動におけるシミュレーション実験を含む広範な実証研究の成果を報告する。 その結果,既存のDeep Reinforcement Learning(DRL)ベースのエージェントと比較して,AeroAgentの優れた性能を示し,複雑な実世界のシナリオにおいて,具体化されたLMMの利点を強調した。

In this study, we present a novel paradigm for industrial robotic embodied agents, encapsulating an 'agent as cerebrum, controller as cerebellum' architecture. Our approach harnesses the power of Large Multimodal Models (LMMs) within an agent framework known as AeroAgent, tailored for drone technology in industrial settings. To facilitate seamless integration with robotic systems, we introduce ROSchain, a bespoke linkage framework connecting LMM-based agents to the Robot Operating System (ROS). We report findings from extensive empirical research, including simulated experiments on the Airgen and real-world case study, particularly in individual search and rescue operations. The results demonstrate AeroAgent's superior performance in comparison to existing Deep Reinforcement Learning (DRL)-based agents, highlighting the advantages of the embodied LMM in complex, real-world scenarios.
翻訳日:2023-11-29 22:19:27 公開日:2023-11-25
# NlpBDpatriots at BLP-2023 Task 2: A Transfer Learning Approach to Bangla Sentiment Analysis

nlpBDpatriots at BLP-2023 Task 2: A Transfer Learning Approach to Bangla Sentiment Analysis ( http://arxiv.org/abs/2311.15032v1 )

ライセンス: Link先を確認
Dhiman Goswami, Md Nishat Raihan, Sadiya Sayara Chowdhury Puspo, Marcos Zampieri(参考訳) 本稿では,Bangla Language Processing (BLP) とEMNLPを併用した第1回ワークショップにおいて,Bangla Social Media Posts の感性分析に関する共有タスクへのnlpBDpatriots導入について論じる。 本課題の主な目的は,共有タスクオーガナイザが提供した肯定的,中立的,否定的なラベルを付加したBanglaデータセットを用いて,ソーシャルメディアコンテンツの極性を特定することである。 このタスクのための最良のシステムは、マイクロF1スコアの0.71を達成したデータ拡張によるトランスファーラーニングアプローチである。 私たちのベストシステムは、競技に参加した30チームの中で12位でした。

In this paper, we discuss the nlpBDpatriots entry to the shared task on Sentiment Analysis of Bangla Social Media Posts organized at the first workshop on Bangla Language Processing (BLP) co-located with EMNLP. The main objective of this task is to identify the polarity of social media content using a Bangla dataset annotated with positive, neutral, and negative labels provided by the shared task organizers. Our best system for this task is a transfer learning approach with data augmentation which achieved a micro F1 score of 0.71. Our best system ranked 12th among 30 teams that participated in the competition.
翻訳日:2023-11-29 22:19:07 公開日:2023-11-25
# 画像から画像への埋め込みを伴わない二重フロー型ステガノグラフィー

Double-Flow-based Steganography without Embedding for Image-to-Image Hiding ( http://arxiv.org/abs/2311.15027v1 )

ライセンス: Link先を確認
Bingbing Song, Derui Wang, Tianwei Zhang, Renyang Liu, Yu Lin and Wei Zhou(参考訳) 新たな概念として、埋め込みのないステガノグラフィ(SWE)は、直接カバーに埋め込むことなく秘密のメッセージを隠蔽する。 したがって、SWEは典型的なステガナリシス法に免疫を持つというユニークな利点があり、秘密のメッセージが露出することを防ぐことができる。 しかし、既存のSWE手法は、ペイロード容量が低く、回収された秘密メッセージの忠実度が低いため、一般的に批判されている。 本稿では,前述の欠点に対処し,多様な自然なステゴ画像を生成するDF-SWEという新しいステガノグラフィー手法を提案する。 具体的には、DF-SWEは二重フローの可逆循環を用いて、秘密画像と生成されたステゴ画像との間の可逆的単射変換を構築する。 したがって、カバー画像なしで秘密画像からステゴ画像を直接生成する方法を提供する。 DF-SWEは、この可逆性を活用することに加えて、生成したステゴ画像から秘密画像をほぼ損失なく反転させ、抽出した秘密画像の忠実度を高めることができる。 我々の知る限り、DF-SWEは、大きな画像と複数の画像を同じ大きさの1つの画像に隠蔽し、ペイロード容量を大幅に向上する最初のSWE手法である。 実験結果によると、DF-SWEのペイロード容量は競合に比べて8000-16000倍であり、露光リスクを最小限に抑えるために多様な画像を生成する。 さらに、df-sweは、対応するドメインからのトレーニングデータを必要とせずに、各ドメインの秘密画像のステガノグラフィに適用できる。 このドメインに依存しない性質はdf-sweが 1)個人データの隠蔽に適用し、 2) リソース制限されたシステムにデプロイする。

As an emerging concept, steganography without embedding (SWE) hides a secret message without directly embedding it into a cover. Thus, SWE has the unique advantage of being immune to typical steganalysis methods and can better protect the secret message from being exposed. However, existing SWE methods are generally criticized for their poor payload capacity and low fidelity of recovered secret messages. In this paper, we propose a novel steganography-without-embedding technique, named DF-SWE, which addresses the aforementioned drawbacks and produces diverse and natural stego images. Specifically, DF-SWE employs a reversible circulation of double flow to build a reversible bijective transformation between the secret image and the generated stego image. Hence, it provides a way to directly generate stego images from secret images without a cover image. Besides leveraging the invertible property, DF-SWE can invert a secret image from a generated stego image in a nearly lossless manner and increases the fidelity of extracted secret images. To the best of our knowledge, DF-SWE is the first SWE method that can hide large images and multiple images into one image with the same size, significantly enhancing the payload capacity. According to the experimental results, the payload capacity of DF-SWE achieves 24-72 BPP is 8000-16000 times compared to its competitors while producing diverse images to minimize the exposure risk. Importantly, DF-SWE can be applied in the steganography of secret images in various domains without requiring training data from the corresponding domains. This domain-agnostic property suggests that DF-SWE can 1) be applied to hiding private data and 2) be deployed in resource-limited systems.
翻訳日:2023-11-29 22:18:55 公開日:2023-11-25
# 翻訳・コードミキシングバングラにおける攻撃的言語識別

Offensive Language Identification in Transliterated and Code-Mixed Bangla ( http://arxiv.org/abs/2311.15023v1 )

ライセンス: Link先を確認
Md Nishat Raihan, Umma Hani Tanmoy, Anika Binte Islam, Kai North, Tharindu Ranasinghe, Antonios Anastasopoulos, Marcos Zampieri(参考訳) ソーシャルメディアにおける攻撃的コンテンツの特定は、安全なオンラインコミュニティを作るのに不可欠である。 いくつかの最近の研究は、様々な言語のためのデータセットを作成することでこの問題に対処している。 本稿では,多言語社会に共通する言語現象,およびNLPシステムにおける既知の課題について検討する。 tb-olidは,手作業で5000の注釈付コメントを含むバングラ攻撃言語データセットである。 我々はTB-OLIDで機械学習モデルを訓練し、微調整を行い、このデータセットで結果を評価する。 この結果から,fBERTやHateBERTといった英語の事前学習型トランスフォーマーベースモデルが,このデータセット上で最高の性能を発揮することがわかった。

Identifying offensive content in social media is vital for creating safe online communities. Several recent studies have addressed this problem by creating datasets for various languages. In this paper, we explore offensive language identification in texts with transliterations and code-mixing, linguistic phenomena common in multilingual societies, and a known challenge for NLP systems. We introduce TB-OLID, a transliterated Bangla offensive language dataset containing 5,000 manually annotated comments. We train and fine-tune machine learning models on TB-OLID, and we evaluate their results on this dataset. Our results show that English pre-trained transformer-based models, such as fBERT and HateBERT achieve the best performance on this dataset.
翻訳日:2023-11-29 22:18:29 公開日:2023-11-25
# 深部特徴空間における拡張部分空間摂動による咬合感度解析

Occlusion Sensitivity Analysis with Augmentation Subspace Perturbation in Deep Feature Space ( http://arxiv.org/abs/2311.15022v1 )

ライセンス: Link先を確認
Pedro Valois, Koichiro Niinuma, Kazuhiro Fukui(参考訳) ニューラルネットワークの深層学習は、医療診断や自動運転車事故調査など、複数の生命クリティカルな応用で注目を集めている。 しかし、モデルの透明性とバイアスに関する懸念は続いている。 説明可能なメソッドは、これらの課題に対処する解決策と見なされる。 本研究では,コンピュータビジョンのための新しい摂動に基づく解釈可能性アプローチであるOcclusion Sensitivity Analysis with Deep Feature Augmentation Subspace (OSA-DAS)を紹介する。 従来の摂動法はモデル予測を説明するためにオクルージョンのみを使用するが、osa-dasは様々な画像拡張と統合することにより標準的なオクルージョン感度分析を拡張する。 本手法は,DNNの出力ベクトルを用いて,深部特徴ベクトル空間内に低次元部分空間を構築することにより,モデル予測のより正確な説明を提供する。 これらの部分空間の構造的類似性は、様々な拡張や閉塞の影響を包含する。 imagenet-1kで広範囲にテストを行い、クラスやモデルに依存しないアプローチは、一般的に使用されるインタプリタよりも優れています。

Deep Learning of neural networks has gained prominence in multiple life-critical applications like medical diagnoses and autonomous vehicle accident investigations. However, concerns about model transparency and biases persist. Explainable methods are viewed as the solution to address these challenges. In this study, we introduce the Occlusion Sensitivity Analysis with Deep Feature Augmentation Subspace (OSA-DAS), a novel perturbation-based interpretability approach for computer vision. While traditional perturbation methods make only use of occlusions to explain the model predictions, OSA-DAS extends standard occlusion sensitivity analysis by enabling the integration with diverse image augmentations. Distinctly, our method utilizes the output vector of a DNN to build low-dimensional subspaces within the deep feature vector space, offering a more precise explanation of the model prediction. The structural similarity between these subspaces encompasses the influence of diverse augmentations and occlusions. We test extensively on the ImageNet-1k, and our class- and model-agnostic approach outperforms commonly used interpreters, setting it apart in the realm of explainable AI.
翻訳日:2023-11-29 22:18:17 公開日:2023-11-25
# 真空絡み込みにおける曲率の普遍的役割

Universal role of curvature in vacuum entanglement ( http://arxiv.org/abs/2311.15019v1 )

ライセンス: Link先を確認
Hari K, Subhajit Barman and Dawood Kothawala(参考訳) 適切な真空状態で量子場に結合した量子プローブ間の絡み合いにおける時空曲率の役割に関する普遍的な特徴を強調した。 プローブは当初因果的に切断され、絡み合っていない。 パラメータ空間 $\{{\omega}, d_0, \boldsymbol{v}_0\}$ は、検出器のエネルギーギャップ $\omega$ と、分離距離 $d_0$ と相対速度 $\boldsymbol{v}_0$ の初値は、いずれも任意の曲線時空で共変的に定義される。 また, ド・ジッター時空における数値的な結果を得るとともに, これらを用いて強曲率分布を探索すると同時に, 任意の曲率時空における摂動的な結果を補う。 解析により, 前記パラメータ空間の特定の領域において, 曲率を時空曲率のプローブとして利用しやすくすることで, 絡み合い特性を誘導できることが示唆された。

We highlight some universal features concerning the role of spacetime curvature in the entanglement induced between quantum probes coupled to a quantum field in a suitable vacuum state. The probes are initially causally disconnected and non-entangled. We explore the parameter space $\{{\omega}, d_0, \boldsymbol{v}_0\}$ spanned by the energy gap $\omega$ of the detectors, and the initial values of separation distance $d_0$ and relative velocity $\boldsymbol{v}_0$, both covariantly defined in arbitrary curved spacetime. We also obtain numerical results in de Sitter spacetimes and use these to explore strong curvature regime, while also corroborating our perturbative results in arbitrary curved spacetime. Our analysis shows that curvature can induce entanglement features in certain regions of the above parameter space, in a manner which facilitates using entanglement as a probe of spacetime curvature.
翻訳日:2023-11-29 22:18:00 公開日:2023-11-25
# E-CORE:感情相関による共感対話生成

E-CORE: Emotion Correlation Enhanced Empathetic Dialogue Generation ( http://arxiv.org/abs/2311.15016v1 )

ライセンス: Link先を確認
Fengyi Fu, Lei Zhang, Quan Wang, Zhendong Mao(参考訳) 共感の実現は、人間化された対話システムへの重要な一歩である。 情緒的対話生成の現在のアプローチは、感情を独立して扱うだけで、対話における本質的な感情相関を無視し、不正確な感情知覚と不適切な反応生成をもたらす感情ラベルを主に知覚する。 本稿では,感情相関学習,利用,監督を包括的に実現する新しい感情相関強化共感対話生成フレームワークを提案する。 特にマルチレゾリューション感情グラフは、異なるレゾリューションからコンテキストベースの感情インタラクションを捉え、さらに感情相関をモデル化するために考案された。 そこで本研究では,感情認識と応答生成を改善するために,新たな相関認識集約とソフト/ハード戦略を備えた感情相関強化デコーダを提案する。 評価実験の結果, 情緒的知覚と表現の両面で, モデルが優れていることが示された。

Achieving empathy is a crucial step toward humanized dialogue systems. Current approaches for empathetic dialogue generation mainly perceive an emotional label to generate an empathetic response conditioned on it, which simply treat emotions independently, but ignore the intrinsic emotion correlation in dialogues, resulting in inaccurate emotion perception and unsuitable response generation. In this paper, we propose a novel emotion correlation enhanced empathetic dialogue generation framework, which comprehensively realizes emotion correlation learning, utilization, and supervising. Specifically, a multi-resolution emotion graph is devised to capture context-based emotion interactions from different resolutions, further modeling emotion correlation. Then we propose an emotion correlation enhanced decoder, with a novel correlation-aware aggregation and soft/hard strategy, respectively improving the emotion perception and response generation. Experimental results on the benchmark dataset demonstrate the superiority of our model in both empathetic perception and expression.
翻訳日:2023-11-29 22:17:39 公開日:2023-11-25
# AugmentTRAJ: ポイントベースのトラジェクトリデータ拡張のためのフレームワーク

AugmentTRAJ: A framework for point-based trajectory data augmentation ( http://arxiv.org/abs/2311.15097v1 )

ライセンス: Link先を確認
Yaksh J Haranwala(参考訳) データ拡張は機械学習の強力なテクニックとして現れ、モデルロバスト性を強化しつつ、多様な合成データを生成することで過度な適合と不適合の問題を緩和している。 しかし、他の領域での成功にもかかわらず、データ拡張の可能性は、主に軌跡データの複雑な性質とユニークな形式のために、モビリティデータ分析においてほとんど失われていない。 さらに、ポイントワイドなデータ拡張が可能なフレームワークが欠如しており、元のデータ固有の特性を保ちながら、確実に合成軌跡を生成することができる。 これらの課題に対処するために、AugmenTRAJというオープンソースのPython3フレームワークを紹介した。 AugmenTRAJは、合成軌道を生成するための信頼性が高くよく制御されたアプローチを提供する。 本稿では,AugmenTRAJの開発における方法論の概要を概説し,フレームワーク内で利用可能なさまざまなデータ拡張テクニックを紹介する。 AugmenTRAJは、トラジェクトリデータを拡張するための実用的で汎用的なツールを研究者に提供することで、モビリティデータ分析モデルのパフォーマンスと一般化能力を向上する新たな可能性を開く。Python3のユーザフレンドリな実装は、既存のワークフローへの統合を容易にし、トラジェクトリベースのアプリケーションにおけるデータ拡張の可能性を最大限活用するためのアクセス可能なリソースを提供する。

Data augmentation has emerged as a powerful technique in machine learning, strengthening model robustness while mitigating overfitting and under-fitting issues by generating diverse synthetic data. Nevertheless, despite its success in other domains, data augmentation's potential remains largely untapped in mobility data analysis, primarily due to the intricate nature and unique format of trajectory data. Additionally, there is a lack of frameworks capable of point-wise data augmentation, which can reliably generate synthetic trajectories while preserving the inherent characteristics of the original data. To address these challenges, this research introduces AugmenTRAJ, an open-source Python3 framework designed explicitly for trajectory data augmentation. AugmenTRAJ offers a reliable and well-controlled approach for generating synthetic trajectories, thereby enabling the harnessing of data augmentation benefits in mobility analysis. This thesis presents a comprehensive overview of the methodologies employed in developing AugmenTRAJ and showcases the various data augmentation techniques available within the framework. AugmenTRAJ opens new possibilities for enhancing mobility data analysis models' performance and generalization capabilities by providing researchers with a practical and versatile tool for augmenting trajectory data, Its user-friendly implementation in Python3 facilitates easy integration into existing workflows, offering the community an accessible resource to leverage the full potential of data augmentation in trajectory-based applications.
翻訳日:2023-11-29 22:10:29 公開日:2023-11-25
# 駆動散逸型リドバーグポラリトンにおけるパターンの上昇と崩壊

The rise and fall of patterns in driven-dissipative Rydberg polaritons ( http://arxiv.org/abs/2311.15091v1 )

ライセンス: Link先を確認
H. Alaeian and V. Walther(参考訳) 空間構造は一般に相互作用する非線形システムに現れる。 本研究では,最近確立されたライドバーグ・エキシトン・ポーラリトンプラットフォームにおける,外部駆動と散逸の存在下での長距離非局所的相互作用に起因した平衡状態のダイナミクスに着目した。 我々の研究は、マイクロン領域に特徴的なスケールを持つリドベルク偏光子系において、変調不安定が自発密度パターンの形成をいかに引き起こすかを解明する。 不安定なフラットトップ状態の条件下では、ポラリトンアンサンブルの進化を追跡し、メタ安定パターンの出現と長期的限界におけるそれらの崩壊を示す。 我々はこの現象を、駆動アンサンブル中のポラリトン状態とポンプの間の破壊的干渉に遡る。 最後に、安定なパターンを不整合ポンプで形成できる条件を図示する。 これらの発見は、ライドバーグ・エキシトン・ポーラリトンを通じて長距離相互作用気体の新興分野を探索する新たな機会を与える。

Spatial structures commonly emerge in interacting nonlinear systems. In this study, we focus on the out-of-equilibrium dynamics of the recently-established platform of Rydberg exciton-polaritons, fueled by their characteristic long-range non-local interactions, in the presence of an external drive and dissipation. Our work elucidates how modulational instability sets off spontaneous density pattern formations in a Rydberg polariton system with characteristic scales in the micron range. Under conditions of an unstable flattop state, we track the evolution of the polariton ensemble, showing the emergence of meta-stable patterns and their collapse in the long-time limit. We trace this phenomenon back to the destructive interference between the polariton state and the pump in a driven ensemble. Finally, we map out conditions that allow stable patterns to form under incoherent pumping. These findings provide new opportunities for exploring the emerging field of long-range interacting gases through Rydberg exciton-polaritons.
翻訳日:2023-11-29 22:10:02 公開日:2023-11-25
# 前庭神経癌分節に対する細粒化非教師付きクロスモダリティドメイン適応

Fine-Grained Unsupervised Cross-Modality Domain Adaptation for Vestibular Schwannoma Segmentation ( http://arxiv.org/abs/2311.15090v1 )

ライセンス: Link先を確認
Luyi Han, Tao Tan, Ritse Mann(参考訳) ドメイン適応アプローチは、様々なベンダーやセンター間でのスタイルの転送において、モダリティのギャップを埋めるとともに、大きな受け入れられている。 しかし、マルチセンターアプリケーションはドメイン内の違いによりドメイン適応の困難さに直面している。 我々は,前庭神経ショーノマ (VS) とコチェリーの相互モダリティセグメンテーションを促進するための,ドメイン適応のためのきめ細かい教師なしフレームワークの導入に焦点をあてる。 生成器を制御するベクターを用いて,与えられた特徴を偽画像に合成する方法を提案する。 そして、特徴辞書を検索することで、データセットに様々な拡張を適用することができる。 多様性の増大はセグメンテーションモデルの性能と堅牢性を高めることができる。 クロスモダ検証フェーズリーダボードでは,vs と cochlea で平均 dice スコア 0.765 と 0.836 を得た。

The domain adaptation approach has gained significant acceptance in transferring styles across various vendors and centers, along with filling the gaps in modalities. However, multi-center application faces the challenge of the difficulty of domain adaptation due to their intra-domain differences. We focus on introducing a fine-grained unsupervised framework for domain adaptation to facilitate cross-modality segmentation of vestibular schwannoma (VS) and cochlea. We propose to use a vector to control the generator to synthesize a fake image with given features. And then, we can apply various augmentations to the dataset by searching the feature dictionary. The diversity augmentation can increase the performance and robustness of the segmentation model. On the CrossMoDA validation phase Leaderboard, our method received a mean Dice score of 0.765 and 0.836 on VS and cochlea, respectively.
翻訳日:2023-11-29 22:09:44 公開日:2023-11-25
# where2start: 堅牢でサンプル効率のよい強化学習に初期状態を活用する

Where2Start: Leveraging initial States for Robust and Sample-Efficient Reinforcement Learning ( http://arxiv.org/abs/2311.15089v1 )

ライセンス: Link先を確認
Pouya Parsa, Raoof Zare Moayedi, Mohammad Bornosi, Mohammad Mahdi Bejani(参考訳) 勾配の計算と次のアクションの選択に焦点を当てた強化学習アルゴリズムは、エージェントのパフォーマンスを効果的に改善する。 しかし、これらのアルゴリズムは環境に依存しない。 これは、アルゴリズムが軌道で捉えた知識を使わなかったことを意味する。 これは、アルゴリズムがモデルをトレーニングするために多くの軌跡をサンプリングすべきであることを示している。 環境の本質とエージェントがその環境の各シナリオからどの程度学習するかを考えることで、学習手順の戦略を変えることができる。 戦略はより情報的な軌道を回収するので、エージェントはより少ない軌道サンプルで学習することができる。 エージェントがその状態付近でより不安定になるように初期状態を選択するwhere2startアルゴリズムを提案する。 この種の選択は,エージェントが許容される報酬に到達するまでにサンプリングすべき軌跡の数を減少させる。 実験の結果,Where2Startはサンプル効率を最大8倍改善できることがわかった。 where2startは最先端のアルゴリズムの多くと組み合わせることで、堅牢性とサンプル効率を大幅に向上することができる。

The reinforcement learning algorithms that focus on how to compute the gradient and choose next actions, are effectively improved the performance of the agents. However, these algorithms are environment-agnostic. This means that the algorithms did not use the knowledge that has been captured by trajectory. This poses that the algorithms should sample many trajectories to train the model. By considering the essence of environment and how much the agent learn from each scenario in that environment, the strategy of the learning procedure can be changed. The strategy retrieves more informative trajectories, so the agent can learn with fewer trajectory sample. We propose Where2Start algorithm that selects the initial state so that the agent has more instability in vicinity of that state. We show that this kind of selection decreases number of trajectories that should be sampled that the agent reach to acceptable reward. Our experiments shows that Where2Start can improve sample efficiency up to 8 times. Also Where2Start can combined with most of state-of-the-art algorithms and improve that robustness and sample efficiency significantly.
翻訳日:2023-11-29 22:09:29 公開日:2023-11-25
# ボイド相互作用を持つGPUベース流体力学シミュレータ

A GPU-based Hydrodynamic Simulator with Boid Interactions ( http://arxiv.org/abs/2311.15088v1 )

ライセンス: Link先を確認
Xi Liu, Gizem Kayar, Ken Perlin(参考訳) 本稿では,実時間水メッシュ表面再構成による平滑化粒子流体環境内における仮想エージェントの挙動とナビゲーションをシミュレーションするdirectxのgpu計算シェーダを用いた流体力学シミュレーションシステムを提案する。 現在のSPH文献にはSPHと異種メッシュの相互作用が含まれているが、SPHと仮想結合剤の相互作用はめったにない。 このシステムの貢献は、平行な滑らかな粒子流体力学モデルと、エージェントが流体と相互作用できるようにするための仮想エージェントの分散ボイドモデルの組み合わせにある。 ボイドアルゴリズムに基づくエージェントは、SPH流体粒子の運動に影響を与え、SPHアルゴリズムからの力はバイドの運動に影響を及ぼす。 粒子系における現実的な流体のレンダリングとシミュレーションを実現するためには、粒子の属性からメッシュを構築することが不可欠である。 また, パイプラインの表面再構成にも寄与し, 実時間計算およびメモリ集約アプリケーションにおける流体粒子からのメッシュ構築のための並列進行立方体アルゴリズムを用いて, 広範囲な三角形構成を生成する実験を行った。 また,本システムは,水中航法および遠隔操作工学目的の流体環境と相互作用するボイドエージェントの代わりに,強化ロボットエージェントに十分汎用性があることを実証した。

We present a hydrodynamic simulation system using the GPU compute shaders of DirectX for simulating virtual agent behaviors and navigation inside a smoothed particle hydrodynamical (SPH) fluid environment with real-time water mesh surface reconstruction. The current SPH literature includes interactions between SPH and heterogeneous meshes but seldom involves interactions between SPH and virtual boid agents. The contribution of the system lies in the combination of the parallel smoothed particle hydrodynamics model with the distributed boid model of virtual agents to enable agents to interact with fluids. The agents based on the boid algorithm influence the motion of SPH fluid particles, and the forces from the SPH algorithm affect the movement of the boids. To enable realistic fluid rendering and simulation in a particle-based system, it is essential to construct a mesh from the particle attributes. Our system also contributes to the surface reconstruction aspect of the pipeline, in which we performed a set of experiments with the parallel marching cubes algorithm per frame for constructing the mesh from the fluid particles in a real-time compute and memory-intensive application, producing a wide range of triangle configurations. We also demonstrate that our system is versatile enough for reinforced robotic agents instead of boid agents to interact with the fluid environment for underwater navigation and remote control engineering purposes.
翻訳日:2023-11-29 22:09:13 公開日:2023-11-25
# Scene Coordinate Regression を用いたX線CTレジストレーション

X-Ray to CT Rigid Registration Using Scene Coordinate Regression ( http://arxiv.org/abs/2311.15087v1 )

ライセンス: Link先を確認
Pragyan Shrestha, Chun Xie, Hidehiko Shishido, Yuichi Yoshii, Itary Kitahara(参考訳) 術中蛍光検査は低侵襲整形外科手術において頻繁に用いられる。 術中取得したX線画像とCTスキャンの術前取得した3次元モデルとを合わせると、取得した画像の解剖学的構造の重なりによって引き起こされる外科医の精神負担が軽減される。 本稿では,極端視点に頑健で,トレーニング中にランドマークポイントのマニュアルアノテーションを必要としない完全自動登録手法を提案する。 これは、与えられたx線画像のシーン座標を回帰する完全畳み込みニューラルネットワーク(cnn)に基づいている。 シーン座標は、画素から3dモデルへのバック投影光線の交点として定義される。 術前ctスキャンを用いたc-arm装置の現実的なシミュレーションにより,患者固有のモデルのトレーニングデータを生成する。 対照的に術中登録はランダムサンプルとコンセンサス(ransac)アルゴリズムを用いてpnp問題を解決することで達成された。 実際の蛍光x線画像を含む骨盤ctデータセットを用いて実験を行った。 提案手法は, 模擬試験データセットの50パーセンタイルにおける平均平均目標登録誤差(mTRE)を3.79mmとし, 実蛍光画像の50パーセンタイルにおける平均目標登録誤差(mTRE)を9.65mmと予測した。

Intraoperative fluoroscopy is a frequently used modality in minimally invasive orthopedic surgeries. Aligning the intraoperatively acquired X-ray image with the preoperatively acquired 3D model of a computed tomography (CT) scan reduces the mental burden on surgeons induced by the overlapping anatomical structures in the acquired images. This paper proposes a fully automatic registration method that is robust to extreme viewpoints and does not require manual annotation of landmark points during training. It is based on a fully convolutional neural network (CNN) that regresses the scene coordinates for a given X-ray image. The scene coordinates are defined as the intersection of the back-projected rays from a pixel toward the 3D model. Training data for a patient-specific model were generated through a realistic simulation of a C-arm device using preoperative CT scans. In contrast, intraoperative registration was achieved by solving the perspective-n-point (PnP) problem with a random sample and consensus (RANSAC) algorithm. Experiments were conducted using a pelvic CT dataset that included several real fluoroscopic (X-ray) images with ground truth annotations. The proposed method achieved an average mean target registration error (mTRE) of 3.79 mm in the 50th percentile of the simulated test dataset and projected mTRE of 9.65 mm in the 50th percentile of real fluoroscopic images for pelvis registration.
翻訳日:2023-11-29 22:08:52 公開日:2023-11-25
# 弱教師付き視聴覚セグメンテーション

Weakly-Supervised Audio-Visual Segmentation ( http://arxiv.org/abs/2311.15080v1 )

ライセンス: Link先を確認
Shentong Mo, Bhiksha Raj(参考訳) 映像中の音源に対する画素レベルのマスクの予測を目的とした,音声視覚的セグメンテーションの課題である。 それまでの作業では、無数のピクセル単位で正確なマスクを監督として、包括的な手動設計のアーキテクチャを適用していた。 しかし、これらのピクセルレベルのマスクは高価であり、あらゆるケースで利用できない。 本研究の目的は,インスタンスレベルのアノテーション,すなわち弱教師付き音声・視覚的セグメンテーションの監督を簡略化することである。 本稿では,音声・視覚セグメンテーションのためのマルチスケール・マルチインスタンス・コントラスト学習とマルチスケール・オーディオ・ビジュアルアライメントを学習できる,弱い教師付き音声・視覚セグメンテーションフレームワーク ws-avs を提案する。 AVSBenchの大規模な実験は、単一ソースおよびマルチソースシナリオの弱い教師付きオーディオ視覚セグメント化におけるWS-AVSの有効性を示す。

Audio-visual segmentation is a challenging task that aims to predict pixel-level masks for sound sources in a video. Previous work applied a comprehensive manually designed architecture with countless pixel-wise accurate masks as supervision. However, these pixel-level masks are expensive and not available in all cases. In this work, we aim to simplify the supervision as the instance-level annotation, i.e., weakly-supervised audio-visual segmentation. We present a novel Weakly-Supervised Audio-Visual Segmentation framework, namely WS-AVS, that can learn multi-scale audio-visual alignment with multi-scale multiple-instance contrastive learning for audio-visual segmentation. Extensive experiments on AVSBench demonstrate the effectiveness of our WS-AVS in the weakly-supervised audio-visual segmentation of single-source and multi-source scenarios.
翻訳日:2023-11-29 22:08:29 公開日:2023-11-25
# コードスイッチングによる低リソースアフリカ言語音声認識の多言語自己教師型音声表現による改善

Multilingual self-supervised speech representations improve the speech recognition of low-resource African languages with codeswitching ( http://arxiv.org/abs/2311.15077v1 )

ライセンス: Link先を確認
Tol\'ulop\'e \`Og\'unr\`em\'i, Christopher D. Manning, Dan Jurafsky(参考訳) 低リソース言語の多くの話者は、言語と他の地域言語や英語を定期的にコードスイッチするが、コードスイッチされた音声のデータセットは、スクラッチから音素モデルを訓練するには小さすぎる。 本稿では、コード切替データを認識するために、wav2vec 2.0 XLSRのような自己教師付き音声表現を微調整する。 テキストから訓練したn-gram言語モデルを用いて、自己教師付き多言語表現を微調整し、それらを拡張することで、コード切替データでスクラッチから訓練したハイブリッドモデルのベースラインと比較して、絶対単語誤り率を最大20%削減できることがわかった。 学習データに制限のある状況において,自己監督表現を微調整することは,実行可能かつ有効なソリューションであることが示唆された。

While many speakers of low-resource languages regularly code-switch between their languages and other regional languages or English, datasets of codeswitched speech are too small to train bespoke acoustic models from scratch or do language model rescoring. Here we propose finetuning self-supervised speech representations such as wav2vec 2.0 XLSR to recognize code-switched data. We find that finetuning self-supervised multilingual representations and augmenting them with n-gram language models trained from transcripts reduces absolute word error rates by up to 20% compared to baselines of hybrid models trained from scratch on code-switched data. Our findings suggest that in circumstances with limited training data finetuning self-supervised representations is a better performing and viable solution.
翻訳日:2023-11-29 22:08:15 公開日:2023-11-25
# Mug-STAN:一般的なビデオ理解のための画像言語事前学習モデルの適用

Mug-STAN: Adapting Image-Language Pretrained Models for General Video Understanding ( http://arxiv.org/abs/2311.15075v1 )

ライセンス: Link先を確認
Ruyang Liu and Jingjia Huang and Wei Gao and Thomas H. Li and Ge Li(参考訳) 大規模画像言語事前訓練モデル(例えばCLIP)は、Webスケールの画像テキストデータを通じて一般的なマルチモーダル知識を得るのに顕著な能力を示した。 様々な画像タスクにおける画像言語モデルの印象的なパフォーマンスにもかかわらず、一般的なビデオ理解でそれらを効果的に拡張する方法は、現在も調査中である。 本稿では、画像言語モデルの適応を妨げる2つの重要な障害、すなわち、一般化不可能な時間モデルと部分的に不一致なビデオテキストデータを明らかにする。 これらの課題に対処するため、Mug-STANは、画像テキストモデルを多様なビデオタスクやビデオテキストデータに拡張するシンプルかつ効果的なフレームワークであり、STANは分解された空間時間モジュールを持つ分岐構造を採用して、一般化可能な時間的モデリングを実現し、Mugは両モードのトークンワイドな特徴集約を導入することで、不整合を抑制する。 この結果,Mug-STANはCLIPやCoCaといった言語画像事前学習モデルの,ビデオテキスト後訓練および微調整段階における適応性を著しく向上させることがわかった。 MSR-VTT, DiDeMo, LSMDC, Kinetics-400, Something-Something-2, HMDB-51, UCF-101, AVA など,様々な下流データセットに対する最先端のゼロショットおよび微調整結果が得られた。 さらに,事前学習したMug-STANとマルチモーダル対話モデルを統合することで,ゼロショットビデオチャットを実現する。 コードはhttps://github.com/farewellthree/stanで入手できる。

Large-scale image-language pretrained models, e.g., CLIP, have demonstrated remarkable proficiency in acquiring general multi-modal knowledge through web-scale image-text data. Despite the impressive performance of image-language models on various image tasks, how to effectively expand them on general video understanding remains an area of ongoing exploration. In this paper, we investigate the image-to-video transferring from the perspective of the model and the data, unveiling two key obstacles impeding the adaptation of image-language models: non-generalizable temporal modeling and partially misaligned video-text data. To address these challenges, we propose Spatial-Temporal Auxiliary Network with Mutual-guided alignment module (Mug-STAN), a simple yet effective framework extending image-text model to diverse video tasks and video-text data.Specifically, STAN adopts a branch structure with decomposed spatial-temporal modules to enable generalizable temporal modeling, while Mug suppresses misalignment by introducing token-wise feature aggregation of either modality from the other. Extensive experimental results verify Mug-STAN significantly improves adaptation of language-image pretrained models such as CLIP and CoCa at both video-text post-pretraining and finetuning stages. With our solution, state-of-the-art zero-shot and finetuning results on various downstream datasets, including MSR-VTT, DiDeMo, LSMDC, Kinetics-400, Something-Something-2, HMDB-51, UCF- 101, and AVA, are achieved. Moreover, by integrating pretrained Mug-STAN with the emerging multimodal dialogue model, we can realize zero-shot video chatting. Codes are available at https://github.com/farewellthree/STAN
翻訳日:2023-11-29 22:08:02 公開日:2023-11-25
# 生ビデオを用いた自己刺激行動検出のための畳み込みパイプラインを用いたssbd+データセットの導入

Introducing SSBD+ Dataset with a Convolutional Pipeline for detecting Self-Stimulatory Behaviours in Children using raw videos ( http://arxiv.org/abs/2311.15072v1 )

ライセンス: Link先を確認
Vaibhavi Lokegaonkar, Vijay Jaisankar, Pon Deepika, Madhav Rao, T K Srikanth, Sarbani Mallick, Manjit Sodhi(参考訳) 従来, 自閉症スペクトラム障害の診断は, アンケート調査に基づく形式的評価と, 様々な状況下での行動手がかりの観察により, 早期の自閉症の警告を捉え, 専門医が行う。 これらの評価手法は主観的であり、精度は専門家の経験に依存する。 この点において、子どもの録画ビデオから自閉症の早期徴候を自動的に捉えるための機械学習ベースの手法は、有望な代替手段である。 本稿では,自閉症スペクトラム障害(asd)の診断に役立つ特定の自己刺激行動を検出するための新しいパイプライン型ディープラーニングアーキテクチャを提案する。 著者らはまた、ツールをSSBD(Self Stimulatory Behavior Dataset)の拡張バージョンで補完し、SSBD Action Detection: no-classという新しいラベルも提案している。 新しいデータセットによるディープラーニングモデルは、研究者や開発者コミュニティに簡単に適用できるように、無償で提供される。 リアルタイムおよびハンズフリーの自動診断を目的としたパイプラインモデルにより,全体の81%の精度を実現した。 ソースコード、データ、ライセンス、その他の関連資料はすべて、https://github.com/sarl-iiitb/で自由に利用できる。

Conventionally, evaluation for the diagnosis of Autism spectrum disorder is done by a trained specialist through questionnaire-based formal assessments and by observation of behavioral cues under various settings to capture the early warning signs of autism. These evaluation techniques are highly subjective and their accuracy relies on the experience of the specialist. In this regard, machine learning-based methods for automated capturing of early signs of autism from the recorded videos of the children is a promising alternative. In this paper, the authors propose a novel pipelined deep learning architecture to detect certain self-stimulatory behaviors that help in the diagnosis of autism spectrum disorder (ASD). The authors also supplement their tool with an augmented version of the Self Stimulatory Behavior Dataset (SSBD) and also propose a new label in SSBD Action detection: no-class. The deep learning model with the new dataset is made freely available for easy adoption to the researchers and developers community. An overall accuracy of around 81% was achieved from the proposed pipeline model that is targeted for real-time and hands-free automated diagnosis. All of the source code, data, licenses of use, and other relevant material is made freely available in https://github.com/sarl-iiitb/
翻訳日:2023-11-29 22:07:29 公開日:2023-11-25
# 量子コンピュータ上のq変形高調波振動子のモデリング

Modelling of q-deformed harmonic oscilator on quantum computer ( http://arxiv.org/abs/2311.15068v1 )

ライセンス: Link先を確認
M. I. Samar and V. M. Tkachuk(参考訳) 我々は、IBM量子コンピュータ上のいわゆるq変形発振器に対応する変形可換関係の特別な場合における量子調和発振器の量子シミュレーション法を提案する。 プローブスピン進化による量子コンピュータ上のスピン系のエネルギー準位検出法を用いて、q変形した量子高調波と非調和振動子のエネルギー準位を求める。

We present a method of a quantum simulation of a quantum harmonic oscillator in a special case of the deformed commutation relation, which corresponds to the so-called q-deformed oscillator on an IBM quantum computer. Using the method of detection of energy levels of a spin system on a quantum computer by probe spin evolution we obtain the energy levels of both the q-deformed quantum harmonic and anharmonic oscillators.
翻訳日:2023-11-29 22:06:50 公開日:2023-11-25
# 知識サブグラフ学習による薬物と薬物の相互作用の正確な予測

Accurate and interpretable drug-drug interaction prediction enabled by knowledge subgraph learning ( http://arxiv.org/abs/2311.15056v1 )

ライセンス: Link先を確認
Yaqing Wang and Zaifei Yang and Quanming Yao(参考訳) 背景: 薬物-薬物相互作用の可能性(ddis)の発見は、臨床治療や薬物開発において長年の課題である。 近年,DDI予測のためのディープラーニング技術が開発されている。 しかし、一般的に大量のサンプルを必要とするが、既知のDDIは稀である。 方法:本稿では,上記の課題に対処するグラフニューラルネットワークベースの手法であるnowddiを提案する。 KnowDDIは、大きなバイオメディカル知識グラフからリッチな近隣情報を適応的に活用することで、薬物表現を強化する。 そして、予測されたDDIを解釈するために、各ドラッグペアの知識サブグラフを学習し、それぞれのエッジが、既知のDDIの重要性を示す接続強度、または、接続が不明なドラッグペア間の強度に類似した接続強度に関連付けられている。 したがって、DDIの欠如は、豊かな薬物表現と伝達される薬物類似性によって暗黙的に補償される。 結果:2つのベンチマークDDIデータセット上でKnowDDIを評価する。 その結果,KnowDDIは高い解釈性で最先端の予測性能が得られることがわかった。 また,KnowDDIはスペーサーの知識グラフから既存の作業よりも苦しむことが判明した。 このことは、薬物の表現が豊かでないときのDDIの欠如を補う上で、伝達される薬物の類似性がより重要な役割を担っていることを示している。 結論: KnowDDIは、深層学習技術の効率と、生物医学知識グラフにおける豊富な事前知識をうまく組み合わせている。 元々のオープンソースツールであるKnowDDIは、タンパク質-タンパク質間相互作用、薬物-標的間相互作用、疾患-遺伝子間相互作用など、幅広い関連する相互作用予測タスクにおける潜在的な相互作用の検出を支援し、最終的にはバイオメディシンと医療の発展を促進する。

Background: Discovering potential drug-drug interactions (DDIs) is a long-standing challenge in clinical treatments and drug developments. Recently, deep learning techniques have been developed for DDI prediction. However, they generally require a huge number of samples, while known DDIs are rare. Methods: In this work, we present KnowDDI, a graph neural network-based method that addresses the above challenge. KnowDDI enhances drug representations by adaptively leveraging rich neighborhood information from large biomedical knowledge graphs. Then, it learns a knowledge subgraph for each drug-pair to interpret the predicted DDI, where each of the edges is associated with a connection strength indicating the importance of a known DDI or resembling strength between a drug-pair whose connection is unknown. Thus, the lack of DDIs is implicitly compensated by the enriched drug representations and propagated drug similarities. Results: We evaluate KnowDDI on two benchmark DDI datasets. Results show that KnowDDI obtains the state-of-the-art prediction performance with better interpretability. We also find that KnowDDI suffers less than existing works given a sparser knowledge graph. This indicates that the propagated drug similarities play a more important role in compensating for the lack of DDIs when the drug representations are less enriched. Conclusions: KnowDDI nicely combines the efficiency of deep learning techniques and the rich prior knowledge in biomedical knowledge graphs. As an original open-source tool, KnowDDI can help detect possible interactions in a broad range of relevant interaction prediction tasks, such as protein-protein interactions, drug-target interactions and disease-gene interactions, eventually promoting the development of biomedicine and healthcare.
翻訳日:2023-11-29 22:06:38 公開日:2023-11-25
# 複製研究の自動発見と分類

Automatically Finding and Categorizing Replication Studies ( http://arxiv.org/abs/2311.15055v1 )

ライセンス: Link先を確認
Bob de Ruiter(参考訳) 多くの実験科学分野において、複製に失敗した論文は、複製研究の発見可能性の低さから引用され続けている。 論文の複製研究を自動的に行うシステムを構築する第一歩として、334の複製研究と344の複製研究が集められた。 AUROC = 0.886) よりも高い確率でテキストの内容に基づいて、複製研究をデータセットで特定することができた。 さらに、成功した複製研究は、偶然よりも高い確率で失敗している複製研究と区別することができる(auroc = 0.664)。

In many fields of experimental science, papers that failed to replicate continue to be cited as a result of the poor discoverability of replication studies. As a first step to creating a system that automatically finds replication studies for a given paper, 334 replication studies and 344 replicated studies were collected. Replication studies could be identified in the dataset based on text content at a higher rate than chance (AUROC = 0.886). Additionally, successful replication studies could be distinguished from failed replication studies at a higher rate than chance (AUROC = 0.664).
翻訳日:2023-11-29 22:05:53 公開日:2023-11-25
# 機械学習ニューラルネットワークアルゴリズムを用いたキプロスギリシャ語の発達言語障害の検出

Detection of developmental language disorder in Cypriot Greek children using a machine learning neural network algorithm ( http://arxiv.org/abs/2311.15054v1 )

ライセンス: Link先を確認
Georgios P. Georgiou and Elena Theodorou(参考訳) 発達言語障害児(dld)は、様々な言語構造を取得するのが困難である。 早期発見と介入は、子どもの学術的、社会的、感情的な発達に影響を及ぼす負の長期的な結果を防ぐために不可欠である。 本研究は,人工知能,特にニューラルネットワーク機械学習アルゴリズムを用いたDLDの自動識別手法の開発を目的とする。 このプロトコルはキプロス・ギリシャの子供たちで初めて適用され、一般的にはDLDの文脈では過小評価されている。 ニューラルネットワークモデルは、DLDと健常児の知覚と生産データを用いて訓練された。 kフォールド法はアルゴリズムのクロスバリデーションに使われた。 モデルの性能を精度,精度,リコール,F1スコア,ROC/AUC曲線などの指標を用いて評価し,未知のデータに対して正確な予測を行う能力を評価する。 以上の結果から,dld児の分類における神経モデルの精度は,すべての指標 (0.02~0.08) において高い分類値を示した。 さらに, 可変重要度分析により, 子どもの言語生産能力は, 知覚能力と比較して, モデルの性能に有意な影響を与えていることが明らかとなった。 ニューラルネットワークは、DLDを検出する強力なツールであり、疾患の早期かつ迅速な評価を提供し、臨床結果を改善する可能性を秘めている。

Children with developmental language disorder (DLD) encounter difficulties in acquiring various language structures. Early identification and intervention are crucial to prevent negative long-term outcomes impacting the academic, social, and emotional development of children. The study aims to develop an automated method for the identification of DLD using artificial intelligence, specifically a neural network machine learning algorithm. This protocol is applied for the first time in Cypriot Greek children, which is generally considered underresearched in the context of DLD. The neural network model was trained using perceptual and production data elicited from children with DLD and healthy controls. The k-fold technique was used to crossvalidate the algorithm. The performance of the model was evaluated using metrics such as accuracy, precision, recall, F1 score, and ROC/AUC curve to assess its ability to make accurate predictions on a set of unseen data. The results demonstrated high classification values for all metrics (between 0.92 and 0.98), indicating the high accuracy of the neural model in classifying children with DLD. Additionally, the variable importance analysis revealed that the language production skills of children had a more significant impact on the performance of the model compared to perception skills. Neural networks represent powerful tools for detecting DLD, providing early and quick assessments of the disorder, and having the potential to improve clinical outcomes.
翻訳日:2023-11-29 22:05:16 公開日:2023-11-25
# 生物学的刺激による確率的コモディションによるタスク適応

Task adaption by biologically inspired stochastic comodulation ( http://arxiv.org/abs/2311.15053v1 )

ライセンス: Link先を確認
Gauthier Boeshertz, Caroline Haimerl and Cristina Savin(参考訳) 脳の表現は、一般化性と適応性のバランスをとらなければならない。 ニューラルネットワークは、現在の目標を反映するように動的に調整しながら、世界中の一般的な統計規則を捉える。 この適応の1つの側面は、そのタスクの関連性に基づいてニューロンの利得を確率的に共調節することである。 これらの変動は、意思決定を導くために下流に伝播する。 本稿では,マルチタスク学習の文脈において,そのようなスキームの計算可能性をテストする。 確率ゲイン変調による微調整畳み込み畳み込みネットワークは、決定論的ゲイン変調により改善し、celebaデータセットで最先端の結果が得られることを示す。 この改善を支えるメカニズムをより深く理解するために,Cifar-100を用いたアーキテクチャによる微調整性能への影響について検討する。 総じて,確率的共変性は,学習可能なパラメータを追加することなく,マルチタスク学習における学習効率とパフォーマンスを向上させることを示唆する。 これは、より柔軟で堅牢なインテリジェントシステムを開発するための、有望な新しい方向性を提供する。

Brain representations must strike a balance between generalizability and adaptability. Neural codes capture general statistical regularities in the world, while dynamically adjusting to reflect current goals. One aspect of this adaptation is stochastically co-modulating neurons' gains based on their task relevance. These fluctuations then propagate downstream to guide decision-making. Here, we test the computational viability of such a scheme in the context of multi-task learning. We show that fine-tuning convolutional networks by stochastic gain modulation improves on deterministic gain modulation, achieving state-of-the-art results on the CelebA dataset. To better understand the mechanisms supporting this improvement, we explore how fine-tuning performance is affected by architecture using Cifar-100. Overall, our results suggest that stochastic comodulation can enhance learning efficiency and performance in multi-task learning, without additional learnable parameters. This offers a promising new direction for developing more flexible and robust intelligent systems.
翻訳日:2023-11-29 22:04:47 公開日:2023-11-25
# フロケット演算子クリロフ空間の普遍モデル

A Universal Model of Floquet Operator Krylov Space ( http://arxiv.org/abs/2311.15116v1 )

ライセンス: Link先を確認
Hsiu-Chung Yeh, Aditi Mitra(参考訳) Floquetユニタリの下での分光時間進化は、任意の空間次元において、そして任意のエルミート作用素の任意の時間進化は、一空間次元の非相互作用的なFloquet transverse-field Ising Model(TFIM)のエッジ演算子と同一の演算子Krylov空間に写像され、不均一イジングと横場結合を持つ。 後者は4つの位相位相相を(位相的に自明な)欠如または0$または$\pi$準エネルギーでエッジモードの存在(位相的に非自明な)に反映する。 フロッケダイナミクスは、フロッケtfimの位相相図と均質なカップリングによってkrylovパラメータがどのように変化するかによって特徴づけられる、ある種の普遍的な特徴を共有していることが示されている。 これらの結果は、1つの空間次元において数値的便宜のために選択された例によって強調される: 非可積分なフロッケスピン 1/2$チェーンとフロッケ $z_3$クロックモデル。

It is shown that the stroboscopic time-evolution under a Floquet unitary, in any spatial dimension, and of any Hermitian operator, can be mapped to an operator Krylov space which is identical to that generated by the edge operator of the non-interacting Floquet transverse-field Ising model (TFIM) in one-spatial dimension, and with inhomogeneous Ising and transverse field couplings. The latter has four topological phases reflected by the absence (topologically trivial) or presence (topologically non-trivial) of edge modes at $0$ and/or $\pi$ quasi-energies. It is shown that the Floquet dynamics share certain universal features characterized by how the Krylov parameters vary in the topological phase diagram of the Floquet TFIM with homogeneous couplings. These results are highlighted through examples, all chosen for numerical convenience to be in one spatial dimension: non-integrable Floquet spin $1/2$ chains and Floquet $Z_3$ clock model where the latter hosts period-tripled edge modes.
翻訳日:2023-11-29 21:56:00 公開日:2023-11-25
# ncl-sm:ヒト骨格筋生検画像の完全な注釈付きデータセット

NCL-SM: A Fully Annotated Dataset of Images from Human Skeletal Muscle Biopsies ( http://arxiv.org/abs/2311.15113v1 )

ライセンス: Link先を確認
Atif Khan, Conor Lawless, Amy Vincent, Charlotte Warren, Valeria Di Leo, Tiago Gomes, A. Stephen McGough(参考訳) ヒト骨格筋(SM)組織断面の単細胞解析は多くの神経筋疾患を理解するための基本的なツールである。 この分析が信頼できる再現性を持つためには、sm組織の顕微鏡像(セグメンテーション)内の個々の繊維を自動的かつ正確に同定する必要がある。 この分野の生物医学科学者は現在、カスタムツールと一般的な機械学習(ml)モデルに依存している。 完全に自動化され、正確で再現可能なセグメンテーションは、MLモデルをトレーニングすることで可能であると考えています。 しかし、この重要なバイオメディカル領域では、mlモデルのトレーニングで利用可能な、品質のよいアノテーション付き画像データセットは、現在公開されていない。 本稿では,健常者および遺伝子診断された筋疾患患者から,46個のヒトSM組織横断断面の高品質なバイオイメージングデータセットNCL-SMをリリースする。 これらの画像には、手動で分割した筋肉繊維(筋繊維)が含まれます。 また,sm組織画像における低品質筋線維と低品質領域の拒絶理由を指摘し,これらのアノテーションを下流解析に完全対応させた。 これは、組織断面の画像内の個々の筋線維を識別する完全自動パイプラインの開発方法であり、特に、さらなる分析に適合する個々の筋線維を分類するものであると我々は信じている。

Single cell analysis of human skeletal muscle (SM) tissue cross-sections is a fundamental tool for understanding many neuromuscular disorders. For this analysis to be reliable and reproducible, identification of individual fibres within microscopy images (segmentation) of SM tissue should be automatic and precise. Biomedical scientists in this field currently rely on custom tools and general machine learning (ML) models, both followed by labour intensive and subjective manual interventions to fine-tune segmentation. We believe that fully automated, precise, reproducible segmentation is possible by training ML models. However, in this important biomedical domain, there are currently no good quality, publicly available annotated imaging datasets available for ML model training. In this paper we release NCL-SM: a high quality bioimaging dataset of 46 human SM tissue cross-sections from both healthy control subjects and from patients with genetically diagnosed muscle pathology. These images include $>$ 50k manually segmented muscle fibres (myofibres). In addition we also curated high quality myofibre segmentations, annotating reasons for rejecting low quality myofibres and low quality regions in SM tissue images, making these annotations completely ready for downstream analysis. This, we believe, will pave the way for development of a fully automatic pipeline that identifies individual myofibres within images of tissue sections and, in particular, also classifies individual myofibres that are fit for further analysis.
翻訳日:2023-11-29 21:55:35 公開日:2023-11-25
# 誰もが小さなHELPを必要としている:階層的概念によるグラフの説明

Everybody Needs a Little HELP: Explaining Graphs via Hierarchical Concepts ( http://arxiv.org/abs/2311.15112v1 )

ライセンス: Link先を確認
Jonas J\"ur{\ss}, Lucie Charlotte Magister, Pietro Barbiero, Pietro Li\`o, Nikola Simidjievski(参考訳) グラフニューラルネットワーク(gnns)は、薬物発見、ソーシャルネットワーク分析、旅行時間推定など、さまざまな領域において大きなブレークスルーをもたらしている。 しかし、人間の信頼を妨げる解釈可能性がなく、高い判断力を持つ設定にデプロイする。 一連の解釈可能な手法は、予測を説明する最後のgnn層で、関連する概念の小さな集合をサブグラフとして発見することで、これをアプローチする。 これにより、GNN層間の相互作用を説明できず、単純化された説明が得られる。 HELP(Hierarchical Explainable Latent Pooling)は、異なるGNN層の概念が後続のステップでどのように構成されるかを明らかにする、本質的に解釈可能なグラフプーリング手法である。 HELPは1-WL以上の表現力を持ち、任意の連結成分の可変数のプーリングを学ぶことができる最初の非スペクトル、エンドツーエンド学習可能、階層的なグラフプーリング法である。 従来のgcnや一般的なプーリング手法とほぼ同等の精度で動作し、化学やソーシャルネットワークの分野における専門知識と整合した説明を得られることを実証的に実証する。 質的分析に加えて, 概念完全性スコアと, 発見概念の雑音を測定するための新しい指標である概念適合性を用いて, 発見概念が従来の研究よりも十分に理解しやすいことを定量的に検証した。 私たちの研究は、最終レイヤから概念のセットを越えて、異なるレベルの概念の複雑な相互作用を説明するグラフニューラルネットワークを理解するための第一歩を示しています。

Graph neural networks (GNNs) have led to major breakthroughs in a variety of domains such as drug discovery, social network analysis, and travel time estimation. However, they lack interpretability which hinders human trust and thereby deployment to settings with high-stakes decisions. A line of interpretable methods approach this by discovering a small set of relevant concepts as subgraphs in the last GNN layer that together explain the prediction. This can yield oversimplified explanations, failing to explain the interaction between GNN layers. To address this oversight, we provide HELP (Hierarchical Explainable Latent Pooling), a novel, inherently interpretable graph pooling approach that reveals how concepts from different GNN layers compose to new ones in later steps. HELP is more than 1-WL expressive and is the first non-spectral, end-to-end-learnable, hierarchical graph pooling method that can learn to pool a variable number of arbitrary connected components. We empirically demonstrate that it performs on-par with standard GCNs and popular pooling methods in terms of accuracy while yielding explanations that are aligned with expert knowledge in the domains of chemistry and social networks. In addition to a qualitative analysis, we employ concept completeness scores as well as concept conformity, a novel metric to measure the noise in discovered concepts, quantitatively verifying that the discovered concepts are significantly easier to fully understand than those from previous work. Our work represents a first step towards an understanding of graph neural networks that goes beyond a set of concepts from the final layer and instead explains the complex interplay of concepts on different levels.
翻訳日:2023-11-29 21:55:13 公開日:2023-11-25
# リコール指向ニューラル情報検索における関連フィードバック戦略

Relevance feedback strategies for recall-oriented neural information retrieval ( http://arxiv.org/abs/2311.15110v1 )

ライセンス: Link先を確認
Timo Kats, Peter van der Putten, Jan Scholtes(参考訳) 多くの情報検索アプリケーション(特許検索、文献レビュー、デュー・ディリジェンスなど)において、偽陽性を防ぐことは偽陽性を防ぐことよりも重要である。 しかし、レビューの労力を減らすために設計されたアプローチ("技術支援レビュー"など)は、ユーザからのフィードバックに基づいて自動的に文書を除外するアクティブな学習システムに基づいていることが多いため、誤った否定を生み出す可能性がある。 そこで本研究では,レビュー作業を減らすためのリコール指向アプローチを提案する。 より具体的には、ユーザのフィードバックに基づいて関連度ランキングを反復的に再ランク付けすることで、関連度フィードバックとも呼ばれる。 提案手法では, bert-based dense-vector search によって関連度ランキングを作成し, 関連度フィードバックは質問と選択された埋め込みの累積和に基づいている。 本手法は,リコール目標が固定された場合のベースラインアプローチ(フィードバックなし)と比較して,レビュー労力を17.85%から59.04%削減できることを示す。

In a number of information retrieval applications (e.g., patent search, literature review, due diligence, etc.), preventing false negatives is more important than preventing false positives. However, approaches designed to reduce review effort (like "technology assisted review") can create false negatives, since they are often based on active learning systems that exclude documents automatically based on user feedback. Therefore, this research proposes a more recall-oriented approach to reducing review effort. More specifically, through iteratively re-ranking the relevance rankings based on user feedback, which is also referred to as relevance feedback. In our proposed method, the relevance rankings are produced by a BERT-based dense-vector search and the relevance feedback is based on cumulatively summing the queried and selected embeddings. Our results show that this method can reduce review effort between 17.85% and 59.04%, compared to a baseline approach (of no feedback), given a fixed recall target
翻訳日:2023-11-29 21:53:29 公開日:2023-11-25
# 拡散摂動を利用したコンピュータビジョンの公平性測定

Leveraging Diffusion Perturbations for Measuring Fairness in Computer Vision ( http://arxiv.org/abs/2311.15108v1 )

ライセンス: Link先を確認
Nicholas Lui, Bryan Chia, William Berrios, Candace Ross, Douwe Kiela(参考訳) コンピュータビジョンモデルは有害なバイアスをエンコードすることが知られており、有色人種などの歴史的辺境集団に対する不公平な扱いにつながる可能性がある。 しかし、これらのモデルの下流の公平性を評価するのに使用できる、人口統計学的特徴に沿ってバランスをとるデータセットの欠如が残っている。 本研究では,そのようなデータセットを作成するために拡散モデルを活用できることを実証する。 まず拡散モデルを用いて、様々な職業を描写した大量の画像を生成する。 その後、各画像はインペインティングを使用して編集され、複数の変種を生成し、各変種は異なる認識された人種を参照する。 このデータセットを用いて、複数の視覚言語モデルをマルチクラス職業分類タスクでベンチマークする。 非コーカサスラベルで生成された画像は、コーカサスラベルで生成された画像よりもはるかに高い職業的誤分類率を示し、いくつかの誤分類は人種的偏見を示唆している。 異なる認識された同一集団間で真の職業ラベルを予測する確率の標準偏差を計算し、モデル下流の公平性を測定する。 この公平度測定値を用いて、評価された視覚・言語モデル間に大きな差異を見出す。 我々は,公平性評価における拡散法の潜在的価値を示すことを願っている。

Computer vision models have been known to encode harmful biases, leading to the potentially unfair treatment of historically marginalized groups, such as people of color. However, there remains a lack of datasets balanced along demographic traits that can be used to evaluate the downstream fairness of these models. In this work, we demonstrate that diffusion models can be leveraged to create such a dataset. We first use a diffusion model to generate a large set of images depicting various occupations. Subsequently, each image is edited using inpainting to generate multiple variants, where each variant refers to a different perceived race. Using this dataset, we benchmark several vision-language models on a multi-class occupation classification task. We find that images generated with non-Caucasian labels have a significantly higher occupation misclassification rate than images generated with Caucasian labels, and that several misclassifications are suggestive of racial biases. We measure a model's downstream fairness by computing the standard deviation in the probability of predicting the true occupation label across the different perceived identity groups. Using this fairness metric, we find significant disparities between the evaluated vision-and-language models. We hope that our work demonstrates the potential value of diffusion methods for fairness evaluations.
翻訳日:2023-11-29 21:53:12 公開日:2023-11-25
# 正しい問題解決が翻訳NLPの鍵となる:UMLS語彙挿入を事例として

Solving the Right Problem is Key for Translational NLP: A Case Study in UMLS Vocabulary Insertion ( http://arxiv.org/abs/2311.15106v1 )

ライセンス: Link先を確認
Bernal Jimenez Gutierrez, Yuqing Mao, Vinh Nguyen, Kin Wah Fung, Yu Su, Olivier Bodenreider(参考訳) 大きな言語モデルによって実現される膨大な機会がより明確になるにつれて、NLPシステムは現実世界の設定においてより優れていることが期待される。 しかし、多くの場合、強力なモデルだけでは、特に定式化された問題が現実世界のタスクとうまく一致しない場合、翻訳的NLPソリューションは得られない。 本稿では,umls語彙挿入の事例について検討する。これは,原子と呼ばれる数十万の新しい用語を,最も包括的なオープンソース生物医学的知識ベースであるumlsに追加する,重要な実世界の課題である。 それまでの作業は、この時間がかかり、コストがかかり、エラーが発生しやすいタスクをより効率的にするための自動化NLPシステムを開発することを目的としていた。 しかし, この方向の実践的な進歩は, 研究成果と実世界の課題との間の問題定式化と評価のギャップのため, 達成が困難である。 このギャップに対処するために、現実世界のタスク、それを忠実に表現するデータセット、そして既存のソリューションを再調達することで開発した強力なベースラインを反映したUMLS語彙挿入の新しい定式化を導入する。 さらに,重要な新しいモデル行動を可能にし,すべての強力なベースラインを上回り,uviタスクを実行する編集者に測定可能な質的改善を提供する,効果的なルールエンハンス型生物医学的言語モデルを提案する。 このケーススタディは、翻訳型NLPソリューションの成功における問題定式化の重要性についての洞察を与えてくれることを願っている。

As the immense opportunities enabled by large language models become more apparent, NLP systems will be increasingly expected to excel in real-world settings. However, in many instances, powerful models alone will not yield translational NLP solutions, especially if the formulated problem is not well aligned with the real-world task. In this work, we study the case of UMLS vocabulary insertion, an important real-world task in which hundreds of thousands of new terms, referred to as atoms, are added to the UMLS, one of the most comprehensive open-source biomedical knowledge bases. Previous work aimed to develop an automated NLP system to make this time-consuming, costly, and error-prone task more efficient. Nevertheless, practical progress in this direction has been difficult to achieve due to a problem formulation and evaluation gap between research output and the real-world task. In order to address this gap, we introduce a new formulation for UMLS vocabulary insertion which mirrors the real-world task, datasets which faithfully represent it and several strong baselines we developed through re-purposing existing solutions. Additionally, we propose an effective rule-enhanced biomedical language model which enables important new model behavior, outperforms all strong baselines and provides measurable qualitative improvements to editors who carry out the UVI task. We hope this case study provides insight into the considerable importance of problem formulation for the success of translational NLP solutions.
翻訳日:2023-11-29 21:52:51 公開日:2023-11-25
# ニューラルモンジマップのアンバランス性はドメイン翻訳のアンペア化を改善する

Unbalancedness in Neural Monge Maps Improves Unpaired Domain Translation ( http://arxiv.org/abs/2311.15100v1 )

ライセンス: Link先を確認
Luca Eyring, Dominik Klein, Th\'eo Uscidda, Giovanni Palla, Niki Kilbertus, Zeynep Akata, Fabian Theis(参考訳) 最適な輸送(OT)では、Mongeマップはソース分布を最もコスト効率のよい方法でターゲット分布に転送するマッピングとして知られている。 近年,単細胞生物学やコンピュータビジョンなど,多種多様な領域翻訳タスクにおいて,mongeマップのための複数の神経推定器が開発され,応用されている。 しかし、古典的なOTフレームワークは大量保存を強制し、現実のシナリオで適用性を制限する傾向にある。 後者は、分布内のサンプルの相対的な位置を明示的に考慮したotドメイン翻訳タスクにおいて特に有害である。 非バランスなOTは離散的な設定でこの課題に取り組むが、ニューラルなMongeマップ推定器への統合は限定的な注目を集めている。 我々は,任意のMongeマップ推定器に不均衡を組み込む理論的基礎付け手法を提案する。 既存の推定器を改良し、経時的に細胞軌跡をモデル化し、摂動に対する細胞応答を予測する。 さらに,本手法はOTフローマッチング(OT-FM)フレームワークとシームレスに統合される。 画像翻訳においてOT-FMが競合的に機能することを示す一方で,不均衡 (UOT-FM) を組み込むことにより, 性能の向上を図る。 そこで我々は,uot-fmを非ペア画像変換の原理的手法として確立する。

In optimal transport (OT), a Monge map is known as a mapping that transports a source distribution to a target distribution in the most cost-efficient way. Recently, multiple neural estimators for Monge maps have been developed and applied in diverse unpaired domain translation tasks, e.g. in single-cell biology and computer vision. However, the classic OT framework enforces mass conservation, which makes it prone to outliers and limits its applicability in real-world scenarios. The latter can be particularly harmful in OT domain translation tasks, where the relative position of a sample within a distribution is explicitly taken into account. While unbalanced OT tackles this challenge in the discrete setting, its integration into neural Monge map estimators has received limited attention. We propose a theoretically grounded method to incorporate unbalancedness into any Monge map estimator. We improve existing estimators to model cell trajectories over time and to predict cellular responses to perturbations. Moreover, our approach seamlessly integrates with the OT flow matching (OT-FM) framework. While we show that OT-FM performs competitively in image translation, we further improve performance by incorporating unbalancedness (UOT-FM), which better preserves relevant features. We hence establish UOT-FM as a principled method for unpaired image translation.
翻訳日:2023-11-29 21:52:25 公開日:2023-11-25
# 最適化と増分クラスタリングによる音声による血圧推定

Speech-Based Blood Pressure Estimation with Enhanced Optimization and Incremental Clustering ( http://arxiv.org/abs/2311.15098v1 )

ライセンス: Link先を確認
Vaishali Rajput, Preeti Mulay, Rajeev Raje(参考訳) 血圧(BP)推定は、様々な健康状態の診断において重要な役割を担い、従来の測定課題を克服するための革新的なアプローチの必要性を強調している。 機械学習と音声信号を活用することで,前処理,特徴抽出,リアルタイムアプリケーションに着目し,正確なBP推定を行う。 k-meansアルゴリズムとFact-Finding Instructor最適化アルゴリズムを取り入れた高度なクラスタリング戦略を導入し、精度を向上させる。 これらのクラスタリング手法の組み合わせにより、堅牢なBP推定が可能となる。 さらに、これらの知見を超えて、この研究は現代のデジタルコンテンツ消費のダイナミックな領域に展開する。 YouTubeのようなプラットフォームは影響力のある場所として現れ、多様な感情を喚起する一連のビデオを紹介している。 心温まるコンテンツから激しい物語まで、YouTubeは人間の体験を捉え、情報アクセスと感情的エンゲージメントに影響を与える。 この文脈で、本研究ではyoutubeビデオと生理的反応、特に血圧(bp)レベルの相互作用を調査している。 BP推定手法をYouTubeビデオの感情次元と統合することにより、現代メディア環境と健康への影響との相互作用の理解を深める。

Blood Pressure (BP) estimation plays a pivotal role in diagnosing various health conditions, highlighting the need for innovative approaches to overcome conventional measurement challenges. Leveraging machine learning and speech signals, this study investigates accurate BP estimation with a focus on preprocessing, feature extraction, and real-time applications. An advanced clustering-based strategy, incorporating the k-means algorithm and the proposed Fact-Finding Instructor optimization algorithm, is introduced to enhance accuracy. The combined outcome of these clustering techniques enables robust BP estimation. Moreover, extending beyond these insights, this study delves into the dynamic realm of contemporary digital content consumption. Platforms like YouTube have emerged as influential spaces, presenting an array of videos that evoke diverse emotions. From heartwarming and amusing content to intense narratives, YouTube captures a spectrum of human experiences, influencing information access and emotional engagement. Within this context, this research investigates the interplay between YouTube videos and physiological responses, particularly Blood Pressure (BP) levels. By integrating advanced BP estimation techniques with the emotional dimensions of YouTube videos, this study enriches our understanding of how modern media environments intersect with health implications.
翻訳日:2023-11-29 21:52:04 公開日:2023-11-25
# グラフ葉法によるベル対抽出

Bell pair extraction using graph foliage techniques ( http://arxiv.org/abs/2311.16188v1 )

ライセンス: Link先を確認
Derek Zhang(参考訳) 将来の量子ネットワークは、様々なノード間の量子情報の通信を容易にする。 特に、複数のペアがネットワークをまたいで同時に通信できるかどうかに関心があります。 量子ネットワークはグラフ状態で表現することができ、グラフ状態上で特定の量子演算を実行するための通信リンクを生成する。 この問題は(ベル)頂点マイナー問題とグラフ理論的な意味で定式化することができる。 我々は最近導入された葉分断について論じ、一般化を提供する。 この一般化は、頂点-小問題へのアプローチに有用な結果をもたらす。 この結果を用いて、線、木、環グラフ上のベル頂点・マイノール問題の厳密解を同定する。

Future quantum networks can facilitate communication of quantum information between various nodes. We are particularly interested in whether multiple pairs can communicate simultaneously across a network. Quantum networks can be represented with graph states, and producing communication links amounts to performing certain quantum operations on graph states. This problem can be formulated in a graph-theoretic sense with the (Bell) vertex-minor problem. We discuss the recently introduced foliage partition and provide a generalization. This generalization leads us to a useful result for approaching the vertex-minor problem. We apply this result to identify the exact solution for the Bell vertex-minor problem on line, tree, and ring graphs.
翻訳日:2023-11-29 21:41:57 公開日:2023-11-25
# 空間的スーパーラーナーアプローチによるカリフォルニアの森林火災の深刻度モデリング

Modelling wildland fire burn severity in California using a spatial Super Learner approach ( http://arxiv.org/abs/2311.16187v1 )

ライセンス: Link先を確認
Nicholas Simafranca, Bryant Willoughby, Erin O'Neil, Sophie Farr, Brian J Reich, Naomi Giertych, Margaret Johnson, Madeleine Pascolini-Campbell(参考訳) 欧米における森林火災の増加を考えると、火傷の深刻度を理解・正確に予測するツールを開発する必要がある。 遠隔で検知した火災予報データを用いて,燃焼後重大度を予測する機械学習モデルを開発した。 カリフォルニア州の4つの地域から収集された水文学的、生態学的、地形的変数(英語版)(2019年)、czu lightning complex fire(英語版) (2020年)、windy fire(英語版) (2021年)、knp fire (2021年))は、異なる正規化バーン比の予測因子として用いられる。 我々は,Vecchiaのガウス近似を用いた空間的自己相関を考慮したスーパーラーナー(SL)アルゴリズムが,燃焼重大度を正確にモデル化すると仮定する。 テストセットとトレーニングセットの組み合わせについて検討した結果,slアルゴリズムは標準線形回帰法よりも優れていた。 SLモデルの性能を適合・検証した後、我々は解釈可能な機械学習ツールを用いて、緑度、標高、火災天候変数を含む深刻な火災被害の主な要因を判定する。 これらの知見は, 早期火災検知システム, 火災前の植生浄化活動, 緊急対応時の資源配分などの介入を, コミュニティが戦略化するための有効な知見を提供する。 このモデルが実装されると、カリフォルニアの人命、財産、資源、生態系の損失を最小限に抑えることができる。

Given the increasing prevalence of wildland fires in the Western US, there is a critical need to develop tools to understand and accurately predict burn severity. We develop a machine learning model to predict post-fire burn severity using pre-fire remotely sensed data. Hydrological, ecological, and topographical variables collected from four regions of California - the sites of the Kincade fire (2019), the CZU Lightning Complex fire (2020), the Windy fire (2021), and the KNP Fire (2021) - are used as predictors of the difference normalized burn ratio. We hypothesize that a Super Learner (SL) algorithm that accounts for spatial autocorrelation using Vecchia's Gaussian approximation will accurately model burn severity. In all combinations of test and training sets explored, the results of our model showed the SL algorithm outperformed standard Linear Regression methods. After fitting and verifying the performance of the SL model, we use interpretable machine learning tools to determine the main drivers of severe burn damage, including greenness, elevation and fire weather variables. These findings provide actionable insights that enable communities to strategize interventions, such as early fire detection systems, pre-fire season vegetation clearing activities, and resource allocation during emergency responses. When implemented, this model has the potential to minimize the loss of human life, property, resources, and ecosystems in California.
翻訳日:2023-11-29 21:41:49 公開日:2023-11-25
# 外乱検出最適化による感性分析結果の強化

Enhancing Sentiment Analysis Results through Outlier Detection Optimization ( http://arxiv.org/abs/2311.16185v1 )

ライセンス: Link先を確認
Yuetian Chen and Mei Si(参考訳) 話者の感情のような主観的なラベルを含むテキストデータを扱う場合、ラベル作成者間の不正確さや不一致は珍しくない。 このような不一致は、機械学習アルゴリズムのパフォーマンスに大きな影響を与える可能性がある。 本研究は,主観的ラベル付きテキストデータの異常値の識別と対処の可能性について検討し,分類結果の向上を目的としている。 我々は,9つのテキストベース感情と感情分析データセットの外れ値を検出するために,一クラス分類法であるDeep SVDDアルゴリズムを利用した。 小型言語モデル(6600万パラメータのディスティルトベースモデル)と非ディープラーニング機械学習アルゴリズム(決定木、kn、ロジスティック回帰、lda)の両方を分類器として採用することにより、異常値の除去が多くの場合、結果の向上につながる可能性が示唆された。 さらに、このようなデータセットの異常値が必ずしも理解できないわけではないため、大きな言語モデル -- deberta v3が1億3100万のパラメータを持ち、データ内の非常に複雑なパターンをキャプチャできる。 私たちは、複数のデータセットのパフォーマンス向上を観察し続けました。

When dealing with text data containing subjective labels like speaker emotions, inaccuracies or discrepancies among labelers are not uncommon. Such discrepancies can significantly affect the performance of machine learning algorithms. This study investigates the potential of identifying and addressing outliers in text data with subjective labels, aiming to enhance classification outcomes. We utilized the Deep SVDD algorithm, a one-class classification method, to detect outliers in nine text-based emotion and sentiment analysis datasets. By employing both a small-sized language model (DistilBERT base model with 66 million parameters) and non-deep learning machine learning algorithms (decision tree, KNN, Logistic Regression, and LDA) as the classifier, our findings suggest that the removal of outliers can lead to enhanced results in most cases. Additionally, as outliers in such datasets are not necessarily unlearnable, we experienced utilizing a large language model -- DeBERTa v3 large with 131 million parameters, which can capture very complex patterns in data. We continued to observe performance enhancements across multiple datasets.
翻訳日:2023-11-29 21:41:22 公開日:2023-11-25
# アルコール無害道路事故の最小化を目指して--公正意識とドメイン知識を融合した人工知能を活用して

Aiming to Minimize Alcohol-Impaired Road Fatalities: Utilizing Fairness-Aware and Domain Knowledge-Infused Artificial Intelligence ( http://arxiv.org/abs/2311.16180v1 )

ライセンス: Link先を確認
Tejas Venkateswaran, Sheikh Rabiul Islam, Md Golam Moula Mehedi Hasan, and Mohiuddin Ahmed(参考訳) アメリカの交通事故死者の約30%は、飲酒運転によるものである。 これは、すべての州でこの犯罪に対する厳格な法律にもかかわらず、飲酒運転事故の頻度が警告され、45分ごとに約1人が死亡することを意味する。 ドライビング・アンダー・インフルエンス(DUI)で個人を充電するプロセスは複雑で、動作中の車両を観察したり、ドライバーと対話したり、標準フィールド・ソブリエティ・テスト(SFST)を行うなど、複数の段階を含む主観的な場合もある。 バイアスは人種的プロファイリングによって観測され、一部のグループや地理的領域ではDUI検査が少なかったため、実際のDUIの事故は検出されず、最終的に死亡件数が増加した。 この問題に対処するため,本研究では,公平性を認識し,異なる地域におけるdui関連死亡率を分析するためのドメイン知識を組み込んだ,人工知能を用いた予測器を提案する。 このモデルを通じて、年齢、人種、収入など、さまざまな人口集団間の相互作用に関する興味深い洞察を得る。 提供された情報を利用して、より公平かつ効率的に警察資源を割り当てることにより、DUI関連の死亡率を減らすことができ、道路安全に大きな影響を及ぼす可能性がある。

Approximately 30% of all traffic fatalities in the United States are attributed to alcohol-impaired driving. This means that, despite stringent laws against this offense in every state, the frequency of drunk driving accidents is alarming, resulting in approximately one person being killed every 45 minutes. The process of charging individuals with Driving Under the Influence (DUI) is intricate and can sometimes be subjective, involving multiple stages such as observing the vehicle in motion, interacting with the driver, and conducting Standardized Field Sobriety Tests (SFSTs). Biases have been observed through racial profiling, leading to some groups and geographical areas facing fewer DUI tests, resulting in many actual DUI incidents going undetected, ultimately leading to a higher number of fatalities. To tackle this issue, our research introduces an Artificial Intelligence-based predictor that is both fairness-aware and incorporates domain knowledge to analyze DUI-related fatalities in different geographic locations. Through this model, we gain intriguing insights into the interplay between various demographic groups, including age, race, and income. By utilizing the provided information to allocate policing resources in a more equitable and efficient manner, there is potential to reduce DUI-related fatalities and have a significant impact on road safety.
翻訳日:2023-11-29 21:41:01 公開日:2023-11-25
# LANS:平面幾何学問題のためのレイアウト対応ニューラルソルバー

LANS: A Layout-Aware Neural Solver for Plane Geometry Problem ( http://arxiv.org/abs/2311.16476v1 )

ライセンス: Link先を確認
Ming-Liang Zhang, Zhong-Zhi Li, Fei Yin, Cheng-Lin Liu(参考訳) 幾何学的問題解決(GPS)は、多モーダル理解、融合、推論を必要とする数学的な推論課題である。 既存のニューラルソルバはGPSを視覚言語タスクとしているが、リッチで複雑なレイアウト情報を運ぶ幾何学図の表現では不足している。 本稿では,MLA-PLM (Multimodal layout-aware pre-trained Language model) とLA-FA (Raray-aware fusion attention) の2つのモジュールを統合したレイアウト対応ニューラルネットワーク LANS を提案する。 MLA-PLMは、グローバルな関係モデリングを実装するために構造的および意味的事前学習(SSP)と、視覚的点とテキスト的点の整合性を達成するためにポイントマッチング事前学習(PMP)を採用する。 LA-FAは、レイアウトを意識したアテンションマスクを用いて、ポイント誘導型クロスモーダル融合を実現し、LANSのレイアウト認識をさらに強化する。 Geometry3K と PGPS9K のデータセットに対する大規模な実験により,既存の記号解法やニューラル解法よりもレイアウト認識モジュールの有効性とLANSソルバの優れた問題解決性能が検証された。 コードは間もなく公開される予定だ。

Geometry problem solving (GPS) is a challenging mathematical reasoning task requiring multi-modal understanding, fusion and reasoning. Existing neural solvers take GPS as a vision-language task but be short in the representation of geometry diagrams which carry rich and complex layout information. In this paper, we propose a layout-aware neural solver named LANS, integrated with two new modules: multimodal layout-aware pre-trained language model (MLA-PLM) and layout-aware fusion attention (LA-FA). MLA-PLM adopts structural and semantic pre-training (SSP) to implement global relationship modeling, and point matching pre-training (PMP) to achieve alignment between visual points and textual points. LA-FA employs a layout-aware attention mask to realize point-guided cross-modal fusion for further boosting layout awareness of LANS. Extensive experiments on datasets Geometry3K and PGPS9K validate the effectiveness of the layout-aware modules and superior problem solving performance of our LANS solver, over existing symbolic solvers and neural solvers. The code will make public available soon.
翻訳日:2023-11-29 20:28:06 公開日:2023-11-25
# Z^*$: 注意再配置によるゼロショットスタイルの転送

$Z^*$: Zero-shot Style Transfer via Attention Rearrangement ( http://arxiv.org/abs/2311.16491v1 )

ライセンス: Link先を確認
Yingying Deng, Xiangyu He, Fan Tang, Weiming Dong(参考訳) イメージスタイル転送の著しい進歩にもかかわらず、芸術の文脈における定式化スタイルは本質的に主観的で挑戦的なものである。 既存の学習/チューニング手法とは対照的に,バニラ拡散モデルが直接スタイル情報を抽出し,再トレーニングすることなく生成前処理をコンテンツ画像にシームレスに統合できることを示す。 具体的には、コンテンツ/スタイルの参照を潜在空間で表現し、その後、スタイル潜在コードでコンテンツイメージの表示プロセスをガイドするデュアル・デノイジングパスを採用する。 さらに, 潜在拡散モデルにおけるクロスアテンション機構は, コンテンツとスタイル画像とをブレンドする傾向があり, 結果として, 元のコンテンツ画像から逸脱するスタイリッシュな出力が得られることを明らかにした。 この限界を克服するため,我々はクロスアテンション・リレンジメント戦略を導入する。 理論的解析と実験により、拡散に基づく $\underline{Z}$ero-shot $\underline{S}$tyle $\underline{T}$ransfer via $\underline{A}$ttention $\underline{R}$arrangement, Z-STAR の有効性と優位性を示す。

Despite the remarkable progress in image style transfer, formulating style in the context of art is inherently subjective and challenging. In contrast to existing learning/tuning methods, this study shows that vanilla diffusion models can directly extract style information and seamlessly integrate the generative prior into the content image without retraining. Specifically, we adopt dual denoising paths to represent content/style references in latent space and then guide the content image denoising process with style latent codes. We further reveal that the cross-attention mechanism in latent diffusion models tends to blend the content and style images, resulting in stylized outputs that deviate from the original content image. To overcome this limitation, we introduce a cross-attention rearrangement strategy. Through theoretical analysis and experiments, we demonstrate the effectiveness and superiority of the diffusion-based $\underline{Z}$ero-shot $\underline{S}$tyle $\underline{T}$ransfer via $\underline{A}$ttention $\underline{R}$earrangement, Z-STAR.
翻訳日:2023-11-29 20:15:15 公開日:2023-11-25
# 教師付きコントラスト学習におけるラベル雑音の課題の解明と克服

Elucidating and Overcoming the Challenges of Label Noise in Supervised Contrastive Learning ( http://arxiv.org/abs/2311.16481v1 )

ライセンス: Link先を確認
Zijun Long, George Killick, Lipeng Zhuang, Richard McCreadie, Gerardo Aragon Camarasa, Paul Henderson(参考訳) 画像分類データセットは、あるクラスが他のクラスに似ていたときに、しばしばヒューマンエラーのために、ラベルのつかないサンプルのごく一部を示す。 この問題は教師付きコントラスト学習(SCL)において、異なるクラスのデータを分散しながら、同じクラスのデータポイントを埋め込み空間にまとめることが目的である。 このような手法は、クロスエントロピーに基づく手法よりも優れているが、ラベル付けエラーには影響しない。 しかし、教師付き学習におけるノイズラベルの有害な影響はよく研究されているが、SCLに対する影響は未解明のままである。 そこで,ラベル誤りの影響を分析し,正と負のサンプル対を区別するSCLアルゴリズムの能力をいかに破壊するかを検討する。 解析の結果,ヒトのラベル付け誤りは99%の症例で容易な陽性例であることが判明した。 そこで我々は,誤りのラベル付けによって生じるバイアスを軽減するために考案された,新しい教師付き教師付きコントラスト学習目標であるd-sclを提案する。 我々は,D-SCLが多種多様な視覚ベンチマークで表現学習の最先端技術より一貫して優れており,ラベルエラーに対する堅牢性が向上していることを示した。

Image classification datasets exhibit a non-negligible fraction of mislabeled examples, often due to human error when one class superficially resembles another. This issue poses challenges in supervised contrastive learning (SCL), where the goal is to cluster together data points of the same class in the embedding space while distancing those of disparate classes. While such methods outperform those based on cross-entropy, they are not immune to labeling errors. However, while the detrimental effects of noisy labels in supervised learning are well-researched, their influence on SCL remains largely unexplored. Hence, we analyse the effect of label errors and examine how they disrupt the SCL algorithm's ability to distinguish between positive and negative sample pairs. Our analysis reveals that human labeling errors manifest as easy positive samples in around 99% of cases. We, therefore, propose D-SCL, a novel Debiased Supervised Contrastive Learning objective designed to mitigate the bias introduced by labeling errors. We demonstrate that D-SCL consistently outperforms state-of-the-art techniques for representation learning across diverse vision benchmarks, offering improved robustness to label errors.
翻訳日:2023-11-29 20:12:21 公開日:2023-11-25
# RandMSAugment: 限定データシナリオのための混合サンプル拡張

RandMSAugment: A Mixed-Sample Augmentation for Limited-Data Scenarios ( http://arxiv.org/abs/2311.16508v1 )

ライセンス: Link先を確認
Swarna Kamlam Ravindran and Carlo Tomasi(参考訳) 大規模なデータセットにアノテートするコストが高いことは、限られたデータでcnnを効果的にトレーニングする必要があることを示唆している。 本研究では,Mixed Sample Data Augmentations (MSDAs) やRandAugment の非パラメータ変種 Preset-RandAugment などの基礎的拡張技術について,完全に教師されたシナリオで検討する。 我々は,MSDAが適度に有効であるのに対して,Preset-RandAugmentは限定データ文脈で優れていることを観察する。 この性能差において低レベルの特徴変換が重要な役割を担い、データ効率に関連する拡張の新たな特性を仮定し、拡張の多様性と現実性を測定する新しい方法を提案する。 これらの知見に基づいて,既存手法の相補的強みを統合したRandMSAugmentという新しい拡張手法を導入する。 RandMSAugmentは、CIFAR-100、STL-10、Tiny-Imagenetの競合よりはるかに優れている。 非常に小さなトレーニングセット(4, 25, 100 サンプル/クラス)で、RandMSAugmentは4.1%から6.75%の間で魅力的なパフォーマンス向上を実現している。 より多くのトレーニングデータ(500サンプル/クラス)であっても、パフォーマンスを1.03%から2.47%改善します。 RandMSAugmentはハイパーパラメータチューニング、追加のバリデーションデータ、面倒な最適化を必要としない。

The high costs of annotating large datasets suggests a need for effectively training CNNs with limited data, and data augmentation is a promising direction. We study foundational augmentation techniques, including Mixed Sample Data Augmentations (MSDAs) and a no-parameter variant of RandAugment termed Preset-RandAugment, in the fully supervised scenario. We observe that Preset-RandAugment excels in limited-data contexts while MSDAs are moderately effective. We show that low-level feature transforms play a pivotal role in this performance difference, postulate a new property of augmentations related to their data efficiency, and propose new ways to measure the diversity and realism of augmentations. Building on these insights, we introduce a novel augmentation technique called RandMSAugment that integrates complementary strengths of existing methods. RandMSAugment significantly outperforms the competition on CIFAR-100, STL-10, and Tiny-Imagenet. With very small training sets (4, 25, 100 samples/class), RandMSAugment achieves compelling performance gains between 4.1% and 6.75%. Even with more training data (500 samples/class) we improve performance by 1.03% to 2.47%. RandMSAugment does not require hyperparameter tuning, extra validation data, or cumbersome optimizations.
翻訳日:2023-11-29 20:02:35 公開日:2023-11-25
# word for person:ゼロショット構成の人物検索

Word for Person: Zero-shot Composed Person Retrieval ( http://arxiv.org/abs/2311.16515v1 )

ライセンス: Link先を確認
Delong Liu, Haiwen Li, Zhicheng Zhao, Fei Su, Hongying Meng(参考訳) 特定の人物の検索には、大きなセキュリティ価値と社会的利益があり、しばしば視覚情報とテキスト情報の組み合わせが伴う。 従来の人物検索手法は、画像ベースでもテキストベースでも、どちらのタイプの情報も効果的に活用できないため、精度が低下する。 本稿では,対象者の検索に画像情報とテキスト情報の両方を併用するために,合成人検索(cpr)と呼ばれる全く新しいタスクを提案する。 しかし、教師付きCPRは、現在利用可能なリソースがないため、非常にコストのかかる手動のアノテーションデータセットに依存する必要がある。 この問題を軽減するために,まず,既存のドメイン関連データを活用したゼロショット合成人物検索(zs-cpr)を導入する。 第2に、ZS-CPRモデルを学習するために、軽量テキスト変換ネットワーク(TINet)と微調整コントラスト言語-画像事前学習(CLIP)ネットワークに基づくテキストベースの人物検索モデルをCPRデータを活用することなく学習する2段階学習フレームワーク、Word4Perを提案する。 第3に、提案するWord4Perフレームワークの性能を評価するベンチマークとして、細かな注釈付きイメージテキスト構成人検索データセット(ITCPR)が構築されている。 Rank-1とmAPを併用した大規模な実験では、Word4PerがZS-CPRタスクに有効であることを示し、比較手法を10%以上上回った。 コードとTCPRデータセットはhttps://github.com/Delong-liu-bupt/Word4Perで公開される。

Searching for specific person has great security value and social benefits, and it often involves a combination of visual and textual information. Conventional person retrieval methods, whether image-based or text-based, usually fall short in effectively harnessing both types of information, leading to the loss of accuracy. In this paper, a whole new task called Composed Person Retrieval (CPR) is proposed to jointly utilize both image and text information for target person retrieval. However, the supervised CPR must depend on very costly manual annotation dataset, while there are currently no available resources. To mitigate this issue, we firstly introduce the Zero-shot Composed Person Retrieval (ZS-CPR), which leverages existing domain-related data to resolve the CPR problem without reliance on expensive annotations. Secondly, to learn ZS-CPR model, we propose a two-stage learning framework, Word4Per, where a lightweight Textual Inversion Network (TINet) and a text-based person retrieval model based on fine-tuned Contrastive Language-Image Pre-training (CLIP) network are learned without utilizing any CPR data. Thirdly, a finely annotated Image-Text Composed Person Retrieval dataset (ITCPR) is built as the benchmark to assess the performance of the proposed Word4Per framework. Extensive experiments under both Rank-1 and mAP demonstrate the effectiveness of Word4Per for the ZS-CPR task, surpassing the comparative methods by over 10%. The code and ITCPR dataset will be publicly available at https://github.com/Delong-liu-bupt/Word4Per.
翻訳日:2023-11-29 19:47:00 公開日:2023-11-25
# GPT4Video:Lnstruction-Followed Understanding and Safety-Aware Generationのための統合マルチモーダル大言語モデル

GPT4Video: A Unified Multimodal Large Language Model for lnstruction-Followed Understanding and Safety-Aware Generation ( http://arxiv.org/abs/2311.16511v1 )

ライセンス: Link先を確認
Zhanyu Wang, Longyue Wang, Zhen Zhao, Minghao Wu, Chenyang Lyu, Huayang Li, Deng Cai, Luping Zhou, Shuming Shi, Zhaopeng Tu(参考訳) 近年のMLLM(Multimodal Large Language Models)の進歩はこの分野において大きな進歩となっているが、これらのモデルは入力側マルチモーダル理解の領域に限られており、マルチモーダルコンテンツ生成能力に欠ける。 このギャップを埋めるために、ビデオ理解と生成の両方の能力でLLM(Large Language Models)を強化する統合マルチモデルフレームワークであるGPT4Videoを提案する。 具体的には,安定拡散生成モデルと統合した命令追従型手法を開発し,映像生成シナリオを効果的かつ安全に処理できることを実証した。 GPT4Videoは以下の利点を提供する。 1)ビデオ理解と生成シナリオの両方において印象的な能力を示す。 例えば、GPT4Videoはビデオ質問回答タスクで11.8\%、テキスト・トゥ・ビデオ生成タスクで2.3\%を上回っている。 2) LLM/MLLMには、追加のトレーニングパラメータを必要とせずにビデオ生成機能を備えており、ビデオ生成を行うために幅広いモデルと柔軟にインターフェースすることができる。 3) 出力側だけでなく、入力側もエンドツーエンドで安全かつ健全な会話を維持する。 質的および質的な実験は、GPT4Videoがビデオ理解と生成シナリオの両方を扱える、効果的で安全でヒューマノイドのようなビデオアシスタントとして機能する可能性を実証している。

While the recent advances in Multimodal Large Language Models (MLLMs) constitute a significant leap forward in the field, these models are predominantly confined to the realm of input-side multimodal comprehension, lacking the capacity for multimodal content generation. To fill this gap, we present GPT4Video, a unified multi-model framework that empowers Large Language Models (LLMs) with the capability of both video understanding and generation. Specifically, we develop an instruction-following-based approach integrated with the stable diffusion generative model, which has demonstrated to effectively and securely handle video generation scenarios. GPT4Video offers the following benefits: 1) It exhibits impressive capabilities in both video understanding and generation scenarios. For example, GPT4Video outperforms Valley by 11.8\% on the Video Question Answering task, and surpasses NExt-GPT by 2.3\% on the Text to Video generation task. 2) it endows the LLM/MLLM with video generation capabilities without requiring additional training parameters and can flexibly interface with a wide range of models to perform video generation. 3) it maintains a safe and healthy conversation not only in output-side but also the input side in an end-to-end manner. Qualitative and qualitative experiments demonstrate that GPT4Video holds the potential to function as a effective, safe and Humanoid-like video assistant that can handle both video understanding and generation scenarios.
翻訳日:2023-11-29 19:45:23 公開日:2023-11-25
# Llamaにおけるライティングのローカライズ : プロンプト, プロブリング, パッチングによる真偽質問に対する教示的不正直理解

Localizing Lying in Llama: Understanding Instructed Dishonesty on True-False Questions Through Prompting, Probing, and Patching ( http://arxiv.org/abs/2311.15131v1 )

ライセンス: Link先を確認
James Campbell, Richard Ren, Phillip Guo(参考訳) 大規模言語モデル(LLM)は、その出力を通じて重要な知識を示すが、誤った出力が知識の欠如や不当に起因するかどうかはしばしば不明である。 本稿では,llama-2-70b-chatを明示的に嘘をつくように指示した。 我々は,嘘をつく行為を最も起こさせる要因を見つけるために,迅速なエンジニアリングを行い,機械的な解釈可能性アプローチを用いて,ネットワーク内でその行動が起こる場所を局所化する。 線形プローブとアクティベーションパッチを用いて、嘘をつくのに特に重要と思われる5つのレイヤをローカライズする。 そして、これらの層の中にわずか46の注意頭しか見つからず、嘘つきのモデルが正直に答えるように因果的に介入することができます。 これらの介入は多くのプロンプトとデータセットの分割に対して堅牢に動作することを示す。 全体として、我々の研究はLSMの不正性に対する理解を深め、それを防ぐことを願っている。

Large language models (LLMs) demonstrate significant knowledge through their outputs, though it is often unclear whether false outputs are due to a lack of knowledge or dishonesty. In this paper, we investigate instructed dishonesty, wherein we explicitly prompt LLaMA-2-70b-chat to lie. We perform prompt engineering to find which prompts best induce lying behavior, and then use mechanistic interpretability approaches to localize where in the network this behavior occurs. Using linear probing and activation patching, we localize five layers that appear especially important for lying. We then find just 46 attention heads within these layers that enable us to causally intervene such that the lying model instead answers honestly. We show that these interventions work robustly across many prompts and dataset splits. Overall, our work contributes a greater understanding of dishonesty in LLMs so that we may hope to prevent it.
翻訳日:2023-11-29 17:04:58 公開日:2023-11-25
# 安定なビデオ拡散: 遅延ビデオ拡散モデルから大規模データセットへのスケーリング

Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets ( http://arxiv.org/abs/2311.15127v1 )

ライセンス: Link先を確認
Andreas Blattmann, Tim Dockhorn, Sumith Kulal, Daniel Mendelevitch, Maciej Kilian, Dominik Lorenz, Yam Levi, Zion English, Vikram Voleti, Adam Letts, Varun Jampani, Robin Rombach(参考訳) 本稿では,高分解能,最先端のテキスト対ビデオおよび映像対ビデオ生成のための潜在ビデオ拡散モデルであるstable video diffusionを提案する。 近年,2次元画像合成のために訓練された潜時拡散モデルが,時間層を挿入し,小型で高品質な映像データセットに微調整することで生成ビデオモデルに変換されている。 しかし,文献の訓練方法は多様であり,映像データのキュレーションに関する統一的な戦略については未定である。 本稿では,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオ・ファインタニングの3つの段階を同定し,評価する。 さらに,高品質ビデオを生成するための事前学習データセットの必要性を実証し,キャプションやフィルタリング戦略を含む強固なベースモデルを学習するための体系的キュレーションプロセスを提案する。 次に、ベースモデルを高品質データに微調整し、クローズドソースビデオ生成と競合するテキスト対ビデオモデルをトレーニングすることで、その影響について検討する。 また,映像映像生成やカメラモーション固有のLoRAモジュールへの適応性などの下流タスクに対して,ベースモデルが強力なモーション表現を提供することを示す。 最後に,本モデルが強力なマルチビュー3Dプリンシパルを提供し,複数ビューのオブジェクトビューをフィードフォワード形式で共同生成する多ビュー拡散モデルを構築する基盤として機能し,画像ベースの手法を計算予算のごく一部で上回ることを示す。 コードとモデルはhttps://github.com/Stability-AI/generative-modelsでリリースしています。

We present Stable Video Diffusion - a latent video diffusion model for high-resolution, state-of-the-art text-to-video and image-to-video generation. Recently, latent diffusion models trained for 2D image synthesis have been turned into generative video models by inserting temporal layers and finetuning them on small, high-quality video datasets. However, training methods in the literature vary widely, and the field has yet to agree on a unified strategy for curating video data. In this paper, we identify and evaluate three different stages for successful training of video LDMs: text-to-image pretraining, video pretraining, and high-quality video finetuning. Furthermore, we demonstrate the necessity of a well-curated pretraining dataset for generating high-quality videos and present a systematic curation process to train a strong base model, including captioning and filtering strategies. We then explore the impact of finetuning our base model on high-quality data and train a text-to-video model that is competitive with closed-source video generation. We also show that our base model provides a powerful motion representation for downstream tasks such as image-to-video generation and adaptability to camera motion-specific LoRA modules. Finally, we demonstrate that our model provides a strong multi-view 3D-prior and can serve as a base to finetune a multi-view diffusion model that jointly generates multiple views of objects in a feedforward fashion, outperforming image-based methods at a fraction of their compute budget. We release code and model weights at https://github.com/Stability-AI/generative-models .
翻訳日:2023-11-29 17:04:41 公開日:2023-11-25
# 割当インセンティブを用いた学生のプロクラシエーションの削減とコードレビューのインタラクションの促進

Using Assignment Incentives to Reduce Student Procrastination and Encourage Code Review Interactions ( http://arxiv.org/abs/2311.15125v1 )

ライセンス: Link先を確認
Kevin Wang and Ramon Lawrence(参考訳) Procrastinationは学生のストレスを引き起こし、学習とパフォーマンスを低下させ、締め切り直前に非常に忙しいヘルプセッションをもたらす。 重要な課題は、締め切り直前まで待つのではなく、学生に宿題を早く完了させるように促すことである。 この研究は、学生が期限より数日前に課題を完了するよう促すインセンティブシステムを示す。 完成した課題は、正しさとフィードバックを提供するためにスタッフによってコードレビューされ、結果として学生と教師の相互作用が増加し、生成AIの学生使用を減らすのに役立つ。 インセンティブによって学生の行動が変化し、45%の割り当てが早期に完了し、期限の4日前まで30%が完了した。 学生はマーキング時間の増加なしにリアルタイムでフィードバックを受ける。

Procrastination causes student stress, reduced learning and performance, and results in very busy help sessions immediately before deadlines. A key challenge is encouraging students to complete assignments earlier rather than waiting until right before the deadline, so the focus becomes on the learning objectives rather than just meeting deadlines. This work presents an incentive system encouraging students to complete assignments many days before deadlines. Completed assignments are code reviewed by staff for correctness and providing feedback, which results in more student-instructor interactions and may help reduce student use of generative AI. The incentives result in a change in student behavior with 45% of assignments completed early and 30% up to 4 days before the deadline. Students receive real-time feedback with no increase in marking time.
翻訳日:2023-11-29 17:04:03 公開日:2023-11-25
# 4H-および6H-SiCにおける空孔と窒素空孔対の励起における選択規則

Selection rules in the excitation of the divacancy and the nitrogen-vacancy pair in 4H- and 6H-SiC ( http://arxiv.org/abs/2311.15124v1 )

ライセンス: Link先を確認
Danial Shafizadeh, Joel Davidsson, Takeshi Ohshima, Igor A. Abrikosov, Nguyen T. Son, and Ivan G. Ivanov(参考訳) 本研究では, 4H-SiC と 6H-SiC における2色中心の光励起の偏光に関する選択規則を, 量子技術, 希薄度, 窒素空孔対への応用の可能性について検討する。 結晶軸に平行な偏光(el||c)を持つ励起(共振または非共振)により、基底系(c1h)よりも高対称性(c3v)の軸配置の光発光(pl)をキャンセルできることを示した。 偏極選択規則は、群理論によって正式に許容されているにもかかわらず、EL||cによるフォノンアシスト吸収が禁止されていることを示す単純な物理理論とグループ理論解析を用いて決定される。 また、c3v対称性を有する別の欠陥であるシリコン空隙の選択規則との比較も行う。 選択規則を用いて, 4H-SiC, P3線中の1つの基底空孔構成の選択的励起を示し, 高いコントラストを議論し, 選択的励起スペクトルにおけるDebye-Waller因子を増加させた。

In this study, we address the selection rules with respect to the polarization of the optical excitation of two colour centres in 4H-SiC and 6H-SiC with potential for applications in quantum technology, the divacancy and the nitrogen-vacancy pair. We show that the photoluminescence (PL) of the axial configurations of higher symmetry (C3v) than the basal ones (C1h) can be cancelled using any excitation (resonant or non-resonant) with polarization parallel to the crystal axis (EL||c). The polarization selection rules are determined using group-theoretical analysis and simple physical arguments showing that phonon-assisted absorption with EL||c is prohibited despite being formally allowed by group theory. A comparison with the selection rules for the silicon vacancy, another defect with C3v symmetry, is also carried out. Using the selection rules, we demonstrate selective excitation of only one basal divacancy configuration in 4H-SiC, the P3 line and discuss the higher contrast and increased Debye-Waller factor in the selectively excited spectrum.
翻訳日:2023-11-29 17:03:49 公開日:2023-11-25
# fpqa-c: field programmable qubit array のコンパイルフレームワーク

FPQA-C: A Compilation Framework for Field Programmable Qubit Array ( http://arxiv.org/abs/2311.15123v1 )

ライセンス: Link先を確認
Hanrui Wang and Pengyu Liu and Bochen Tan and Yilian Liu and Jiaqi Gu and David Z. Pan and Jason Cong and Umut Acar and Song Han(参考訳) 中性原子配列は、そのスケーラビリティと操作の忠実さのために量子コンピューティングで有名になった。 以前の研究では、長距離インタラクションの広範なスワップ操作を必要とする \textit{fixed} atom arrays (faa) に焦点を当てていた。 この研究は、回路実行中に一意にコヒーレントな原子の動きを許容し、長距離相互作用のコストを著しく低減する「textit{field programmable qubit array (FPQA)」と呼ばれる新しいアーキテクチャを探求する。 しかし、原子運動には複数のハードウェア制約があり、運動スケジューリングは非常に困難である。 本研究では、量子ビットマッピング、原子移動、FPQAのゲートスケジューリングに適したコンパイルフレームワークであるFPQA-Cを紹介する。 構成されたゲート周波数グラフ上のMAX k-Cutを利用して、SWAPオーバーヘッドを最小限に抑えるために、qubit の配列への粗粒度マッピングを決定するqubit-arraymapperを含んでいる。 その後、クビット原子マッパーが配列内の特定の原子へのクビットの微細なマッピングを決定し、負荷バランスを考慮してハードウェアの制約違反を防止する。 さらに,並列化可能な2qゲートを反復的に識別し,原子移動とゲート実行を決定する高並列化ルータを提案する。 さらに、fpqaを用いたフォールトトレラントコンピューティングのために、論理エラー率、実行時間、物理キュービット要求、コード距離、帯域幅を評価する包括的なシミュレーションを提供する。 汎用回路(arbitrary, QASMBench, SupermarQ)、量子シミュレーション、QAOA回路など、20以上の多様なベンチマークでFPQA-Cを厳格に評価する。 fpqa-cは、ibmの超伝導、長距離ゲートのfaa、長方形および三角形の位相を持つfaa、5.3x、3.2x、3.4x、2.6xの2qゲート低減、および3.6x、3.2x、3.1x、および2.2xの回路深度低減を一貫して達成している。

The neutral atom array has gained prominence in quantum computing for its scalability and operation fidelity. Previous works focus on \textit{fixed} atom arrays (FAA) that necessitate extensive SWAP operations for long-range interactions. This work explores a novel architecture known as \textit{field programmable qubit array (FPQA)}, which uniquely allows for coherent atom movements during circuit execution and significantly \textit{reduces the cost of long-range interactions}. However, the atom movements have multiple hardware constraints, making movement scheduling very challenging. In this work, we introduce FPQA-C, a compilation framework tailored for qubit mapping, atom movement, and gate scheduling of FPQA. It contains a qubit-array mapper to decide the coarse-grained mapping of qubit to arrays, leveraging MAX k-Cut on a constructed gate frequency graph to minimize SWAP overhead. Subsequently, a qubit-atom mapper determines the fine-grained mapping of qubits to specific atoms in the array, and considers load balance to prevent hardware constraint violations. We further propose a high-parallelism router that iteratively identifies parallelizable 2Q gates and decide the atom movements and gate executions, thus improving the parallelism. Besides, for fault-tolerant computing with FPQA, we provide comprehensive simulations evaluating logical error rates, execution times, physical qubit requirements, code distances, and bandwidth. We rigorously assess FPQA-C across 20+ diverse benchmarks, including generic circuits (arbitrary, QASMBench, SupermarQ), Quantum Simulation, and QAOA circuits. FPQA-C consistently outperforms the IBM Superconducting, FAA with long-range gates, FAA with rectangular and triangular topologies, achieving 2Q gate reductions by factors of 5.3x, 3.2x, 3.4x, and 2.6x, and circuit depth reductions by factors of 3.6x, 3.2x, 3.1x, and 2.2x, respectively.
翻訳日:2023-11-29 17:03:28 公開日:2023-11-25
# 分散シフトによるテスト可能な学習

Testable Learning with Distribution Shift ( http://arxiv.org/abs/2311.15142v1 )

ライセンス: Link先を確認
Adam R. Klivans, Konstantinos Stavropoulos, Arsen Vasilyan(参考訳) 訓練分布から学習者にラベル付きサンプルを付与する分布シフトによる学習の基本的な問題を再検討し、テスト分布からラベルなしサンプルを$d'$とし、低いテストエラーで分類器を出力するように要求する。 この設定における標準的なアプローチは、$d$ と $d'$ の間の距離という概念で分類器の損失を制限することである。 しかし、これらの距離は計算が難しく、効率的なアルゴリズムにはつながりません。 このパラダイムから離れて、分布シフトを伴うテスト可能な学習と呼ばれる新しいモデルを定義し、テスト分布における分類器の性能を証明可能な効率的なアルゴリズムを得ることができる。 このモデルでは、学習者は、$D$と$D’$のサンプルが関連するテストに合格するたびに、低いテストエラーの分類器を出力する。 ハーフ空間、ハーフ空間の交叉、決定木などのよく研究された概念クラスを学習するために、D$の限界がガウス的あるいは一様であるとき、いくつかの肯定的な結果を与える。 我々の研究に先立ち、これらの基本事例に対する効率的なアルゴリズムは、$D'$に関する強い仮定なしでは知られていなかった。 実現可能な場合($D$と$D’$の両方に整合したハーフスペースが存在する場合)のハーフスペースに対しては、モーメントマッチングアプローチとアクティブラーニングのアイデアを組み合わせて、不一致領域を推定するための効率的なオラクルをシミュレートする。 実現不可能な設定に拡張するために、テスト可能な(非依存)学習からの最近の研究を適用します。 より一般に、低次$l_2$-sandwiching多項式近似子を持つ任意の関数クラスがモデルで学習できることを証明する。 疑似ランダム性文学の構成を応用し, 所要の近似値を得る。

We revisit the fundamental problem of learning with distribution shift, in which a learner is given labeled samples from training distribution $D$, unlabeled samples from test distribution $D'$ and is asked to output a classifier with low test error. The standard approach in this setting is to bound the loss of a classifier in terms of some notion of distance between $D$ and $D'$. These distances, however, seem difficult to compute and do not lead to efficient algorithms. We depart from this paradigm and define a new model called testable learning with distribution shift, where we can obtain provably efficient algorithms for certifying the performance of a classifier on a test distribution. In this model, a learner outputs a classifier with low test error whenever samples from $D$ and $D'$ pass an associated test; moreover, the test must accept if the marginal of $D$ equals the marginal of $D'$. We give several positive results for learning well-studied concept classes such as halfspaces, intersections of halfspaces, and decision trees when the marginal of $D$ is Gaussian or uniform on $\{\pm 1\}^d$. Prior to our work, no efficient algorithms for these basic cases were known without strong assumptions on $D'$. For halfspaces in the realizable case (where there exists a halfspace consistent with both $D$ and $D'$), we combine a moment-matching approach with ideas from active learning to simulate an efficient oracle for estimating disagreement regions. To extend to the non-realizable setting, we apply recent work from testable (agnostic) learning. More generally, we prove that any function class with low-degree $L_2$-sandwiching polynomial approximators can be learned in our model. We apply constructions from the pseudorandomness literature to obtain the required approximators.
翻訳日:2023-11-28 19:11:10 公開日:2023-11-25
# SAMは作物を認識できますか? 精密農業のための衛星画像を用いた作物型地図作成のためのセグメンテーション基礎モデルのゼロショット性能の定量化

Can SAM recognize crops? Quantifying the zero-shot performance of a semantic segmentation foundation model on generating crop-type maps using satellite imagery for precision agriculture ( http://arxiv.org/abs/2311.15138v1 )

ライセンス: Link先を確認
Rutuja Gurav, Het Patel, Zhuocheng Shang, Ahmed Eldawy, Jia Chen, Elia Scudiero, Evangelos Papalexakis(参考訳) Climate change is increasingly disrupting worldwide agriculture, making global food production less reliable.To tackle the growing challenges in feeding the planet, cutting-edge management strategies, such as precision agriculture, empower farmers and decision-makers with rich and actionable information to increase the efficiency and sustainability of their farming practices.Crop-type maps are key information for decision-support tools but are challenging and costly to generate.We investigate the capabilities of Meta AI's Segment Anything Model (SAM) for crop-map prediction task, acknowledging its recent successes at zero-shot image segmentation.However, SAM being limited to up-to 3 channel inputs and its zero-shot usage being class-agnostic in nature pose unique challenges in using it directly for crop-type mapping.We propose using clustering consensus metrics to assess SAM's zero-shot performance in segmenting satellite imagery and producing crop-type maps.Although direct crop-type mapping is challenging using SAM in zero-shot setting, experiments reveal SAM's potential for swiftly and accurately outlining fields in satellite images, serving as a foundation for subsequent crop classification.This paper attempts to highlight a use-case of state-of-the-art image segmentation models like SAM for crop-type mapping and related specific needs of the agriculture industry, offering a potential avenue for automatic, efficient, and cost-effective data products for precision agriculture practices.

Climate change is increasingly disrupting worldwide agriculture, making global food production less reliable.To tackle the growing challenges in feeding the planet, cutting-edge management strategies, such as precision agriculture, empower farmers and decision-makers with rich and actionable information to increase the efficiency and sustainability of their farming practices.Crop-type maps are key information for decision-support tools but are challenging and costly to generate.We investigate the capabilities of Meta AI's Segment Anything Model (SAM) for crop-map prediction task, acknowledging its recent successes at zero-shot image segmentation.However, SAM being limited to up-to 3 channel inputs and its zero-shot usage being class-agnostic in nature pose unique challenges in using it directly for crop-type mapping.We propose using clustering consensus metrics to assess SAM's zero-shot performance in segmenting satellite imagery and producing crop-type maps.Although direct crop-type mapping is challenging using SAM in zero-shot setting, experiments reveal SAM's potential for swiftly and accurately outlining fields in satellite images, serving as a foundation for subsequent crop classification.This paper attempts to highlight a use-case of state-of-the-art image segmentation models like SAM for crop-type mapping and related specific needs of the agriculture industry, offering a potential avenue for automatic, efficient, and cost-effective data products for precision agriculture practices.
翻訳日:2023-11-28 19:10:37 公開日:2023-11-25
# 確率ブラックボックスシミュレータのマルチ忠実度制約付き最適化

Multi-fidelity Constrained Optimization for Stochastic Black Box Simulators ( http://arxiv.org/abs/2311.15137v1 )

ライセンス: Link先を確認
Atul Agrawal, Kislaya Ravi, Phaedon-Stelios Koutsourelakis, Hans-Joachim Bungartz(参考訳) シミュレータのパラメータの制約付き最適化は、設計プロセスにおいて重要な役割を果たす。 これらの問題はシミュレータが確率的で計算コストが高く、パラメータ空間が高次元であるときに困難になる。 パラメータに関して勾配を利用するだけで効率よく最適化できるが、これらの勾配は多くのレガシーなブラックボックス符号では利用できない。 本稿では,先行する問題に対して,勾配推定を効率的に行い,勾配推定器のノイズを低減し,多元性スキームを適用して計算量を削減するアルゴリズムscout-nd(stochastic constraintsed optimization for n dimension)を導入する。 提案手法を標準ベンチマークで検証し,既存の手法よりも優れた性能を示すパラメータの最適化の有効性を示す。

Constrained optimization of the parameters of a simulator plays a crucial role in a design process. These problems become challenging when the simulator is stochastic, computationally expensive, and the parameter space is high-dimensional. One can efficiently perform optimization only by utilizing the gradient with respect to the parameters, but these gradients are unavailable in many legacy, black-box codes. We introduce the algorithm Scout-Nd (Stochastic Constrained Optimization for N dimensions) to tackle the issues mentioned earlier by efficiently estimating the gradient, reducing the noise of the gradient estimator, and applying multi-fidelity schemes to further reduce computational effort. We validate our approach on standard benchmarks, demonstrating its effectiveness in optimizing parameters highlighting better performance compared to existing methods.
翻訳日:2023-11-28 19:10:17 公開日:2023-11-25
# swiftlearn: 重要度サンプリングを用いたディープラーニングモデルのデータ効率の高いトレーニング方法

SwiftLearn: A Data-Efficient Training Method of Deep Learning Models using Importance Sampling ( http://arxiv.org/abs/2311.15134v1 )

ライセンス: Link先を確認
Habib Hajimolahoseini, Omar Mohamed Awad, Walid Ahmed, Austin Wen, Saina Asani, Mohammad Hassanpour, Farnoosh Javadi, Mehdi Ahmadi, Foozhan Ataiefard, Kangling Liu, Yang Liu(参考訳) 本稿では、トレーニングのウォームアップ段階で選択されたデータサンプルのサブセットを用いて、ディープラーニングモデルのトレーニングを高速化するデータ効率の高いアプローチであるswiftlearnを提案する。 このサブセットは、ウォームアップステージのデータセット全体にわたって測定された重要基準に基づいて選択され、残りのトレーニングの例が少ないモデルパフォーマンスを維持することを目的としている。 私たちが提案する重要度は、トレーニング中に定期的に更新され、もし重要度が高ければ、すべてのデータサンプルがトレーニングループに戻る機会が得られます。 モデルアーキテクチャは変化しないが,データサンプルの数がトレーニング中の前後のパス数を制御するため,トレーニングの各時期で使用するトレーニングサンプルの数を減らし,トレーニング時間を短縮することができる。 各種CVおよびNLPモデルのプレトレーニングおよびファインタニングにおける実験結果から,モデル性能はトレーニング中に顕著なスピードアップを達成しながら維持可能であることが示された。 具体的には、BERTのGLUEベンチマークでは、平均精度を0.92%以下に抑えながら、エンドツーエンドの平均スピードアップを3.36倍に抑えることができる。

In this paper, we present SwiftLearn, a data-efficient approach to accelerate training of deep learning models using a subset of data samples selected during the warm-up stages of training. This subset is selected based on an importance criteria measured over the entire dataset during warm-up stages, aiming to preserve the model performance with fewer examples during the rest of training. The importance measure we propose could be updated during training every once in a while, to make sure that all of the data samples have a chance to return to the training loop if they show a higher importance. The model architecture is unchanged but since the number of data samples controls the number of forward and backward passes during training, we can reduce the training time by reducing the number of training samples used in each epoch of training. Experimental results on a variety of CV and NLP models during both pretraining and finetuning show that the model performance could be preserved while achieving a significant speed-up during training. More specifically, BERT finetuning on GLUE benchmark shows that almost 90% of the data can be dropped achieving an end-to-end average speedup of 3.36x while keeping the average accuracy drop less than 0.92%.
翻訳日:2023-11-28 19:10:02 公開日:2023-11-25