このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240315となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# オープンピット鉱山における自律走行のシナリオ工学
Scenarios Engineering driven Autonomous Transportation in Open-Pit Mines ( http://arxiv.org/abs/2405.00690v1 ) ライセンス: Link先を確認 | Siyu Teng, Xuan Li, Yuchen Li, Lingxi Li, Yunfeng Ai, Long Chen, | (参考訳) 露天掘り鉱山における自律走行の発達と展開を妨げる重要なボトルネックは、極端に極端なシナリオにおける堅牢性と信頼性を保証することである。
本研究では, 自走式マイニングトラックのための新しいシナリオエンジニアリング(SE)手法を提案する。
SEは、シナリオ・フィーチャー・エクストラクタ、インテリジェンス・アンド・インデックス(I&I)、キャリブレーション・アンド・認定(C&C)、検証・検証(V&V)の4つの主要なコンポーネントから、自律トラックの信頼性と堅牢性を高める。
シナリオ機能抽出器は、複雑なマイニングシナリオにおける複雑なインタラクションと潜伏した依存関係をキャプチャする包括的なパイプラインアプローチである。
I&Iは、トレーニングデータセットの品質を効果的に向上させ、鉱業地域での自律的な交通の基盤を確立する。
C&Cは、現実の交通関係者と協調し、認証を通じてパフォーマンスを確保するために、自律走行で使用されるインテリジェントシステムの本質的な規制、能力、貢献に基礎を置いている。
V&Vプロセスは、自律的な輸送システムが正しく実装可能であることを保証し、一方、検証は、オープンピット鉱山の複雑でダイナミックな状況において、十分に訓練されたモデルが効率的に運用できる能力を評価することに焦点を当てる。
この方法論は、露天掘り鉱業における自律走行の独特な課題に対処し、鉱業経営における生産性、安全性、性能を促進する。
One critical bottleneck that impedes the development and deployment of autonomous transportation in open-pit mines is guaranteed robustness and trustworthiness in prohibitively extreme scenarios. In this research, a novel scenarios engineering (SE) methodology for the autonomous mining truck is proposed for open-pit mines. SE increases the trustworthiness and robustness of autonomous trucks from four key components: Scenario Feature Extractor, Intelligence & Index (I&I), Calibration & Certification (C&C), and Verification & Validation (V&V). Scenario feature extractor is a comprehensive pipeline approach that captures complex interactions and latent dependencies in complex mining scenarios. I&I effectively enhances the quality of the training dataset, thereby establishing a solid foundation for autonomous transportation in mining areas. C&C is grounded in the intrinsic regulation, capabilities, and contributions of the intelligent systems employed in autonomous transportation to align with traffic participants in the real world and ensure their performance through certification. V&V process ensures that the autonomous transportation system can be correctly implemented, while validation focuses on evaluating the ability of the well-trained model to operate efficiently in the complex and dynamic conditions of the open-pit mines. This methodology addresses the unique challenges of autonomous transportation in open-pit mining, promoting productivity, safety, and performance in mining operations. | 翻訳日:2024-07-01 11:19:45 公開日:2024-03-15 |
# トレーニング不要なNASが視覚変換器に出会ったとき:ニューラル・タンジェント・カーネル・パースペクティブ
When Training-Free NAS Meets Vision Transformer: A Neural Tangent Kernel Perspective ( http://arxiv.org/abs/2405.04536v1 ) ライセンス: Link先を確認 | Qiqi Zhou, Yichen Zhu, | (参考訳) 本稿では、トレーニングなしで視覚変換器を探索するためのNutral Tangent Kernel(NTK)について検討する。
NTKベースのメトリクスが初期化時のCNNのパフォーマンスを効果的に予測できるという以前の観測とは対照的に、我々はViT検索空間においてそれらの非効率性を実証的に示す。
本稿は, NTK を NTK を NAS に適用することの非効率性に寄与すると考えられる。
我々は、NTKが本質的に低周波信号を学習するニューラルネットワークの能力を推定し、特徴学習における高周波信号の影響を完全に無視していることを理論的および実証的に検証した。
この制限に対処するため、入力からフーリエ特徴を統合することで標準NTKを高周波領域に一般化するViNTKと呼ばれる新しい手法を提案する。
画像分類とセマンティックセグメンテーションタスクにおける複数のViT探索空間を用いた実験により,検索アーキテクチャ上での類似性能を維持しつつ,従来のNASよりも検索コストを大幅に高速化できることが示された。
This paper investigates the Neural Tangent Kernel (NTK) to search vision transformers without training. In contrast with the previous observation that NTK-based metrics can effectively predict CNNs performance at initialization, we empirically show their inefficacy in the ViT search space. We hypothesize that the fundamental feature learning preference within ViT contributes to the ineffectiveness of applying NTK to NAS for ViT. We both theoretically and empirically validate that NTK essentially estimates the ability of neural networks that learn low-frequency signals, completely ignoring the impact of high-frequency signals in feature learning. To address this limitation, we propose a new method called ViNTK that generalizes the standard NTK to the high-frequency domain by integrating the Fourier features from inputs. Experiments with multiple ViT search spaces on image classification and semantic segmentation tasks show that our method can significantly speed up search costs over prior state-of-the-art NAS for ViT while maintaining similar performance on searched architectures. | 翻訳日:2024-07-01 10:40:42 公開日:2024-03-15 |
# SO(3)同変ネットワークにおける直感的多周波数特徴表現
An intuitive multi-frequency feature representation for SO(3)-equivariant networks ( http://arxiv.org/abs/2405.04537v1 ) ライセンス: Link先を確認 | Dongwon Son, Jaehyung Kim, Sanghyeon Son, Beomjoon Kim, | (参考訳) 形状再構成のような3次元視覚アルゴリズムの使用は、固定正準回転の入力を必要とするため、依然として制限されている。
近年,最先端の3Dニューラルネットワーク(NN)アーキテクチャで容易に使用可能な,単純な同変ネットワークであるベクトルニューロン(VN)が提案されている。
しかし,3次元データに現れる細部を捉えるには不十分な3次元特徴のみを使用するように設計されているため,その性能は限られている。
本稿では,高次元特徴空間に3次元点をマッピングするための同変特徴表現を提案する。
我々の特徴は3次元データに存在する複数の周波数を識別することができ、これは3次元視覚タスクの表現的特徴を設計する鍵となる。
我々の表現はVNの入力として使用することができ、その結果、VNは特徴表現によって、元の論文で提起された制限を克服し、より多くの詳細をキャプチャすることを示した。
The usage of 3D vision algorithms, such as shape reconstruction, remains limited because they require inputs to be at a fixed canonical rotation. Recently, a simple equivariant network, Vector Neuron (VN) has been proposed that can be easily used with the state-of-the-art 3D neural network (NN) architectures. However, its performance is limited because it is designed to use only three-dimensional features, which is insufficient to capture the details present in 3D data. In this paper, we introduce an equivariant feature representation for mapping a 3D point to a high-dimensional feature space. Our feature can discern multiple frequencies present in 3D data, which is the key to designing an expressive feature for 3D vision tasks. Our representation can be used as an input to VNs, and the results demonstrate that with our feature representation, VN captures more details, overcoming the limitation raised in its original paper. | 翻訳日:2024-07-01 10:40:42 公開日:2024-03-15 |
# DiffFinger: 拡散確率モデルによる合成フィンガープリント生成の促進
DiffFinger: Advancing Synthetic Fingerprint Generation through Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2405.04538v1 ) ライセンス: Link先を確認 | Freddie Grabovski, Lior Yasur, Yaniv Hacmon, Lior Nisimov, Stav Nimrod, | (参考訳) 本研究では,Denoising Diffusion Probabilistic Models (DDPM) を用いた合成指紋画像の生成について検討した。
プライバシの懸念や多様なデータセットの需要といった、実際の生体データ収集における大きな障害は、現実的かつ多様である合成バイオメトリックの代替手段に欠かせないことを示しています。
Generative Adversarial Networks (GANs) による現実的な指紋画像生成の取り組みにもかかわらず、その制限はDDPMを有望な代替手段として提案するきっかけとなった。
DDPMは、多様性を維持しながら、明瞭さと現実性を高めて画像を生成することができる。
以上の結果から,DiffFingerは高品質なトレーニングデータセットと競合するだけでなく,よりリッチなバイオメトリックデータも提供し,真から生への多様性を反映していることがわかった。
これらの結果は生体計測合成において有望な進歩を示すものであり、指紋認証および認証システムの展望を推し進めるためのDDPMの可能性を示している。
This study explores the generation of synthesized fingerprint images using Denoising Diffusion Probabilistic Models (DDPMs). The significant obstacles in collecting real biometric data, such as privacy concerns and the demand for diverse datasets, underscore the imperative for synthetic biometric alternatives that are both realistic and varied. Despite the strides made with Generative Adversarial Networks (GANs) in producing realistic fingerprint images, their limitations prompt us to propose DDPMs as a promising alternative. DDPMs are capable of generating images with increasing clarity and realism while maintaining diversity. Our results reveal that DiffFinger not only competes with authentic training set data in quality but also provides a richer set of biometric data, reflecting true-to-life variability. These findings mark a promising stride in biometric synthesis, showcasing the potential of DDPMs to advance the landscape of fingerprint identification and authentication systems. | 翻訳日:2024-07-01 10:40:42 公開日:2024-03-15 |
# タンパク質言語モデルによる高次相互作用の復元について
On Recovering Higher-order Interactions from Protein Language Models ( http://arxiv.org/abs/2405.06645v1 ) ライセンス: Link先を確認 | Darin Tsui, Amirali Aghazadeh, | (参考訳) タンパク質言語モデルは進化情報を利用して最先端の3D構造とゼロショット変動予測を行う。
しかし、モデル予測を支配する全ての突然変異相互作用の抽出と説明は、$n$の配列を用いて$n$のサイトでアミノ酸空間全体をクエリする必要があるため、依然として困難であり、これは$n$の中間値(例えば$n\sim10$)でさえ計算的に高価である。
サンプルの複雑さを下げるためのアプローチは存在するが、それらはしばしばモデルの解釈可能性を単対相互作用に制限する。
近年,実験データから相互作用を学習するために,フーリエ領域の空間性を仮定した計算スケーラブルなアルゴリズムが出現している。
しかし、言語モデルから相互作用を抽出することは、ユニークな課題を生じさせる: 疎性は常に存在するか、それがフーリエアルゴリズムの有用性を評価するのに必要な唯一の指標であるかは、不明である。
本稿では,3つのタンパク質-緑色蛍光タンパク質 (GFP) , 腫瘍タンパク質 P53 (TP53) およびGドメイン B1 (GB1) に適用されるタンパク質言語モデルESM2の系統的フーリエ解析を行い, 228の実験を行った。
ESM2 はスパースフーリエ変換に適するスポーシティ・ラゲネス平面の 3 つの領域で支配されていることを示す。
2つのサンプルタンパク質のバリデーションは、よりスパースな領域における$R^2=0.72$とより密度の高い領域における$R^2=0.66$との全ての相互作用の回復を示す。
すべてのコードとデータはGitHubリポジトリhttps://github.com/amirgroup-codes/InteractionRecovery.comから入手可能です。
Protein language models leverage evolutionary information to perform state-of-the-art 3D structure and zero-shot variant prediction. Yet, extracting and explaining all the mutational interactions that govern model predictions remains difficult as it requires querying the entire amino acid space for $n$ sites using $20^n$ sequences, which is computationally expensive even for moderate values of $n$ (e.g., $n\sim10$). Although approaches to lower the sample complexity exist, they often limit the interpretability of the model to just single and pairwise interactions. Recently, computationally scalable algorithms relying on the assumption of sparsity in the Fourier domain have emerged to learn interactions from experimental data. However, extracting interactions from language models poses unique challenges: it's unclear if sparsity is always present or if it is the only metric needed to assess the utility of Fourier algorithms. Herein, we develop a framework to do a systematic Fourier analysis of the protein language model ESM2 applied on three proteins-green fluorescent protein (GFP), tumor protein P53 (TP53), and G domain B1 (GB1)-across various sites for 228 experiments. We demonstrate that ESM2 is dominated by three regions in the sparsity-ruggedness plane, two of which are better suited for sparse Fourier transforms. Validations on two sample proteins demonstrate recovery of all interactions with $R^2=0.72$ in the more sparse region and $R^2=0.66$ in the more dense region, using only 7 million out of $20^{10}\sim10^{13}$ ESM2 samples, reducing the computational time by a staggering factor of 15,000. All codes and data are available on our GitHub repository https://github.com/amirgroup-codes/InteractionRecovery. | 翻訳日:2024-07-01 10:40:42 公開日:2024-03-15 |
# 自律走行のためのシナリオエンジニアリング:オープンピット鉱山の新しい段階
Scenario Engineering for Autonomous Transportation: A New Stage in Open-Pit Mines ( http://arxiv.org/abs/2405.15772v1 ) ライセンス: Link先を確認 | Siyu Teng, Xuan Li, Yucheng Li, Zhe Xuanyuan, Yunfeng Ai, Long Chen, | (参考訳) 近年、露天掘り鉱業は顕著な進歩を遂げており、様々な特殊機械の協調作業により、鉱物抽出の効率が大幅に向上している。
しかし、露天掘り鉱山の厳しい環境と複雑な環境は、自律的な交通システムの実現に重大な課題をもたらしている。
本研究は、シナリオ・フィーチャー・エクストラクタ、インテリジェンス・アンド・インデックス(I&I)、校正・認定(C&C)、検証・検証(V&V)を含むSEの4つのキーコンポーネントを組み込むことにより、シナリオ・エンジニアリング(SE)を自律輸送システムと統合し、オープンピット鉱山の信頼性、堅牢性、効率を大幅に向上させる新しいパラダイムを導入する。
このパラダイムは2つの有名な露天掘り鉱山で検証され、実験結果はロバスト性、信頼性、効率性が顕著に改善されたことを示している。
自律走行のキャパシティ、スケーラビリティ、多様性を高めることで、このパラダイムはSEと並列運転の統合を促進し、最終的には'6S'目標の達成を促進する。
In recent years, open-pit mining has seen significant advancement, the cooperative operation of various specialized machinery substantially enhancing the efficiency of mineral extraction. However, the harsh environment and complex conditions in open-pit mines present substantial challenges for the implementation of autonomous transportation systems. This research introduces a novel paradigm that integrates Scenario Engineering (SE) with autonomous transportation systems to significantly improve the trustworthiness, robustness, and efficiency in open-pit mines by incorporating the four key components of SE, including Scenario Feature Extractor, Intelligence and Index (I&I), Calibration and Certification (C&C), and Verification and Validation (V&V). This paradigm has been validated in two famous open-pit mines, the experiment results demonstrate marked improvements in robustness, trustworthiness, and efficiency. By enhancing the capacity, scalability, and diversity of autonomous transportation, this paradigm fosters the integration of SE and parallel driving and finally propels the achievement of the '6S' objectives. | 翻訳日:2024-07-01 08:29:41 公開日:2024-03-15 |
# ExeGPT: LLM推論のための制約を考慮したリソーススケジューリング
ExeGPT: Constraint-Aware Resource Scheduling for LLM Inference ( http://arxiv.org/abs/2404.07947v1 ) ライセンス: Link先を確認 | Hyungjun Oh, Kihong Kim, Jaemin Kim, Sungkyun Kim, Junyeol Lee, Du-seong Chang, Jiwon Seo, | (参考訳) 本稿では,制約を考慮したLLM推論のための分散システムExeGPTを提案する。
ExeGPTは、与えられたレイテンシ制約を満たしながら、推論スループットを最大化するために、最適な実行スケジュールを見つけ、実行します。
入力シーケンスと出力シーケンスの分散を活用することで、リソースを効果的に割り当て、バッチサイズや部分テンソル並列性を含む最適な実行構成を決定する。
また、異なるNLPワークロードに適したラウンドロビン割当ポリシーとワークロード意識割当ポリシーに基づく2つのスケジューリング戦略を導入する。
我々は, T5, OPT, GPT-3の6つのLLMインスタンスと5つのNLPタスクに対して, それぞれ異なる遅延制約を持つExeGPTを評価した。
FasterTransformerと比較して、ExeGPTはスループットを最大15.2倍改善し、レイテンシを6倍改善した。
全体として、ExeGPTは20のシナリオで平均スループットが2.9倍になる。
さらに、シーケンス分布の変化に適応する場合、ExeGPTのスケジュールを調整するコストは、合理的に控えめである。
ExeGPTは、多様なNLPワークロードとサービス条件に対してLLM推論を最適化し実行するための有効なソリューションであることが証明されている。
This paper presents ExeGPT, a distributed system designed for constraint-aware LLM inference. ExeGPT finds and runs with an optimal execution schedule to maximize inference throughput while satisfying a given latency constraint. By leveraging the distribution of input and output sequences, it effectively allocates resources and determines optimal execution configurations, including batch sizes and partial tensor parallelism. We also introduce two scheduling strategies based on Round-Robin Allocation and Workload-Aware Allocation policies, suitable for different NLP workloads. We evaluate ExeGPT on six LLM instances of T5, OPT, and GPT-3 and five NLP tasks, each with four distinct latency constraints. Compared to FasterTransformer, ExeGPT achieves up to 15.2x improvements in throughput and 6x improvements in latency. Overall, ExeGPT achieves an average throughput gain of 2.9x across twenty evaluation scenarios. Moreover, when adapting to changing sequence distributions, the cost of adjusting the schedule in ExeGPT is reasonably modest. ExeGPT proves to be an effective solution for optimizing and executing LLM inference for diverse NLP workload and serving conditions. | 翻訳日:2024-04-14 13:03:36 公開日:2024-03-15 |
# 破産予測のための粒状セマンティックスとAI駆動パイプラインによるデータ計算の欠如
Missing Data Imputation With Granular Semantics and AI-driven Pipeline for Bankruptcy Prediction ( http://arxiv.org/abs/2404.00013v1 ) ライセンス: Link先を確認 | Debarati Chakraborty, Ravi Ranjan, | (参考訳) この研究は、倒産予測のためのパイプラインの設計に焦点を当てている。
欠落した値、高次元データ、高クラス不均衡データベースの存在は、そのタスクにおける大きな課題である。
粒度のセマンティクスを付加した新しいデータ計算法が導入された。
粒度計算の利点は、この方法を定義するために研究されている。
欠落した値は,低次元空間における特徴意味論と信頼性のある観測値を用いて,粒状空間において予測されている。
グラニュラーは、欠落したエントリに対するデータベースの関連性と信頼性、コンテキストを維持するために、非常に相関性の高い特徴のいくつかと最も信頼性の高い最も近い観察を考慮し、欠落したエントリの周囲に形成されている。
次に、それらの文脈的顆粒内における計算のために粒界間予測を行う。
すなわち、コンテキストのグラニュラーは、巨大なデータベースのごく一部を計算に使用し、欠落する各値に対してデータベース全体にアクセスする必要性を克服します。
この手法は、ポーランド破産データセットを用いて破産予測のために実装され、試験される。
これは、大きな計算速度であっても、大規模で高次元のデータセットに対して効率的なソリューションを提供する。
そして、提案した粒度のセマンティックベースのデータフィリング手法を用いて、倒産予測のためのAI駆動パイプラインを設計し、それに続いて、高次元データセットやデータセットの高クラス不均衡といった問題に対する解決策を導いた。
パイプラインの残りの部分は、次元の減少のためのランダムフォレストによる特徴選択、SMOTEによるデータバランシング、ディープNNを含む6つの一般的な分類器による予測で構成されている。
ここで定義されたすべての手法は、適切な比較研究によって実験的に検証され、5年間に収集された全てのデータセットに有効であることが証明された。
This work focuses on designing a pipeline for the prediction of bankruptcy. The presence of missing values, high dimensional data, and highly class-imbalance databases are the major challenges in the said task. A new method for missing data imputation with granular semantics has been introduced here. The merits of granular computing have been explored here to define this method. The missing values have been predicted using the feature semantics and reliable observations in a low-dimensional space, in the granular space. The granules are formed around every missing entry, considering a few of the highly correlated features and most reliable closest observations to preserve the relevance and reliability, the context, of the database against the missing entries. An intergranular prediction is then carried out for the imputation within those contextual granules. That is, the contextual granules enable a small relevant fraction of the huge database to be used for imputation and overcome the need to access the entire database repetitively for each missing value. This method is then implemented and tested for the prediction of bankruptcy with the Polish Bankruptcy dataset. It provides an efficient solution for big and high-dimensional datasets even with large imputation rates. Then an AI-driven pipeline for bankruptcy prediction has been designed using the proposed granular semantic-based data filling method followed by the solutions to the issues like high dimensional dataset and high class-imbalance in the dataset. The rest of the pipeline consists of feature selection with the random forest for reducing dimensionality, data balancing with SMOTE, and prediction with six different popular classifiers including deep NN. All methods defined here have been experimentally verified with suitable comparative studies and proven to be effective on all the data sets captured over the five years. | 翻訳日:2024-04-07 23:17:33 公開日:2024-03-15 |
# 深部形状ハンドリングとフラグメントワイド分子3次元グラフ生成
Deep Geometry Handling and Fragment-wise Molecular 3D Graph Generation ( http://arxiv.org/abs/2404.00014v1 ) ライセンス: Link先を確認 | Odin Zhang, Yufei Huang, Shichen Cheng, Mengyao Yu, Xujun Zhang, Haitao Lin, Yundian Zeng, Mingyang Wang, Zhenxing Wu, Huifeng Zhao, Zaixi Zhang, Chenqing Hua, Yu Kang, Sunliang Cui, Peichen Pan, Chang-Yu Hsieh, Tingjun Hou, | (参考訳) 初期の3D構造に基づく分子生成アプローチは、タンパク質ポケット内で部分的に構築された分子断片に原子を段階的に付加する原子のパラダイムに従っている。
これらの手法は、厳密な有界リガンドを設計するのに効果的であるが、しばしば合成可能性のような他の重要な性質を見落としている。
フラグメントワイズ生成パラダイムは、有望なソリューションを提供する。
しかし、原子ワイド法と断片ワイド法の両方に共通する課題は、可塑性化学構造と幾何学構造を共設計する能力に限られており、歪んだコンフォメーションをもたらす。
この課題に対応するために、モデルアーキテクチャを超えてデザインの焦点を拡張する、より抽象的な設計であるDeep Geometry Handlingプロトコルを導入します。
既存の幾何学関連モデルとそのプロトコルの包括的レビューを通じて,FragGen - 幾何学的信頼性・断片的分子生成法の開発を頂点とする,新しいハイブリッド戦略を提案する。
FragGenは、生成した幾何学の質と分子の合成アクセシビリティーにおいて、大きな飛躍を見せている。
FragGenの有効性は、II型キナーゼ阻害剤をナノモルレベルで設計する成功によってさらに検証されている。
Most earlier 3D structure-based molecular generation approaches follow an atom-wise paradigm, incrementally adding atoms to a partially built molecular fragment within protein pockets. These methods, while effective in designing tightly bound ligands, often overlook other essential properties such as synthesizability. The fragment-wise generation paradigm offers a promising solution. However, a common challenge across both atom-wise and fragment-wise methods lies in their limited ability to co-design plausible chemical and geometrical structures, resulting in distorted conformations. In response to this challenge, we introduce the Deep Geometry Handling protocol, a more abstract design that extends the design focus beyond the model architecture. Through a comprehensive review of existing geometry-related models and their protocols, we propose a novel hybrid strategy, culminating in the development of FragGen - a geometry-reliable, fragment-wise molecular generation method. FragGen marks a significant leap forward in the quality of generated geometry and the synthesis accessibility of molecules. The efficacy of FragGen is further validated by its successful application in designing type II kinase inhibitors at the nanomolar level. | 翻訳日:2024-04-07 23:17:33 公開日:2024-03-15 |
# SOMson-高峰円図における多次元データの音化
SOMson -- Sonification of Multidimensional Data in Kohonen Maps ( http://arxiv.org/abs/2404.00016v1 ) ライセンス: Link先を確認 | Simon Linke, Tim Ziemer, | (参考訳) 古本園地図、別名。
自己組織化マップ (SOMs) は、低次元マップ上の高次元特徴空間を可視化するニューラルネットワークである。
SOMはデータ検査や探索に優れたツールですが、本質的には細部が失われます。
基盤となるデータの可視化はうまく統合されていないため、全体像の提供に失敗する。
その結果、データ拡張手法として、基礎となるデータの対話的ソナリゼーションであるSOMsonを提案する。
音素化はSOMによって同時に提供される情報量を増加させる。
ユーザスタディの代わりに、インタラクティブなオンライン例を示し、読者がSOMson自身を探索できるようにします。
その強さ、弱点、展望について論じる。
Kohonen Maps, aka. Self-organizing maps (SOMs) are neural networks that visualize a high-dimensional feature space on a low-dimensional map. While SOMs are an excellent tool for data examination and exploration, they inherently cause a loss of detail. Visualizations of the underlying data do not integrate well and, therefore, fail to provide an overall picture. Consequently, we suggest SOMson, an interactive sonification of the underlying data, as a data augmentation technique. The sonification increases the amount of information provided simultaneously by the SOM. Instead of a user study, we present an interactive online example, so readers can explore SOMson themselves. Its strengths, weaknesses, and prospects are discussed. | 翻訳日:2024-04-07 23:17:33 公開日:2024-03-15 |
# 大規模言語モデルとユーザ信頼:医療に焦点をあてて
Large Language Models and User Trust: Focus on Healthcare ( http://arxiv.org/abs/2403.14691v1 ) ライセンス: Link先を確認 | Avishek Choudhury, Zaria Chaudhry, | (参考訳) 本稿では, LLMにおける臨床医の信頼関係, 主に人間生成コンテンツからAI生成コンテンツへのデータソースの変換, およびその後のLLMの精度と臨床医の能力への影響について検討する。
主な懸念の1つは、LLMが学習のアウトプットにより頼りになるにつれて生じる潜在的なフィードバックループであり、それによってアウトプットの品質が低下し、基本的な診断プロセスへの関与が減少するクリニックスキルが低下する可能性がある。
理論的には、このフィードバックループは、医療におけるLLMの統合が深まり、LLM技術の安全かつ効果的な利用を確実にするための積極的な対話と戦略的対策の必要性を強調しているため、大きな課題となる。
さらに, LLMの自己参照学習ループや, 医療従事者の机詰めに伴う潜在的なリスクについて検討した。
AI生成したコンテンツが学習アルゴリズムに入力されるエコーチャンバー内で運用されるLLMのリスクは、データプールの多様性と品質を脅かし、バイアスを増大させ、LLMの有効性を低下させる。
同時に、日常的または重要なタスクに対するLLMへの依存は、医療提供者の診断と思考スキルの低下、特に将来の専門家の訓練と開発に影響を与える可能性がある。
This paper explores the evolving relationship between clinician trust in LLMs, the transformation of data sources from predominantly human-generated to AI-generated content, and the subsequent impact on the precision of LLMs and clinician competence. One of the primary concerns identified is the potential feedback loop that arises as LLMs become more reliant on their outputs for learning, which may lead to a degradation in output quality and a reduction in clinician skills due to decreased engagement with fundamental diagnostic processes. While theoretical at this stage, this feedback loop poses a significant challenge as the integration of LLMs in healthcare deepens, emphasizing the need for proactive dialogue and strategic measures to ensure the safe and effective use of LLM technology. Moreover, we delve into the potential risks associated with LLMs' self-referential learning loops and the deskilling of healthcare professionals. The risk of LLMs operating within an echo chamber, where AI-generated content feeds into the learning algorithms, threatens the diversity and quality of the data pool, potentially entrenching biases and reducing the efficacy of LLMs. Concurrently, reliance on LLMs for routine or critical tasks could result in a decline in healthcare providers' diagnostic and thinking skills, particularly affecting the training and development of future professionals. | 翻訳日:2024-04-01 03:23:33 公開日:2024-03-15 |
# A2CI:大気研究を支援するクラウドベースのサービス指向地理空間サイバーインフラ
A2CI: A Cloud-based, Service-oriented Geospatial Cyberinfrastructure to Support Atmospheric Research ( http://arxiv.org/abs/2403.14693v1 ) ライセンス: Link先を確認 | Wenwen Li, Hu Shao, Sizhe Wang, Xiran Zhou, Sheng Wu, | (参考訳) ビッグアース科学データは科学コミュニティに大きな機会を与えます。
大規模な、長期にわたる、そして高解像度の多くの研究は、リモートセンシング衛星や地上のセンサーネットワーク、さらにはソーシャルメディアの入力によって収集された豊富な情報を使って行うことができる。
しかし、NASAや他の政府機関が1時間ごとに収集・収集した数百テラバイトの情報は、地球大気系の理解を深めようとする大気科学者にとって大きな課題となっている。
これらの課題には、大量のデータの効率的な発見、組織化、分析、可視化が含まれる。
本稿では,大気研究を支援するため,地理空間サイバー基盤構造であるA2CI(Atmospheric Analysis Cyberinfrastructure)を開発したNSFが出資したプロジェクトの結果を報告する。
まず、サービス指向システムフレームワークを紹介し、次に、クラウドコンピューティングの原則であるData-as-a-Service、Software-as-a-Service、Platform-as-a-Service、Infrastructure-as-a-Serviceに従って、データディスカバリモジュール、データ管理モジュール、データ統合モジュール、データ分析および可視化モジュールの実装の詳細を説明します。
海面温度と北大西洋および太平洋の熱帯嵐の強度を解析することにより, 図形ユーザインタフェースを実証する。
この研究は、サイバーインフラ研究の技術的進歩と、大気科学のためのオンラインで協調的な科学分析システムの開発に貢献することを期待している。
Big earth science data offers the scientific community great opportunities. Many more studies at large-scales, over long-terms and at high resolution can now be conducted using the rich information collected by remote sensing satellites, ground-based sensor networks, and even social media input. However, the hundreds of terabytes of information collected and compiled on an hourly basis by NASA and other government agencies present a significant challenge for atmospheric scientists seeking to improve the understanding of the Earth atmospheric system. These challenges include effective discovery, organization, analysis and visualization of large amounts of data. This paper reports the outcomes of an NSF-funded project that developed a geospatial cyberinfrastructure -- the A2CI (Atmospheric Analysis Cyberinfrastructure) -- to support atmospheric research. We first introduce the service-oriented system framework then describe in detail the implementation of the data discovery module, data management module, data integration module, data analysis and visualization modules following the cloud computing principles-Data-as-a-Service, Software-as-a-Service, Platform-as-a-Service and Infrastructure-as-a-Service. We demonstrate the graphic user interface by performing an analysis between Sea Surface Temperature and the intensity of tropical storms in the North Atlantic and Pacific oceans. We expect this work to contribute to the technical advancement of cyberinfrastructure research as well as to the development of an online, collaborative scientific analysis system for atmospheric science. | 翻訳日:2024-04-01 03:23:33 公開日:2024-03-15 |
# GPT言語モデルの大学教育における活動革新への応用
Application of GPT Language Models for Innovation in Activities in University Teaching ( http://arxiv.org/abs/2403.14694v1 ) ライセンス: Link先を確認 | Manuel de Buenaga, Francisco Javier Bueno, | (参考訳) GPT言語モデル(Generative Pre-trained Transformer Language Model)は、自動テキスト生成を可能にする人工知能および自然言語処理技術である。
様々な分野の大学教育にGPT言語モデルを適用することへの関心が高まっている。
学生や教師の活動におけるイノベーションの観点からは、内容の理解と生成、問題解決、パーソナライズとテストの修正などを支援することができる。
国際化の次元から見ると、これらのモデルの誤用は、異なる地理的領域の大学において、一連の共通措置をとる必要がある世界的な問題を表している。
いくつかの国では、AIではなく、学生によって行われていることを保証するアセスメントツールがレビューされている。
そこで本研究では,ChatGPTを理論活動,演習,研究室実践のアシスタントとして活用することに着目し,学生と教員双方の支援ツールとしての可能性を評価することを目的とした,ソフトウェア工学などのコンピュータサイエンスの代表者を対象に,詳細な実験を行った。
The GPT (Generative Pre-trained Transformer) language models are an artificial intelligence and natural language processing technology that enables automatic text generation. There is a growing interest in applying GPT language models to university teaching in various dimensions. From the perspective of innovation in student and teacher activities, they can provide support in understanding and generating content, problem-solving, as well as personalization and test correction, among others. From the dimension of internationalization, the misuse of these models represents a global problem that requires taking a series of common measures in universities from different geographical areas. In several countries, there has been a review of assessment tools to ensure that work is done by students and not by AI. To this end, we have conducted a detailed experiment in a representative subject of Computer Science such as Software Engineering, which has focused on evaluating the use of ChatGPT as an assistant in theory activities, exercises, and laboratory practices, assessing its potential use as a support tool for both students and teachers. | 翻訳日:2024-04-01 03:23:33 公開日:2024-03-15 |
# 連鎖構造型ニューラルネットワークによる財務時系列予測
Chain-structured neural architecture search for financial time series forecasting ( http://arxiv.org/abs/2403.14695v1 ) ライセンス: Link先を確認 | Denis Levchenko, Efstratios Rappos, Shabnam Ataee, Biagio Nigro, Stephan Robert, | (参考訳) 連鎖構造探索空間における3つの一般的なニューラルネットワーク探索戦略(ベイズ最適化、ハイパーバンド法、金融時系列予測の文脈における強化学習)を比較した。
We compare three popular neural architecture search strategies on chain-structured search spaces: Bayesian optimization, the hyperband method, and reinforcement learning in the context of financial time series forecasting. | 翻訳日:2024-04-01 03:23:33 公開日:2024-03-15 |
# MOTIV:ソーシャルメディアにおけるモラル・フレーミングの視覚的探索
MOTIV: Visual Exploration of Moral Framing in Social Media ( http://arxiv.org/abs/2403.14696v1 ) ライセンス: Link先を確認 | Andrew Wentzel, Lauren Levine, Vipul Dhariwal, Zarah Fatemi, Abarai Bhattacharya, Barbara Di Eugenio, Andrew Rojecki, Elena Zheleva, G. Elisabeta Marai, | (参考訳) 本稿では、ソーシャルメディア上での道徳的レトリックの分析のためのビジュアル・コンピューティング・フレームワークを提案する。
モーラル・ファンデーション理論を用いて、マイクロブログデータで表されるこれらの道徳的次元の裏側にある \textit{when}, \textit{where}, \textit{who} をデコンストラクションし、視覚化するための方法論を提案する。
本稿では,言語処理,コミュニケーション,因果推論などの専門家と共同で開発したフレームワークの設計を特徴付ける。
提案手法では,マイクロブログデータと地理空間的および時間的データの複数のソースを統合し,教師なし機械学習(一般化付加モデル)を活用して協調仮説の発見とテストを支援する。
このアプローチをMOTIVというシステムに実装する。
本研究は、新型コロナウイルスの感染拡大に伴う在宅政策と、Black Lives Matter運動に関連する2つの課題について説明する。
より詳細な事例研究と協力者との議論を通じて,ソーシャルメディアにおける道徳的感情の異なる要因について,いくつかの知見が得られた。
この視覚的アプローチは、迅速かつ協調的な仮説テストをサポートし、議論を呼んでいる政治的問題の背後にある道徳的価値に関する洞察を得るのに役立ちます。
補足資料:https://osf.io/ygkzn/?
view_only=6310c0886938415391d977b8aae8b749
We present a visual computing framework for analyzing moral rhetoric on social media around controversial topics. Using Moral Foundation Theory, we propose a methodology for deconstructing and visualizing the \textit{when}, \textit{where}, and \textit{who} behind each of these moral dimensions as expressed in microblog data. We characterize the design of this framework, developed in collaboration with experts from language processing, communications, and causal inference. Our approach integrates microblog data with multiple sources of geospatial and temporal data, and leverages unsupervised machine learning (generalized additive models) to support collaborative hypothesis discovery and testing. We implement this approach in a system named MOTIV. We illustrate this approach on two problems, one related to Stay-at-home policies during the COVID-19 pandemic, and the other related to the Black Lives Matter movement. Through detailed case studies and discussions with collaborators, we identify several insights discovered regarding the different drivers of moral sentiment in social media. Our results indicate that this visual approach supports rapid, collaborative hypothesis testing, and can help give insights into the underlying moral values behind controversial political issues. Supplemental Material: https://osf.io/ygkzn/?view_only=6310c0886938415391d977b8aae8b749 | 翻訳日:2024-04-01 03:23:33 公開日:2024-03-15 |
# AICに基づくオープン複合環境における予測不可能な問題を記述するためのアプローチ
An AIC-based approach for articulating unpredictable problems in open complex environments ( http://arxiv.org/abs/2403.14697v1 ) ライセンス: Link先を確認 | Haider AL-Shareefy, Michael Butler, Thai Son Hoang, | (参考訳) 本研究では,動的かつ予測不能な環境で運用されるシステムに着目し,システムの設計と保証におけるアーキテクトの予測能力を高めるためのアプローチを提案する。
システムアプローチを採用することで、信頼性の高いシステム(例えばMLベースのシステム)を設計する際のアーキテクトの予測能力を改善することを目指している。
このアプローチを説明するために、航空宇宙ケーススタディが使用されます。
航空機検出に影響を与える複数の要因(カオス)を同定し,複雑な運用環境でのアプローチの有効性を実証した。
私たちのアプローチは主に、アーキテクトの予測能力を高めることを目的としています。
This research paper presents an approach to enhancing the predictive capability of architects in the design and assurance of systems, focusing on systems operating in dynamic and unpredictable environments. By adopting a systems approach, we aim to improve architects' predictive capabilities in designing dependable systems (for example, ML-based systems). An aerospace case study is used to illustrate the approach. Multiple factors (challenges) influencing aircraft detection are identified, demonstrating the effectiveness of our approach in a complex operational setting. Our approach primarily aimed to enhance the architect's predictive capability. | 翻訳日:2024-04-01 03:23:33 公開日:2024-03-15 |
# HyPer-EP:心臓電気生理学のためのメタラーニングハイブリッドパーソナライズドモデル
HyPer-EP: Meta-Learning Hybrid Personalized Models for Cardiac Electrophysiology ( http://arxiv.org/abs/2403.15433v1 ) ライセンス: Link先を確認 | Xiajun Jiang, Sumeet Vadhavkar, Yubo Ye, Maryam Toloubidokhti, Ryan Missel, Linwei Wang, | (参考訳) パーソナライズされた仮想心臓モデルでは臨床応用の可能性が高まっているが、患者固有のデータからそれらのパラメータを推定することは依然として困難である。
従来の物理学に基づくモデリングアプローチは計算コストが高く、モデル単純化と仮定のためにこれらのモデルに固有の構造的誤りを無視することが多い。
一方、現代のディープラーニングアプローチはデータの監視に大きく依存しており、解釈可能性に欠けています。
本稿では,ニューラル・ネットワーク・モデリングによる,その未知の現実とのギャップを表現した物理に基づく既知の表現の組み合わせとして,パーソナライズされた心臓デジタル双生児を記述するための,新しいハイブリッド・モデリング・フレームワークを提案する。
そこで我々は,ハイブリッドモデルにおける物理ベースとニューラルコンポーネントの区別を可能にする,新しいメタラーニングフレームワークを提案する。
本稿では, このハイブリッド・モデリング・フレームワークの実現可能性と汎用性を, 合成実験におけるインスタンス化と概念実証の2つの例で示す。
Personalized virtual heart models have demonstrated increasing potential for clinical use, although the estimation of their parameters given patient-specific data remain a challenge. Traditional physics-based modeling approaches are computationally costly and often neglect the inherent structural errors in these models due to model simplifications and assumptions. Modern deep learning approaches, on the other hand, rely heavily on data supervision and lacks interpretability. In this paper, we present a novel hybrid modeling framework to describe a personalized cardiac digital twin as a combination of a physics-based known expression augmented by neural network modeling of its unknown gap to reality. We then present a novel meta-learning framework to enable the separate identification of both the physics-based and neural components in the hybrid model. We demonstrate the feasibility and generality of this hybrid modeling framework with two examples of instantiations and their proof-of-concept in synthetic experiments. | 翻訳日:2024-04-01 02:54:20 公開日:2024-03-15 |
# ChatPattern: 自然言語によるレイアウトパターンのカスタマイズ
ChatPattern: Layout Pattern Customization via Natural Language ( http://arxiv.org/abs/2403.15434v1 ) ライセンス: Link先を確認 | Zixiao Wang, Yunheng Shen, Xufeng Yao, Wenqian Zhao, Yang Bai, Farzan Farnia, Bei Yu, | (参考訳) 既存の作業は、固定サイズのレイアウトパターン生成に重点を置いているが、より実用的なフリーサイズのパターン生成は、限られた注意を払っている。
本稿では、フレキシブルパターンカスタマイズのための新しいLarge-Language-Model(LLM)フレームワークChatPatternを提案する。
ChatPatternは、専門家のLLMエージェントと高度に制御可能なレイアウトパターン生成器を備えた2部システムを使用している。
LLMエージェントは、自然言語の要求を解釈し、特定のニーズを満たす設計ツールを動作させ、ジェネレータは条件付きレイアウト生成、パターン修正、メモリフレンドリーなパターン拡張に優れる。
挑戦的なパターン生成に関する実験は、ChatPatternが高品質な大規模パターンを合成する能力を示している。
Existing works focus on fixed-size layout pattern generation, while the more practical free-size pattern generation receives limited attention. In this paper, we propose ChatPattern, a novel Large-Language-Model (LLM) powered framework for flexible pattern customization. ChatPattern utilizes a two-part system featuring an expert LLM agent and a highly controllable layout pattern generator. The LLM agent can interpret natural language requirements and operate design tools to meet specified needs, while the generator excels in conditional layout generation, pattern modification, and memory-friendly patterns extension. Experiments on challenging pattern generation setting shows the ability of ChatPattern to synthesize high-quality large-scale patterns. | 翻訳日:2024-04-01 02:54:20 公開日:2024-03-15 |
# 文脈情報を用いた文レベルのモーフェムセグメンテーション
Using Contextual Information for Sentence-level Morpheme Segmentation ( http://arxiv.org/abs/2403.15436v1 ) ライセンス: Link先を確認 | Prabin Bhandari, Abhishek Paudel, | (参考訳) 最近の形態素セグメンテーションの進歩は、主に単語レベルのセグメンテーションを強調しており、しばしば文内の文脈的関連性を無視している。
本研究では,形態素分割タスクをシーケンス・ツー・シーケンス問題として再定義し,文全体を個々の単語を分離するのではなく入力として扱う。
その結果,多言語モデルの方が単言語モデルに比べて優れた性能を示した。
我々のモデルは現在の最先端言語の性能を上回りませんでしたが、低リソースの言語シナリオにおける制限を明らかにしながら、高リソースの言語に匹敵する効果を示しました。
Recent advancements in morpheme segmentation primarily emphasize word-level segmentation, often neglecting the contextual relevance within the sentence. In this study, we redefine the morpheme segmentation task as a sequence-to-sequence problem, treating the entire sentence as input rather than isolating individual words. Our findings reveal that the multilingual model consistently exhibits superior performance compared to monolingual counterparts. While our model did not surpass the performance of the current state-of-the-art, it demonstrated comparable efficacy with high-resource languages while revealing limitations in low-resource language scenarios. | 翻訳日:2024-04-01 02:54:20 公開日:2024-03-15 |
# 計算平和の時代におけるAprioriの知識--数学的発見におけるAIの役割
Apriori Knowledge in an Era of Computational Opacity: The Role of AI in Mathematical Discovery ( http://arxiv.org/abs/2403.15437v1 ) ライセンス: Link先を確認 | Eamon Duede, Kevin Davey, | (参考訳) 計算は現代数学の中心である。
多くの人は、アペルとハケンのプログラムから4色理論の真の数学的知識を得られることを認めている。
対照的に、現代のLLM/DNNは私たちにとって重要な方法で不透明であり、それによって数学的知識を得るのに障害が生じます。
しかしながら、人間の証明チェックを自動化した証明チェッカーがそのような機械に装着されている場合、元の機械が私たちにとって完全に不透明であり、それらが出力する証明が人間の監視不可能であるにもかかわらず、それらからアプリオリの数学的知識を得ることができると論じる。
Computation is central to contemporary mathematics. Many accept that we can acquire genuine mathematical knowledge of the Four Color Theorem from Appel and Haken's program insofar as it is simply a repetitive application of human forms of mathematical reasoning. Modern LLMs / DNNs are, by contrast, opaque to us in significant ways, and this creates obstacles in obtaining mathematical knowledge from them. We argue, however, that if a proof-checker automating human forms of proof-checking is attached to such machines, then we can obtain apriori mathematical knowledge from them, even though the original machines are entirely opaque to us and the proofs they output are not human-surveyable. | 翻訳日:2024-04-01 02:54:20 公開日:2024-03-15 |
# BCIモータ画像復号のための教師なし適応ディープラーニング手法
Unsupervised Adaptive Deep Learning Method For BCI Motor Imagery Decoding ( http://arxiv.org/abs/2403.15438v1 ) ライセンス: Link先を確認 | Yassine El Ouahidi, Giulia Lioi, Nicolas Farrugia, Bastien Pasdeloup, Vincent Gripon, | (参考訳) 本稿では、Brain-Computer Interfacesの文脈で、オンラインで使用しながら、監督を必要とせずにオフラインのパフォーマンスレベルに達する適応手法を提案する。
興味深いことに,本手法は,ストリーミング観測に基づいて,入力空間と潜時空間の両方で連続的にデータを認識しながら,凍結効率のよいディープラーニングバックボーンを使用するため,モデルの再学習を必要としない。
本稿では,脳波データからの運動画像脳復号の効率を実証する。
再現性については、実験のコードを共有します。
In the context of Brain-Computer Interfaces, we propose an adaptive method that reaches offline performance level while being usable online without requiring supervision. Interestingly, our method does not require retraining the model, as it consists in using a frozen efficient deep learning backbone while continuously realigning data, both at input and latent spaces, based on streaming observations. We demonstrate its efficiency for Motor Imagery brain decoding from electroencephalography data, considering challenging cross-subject scenarios. For reproducibility, we share the code of our experiments. | 翻訳日:2024-04-01 02:54:20 公開日:2024-03-15 |
# 誰の味方だ? 大規模言語モデルの政治的スタンスを探る
Whose Side Are You On? Investigating the Political Stance of Large Language Models ( http://arxiv.org/abs/2403.13840v1 ) ライセンス: Link先を確認 | Pagnarasmey Pit, Xingjun Ma, Mike Conway, Qingyu Chen, James Bailey, Henry Pit, Putrasmey Keo, Watey Diep, Yu-Gang Jiang, | (参考訳) 大規模言語モデル(LLM)は、テキスト生成、要約、情報検索などの日常的なタスクにおいて、その応用において大きな人気を集めている。
LLMの普及が拡大するにつれて、情報バブルの防止、表現の公正性の維持、確認バイアスの緩和を目的として、これらのモデルが政治的に公平な応答を確実にすることの重要性が高まっている。
本稿では,LLMの政治的指向を体系的に研究するための定量的枠組みとパイプラインを提案する。
我々の調査は、中絶からLGBTQ問題まで8つのトピックにまたがるLLMの政治的整合性について考察している。
その結果, LLMは, 職業, 人種, 政治的アフィリエイトに関する詳細を含むユーザの質問に対して, 保守的あるいは右派というよりも, リベラルな視点や左派的な視点と密接に一致した反応を示す傾向を示した。
本研究は, LLMの左傾き特性に関する先行観察を再確認するだけでなく, 直接保守主義に傾倒しても, 特にそのような傾きに敏感な職業など, 特定の特性を呈する。
政治的回答を提供するこれらのモデルを避けるために、ユーザーはクエリを作成する際に注意し、中立的なプロンプト言語を選択する際に注意を払う必要がある。
Large Language Models (LLMs) have gained significant popularity for their application in various everyday tasks such as text generation, summarization, and information retrieval. As the widespread adoption of LLMs continues to surge, it becomes increasingly crucial to ensure that these models yield responses that are politically impartial, with the aim of preventing information bubbles, upholding fairness in representation, and mitigating confirmation bias. In this paper, we propose a quantitative framework and pipeline designed to systematically investigate the political orientation of LLMs. Our investigation delves into the political alignment of LLMs across a spectrum of eight polarizing topics, spanning from abortion to LGBTQ issues. Across topics, the results indicate that LLMs exhibit a tendency to provide responses that closely align with liberal or left-leaning perspectives rather than conservative or right-leaning ones when user queries include details pertaining to occupation, race, or political affiliation. The findings presented in this study not only reaffirm earlier observations regarding the left-leaning characteristics of LLMs but also surface particular attributes, such as occupation, that are particularly susceptible to such inclinations even when directly steered towards conservatism. As a recommendation to avoid these models providing politicised responses, users should be mindful when crafting queries, and exercise caution in selecting neutral prompt language. | 翻訳日:2024-03-22 18:28:52 公開日:2024-03-15 |
# LLMsはCryptic Crossword Solversか?
Are LLMs Good Cryptic Crossword Solvers? ( http://arxiv.org/abs/2403.12094v1 ) ライセンス: Link先を確認 | Abdelrahman "Boda" Sadallah, Daria Kotova, Ekaterina Kochmar, | (参考訳) クリプティッククロスワード(英: Cryptic crosswords)は、一般的な知識だけでなく、様々なレベルで言語を操り、様々な種類のワードプレイに対処するソルバの能力にも依存するパズルである。
従来の研究では、現代のNLPモデルにおいても、そのようなパズルを解くことが難しいことが示唆されている。
しかし、大きな言語モデル(LLM)の能力はまだテストされていない。
本稿では、LLaMA2、Mistral、ChatGPTの3つの人気のあるLCMのベンチマーク結果を確立する。
Cryptic crosswords are puzzles that rely not only on general knowledge but also on the solver's ability to manipulate language on different levels and deal with various types of wordplay. Previous research suggests that solving such puzzles is a challenge even for modern NLP models. However, the abilities of large language models (LLMs) have not yet been tested on this task. In this paper, we establish the benchmark results for three popular LLMs -- LLaMA2, Mistral, and ChatGPT -- showing that their performance on this task is still far from that of humans. | 翻訳日:2024-03-20 18:51:33 公開日:2024-03-15 |
# ユーザショッピング履歴の充実 - 階層型レコメンデーションシステムによるeコマースの強化
Enriching User Shopping History: Empowering E-commerce with a Hierarchical Recommendation System ( http://arxiv.org/abs/2403.12096v1 ) ライセンス: Link先を確認 | Irem Islek, Sule Gunduz Oguducu, | (参考訳) 推薦システムは、ユーザのショッピング履歴を分析して、正確なレコメンデーションを提供することができる。
リッチなユーザ履歴は、より正確なレコメンデーションをもたらす。
しかし、実際のアプリケーションでは、ユーザーは探しているアイテムが最低価格の電子商取引プラットフォームを好む。
言い換えれば、ほとんどのユーザーは複数のeコマースプラットフォームから同時に買い物をしており、ユーザのショッピング履歴の異なる部分は、異なるeコマースプラットフォーム間で共有されている。
そこで本研究では,電子商取引プラットフォームがユーザの履歴を完全に記録しているが,その一部にしかアクセスできないと仮定する。
もしレコメンデーションシステムが、まず、欠落した部分を予測し、ユーザのショッピング履歴を適切に充実させることができれば、次の項目をより正確に推奨することができる。
提案システムは,ユーザのショッピング履歴を活用して予測精度を向上させる。
提案手法はNDCG@10とHR@10の両方で大幅に改善されている。
Recommendation systems can provide accurate recommendations by analyzing user shopping history. A richer user history results in more accurate recommendations. However, in real applications, users prefer e-commerce platforms where the item they seek is at the lowest price. In other words, most users shop from multiple e-commerce platforms simultaneously; different parts of the user's shopping history are shared between different e-commerce platforms. Consequently, we assume in this study that any e-commerce platform has a complete record of the user's history but can only access some parts of it. If a recommendation system is able to predict the missing parts first and enrich the user's shopping history properly, it will be possible to recommend the next item more accurately. Our recommendation system leverages user shopping history to improve prediction accuracy. The proposed approach shows significant improvements in both NDCG@10 and HR@10. | 翻訳日:2024-03-20 18:51:33 公開日:2024-03-15 |
# 開示の喪失:パスワード構成ポリシーの推測について
Lost in Disclosure: On The Inference of Password Composition Policies ( http://arxiv.org/abs/2003.05846v2 ) ライセンス: Link先を確認 | Saul Johnson, João Ferreira, Alexandra Mendes, Julien Cordry, | (参考訳) 大規模なパスワードデータ漏洩はますます一般的になってきており、研究者は現実のパスワードデータセットを利用してパスワードのセキュリティ研究をかなり行なえるようになった。
パスワード構成ポリシー(ユーザーがパスワードを作成する際に従わなければならない規則の集合)がシステム上のユーザ・朝鮮パスワードの分布にどのように影響するかについて多くの研究がなされてきたが、特定のユーザ・朝鮮パスワードのセットが作成したパスワード構成ポリシーを推測する研究ははるかに少ない。
本稿では,この課題に対するナイーブなアプローチでこの問題を論じ,より信頼性の高い結果を生み出すシンプルなアプローチを提案する。
また、このアプローチを実装するツールであるpol-inferについても紹介し、パスワード構成ポリシーの推論にその使用法を実証する。
Large-scale password data breaches are becoming increasingly commonplace, which has enabled researchers to produce a substantial body of password security research utilising real-world password datasets, which often contain numbers of records in the tens or even hundreds of millions. While much study has been conducted on how password composition policies (sets of rules that a user must abide by when creating a password) influence the distribution of user-chosen passwords on a system, much less research has been done on inferring the password composition policy that a given set of user-chosen passwords was created under. In this paper, we state the problem with the naive approach to this challenge, and suggest a simple approach that produces more reliable results. We also present pol-infer, a tool that implements this approach, and demonstrates its use in inferring password composition policies. | 翻訳日:2024-03-20 07:06:24 公開日:2024-03-15 |
# ソフトウェア工学の文脈における量子ソフトウェア開発の体系的マッピング
A systematic mapping on quantum software development in the context of software engineering ( http://arxiv.org/abs/2106.00926v2 ) ライセンス: Link先を確認 | Paulo Eduardo Zanni Junior, Valter Vieira de Camargo, | (参考訳) 量子コンピューティングは、古典的技術では不可能ないくつかの進歩を可能にする新しいパラダイムである。
量子コンピュータの台頭とともに、ソフトウェアは新たな計算方法に適合するように変更される。
しかし、量子コンピューティング分野において多くの研究が行われているが、この新しい文脈におけるソフトウェアとソフトウェア工学の違いについての研究はいまだ少ない。
そこで本論文では,量子コンピュータ用に開発されたソフトウェアの特徴と特徴を網羅的に検討する。
本研究の実施について詳述した3つの研究課題に答える目的で,計24の論文をデジタル図書館を用いて選択した。
Quantum Computing is a new paradigm that enables several advances which are impossible using classical technology. With the rise of quantum computers, the software is also invited to change so that it can better fit this new computation way. However, although a lot of research is being conducted in the quantum computing field, it is still scarce studies about the differences of the software and software engineering in this new context. Therefore, this article presents a systematic mapping study to present a wide review on the particularities and characteristics of software that are developed for quantum computers. A total of 24 papers were selected using digital libraries with the objective of answering three research questions elaborated in the conduct of this research. | 翻訳日:2024-03-20 07:06:24 公開日:2024-03-15 |
# インスツルメンタル時系列による因果関係の同定 -第4報と過去の訂正-
Identifying Causal Effects using Instrumental Time Series: Nuisance IV and Correcting for the Past ( http://arxiv.org/abs/2203.06056v2 ) ライセンス: Link先を確認 | Nikolaj Thams, Rikke Søndergaard, Sebastian Weichwald, Jonas Peters, | (参考訳) 機器変数(IV)回帰は観測データから因果効果を推定するための機器に依存している。
ベクトル自己回帰(VAR)プロセスのような時系列モデルにおけるIV回帰を考察する。
i.d.テクニックの直接的な適用は、過去に依存性を正しく調整しなかったため、一般的には矛盾する。
本稿では,時系列データにおける因果関係を一貫したパラメトリック推定に利用できる方程式の同定手法を提案する。
ある方法では、余剰なニュアンス共変量を用いて識別可能性を得る(i.d.の場合でさえ興味のあるアイデア)。
さらに我々は, ニュアンスIV法や他のIV法を時系列に原則的に適用できるグラフ境界化フレームワークを提案する。
我々の手法は、VAR(p)プロセスのホールドを証明したグローバルマルコフプロパティのバージョンを利用する。
VAR(1) プロセスでは、ヨルダン形式に関連する識別可能性条件を証明し、i.d. の場合のよく知られたランク条件と異なる(例えば、共変量ほど多くの楽器を必要としない)。
我々は,その一貫性を証明し,その因果効果が分布一般化にどのように用いられるかを示す。
シミュレーション実験は、我々の理論結果を裏付ける。
使用可能なPythonコードを提供します。
Instrumental variable (IV) regression relies on instruments to infer causal effects from observational data with unobserved confounding. We consider IV regression in time series models, such as vector auto-regressive (VAR) processes. Direct applications of i.i.d. techniques are generally inconsistent as they do not correctly adjust for dependencies in the past. In this paper, we outline the difficulties that arise due to time structure and propose methodology for constructing identifying equations that can be used for consistent parametric estimation of causal effects in time series data. One method uses extra nuisance covariates to obtain identifiability (an idea that can be of interest even in the i.i.d. case). We further propose a graph marginalization framework that allows us to apply nuisance IV and other IV methods in a principled way to time series. Our methods make use of a version of the global Markov property, which we prove holds for VAR(p) processes. For VAR(1) processes, we prove identifiability conditions that relate to Jordan forms and are different from the well-known rank conditions in the i.i.d. case (they do not require as many instruments as covariates, for example). We provide methods, prove their consistency, and show how the inferred causal effect can be used for distribution generalization. Simulation experiments corroborate our theoretical results. We provide ready-to-use Python code. | 翻訳日:2024-03-20 07:06:24 公開日:2024-03-15 |
# 機械学習におけるログコッシュ損失関数の統計的特性
Statistical Properties of the log-cosh Loss Function Used in Machine Learning ( http://arxiv.org/abs/2208.04564v4 ) ライセンス: Link先を確認 | Resve A. Saleh, A. K. Md. Ehsanes Saleh, | (参考訳) 本稿では,ログコッシュ損失関数(log-cosh loss function)と呼ばれる機械学習で一般的な損失関数を解析する。
この損失関数を用いていくつかの論文が出版されているが、現在では統計学的分析は行われていない。
本稿では,ログコッシュ損失が発生する分布関数について述べる。
コーシー分布(英語版)と呼ばれる同様の分布と比較し、その特性を特徴づける様々な統計的手順を実行する。
特に、関連するpdf、cdf、可能性関数およびフィッシャー情報について検討する。
コーシー分布とコーシュ分布と、漸近バイアス、漸近分散、信頼区間を持つ位置パラメータのMLEを並べて検討する。
また、ハマー損失関数やランク分散関数を含む、他のいくつかの損失関数からのロバストな推定器の比較も提供する。
さらに,対数コッシュ関数の量子レグレッションについて検討した。
特に、量子回帰の最大極大推定器を導出できる量子分布関数を同定する。
最後に、ログコッシュに基づく量子M推定器と、畳み込み平滑化に基づく量子レグレッションに対する頑健な単調性を比較する。
This paper analyzes a popular loss function used in machine learning called the log-cosh loss function. A number of papers have been published using this loss function but, to date, no statistical analysis has been presented in the literature. In this paper, we present the distribution function from which the log-cosh loss arises. We compare it to a similar distribution, called the Cauchy distribution, and carry out various statistical procedures that characterize its properties. In particular, we examine its associated pdf, cdf, likelihood function and Fisher information. Side-by-side we consider the Cauchy and Cosh distributions as well as the MLE of the location parameter with asymptotic bias, asymptotic variance, and confidence intervals. We also provide a comparison of robust estimators from several other loss functions, including the Huber loss function and the rank dispersion function. Further, we examine the use of the log-cosh function for quantile regression. In particular, we identify a quantile distribution function from which a maximum likelihood estimator for quantile regression can be derived. Finally, we compare a quantile M-estimator based on log-cosh with robust monotonicity against another approach to quantile regression based on convolutional smoothing. | 翻訳日:2024-03-20 06:58:04 公開日:2024-03-15 |
# タンジェント・バンドル・コンボリューショナル・ラーニング:マニフォールドからセル・シーブへ
Tangent Bundle Convolutional Learning: from Manifolds to Cellular Sheaves and Back ( http://arxiv.org/abs/2303.11323v2 ) ライセンス: Link先を確認 | Claudio Battiloro, Zhiyang Wang, Hans Riess, Paolo Di Lorenzo, Alejandro Ribeiro, | (参考訳) 本研究では、接続ラプラス作用素の指数関数の観点からリーマン多様体の接束上の畳み込み演算を導入する。
我々は、この畳み込み演算に基づいて、接束フィルタと接束ニューラルネットワーク(TNN)を定義し、これは接束信号、すなわち多様体上のベクトル場を演算する新しい連続アーキテクチャである。
タンジェントバンドルフィルタは、スカラー多様体フィルタ、グラフフィルタ、標準畳み込みフィルタを連続的に一般化するスペクトル表現を許容する。
次に、空間領域と時間領域の両方で離散化手順を導入し、TNNを実装可能にする。
我々は、この離散化されたアーキテクチャが基盤となる連続TNNに収束することを正式に証明する。
最後に,提案手法の有効性を,合成データと実データの両方で数値的に評価する。
In this work we introduce a convolution operation over the tangent bundle of Riemann manifolds in terms of exponentials of the Connection Laplacian operator. We define tangent bundle filters and tangent bundle neural networks (TNNs) based on this convolution operation, which are novel continuous architectures operating on tangent bundle signals, i.e. vector fields over the manifolds. Tangent bundle filters admit a spectral representation that generalizes the ones of scalar manifold filters, graph filters and standard convolutional filters in continuous time. We then introduce a discretization procedure, both in the space and time domains, to make TNNs implementable, showing that their discrete counterpart is a novel principled variant of the very recently introduced sheaf neural networks. We formally prove that this discretized architecture converges to the underlying continuous TNN. Finally, we numerically evaluate the effectiveness of the proposed architecture on various learning tasks, both on synthetic and real data. | 翻訳日:2024-03-20 06:38:27 公開日:2024-03-15 |
# CoSMo: 条件付きプロセスシミュレーションモデルを構築するためのフレームワーク
CoSMo: a Framework to Instantiate Conditioned Process Simulation Models ( http://arxiv.org/abs/2303.17879v3 ) ライセンス: Link先を確認 | Rafael S. Oyamada, Gabriel M. Tavares, Sylvio Barbon Junior, Paolo Ceravolo, | (参考訳) ビジネスプロセスの変更に伴う潜在的なパフォーマンス改善とリスクを評価する能力について、プロセスシミュレーションが注目されている。
既存の文献では、イベントログから発見されたプロセスモデルやディープラーニングアルゴリズムに基づくさまざまなテクニックが紹介されている。
これらの技法には特定の強度と限界がある。
プロセスモデルに根ざした従来のアプローチは、解釈可能性の向上を提供する。
しかし、深層学習の実践的応用は、確率性の管理と情報の統合に関する課題に直面している。
本稿では,ユーザの制約やアプリオリ知識の他の性質に基づいて,CoSMo(Conditioned Process Simulation Models)の発見に適した,新しいリカレントニューラルネットワークを提案する。
このアーキテクチャは、宣言型ルールを学習フェーズに組み込むことで、特定の制約に従うイベントログのシミュレーションを容易にする。
実験的検証は、事前に定義された宣言的条件に固執しつつ、イベントログをシミュレートするCoSMoの有効性を示し、制御フローとデータフローの両方の観点を強調している。
Process simulation is gaining attention for its ability to assess potential performance improvements and risks associated with business process changes. The existing literature presents various techniques, generally grounded in process models discovered from event logs or built upon deep learning algorithms. These techniques have specific strengths and limitations. Traditional approaches rooted in process models offer increased interpretability, while those using deep learning excel at generalizing changes across large event logs. However, the practical application of deep learning faces challenges related to managing stochasticity and integrating information for what-if analysis. This paper introduces a novel recurrent neural architecture tailored to discover COnditioned process Simulation MOdels (CoSMo) based on user-based constraints or any other nature of a-priori knowledge. This architecture facilitates the simulation of event logs that adhere to specific constraints by incorporating declarative-based rules into the learning phase as an attempt to fill the gap of incorporating information into deep learning models to perform what-if analysis. Experimental validation illustrates CoSMo's efficacy in simulating event logs while adhering to predefined declarative conditions, emphasizing both control-flow and data-flow perspectives. | 翻訳日:2024-03-20 06:38:27 公開日:2024-03-15 |
# CPUアーキテクチャの高レベルループとテンソル抽象化によるディープラーニングとHPCカーネルのハーネス化
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures ( http://arxiv.org/abs/2304.12576v2 ) ライセンス: Link先を確認 | Evangelos Georganas, Dhiraj Kalamkar, Kirill Voronin, Abhisek Kundu, Antonio Noack, Hans Pabst, Alexander Breuer, Alexander Heinecke, | (参考訳) 過去10年間で、ディープラーニング(DL)アルゴリズム、プログラミングシステム、ハードウェアは、ハイパフォーマンスコンピューティング(HPC)のアルゴリズムと融合してきた。
それでも、DLとHPCシステムのプログラミング手法は停滞しており、高度に最適化されているが、プラットフォーム固有の非フレキシブルなベンダー最適化ライブラリに依存している。
このようなライブラリは、特定のプラットフォーム、カーネル、その形状に対して、ベンダーが専用の最適化作業を行っているのに対して、残りのユースケースではパフォーマンスが劣り、パフォーマンスガラスジャウの非可搬性コードが得られる。
この研究は、現代的なCPUアーキテクチャのための効率的でポータブルなDLとHPCカーネルを開発するためのフレームワークを導入する。
カーネル開発を2つのステップで分解する。
1) テンソルプロセッシングプリミティブ(TPP)を用いた計算コアの表現 : 2次元テンソル演算子のコンパクトで汎用的な集合
2) TPPのまわりの論理ループを高水準で宣言的に表現するのに対して, 正確なインスタンス化(順序付け, タイリング, 並列化)は単純なノブによって決定される。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
During the past decade, Deep Learning (DL) algorithms, programming systems and hardware have converged with the High Performance Computing (HPC) counterparts. Nevertheless, the programming methodology of DL and HPC systems is stagnant, relying on highly-optimized, yet platform-specific and inflexible vendor-optimized libraries. Such libraries provide close-to-peak performance on specific platforms, kernels and shapes thereof that vendors have dedicated optimizations efforts, while they underperform in the remaining use-cases, yielding non-portable codes with performance glass-jaws. This work introduces a framework to develop efficient, portable DL and HPC kernels for modern CPU architectures. We decompose the kernel development in two steps: 1) Expressing the computational core using Tensor Processing Primitives (TPPs): a compact, versatile set of 2D-tensor operators, 2) Expressing the logical loops around TPPs in a high-level, declarative fashion whereas the exact instantiation (ordering, tiling, parallelization) is determined via simple knobs. We demonstrate the efficacy of our approach using standalone kernels and end-to-end workloads that outperform state-of-the-art implementations on diverse CPU platforms. | 翻訳日:2024-03-20 06:28:31 公開日:2024-03-15 |
# コンピュータビジョンモデルがミスを犯す場所と方法のサンプルを見つけるために、インタラクティブな可視化がいかに役立つかを評価する
Evaluating how interactive visualizations can assist in finding samples where and how computer vision models make mistakes ( http://arxiv.org/abs/2305.11927v2 ) ライセンス: Link先を確認 | Hayeong Song, Gonzalo Ramos, Peter Bodik, | (参考訳) コンピュータビジョン(CV)モデルの作成は、その実用性にもかかわらず、依然として複雑なプラクティスである。
データへのアクセス、MLの専門知識の要件、モデルの不透明さは、エンドユーザがこれらのモデルを構築し、検査し、改善する能力を制限する、いくつかの複雑さのポイントに過ぎません。
インタラクティブMLの観点は、計画、教育、評価を行うループの教師を考えることで、これらの問題に対処するのに役立っている。
ビデオから得られる画像のCV分類と検出モデルを作成するシステムであるSpriteのコンテキストにおいて、2つのインタラクティブな可視化を提示し、評価する。
これらの視覚化はSpriteのユーザがモデルに苦労している箇所の識別(評価)と,クエリ言語を使用するベースライン条件と比較して,パフォーマンスの向上につながる可能性のある(計画)イメージの選択にどのように役立つかを検討する。
視覚化を使っていたユーザは、より広いタイプのモデルエラーに対して、より多くの画像を見つけました。
Creating Computer Vision (CV) models remains a complex practice, despite their ubiquity. Access to data, the requirement for ML expertise, and model opacity are just a few points of complexity that limit the ability of end-users to build, inspect, and improve these models. Interactive ML perspectives have helped address some of these issues by considering a teacher in the loop where planning, teaching, and evaluating tasks take place. We present and evaluate two interactive visualizations in the context of Sprite, a system for creating CV classification and detection models for images originating from videos. We study how these visualizations help Sprite's users identify (evaluate) and select (plan) images where a model is struggling and can lead to improved performance, compared to a baseline condition where users used a query language. We found that users who had used the visualizations found more images across a wider set of potential types of model errors. | 翻訳日:2024-03-20 06:28:31 公開日:2024-03-15 |
# すべて解決したのか? 大規模言語モデルで解決されていないオープンNLP研究の疑問
Has It All Been Solved? Open NLP Research Questions Not Solved by Large Language Models ( http://arxiv.org/abs/2305.12544v2 ) ライセンス: Link先を確認 | Oana Ignat, Zhijing Jin, Artem Abzaliev, Laura Biester, Santiago Castro, Naihao Deng, Xinyi Gao, Aylin Gunal, Jacky He, Ashkan Kazemi, Muhammad Khalifa, Namho Koh, Andrew Lee, Siyang Liu, Do June Min, Shinka Mori, Joan Nwatu, Veronica Perez-Rosas, Siqi Shen, Zekun Wang, Winston Wu, Rada Mihalcea, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、多くの生成NLPアプリケーションのデプロイを可能にしている。
同時に、それは『それはすべて解決された』という誤解を招く世論も引き起こしている。
驚くべきことではないが、これによって多くのNLP研究者(特にキャリアの始めの研究者)が、どのNLP研究分野に注力すべきかを心配するようになった。
すべては解決されたのか、それとも、LCMに関係なく、残っている質問は何か?
この問題に対処するため,本論文ではNLP研究の方向性を整理し,探索に役立てる。
LLMで直接解けない45の研究方向を含む14の異なる研究領域を同定する。
我々は、多くの研究領域を識別する一方で、他の多くの分野も存在しており、現在LLMによって対処されている領域はカバーしていない。
https://bit.ly/nlp-era-llm
Recent progress in large language models (LLMs) has enabled the deployment of many generative NLP applications. At the same time, it has also led to a misleading public discourse that ``it's all been solved.'' Not surprisingly, this has, in turn, made many NLP researchers -- especially those at the beginning of their careers -- worry about what NLP research area they should focus on. Has it all been solved, or what remaining questions can we work on regardless of LLMs? To address this question, this paper compiles NLP research directions rich for exploration. We identify fourteen different research areas encompassing 45 research directions that require new research and are not directly solvable by LLMs. While we identify many research areas, many others exist; we do not cover areas currently addressed by LLMs, but where LLMs lag behind in performance or those focused on LLM development. We welcome suggestions for other research directions to include: https://bit.ly/nlp-era-llm | 翻訳日:2024-03-20 06:28:31 公開日:2024-03-15 |
# FEDORA:Flying Event Dataset fOr Reactive behAvior
FEDORA: Flying Event Dataset fOr Reactive behAvior ( http://arxiv.org/abs/2305.14392v2 ) ライセンス: Link先を確認 | Amogh Joshi, Adarsh Kosta, Wachirawit Ponghiran, Manish Nagaraj, Kaushik Roy, | (参考訳) ショウジョウバエのような資源に制約された生物系が、乱雑な環境で複雑で高速な操作を行う能力は、視覚に基づく自律システムを開発する上でのインスピレーションの1つとなっている。
この能力をエミュレートするために、そのようなシステムの知覚パイプラインは、光学フローや深度推定、物体の検出と追跡、セグメンテーションなどのタスクからの情報キューを統合する必要がある。
しかし、標準フレームカメラからの遅い同期入力を用いる従来のアプローチは、特に高速操作において、これらの知覚能力を制限している。
近年、イベントベースのセンサーは、高速な動きを捉え、知覚を効果的にスピードアップし、ナビゲーションを行うための標準フレームベースのカメラに代わる、低レイテンシと低エネルギーの代替品として出現している。
コヒーレンスのためには、すべての知覚タスクは、同じ入力データに基づいてトレーニングされなければならない。
しかし、現在のデータセットは、主に1つまたは少数のタスクのためにキュレートされ、提供された土台真実の速度に制限されている。
これらの制限に対処するため、Flying Event Dataset fOr Reactive behAviour (FEDORA) – フレームベースのカメラ、イベントベースのカメラ、慣性計測ユニット(IMU)の生データとともに、既存のデータセットよりもはるかに高いレートで、知覚タスクのための完全な合成データセットを提供する。
The ability of resource-constrained biological systems such as fruitflies to perform complex and high-speed maneuvers in cluttered environments has been one of the prime sources of inspiration for developing vision-based autonomous systems. To emulate this capability, the perception pipeline of such systems must integrate information cues from tasks including optical flow and depth estimation, object detection and tracking, and segmentation, among others. However, the conventional approach of employing slow, synchronous inputs from standard frame-based cameras constrains these perception capabilities, particularly during high-speed maneuvers. Recently, event-based sensors have emerged as low latency and low energy alternatives to standard frame-based cameras for capturing high-speed motion, effectively speeding up perception and hence navigation. For coherence, all the perception tasks must be trained on the same input data. However, present-day datasets are curated mainly for a single or a handful of tasks and are limited in the rate of the provided ground truths. To address these limitations, we present Flying Event Dataset fOr Reactive behAviour (FEDORA) - a fully synthetic dataset for perception tasks, with raw data from frame-based cameras, event-based cameras, and Inertial Measurement Units (IMU), along with ground truths for depth, pose, and optical flow at a rate much higher than existing datasets. | 翻訳日:2024-03-20 04:32:24 公開日:2024-03-15 |
# コード変換型ソーシャルメディアテキストにおけるプロパガンダ手法の検出
Detecting Propaganda Techniques in Code-Switched Social Media Text ( http://arxiv.org/abs/2305.14534v2 ) ライセンス: Link先を確認 | Muhammad Umar Salman, Asif Hanif, Shady Shehata, Preslav Nakov, | (参考訳) プロパガンダ(Propaganda)とは、特定の議題を広めるために、人々の意見や考え方に影響を与えることを意図したコミュニケーション形態である。
ソーシャルメディアの普及に伴い、プロパガンダは急速に普及し、自動プロパガンダ検出システムの必要性が高まった。
プロパガンダ検出に関するほとんどの研究は、英語などの高リソース言語に焦点を当てており、低リソース言語のためのプロパガンダを検出する努力はほとんど行われていない。
しかし、ソーシャルメディアコミュニケーションにおいて、コードスイッチング(code-switching)として知られる現象として、複数の言語が混在していることが一般的である。
コードスイッチングは同じテキスト内で異なる言語を組み合わせることで、自動システムに挑戦する。
そこで本研究では,コードスイッチトテキスト中のプロパガンダ技術を検出する新しいタスクを提案する。
このタスクを支援するために、20のプロパガンダ技術で注釈付けされた英語とローマ・ウルドゥー語をコードスイッチする1,030のコーパスを作成し、公開します。
我々は,異なる実験装置と対比する実験を多数実施し,多言語性を(翻訳ではなく)直接モデル化し,適切な微調整戦略を用いることが重要であることを確認した。
コードとデータセットはhttps://github.com/mbzuai-nlp/propaganda-codeswitched-textで公開されている。
Propaganda is a form of communication intended to influence the opinions and the mindset of the public to promote a particular agenda. With the rise of social media, propaganda has spread rapidly, leading to the need for automatic propaganda detection systems. Most work on propaganda detection has focused on high-resource languages, such as English, and little effort has been made to detect propaganda for low-resource languages. Yet, it is common to find a mix of multiple languages in social media communication, a phenomenon known as code-switching. Code-switching combines different languages within the same text, which poses a challenge for automatic systems. With this in mind, here we propose the novel task of detecting propaganda techniques in code-switched text. To support this task, we create a corpus of 1,030 texts code-switching between English and Roman Urdu, annotated with 20 propaganda techniques, which we make publicly available. We perform a number of experiments contrasting different experimental setups, and we find that it is important to model the multilinguality directly (rather than using translation) as well as to use the right fine-tuning strategy. The code and the dataset are publicly available at https://github.com/mbzuai-nlp/propaganda-codeswitched-text | 翻訳日:2024-03-20 04:32:24 公開日:2024-03-15 |
# 大規模言語モデルの自己矛盾型幻覚:評価・検出・緩和
Self-contradictory Hallucinations of Large Language Models: Evaluation, Detection and Mitigation ( http://arxiv.org/abs/2305.15852v3 ) ライセンス: Link先を確認 | Niels Mündler, Jingxuan He, Slobodan Jenko, Martin Vechev, | (参考訳) 大規模な言語モデル(より大きなLM)は、幻覚的内容を含むテキストを生成できる。
この問題の重要な例は自己矛盾であり、LMは同じ文脈内で2つの矛盾する文を生成する。
本研究は,各種命令調整型LMの自己コントラクションに関する包括的調査を行い,評価,検出,緩和について述べる。
我々の主要な評価課題は、オープンドメインテキスト生成であるが、より短い質問応答へのアプローチの適用性も示す。
分析の結果,ChatGPTが生成する全文の17.7%において,自己矛盾の頻度が明らかとなった。
そこで我々は,自己矛盾を効果的に検出・緩和する新しいプロンプトベースのフレームワークを提案する。
また,ChatGPTを誘導すると,約80%のF1スコアが得られた。
緩和アルゴリズムは、生成したテキストを反復的に洗練し、テキストの流布や報知性を保ちながら矛盾する情報を除去する。
重要なことは、我々のフレームワーク全体がブラックボックスのLMに適用でき、外部知識の検索は不要である。
むしろ,本手法は検索に基づく手法を補完するものであり,多くの自己矛盾(例:ChatGPTの35.2%)はオンラインテキストでは検証できない。
当社のアプローチは事実上効果的で、https://chat protection.ai/.com/で一般市民に利益をもたらすプッシュボタンツールとしてリリースされています。
Large language models (large LMs) are susceptible to producing text that contains hallucinated content. An important instance of this problem is self-contradiction, where the LM generates two contradictory sentences within the same context. In this work, we present a comprehensive investigation into self-contradiction for various instruction-tuned LMs, covering evaluation, detection, and mitigation. Our primary evaluation task is open-domain text generation, but we also demonstrate the applicability of our approach to shorter question answering. Our analysis reveals the prevalence of self-contradictions, e.g., in 17.7% of all sentences produced by ChatGPT. We then propose a novel prompting-based framework designed to effectively detect and mitigate self-contradictions. Our detector achieves high accuracy, e.g., around 80% F1 score when prompting ChatGPT. The mitigation algorithm iteratively refines the generated text to remove contradictory information while preserving text fluency and informativeness. Importantly, our entire framework is applicable to black-box LMs and does not require retrieval of external knowledge. Rather, our method complements retrieval-based methods, as a large portion of self-contradictions (e.g., 35.2% for ChatGPT) cannot be verified using online text. Our approach is practically effective and has been released as a push-button tool to benefit the public at https://chatprotect.ai/. | 翻訳日:2024-03-20 04:32:24 公開日:2024-03-15 |
# 離散ウォークジャンプサンプリングによるタンパク質の発見
Protein Discovery with Discrete Walk-Jump Sampling ( http://arxiv.org/abs/2306.12360v2 ) ライセンス: Link先を確認 | Nathan C. Frey, Daniel Berenberg, Karina Zadorozhny, Joseph Kleinhenz, Julien Lafrance-Vanasse, Isidro Hotzel, Yan Wu, Stephen Ra, Richard Bonneau, Kyunghyun Cho, Andreas Loukas, Vladimir Gligorijevic, Saeed Saremi, | (参考訳) 我々は、スムーズなエネルギー関数を学習し、ランゲヴィン・マルコフ連鎖モンテカルロ(MCMC)でスムーズなデータ多様体からサンプリングし、一段階のデノイングで真のデータ多様体に投影することで、離散生成モデルからのトレーニングとサンプリングの困難を解消する。
我々の離散ウォーク・ジャンプサンプリング形式は、エネルギーベースモデルの対照的なばらつき訓練とスコアベースモデルのサンプル品質の向上を組み合わせ、単一ノイズレベルのみを必要とするトレーニングとサンプリングを簡素化する。
抗体タンパク質生成モデルにおける本手法のロバスト性を評価し, タンパク質生成モデルに分布整合性スコアを導入する。
提案した分布適合度スコアをモデルから最適化・サンプリングすることにより, 97-100%のサンプルを正常に表現し精製し, 機能性設計の70%は, 実験1回実験において, 既知の機能性抗体と同等か改善された結合親和性を示す。
また,MCMC鎖に多種多様な抗体タンパク群が出現する長周期高速混合MCMCMC鎖の最初の実演も報告した。
We resolve difficulties in training and sampling from a discrete generative model by learning a smoothed energy function, sampling from the smoothed data manifold with Langevin Markov chain Monte Carlo (MCMC), and projecting back to the true data manifold with one-step denoising. Our Discrete Walk-Jump Sampling formalism combines the contrastive divergence training of an energy-based model and improved sample quality of a score-based model, while simplifying training and sampling by requiring only a single noise level. We evaluate the robustness of our approach on generative modeling of antibody proteins and introduce the distributional conformity score to benchmark protein generative models. By optimizing and sampling from our models for the proposed distributional conformity score, 97-100% of generated samples are successfully expressed and purified and 70% of functional designs show equal or improved binding affinity compared to known functional antibodies on the first attempt in a single round of laboratory experiments. We also report the first demonstration of long-run fast-mixing MCMC chains where diverse antibody protein classes are visited in a single MCMC chain. | 翻訳日:2024-03-20 04:22:24 公開日:2024-03-15 |
# 最大交絡状態に対する定値自己試験と単射影測定
Constant-sized self-tests for maximally entangled states and single projective measurements ( http://arxiv.org/abs/2306.13498v2 ) ライセンス: Link先を確認 | Jurij Volčič, | (参考訳) 自己テストは、測定された古典的な統計に依存する量子システムの強力な認証である。
本稿では,少数の入力と出力を持つ2部構成ベルシナリオにおける自己検査について考察するが,量子状態と任意に大きい次元の測定を行う。
コントリビューションは2つです。
まず、すべての最大絡み合った状態が、パーティ毎に4つのバイナリ測定で自己テストできることが示される。
この結果は、Man\v{c}inska-Prakash-Schafhauser (2021) の初期の研究を拡張し、奇数次元のみの最大交絡状態に適用した。
第二に、各二分射影測定は各パーティーごとに5つの二分測度で自己検査できることが示される。
同様の声明は、2つ以上の出力を持つ射影測度を自己検査するものである。
これらの結果は、アイデンティティのスカラー倍に加算される射影の四重項の表現理論によって実現される。
既約表現の構造、スペクトルの特徴の分析、ポストホック自己テストは、少数の入力と出力で新しい自己テストを構築するための主要な方法である。
Self-testing is a powerful certification of quantum systems relying on measured, classical statistics. This paper considers self-testing in bipartite Bell scenarios with small number of inputs and outputs, but with quantum states and measurements of arbitrarily large dimension. The contributions are twofold. Firstly, it is shown that every maximally entangled state can be self-tested with four binary measurements per party. This result extends the earlier work of Man\v{c}inska-Prakash-Schafhauser (2021), which applies to maximally entangled states of odd dimensions only. Secondly, it is shown that every single binary projective measurement can be self-tested with five binary measurements per party. A similar statement holds for self-testing of projective measurements with more than two outputs. These results are enabled by the representation theory of quadruples of projections that add to a scalar multiple of the identity. Structure of irreducible representations, analysis of their spectral features and post-hoc self-testing are the primary methods for constructing the new self-tests with small number of inputs and outputs. | 翻訳日:2024-03-20 04:22:24 公開日:2024-03-15 |
# milli Flow:人間のモーションセンシングのためのミリ波レーダ点雲のシーンフロー推定
milliFlow: Scene Flow Estimation on mmWave Radar Point Cloud for Human Motion Sensing ( http://arxiv.org/abs/2306.17010v6 ) ライセンス: Link先を確認 | Fangqiang Ding, Zhen Luo, Peijun Zhao, Chris Xiaoxuan Lu, | (参考訳) ヒューマンモーションセンシングは、意思決定、ユーザインタラクション、パーソナライズされたサービスにおいて、スマートシステムにおいて重要な役割を果たす。
大規模な研究は、主にカメラに基づいており、その侵入性はスマートホームアプリケーションでの使用を制限する。
この問題を解決するために、mWaveレーダーはプライバシーに優しい機能のために人気を集めている。
本研究では,mmWave 点雲の相補的な動き情報としてシーンフローを推定する新たな深層学習手法である MilliFlow を提案する。
実験により, 競合する手法と比較して, 提案手法の優れた性能が示された。
さらに、シーンフロー情報を取り入れることで、人間の活動認識と人間のパーシングの大幅な改善を実現し、人体部分追跡を支援する。
この分野のさらなる研究を促進するため、オープンアクセスのためのコードベースとデータセットを提供したいと思います。
Human motion sensing plays a crucial role in smart systems for decision-making, user interaction, and personalized services. Extensive research that has been conducted is predominantly based on cameras, whose intrusive nature limits their use in smart home applications. To address this, mmWave radars have gained popularity due to their privacy-friendly features. In this work, we propose milliFlow, a novel deep learning approach to estimate scene flow as complementary motion information for mmWave point cloud, serving as an intermediate level of features and directly benefiting downstream human motion sensing tasks. Experimental results demonstrate the superior performance of our method when compared with the competing approaches. Furthermore, by incorporating scene flow information, we achieve remarkable improvements in human activity recognition and human parsing and support human body part tracking. To foster further research in this area, we will provide our codebase and dataset for open access. | 翻訳日:2024-03-20 04:22:24 公開日:2024-03-15 |
# 中心スピンのコヒーレンス限界を超える環境スピン欠陥の制御
Control of an environmental spin defect beyond the coherence limit of a central spin ( http://arxiv.org/abs/2306.17155v3 ) ライセンス: Link先を確認 | Alexander Ungar, Paola Cappellaro, Alexandre Cooper, Won Kyu Calvin Sun, | (参考訳) 光学活性スピンの環境における電子スピン欠陥は、特に量子力学や量子通信における固体量子レジスタのサイズと性能を高めるために用いられる。
ダイヤモンド中の窒素-原子空洞(NV)中心の環境における電子スピンレジスタの以前の研究は、NVに直接結合するスピンのみを含んでいた。
この直接結合は中心スピンコヒーレンス時間によって制限されるため、レジスタの最大到達可能なサイズを著しく制限する。
この問題に対処するため,電子スピンレジスタのサイズを拡大するためのスケーラブルなアプローチを提案する。
提案手法は、両共振制御配列とともに弱い結合のプローブスピンを利用して、中心NVスピンと直接結合しない環境スピンとの間のスピン偏極の移動を仲介する。
我々は, 中心NVのコヒーレンス限界外における未知電子スピンの検出とコヒーレント制御を実証するために, このアプローチを実験的に実現した。
我々の研究は、ナノスケールセンシングを推進し、誤り訂正のための相関ノイズスペクトロスコピーを有効にし、量子通信のためのスピンチェーン量子ワイヤの実現を促進するため、より大きな量子レジスタを工学的に開発する方法を開拓する。
Electronic spin defects in the environment of an optically-active spin can be used to increase the size and hence the performance of solid-state quantum registers, especially for applications in quantum metrology and quantum communication. Previous works on multi-qubit electronic-spin registers in the environment of a Nitrogen-Vacancy (NV) center in diamond have only included spins directly coupled to the NV. As this direct coupling is limited by the central spin coherence time, it significantly restricts the register's maximum attainable size. To address this problem, we present a scalable approach to increase the size of electronic-spin registers. Our approach exploits a weakly-coupled probe spin together with double-resonance control sequences to mediate the transfer of spin polarization between the central NV spin and an environmental spin that is not directly coupled to it. We experimentally realize this approach to demonstrate the detection and coherent control of an unknown electronic spin outside the coherence limit of a central NV. Our work paves the way for engineering larger quantum spin registers with the potential to advance nanoscale sensing, enable correlated noise spectroscopy for error correction, and facilitate the realization of spin-chain quantum wires for quantum communication. | 翻訳日:2024-03-20 04:22:24 公開日:2024-03-15 |
# モデル圧縮の隠れたコストを明らかにする
Uncovering the Hidden Cost of Model Compression ( http://arxiv.org/abs/2308.14969v3 ) ライセンス: Link先を確認 | Diganta Misra, Muawiz Chaudhary, Agam Goyal, Bharat Runwal, Pin Yu Chen, | (参考訳) 資源集約型基盤モデルに支配される時代には、下流のタスクに効率的に適応する能力が不可欠である。
視覚プロンプティング(VP)は、コンピュータビジョンの領域において、大きな言語モデル (LLMs) で使用されるプロンプト技術からインスピレーションを得ている。
効率の重要性が高まるにつれて、過パラメータ化されたニューラルネットワークの訓練や展開に伴う計算負担を軽減するために、モデル圧縮の研究は不可欠になっている。
モデル圧縮の主要な目的は、過度にパラメータ化された完全な精度のモデルの性能をマッチングまたは超越できるスパースモデルや量子化モデルを開発することである。
従来, モデル圧縮が伝達学習に与える影響について検討してきたが, 視覚的プロンプトに基づく伝達への影響はいまだ不明である。
本研究は, このギャップを埋めることを目的としており, モデル圧縮が視覚的プロンプトベース転送の性能に悪影響を及ぼすという事実に光を当てている。
さらに, 下流域視覚刺激モデルの校正における疎水性の影響について検討した。
しかし、興味深いことに、モデルが量子化によって圧縮されるとき、キャリブレーションに対するそのような負の効果は存在しないことも示している。
この経験的調査は、スパースと量子化された設定における単なる正確さ以上のニュアンスな理解の必要性を浮き彫りにして、スパースと量子化されたモデルに適したビジュアルプロンプティング技術におけるさらなる探索の道を開く。
In an age dominated by resource-intensive foundation models, the ability to efficiently adapt to downstream tasks is crucial. Visual Prompting (VP), drawing inspiration from the prompting techniques employed in Large Language Models (LLMs), has emerged as a pivotal method for transfer learning in the realm of computer vision. As the importance of efficiency continues to rise, research into model compression has become indispensable in alleviating the computational burdens associated with training and deploying over-parameterized neural networks. A primary objective in model compression is to develop sparse and/or quantized models capable of matching or even surpassing the performance of their over-parameterized, full-precision counterparts. Although previous studies have explored the effects of model compression on transfer learning, its impact on visual prompting-based transfer remains unclear. This study aims to bridge this gap, shedding light on the fact that model compression detrimentally impacts the performance of visual prompting-based transfer, particularly evident in scenarios with low data volume. Furthermore, our findings underscore the adverse influence of sparsity on the calibration of downstream visual-prompted models. However, intriguingly, we also illustrate that such negative effects on calibration are not present when models are compressed via quantization. This empirical investigation underscores the need for a nuanced understanding beyond mere accuracy in sparse and quantized settings, thereby paving the way for further exploration in Visual Prompting techniques tailored for sparse and quantized models. | 翻訳日:2024-03-20 04:02:28 公開日:2024-03-15 |
# Ebb と Flow の評価: 多様なプラットフォームにおける質問応答傾向の詳細な分析
Evaluating the Ebb and Flow: An In-depth Analysis of Question-Answering Trends across Diverse Platforms ( http://arxiv.org/abs/2309.05961v5 ) ライセンス: Link先を確認 | Rima Hazra, Agnik Saha, Somnath Banerjee, Animesh Mukherjee, | (参考訳) コミュニティ質問回答(Community Question Answering, CQA)プラットフォームは,クエリに対する迅速な応答をユーザに提供することで,着実に人気を集めている。
これらの応答の迅速さは、クエリ固有の要素とユーザ関連の要素の混合に基づいている。
本稿では,これらの要因を,人気の高い6つのCQAプラットフォームのコンテキスト内で調査する。
本研究は,質問に対する最初の回答に要する時間と,質問のメタデータ,質問の定式化,ユーザ間のインタラクションのレベルとの相関関係を明らかにする。
さらに、従来の機械学習モデルを用いてこれらのメタデータとユーザインタラクションのパターンを分析し、どのクエリがすぐに最初のレスポンスを受け取るかを予測する。
Community Question Answering (CQA) platforms steadily gain popularity as they provide users with fast responses to their queries. The swiftness of these responses is contingent on a mixture of query-specific and user-related elements. This paper scrutinizes these contributing factors within the context of six highly popular CQA platforms, identified through their standout answering speed. Our investigation reveals a correlation between the time taken to yield the first response to a question and several variables: the metadata, the formulation of the questions, and the level of interaction among users. Additionally, by employing conventional machine learning models to analyze these metadata and patterns of user interaction, we endeavor to predict which queries will receive their initial responses promptly. | 翻訳日:2024-03-20 04:02:28 公開日:2024-03-15 |
# 学習ICP重みを用いたレーダーライダー位置推定
Pointing the Way: Refining Radar-Lidar Localization Using Learned ICP Weights ( http://arxiv.org/abs/2309.08731v2 ) ライセンス: Link先を確認 | Daniil Lisus, Johann Laconte, Keenan Burnett, Timothy D. Barfoot, | (参考訳) 本稿では,ライダーマップに対するレーダー計測の局所化を改善するための,ディープラーニングに基づく新しいアプローチを提案する。
ローカライゼーションの最先端はライダーデータとライダーマップのマッチングにあるが、レーダーは有望な代替手段だと考えられてきた。
これは主に、降雨や大霧などの悪天候に対してレーダーがより弾力性があるためである。
既存の高品質ライダーマップを悪天候下での性能を維持しつつ利用するためには、レーダーデータとライダーマップとのマッチングが重要である。
しかし、レーダー・ライダーの局部化はレーダー・ライダーシステムに匹敵する性能を達成するのに苦戦しており、自律走行では不可能である。
この研究は、ICPベースのレーダーライダーローカライゼーションシステムに基づいて、高レベルのスキャン情報に基づいてレーダーポイントを重み付けする学習前処理ステップを含む。
解析的なアプローチと学習重量を組み合わせることで、レーダーライダーICPの結果のローカライゼーションエラーを、解釈性と堅牢性を維持しながら、実際の自律運転データ上で最大54.94%の翻訳と68.39%の回転で低減することができる。
This paper presents a novel deep-learning-based approach to improve localizing radar measurements against lidar maps. Although the state of the art for localization is matching lidar data to lidar maps, radar has been considered as a promising alternative. This is largely due to radar being more resilient against adverse weather such as precipitation and heavy fog. To make use of existing high-quality lidar maps, while maintaining performance in adverse weather, it is of interest to match radar data to lidar maps. However, owing in part to the unique artefacts present in radar measurements, radar-lidar localization has struggled to achieve comparable performance to lidar-lidar systems, preventing it from being viable for autonomous driving. This work builds on an ICP-based radar-lidar localization system by including a learned preprocessing step that weights radar points based on high-level scan information. Combining a proven analytical approach with a learned weight reduces localization errors in radar-lidar ICP results run on real-world autonomous driving data by up to 54.94% in translation and 68.39% in rotation, while maintaining interpretability and robustness. | 翻訳日:2024-03-20 04:02:28 公開日:2024-03-15 |
# DreamLLM: シンジスティックなマルチモーダル理解と創造
DreamLLM: Synergistic Multimodal Comprehension and Creation ( http://arxiv.org/abs/2309.11499v2 ) ライセンス: Link先を確認 | Runpei Dong, Chunrui Han, Yuang Peng, Zekun Qi, Zheng Ge, Jinrong Yang, Liang Zhao, Jianjian Sun, Hongyu Zhou, Haoran Wei, Xiangwen Kong, Xiangyu Zhang, Kaisheng Ma, Li Yi, | (参考訳) 本稿では,マルチモーダル理解と創造の相乗効果が頻繁に見過ごされる多モーダル大規模言語モデル(MLLM)を初めて実現した学習フレームワークであるDreamLLMを提案する。
DreamLLM には2つの基本原理がある。
1つ目は、生マルチモーダル空間の直接サンプリングによる言語と画像後部の生成モデリングである。
このアプローチは、CLIPのような外部特徴抽出器固有の制限と情報損失を回避し、より詳細なマルチモーダル理解を得る。
第二に、DreamLLMは生のインターリーブドドキュメントの生成を促進し、テキストと画像の両方のコンテンツと非構造化レイアウトをモデル化する。
これにより、DreamLLMは条件、限界、共同のマルチモーダル分布を効果的に学習することができる。
その結果、DreamLLMはフリーフォームインターリーブコンテンツを生成する最初のMLLMとなった。
総合的な実験では、ゼロショットのマルチモーダルジェネラリストとしてのDreamLLMの優れたパフォーマンスが強調され、強化された学習シナジーの恩恵を受けている。
プロジェクトページ: https://dreamllm.github.io
This paper presents DreamLLM, a learning framework that first achieves versatile Multimodal Large Language Models (MLLMs) empowered with frequently overlooked synergy between multimodal comprehension and creation. DreamLLM operates on two fundamental principles. The first focuses on the generative modeling of both language and image posteriors by direct sampling in the raw multimodal space. This approach circumvents the limitations and information loss inherent to external feature extractors like CLIP, and a more thorough multimodal understanding is obtained. Second, DreamLLM fosters the generation of raw, interleaved documents, modeling both text and image contents, along with unstructured layouts. This allows DreamLLM to learn all conditional, marginal, and joint multimodal distributions effectively. As a result, DreamLLM is the first MLLM capable of generating free-form interleaved content. Comprehensive experiments highlight DreamLLM's superior performance as a zero-shot multimodal generalist, reaping from the enhanced learning synergy. Project page: https://dreamllm.github.io. | 翻訳日:2024-03-20 03:52:43 公開日:2024-03-15 |
# 逆問題に対する教師なしニューラルネットワークの収束と回復保証
Convergence and Recovery Guarantees of Unsupervised Neural Networks for Inverse Problems ( http://arxiv.org/abs/2309.12128v3 ) ライセンス: Link先を確認 | Nathan Buskulic, Jalal Fadili, Yvain Quéau, | (参考訳) 近年、ニューラルネットワークは逆問題の解決に顕著なアプローチとなっている。
逆問題を経験的に解くためにこのような手法の多元性を開発したが、これらの方法に対する明確な理論的保証はいまだに欠如している。
一方で、多くの研究がニューラルネットワークの最適解に収束することを証明し、オーバーパラメトリゼーションをニューラルタンジェントカーネルを制御する方法として用いた。
本研究では,これらの2つの世界を橋渡しする方法を検討するとともに,逆問題を解決するために訓練された非教師なしフィードフォワード多層ニューラルネットワークのクラスに対して,決定論的収束と回復保証を提供する。
また、スムーズなアクティベーション関数を持つ2層ディープ逆プリエントネットワークが保証の恩恵を受けるようなオーバーパラメトリゼーション境界を導出する。
Neural networks have become a prominent approach to solve inverse problems in recent years. While a plethora of such methods was developed to solve inverse problems empirically, we are still lacking clear theoretical guarantees for these methods. On the other hand, many works proved convergence to optimal solutions of neural networks in a more general setting using overparametrization as a way to control the Neural Tangent Kernel. In this work we investigate how to bridge these two worlds and we provide deterministic convergence and recovery guarantees for the class of unsupervised feedforward multilayer neural networks trained to solve inverse problems. We also derive overparametrization bounds under which a two-layers Deep Inverse Prior network with smooth activation function will benefit from our guarantees. | 翻訳日:2024-03-20 03:52:43 公開日:2024-03-15 |
# 深層ニューラルネットワークは予測どおりに外挿する
Deep Neural Networks Tend To Extrapolate Predictably ( http://arxiv.org/abs/2310.00873v2 ) ライセンス: Link先を確認 | Katie Kang, Amrith Setlur, Claire Tomlin, Sergey Levine, | (参考訳) 従来の知恵は、ニューラルネットワークの予測は、アウト・オブ・ディストリビューション(OOD)の入力に直面した場合、予測不可能で過信される傾向があることを示唆している。
我々の研究は、高次元入力によるニューラルネットワークのこの仮定を再評価する。
任意の方法で外挿するのではなく、入力データがOODになるにつれて、ニューラルネットワークの予測が一定値に傾向することが多いことを観察する。
さらに、この値は、しばしば最適定数解(OCS)、すなわち、入力を観察せずにトレーニングデータに対する平均損失を最小化する予測を近似する。
CIFAR10-C, ImageNet-R, S)、損失関数(クロスエントロピー, MSE, ガウスNLL)、アーキテクチャ(CNN, トランスフォーマー)の異なる8つのデータセットにまたがってこの現象を示す。
さらに、まず実験的な検証を行い、ReLUアクティベーションを伴う深い均質ネットワークを含む単純化された環境で理論的に研究する。
最後に、OOD入力の存在下でリスクに敏感な意思決定を可能にするために、私たちの洞察を実際に活用する方法を示す。
Conventional wisdom suggests that neural network predictions tend to be unpredictable and overconfident when faced with out-of-distribution (OOD) inputs. Our work reassesses this assumption for neural networks with high-dimensional inputs. Rather than extrapolating in arbitrary ways, we observe that neural network predictions often tend towards a constant value as input data becomes increasingly OOD. Moreover, we find that this value often closely approximates the optimal constant solution (OCS), i.e., the prediction that minimizes the average loss over the training data without observing the input. We present results showing this phenomenon across 8 datasets with different distributional shifts (including CIFAR10-C and ImageNet-R, S), different loss functions (cross entropy, MSE, and Gaussian NLL), and different architectures (CNNs and transformers). Furthermore, we present an explanation for this behavior, which we first validate empirically and then study theoretically in a simplified setting involving deep homogeneous networks with ReLU activations. Finally, we show how one can leverage our insights in practice to enable risk-sensitive decision-making in the presence of OOD inputs. | 翻訳日:2024-03-20 03:42:41 公開日:2024-03-15 |
# MiniGPT-5: 生成投票によるインターリーブ型視覚・言語生成
MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens ( http://arxiv.org/abs/2310.02239v3 ) ライセンス: Link先を確認 | Kaizhi Zheng, Xuehai He, Xin Eric Wang, | (参考訳) MLLM(Multimodal Large Language Models)の有効性は,マルチモーダル理解において重要な能力を示す。
しかし、コヒーレントテキストによる画像の同時生成はいまだに未発達である。
そこで本研究では,「生成ヴォケンズ」の概念を中心に,新たな視覚・言語間のインターリーブ生成手法を提案する。
これらのボウケンは、コヒーレントな画像テキスト出力に寄与する重要な要素として機能する。
本手法は,画像の広範な記述を必要としない,記述自由なマルチモーダル生成のためのユニークな2段階トレーニング戦略を特徴とする。
我々は、生成した画像やテキストのアライメントを強化するために、分類器のないガイダンスを統合し、よりシームレスで文脈的に関連するマルチモーダルインタラクションを保証する。
提案モデルであるMiniGPT-5は,MDDialogやVISTなどのマルチモーダル生成データセットのベースラインモデルよりも大幅に改善されている。
人による評価では、MiniGPT-5は565%以上のマルチモーダル生成のベースラインモデルよりも優れており、様々なベンチマークでその有効性を強調している。
The effectiveness of Multimodal Large Language Models (MLLMs) demonstrates a profound capability in multimodal understanding. However, the simultaneous generation of images with coherent texts is still underdeveloped. Addressing this, we introduce a novel interleaved vision-and-language generation method, centered around the concept of ``generative vokens". These vokens serve as pivotal elements contributing to coherent image-text outputs. Our method is marked by a unique two-stage training strategy for description-free multimodal generation, which does not necessitate extensive descriptions of images. We integrate classifier-free guidance to enhance the alignment of generated images and texts, ensuring more seamless and contextually relevant multimodal interactions. Our model, MiniGPT-5, exhibits substantial improvement over the baseline models on multimodal generation datasets, including MMDialog and VIST. The human evaluation shows MiniGPT-5 is better than the baseline model on more than 56\% cases for multimodal generation, highlighting its efficacy across diverse benchmarks. | 翻訳日:2024-03-20 03:42:41 公開日:2024-03-15 |
# 拡散モデルの一般化は幾何適応調和表現から生じる
Generalization in diffusion models arises from geometry-adaptive harmonic representations ( http://arxiv.org/abs/2310.02557v2 ) ライセンス: Link先を確認 | Zahra Kadkhodaie, Florentin Guth, Eero P. Simoncelli, Stéphane Mallat, | (参考訳) 画像復調のために訓練されたディープニューラルネットワーク(DNN)は、スコアベースの逆拡散アルゴリズムを用いて高品質なサンプルを生成することができる。
これらの印象的な能力は、次元の呪いから逃れることを意味しているように見えるが、最近のトレーニングセットの記憶は、これらのネットワークがデータの「真の」連続密度を学習しているかどうかという疑問を提起している。
ここでは、データセットの重複しない部分集合で訓練された2つのDNNが、ほぼ同じスコア関数を学習し、したがって、トレーニング画像の数が十分に大きい場合、同じ密度を学習することを示す。
この強い一般化の状況において、拡散生成画像はトレーニングセットと異なり、高い視覚的品質であり、DNNの帰納バイアスはデータ密度とよく一致していることを示唆している。
学習した復調関数を解析し、帰納的バイアスが基礎となる画像に適応して縮小操作を生じさせることを示す。
これらの基底を調べると、等質領域と輪郭に沿った振動する調和構造が明らかになる。
トレーニングされたデノイザは、これらの幾何適応調和ベースに対して誘導的に偏りがあることを実証する。なぜなら、ネットワークが写真画像上でトレーニングされたときだけでなく、低次元多様体上でハーモニック基底が最適である画像クラスでトレーニングされたときにも発生するからである。
最後に、最適基底が幾何適応的かつ調和的であることが知られている正規画像クラスで訓練された場合、ネットワークの雑音発生性能はほぼ最適であることを示す。
Deep neural networks (DNNs) trained for image denoising are able to generate high-quality samples with score-based reverse diffusion algorithms. These impressive capabilities seem to imply an escape from the curse of dimensionality, but recent reports of memorization of the training set raise the question of whether these networks are learning the "true" continuous density of the data. Here, we show that two DNNs trained on non-overlapping subsets of a dataset learn nearly the same score function, and thus the same density, when the number of training images is large enough. In this regime of strong generalization, diffusion-generated images are distinct from the training set, and are of high visual quality, suggesting that the inductive biases of the DNNs are well-aligned with the data density. We analyze the learned denoising functions and show that the inductive biases give rise to a shrinkage operation in a basis adapted to the underlying image. Examination of these bases reveals oscillating harmonic structures along contours and in homogeneous regions. We demonstrate that trained denoisers are inductively biased towards these geometry-adaptive harmonic bases since they arise not only when the network is trained on photographic images, but also when it is trained on image classes supported on low-dimensional manifolds for which the harmonic basis is suboptimal. Finally, we show that when trained on regular image classes for which the optimal basis is known to be geometry-adaptive and harmonic, the denoising performance of the networks is near-optimal. | 翻訳日:2024-03-20 03:42:41 公開日:2024-03-15 |
# Knollingボット:Tidy Demonstrationsからロボットオブジェクトアレンジメントを学習する
Knolling Bot: Learning Robotic Object Arrangement from Tidy Demonstrations ( http://arxiv.org/abs/2310.04566v2 ) ライセンス: Link先を確認 | Yuhang Hu, Zhizhuo Zhang, Xinyue Zhu, Ruibo Liu, Philippe Wyder, Hod Lipson, | (参考訳) 家庭空間に散在するアイテムを整理するという課題は, 多様性と主観性によって複雑化している。
人間の言語の複雑さが同じ考えの複数の表現を可能にするのと同じように、家庭の嗜好や組織パターンは様々であり、事前設定されたオブジェクトの位置は、新しいオブジェクトや環境への適応性を制限します。
自然言語処理(NLP)の進歩にインスパイアされた本論文では,対話型データセットを用いて大規模言語モデル(LLM)を訓練するのと同じような,適切に構成されたレイアウトのデモンストレーションから,ロボットが丁寧さの概念を理解し,再現することのできる,自己指導型学習フレームワークを提案する。
我々は、トランスフォーマーニューラルネットワークを利用して、その後のオブジェクトの配置を予測する。
ロボットアームとRGBカメラを備えた'knolling'システムを用いて、テーブル上のさまざまなサイズと量のアイテムを整理する。
提案手法は, 汎用性の概念を訓練し, 多様な解を提供し, 異なる数の物体に適応させることができるだけでなく, 対象物に対して明示的な目標位置を伴わずに, カスタマイズされたテーブルを生成するために, 人間の好みを組み込むこともできる。
Addressing the challenge of organizing scattered items in domestic spaces is complicated by the diversity and subjective nature of tidiness. Just as the complexity of human language allows for multiple expressions of the same idea, household tidiness preferences and organizational patterns vary widely, so presetting object locations would limit the adaptability to new objects and environments. Inspired by advancements in natural language processing (NLP), this paper introduces a self-supervised learning framework that allows robots to understand and replicate the concept of tidiness from demonstrations of well-organized layouts, akin to using conversational datasets to train Large Language Models(LLM). We leverage a transformer neural network to predict the placement of subsequent objects. We demonstrate a ``knolling'' system with a robotic arm and an RGB camera to organize items of varying sizes and quantities on a table. Our method not only trains a generalizable concept of tidiness, enabling the model to provide diverse solutions and adapt to different numbers of objects, but it can also incorporate human preferences to generate customized tidy tables without explicit target positions for each object. | 翻訳日:2024-03-20 03:32:38 公開日:2024-03-15 |
# GPT- Who: 情報密度に基づく機械生成テキスト検出装置
GPT-who: An Information Density-based Machine-Generated Text Detector ( http://arxiv.org/abs/2310.06202v2 ) ライセンス: Link先を確認 | Saranya Venkatraman, Adaku Uchendu, Dongwon Lee, | (参考訳) 統一情報密度(UID)の原則は、人間が言語生産中に情報を均等に広めることを好むことを示唆している。
我々は,このUID原則が,Large Language Models(LLMs)とHuman Generated Textsの違いを捉えるのに有効かどうかを検討する。
精神言語学的に認識される最初の多クラスドメイン非依存型統計検出器であるGPT-whoを提案する。
この検出器は、UIDに基づく特徴を用いて、それぞれのLSMのユニークな統計的特徴と、正確な著者属性をモデル化する。
提案手法は,4つの大規模ベンチマークデータセットを用いて評価し,GLTR, GPTZero, DetectGPT, OpenAI Detector, ZeroGPTなどの最先端検出器(統計的および非統計的)を20ドル以上で上回る結果を得た。
性能の向上に加えて、計算的に安価であり、テキスト記事の解釈可能な表現を利用する。
過剰なテキストが認識できない場合でも、非常に洗練されたLCMによって生成されたテキストを区別できるGPT- who can distinguishing texts。
すべてのデータセットとコードのUIDベースの測定はhttps://github.com/saranya-venkatraman/gpt-whoで公開されている。
The Uniform Information Density (UID) principle posits that humans prefer to spread information evenly during language production. We examine if this UID principle can help capture differences between Large Language Models (LLMs)-generated and human-generated texts. We propose GPT-who, the first psycholinguistically-aware multi-class domain-agnostic statistical detector. This detector employs UID-based features to model the unique statistical signature of each LLM and human author for accurate authorship attribution. We evaluate our method using 4 large-scale benchmark datasets and find that GPT-who outperforms state-of-the-art detectors (both statistical- & non-statistical) such as GLTR, GPTZero, DetectGPT, OpenAI detector, and ZeroGPT by over $20$% across domains. In addition to better performance, it is computationally inexpensive and utilizes an interpretable representation of text articles. We find that GPT-who can distinguish texts generated by very sophisticated LLMs, even when the overlying text is indiscernible. UID-based measures for all datasets and code are available at https://github.com/saranya-venkatraman/gpt-who. | 翻訳日:2024-03-20 03:32:38 公開日:2024-03-15 |
# PU-ray: ニューラルインシシト表面上の光マーチングによるドメイン非依存点雲のアップサンプリング
PU-Ray: Domain-Independent Point Cloud Upsampling via Ray Marching on Neural Implicit Surface ( http://arxiv.org/abs/2310.08755v2 ) ライセンス: Link先を確認 | Sangwon Lim, Karim El-Basyouny, Yee Hong Yang, | (参考訳) 近年のディープラーニング・ポイント・クラウド・アップサンプリング手法の進歩はインテリジェント・トランスポート・システムへの入力を改善しているが、それでも合成と実スキャンされたポイント・クラウド間のドメイン依存の問題に悩まされている。
本稿では,各問合せ線とその対応するパッチに対する深さ予測を行うため,任意のレートで新しいレイベースアップサンプリング手法を提案する。
提案手法は,非符号距離関数 (UDF) で定義された神経暗示面上の球面追跡線マーキングアルゴリズムをシミュレートし,点変換器ネットワークをトレーニングすることにより,より正確で安定した線深予測を実現する。
規則に基づく中点問合せサンプリング手法は, 最寄りの近接型再構成損失関数を用いて訓練されたエンドツーエンドモデルを必要とせずに, より均等に分散した点を生成する。
自己教師付き学習は、入力ポイントクラウド内の正確な基底真理によって実現される。
その結果、ドメイン間の汎用性と、限られた計算資源とトレーニングデータを用いたトレーニングシナリオが示された。
合成および実スキャンされたアプリケーションの包括的分析は、コンピュータビジョンとグラフィックドメインにわたるアップサンプリングタスクがITSの現実的な応用に重要であることを示す実証的な証拠を提供する。
While recent advancements in deep-learning point cloud upsampling methods have improved the input to intelligent transportation systems, they still suffer from issues of domain dependency between synthetic and real-scanned point clouds. This paper addresses the above issues by proposing a new ray-based upsampling approach with an arbitrary rate, where a depth prediction is made for each query ray and its corresponding patch. Our novel method simulates the sphere-tracing ray marching algorithm on the neural implicit surface defined with an unsigned distance function (UDF) to achieve more precise and stable ray-depth predictions by training a point-transformer-based network. The rule-based mid-point query sampling method generates more evenly distributed points without requiring an end-to-end model trained using a nearest-neighbor-based reconstruction loss function, which may be biased towards the training dataset. Self-supervised learning becomes possible with accurate ground truths within the input point cloud. The results demonstrate the method's versatility across domains and training scenarios with limited computational resources and training data. Comprehensive analyses of synthetic and real-scanned applications provide empirical evidence for the significance of the upsampling task across the computer vision and graphics domains to real-world applications of ITS. | 翻訳日:2024-03-20 03:32:38 公開日:2024-03-15 |
# Llemma: 数学のためのオープン言語モデル
Llemma: An Open Language Model For Mathematics ( http://arxiv.org/abs/2310.10631v3 ) ライセンス: Link先を確認 | Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, Marco Dos Santos, Stephen McAleer, Albert Q. Jiang, Jia Deng, Stella Biderman, Sean Welleck, | (参考訳) 数学のための大きな言語モデルであるLlemmaを紹介します。
我々は、Proof-Pile-2(科学論文、数学を含むWebデータ、数学的コード)でCode Llamaを事前訓練し、Llemmaを生成する。
MATHベンチマークでは、Llemmaはすべての既知のオープンベースモデル、および未リリースのMinervaモデルスイートを均等に上回る。
さらに、レムマは道具の使用や公式な定理の証明をこれ以上微調整することなく行うことができる。
70億と34億のパラメータモデル、Proof-Pile-2、実験を再現するコードを含む、すべてのアーティファクトをオープンにリリースします。
We present Llemma, a large language model for mathematics. We continue pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web data containing mathematics, and mathematical code, yielding Llemma. On the MATH benchmark Llemma outperforms all known open base models, as well as the unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is capable of tool use and formal theorem proving without any further finetuning. We openly release all artifacts, including 7 billion and 34 billion parameter models, the Proof-Pile-2, and code to replicate our experiments. | 翻訳日:2024-03-20 03:22:50 公開日:2024-03-15 |
# 漁業情報量計による知覚尺度の作成
Perceptual Scales Predicted by Fisher Information Metrics ( http://arxiv.org/abs/2310.11759v2 ) ライセンス: Link先を確認 | Jonathan Vacher, Pascal Mamassian, | (参考訳) 知覚はしばしば、観察者の外部にある物理的変数を内部の心理的変数に変換する過程と見なされる。
このような過程は知覚スケールで作られた関数によってモデル化することができる。
知覚尺度は、刺激の相対的な差(すなわち、差分スケーリング実験)を比較した心理物理学的な測定から導かれる。
しかし、このアプローチは、しばしばモデリングと実験のコミュニティによって見落とされがちである。
本稿では, 知覚の確率論的モデルに組み込むことで, 古典的(空間周波数, 向き) と非古典的物理的変数(テクスチャ間の補間)の知覚スケールを測定することの価値を実証する。
まず, 観測者が空間周波数や方向などの一変量パラメータを内部的に表現した上で, 刺激が高次元であるという仮定は, 理論的枠組みに従えば矛盾しないことを示す。
第2に,測定された知覚尺度は,この枠組みで仮定された伝達関数に対応することを示す。
特に、知覚の基盤となる生成モデルのフィッシャー情報と関係があることを示し、異なる刺激の生成モデルから得られる予測を、一連の差分スケーリング実験で検証する。
我々の主な結論は、知覚スケールは、主に刺激パワースペクトルによって駆動されるということである。
最後に、この尺度は、画像の知覚的幾何学を推定することにより、知覚的距離の概念をさらに推し進める手段である、すなわち、画像間の距離ではなく、画像間の経路を推定する方法である、と提案する。
Perception is often viewed as a process that transforms physical variables, external to an observer, into internal psychological variables. Such a process can be modeled by a function coined perceptual scale. The perceptual scale can be deduced from psychophysical measurements that consist in comparing the relative differences between stimuli (i.e. difference scaling experiments). However, this approach is often overlooked by the modeling and experimentation communities. Here, we demonstrate the value of measuring the perceptual scale of classical (spatial frequency, orientation) and less classical physical variables (interpolation between textures) by embedding it in recent probabilistic modeling of perception. First, we show that the assumption that an observer has an internal representation of univariate parameters such as spatial frequency or orientation while stimuli are high-dimensional does not lead to contradictory predictions when following the theoretical framework. Second, we show that the measured perceptual scale corresponds to the transduction function hypothesized in this framework. In particular, we demonstrate that it is related to the Fisher information of the generative model that underlies perception and we test the predictions given by the generative model of different stimuli in a set a of difference scaling experiments. Our main conclusion is that the perceptual scale is mostly driven by the stimulus power spectrum. Finally, we propose that this measure of perceptual scale is a way to push further the notion of perceptual distances by estimating the perceptual geometry of images i.e. the path between images instead of simply the distance between those. | 翻訳日:2024-03-20 03:22:50 公開日:2024-03-15 |
# Neuroformer:脳データのためのマルチモーダルおよびマルチタスク生成準備
Neuroformer: Multimodal and Multitask Generative Pretraining for Brain Data ( http://arxiv.org/abs/2311.00136v4 ) ライセンス: Link先を確認 | Antonis Antoniades, Yiyi Yu, Joseph Canzano, William Wang, Spencer LaVere Smith, | (参考訳) 最先端のシステム神経科学実験は大規模なマルチモーダルデータを生み出し、これらのデータセットは分析のための新しいツールを必要とする。
視覚領域と言語領域における大きな事前学習モデルの成功に触発されて、我々は大規模な細胞分解性神経スパイクデータを自己回帰時空間生成問題に再編成した。
ニューロフォーマー(英: Neuroformer)は、システム神経科学におけるデータの複雑さを扱うために特別に設計されたマルチモーダル、マルチタスク生成事前訓練型トランスフォーマー(GPT)モデルである。
機能サイズと線形にスケールし、任意の数のモダリティを処理でき、振る舞いの予測などの下流タスクに適応できる。
我々はまず、シミュレーションデータセットでNeuroformerを訓練し、シミュレーションされた神経回路のアクティビティを正確に予測し、また、方向を含む基盤となる神経回路の接続性を本質的に推測した。
神経反応を復号するために事前訓練された場合、モデルは数発の微調整でマウスの行動を予測する。
我々は,神経反応と行動に関する共同トレーニングが,モデルが非教師的方法で行動表現と神経表現を関連付ける能力を高めることを示すために,アブレーション研究を使用した。
これらの結果は、Neuroformerが神経データセットとその創発的特性を分析し、脳に関連付けられたモデルや仮説の開発を知らせることができることを示している。
State-of-the-art systems neuroscience experiments yield large-scale multimodal data, and these data sets require new tools for analysis. Inspired by the success of large pretrained models in vision and language domains, we reframe the analysis of large-scale, cellular-resolution neuronal spiking data into an autoregressive spatiotemporal generation problem. Neuroformer is a multimodal, multitask generative pretrained transformer (GPT) model that is specifically designed to handle the intricacies of data in systems neuroscience. It scales linearly with feature size, can process an arbitrary number of modalities, and is adaptable to downstream tasks, such as predicting behavior. We first trained Neuroformer on simulated datasets, and found that it both accurately predicted simulated neuronal circuit activity, and also intrinsically inferred the underlying neural circuit connectivity, including direction. When pretrained to decode neural responses, the model predicted the behavior of a mouse with only few-shot fine-tuning, suggesting that the model begins learning how to do so directly from the neural representations themselves, without any explicit supervision. We used an ablation study to show that joint training on neuronal responses and behavior boosted performance, highlighting the model's ability to associate behavioral and neural representations in an unsupervised manner. These findings show that Neuroformer can analyze neural datasets and their emergent properties, informing the development of models and hypotheses associated with the brain. | 翻訳日:2024-03-20 03:12:40 公開日:2024-03-15 |
# デジタル著作権管理(DRM)のガイドライン
Guideline for the Production of Digital Rights Management (DRM) ( http://arxiv.org/abs/2311.06671v2 ) ライセンス: Link先を確認 | Shannon Kathleen Coates, Hossein Abroshan, | (参考訳) デジタル著作権管理(Digital Rights Management)の問題点については、長年にわたり複数のニュースソースが報告してきたが、DRM開発の改革は行われていない。
問題は一般によく知られており、対処されたとしても頻繁に繰り返される。ソフトウェアやそれらを実行するデバイスに影響を及ぼす。
ここ数年、特に問題を取り除こうという意図で議論した人はほとんどいない。
本研究はデジタル・ライツ・マネジメントを、デジタル・ライツ・マネジメントが取り得る様々な形態、DRMに影響を及ぼす現在の法律、そして現在のパブリック・レセプションとレスポンスなど全般についてレビューする。
本研究は、DRMのさまざまな種類を概説し、正例と負例の両方を列挙する。
Multiple news sources over the years have reported on the problematic effects of Digital Rights Management, yet there are no reforms for DRM development, simply removal. The issues are well-known to the public, frequently repeated even when addressed: impact on the software and to the devices that run them. Yet few, if any, have discussed it in recent years, especially with the intent of eliminating the shown issues. This study reviews Digital Rights Management as a general topic, including the various forms it can take, the current laws that affect DRM, and the current public reception and responses. This study describes the different types of DRM in general terms and then lists both positive and negative examples. | 翻訳日:2024-03-20 03:12:40 公開日:2024-03-15 |
# 分子同定とピークアサインメント:NMRによるマルチレベルマルチモーダルアライメントの活用
Molecular Identification and Peak Assignment: Leveraging Multi-Level Multimodal Alignment on NMR ( http://arxiv.org/abs/2311.13817v3 ) ライセンス: Link先を確認 | Hao Xu, Zhengyang Zhou, Pengyu Hong, | (参考訳) 核磁気共鳴分光法(NMR)は分子構造や動的挙動の解読において重要な役割を担っている。
AIによって強化されたNMR予測モデルには将来性があるが、分子検索、異性体認識、ピーク割り当てといったタスクには依然として課題が残っている。
そこで本研究では,分子グラフとNMRスペクトルの2つの不均一なモードの対応性を確立する,知識誘導型インスタンスワイズ識別を用いたマルチレベルマルチモーダルアライメント(K-M3AID)を提案する。
K-M3AIDは、グラフレベルのアライメントモジュール、ノードレベルのアライメントモジュール、通信チャネルの3つの主要なモジュールを持つ二重協調型コントラスト学習アーキテクチャを採用している。
特に、K-M3AIDは、ノードレベルのアライメントモジュール内での対照的な学習に、知識誘導型インスタンスワイズ識別を導入している。
さらに、K-M3AIDは、ノードレベルのアライメント中に獲得したスキルがグラフレベルのアライメントに肯定的な影響を与えることを示し、メタラーニングを固有の特性として認める。
経験的検証は、複数のゼロショットタスクにおけるK-M3AIDの有効性を裏付ける。
Nuclear magnetic resonance (NMR) spectroscopy plays an essential role in deciphering molecular structure and dynamic behaviors. While AI-enhanced NMR prediction models hold promise, challenges still persist in tasks such as molecular retrieval, isomer recognition, and peak assignment. In response, this paper introduces a novel solution, Multi-Level Multimodal Alignment with Knowledge-Guided Instance-Wise Discrimination (K-M3AID), which establishes correspondences between two heterogeneous modalities: molecular graphs and NMR spectra. K-M3AID employs a dual-coordinated contrastive learning architecture with three key modules: a graph-level alignment module, a node-level alignment module, and a communication channel. Notably, K-M3AID introduces knowledge-guided instance-wise discrimination into contrastive learning within the node-level alignment module. In addition, K-M3AID demonstrates that skills acquired during node-level alignment have a positive impact on graph-level alignment, acknowledging meta-learning as an inherent property. Empirical validation underscores K-M3AID's effectiveness in multiple zero-shot tasks. | 翻訳日:2024-03-20 03:02:46 公開日:2024-03-15 |
# ワッサーシュタイン計量によるデータセット蒸留
Dataset Distillation via the Wasserstein Metric ( http://arxiv.org/abs/2311.18531v2 ) ライセンス: Link先を確認 | Haoyang Liu, Yijiang Li, Tiancheng Xing, Vibhu Dalal, Luwei Li, Jingrui He, Haohan Wang, | (参考訳) Dataset Distillation (DD) は、大規模データセットの拡張情報をはるかに小さく合成された等価データにカプセル化する強力な戦略として登場し、計算オーバーヘッドを減らしてモデル性能を維持する。
この目的から、DDにおける分布マッチングを強化するために、最適な輸送理論に基づく計量であるワッサーシュタイン距離を導入する。
提案手法では,分布差を定量化し,分布集合のセントロイドを効率的に捉えるための幾何学的に意味のある方法として,ワッサーシュタイン・バリセンタを用いている。
事前学習した分類モデルの特徴空間に合成データを埋め込むことにより、これらのモデルに固有の事前知識を活用する効果的な分布マッチングを容易にする。
提案手法は,分散マッチング手法の計算上の優位性を維持するだけでなく,様々な高解像度データセットにまたがる新しい最先端性能を実現する。
本手法の有効性と適応性を検証し, データセット蒸留におけるワッサーシュタイン測定の未発見の可能性について検討した。
Dataset Distillation (DD) emerges as a powerful strategy to encapsulate the expansive information of large datasets into significantly smaller, synthetic equivalents, thereby preserving model performance with reduced computational overhead. Pursuing this objective, we introduce the Wasserstein distance, a metric grounded in optimal transport theory, to enhance distribution matching in DD. Our approach employs the Wasserstein barycenter to provide a geometrically meaningful method for quantifying distribution differences and capturing the centroid of distribution sets efficiently. By embedding synthetic data in the feature spaces of pretrained classification models, we facilitate effective distribution matching that leverages prior knowledge inherent in these models. Our method not only maintains the computational advantages of distribution matching-based techniques but also achieves new state-of-the-art performance across a range of high-resolution datasets. Extensive testing demonstrates the effectiveness and adaptability of our method, underscoring the untapped potential of Wasserstein metrics in dataset distillation. | 翻訳日:2024-03-20 02:52:49 公開日:2024-03-15 |
# Bergeron: 良心に基づくアライメントフレームワークを通じて、敵対的攻撃を議論する
Bergeron: Combating Adversarial Attacks through a Conscience-Based Alignment Framework ( http://arxiv.org/abs/2312.00029v2 ) ライセンス: Link先を確認 | Matthew Pisano, Peter Ly, Abraham Sanders, Bingsheng Yao, Dakuo Wang, Tomek Strzalkowski, Mei Si, | (参考訳) AIアライメントの研究は、最近、より有能なLarge Language Models (LLMs)が導入されて以来、大きく成長している。
残念なことに、現代のアライメントの方法は、モデルが意図的に攻撃されたとき、有害な応答を完全に防ぐことができない。
これらの攻撃は、一見整列したモデルを騙して、危険な素材の製造指示を与えたり、暴力を誘発したり、他の不道徳な行為を推奨したりする。
この問題を軽減するために,パラメータの微調整を伴わずに攻撃に対するLDMの堅牢性を改善するために設計されたフレームワークであるBergeronを紹介した。
ベルジェロンは2つの階層に分けられ、保護された一次LSMの良心をエミュレートする二次LSMを持つ。
このフレームワークは、有害なコンテンツのアウトプットを監視しながら、入ってくる攻撃に対して主要なモデルをよりよく保護する。
経験的分析により、既存のアライメントトレーニングでモデルを補完するためにBergeronを使用することで、複数の商用およびオープンソース LLM の堅牢性と安全性を向上させることができることが示された。
Research into AI alignment has grown considerably since the recent introduction of increasingly capable Large Language Models (LLMs). Unfortunately, modern methods of alignment still fail to fully prevent harmful responses when models are deliberately attacked. These attacks can trick seemingly aligned models into giving manufacturing instructions for dangerous materials, inciting violence, or recommending other immoral acts. To help mitigate this issue, we introduce Bergeron: a framework designed to improve the robustness of LLMs against attacks without any additional parameter fine-tuning. Bergeron is organized into two tiers; with a secondary LLM emulating the conscience of a protected, primary LLM. This framework better safeguards the primary model against incoming attacks while monitoring its output for any harmful content. Empirical analysis shows that, by using Bergeron to complement models with existing alignment training, we can improve the robustness and safety of multiple, commonly used commercial and open-source LLMs. | 翻訳日:2024-03-20 02:52:49 公開日:2024-03-15 |
# UAVのプライバシとセキュリティを高めるための新しいフェデレーション学習型IDS
A Novel Federated Learning-Based IDS for Enhancing UAVs Privacy and Security ( http://arxiv.org/abs/2312.04135v2 ) ライセンス: Link先を確認 | Ozlem Ceviz, Pinar Sadioglu, Sevil Sen, Vassilios G. Vassilakis, | (参考訳) フライングアドホックネットワーク(FANET)内で運用されている無人航空機(UAV)は、これらのネットワークの動的で分散的な性質のためにセキュリティ上の問題に直面している。
従来の研究は、すべてのデバイスからデータを格納し分析する中心的なエンティティを前提として、集中侵入検出に重点を置いていた。しかしながら、これらのアプローチは、計算とストレージコスト、単一障害リスクのポイント、データのプライバシと可用性の脅威といった課題に直面している。
相互接続されたデバイスにまたがる広範なデータの分散は、分散化されたアプローチの必要性を浮き彫りにする。
本稿では、FANETにおける集中型システムによる課題に対処するFL-IDS(Federated Learning-based Intrusion Detection System)を提案する。
FL-IDSは、リソース制約されたUAVに不可欠なクライアントと中央サーバの両方の計算とストレージコストを削減する。
FL-IDSを分散的に運用することで、UAVは生データを共有せずにグローバルな侵入検知モデルを協調的に訓練することができる。
FL-IDSと中央IDS(C-IDS)の競合性能はプライバシーの懸念を緩和しつつも実証され、Bias Towards Specific Clients (BTSC) 法は攻撃率が低い場合でもFL-IDSの性能をさらに向上させる。
局所IDS(L-IDS)を含む従来の侵入検知法との比較分析では、FL-IDSの強度に光を当てている。
本研究は,UAVネットワークに適した,プライバシーを意識した分散型侵入検知手法を導入することにより,UAVのセキュリティに大きく貢献する。
さらに、FANETのための現実的なデータセットとフェデレーション学習を導入することで、高いダイナミズムと3Dノードの動き、あるいは正確なフェデレーションデータフェデレーションを欠いている他の方法とは異なる。
Unmanned aerial vehicles (UAVs) operating within Flying Ad-hoc Networks (FANETs) encounter security challenges due to the dynamic and distributed nature of these networks. Previous studies predominantly focused on centralized intrusion detection, assuming a central entity responsible for storing and analyzing data from all devices.However, these approaches face challenges including computation and storage costs, along with a single point of failure risk, threatening data privacy and availability. The widespread dispersion of data across interconnected devices underscores the necessity for decentralized approaches. This paper introduces the Federated Learning-based Intrusion Detection System (FL-IDS), addressing challenges encountered by centralized systems in FANETs. FL-IDS reduces computation and storage costs for both clients and the central server, crucial for resource-constrained UAVs. Operating in a decentralized manner, FL-IDS enables UAVs to collaboratively train a global intrusion detection model without sharing raw data, thus avoiding the delay in decisions based on collected data, as is often the case with traditional methods. Experimental results demonstrate FL-IDS's competitive performance with Central IDS (C-IDS) while mitigating privacy concerns, with the Bias Towards Specific Clients (BTSC) method further enhancing FL-IDS performance even at lower attacker ratios. Comparative analysis with traditional intrusion detection methods, including Local IDS (L-IDS), sheds light on FL-IDS's strengths. This study significantly contributes to UAV security by introducing a privacy-aware, decentralized intrusion detection approach tailored to UAV networks. Moreover, by introducing a realistic dataset for FANETs and federated learning, our approach differs from others lacking high dynamism and 3D node movements or accurate federated data federations. | 翻訳日:2024-03-20 02:52:49 公開日:2024-03-15 |
# 拡散確率モデルによる翼流シミュレーションの不確実性を考慮したサロゲートモデル
Uncertainty-aware Surrogate Models for Airfoil Flow Simulations with Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2312.05320v2 ) ライセンス: Link先を確認 | Qiang Liu, Nils Thuerey, | (参考訳) 乱流シミュレーションの代理モデルとしてニューラルネットワークを活用することは、関心が高まるトピックである。
同時に、代理モデルの予測にシミュレーションの本質的な不確かさを具現化することは非常に困難である。
本研究は,拡散確率モデル(DDPM)を用いて乱流シミュレーションのための不確実性を考慮した代理モデルを訓練する試みである。
その頻度から, 様々な形状の翼まわりの流れ, レイノルズ数, 攻撃角度のシミュレーションが学習目的として選択される。
その結果,DDPMは解全体の分布を正確に把握でき,その結果,シミュレーションの不確かさを正確に推定できることがわかった。
DDPMの性能は、ベイズニューラルネットワークとヘテロスセダティックモデルという形で、様々なベースラインと比較される。
実験により、DDPMは様々な精度の指標に関して他の手法よりも優れていることが示された。
さらに、パラメータセットを提供するのではなく、不確実性の完全な分布へのアクセスを提供するという利点もある。
そのため、溶液の分布から現実的で詳細なサンプルが得られる。
Leveraging neural networks as surrogate models for turbulence simulation is a topic of growing interest. At the same time, embodying the inherent uncertainty of simulations in the predictions of surrogate models remains very challenging. The present study makes a first attempt to use denoising diffusion probabilistic models (DDPMs) to train an uncertainty-aware surrogate model for turbulence simulations. Due to its prevalence, the simulation of flows around airfoils with various shapes, Reynolds numbers, and angles of attack is chosen as the learning objective. Our results show that DDPMs can successfully capture the whole distribution of solutions and, as a consequence, accurately estimate the uncertainty of the simulations. The performance of DDPMs is also compared with varying baselines in the form of Bayesian neural networks and heteroscedastic models. Experiments demonstrate that DDPMs outperform the other methods regarding a variety of accuracy metrics. Besides, it offers the advantage of providing access to the complete distributions of uncertainties rather than providing a set of parameters. As such, it can yield realistic and detailed samples from the distribution of solutions. | 翻訳日:2024-03-20 02:42:50 公開日:2024-03-15 |
# 開発者の支援を再定義する - ソフトウェアエコシステムにおける大規模言語モデルを通して
Redefining Developer Assistance: Through Large Language Models in Software Ecosystem ( http://arxiv.org/abs/2312.05626v3 ) ライセンス: Link先を確認 | Somnath Banerjee, Avik Dutta, Sayan Layek, Amruit Sahoo, Sam Conrad Joyce, Rima Hazra, | (参考訳) 本稿では,ドメイン固有大規模言語モデル(LLM)の進歩を,ソフトウェア開発への応用に焦点をあてて検討する。
本稿では,インストラクションチューニングによって開発されたDevAssistLlamaを紹介し,ソフトウェア関連自然言語クエリの処理を支援する。
命令チューニング LLM の亜種であるこのモデルは、特に複雑な技術ドキュメントの扱い、ソフトウェア固有のタスクにおける開発者の能力の向上に長けている。
DevAssistLlamaの作成には、様々なソフトウェアシステムから広範な命令データセットを構築し、名前付きエンティティ認識(NER)、関係抽出(RE)、リンク予測(LP)の効果的な処理を可能にした。
これらの課題においてDevAssistLlamaはChatGPTなどの他のモデルと比較して優れた能力を発揮した。
この研究は、ソフトウェア開発における特殊なLLMの可能性だけでなく、この領域の先駆的なLLMについても強調している。
In this paper, we delve into the advancement of domain-specific Large Language Models (LLMs) with a focus on their application in software development. We introduce DevAssistLlama, a model developed through instruction tuning, to assist developers in processing software-related natural language queries. This model, a variant of instruction tuned LLM, is particularly adept at handling intricate technical documentation, enhancing developer capability in software specific tasks. The creation of DevAssistLlama involved constructing an extensive instruction dataset from various software systems, enabling effective handling of Named Entity Recognition (NER), Relation Extraction (RE), and Link Prediction (LP). Our results demonstrate DevAssistLlama's superior capabilities in these tasks, in comparison with other models including ChatGPT. This research not only highlights the potential of specialized LLMs in software development also the pioneer LLM for this domain. | 翻訳日:2024-03-20 02:42:50 公開日:2024-03-15 |
# プライバシ・アタックにおけるグラディエントとプライバシ・アタックの超越 - フェデレート・ラーニングにおける言語モデルのプール・レイヤ・インプットの活用
Beyond Gradient and Priors in Privacy Attacks: Leveraging Pooler Layer Inputs of Language Models in Federated Learning ( http://arxiv.org/abs/2312.05720v4 ) ライセンス: Link先を確認 | Jianwei Li, Sheng Liu, Qi Lei, | (参考訳) FL(Federated Learning)を通じてトレーニングされた言語モデルは、ユーザのプライバシ保護による複雑なタスクの処理において、優れた機能を示している。
近年の研究では、勾配情報と事前知識を活用することで、FL設定内のトレーニングサンプルが明らかになる可能性が示唆されている。
しかし、これらの調査は、モデル固有のアーキテクチャに関連する潜在的なプライバシーリスクを見落としている。
本稿では,現代言語モデルのアーキテクチャの脆弱性を狙った2段階のプライバシ攻撃戦略を提案する。
比較実験では、さまざまなデータセットやシナリオに対して優れた攻撃性能を示し、言語モデルの複雑化に伴うプライバシリークのリスクを強調した。
私たちは、大きな言語モデルの設計において、これらの潜在的なプライバシーリスクを認識し、対処するようコミュニティに呼びかけます。
Language models trained via federated learning (FL) demonstrate impressive capabilities in handling complex tasks while protecting user privacy. Recent studies indicate that leveraging gradient information and prior knowledge can potentially reveal training samples within FL setting. However, these investigations have overlooked the potential privacy risks tied to the intrinsic architecture of the models. This paper presents a two-stage privacy attack strategy that targets the vulnerabilities in the architecture of contemporary language models, significantly enhancing attack performance by initially recovering certain feature directions as additional supervisory signals. Our comparative experiments demonstrate superior attack performance across various datasets and scenarios, highlighting the privacy leakage risk associated with the increasingly complex architectures of language models. We call for the community to recognize and address these potential privacy risks in designing large language models. | 翻訳日:2024-03-20 02:42:50 公開日:2024-03-15 |
# CaVE: 2進線形プログラムによる高速予測最適化のためのコーンアライズドアプローチ
CaVE: A Cone-Aligned Approach for Fast Predict-then-optimize with Binary Linear Programs ( http://arxiv.org/abs/2312.07718v2 ) ライセンス: Link先を確認 | Bo Tang, Elias B. Khalil, | (参考訳) 意思決定中心学習(Decision- Focus Learning)とも呼ばれるエンドツーエンド予測最適化フレームワークは、コンテキストインスタンス情報から最適化問題の未知コスト(目的関数)係数を予測する機械学習モデルのトレーニング手順に最適化を統合する能力で人気を集めている。
当然、この空間における関心のほとんどの問題は整数線型プログラムとしてキャストできる。
本研究では,バイナリ線形プログラム(BLP)に焦点をあて,新たなエンドツーエンド学習手法を提案する。
コーン整列ベクトル推定法 (CaVE) は, 予測コストベクトルをトレーニングインスタンスの真の最適解に対応する正規コーンと整列する。
予測コストベクトルが円錐内にある場合、二項問題の線形緩和に対する最適解は最適である。
このアライメントは、意思決定対応学習モデルを生成するだけでなく、その勾配で損失関数を計算するためにBLPを解く必要性を回避するため、トレーニング時間を劇的に短縮する。
複数のデータセットにまたがる実験により,本手法はトレーニング時間とソリューション品質のトレードオフを良好に示し,特に車両ルーティングなどの大規模最適化問題において,本手法の難しさから文献における予測最適化手法の恩恵を受けていない。
The end-to-end predict-then-optimize framework, also known as decision-focused learning, has gained popularity for its ability to integrate optimization into the training procedure of machine learning models that predict the unknown cost (objective function) coefficients of optimization problems from contextual instance information. Naturally, most of the problems of interest in this space can be cast as integer linear programs. In this work, we focus on binary linear programs (BLPs) and propose a new end-to-end training method to predict-then-optimize. Our method, Cone-aligned Vector Estimation (CaVE), aligns the predicted cost vectors with the normal cone corresponding to the true optimal solution of a training instance. When the predicted cost vector lies inside the cone, the optimal solution to the linear relaxation of the binary problem is optimal. This alignment not only produces decision-aware learning models but also dramatically reduces training time as it circumvents the need to solve BLPs to compute a loss function with its gradients. Experiments across multiple datasets show that our method exhibits a favorable trade-off between training time and solution quality, particularly with large-scale optimization problems such as vehicle routing, a hard BLP that has yet to benefit from predict-then-optimize methods in the literature due to its difficulty. | 翻訳日:2024-03-20 02:42:50 公開日:2024-03-15 |
# 加圧水炉最適化のための多目的強化学習に基づくアプローチ
Multi-Objective Reinforcement Learning-based Approach for Pressurized Water Reactor Optimization ( http://arxiv.org/abs/2312.10194v3 ) ライセンス: Link先を確認 | Paul Seurin, Koroush Shirvan, | (参考訳) 強化学習によるPareto Envelope Augmented with Reinforcement Learning (PEARL) と呼ばれる新しい手法が開発され,多目的問題による課題に対処する。
PEARLは、従来のポリシーベースの多目的強化学習法と区別し、単一のポリシーを学習することで、より単純なサブプロブレムを独立して解決する複数のニューラルネットワークの必要性を排除している。
ディープラーニングと進化的テクニックにインスパイアされたいくつかのバージョンが作成され、制約のない問題ドメインと制約のない問題ドメインの両方に対応している。
カリキュラム学習は、これらのバージョンにおける制約を効果的に管理するために利用される。
PEARLの性能は、古典的な多目的ベンチマークで最初に評価される。
さらに、実世界の応用性を示すために、2つの実用的なPWRコアローディングパターン最適化問題でテストされている。
第1の問題はサイクル長と棒積分ピーク係数を主目的として最適化することであり、第2の問題は平均エンリッチメントを付加目的として含んでいる。
さらに、PEARLはホウ素濃度、ピークピンバーナップ、ピークピンパワーに関連する3種類の制約に対処する。
結果は従来の手法と体系的に比較される。
特に、PEARL、特にPEARL-NdSは、スケールした目的を持った単一の最適化とは対照的に、アルゴリズムデザイナによる追加の努力を必要とせずに、Paretoフロントを効率的に発見する。
また、Hyper-volumeなど、複数のパフォーマンス指標における古典的なアプローチよりも優れています。
A novel method, the Pareto Envelope Augmented with Reinforcement Learning (PEARL), has been developed to address the challenges posed by multi-objective problems, particularly in the field of engineering where the evaluation of candidate solutions can be time-consuming. PEARL distinguishes itself from traditional policy-based multi-objective Reinforcement Learning methods by learning a single policy, eliminating the need for multiple neural networks to independently solve simpler sub-problems. Several versions inspired from deep learning and evolutionary techniques have been crafted, catering to both unconstrained and constrained problem domains. Curriculum Learning is harnessed to effectively manage constraints in these versions. PEARL's performance is first evaluated on classical multi-objective benchmarks. Additionally, it is tested on two practical PWR core Loading Pattern optimization problems to showcase its real-world applicability. The first problem involves optimizing the Cycle length and the rod-integrated peaking factor as the primary objectives, while the second problem incorporates the mean average enrichment as an additional objective. Furthermore, PEARL addresses three types of constraints related to boron concentration, peak pin burnup, and peak pin power. The results are systematically compared against conventional approaches. Notably, PEARL, specifically the PEARL-NdS variant, efficiently uncovers a Pareto front without necessitating additional efforts from the algorithm designer, as opposed to a single optimization with scaled objectives. It also outperforms the classical approach across multiple performance metrics, including the Hyper-volume. | 翻訳日:2024-03-20 02:42:50 公開日:2024-03-15 |
# 実生活に関係できる」:「正義中心のデータ構造とアルゴリズム」に対する態度と期待
"It Can Relate to Real Lives": Attitudes and Expectations in Justice-Centered Data Structures & Algorithms for Non-Majors ( http://arxiv.org/abs/2312.12620v2 ) ライセンス: Link先を確認 | Anna Batra, Iris Zhou, Suh Young Choi, Chongjiu Gao, Yanbing Xiao, Sonia Fereidooni, Kevin Lin, | (参考訳) 以前の研究は、倫理、アイデンティティ、政治的ビジョンを強調することによって、後続のコンピューティング教育に対するより正義中心のアプローチを主張してきた。
本経験報告では、性別や人種の多様性を持つ中等教育の学生が、学部の非コンピュータサイエンス専攻向けに設計された正義中心のデータ構造とアルゴリズムをどう経験するかを検討する。
各四半期の初めと終わりに収集された2/4の学生調査データの定量的、質的な分析を通じて、学生の態度と期待について報告する。
クラス全体では,自信の計算と帰属意識という,次のような態度が顕著に増加した。
これらの地域では、女性、非バイナリー、および他の学生も男性(WNB+)と同一視できない傾向が見られたが、それでも四半期末には男性よりも自信と帰属意識が著しく低いことが報告された。
黒、ラテックス、中東、北アフリカ、ネイティブアメリカン、パシフィックアイランド(BLMNPI)の学生は、白人とアジア人の学生と比べて有意な差はなかった。
また,第4四半期の学生の自己回帰を,授業実施前の期待の達成度について分析した。
学生の大多数は、コースに対する肯定的な全体的な感情を報告し、多くの学生は、司法中心のアプローチを特に評価した。
本稿では,コンピュータ倫理に対する評価と,反復的デザインによるプロフェッショナルな準備の両立を両立する政治的ビジョンの実践と具体化について論じる。
Prior work has argued for a more justice-centered approach to postsecondary computing education by emphasizing ethics, identity, and political vision. In this experience report, we examine how postsecondary students of diverse gender and racial identities experience a justice-centered Data Structures and Algorithms designed for undergraduate non-computer science majors. Through a quantitative and qualitative analysis of two quarters of student survey data collected at the start and end of each quarter, we report on student attitudes and expectations. Across the class, we found a significant increase in the following attitudes: computing confidence and sense of belonging. While women, non-binary, and other students not identifying as men (WNB+) also increased in these areas, they still reported significantly lower confidence and sense of belonging than men at the end of the quarter. Black, Latinx, Middle Eastern and North African, Native American, and Pacific Islander (BLMNPI) students had no significant differences compared to white and Asian students. We also analyzed end-of-quarter student self-reflections on their fulfillment of expectations prior to taking the course. While the majority of students reported a positive overall sentiment about the course and many students specifically appreciated the justice-centered approach, some desired more practice with program implementation and interview preparation. We discuss implications for practice and articulate a political vision for holding both appreciation for computing ethics and a desire for professional preparation together through iterative design. | 翻訳日:2024-03-20 02:42:50 公開日:2024-03-15 |
# トレーニングの力:ニューラルネットワークのセットアップの違いがエネルギー需要に与える影響
The Power of Training: How Different Neural Network Setups Influence the Energy Demand ( http://arxiv.org/abs/2401.01851v2 ) ライセンス: Link先を確認 | Daniel Geißler, Bo Zhou, Mengxi Liu, Sungho Suh, Paul Lukowicz, | (参考訳) この研究は、機械学習のトレーニング体制と学習パラダイムのバリエーションがコンピューティングのエネルギー消費に与える影響、特にライフサイクルを意識したHPCハードウェアに与える影響のヒューリスティックな評価を提供する。
高性能ハードウェアにおけるデータ可用性とイノベーションの増大は、洗練されたモデルのトレーニングを促進する一方で、エネルギー消費と二酸化炭素排出に対する認識の薄れを助長する。
そこで本研究の目的は,バッチサイズを超える学習率から知識伝達に至るまで,一般的なトレーニングパラメータやプロセスのエネルギー的影響に対する意識を高めることである。
異なるハイパーパラメータ構成の複数のセットアップを3つの異なるハードウェアシステムで評価する。
その結果,同じモデルとハードウェアで同じ精度に到達しても,トレーニングハイパーパラメータは最適設定の5倍のエネルギーを消費することがわかった。
また,マルチタスク学習による知識の事前学習と共有を通じて,リサイクル知識を含む学習パラダイムの省エネ効果についても検討した。
This work offers a heuristic evaluation of the effects of variations in machine learning training regimes and learning paradigms on the energy consumption of computing, especially HPC hardware with a life-cycle aware perspective. While increasing data availability and innovation in high-performance hardware fuels the training of sophisticated models, it also fosters the fading perception of energy consumption and carbon emission. Therefore, the goal of this work is to raise awareness about the energy impact of general training parameters and processes, from learning rate over batch size to knowledge transfer. Multiple setups with different hyperparameter configurations are evaluated on three different hardware systems. Among many results, we have found out that even with the same model and hardware to reach the same accuracy, improperly set training hyperparameters consume up to 5 times the energy of the optimal setup. We also extensively examined the energy-saving benefits of learning paradigms including recycling knowledge through pretraining and sharing knowledge through multitask training. | 翻訳日:2024-03-20 02:32:43 公開日:2024-03-15 |
# SOS-Match:非構造環境におけるオープンセットロバスト対応探索とロボットの局所化のためのセグメンテーション
SOS-Match: Segmentation for Open-Set Robust Correspondence Search and Robot Localization in Unstructured Environments ( http://arxiv.org/abs/2401.04791v2 ) ライセンス: Link先を確認 | Annika Thomas, Jouko Kinnari, Parker Lusk, Kota Kondo, Jonathan P. How, | (参考訳) SOS-Matchは非構造化環境におけるオブジェクトの検出とマッチングのための新しいフレームワークである。
私たちのシステムは
1)ゼロショットセグメンテーションモデルを用いたフロントエンドマッピングパイプラインを用いて、画像からオブジェクトマスクを抽出し、フレーム間で追跡する。
2) 物体関係の幾何的整合性を利用したフレームアライメントパイプラインを, 様々な条件で効率的に局在させる。
SOS-Matchをバトヴィクの季節データセットで評価し、異なる季節と照明条件下で南フィンランド沿岸のプロット上空でドローンによる飛行を観測した。
その結果,従来の画像特徴量に基づく手法やグローバルな記述手法よりも照明や外観の変化に頑健であり,学習に基づく特徴検出や記述手法よりも視点差が大きいことがわかった。
SOS-Matchは、他の特徴ベースのアプローチよりも最大46倍高速な参照マップ内をローカライズし、最もコンパクトな他のマップの0.5%未満のサイズを持つ。
SOS-Matchは、照明や外観の変化に頑健で、他の手法よりも計算効率が高い非構造環境におけるランドマーク検出と対応探索のための有望な新しいアプローチであり、セグメントの幾何学的配置は非構造環境における貴重な局所化キューであることを示唆している。
データセットはhttps://acl.mit.edu/SOS-Match/で公開しています。
We present SOS-Match, a novel framework for detecting and matching objects in unstructured environments. Our system consists of 1) a front-end mapping pipeline using a zero-shot segmentation model to extract object masks from images and track them across frames and 2) a frame alignment pipeline that uses the geometric consistency of object relationships to efficiently localize across a variety of conditions. We evaluate SOS-Match on the Batvik seasonal dataset which includes drone flights collected over a coastal plot of southern Finland during different seasons and lighting conditions. Results show that our approach is more robust to changes in lighting and appearance than classical image feature-based approaches or global descriptor methods, and it provides more viewpoint invariance than learning-based feature detection and description approaches. SOS-Match localizes within a reference map up to 46x faster than other feature-based approaches and has a map size less than 0.5% the size of the most compact other maps. SOS-Match is a promising new approach for landmark detection and correspondence search in unstructured environments that is robust to changes in lighting and appearance and is more computationally efficient than other approaches, suggesting that the geometric arrangement of segments is a valuable localization cue in unstructured environments. We release our datasets at https://acl.mit.edu/SOS-Match/. | 翻訳日:2024-03-20 02:22:38 公開日:2024-03-15 |
# フーリエトランスポーター:2種類のロボットマニピュレーションを3Dで実現
Fourier Transporter: Bi-Equivariant Robotic Manipulation in 3D ( http://arxiv.org/abs/2401.12046v2 ) ライセンス: Link先を確認 | Haojie Huang, Owen Howell, Dian Wang, Xupeng Zhu, Robin Walters, Robert Platt, | (参考訳) 多くの複雑なロボット操作タスクは、ピック・アンド・プレイス・アクションのシーケンスとして分解することができる。
ロボットエージェントを訓練して、多くの異なる開始条件でこのシーケンスを学ぶには、通常、特に3D環境で、多くのイテレーションやデモが必要になる。
本研究では,2次元SE(d)xSE(d)対称性を利用するフーリエトランスポーター(FourTran)を提案する。
FourTranは、専門家によるデモを使って訓練されたオープンループの行動クローニング手法で、新しい環境におけるピック・プレース・アクションを予測する。
FourTranは、ピック・アンド・プレイス・アクションの対称性を独立して組み込むよう制約されている。
本手法は, メモリ効率の高い構成が可能なファイバ空間フーリエ変換を利用する。
提案するネットワークをRLbenchベンチマークでテストし,様々なタスクで最先端の結果を得る。
Many complex robotic manipulation tasks can be decomposed as a sequence of pick and place actions. Training a robotic agent to learn this sequence over many different starting conditions typically requires many iterations or demonstrations, especially in 3D environments. In this work, we propose Fourier Transporter (FourTran) which leverages the two-fold SE(d)xSE(d) symmetry in the pick-place problem to achieve much higher sample efficiency. FourTran is an open-loop behavior cloning method trained using expert demonstrations to predict pick-place actions on new environments. FourTran is constrained to incorporate symmetries of the pick and place actions independently. Our method utilizes a fiber space Fourier transformation that allows for memory-efficient construction. We test our proposed network on the RLbench benchmark and achieve state-of-the-art results across various tasks. | 翻訳日:2024-03-20 02:22:38 公開日:2024-03-15 |
# 高次元データのためのベイジアンガウス過程に基づく潜在判別デコーダ(LDGD)モデル
A Bayesian Gaussian Process-Based Latent Discriminative Generative Decoder (LDGD) Model for High-Dimensional Data ( http://arxiv.org/abs/2401.16497v2 ) ライセンス: Link先を確認 | Navid Ziaei, Behzad Nazari, Uri T. Eden, Alik Widge, Ali Yousefi, | (参考訳) 高次元データから有意義な情報を抽出することは、特にデータがノイズによって隠されたり、異なるモダリティによって表現された場合、非常に難しいモデリング課題となる。
本研究はガウス過程(GP)を利用した新しい非パラメトリックモデリング手法を提案し,それを潜在低次元多様体にマッピングすることによって高次元データを特徴付ける。
このモデルはLDGD (Latent Discriminative Generative Decoder) と名付けられ、多様体発見過程においてデータと関連するラベルの両方を用いる。
我々は、潜在変数を推測するベイズ解を導出し、LDGDがデータ中の固有の確率性を効果的に捉えることを可能にする。
合成データセットとベンチマークデータセットの両方に対するLDGDの適用例を示す。
LDGDはこの多様体を正確に推定するだけでなく、データポイントのラベルを予測する精度は最先端のアプローチを上回る。
LDGDの開発において,大規模データセットに対するガウス過程の計算複雑性を低減し,効率的な処理とスケーラビリティを向上するためのバッチトレーニングを可能にした。
さらに、LDGDは、データサイズが制限されているシナリオのラベルを頑健に推論し、精度よく予測できることを示し、その能力は、限られたサンプルで高次元データを効率的に特徴付けることができることを示した。
これらの属性は、高次元データを分析するための非パラメトリックモデリング手法を開発することの重要性を強調している。
Extracting meaningful information from high-dimensional data poses a formidable modeling challenge, particularly when the data is obscured by noise or represented through different modalities. This research proposes a novel non-parametric modeling approach, leveraging the Gaussian process (GP), to characterize high-dimensional data by mapping it to a latent low-dimensional manifold. This model, named the latent discriminative generative decoder (LDGD), employs both the data and associated labels in the manifold discovery process. We derive a Bayesian solution to infer the latent variables, allowing LDGD to effectively capture inherent stochasticity in the data. We demonstrate applications of LDGD on both synthetic and benchmark datasets. Not only does LDGD infer the manifold accurately, but its accuracy in predicting data points' labels surpasses state-of-the-art approaches. In the development of LDGD, we have incorporated inducing points to reduce the computational complexity of Gaussian processes for large datasets, enabling batch training for enhanced efficient processing and scalability. Additionally, we show that LDGD can robustly infer manifold and precisely predict labels for scenarios in that data size is limited, demonstrating its capability to efficiently characterize high-dimensional data with limited samples. These collective attributes highlight the importance of developing non-parametric modeling approaches to analyze high-dimensional data. | 翻訳日:2024-03-20 02:12:30 公開日:2024-03-15 |
# 都市地図と目標追跡研究のためのクアドロレータの設計と飛行実証
Design and Flight Demonstration of a Quadrotor for Urban Mapping and Target Tracking Research ( http://arxiv.org/abs/2402.13195v2 ) ライセンス: Link先を確認 | Collin Hague, Nick Kakavitsas, Jincheng Zhang, Chris Beam, Andrew Willis, Artur Wolek, | (参考訳) 本稿では,都市マッピング,ハザード回避,目標追跡研究のための画像センサを備えた小型四角形機のハードウェア設計と飛行実証について述べる。
車両には5台のカメラが装備されており、2対の魚眼ステレオカメラが装備されており、ほぼ一方向の視界と2軸ジンバルカメラが装備されている。
Robot Operating Systemソフトウェアを実行するNVIDIA Jetson Orin Nanoコンピュータがデータ収集に使用されている。
移動中のGPS座標を追跡するために、四角子とジンバルカメラの運動を調整するために自律的なトラッキング動作を実装した。
データ収集システムは、移動中のGPSタグ付き車両を一連の道路や駐車場で追跡する飛行テストを通じて実証された。
直接スパースオドメトリー (Direct Sparse Odometry, DSO) アルゴリズムを用いて, 収集した画像から環境マップを再構成した。
また、音響ノイズ、通信範囲、ホバリング時のバッテリ電圧、最大速度試験などが特徴である。
This paper describes the hardware design and flight demonstration of a small quadrotor with imaging sensors for urban mapping, hazard avoidance, and target tracking research. The vehicle is equipped with five cameras, including two pairs of fisheye stereo cameras that enable a nearly omnidirectional view and a two-axis gimbaled camera. An onboard NVIDIA Jetson Orin Nano computer running the Robot Operating System software is used for data collection. An autonomous tracking behavior was implemented to coordinate the motion of the quadrotor and gimbaled camera to track a moving GPS coordinate. The data collection system was demonstrated through a flight test that tracked a moving GPS-tagged vehicle through a series of roads and parking lots. A map of the environment was reconstructed from the collected images using the Direct Sparse Odometry (DSO) algorithm. The performance of the quadrotor was also characterized by acoustic noise, communication range, battery voltage in hover, and maximum speed tests. | 翻訳日:2024-03-20 01:52:05 公開日:2024-03-15 |
# DistALANER: オープンソースソフトウェアエコシステムにおけるアクティブラーニングの拡張されたエンティティ認識
DistALANER: Distantly Supervised Active Learning Augmented Named Entity Recognition in the Open Source Software Ecosystem ( http://arxiv.org/abs/2402.16159v3 ) ライセンス: Link先を確認 | Somnath Banerjee, Avik Dutta, Aaditya Agrawal, Rima Hazra, Animesh Mukherjee, | (参考訳) AI革命が成立すると、オープンソースのソフトウェアシステム、医療システム、銀行システム、交通システムなど、さまざまな分野のプロフェッショナルをサポートする自動化システムを構築する傾向がますます顕著になっている。
このようなシステムのサポートツールの自動化において重要な要件は、名前付きエンティティの早期識別であり、特殊機能開発の基礎となっている。
しかし、各ドメイン固有の性質、異なる専門用語や専門言語により、利用可能なデータのエキスパートアノテーションは高価で困難になる。
これらの課題を踏まえて,オープンソースのソフトウェアシステムに特化して,エンティティ認識(NER)技術を提案する。
提案手法は,2段階の遠隔教師付きアノテーションプロセスを用いて,注釈付きソフトウェアデータの不足に対処することを目的としている。
このプロセスは、言語ヒューリスティックス、ユニークなルックアップテーブル、外部知識源、アクティブな学習アプローチを戦略的に活用する。
これらの強力な技術を活用することで、モデルの性能を高めるだけでなく、コストや専門家アノテータの不足に伴う制限を効果的に緩和する。
我々のモデルは最先端のLLMよりもかなり優れています。
また,関係抽出の下流課題におけるNERの有効性を示す。
With the AI revolution in place, the trend for building automated systems to support professionals in different domains such as the open source software systems, healthcare systems, banking systems, transportation systems and many others have become increasingly prominent. A crucial requirement in the automation of support tools for such systems is the early identification of named entities, which serves as a foundation for developing specialized functionalities. However, due to the specific nature of each domain, different technical terminologies and specialized languages, expert annotation of available data becomes expensive and challenging. In light of these challenges, this paper proposes a novel named entity recognition (NER) technique specifically tailored for the open-source software systems. Our approach aims to address the scarcity of annotated software data by employing a comprehensive two-step distantly supervised annotation process. This process strategically leverages language heuristics, unique lookup tables, external knowledge sources, and an active learning approach. By harnessing these powerful techniques, we not only enhance model performance but also effectively mitigate the limitations associated with cost and the scarcity of expert annotators. It is noteworthy that our model significantly outperforms the state-of-the-art LLMs by a substantial margin. We also show the effectiveness of NER in the downstream task of relation extraction. | 翻訳日:2024-03-20 01:52:05 公開日:2024-03-15 |
# プライバシー関連Androidアプリレビューの10年 - 大規模トレンド
A Decade of Privacy-Relevant Android App Reviews: Large Scale Trends ( http://arxiv.org/abs/2403.02292v3 ) ライセンス: Link先を確認 | Omer Akgul, Sai Teja Peddinti, Nina Taft, Michelle L. Mazurek, Hamza Harkous, Animesh Srivastava, Benoit Seguin, | (参考訳) われわれは10年間にわたってGoogle Play Storeで公開されているプライバシー関連レビューの1200万件の分析を行った。
最先端のNLP技術を活用することで、時間、国、アプリタイプ、さまざまなプライバシトピック、さらにはさまざまな感情など、さまざまな側面で、ユーザがプライバシについて何を書いているかを調べる。
プライバシー関連レビューの着実に成長し、トレンドとなっているトピック(Data DeletionやData Theftなど)や減少しているトピック(機密権限に関するプライバシー関連レビューなど)を探求しています。
プライバシーレビューは200か国以上から来るが、33か国はプライバシーレビューの90%を提供している。
我々は、国のユーザーが書いたプライバシートピックの分布を調べて各国の比較を行い、近隣諸国が同様のプライバシー観を持っているという信頼性のある指標ではないことを発見した。
いくつかの国をユニークなパターンで発見し、これらを探索します。
驚いたことに、プライバシーを議論するレビューが肯定的であることは珍しくない(32%)。
また、デベロッパーにプライバシーの請求書を提供するためのレビューの利用など、予期せぬ行動も明らかにしています。
最後に,ユーザのプライバシに関する視点を理解するための既存手法の補完として,我々のアプローチによるアプリレビューの分析の価値を実証する。
We present an analysis of 12 million instances of privacy-relevant reviews publicly visible on the Google Play Store that span a 10 year period. By leveraging state of the art NLP techniques, we examine what users have been writing about privacy along multiple dimensions: time, countries, app types, diverse privacy topics, and even across a spectrum of emotions. We find consistent growth of privacy-relevant reviews, and explore topics that are trending (such as Data Deletion and Data Theft), as well as those on the decline (such as privacy-relevant reviews on sensitive permissions). We find that although privacy reviews come from more than 200 countries, 33 countries provide 90% of privacy reviews. We conduct a comparison across countries by examining the distribution of privacy topics a country's users write about, and find that geographic proximity is not a reliable indicator that nearby countries have similar privacy perspectives. We uncover some countries with unique patterns and explore those herein. Surprisingly, we uncover that it is not uncommon for reviews that discuss privacy to be positive (32%); many users express pleasure about privacy features within apps or privacy-focused apps. We also uncover some unexpected behaviors, such as the use of reviews to deliver privacy disclaimers to developers. Finally, we demonstrate the value of analyzing app reviews with our approach as a complement to existing methods for understanding users' perspectives about privacy | 翻訳日:2024-03-20 01:31:10 公開日:2024-03-15 |
# ヘテロ親水性グラフの不変近傍パターンの発見
Discovering Invariant Neighborhood Patterns for Heterophilic Graphs ( http://arxiv.org/abs/2403.10572v1 ) ライセンス: Link先を確認 | Ruihao Zhang, Zhengyu Chen, Teng Xiao, Yueyang Wang, Kun Kuang, | (参考訳) 本稿では,非ホモフィルグラフ上の分布シフトの問題を考察する。既存のグラフニューラルネットワーク手法の多くは,同一クラスからのノードがリンクされる可能性が高いというホモフィルス仮定に依存している。
しかし、そのようなホモフィリーの仮定は必ずしも実世界のグラフに留まらないため、以前の方法では計算されていないより複雑な分布シフトをもたらす。
近傍パターンの分布シフトは、非ホモフィルグラフにおいてより多様である。
Invariant Neighborhood Pattern Learning (INPL) を提案する。
具体的には、アダプティブ近傍伝播(ANP)モジュールを提案し、非ホモ親和グラフ上の近傍パターンの分布シフト問題を緩和する。
Invariant Non-Homophilous Graph Learning (INHGL) モジュールを提案する。
実世界の非ホモフィルグラフに対する大規模な実験結果から、INPLは大規模な非ホモフィルグラフ上での学習において最先端の性能を達成できることが示された。
This paper studies the problem of distribution shifts on non-homophilous graphs Mosting existing graph neural network methods rely on the homophilous assumption that nodes from the same class are more likely to be linked. However, such assumptions of homophily do not always hold in real-world graphs, which leads to more complex distribution shifts unaccounted for in previous methods. The distribution shifts of neighborhood patterns are much more diverse on non-homophilous graphs. We propose a novel Invariant Neighborhood Pattern Learning (INPL) to alleviate the distribution shifts problem on non-homophilous graphs. Specifically, we propose the Adaptive Neighborhood Propagation (ANP) module to capture the adaptive neighborhood information, which could alleviate the neighborhood pattern distribution shifts problem on non-homophilous graphs. We propose Invariant Non-Homophilous Graph Learning (INHGL) module to constrain the ANP and learn invariant graph representation on non-homophilous graphs. Extensive experimental results on real-world non-homophilous graphs show that INPL could achieve state-of-the-art performance for learning on large non-homophilous graphs. | 翻訳日:2024-03-19 22:55:17 公開日:2024-03-15 |
# 医用未学習例:無許可トラニングによる局所マスキングによる医療データの確保
Medical Unlearnable Examples: Securing Medical Data from Unauthorized Traning via Sparsity-Aware Local Masking ( http://arxiv.org/abs/2403.10573v1 ) ライセンス: Link先を確認 | Weixiang Sun, Yixin Liu, Zhiling Yan, Kaidi Xu, Lichao Sun, | (参考訳) 医療における人工知能(AI)の急速な成長に伴い、機密性の高い医療データの生成と保存が著しく増加した。
この膨大なデータにより、医療AI技術の進歩が加速した。
しかしながら、商用AIモデルのトレーニングなど、不正なデータエクスプロイトに関する懸念は、研究者が貴重なデータセットを公開することを妨げることが多い。
医療機関がデータの共有を奨励しながら、この難しいデータを保護する必要性に応えて、ある有望な解決策は、データに知覚不可能なノイズを導入することだ。
本手法は、モデル一般化における劣化を誘導することにより、不正なトレーニングに対してデータを保護することを目的とする。
既存の手法では、一般的なドメインでは、信頼できるデータ保護機能を示してきたが、医用画像のスパースな性質を考慮できないために、バイオメディカルデータに適用すると、不足する傾向にある。
この問題に対処するために,従来の戦略のように画像全体ではなく,重要なピクセル領域を選択的に摂動する新しい手法であるSALM法を提案する。
この単純な効果により、局所に集中することで摂動探索空間を著しく減少させ、スパース特徴を特徴とするバイオメディカルデータセットのデータ保護の効率性と有効性を向上させる。
さらに,SALMはデータの本質的特性を保ち,その臨床的有用性は損なわれていないことを実証した。
各種データセットおよびモデルアーキテクチャにわたる広範な実験により、SALMは、ディープラーニングモデルの不正なトレーニングを効果的に防止し、従来の最先端データ保護手法より優れていることを示す。
With the rapid growth of artificial intelligence (AI) in healthcare, there has been a significant increase in the generation and storage of sensitive medical data. This abundance of data, in turn, has propelled the advancement of medical AI technologies. However, concerns about unauthorized data exploitation, such as training commercial AI models, often deter researchers from making their invaluable datasets publicly available. In response to the need to protect this hard-to-collect data while still encouraging medical institutions to share it, one promising solution is to introduce imperceptible noise into the data. This method aims to safeguard the data against unauthorized training by inducing degradation in model generalization. Although existing methods have shown commendable data protection capabilities in general domains, they tend to fall short when applied to biomedical data, mainly due to their failure to account for the sparse nature of medical images. To address this problem, we propose the Sparsity-Aware Local Masking (SALM) method, a novel approach that selectively perturbs significant pixel regions rather than the entire image as previous strategies have done. This simple-yet-effective approach significantly reduces the perturbation search space by concentrating on local regions, thereby improving both the efficiency and effectiveness of data protection for biomedical datasets characterized by sparse features. Besides, we have demonstrated that SALM maintains the essential characteristics of the data, ensuring its clinical utility remains uncompromised. Our extensive experiments across various datasets and model architectures demonstrate that SALM effectively prevents unauthorized training of deep-learning models and outperforms previous state-of-the-art data protection methods. | 翻訳日:2024-03-19 22:55:17 公開日:2024-03-15 |
# 時空間変換器を用いた適応的追跡のための自己回帰的クエリ
Autoregressive Queries for Adaptive Tracking with Spatio-TemporalTransformers ( http://arxiv.org/abs/2403.10574v1 ) ライセンス: Link先を確認 | Jinxia Xie, Bineng Zhong, Zhiyi Mo, Shengping Zhang, Liangtao Shi, Shuxiang Song, Rongrong Ji, | (参考訳) 豊かな時空間情報は、視覚追跡における複雑なターゲットの外観変化を捉えるために不可欠である。
しかし、ほとんどのトップパフォーマンス追跡アルゴリズムは時空間情報収集のために手作りの部品を多用している。
その結果、時空間情報は十分に探索されるには程遠い。
この問題を緩和するために,手書きの部品を多く含まずに時空間情報を効果的に学習するために,簡易な自己回帰クエリを用いた時空間変換器(AQATrack)を用いた適応トラッカーを提案する。
まず、スライディングウインドウ方式で、瞬時にターゲットの外観変化を捉えるための学習可能な自動回帰クエリについて紹介する。
そこで本研究では,既存の問合せのインタラクションのための新しい注意機構を設計し,新しい問合せを生成する。
最後に、初期ターゲットテンプレートと学習した自己回帰クエリに基づいて、時空間情報融合モジュール(STM)を時空間形成アグリゲーションとして設計し、対象物を特定する。
STMの利点は、静的な外観と瞬間的な変化を効果的に組み合わせ、ロバストな追跡を導くことである。
大規模な実験により,LaSOT,LaSOText,TrackingNet,GOT-10k,TNL2K,UAV123の6つの一般的な追跡ベンチマークにおいて,トラッカーの性能が大幅に向上した。
The rich spatio-temporal information is crucial to capture the complicated target appearance variations in visual tracking. However, most top-performing tracking algorithms rely on many hand-crafted components for spatio-temporal information aggregation. Consequently, the spatio-temporal information is far away from being fully explored. To alleviate this issue, we propose an adaptive tracker with spatio-temporal transformers (named AQATrack), which adopts simple autoregressive queries to effectively learn spatio-temporal information without many hand-designed components. Firstly, we introduce a set of learnable and autoregressive queries to capture the instantaneous target appearance changes in a sliding window fashion. Then, we design a novel attention mechanism for the interaction of existing queries to generate a new query in current frame. Finally, based on the initial target template and learnt autoregressive queries, a spatio-temporal information fusion module (STM) is designed for spatiotemporal formation aggregation to locate a target object. Benefiting from the STM, we can effectively combine the static appearance and instantaneous changes to guide robust tracking. Extensive experiments show that our method significantly improves the tracker's performance on six popular tracking benchmarks: LaSOT, LaSOText, TrackingNet, GOT-10k, TNL2K, and UAV123. | 翻訳日:2024-03-19 22:55:17 公開日:2024-03-15 |
# 補助関数を用いた言語モデルのコード生成能力の探索
Exploring Language Model's Code Generation Ability with Auxiliary Functions ( http://arxiv.org/abs/2403.10575v1 ) ライセンス: Link先を確認 | Seonghyeon Lee, Sanghwan Jang, Seongbo Jang, Dongha Lee, Hwanjo Yu, | (参考訳) 補助関数は、言語モデルのコード生成能力を改善するのに役立つコンポーネントである。
しかし、それらがどのように影響するかの体系的な調査はまだ行われていない。
本研究では,近年のコード予測言語モデルで符号化された補助関数を利用する能力について,包括的に評価する。
まず,1つの関数が他方を補助する2つの関数の例を含むヒューマンエクステンション(HumanExtension)と呼ばれる人為的な評価セットを構築する。
我々はHumanExtensionを用いて、複数の実験を設計し、その能力を多面的に検証する。
我々の評価プロセスは、有効性と堅牢性の観点から、プロンプトに補助関数を含める包括的な理解を可能にする。
追加の実装スタイル分析は、補助関数にアクセスする際にモデルの様々な実装パターンをキャプチャする。
この分析により,2つの関数を段階的に実装することで,自己改善動作を含む補助機能を利用するモデルの有望な能力を明らかにする。
しかし,本分析では,補助関数を呼出する不便な動作も明らかにしており,モデルに符号化された補助関数呼び出し能力を引き出すことで,その実装の今後の方向性を示唆している。
この研究の方向性を促進するために、コードとデータセットをリリースします。
Auxiliary function is a helpful component to improve language model's code generation ability. However, a systematic exploration of how they affect has yet to be done. In this work, we comprehensively evaluate the ability to utilize auxiliary functions encoded in recent code-pretrained language models. First, we construct a human-crafted evaluation set, called HumanExtension, which contains examples of two functions where one function assists the other. With HumanExtension, we design several experiments to examine their ability in a multifaceted way. Our evaluation processes enable a comprehensive understanding of including auxiliary functions in the prompt in terms of effectiveness and robustness. An additional implementation style analysis captures the models' various implementation patterns when they access the auxiliary function. Through this analysis, we discover the models' promising ability to utilize auxiliary functions including their self-improving behavior by implementing the two functions step-by-step. However, our analysis also reveals the model's underutilized behavior to call the auxiliary function, suggesting the future direction to enhance their implementation by eliciting the auxiliary function call ability encoded in the models. We release our code and dataset to facilitate this research direction. | 翻訳日:2024-03-19 22:55:17 公開日:2024-03-15 |
# Ignore Me But Don't Change me: using non-Linguistic Elements for Pretraining on the Cybersecurity Domain
Ignore Me But Don't Replace Me: Utilizing Non-Linguistic Elements for Pretraining on the Cybersecurity Domain ( http://arxiv.org/abs/2403.10576v1 ) ライセンス: Link先を確認 | Eugene Jang, Jian Cui, Dayeon Yim, Youngjin Jin, Jin-Woo Chung, Seungwon Shin, Yongjae Lee, | (参考訳) サイバーセキュリティ情報はしばしば技術的に複雑であり、構造化されていないテキストを通して中継される。
高レベルの専門知識を持つテキストドメインでは、ドメイン内のコーパスを事前訓練することが、ドメインの専門知識を得るための言語モデルとして一般的な方法である。
しかし、サイバーセキュリティのテキストには、確立された事前訓練手法には適さない非言語的要素(URLやハッシュ値など)が含まれていることが多い。
他の領域での以前の研究は、ノイズのようなテキストを除去またはフィルタリングしているが、これらの手法の有効性は、特にサイバーセキュリティ領域では調査されていない。
我々は,異なる事前学習手法を提案し,下流タスクと探索タスクを通してその効果を評価する。
提案手法(選択的MLMとNLEトークン分類を共同訓練)は,非言語的要素(NLE)を置き換える一般的なアプローチよりも優れている。
CyBERTunedは、サイバーセキュリティのドメイン言語モデルで、ほとんどのタスクにおいて、他のサイバーセキュリティのPLMよりも優れています。
Cybersecurity information is often technically complex and relayed through unstructured text, making automation of cyber threat intelligence highly challenging. For such text domains that involve high levels of expertise, pretraining on in-domain corpora has been a popular method for language models to obtain domain expertise. However, cybersecurity texts often contain non-linguistic elements (such as URLs and hash values) that could be unsuitable with the established pretraining methodologies. Previous work in other domains have removed or filtered such text as noise, but the effectiveness of these methods have not been investigated, especially in the cybersecurity domain. We propose different pretraining methodologies and evaluate their effectiveness through downstream tasks and probing tasks. Our proposed strategy (selective MLM and jointly training NLE token classification) outperforms the commonly taken approach of replacing non-linguistic elements (NLEs). We use our domain-customized methodology to train CyBERTuned, a cybersecurity domain language model that outperforms other cybersecurity PLMs on most tasks. | 翻訳日:2024-03-19 22:55:17 公開日:2024-03-15 |
# 確率回転浅水騒音の生成モデル
Generative Modelling of Stochastic Rotating Shallow Water Noise ( http://arxiv.org/abs/2403.10578v1 ) ライセンス: Link先を確認 | Dan Crisan, Oana Lang, Alexander Lobbe, | (参考訳) 近年,流体力学・確率偏微分方程式の雑音をパラメータ化するための一般的な手法が開発され,その確率性はサブグリッドスケールプロセスのパラメータ化に導入された。
亜グリッドスケールの変動から生じる系統的モデル誤差を表現するため, 気象・気候予測の不確実性の推定には, サブグリッドスケールプロセスの確率的パラメータ化が必要である。
従来の手法では、確率的パラメトリゼーションの増分が通常分散されるアンザッツに基づく主成分分析(PCA)技術を使用していた。
本稿では,PCA手法を生成モデル手法に置き換える。
これにより、インクリメントに追加の制約を課すのを避けることができます。
本手法は, 入力データとして使用するモデルの高度変動を考慮した, 確率的回転浅水モデルを用いて実験を行った。
数値シミュレーションにより、このノイズはガウス的でないことが分かる。
生成モデリング技術は、RMSE、CRPSスコア、および予測ランクヒストグラム結果を提供する。
In recent work, the authors have developed a generic methodology for calibrating the noise in fluid dynamics stochastic partial differential equations where the stochasticity was introduced to parametrize subgrid-scale processes. The stochastic parameterization of sub-grid scale processes is required in the estimation of uncertainty in weather and climate predictions, to represent systematic model errors arising from subgrid-scale fluctuations. The previous methodology used a principal component analysis (PCA) technique based on the ansatz that the increments of the stochastic parametrization are normally distributed. In this paper, the PCA technique is replaced by a generative model technique. This enables us to avoid imposing additional constraints on the increments. The methodology is tested on a stochastic rotating shallow water model with the elevation variable of the model used as input data. The numerical simulations show that the noise is indeed non-Gaussian. The generative modelling technology gives good RMSE, CRPS score and forecast rank histogram results. | 翻訳日:2024-03-19 22:55:17 公開日:2024-03-15 |
# 心不全リスク予測のための大言語モデルインフォームドECGデュアルアテンションネットワーク
Large Language Model-informed ECG Dual Attention Network for Heart Failure Risk Prediction ( http://arxiv.org/abs/2403.10581v1 ) ライセンス: Link先を確認 | Chen Chen, Lei Li, Marcel Beetz, Abhirup Banerjee, Ramneek Gupta, Vicente Grau, | (参考訳) 心臓不全(HF)は、世界的な死亡率の上昇により、公衆衛生上の大きな課題となる。
早期診断と予防によってこの問題に対処することは、疾患の影響を著しく減少させる可能性がある。
本研究は臨床的に得られた12誘導心電図(ECG)を用いたHFリスク予測手法を提案する。
低リスク群と高リスク群の相違が顕著であるにもかかわらず、初期のHF予測に不可欠な複雑なECG特徴を捉えるために設計された、より軽量なデュアルアテンションECGネットワークを提案する。
ネットワークは、クロスリードアテンションモジュールと12個のリード固有の時間アテンションモジュールを備え、各リード内のクロスリードインタラクションと局所時間ダイナミクスをキャプチャする。
限られたトレーニングデータからモデル過適合を防止するため,我々は,ECG-Reportアライメントタスクで事前トレーニングを行うために,パブリックECG-Reportデータセットを用いた大規模言語モデル(LLM)を利用する。
このネットワークは、高血圧(UKB-HYP)患者と心筋梗塞(UKB-MI)患者の2つの特定のコホートを用いて、HFリスク予測のために微調整される。
以上の結果から,LLMインフォームドプレトレーニングは,これらのコホートにおけるネットワークのHFリスク予測能力を著しく向上させることが明らかとなった。
さらに、デュアルアテンション機構は、解釈可能性と予測性能を高め、透明で信頼性の高い予測プロセスを保証する。
この方法は既存のモデルより優れており、それぞれUKB-HYPとUKB-MIテストセットで平均C-インデックススコア0.6349と0.5805を達成している。
以上の結果から, 複雑な心電図データ管理におけるアプローチの有効性と, 各種集団におけるHFリスクアセスメントの改善の可能性が示唆された。
Heart failure (HF) poses a significant public health challenge due to its rising global mortality rate. Addressing this issue through early diagnosis and prevention could significantly reduce the disease's impact. This work introduces a methodology for HF risk prediction using clinically acquired 12-lead electrocardiograms (ECGs). We present a novel, lightweight dual-attention ECG network designed to capture complex ECG features essential for early HF prediction, despite the notable imbalance between low and high-risk groups. The network features a cross-lead attention module and twelve lead-specific temporal attention modules to capture cross-lead interactions and local temporal dynamics within each lead. To prevent model overfitting from limited training data, we leverage a large language model (LLM) with a public ECG-Report dataset for pretraining on an ECG-report alignment task. The network is then fine-tuned for HF risk prediction using two specific cohorts from the UK Biobank study, focusing on patients with hypertension (UKB-HYP) and those who have had a myocardial infarction (UKB-MI). Our findings show that LLM-informed pretraining significantly improves the network's HF risk prediction capability in these cohorts. Moreover, the dual-attention mechanism enhances interpretability and predictive performance, ensuring a transparent and reliable prediction process. The method outperforms existing models, achieving average C-index scores of 0.6349 and 0.5805 on the UKB-HYP and UKB-MI test sets, respectively. This performance demonstrates our approach's effectiveness in managing complex clinical ECG data and its potential to improve HF risk assessment across various populations. | 翻訳日:2024-03-19 22:55:17 公開日:2024-03-15 |
# 異なる身体部位からの映像とターゲットを用いたrPPGモデルの訓練方法
How Suboptimal is Training rPPG Models with Videos and Targets from Different Body Sites? ( http://arxiv.org/abs/2403.10582v1 ) ライセンス: Link先を確認 | Björn Braun, Daniel McDuff, Christian Holz, | (参考訳) 光胸筋電図(rPPG)による血流パルスのリモートカメラ計測は、拡張性、低コスト、アクセス可能な心血管情報評価のための魅力的な技術である。
ニューラルネットワークは現在、このタスクの最先端を提供しており、これらのモデルを作成する上では、教師付きトレーニングや微調整が重要なステップである。
しかし、現在のほとんどのモデルは、指先をターゲット/ラベルとして接触PSG測定を用いて、顔ビデオで訓練されている。
この理由の1つは、顔からの接触PSG測定を組み込んだ公開データセットがほとんどないことである。
しかし、体上の異なる部位のPSGシグナルは、非常に異なる形態的特徴を持つという、慎重な証拠がある。
顔面ビデオrPPGモデルのトレーニングは、身体下最適な別の部位からの接触測定を用いて行われているか?
最近リリースされた,手と顔の同時接触PSGとビデオ計測によるユニークなデータセットを用いて,この問題に対する正確かつ定量的な回答を提供する。
指先からのPGG信号を用いた場合, 予測波形と基底真理PSG信号間の平均2乗誤差は, 指先からのPGG信号を用いた場合に比べて最大40%低くなる。
また,前頭PSG信号のトレーニングにおいて,ニューラルネットワークが基底真理PSG信号のモルフォロジーをより良く予測できることを定性的に示す。
しかしながら、額PPGからトレーニングされたモデルはより忠実な波形を生成するが、指PPGからトレーニングされたモデルは依然として支配的な周波数(つまり心拍数)をよく学習する。
Remote camera measurement of the blood volume pulse via photoplethysmography (rPPG) is a compelling technology for scalable, low-cost, and accessible assessment of cardiovascular information. Neural networks currently provide the state-of-the-art for this task and supervised training or fine-tuning is an important step in creating these models. However, most current models are trained on facial videos using contact PPG measurements from the fingertip as targets/ labels. One of the reasons for this is that few public datasets to date have incorporated contact PPG measurements from the face. Yet there is copious evidence that the PPG signals at different sites on the body have very different morphological features. Is training a facial video rPPG model using contact measurements from another site on the body suboptimal? Using a recently released unique dataset with synchronized contact PPG and video measurements from both the hand and face, we can provide precise and quantitative answers to this question. We obtain up to 40 % lower mean squared errors between the waveforms of the predicted and the ground truth PPG signals using state-of-the-art neural models when using PPG signals from the forehead compared to using PPG signals from the fingertip. We also show qualitatively that the neural models learn to predict the morphology of the ground truth PPG signal better when trained on the forehead PPG signals. However, while models trained from the forehead PPG produce a more faithful waveform, models trained from a finger PPG do still learn the dominant frequency (i.e., the heart rate) well. | 翻訳日:2024-03-19 22:44:00 公開日:2024-03-15 |
# Bitcoin MiCAホワイトペーパー
Bitcoin MiCA Whitepaper ( http://arxiv.org/abs/2403.10583v1 ) ライセンス: Link先を確認 | Juan Ignacio Ibañez, Lena Klaaßen, Ulrich Gallersdörfer, Christian Stoll, | (参考訳) この文書は、EU(EU)2023/1114(MiCA)に従って、ホワイトペーパーを書く可能性を探究する目的で、学術的な演習として書かれている。
概念実証(PoC)として、MiCAの要求を具体的に適用することを目的としている。
ESMAが共有するMiCAの白書PoCと同様に、この文書はPoCの目的に過ぎず、暗号解読された白書がどのように機能するかを国民に知らせ、公開討論とフィードバックを刺激し、EU規則の実施に関する公開会話を強化する。
This document is written as an academic exercise, with the goal of exploring the feasibility of writing a white paper in accordance with Regulation (EU) 2023/1114 (MiCA). It is meant as a Proof of Concept (PoC) illustrating a concrete application of the requirements of MiCA. Like the MiCA white papers PoC shared by ESMA, this document is solely for the purposes of the PoC, to inform the public as to how a crypto-asset white paper could work, inspire public debate and feedback, and enhance the public conversation around the implementation of EU regulations. | 翻訳日:2024-03-19 22:44:00 公開日:2024-03-15 |
# 後方サンプリングによる一般雑音逆問題の解法:政策のグラディエントの観点から
Solving General Noisy Inverse Problem via Posterior Sampling: A Policy Gradient Viewpoint ( http://arxiv.org/abs/2403.10585v1 ) ライセンス: Link先を確認 | Haoyue Tang, Tian Xie, Aosong Feng, Hanyu Wang, Chenyang Zhang, Yang Bai, | (参考訳) 画像逆問題(例えば、超解像、塗装)の解決には、与えられた入力(低分解能画像またはマスク画像)と一致する高忠実度画像を生成する必要がある。
インプットイメージをガイダンスとして利用することにより、事前訓練された拡散生成モデルを用いて、タスク固有モデル微調整なしで幅広い画像逆タスクを解くことができる。
入力画像の誘導スコア関数を正確に推定するために、中間ノイズ画像をポリシーとして、対象画像をポリシーによって選択された状態として見ることにより、トラクタブルな計算法である拡散ポリシー勾配(DPG)を提案する。
実験により,複数の線形および非線形の逆タスクにおけるガウスノイズとポアソンノイズの劣化に対して頑健であり,FFHQ, ImageNet, LSUNデータセットにおける画像復元精度が高いことがわかった。
Solving image inverse problems (e.g., super-resolution and inpainting) requires generating a high fidelity image that matches the given input (the low-resolution image or the masked image). By using the input image as guidance, we can leverage a pretrained diffusion generative model to solve a wide range of image inverse tasks without task specific model fine-tuning. To precisely estimate the guidance score function of the input image, we propose Diffusion Policy Gradient (DPG), a tractable computation method by viewing the intermediate noisy images as policies and the target image as the states selected by the policy. Experiments show that our method is robust to both Gaussian and Poisson noise degradation on multiple linear and non-linear inverse tasks, resulting into a higher image restoration quality on FFHQ, ImageNet and LSUN datasets. | 翻訳日:2024-03-19 22:44:00 公開日:2024-03-15 |
# アルゴリズムから成果へ:非分子浸潤膀胱癌再発予測におけるAIの役割を振り返る
From Algorithms to Outcomes: Reviewing AI's Role in Non-Muscle-Invasive Bladder Cancer Recurrence Prediction ( http://arxiv.org/abs/2403.10586v1 ) ライセンス: Link先を確認 | Saram Abbas, Dr Rishad Shafik, Prof Naeem Soomro, Prof Rakesh Heer, Dr Kabita Adhikari, | (参考訳) 主要な尿路癌である膀胱がんは、イギリスで毎日15人が死亡している。
主に非筋浸潤性膀胱癌(NMIBC)として出現し、膀胱壁の筋層を貫通していない腫瘍を特徴とする。
NMIBCは70-80%の非常に高い再発率に悩まされており、したがって最もコストがかかる治療である。
リスクを過大評価し,精度の低いスコアシステムによる再発予測ツール。
不正確で遅れた再発予測は死亡率を大幅に上昇させる。
したがって、再発の正確な予測は、コスト効率の良い管理と治療計画に不可欠である。
そこで機械学習(ML)技術が、分子および臨床データを活用することでNMIBC再発を予測するための有望なアプローチとして登場した。
本総説では,NMIBC再発予測のためのMLアプローチを包括的に分析する。
組織的評価は, 再発予測とパーソナライズド・患者管理の促進を目的とした, 放射線, 臨床, 病理, ゲノム, 生化学的データなど, 多様なMLアルゴリズムとマーカーの可能性を示す。
各種予測タスク、データモダリティ、MLモデルを要約し、コスト効率を取り入れたパフォーマンス、限界、今後の方向性を明らかにする。
人工知能モデルの汎用性と解釈可能性に関する課題について論じ、協調的な取り組みと堅牢なデータセットの必要性を強調した。
Bladder cancer, the leading urinary tract cancer, is responsible for 15 deaths daily in the UK. This cancer predominantly manifests as non-muscle-invasive bladder cancer (NMIBC), characterised by tumours not yet penetrating the muscle layer of the bladder wall. NMIBC is plagued by a very high recurrence rate of 70-80% and hence the costliest treatments. Current tools for predicting recurrence use scoring systems that overestimate risk and have poor accuracy. Inaccurate and delayed prediction of recurrence significantly elevates the likelihood of mortality. Accurate prediction of recurrence is hence vital for cost-effective management and treatment planning. This is where Machine learning (ML) techniques have emerged as a promising approach for predicting NMIBC recurrence by leveraging molecular and clinical data. This review provides a comprehensive analysis of ML approaches for predicting NMIBC recurrence. Our systematic evaluation demonstrates the potential of diverse ML algorithms and markers, including radiomic, clinical, histopathological, genomic, and biochemical data in enhancing recurrence prediction and personalised patient management. We summarise various prediction tasks, data modalities, and ML models used, highlighting their performance, limitations, and future directions of incorporating cost-effectiveness. Challenges related to generalisability and interpretability of artificial intelligent models are discussed, emphasising the need for collaborative efforts and robust datasets. | 翻訳日:2024-03-19 22:44:00 公開日:2024-03-15 |
# 純二ビット状態とユニタリの2つのBloch Sphere表現に向けて
Towards Two Bloch Sphere Representation of Pure Two Qubit States and Unitaries ( http://arxiv.org/abs/2403.10587v1 ) ライセンス: Link先を確認 | Stanislav Filatov, Marcis Auzinsh, | (参考訳) 我々は、Bloch Sphere形式を純粋2量子ビット系に拡張する。
幾何代数からの洞察と異なる共役基底における絡み合いの解析を組み合わせることで、最大絡み合い状態を表すのに適した2つのブロッホ球形状を同定する。
2つのブロッホ球の座標軸の相対方向は状態を記述するために用いられる可能性がある。
さらに、1つのブロッホ球の座標軸は厳密に、もう1つは左利きでなければならない。
分離可能な最大絡み合い状態や、絡み合いや非絡み合いの回転を記述・描写する。
また、異なる入力に対してCNOTゲートの動作をグラフィカルに表現する。
最後に、部分的絡み合い状態も表現し、状態表現を囲む球面の表面積に関連する絡み合い測度を記述する方法を提供する。
We extend Bloch Sphere formalism to pure two qubit systems. Combining insights from Geometric Algebra and analysis of entanglement in different conjugate bases we identify Two Bloch Sphere geometry that is suitable for representing maximally entangled states. It turns out that relative direction of coordinate axes of the two Bloch Spheres may be used to describe the states. Moreover, coordinate axes of one Bloch sphere should be rignt-handed and of the other one - left-handed. We describe and depict separable and maximally entangled states as well as entangling and non-entangling rotations. We also offer graphical representation of workings of a CNOT gate for different inputs. Finally we provide a way to also represent partially entangled states and describe entanglement measure related to the surface area of the sphere enclosing the state representation. | 翻訳日:2024-03-19 22:44:00 公開日:2024-03-15 |
# S3LLM: ソース、メタデータ、ドキュメントを使用したLLMによる大規模科学ソフトウェア理解
S3LLM: Large-Scale Scientific Software Understanding with LLMs using Source, Metadata, and Document ( http://arxiv.org/abs/2403.10588v1 ) ライセンス: Link先を確認 | Kareem Shaik, Dali Wang, Weijian Zheng, Qinglei Cao, Heng Fan, Peter Schwartz, Yunhe Feng, | (参考訳) 大規模な科学ソフトウェアを理解することは、コードベースの多様さ、コードの長さの広さ、対象とするコンピューティングアーキテクチャなど、大きな課題を生んでいる。
生成AIの出現、特に大きな言語モデル(LLM)は、そのような複雑な科学的コードを理解するための新しい経路を提供する。
本稿では,S3LLMについて述べる。S3LLMは,ソースコード,コードメタデータ,要約情報を,ユーザフレンドリーなインターフェースを通じて対話的かつ対話的な方法で,テキスト技術レポートと併用可能にするための,LCMベースのフレームワークである。
S3LLMはオープンソースのLLaMA-2モデルを利用して、自然言語クエリをドメイン固有言語(DSL)クエリに自動変換することで、コード解析を強化する。
具体的には、これらのクエリをFeature Query Language(FQL)に変換し、コードリポジトリ全体の効率的なスキャンと解析を可能にする。
さらに、S3LLMは、DOT、SQL、カスタマイズフォーマットなど、さまざまなメタデータタイプを扱うように設計されている。
さらに、S3LLMは検索拡張生成(RAG)とLangChain技術を組み込んで、広範なドキュメントを直接クエリする。
S3LLMは、大規模な科学計算ソフトウェアを迅速に理解するために、ローカルにデプロイされたオープンソースLLMを使用することの可能性を示し、コーディングの専門知識の広範な必要をなくし、プロセスをより効率的かつ効果的にする。
S3LLMはhttps://github.com/ResponsibleAILab/s3llm.comで入手できる。
The understanding of large-scale scientific software poses significant challenges due to its diverse codebase, extensive code length, and target computing architectures. The emergence of generative AI, specifically large language models (LLMs), provides novel pathways for understanding such complex scientific codes. This paper presents S3LLM, an LLM-based framework designed to enable the examination of source code, code metadata, and summarized information in conjunction with textual technical reports in an interactive, conversational manner through a user-friendly interface. S3LLM leverages open-source LLaMA-2 models to enhance code analysis through the automatic transformation of natural language queries into domain-specific language (DSL) queries. Specifically, it translates these queries into Feature Query Language (FQL), enabling efficient scanning and parsing of entire code repositories. In addition, S3LLM is equipped to handle diverse metadata types, including DOT, SQL, and customized formats. Furthermore, S3LLM incorporates retrieval augmented generation (RAG) and LangChain technologies to directly query extensive documents. S3LLM demonstrates the potential of using locally deployed open-source LLMs for the rapid understanding of large-scale scientific computing software, eliminating the need for extensive coding expertise, and thereby making the process more efficient and effective. S3LLM is available at https://github.com/ResponsibleAILab/s3llm. | 翻訳日:2024-03-19 22:44:00 公開日:2024-03-15 |
# GANに基づく超解像モデルにおける空間情報を損失関数に組み込む一般手法
A General Method to Incorporate Spatial Information into Loss Functions for GAN-based Super-resolution Models ( http://arxiv.org/abs/2403.10589v1 ) ライセンス: Link先を確認 | Xijun Wang, Santiago López-Tapia, Alice Lucas, Xinyi Wu, Rafael Molina, Aggelos K. Katsaggelos, | (参考訳) GAN(Generative Adversarial Networks)は、より視覚的にリアルな画像やビデオフレームを生成することができるため、超高解像度な問題に対して優れた性能を示している。
しかしながら、これらのモデルは、予期せぬアーチファクトやノイズなどの出力に副作用をもたらすことが多い。
本稿では,これらのアーティファクトを低減し,その結果の知覚的品質を高めるために,トレーニングプロセスに不可欠な空間情報を導入することで,ほとんどのGANベース超解像(SR)モデルで効果的に使用できる一般手法を提案する。
入力データから空間情報を抽出し、トレーニング損失に組み込むことにより、対応する損失を空間適応(SA)する。
その後、トレーニングプロセスのガイドに利用します。
提案手法は空間情報を抽出する手法とは独立であり,SRタスクやモデルとは独立であることを示す。
この方法では、視覚的に満足なSR画像やビデオフレームを生成するためのトレーニングプロセスが一貫してガイドされ、アーティファクトやノイズが大幅に軽減され、最終的には知覚品質が向上する。
Generative Adversarial Networks (GANs) have shown great performance on super-resolution problems since they can generate more visually realistic images and video frames. However, these models often introduce side effects into the outputs, such as unexpected artifacts and noises. To reduce these artifacts and enhance the perceptual quality of the results, in this paper, we propose a general method that can be effectively used in most GAN-based super-resolution (SR) models by introducing essential spatial information into the training process. We extract spatial information from the input data and incorporate it into the training loss, making the corresponding loss a spatially adaptive (SA) one. After that, we utilize it to guide the training process. We will show that the proposed approach is independent of the methods used to extract the spatial information and independent of the SR tasks and models. This method consistently guides the training process towards generating visually pleasing SR images and video frames, substantially mitigating artifacts and noise, ultimately leading to enhanced perceptual quality. | 翻訳日:2024-03-19 22:44:00 公開日:2024-03-15 |
# マルコフと世俗近似を超えたフェルミオンマスター方程式の有効時間依存性温度
Effective time-dependent temperature for fermionic master equations beyond the Markov and the secular approximations ( http://arxiv.org/abs/2403.10591v1 ) ライセンス: Link先を確認 | Lukas Litzba, Eric Kleinherbers, Jürgen König, Ralf Schützhold, Nikodem Szpak, | (参考訳) 我々は, 環境に一定の温度で結合した量子系を考察し, 普遍法則に従う有効時間依存性の接触温度を持つレッドフィールド方程式を用いて, システムの進化の減少を記述する。
初期の段階では、システムと環境が製品状態になると、効果的な接触温度がはるかに高くなり、最終的には真の環境値に落ち着く。
このようにして、非マルコフ効果を包含し、世俗近似や時空近似以外の様々な種類のGKSL方程式にさらに適用できる方法を得る。
第一原理から理論を導出し、単一の量子ドットの単純な例を用いてその応用について議論する。
We consider a quantum system coupled to environment at a fixed temperature and describe the reduced evolution of the system by means of a Redfield equation with effective time-dependent contact temperature obeying a universal law. At early times, after the system and environment start in a product state, the effective contact temperature appears to be much higher, yet eventually it settles down towards the true environment value. In this way, we obtain a method which includes non-Markovian effects and can be further applied to various types of GKSL equations, beyond the secular approximation and time-averaging methods. We derive the theory from first principles and discuss its application using a simple example of a single quantum dot. | 翻訳日:2024-03-19 22:44:00 公開日:2024-03-15 |
# フィンチ理論の安定化と量子情報処理への応用の可能性
Studying Stabilizer de Finetti Theorems and Possible Applications in Quantum Information Processing ( http://arxiv.org/abs/2403.10592v1 ) ライセンス: Link先を確認 | Paula Belzig, | (参考訳) 対称性は科学の多くの分野において基本的な関心事である。
量子情報理論において、量子状態がそのサブシステムの置換の下で不変であるなら、その境界は単一のサブシステムの状態のテンソルパワーの混合によって近似できるというよく知られた広く使われている結果である。
この量子デフィネッティ定理の応用は量子鍵分布(QKD)から量子状態トモグラフィーおよび数値分離性試験まで様々である。
最近、グロス、ネザミ、ウォルターによって同様の観測は置換よりも大きな対称性群に対して可能であることが判明した:確率的直交対称性の下で不変な状態は安定化状態のテンソルパワーによって近似され、従来より指数関数的に小さいオーバーヘッドを持つ。
このことは、この対称性が現れる(あるいは強制できる)アプリケーションで同様の改善が見つかるかどうかという疑問を自然に提起する。
ここでは2つの事例について考察する。
Symmetries are of fundamental interest in many areas of science. In quantum information theory, if a quantum state is invariant under permutations of its subsystems, it is a well-known and widely used result that its marginal can be approximated by a mixture of tensor powers of a state on a single subsystem. Applications of this quantum de Finetti theorem range from quantum key distribution (QKD) to quantum state tomography and numerical separability tests. Recently, it has been discovered by Gross, Nezami and Walter that a similar observation can be made for a larger symmetry group than permutations: states that are invariant under stochastic orthogonal symmetry are approximated by tensor powers of stabilizer states, with an exponentially smaller overhead than previously possible. This naturally raises the question if similar improvements could be found for applications where this symmetry appears (or can be enforced). Here, two such examples are investigated. | 翻訳日:2024-03-19 22:44:00 公開日:2024-03-15 |
# 神経エロージョン:AIシステムにおける制御された神経変性と老化をエミュレートする
Neural Erosion: Emulating Controlled Neurodegeneration and Aging in AI Systems ( http://arxiv.org/abs/2403.10596v1 ) ライセンス: Link先を確認 | Antonios Alexos, Yu-Dai Tsai, Ian Domingo, Maryam Pishgar, Pierre Baldi, | (参考訳) 人工知能(AI)における神経変性をシミュレートする制御手法の作成は、脳機能低下や認知障害をエミュレートするアプリケーションに不可欠である。
我々は,Large Language Models (LLMs) によるIQテストと,より具体的には LLaMA 2 を用いて,'`neural erosion' の概念を導入する。
「この故意な浸食は、シナプスやニューロンを非難することや、訓練中または訓練後にガウスノイズを付加することであり、LSMのパフォーマンスは制御的に低下する。」
我々はIQテストの神経変性を記述し、LLMがまず数学的能力を失い、次に言語能力を失うことを示し、さらに質問を理解する能力を失っている。
私たちの知る限りでは、コンピュータビジョン領域で動作する他の研究と比べて、神経変性をテキストデータでモデル化する最初の研究である。
最後に, 被験者を対象とする認知低下臨床研究と, 研究の類似性について考察した。
神経変性法の応用により、LLMは抽象的な思考能力を失い、数学的劣化が続き、最終的には言語能力が失われ、不整合に応答することが判明した。
これらの発見は人間の研究と一致している。
Creating controlled methods to simulate neurodegeneration in artificial intelligence (AI) is crucial for applications that emulate brain function decline and cognitive disorders. We use IQ tests performed by Large Language Models (LLMs) and, more specifically, the LLaMA 2 to introduce the concept of ``neural erosion." This deliberate erosion involves ablating synapses or neurons, or adding Gaussian noise during or after training, resulting in a controlled progressive decline in the LLMs' performance. We are able to describe the neurodegeneration in the IQ tests and show that the LLM first loses its mathematical abilities and then its linguistic abilities, while further losing its ability to understand the questions. To the best of our knowledge, this is the first work that models neurodegeneration with text data, compared to other works that operate in the computer vision domain. Finally, we draw similarities between our study and cognitive decline clinical studies involving test subjects. We find that with the application of neurodegenerative methods, LLMs lose abstract thinking abilities, followed by mathematical degradation, and ultimately, a loss in linguistic ability, responding to prompts incoherently. These findings are in accordance with human studies. | 翻訳日:2024-03-19 22:44:00 公開日:2024-03-15 |
# 小格子分数量子ホール流体の端における量子非線形光学
Quantum nonlinear optics on the edge of small lattice fractional quantum Hall fluids ( http://arxiv.org/abs/2403.10598v1 ) ライセンス: Link先を確認 | A. Nardin, D. De Bernardis, M. Rizzi, R. O. Umucalilar, L. Mazza, M. Rizzi, I. Carusotto, | (参考訳) 格子分数量子ホール液体の外部電位に対するエッジモードの量子力学について検討した。
非線形キラルルッティンガー液体理論は, 現状実験で利用できる連続限界から離れた小さな格子幾何学においても, 定量的に正確な説明を提供することを示した。
外部励起に対する線形および非線形応答の両方において、バルク横ホール導電率の量子化値の実験的にアクセス可能なシグネチャを同定する。
開境界によって誘導される強い非線形性は、大きな量子遮断効果を引き起こし、エッジモードの非古典状態が生成される。
We study the quantum dynamics of the edge modes of lattice fractional quantum Hall liquids in response to time-dependent external potentials. We show that the nonlinear chiral Luttinger liquid theory provides a quantitatively accurate description even for the small lattice geometries away from the continuum limit that are available in state-of-the-art experiments. Experimentally accessible signatures of the quantized value of the bulk transverse Hall conductivity are identified both in the linear and the non-linear response to an external excitation. The strong nonlinearity induced by the open boundaries is responsible for sizable quantum blockade effects, leading to the generation of nonclassical states of the edge modes. | 翻訳日:2024-03-19 22:44:00 公開日:2024-03-15 |
# 熱力学的自明な系における非ゼロ温度での量子メモリ
Quantum memory at nonzero temperature in a thermodynamically trivial system ( http://arxiv.org/abs/2403.10599v1 ) ライセンス: Link先を確認 | Yifan Hong, Jinkang Guo, Andrew Lucas, | (参考訳) パッシブエラー訂正は、局所情報と少数体の相互作用のみに基づいてシステムを更新することで、論理情報を永久に(熱力学の限界において)保護する。
古典的な2次元イジングモデル(英語版)のパラダイム的な例: メトロポリススタイルのギブスサンプリング器は、低温相において熱力学的に長い時間に初期磁化(論理ビット)の符号を保持する。
受動的量子誤差補正の既知のモデルも同様に、論理量子ビットが熱的に安定な位相秩序によって保護される低温相への熱力学的相転移を示す。
これとは対照的に、定数レートの古典的および量子的低密度パリティチェック符号は、非ゼロ温度での相転移が$\textit{thermodynamic}=存在しないが、にもかかわらず、$\textit{ergodicity-breaking}$ dynamical transitions: 臨界非ゼロ温度以下では、局所ギブズサンプリングの混合時間は熱力学極限内で分岐する。
広いエネルギー状態を作る際の回路の複雑さは、熱力学的遷移を渡らずに分岐する可能性があると推測する。
Gibbsサンプルに触発されたフォールトトレラントなパッシブデコーダは、測定不要な量子エラー補正に適しており、シンドローム測定とアクティブフィードバックに基づく従来の量子エラー補正に代わる望ましい実験的選択肢を示す可能性がある。
Passive error correction protects logical information forever (in the thermodynamic limit) by updating the system based only on local information and few-body interactions. A paradigmatic example is the classical two-dimensional Ising model: a Metropolis-style Gibbs sampler retains the sign of the initial magnetization (a logical bit) for thermodynamically long times in the low-temperature phase. Known models of passive quantum error correction similarly exhibit thermodynamic phase transitions to a low-temperature phase wherein logical qubits are protected by thermally stable topological order. Here, in contrast, we show that constant-rate classical and quantum low-density parity check codes have no $\textit{thermodynamic}$ phase transitions at nonzero temperature, but nonetheless exhibit $\textit{ergodicity-breaking}$ dynamical transitions: below a critical nonzero temperature, the mixing time of local Gibbs sampling diverges in the thermodynamic limit. We conjecture that the circuit complexity of preparing extensive-energy states may diverge without crossing any thermodynamic transition. Fault-tolerant passive decoders, inspired by Gibbs samplers, may be amenable to measurement-free quantum error correction and may present a desirable experimental alternative to conventional quantum error correction based on syndrome measurements and active feedback. | 翻訳日:2024-03-19 22:44:00 公開日:2024-03-15 |
# スカラーU(1)電荷を持つ量子カオスハミルトニアンの絡み合いパターン
Entanglement patterns of quantum chaotic Hamiltonians with a scalar U(1) charge ( http://arxiv.org/abs/2403.10600v1 ) ライセンス: Link先を確認 | Christopher M. Langlett, Joaquin F. Rodriguez-Nieva, | (参考訳) 量子カオスヒンジの現在の理解は、量子多体系、特に固有状態とそのエネルギーレベル統計における典型的な状態のランダム行列挙動(RMT)に基づいている。
RMTは、カオス状態における量子状態の「粗い」特徴を記述することに成功しているが、特に空間的局所性や対称性から生じる「最終」特徴を捉えられなかった。
本稿では,物理系の重要な特徴を捉える制約付きRTTアンサンブルを用いて,物理系の固有状態アンサンブルの挙動を正確に記述できることを示す。
我々は、スカラーU(1)電荷を持つ局所スピンハミルトニアンに対するアプローチを実証する。
エネルギーと磁化の役割を担う2つの局所スカラー電荷を考慮に入れた制約付きRTTアンサンブルを構築することにより、あらゆる長さスケールにおける中スペクトル固有状態の絡み合いのパターンを解析的および数値的に記述する。
量子カオスとRTTの対応を定義するとき、我々の研究はRMTアンサンブルが、基礎となるハミルトンのすべての特徴、特に空間的局所性と対称性を考慮に入れなければならないことを明らかにしている。
Our current understanding of quantum chaos hinges on the random matrix behavior (RMT) of typical states in quantum many-body systems, particularly eigenstates and their energy level statistics. Although RMT has been remarkably successful in describing `coarse' features of quantum states in chaotic regimes, it fails to capture their `finer' features, particularly those arising from spatial locality and symmetries. Here, we show that we can accurately describe the behavior of eigenstate ensembles in physical systems by using RMT ensembles with constraints that capture the key features of the physical system. We demonstrate our approach on local spin Hamiltonians with a scalar U(1) charge. By constructing constrained RMT ensembles that account for two local scalar charges playing the role of energy and magnetization, we describe the patterns of entanglement of mid-spectrum eigenstates at all lengthscales and beyond their average behavior, analytically and numerically. When defining the correspondence between quantum chaos and RMT, our work clarifies that RMT ensembles must be constrained to account for all the features of the underlying Hamiltonian, particularly spatial locality and symmetries. | 翻訳日:2024-03-19 22:44:00 公開日:2024-03-15 |
# SurvRNC: Rank-N-Contrast を用いた生存予測のための学習順序付き表現
SurvRNC: Learning Ordered Representations for Survival Prediction using Rank-N-Contrast ( http://arxiv.org/abs/2403.10603v1 ) ライセンス: Link先を確認 | Numan Saeed, Muhammad Ridzuan, Fadillah Adamsyah Maani, Hussain Alasmawi, Karthik Nandakumar, Mohammad Yaqub, | (参考訳) 早期に予後に関する貴重な情報を提供するため、がんと診断された個人にとって生存可能性の予測は最重要事項である。
この知識は、患者結果の改善につながる効果的な治療計画の定式化を可能にする。
過去数年間、ディープラーニングモデルは、がんリスクスコアを推定するための医療画像、電子健康記録、ゲノムデータを評価するための実現可能なソリューションを提供してきた。
しかしながら、これらのモデルは回帰対応の特徴表現を学ぶのに苦労するため、ポテンシャルに欠けることが多い。
本研究では,サバイバル・ランクNコントラスト(SurvRNC)法を提案する。サバイバル・ランクNコントラスト(SurvRNC)法は,サバイバル時間に基づく順序表現を得るために正規化器として損失関数を導入する。
この関数は検閲されたデータを扱うことができ、学習された表現が順序づけられていることを保証するため、サバイバルモデルに組み込むことができる。
このモデルは、HECKTOR(Head \&Neck Tumor)セグメンテーションと結果予測タスクデータセットで広範囲に評価された。
訓練にSurvRNC法を用いることで,異なる深層生存モデルにおいて高い性能が得られることを示す。
さらに、コンコータンス指数で最先端の手法を3.6%上回る。
コードはhttps://github.com/numanai/SurvRNCで公開されている。
Predicting the likelihood of survival is of paramount importance for individuals diagnosed with cancer as it provides invaluable information regarding prognosis at an early stage. This knowledge enables the formulation of effective treatment plans that lead to improved patient outcomes. In the past few years, deep learning models have provided a feasible solution for assessing medical images, electronic health records, and genomic data to estimate cancer risk scores. However, these models often fall short of their potential because they struggle to learn regression-aware feature representations. In this study, we propose Survival Rank-N Contrast (SurvRNC) method, which introduces a loss function as a regularizer to obtain an ordered representation based on the survival times. This function can handle censored data and can be incorporated into any survival model to ensure that the learned representation is ordinal. The model was extensively evaluated on a HEad \& NeCK TumOR (HECKTOR) segmentation and the outcome-prediction task dataset. We demonstrate that using the SurvRNC method for training can achieve higher performance on different deep survival models. Additionally, it outperforms state-of-the-art methods by 3.6% on the concordance index. The code is publicly available on https://github.com/numanai/SurvRNC | 翻訳日:2024-03-19 22:44:00 公開日:2024-03-15 |
# 変分推論における包括的KL最小化のための連続モンテカルロ
Sequential Monte Carlo for Inclusive KL Minimization in Amortized Variational Inference ( http://arxiv.org/abs/2403.10610v1 ) ライセンス: Link先を確認 | Declan McNamara, Jackson Loper, Jeffrey Regier, | (参考訳) エンコーダネットワークをトレーニングしてアモータライズされた変分推論を行う場合、KL(Kulback-Leibler)は、その最小値の質量被覆特性により、その近似から包含的あるいは前方的KLと呼ばれる近似への分岐がますます一般的になっている。
しかし、この目的を最小化するのは難しい。
既存の一般的なアプローチであるReweighted Wake-Sleep (RWS)は、偏りの強い勾配と、高度に集中した変動分布をもたらす円形の病理に悩まされている。
SMC-Wake(SMC-Wake)は,モンテカルロ検層を用いて包摂的KL偏差の勾配を推定する近似法である。
3つの勾配推定器を提案し、これらは全て漸近的に反復数に偏りがなく、2つは強く一貫したものである。
提案手法は, 確率勾配更新, SMC サンプリング器, 反復的な改良を行い, 正規化定数の推定を行い, 自己正規化からのバイアスを低減する。
シミュレーションと実データの両方を用いた実験では、SMC-Wakeは既存の手法よりも後方を正確に近似する変動分布に適合する。
For training an encoder network to perform amortized variational inference, the Kullback-Leibler (KL) divergence from the exact posterior to its approximation, known as the inclusive or forward KL, is an increasingly popular choice of variational objective due to the mass-covering property of its minimizer. However, minimizing this objective is challenging. A popular existing approach, Reweighted Wake-Sleep (RWS), suffers from heavily biased gradients and a circular pathology that results in highly concentrated variational distributions. As an alternative, we propose SMC-Wake, a procedure for fitting an amortized variational approximation that uses likelihood-tempered sequential Monte Carlo samplers to estimate the gradient of the inclusive KL divergence. We propose three gradient estimators, all of which are asymptotically unbiased in the number of iterations and two of which are strongly consistent. Our method interleaves stochastic gradient updates, SMC samplers, and iterative improvement to an estimate of the normalizing constant to reduce bias from self-normalization. In experiments with both simulated and real datasets, SMC-Wake fits variational distributions that approximate the posterior more accurately than existing methods. | 翻訳日:2024-03-19 22:44:00 公開日:2024-03-15 |
# LightIt:拡散モデルの照明モデリングと制御
LightIt: Illumination Modeling and Control for Diffusion Models ( http://arxiv.org/abs/2403.10615v1 ) ライセンス: Link先を確認 | Peter Kocsis, Julien Philip, Kalyan Sunkavalli, Matthias Nießner, Yannick Hold-Geoffroy, | (参考訳) 我々は、画像生成のための明示的な照明制御方法であるLightItを紹介する。
近年の生成法では照明制御が欠如しており、全体の気分や映像の外観の設定など、画像生成の多くの芸術的側面に欠如している。
これらの制限を克服するために、シェーディングと正規写像の生成を条件にすることを提案する。
私たちは、キャストシャドウを含む単一のバウンスシェーディングで照明をモデル化します。
まずシェーディング推定モジュールをトレーニングし、実世界の画像とシェーディングペアのデータセットを生成する。
次に、推定シェーディングと正規化を入力として制御ネットワークを訓練する。
本手法は,多数のシーンにおいて高品質な画像生成と照明制御を実現する。
さらに、生成したデータセットを使用して、画像とターゲットシェーディングに条件付けされたID保存リライトモデルをトレーニングします。
本手法は、制御可能で一貫した照度を持つ画像の生成を可能にする最初の方法であり、特殊照準方式と同等の処理を行う。
We introduce LightIt, a method for explicit illumination control for image generation. Recent generative methods lack lighting control, which is crucial to numerous artistic aspects of image generation such as setting the overall mood or cinematic appearance. To overcome these limitations, we propose to condition the generation on shading and normal maps. We model the lighting with single bounce shading, which includes cast shadows. We first train a shading estimation module to generate a dataset of real-world images and shading pairs. Then, we train a control network using the estimated shading and normals as input. Our method demonstrates high-quality image generation and lighting control in numerous scenes. Additionally, we use our generated dataset to train an identity-preserving relighting model, conditioned on an image and a target shading. Our method is the first that enables the generation of images with controllable, consistent lighting and performs on par with specialized relighting state-of-the-art methods. | 翻訳日:2024-03-19 22:34:14 公開日:2024-03-15 |
# DiPaCo: 分散パス構成
DiPaCo: Distributed Path Composition ( http://arxiv.org/abs/2403.10616v1 ) ライセンス: Link先を確認 | Arthur Douillard, Qixuan Feng, Andrei A. Rusu, Adhiguna Kuncoro, Yani Donchev, Rachita Chhaparia, Ionel Gog, Marc'Aurelio Ranzato, Jiajun Shen, Arthur Szlam, | (参考訳) 機械学習(ML)の進歩は、ニューラルネットワークモデルのスケーリングによって加速されている。
このスケーリングは、並列に動作するデバイス間の高い帯域幅通信を必要とするMLアプローチの調整に必要な、よりヒロイックなエンジニアリングの成果によって実現されている。
本研究では,Distributed PAth Composition (DiPaCo) と呼ばれるMLモデルのモジュールアーキテクチャとトレーニング手法を提案する。
トレーニング中、DiPaCoは共有モジュールのセットを通じて、パスによる計算を分散する。
ローカル-SGD にインスパイアされた最適化 (DiLoCo) により,モジュール間の通信を劇的に削減すると同時に,作業者の障害やプリエンプションに対する堅牢性を確保する設計により,接続不良や異種作業者間のトレーニングを容易にする。
推論時には、モデル圧縮を必要とせずに、各入力に対して1つのパスだけを実行する必要がある。
このアプローチは大規模学習の新しいパラダイムに向けた最初のプロトタイプだと考えています。
広範に使用されているC4ベンチマーク実験の結果,DPaCoは1億5000万個のパラメータを持つ256個の経路のうちの1つを選択することで,10億パラメータの高密度トランスフォーマー言語モデルの性能を上回っていることがわかった。
Progress in machine learning (ML) has been fueled by scaling neural network models. This scaling has been enabled by ever more heroic feats of engineering, necessary for accommodating ML approaches that require high bandwidth communication between devices working in parallel. In this work, we propose a co-designed modular architecture and training approach for ML models, dubbed DIstributed PAth COmposition (DiPaCo). During training, DiPaCo distributes computation by paths through a set of shared modules. Together with a Local-SGD inspired optimization (DiLoCo) that keeps modules in sync with drastically reduced communication, Our approach facilitates training across poorly connected and heterogeneous workers, with a design that ensures robustness to worker failures and preemptions. At inference time, only a single path needs to be executed for each input, without the need for any model compression. We consider this approach as a first prototype towards a new paradigm of large-scale learning, one that is less synchronous and more modular. Our experiments on the widely used C4 benchmark show that, for the same amount of training steps but less wall-clock time, DiPaCo exceeds the performance of a 1 billion-parameter dense transformer language model by choosing one of 256 possible paths, each with a size of 150 million parameters. | 翻訳日:2024-03-19 22:34:14 公開日:2024-03-15 |
# 中間処理効果の近似限界
Limits of Approximating the Median Treatment Effect ( http://arxiv.org/abs/2403.10618v1 ) ライセンス: Link先を確認 | Raghavendra Addanki, Siddharth Bhandari, | (参考訳) 平均治療効果(ATE)推定は因果推論においてよく研究されている問題である。
しかし、これは必ずしもデータの不均一性を捉えるものではなく、量子処理効果を推定するなど、この問題に取り組むためのいくつかのアプローチが提案されている。
n$個人を含む有限集団設定では、潜在的結果ベクトル $\mathbf{a}, \mathbf{b}$ で表される処理と制御値を持つが、以前の研究の多くは、中央値$(\mathbf{a}) -$中央値$(\mathbf{b})$ を推定することに焦点を当てており、中央値($\mathbf x$)はベクトル$\mathbf x$ における全ての値のソート順序の中央値を表す。
中央値の差を推定するのは、中央値(\mathbf{a-b})$よりも容易であることが知られている。
因果推論の根本的な問題は、すべての$i$に対して、潜在的な結果値の1つ、すなわち$a_i$か$b_i$のどちらかしか観察できないことである。
この研究において、MTE は推定可能ではなく、$\mathbf{a-b}$ の値のソート順序に依存する新しい近似の概念を詳述する。
次に、MTE推定の複雑さを正確に捉える可変性という量を特定する。
理論計算機科学で研究されたインスタンス最適性への接続を描画することにより、MTEを推定する全てのアルゴリズムが、可変性を計算するアルゴリズムの誤差に匹敵する近似誤差を得ることを示す。
最後に、変数を正確に計算するための単純な線形時間アルゴリズムを提供する。
多くの先行研究とは異なり、我々の研究の顕著なハイライトは、潜在的な結果ベクトルがどのように生成され、どのように相関するかを仮定することではなく、潜在的な結果値が$k$-ary、すなわち$k$離散値の1つを取ることである。
Average Treatment Effect (ATE) estimation is a well-studied problem in causal inference. However, it does not necessarily capture the heterogeneity in the data, and several approaches have been proposed to tackle the issue, including estimating the Quantile Treatment Effects. In the finite population setting containing $n$ individuals, with treatment and control values denoted by the potential outcome vectors $\mathbf{a}, \mathbf{b}$, much of the prior work focused on estimating median$(\mathbf{a}) -$ median$(\mathbf{b})$, where median($\mathbf x$) denotes the median value in the sorted ordering of all the values in vector $\mathbf x$. It is known that estimating the difference of medians is easier than the desired estimand of median$(\mathbf{a-b})$, called the Median Treatment Effect (MTE). The fundamental problem of causal inference -- for every individual $i$, we can only observe one of the potential outcome values, i.e., either the value $a_i$ or $b_i$, but not both, makes estimating MTE particularly challenging. In this work, we argue that MTE is not estimable and detail a novel notion of approximation that relies on the sorted order of the values in $\mathbf{a-b}$. Next, we identify a quantity called variability that exactly captures the complexity of MTE estimation. By drawing connections to instance-optimality studied in theoretical computer science, we show that every algorithm for estimating the MTE obtains an approximation error that is no better than the error of an algorithm that computes variability. Finally, we provide a simple linear time algorithm for computing the variability exactly. Unlike much prior work, a particular highlight of our work is that we make no assumptions about how the potential outcome vectors are generated or how they are correlated, except that the potential outcome values are $k$-ary, i.e., take one of $k$ discrete values. | 翻訳日:2024-03-19 22:34:14 公開日:2024-03-15 |
# 光子の助けを借りて:連続可変量子コンピュータの量子場理論
With a Little Help from Photons: Quantum Field Theory on Continuous-Variable Quantum Computers ( http://arxiv.org/abs/2403.10619v1 ) ライセンス: Link先を確認 | Steven Abel, Michael Spannowsky, Simon Williams, | (参考訳) 我々は、光量子コンピューティングを用いて量子力学をシミュレートし、量子場理論への応用を拡大する。
本研究では, 任意のハミルトニアンの下での量子力学状態の時間的発展を再現するために, CVQC (Continuous-Variable Quantum Computing) のこの形式を利用した手法を開発し, 様々なポテンシャルで本手法の顕著な有効性を示す。
提案手法は,目的状態における所望の時間進化を誘導する特殊準備された量子状態である進化状態を構築することに集中する。
これは、計測ベースの量子コンピューティングアプローチを使用して、機械学習によって強化された非ガウス演算を導入することで達成される。
さらに,これらの手法を,フィールド値の判断なしにCVQC内の場理論を符号化するように拡張し,フィールドの連続的な性質を保たせる新しい枠組みを提案する。
これにより、量子場理論における量子コンピューティング応用の新しい道が開かれる。
We delve into the use of photonic quantum computing to simulate quantum mechanics and extend its application towards quantum field theory. We develop and prove a method that leverages this form of Continuous-Variable Quantum Computing (CVQC) to reproduce the time evolution of quantum-mechanical states under arbitrary Hamiltonians, and we demonstrate the method's remarkable efficacy with various potentials. Our method centres on constructing an evolver-state, a specially prepared quantum state that induces the desired time-evolution on the target state. This is achieved by introducing a non-Gaussian operation using a measurement-based quantum computing approach, enhanced by machine learning. Furthermore, we propose a novel framework in which these methods can be extended to encode field theories in CVQC without discretising the field values, thus preserving the continuous nature of the fields. This opens new avenues for quantum computing applications in quantum field theory. | 翻訳日:2024-03-19 22:34:14 公開日:2024-03-15 |
# NeuralOCT:ニューラルフィールドによる気道OCT解析
NeuralOCT: Airway OCT Analysis via Neural Fields ( http://arxiv.org/abs/2403.10622v1 ) ライセンス: Link先を確認 | Yining Jiao, Amy Oldenburg, Yinghan Xu, Srikamal Soundararajan, Carlton Zdanski, Julia Kimbell, Marc Niethammer, | (参考訳) 光コヒーレンストモグラフィー(OCT)は眼科では一般的なモダリティであり、血管内でも用いられる。
本研究の関心は,OCTの高分解能と無放射線化が重要である幼児・小児の気道異常の文脈におけるOCTである。
気道OCTの目的は,声門下狭窄などの気道異常を評価するために,気道形状(2次元および3次元)を正確に推定することである。
気道OCT画像処理のための学習ベースアプローチである$\texttt{NeuralOCT}$を提案する。
具体的には、$\texttt{NeuralOCT}$は、2Dセグメンテーションによるポイントクラウド抽出と、ニューラルネットワークによるポイントクラウドからの3D再構成という2つのステップを堅牢にブリッジすることで、OCTスキャンから3Dジオメトリを抽出する。
実験の結果,$\texttt{NeuralOCT}$は,平均A線誤差が70マイクロメートル未満の高精度でロバストな3次元気道再構成を実現することがわかった。
私たちのコードはGitHubで入手可能です。
Optical coherence tomography (OCT) is a popular modality in ophthalmology and is also used intravascularly. Our interest in this work is OCT in the context of airway abnormalities in infants and children where the high resolution of OCT and the fact that it is radiation-free is important. The goal of airway OCT is to provide accurate estimates of airway geometry (in 2D and 3D) to assess airway abnormalities such as subglottic stenosis. We propose $\texttt{NeuralOCT}$, a learning-based approach to process airway OCT images. Specifically, $\texttt{NeuralOCT}$ extracts 3D geometries from OCT scans by robustly bridging two steps: point cloud extraction via 2D segmentation and 3D reconstruction from point clouds via neural fields. Our experiments show that $\texttt{NeuralOCT}$ produces accurate and robust 3D airway reconstructions with an average A-line error smaller than 70 micrometer. Our code will cbe available on GitHub. | 翻訳日:2024-03-19 22:34:14 公開日:2024-03-15 |
# 感性情報推論のためのCLIPの活用とモデルフェアネスの向上
Leveraging CLIP for Inferring Sensitive Information and Improving Model Fairness ( http://arxiv.org/abs/2403.10624v1 ) ライセンス: Link先を確認 | Miao Zhang, Rumi Chunara, | (参考訳) サブ人口間の性能格差は、ディープラーニングに基づく視覚認識モデルに存在することが知られているが、従来の研究は、センシティブな属性ラベルの知識を前提として、このような公平性の懸念に対処してきた。
この依存を克服するため、従来の戦略では、格差を露呈し、調整するための個別の学習構造が含まれていた。
本研究では,機密情報を推論するための豊富な知識源として視覚言語モデルであるCLIPを活用することにより,機密属性ラベルを必要としない新たなパラダイムを探求し,余分なトレーニングの必要性を回避する。
画像および属性特定言語埋め込みから得られた類似性に基づいてサンプルクラスタリングを行い,それらの属性分布に対する対応性を評価する。
我々は、性能の低いクラスタを再サンプリングし、拡張することでターゲットモデルを訓練する。
複数のベンチマークバイアスデータセットに対する大規模な実験は、既存のベースラインよりもモデルの公正性を高めることを示し、CLIPが言語によって引き起こされる差別的センシティブな情報を抽出し、モデルの公正性を促進できることを示している。
Performance disparities across sub-populations are known to exist in deep learning-based vision recognition models, but previous work has largely addressed such fairness concerns assuming knowledge of sensitive attribute labels. To overcome this reliance, previous strategies have involved separate learning structures to expose and adjust for disparities. In this work, we explore a new paradigm that does not require sensitive attribute labels, and evades the need for extra training by leveraging the vision-language model, CLIP, as a rich knowledge source to infer sensitive information. We present sample clustering based on similarity derived from image and attribute-specified language embeddings and assess their correspondence to true attribute distribution. We train a target model by re-sampling and augmenting under-performed clusters. Extensive experiments on multiple benchmark bias datasets show clear fairness gains of the model over existing baselines, which indicate that CLIP can extract discriminative sensitive information prompted by language, and used to promote model fairness. | 翻訳日:2024-03-19 22:34:14 公開日:2024-03-15 |
# ダイヤモンド中のスピン量子ビットに対する普遍的高忠実量子ゲート
Universal high-fidelity quantum gates for spin-qubits in diamond ( http://arxiv.org/abs/2403.10633v1 ) ライセンス: Link先を確認 | H. P. Bartling, J. Yun, K. N. Schymik, M. van Riggelen, L. A. Enthoven, H. B. van Ommen, M. Babaie, F. Sebastiano, M. Markham, D. J. Twitchen, T. H. Taminiau, | (参考訳) 固体色中心に関連するスピンは、量子計算と量子ネットワークを研究するための有望なプラットフォームである。
最近の実験では、マルチキュービット量子プロセッサ、光配線、基本量子誤り訂正プロトコルが実証されている。
大規模システムに対する鍵となるオープンな課題の1つは、高忠実な普遍量子ゲートを実現することである。
本研究では,ダイヤモンド中の窒素空孔中心の電子スピンと核スピンによって形成される2ビット系に対して,完全な高忠実度ゲートを設計し,実証する。
ゲートセットトモグラフィー(GST)を用いて、ゲートを体系的に最適化し、最大99.999(1)\%$のシングルキュービットゲートフィデリティと、99.93(5) \%$の2キュービットゲートフィデリティを示す。
我々のゲートは不要な相互作用を分離するために設計されており、他の電子核スピン系にも拡張できる。
実証された高忠実度は、色中心量子ビットによる大規模量子処理に新たな機会を与える。
Spins associated to solid-state colour centers are a promising platform for investigating quantum computation and quantum networks. Recent experiments have demonstrated multi-qubit quantum processors, optical interconnects, and basic quantum error correction protocols. One of the key open challenges towards larger-scale systems is to realize high-fidelity universal quantum gates. In this work, we design and demonstrate a complete high-fidelity gate set for the two-qubit system formed by the electron and nuclear spin of a nitrogen-vacancy center in diamond. We use gate set tomography (GST) to systematically optimise the gates and demonstrate single-qubit gate fidelities of up to $99.999(1)\%$ and a two-qubit gate fidelity of $99.93(5) \%$. Our gates are designed to decouple unwanted interactions and can be extended to other electron-nuclear spin systems. The high fidelities demonstrated provide new opportunities towards larger-scale quantum processing with colour-center qubits. | 翻訳日:2024-03-19 22:34:14 公開日:2024-03-15 |
# MeDSLIP: 細粒度アライメントのための医用デュアルストリーム言語画像事前トレーニング
MeDSLIP: Medical Dual-Stream Language-Image Pre-training for Fine-grained Alignment ( http://arxiv.org/abs/2403.10635v1 ) ライセンス: Link先を確認 | Wenrui Fan, Mohammod Naimul Islam Suvon, Shuo Zhou, Xianyuan Liu, Samer Alabed, Venet Osmani, Andrew Swift, Chen Chen, Haiping Lu, | (参考訳) ヴィジュアル言語事前訓練(VLP)モデルは、医療領域において大きな進歩を見せている。
しかし、ほとんどのVLPモデルは、レポートに概説された解剖学的および病理学的概念と画像の対応する意味的概念との間のきめ細かい関係をモデル化することなく、生のレポートを非常に粗いレベルで画像に整列させる。
この問題に対処するために,医療用デュアルストリーム言語-画像事前学習(MeDSLIP)フレームワークを提案する。
特に、MeDSLIPは、視覚的およびテキスト的表現を解剖関連ストリームと病理関連ストリームに切り離して、視覚言語によるきめ細かなアライメントを確立する。
さらに,MeDSLIPでは,新しい視覚言語であるPrototypeal Contr-astive Learning (ProtoCL)法が採用され,解剖学的および病理学的ストリーム内のアライメントが向上した。
MeDSLIPはさらに、画像内の2つの解剖学的概念と病理学的概念の一貫性を確保するために、画像内コントラスト学習(ICL)をクロスストリームで採用している。
このようなストリーム間の正規化は、2つのストリーム間の同期を利用してより包括的な表現学習を促進する。
MeDSLIPは、NIH CXR14、RSNA Pneumonia、SIIM-ACR Pneumothoraxの3つの公開データセット上で、ゼロショットおよび教師付き微調整設定で評価される。
これらの設定下では、MeDSLIPは、分類、接地、セグメンテーションタスクに関する主要なCNNベースの6つのモデルより優れている。
Vision-language pre-training (VLP) models have shown significant advancements in the medical domain. Yet, most VLP models align raw reports to images at a very coarse level, without modeling fine-grained relationships between anatomical and pathological concepts outlined in reports and the corresponding semantic counterparts in images. To address this problem, we propose a Medical Dual-Stream Language-Image Pre-training (MeDSLIP) framework. Specifically, MeDSLIP establishes vision-language fine-grained alignments via disentangling visual and textual representations into anatomy-relevant and pathology-relevant streams. Moreover, a novel vision-language Prototypical Contr-astive Learning (ProtoCL) method is adopted in MeDSLIP to enhance the alignment within the anatomical and pathological streams. MeDSLIP further employs cross-stream Intra-image Contrastive Learning (ICL) to ensure the consistent coexistence of paired anatomical and pathological concepts within the same image. Such a cross-stream regularization encourages the model to exploit the synchrony between two streams for a more comprehensive representation learning. MeDSLIP is evaluated under zero-shot and supervised fine-tuning settings on three public datasets: NIH CXR14, RSNA Pneumonia, and SIIM-ACR Pneumothorax. Under these settings, MeDSLIP outperforms six leading CNN-based models on classification, grounding, and segmentation tasks. | 翻訳日:2024-03-19 22:34:14 公開日:2024-03-15 |
# ホームレスのストリートアウトリーチのための資源制約付き確率的スケジューリングアルゴリズムと食用食品のグリーニング
A resource-constrained stochastic scheduling algorithm for homeless street outreach and gleaning edible food ( http://arxiv.org/abs/2403.10638v1 ) ライセンス: Link先を確認 | Conor M. Artman, Aditya Mate, Ezinne Nwankwo, Aliza Heching, Tsuyoshi Idé, Jiří\, Navrátil, Karthikeyan Shanmugam, Wei Sun, Kush R. Varshney, Lauri Goldkind, Gidi Kroch, Jaclyn Sawyer, Ian Watson, | (参考訳) 私たちは、異なるミッションや運営を行う社会変革組織が直面する資源制限されたアウトリーチ問題に対処する一般的なアルゴリズムソリューションを開発しました。
具体的には、k$-step遷移の下で、部分的に保存されたエピソードのレストバンドレットを推定および最適化する手法を開発した。
その結果,マルコフ連鎖のリカバリによるトンプソンサンプリング(スタイン変分勾配降下法)アルゴリズムは,両組織の問題点に対するベースラインを著しく上回っていることがわかった。
我々は、社会的善のためのデータサイエンスにおける持続的影響の欠如を克服する上で有効な、フレキシブルで有用なソリューションを考案する、という明確な目標を掲げて、この取り組みを前向きに実施した。
We developed a common algorithmic solution addressing the problem of resource-constrained outreach encountered by social change organizations with different missions and operations: Breaking Ground -- an organization that helps individuals experiencing homelessness in New York transition to permanent housing and Leket -- the national food bank of Israel that rescues food from farms and elsewhere to feed the hungry. Specifically, we developed an estimation and optimization approach for partially-observed episodic restless bandits under $k$-step transitions. The results show that our Thompson sampling with Markov chain recovery (via Stein variational gradient descent) algorithm significantly outperforms baselines for the problems of both organizations. We carried out this work in a prospective manner with the express goal of devising a flexible-enough but also useful-enough solution that can help overcome a lack of sustainable impact in data science for social good. | 翻訳日:2024-03-19 22:34:14 公開日:2024-03-15 |
# 不確かさの定量化によるPDEの教科外学習の特徴と改善
Using Uncertainty Quantification to Characterize and Improve Out-of-Domain Learning for PDEs ( http://arxiv.org/abs/2403.10642v1 ) ライセンス: Link先を確認 | S. Chandra Mouli, Danielle C. Maddix, Shima Alizadeh, Gaurav Gupta, Andrew Stuart, Michael W. Mahoney, Yuyang Wang, | (参考訳) 科学機械学習(SciML)における既存の研究は、解演算子のデータ駆動学習が古典的数値偏微分方程式(PDE)の解法に代わる高速な近似を与えることを示した。
これらのうち、Neural Operators(NO)は特に有望である。
我々は,NOに対する不確実性定量化(UQ)法が,ドメイン内タスクに対して,モデルが解をよく近似した場合でも,中等度にドメイン外(OOD)である試験入力に失敗するのを観察する。
この制限に対処するため、複数のNOをアンサンブルすることで、高いエラー領域を識別でき、予測誤差とよく相関した良好な不確実性推定が得られることを示す。
そこで我々は,最後のフィードフォワード層における複数の頭部からの多様な予測を奨励することにより,アンサンブルの特性を模倣するコスト効率の良い代替手段であるDiverseNOを提案する。
次に、ProbConservフレームワーク内でこれらのよく校正されたUQ推定を使ってモデルを更新するOperator-ProbConservを紹介します。
実験の結果,演算子-ProbConservは様々なPDE問題に対してOODモデルの性能を向上し,保存法則などの物理制約を満たすことを示した。
Existing work in scientific machine learning (SciML) has shown that data-driven learning of solution operators can provide a fast approximate alternative to classical numerical partial differential equation (PDE) solvers. Of these, Neural Operators (NOs) have emerged as particularly promising. We observe that several uncertainty quantification (UQ) methods for NOs fail for test inputs that are even moderately out-of-domain (OOD), even when the model approximates the solution well for in-domain tasks. To address this limitation, we show that ensembling several NOs can identify high-error regions and provide good uncertainty estimates that are well-correlated with prediction errors. Based on this, we propose a cost-effective alternative, DiverseNO, that mimics the properties of the ensemble by encouraging diverse predictions from its multiple heads in the last feed-forward layer. We then introduce Operator-ProbConserv, a method that uses these well-calibrated UQ estimates within the ProbConserv framework to update the model. Our empirical results show that Operator-ProbConserv enhances OOD model performance for a variety of challenging PDE problems and satisfies physical constraints such as conservation laws. | 翻訳日:2024-03-19 22:34:14 公開日:2024-03-15 |
# 機械学習によるサイバーセキュリティタスクのソースコード表現に関する調査
A Survey of Source Code Representations for Machine Learning-Based Cybersecurity Tasks ( http://arxiv.org/abs/2403.10646v1 ) ライセンス: Link先を確認 | Beatrice Casey, Joanna C. S. Santos, George Perry, | (参考訳) サイバーセキュリティ関連のソフトウェアエンジニアリングタスクのための機械学習技術は、ますます人気が高まっている。
ソースコードの表現は、モデルがソースコードの特徴を学習する方法に影響を与える技術の重要な部分です。
これらの技術が開発されつつある中で、何が存在しているのか、何がまだ存在しないのかをよりよく理解するために、この分野の現状を見ることは価値がある。
本稿では、これらの既存のMLベースのアプローチについて研究し、異なるサイバーセキュリティタスクやプログラミング言語にどのような表現が使われたかを示す。
さらに,表現の異なるモデルの種類についても検討する。
グラフベースの表現が表現の最も一般的なカテゴリであり、Tokenizers と Abstract Syntax Trees (ASTs) が全体として最も人気のある2つの表現であることがわかった。
また、最も一般的なサイバーセキュリティタスクは脆弱性検出であり、最も多くのテクニックでカバーされている言語はCであることもわかりました。最後に、シーケンスベースのモデルはモデルの最も人気のあるカテゴリであり、サポートベクタマシン(SVM)は全体として最も人気のあるモデルであることが分かりました。
Machine learning techniques for cybersecurity-related software engineering tasks are becoming increasingly popular. The representation of source code is a key portion of the technique that can impact the way the model is able to learn the features of the source code. With an increasing number of these techniques being developed, it is valuable to see the current state of the field to better understand what exists and what's not there yet. This paper presents a study of these existing ML-based approaches and demonstrates what type of representations were used for different cybersecurity tasks and programming languages. Additionally, we study what types of models are used with different representations. We have found that graph-based representations are the most popular category of representation, and Tokenizers and Abstract Syntax Trees (ASTs) are the two most popular representations overall. We also found that the most popular cybersecurity task is vulnerability detection, and the language that is covered by the most techniques is C. Finally, we found that sequence-based models are the most popular category of models, and Support Vector Machines (SVMs) are the most popular model overall. | 翻訳日:2024-03-19 22:34:14 公開日:2024-03-15 |
# PALM:連続テスト時間適応のための適応学習率メカニズムの推進
PALM: Pushing Adaptive Learning Rate Mechanisms for Continual Test-Time Adaptation ( http://arxiv.org/abs/2403.10650v1 ) ライセンス: Link先を確認 | Sarthak Kumar Maharana, Baoming Zhang, Yunhui Guo, | (参考訳) 動的環境における実世界の視覚モデルは、領域分布の急激なシフトに直面し、認識性能が低下する。
連続テスト時間適応(CTTA)は、テストデータを用いて、トレーニング済みのソース識別モデルをこれらの変化領域に直接調整する。
高い有効性を有するCTTA法は、層ワイド適応学習率を適用し、事前学習された層を選択的に適応させることを含む。
しかし、ドメインシフトの低さや、擬似ラベルから生じる不正確さに悩まされている。
本研究では,擬似ラベルに依存しないモデル予測の不確実性の定量化により,これらの制限を克服することを目的とする。
ソフトマックス出力と均一分布のKL分散をバックプロパガンスすることで計算した勾配の等級を計量として利用し、さらなる適応のための層を選択する。
その後、これらの選択された層に属するパラメータを凍結させた上で、ドメインシフトを近似するためにそれらの感度を評価し、それに応じて学習率を調整する。
全体として、このアプローチは以前のアプローチよりも堅牢で安定した最適化につながる。
我々は,CIFAR-10C,CIFAR-100C,ImageNet-Cで画像分類実験を行い,標準ベンチマークと先行手法の有効性を実証した。
Real-world vision models in dynamic environments face rapid shifts in domain distributions, leading to decreased recognition performance. Continual test-time adaptation (CTTA) directly adjusts a pre-trained source discriminative model to these changing domains using test data. A highly effective CTTA method involves applying layer-wise adaptive learning rates, and selectively adapting pre-trained layers. However, it suffers from the poor estimation of domain shift and the inaccuracies arising from the pseudo-labels. In this work, we aim to overcome these limitations by identifying layers through the quantification of model prediction uncertainty without relying on pseudo-labels. We utilize the magnitude of gradients as a metric, calculated by backpropagating the KL divergence between the softmax output and a uniform distribution, to select layers for further adaptation. Subsequently, for the parameters exclusively belonging to these selected layers, with the remaining ones frozen, we evaluate their sensitivity in order to approximate the domain shift, followed by adjusting their learning rates accordingly. Overall, this approach leads to a more robust and stable optimization than prior approaches. We conduct extensive image classification experiments on CIFAR-10C, CIFAR-100C, and ImageNet-C and demonstrate the efficacy of our method against standard benchmarks and prior methods. | 翻訳日:2024-03-19 22:34:14 公開日:2024-03-15 |
# サブグループ閾値最適化を用いた信用貸出モデルの公平性向上
Improving Fairness in Credit Lending Models using Subgroup Threshold Optimization ( http://arxiv.org/abs/2403.10652v1 ) ライセンス: Link先を確認 | Cecilia Ying, Stephen Thomas, | (参考訳) 信用貸付決定の正確性を改善するため、多くの金融直観が機械学習モデルからの予測を使用している。
このような予測には多くの利点があるが、最近の研究では、人口の特定のサブグループに対して偏見があり不公平である可能性が示されている。
これに対抗するために、バイアスを除去し、予測の全体的な公正性を改善するためにいくつかのテクニックが導入されている。
入力トレーニングデータの変更は必要とせず、基礎となる機械学習アルゴリズムの変更も必要とせず、既存の機械学習パイプラインで使用することができる。
STOは、個々のサブグループの分類閾値を最適化して、それらの間の全体的な識別スコアを最小化する。
実世界の信用貸付データセットを用いた実験により、STOは性別差別を90%以上削減できることが示された。
In an effort to improve the accuracy of credit lending decisions, many financial intuitions are now using predictions from machine learning models. While such predictions enjoy many advantages, recent research has shown that the predictions have the potential to be biased and unfair towards certain subgroups of the population. To combat this, several techniques have been introduced to help remove the bias and improve the overall fairness of the predictions. We introduce a new fairness technique, called \textit{Subgroup Threshold Optimizer} (\textit{STO}), that does not require any alternations to the input training data nor does it require any changes to the underlying machine learning algorithm, and thus can be used with any existing machine learning pipeline. STO works by optimizing the classification thresholds for individual subgroups in order to minimize the overall discrimination score between them. Our experiments on a real-world credit lending dataset show that STO can reduce gender discrimination by over 90\%. | 翻訳日:2024-03-19 22:34:14 公開日:2024-03-15 |
# 量子ラビモデルにおける遷移結合の同定のための量子フィッシャー情報とポーラロン画像
Quantum Fisher information and polaron picture for identification of transition coupling in quantum Rabi model ( http://arxiv.org/abs/2403.10657v1 ) ライセンス: Link先を確認 | Zu-Jian Ying, Wen-Long Wang, Bo-Jian Li, | (参考訳) 量子ラビモデル(QRM)は光-物質相互作用の基本的なモデルである。
QRMの興味深い特徴は、臨界量子メートル法(CQM)に適用可能な量子相転移を示すことである。
CQMの効果的な応用は、遷移点の正確な位置を必要とするが、遷移結合の従来の表現は、0周波数以外は正確な位置が欠けているが、低周波数の極端な極限においてのみ有効である。
本研究では、CQMにおける量子フィッシャー情報(QFI)を用いて遷移結合を同定し、遷移結合が有限周波数をオンにすると、遷移結合が従来のものからかなり逸脱することを発見した。
ポラロン画像を用いて、数値QFIを解析的に再生する。
遷移結合の正確な式は、ポラロン周波数再正規化の分極パワー-法則効果のインスピレーションによって得られる。
ポーラロン画像のQFIから、単一光子吸収率の有効速度と感受性が最大となる点を中心に遷移が起こることが分かる。
この結果は、非ゼロ周波数における量子メートル法における遷移結合の正確な参照を提供する。
ポーラロン画像におけるQFIの定式化は、数値へのアクセスが困難なパラメータ状態に対して正確な補償を施した分析方法も作成する。
遷移の物理を抽出する整数/屈折力法則の解析に加えて、QFI/速度関係は、QFIと遷移可観測物のブリッジに関する洞察を与えるかもしれない。
The quantum Rabi model (QRM) is a fundamental model for light-matter interactions. A fascinating feature of the QRM is that it manifests a quantum phase transition which is applicable for critical quantum metrology (CQM). Effective application for CQM needs the exact location of the transition point, however the conventional expression for the transition coupling is only valid in the extreme limit of low frequency, while apart from zero frequency an accurate location is still lacking. In the present work we conversely use the quantum Fisher information (QFI) in the CQM to identify the transition coupling, which finds out that transition coupling indeed much deviates from the conventional one once a finite frequency is turned on. Polaron picture is applied to analytically reproduce the numeric QFI. An accurate expression for the transition coupling is obtained by the inspiration from the fractional-power-law effect of polaron frequency renormalization. From the QFI in the polaron picture we find that the transition occurs around a point where the effective velocity and the susceptibility of the single-photon absorption rate reach maximum. Our result provides an accurate reference of transition couplings for quantum metrology at non-zero frequencies. The formulation of the QFI in the polaron picture also prepares an analytic method with an accurate compensation for the parameter regime difficult to access for the numerics. Besides the integer/fractional power law analysis to extract the underlying physics of transition, the QFI/velocity relation may also add some insight in bridging the QFI and transition observables. | 翻訳日:2024-03-19 22:34:14 公開日:2024-03-15 |
# InterLUDE: ラベル付きデータとラベルなしデータの相互作用による半教師付き学習の促進
InterLUDE: Interactions between Labeled and Unlabeled Data to Enhance Semi-Supervised Learning ( http://arxiv.org/abs/2403.10658v1 ) ライセンス: Link先を確認 | Zhe Huang, Xiaowei Yu, Dajiang Zhu, Michael C. Hughes, | (参考訳) 半教師付き学習(SSL)はラベル付きデータとラベルなしデータの両方でトレーニングすることでタスクパフォーマンスを向上させる。
主流SSL画像分類法は主に、教師付き分類目的とラベルなしデータから派生した正規化項を付加的に組み合わせた損失を最適化する。
この定式化はラベル付き画像とラベルなし画像との相互作用の可能性を無視している。
本稿では,ラベル付きラベルなしインタラクションの恩恵を受ける2つの部分からなるSSLを強化するための新しいアプローチであるInterLUDEを紹介する。
埋め込み融合の第1部は、表現学習を改善するためにラベル付きとラベルなしの埋め込みを補間する。
第2部は、ラベル付き入力とラベルなし入力の差分を最小化することを目的とした、一貫性の正則化の原則に基づく、新たな損失である。
標準クローズドセットSSLベンチマークの実験と未修正の未ラベルセットによる医療SSLタスクは、私たちのアプローチに明らかなメリットを示します。
40のラベルしか持たないSTL-10データセットでは、InterLUDEは3.2%のエラー率を達成する。
Semi-supervised learning (SSL) seeks to enhance task performance by training on both labeled and unlabeled data. Mainstream SSL image classification methods mostly optimize a loss that additively combines a supervised classification objective with a regularization term derived solely from unlabeled data. This formulation neglects the potential for interaction between labeled and unlabeled images. In this paper, we introduce InterLUDE, a new approach to enhance SSL made of two parts that each benefit from labeled-unlabeled interaction. The first part, embedding fusion, interpolates between labeled and unlabeled embeddings to improve representation learning. The second part is a new loss, grounded in the principle of consistency regularization, that aims to minimize discrepancies in the model's predictions between labeled versus unlabeled inputs. Experiments on standard closed-set SSL benchmarks and a medical SSL task with an uncurated unlabeled set show clear benefits to our approach. On the STL-10 dataset with only 40 labels, InterLUDE achieves 3.2% error rate, while the best previous method reports 14.9%. | 翻訳日:2024-03-19 22:34:14 公開日:2024-03-15 |
# 耐震性ハードウェアトロイの木馬を用いた実用ステージ攻撃に向けて
Towards Practical Fabrication Stage Attacks Using Interrupt-Resilient Hardware Trojans ( http://arxiv.org/abs/2403.10659v1 ) ライセンス: Link先を確認 | Athanasios Moschos, Fabian Monrose, Angelos D. Keromytis, | (参考訳) 我々は、割り込み耐性トロイの木馬(IRT)と呼ばれる新しい種類のハードウェアトロイの木馬を紹介する。
我々の研究は、CPUに対するハードウェアトロイの木馬攻撃が、適切な攻撃シナリオ(例えば、ローカルシステムアクセスを持つ攻撃者)であっても、決定論的でないコンテキスト切替イベントによる予測不可能な影響を受けているという観察に動機づけられている。
実験で確認したように、これらのイベントはトリガー信号とトロイの木馬ペイロード(CPUメモリアクセスなど)がターゲットとするCPUイベントの間の競合状態を引き起こし、攻撃の信頼性に影響を与える可能性がある。
我々の研究は、割り込み耐性トロイの木馬がCPUの非決定的トリガ問題にうまく対処できることを示し、洗練されたハードウェアトロイの木馬攻撃の実装における信頼性の高い保証を提供する。
具体的には、Linux対応CPU設計に対する異なる攻撃シナリオでIRTをうまく利用し、コンテキストスイッチングイベントに対するレジリエンスを示す。
さらに,28nmの商用技術プロセスにおいて,テープアウト可能な高速RISC-Vマイクロアーキテクチャへの攻撃を,20ピコ秒の平均オーバーヘッド遅延で実装し,レイアウトのサインオフ特性をそのまま残しながら,シームレスな統合を実現していることを示す。
そこで我々は、強力なトロイの木馬を挿入するための後期サプライチェーンステージ(例えば、製造)の柔軟性の低さに関する共通の知恵に挑戦する。
マイクロプロセッサトロイの木馬のさらなる研究を促進するため,我々は設計をオープンソース化し,それに伴うソフトウェアロジックを提供する。
We introduce a new class of hardware trojans called interrupt-resilient trojans (IRTs). Our work is motivated by the observation that hardware trojan attacks on CPUs, even under favorable attack scenarios (e.g., an attacker with local system access), are affected by unpredictability due to non-deterministic context switching events. As we confirm experimentally, these events can lead to race conditions between trigger signals and the CPU events targeted by the trojan payloads (e.g., a CPU memory access), thus affecting the reliability of the attacks. Our work shows that interrupt-resilient trojans can successfully address the problem of non-deterministic triggering in CPUs, thereby providing high reliability guarantees in the implementation of sophisticated hardware trojan attacks. Specifically, we successfully utilize IRTs in different attack scenarios against a Linux-capable CPU design and showcase its resilience against context-switching events. More importantly, we show that our design allows for seamless integration during fabrication stage attacks.We evaluate different strategies for the implementation of our attacks on a tape-out ready high-speed RISC-V microarchitecture in a 28nm commercial technology process and successfully implement them with an average overhead delay of only 20 picoseconds, while leaving the sign-off characteristics of the layout intact. In doing so, we challenge the common wisdom regarding the low flexibility of late supply chain stages (e.g., fabrication) for the insertion of powerful trojans. To promote further research on microprocessor trojans, we open-source our designs and provide the accompanying supporting software logic. | 翻訳日:2024-03-19 22:24:30 公開日:2024-03-15 |
# SwinMTL:単眼カメラ画像からの深度推定とセマンティックセグメンテーションを同時に行う共有アーキテクチャ
SwinMTL: A Shared Architecture for Simultaneous Depth Estimation and Semantic Segmentation from Monocular Camera Images ( http://arxiv.org/abs/2403.10662v1 ) ライセンス: Link先を確認 | Pardis Taghavi, Reza Langari, Gaurav Pandey, | (参考訳) 本研究では,一台のカメラを用いた同時深度推定とセマンティックセマンティックセグメンテーションが可能な,革新的なマルチタスク学習フレームワークを提案する。
提案手法は共有エンコーダデコーダアーキテクチャに基づいており,計算効率を損なうことなく,深度推定とセマンティックセグメンテーションタスクの精度を向上させるために様々な手法を統合する。
さらに、モデルの予測を洗練させるために、Wasserstein GANフレームワークと批判ネットワークを併用した対角的トレーニングコンポーネントを組み込んだ。
このフレームワークは、屋外のCityscapesデータセットと屋内のNYU Depth V2データセットという2つのデータセットで徹底的に評価されている。
我々はまた、事前学習戦略、批評家の参加、対数深度スケーリングの使用、高度な画像拡張など、様々なコンポーネントの貢献を分析するためのアブレーション研究を行い、提案フレームワークをより深く理解した。
付属するソースコードは \url{https://github.com/PardisTaghavi/SwinMTL} で参照できる。
This research paper presents an innovative multi-task learning framework that allows concurrent depth estimation and semantic segmentation using a single camera. The proposed approach is based on a shared encoder-decoder architecture, which integrates various techniques to improve the accuracy of the depth estimation and semantic segmentation task without compromising computational efficiency. Additionally, the paper incorporates an adversarial training component, employing a Wasserstein GAN framework with a critic network, to refine model's predictions. The framework is thoroughly evaluated on two datasets - the outdoor Cityscapes dataset and the indoor NYU Depth V2 dataset - and it outperforms existing state-of-the-art methods in both segmentation and depth estimation tasks. We also conducted ablation studies to analyze the contributions of different components, including pre-training strategies, the inclusion of critics, the use of logarithmic depth scaling, and advanced image augmentations, to provide a better understanding of the proposed framework. The accompanying source code is accessible at \url{https://github.com/PardisTaghavi/SwinMTL}. | 翻訳日:2024-03-19 22:24:30 公開日:2024-03-15 |
# ラベルを変えるだけでなく、特徴を学ぶ:マルチビューデータによるディープニューラルネットワークの透かし
Not Just Change the Labels, Learn the Features: Watermarking Deep Neural Networks with Multi-View Data ( http://arxiv.org/abs/2403.10663v1 ) ライセンス: Link先を確認 | Yuxuan Li, Sarthak Kumar Maharana, Yunhui Guo, | (参考訳) マシンラーニング・アズ・ア・サービス(MLaaS)プラットフォームの普及に伴い、ディープニューラルネットワーク(DNN)ウォーターマーキング技術への注目が高まっている。
これらの手法は、知的財産を保護するために、ターゲットDNNモデルの所有権の検証を容易にするために使用される。
最も広く使われている透かし技法の1つは、ソースモデルにトリガーセットを埋め込むことである。
残念ながら、トリガーセットに基づく既存の方法論は、まだ機能ステアリング攻撃の影響を受けやすいため、敵は、オーナシップを信頼できる方法で検証することなく、ソースモデルの機能を盗むことができる可能性がある。
本稿では,まず,特徴学習の観点から,トリガーセットに基づく透かし手法の新たな視点を紹介する。
具体的には、複数の機能を示すデータ、別名 $\textit{multi-view data}$を選択することで、攻撃を盗む機能を効果的に防御できることを示す。
この観点から,DNN内に効率的に透かしを埋め込むため,Multi-view dATa(MAT)に基づく新しい透かし技術を導入する。
このアプローチは、マルチビューデータによるトリガセットの構築と、ソースモデルをトレーニングするためのシンプルな特徴ベースの正規化手法の導入を含む。
提案手法を様々なベンチマークで検証し,モデル抽出攻撃に対する防御効果を示す。
With the increasing prevalence of Machine Learning as a Service (MLaaS) platforms, there is a growing focus on deep neural network (DNN) watermarking techniques. These methods are used to facilitate the verification of ownership for a target DNN model to protect intellectual property. One of the most widely employed watermarking techniques involves embedding a trigger set into the source model. Unfortunately, existing methodologies based on trigger sets are still susceptible to functionality-stealing attacks, potentially enabling adversaries to steal the functionality of the source model without a reliable means of verifying ownership. In this paper, we first introduce a novel perspective on trigger set-based watermarking methods from a feature learning perspective. Specifically, we demonstrate that by selecting data exhibiting multiple features, also referred to as $\textit{multi-view data}$, it becomes feasible to effectively defend functionality stealing attacks. Based on this perspective, we introduce a novel watermarking technique based on Multi-view dATa, called MAT, for efficiently embedding watermarks within DNNs. This approach involves constructing a trigger set with multi-view data and incorporating a simple feature-based regularization method for training the source model. We validate our method across various benchmarks and demonstrate its efficacy in defending against model extraction attacks, surpassing relevant baselines by a significant margin. | 翻訳日:2024-03-19 22:24:30 公開日:2024-03-15 |
# 統一型マルチモーダルパーソナライゼーションに向けて--ジェネレーティブレコメンデーションのための大規模ビジョンランゲージモデル
Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond ( http://arxiv.org/abs/2403.10667v1 ) ライセンス: Link先を確認 | Tianxin Wei, Bowen Jin, Ruirui Li, Hansi Zeng, Zhengyang Wang, Jianhui Sun, Qingyu Yin, Hanqing Lu, Suhang Wang, Jingrui He, Xianfeng Tang, | (参考訳) 異種資源を効果的に活用し、幅広いパーソナライズされたニーズに対応する普遍的なモデルの開発は、長年にわたるコミュニティの願望であった。
ファッションや小売といった分野における私たちの日常的な選択は、写真やテキスト記述といったマルチモーダルなデータによって大きく形作られています。
これらのモダリティは直感的なガイダンスを提供するだけでなく、パーソナライズされたユーザー嗜好に対応している。
しかし、主なパーソナライゼーションアプローチは、主にIDやテキストベースのレコメンデーションの問題に焦点を当てており、様々なタスクやモダリティにまたがる情報を理解できない。
本稿では,マルチモーダルパーソナライゼーションシステム(UniMP)の統一パラダイムを確立することを目的としている。
基礎的生成モデリングの進歩は、その目的を達成するのに必要な柔軟性と有効性をもたらしたと論じる。
そこで我々は,項目推薦,製品検索,嗜好予測,説明生成,さらにユーザ誘導画像生成など,幅広いパーソナライズされたニーズを処理できる汎用的かつ拡張可能なパーソナライズ生成フレームワークを開発する。
本手法は,インターリーブされたクロスモーダルなユーザ履歴情報をシームレスに取り込み,ユーザにとってより正確でカスタマイズされた体験を提供することにより,パーソナライズされたタスクのための基礎言語モデルの能力を向上させる。
提案するマルチモーダルなパーソナライズされたタスクをトレーニングし評価するために,さまざまなユーザ要件をカバーする,新しい総合的なベンチマークを導入する。
実世界のベンチマーク実験では、各タスクに特有な競争手法よりも優れたモデルの可能性を示しました。
Developing a universal model that can effectively harness heterogeneous resources and respond to a wide range of personalized needs has been a longstanding community aspiration. Our daily choices, especially in domains like fashion and retail, are substantially shaped by multi-modal data, such as pictures and textual descriptions. These modalities not only offer intuitive guidance but also cater to personalized user preferences. However, the predominant personalization approaches mainly focus on the ID or text-based recommendation problem, failing to comprehend the information spanning various tasks or modalities. In this paper, our goal is to establish a Unified paradigm for Multi-modal Personalization systems (UniMP), which effectively leverages multi-modal data while eliminating the complexities associated with task- and modality-specific customization. We argue that the advancements in foundational generative modeling have provided the flexibility and effectiveness necessary to achieve the objective. In light of this, we develop a generic and extensible personalization generative framework, that can handle a wide range of personalized needs including item recommendation, product search, preference prediction, explanation generation, and further user-guided image generation. Our methodology enhances the capabilities of foundational language models for personalized tasks by seamlessly ingesting interleaved cross-modal user history information, ensuring a more precise and customized experience for users. To train and evaluate the proposed multi-modal personalized tasks, we also introduce a novel and comprehensive benchmark covering a variety of user requirements. Our experiments on the real-world benchmark showcase the model's potential, outperforming competitive methods specialized for each task. | 翻訳日:2024-03-19 22:24:30 公開日:2024-03-15 |
# Teslaフィールドにおける低雑音計測用グラニュラーアルミニウムパラメトリック増幅器
Granular Aluminum Parametric Amplifier for Low-Noise Measurements in Tesla Fields ( http://arxiv.org/abs/2403.10669v1 ) ライセンス: Link先を確認 | Nicolas Zapata, Ivan Takmakov, Simon Günzler, Ameya Nambisan, Dennis Rieger, Thomas Reisinger, Wolfgang Wernsdorfer, Ioan M. Pop, | (参考訳) ジョゼフソン接合パラメトリック増幅器は、最小の雑音を付加したマイクロ波量子回路の読み出しに欠かせない道具となっている。
この10年で目覚ましいスピードで改善したとしても、磁場に弱いままで、スピン量子ビットやアンドリーブ、分子磁石デバイス、ダークマターサーチなど、多くの用途での使用を制限する。
グラニュラルアルミニウム (grAl) のような運動的インダクタンス材料は、面内磁場に対して自然にレジリエンスを持つ非線形性の代替源を提供する。
本研究では, 2つの結合したGraAl共振器を用いた非縮退増幅器を最大1 Tまで高感度で動作し, 量子限界に近い20dB増幅で動作し, 28MHzのゲインバンド幅積と-110dBm飽和電力を有する。
Josephson junction parametric amplifiers have become essential tools for microwave quantum circuit readout with minimal added noise. Even after improving at an impressive rate in the last decade, they remain vulnerable to magnetic fields, which limits their use in many applications such as spin qubits, Andreev and molecular magnet devices, dark matter searches, etc. Kinetic inductance materials, such as granular aluminum (grAl), offer an alternative source of non-linearity with innate resilience to in-plane magnetic fields. We present a non-degenerate amplifier made of two coupled grAl resonators resilient to in-plane magnetic field up to 1 T. It operates close to the quantum limit at 20 dB amplification, with 28 MHz gain-bandwidth product and -110 dBm saturation power. | 翻訳日:2024-03-19 22:24:30 公開日:2024-03-15 |
# ベイジアンディープラーニングにおけるヘッセンフリーラプラス
Hessian-Free Laplace in Bayesian Deep Learning ( http://arxiv.org/abs/2403.10671v1 ) ライセンス: Link先を確認 | James McInerney, Nathan Kallus, | (参考訳) ベイジアン後方のラプラス近似(Laplace approximation, LA)は、最大アフター推定を中心にしたガウス分布である。
ベイズ深層学習におけるその魅力は、不確実性ポストホック(例えば、標準的なネットワークパラメータ最適化後の)の定量化能力、近似後部からのサンプリングの容易さ、モデルエビデンスの分析形式に起因している。
しかし、LAの重要な計算ボトルネックは、ログ後部のヘッセン行列を計算・反転するために必要なステップである。
Hessianはさまざまな方法で近似でき、ネットワーク、データセット、推論タスクなど、さまざまな要因によって品質が変化する。
本稿では,ヘシアン計算と逆変換を補助する代替フレームワークを提案する。
Hessian-free Laplace (HFL)近似は、その分散を推定するために、ログ後部とネットワーク予測の両方の曲率を使用する。
ネットワーク予測によって正規化された損失の下では、標準最大余剰パラメータと最適パラメータの2つの点推定しか必要とされない。
ベイズ深層学習におけるLAの標準的な仮定の下では、HFLはLAと同じ分散を目標とし、事前学習されたネットワークで効率よく再生可能であることを示す。
実験では、正確で近似的なヘッセンのものと同等の性能を示し、不確実性に優れたカバレッジを持つ。
The Laplace approximation (LA) of the Bayesian posterior is a Gaussian distribution centered at the maximum a posteriori estimate. Its appeal in Bayesian deep learning stems from the ability to quantify uncertainty post-hoc (i.e., after standard network parameter optimization), the ease of sampling from the approximate posterior, and the analytic form of model evidence. However, an important computational bottleneck of LA is the necessary step of calculating and inverting the Hessian matrix of the log posterior. The Hessian may be approximated in a variety of ways, with quality varying with a number of factors including the network, dataset, and inference task. In this paper, we propose an alternative framework that sidesteps Hessian calculation and inversion. The Hessian-free Laplace (HFL) approximation uses curvature of both the log posterior and network prediction to estimate its variance. Only two point estimates are needed: the standard maximum a posteriori parameter and the optimal parameter under a loss regularized by the network prediction. We show that, under standard assumptions of LA in Bayesian deep learning, HFL targets the same variance as LA, and can be efficiently amortized in a pre-trained network. Experiments demonstrate comparable performance to that of exact and approximate Hessians, with excellent coverage for in-between uncertainty. | 翻訳日:2024-03-19 22:24:30 公開日:2024-03-15 |
# ロボット運動学習のためのリーマンフローマッチングポリシー
Riemannian Flow Matching Policy for Robot Motion Learning ( http://arxiv.org/abs/2403.10672v1 ) ライセンス: Link先を確認 | Max Braun, Noémie Jaquier, Leonel Rozo, Tamim Asfour, | (参考訳) 本稿では,ロボットビジュモータポリシの学習と合成のための新しいモデルであるRiemannian Flow Matching Policies (RFMP)を紹介する。
RFMPはフローマッチング手法の効率的なトレーニングと推論機能を利用する。
RFMPは、ロボットタスクでよく見られる高次元マルチモーダル分布をエンコードする能力と、非常にシンプルで高速な推論プロセスという、フローマッチングの強みを継承する。
状態ベースロボットと視覚条件ロボットの動作ポリシーに対するRFMPの適用性を示す。
特に、ロボットの状態がリーマン多様体上に存在するため、RFMPは本質的に幾何学的認識を取り入れており、これは現実的なロボット作業に不可欠である。
RFMPを評価するために,2つの概念実証実験を行い,その性能を拡散法と比較した。
その結果,RFMPはよりスムーズな動作トラジェクトリを提供し,推論時間を大幅に短縮できることがわかった。
We introduce Riemannian Flow Matching Policies (RFMP), a novel model for learning and synthesizing robot visuomotor policies. RFMP leverages the efficient training and inference capabilities of flow matching methods. By design, RFMP inherits the strengths of flow matching: the ability to encode high-dimensional multimodal distributions, commonly encountered in robotic tasks, and a very simple and fast inference process. We demonstrate the applicability of RFMP to both state-based and vision-conditioned robot motion policies. Notably, as the robot state resides on a Riemannian manifold, RFMP inherently incorporates geometric awareness, which is crucial for realistic robotic tasks. To evaluate RFMP, we conduct two proof-of-concept experiments, comparing its performance against Diffusion Policies. Although both approaches successfully learn the considered tasks, our results show that RFMP provides smoother action trajectories with significantly lower inference times. | 翻訳日:2024-03-19 22:24:30 公開日:2024-03-15 |
# D-Net:ボリューム医用画像分割のための動的特徴融合機能付き動的大カーネル
D-Net: Dynamic Large Kernel with Dynamic Feature Fusion for Volumetric Medical Image Segmentation ( http://arxiv.org/abs/2403.10674v1 ) ライセンス: Link先を確認 | Jin Yang, Peijie Qiu, Yichi Zhang, Daniel S. Marcus, Aristeidis Sotiras, | (参考訳) 階層型トランスフォーマーは、その大きな受容領域と、グローバルな長距離コンテキスト情報を効果的に活用する能力により、医用画像セグメンテーションにおいて大きな成功を収めている。
畳み込みニューラルネットワーク(CNN)は、大きなカーネルを使用することで、大きな受容野を提供できるため、モデルパラメータが少なくて競合的なパフォーマンスを実現することができる。
しかし、大きな畳み込みカーネルを組み込んだCNNは、固定サイズのカーネルの使用により、形状やサイズが大きく変化する臓器から、適応的にマルチスケールの特徴を捉えることに制約が残っている。
さらに,グローバルな文脈情報を効率的に利用することはできない。
これらの制約に対処するため,動的大カーネル (DLK) と動的特徴融合 (DFF) モジュールを提案する。
DLKモジュールは、カーネルサイズや拡張率の異なる複数の大きなカーネルを使用して、マルチスケールの機能をキャプチャする。
その後、動的選択機構を用いて、グローバル情報に基づいて、最も重要な空間特徴を適応的に強調する。
さらに、DFFモジュールは、そのグローバル情報に基づいて、多スケールの局所特徴写像を適応的に融合する。
我々は、DLKとDFFを階層型トランスフォーマーアーキテクチャに統合し、D-Netと呼ばれる新しいアーキテクチャを開発する。
D-Netは、マルチスケールの大規模な受容場を効果的に利用し、グローバルな文脈情報を適応的に活用することができる。
拡張実験の結果,D-Netは腹部多臓器分節と多モジュール脳腫瘍分節を含む2つの容積分節タスクにおいて,他の最先端モデルよりも優れていた。
私たちのコードはhttps://github.com/sotiraslab/DLK.comで公開されています。
Hierarchical transformers have achieved significant success in medical image segmentation due to their large receptive field and capabilities of effectively leveraging global long-range contextual information. Convolutional neural networks (CNNs) can also deliver a large receptive field by using large kernels, enabling them to achieve competitive performance with fewer model parameters. However, CNNs incorporated with large convolutional kernels remain constrained in adaptively capturing multi-scale features from organs with large variations in shape and size due to the employment of fixed-sized kernels. Additionally, they are unable to utilize global contextual information efficiently. To address these limitations, we propose Dynamic Large Kernel (DLK) and Dynamic Feature Fusion (DFF) modules. The DLK module employs multiple large kernels with varying kernel sizes and dilation rates to capture multi-scale features. Subsequently, a dynamic selection mechanism is utilized to adaptively highlight the most important spatial features based on global information. Additionally, the DFF module is proposed to adaptively fuse multi-scale local feature maps based on their global information. We integrate DLK and DFF in a hierarchical transformer architecture to develop a novel architecture, termed D-Net. D-Net is able to effectively utilize a multi-scale large receptive field and adaptively harness global contextual information. Extensive experimental results demonstrate that D-Net outperforms other state-of-the-art models in the two volumetric segmentation tasks, including abdominal multi-organ segmentation and multi-modality brain tumor segmentation. Our code is available at https://github.com/sotiraslab/DLK. | 翻訳日:2024-03-19 22:24:30 公開日:2024-03-15 |
# セキュアな分散ストレージ: ストレージレートとプライバシリークの間の最適なトレードオフ
Secure Distributed Storage: Optimal Trade-Off Between Storage Rate and Privacy Leakage ( http://arxiv.org/abs/2403.10676v1 ) ライセンス: Link先を確認 | Remi A. Chou, Joerg Kliewer, | (参考訳) データをT$サーバ上で分散的に保存する問題を考えてみましょう。
具体的には データは
(i)$\tau$サーバからリカバリ可能で、
プライバシは、データとあらゆる$z$で利用可能なすべての情報の間の相互情報の観点から定量化されます。
このモデルでは、我々の主な成果は、
(i)ストレージサイズと所望のプライバシーレベルとの根本的なトレードオフ
(ii)エンコーダに必要な局所ランダム性の最適量。
副産物として,本研究の結果は,従来文献で検討されていたものよりも,より一般的なリーク対称性条件下でのランプ秘密共有スキームの個々のシェアサイズに最適な下限を与える。
Consider the problem of storing data in a distributed manner over $T$ servers. Specifically, the data needs to (i) be recoverable from any $\tau$ servers, and (ii) remain private from any $z$ colluding servers, where privacy is quantified in terms of mutual information between the data and all the information available at any $z$ colluding servers. For this model, our main results are (i) the fundamental trade-off between storage size and the level of desired privacy, and (ii) the optimal amount of local randomness necessary at the encoder. As a byproduct, our results provide an optimal lower bound on the individual share size of ramp secret sharing schemes under a more general leakage symmetry condition than the ones previously considered in the literature. | 翻訳日:2024-03-19 22:24:30 公開日:2024-03-15 |
# イベントベースカメラを用いたニューロモーフィックハードウェアデバイス上での高速物体検出のためのスパイクニューラルネットワーク
Spiking Neural Networks for Fast-Moving Object Detection on Neuromorphic Hardware Devices Using an Event-Based Camera ( http://arxiv.org/abs/2403.10677v1 ) ライセンス: Link先を確認 | Andreas Ziegler, Karl Vetter, Thomas Gossard, Jonas Tebbe, Andreas Zell, | (参考訳) 卓球(英: Table tennis)は、俊敏性、精度、高速反射を要求される速さで誇張されるスポーツである。
近年,ロボット認識アルゴリズムの研究課題としてロボット卓球が注目されている。
高速かつ正確なボール検出は、ロボットアームが舞踏会を成功させるためには不可欠だ。
これまでは、畳み込みニューラルネットワーク(CNN)や従来のコンピュータビジョン方式を用いたフレームベースのカメラが用いられてきた。
本稿では,球検出のためのイベントベースカメラとスパイキングニューラルネットワーク(SNN)を組み合わせた新しい手法を提案する。
我々は、最先端のSNNフレームワークを複数使用し、それぞれの制約に従ってSNNアーキテクチャを開発する。
さらに、複数のニューロモルフィックエッジデバイスにまたがってSNNソリューションを実装し、それらの精度と実行時間の比較を行う。
これにより、ロボット研究者は、それぞれのSNNフレームワークと対応するニューロモルフィックエッジデバイスで達成可能な能力を示すベンチマークが提供される。
ロボットのためのSNNソリューションの比較では、ニューラルネットワークエッジデバイス上のSNNが、我々のユースケースにおけるテーブルテニスロボットであるクローズドループロボットシステムにおいて、リアルタイムで動作可能であることも示している。
Table tennis is a fast-paced and exhilarating sport that demands agility, precision, and fast reflexes. In recent years, robotic table tennis has become a popular research challenge for robot perception algorithms. Fast and accurate ball detection is crucial for enabling a robotic arm to rally the ball back successfully. Previous approaches have employed conventional frame-based cameras with Convolutional Neural Networks (CNNs) or traditional computer vision methods. In this paper, we propose a novel solution that combines an event-based camera with Spiking Neural Networks (SNNs) for ball detection. We use multiple state-of-the-art SNN frameworks and develop a SNN architecture for each of them, complying with their corresponding constraints. Additionally, we implement the SNN solution across multiple neuromorphic edge devices, conducting comparisons of their accuracies and run-times. This furnishes robotics researchers with a benchmark illustrating the capabilities achievable with each SNN framework and a corresponding neuromorphic edge device. Next to this comparison of SNN solutions for robots, we also show that an SNN on a neuromorphic edge device is able to run in real-time in a closed loop robotic system, a table tennis robot in our use case. | 翻訳日:2024-03-19 22:24:30 公開日:2024-03-15 |
# 物理インフォームド・機械学習のためのガラスネットの評価 : ガラスの安定性とガラス形成能力
Evaluation of GlassNet for physics-informed machine learning of glass stability and glass-forming ability ( http://arxiv.org/abs/2403.10682v1 ) ライセンス: Link先を確認 | Sarah I. Allec, Xiaonan Lu, Daniel R. Cassar, Xuan T. Nguyen, Vinay I. Hegde, Thiruvillamalai Mahadevan, Miroslava Peterson, Jincheng Du, Brian J. Riley, John D. Vienna, James E. Saal, | (参考訳) ガラスは多くの近代的な応用の基礎を形成し、将来の医療や環境の応用にも大きな可能性を秘めている。
しかし、その構造的複雑さと大規模な構成空間は、特定の用途において設計と最適化を困難にしている。
ガラス加工において特に重要であるのは、ある組成のガラス形成能力(GFA)の推定である。
しかしながら、特に酸化物ガラスにおいて、ガラス形成の物理的メカニズムについて多くのオープンな疑問が残る。
GFAのプロキシはガラス加工や設計において非常に有用であることは明らかだが,そのようなサロゲート特性の同定は困難であることが証明されている。
本稿では、ガラス安定性(GS)を計算するのに必要な特性温度を予測し、これらの物理インフォームドML(PIML)予測GSパラメータを用いてGFAを推定する可能性を評価するための、オープンソースの事前学習NNモデルGlassNetの適用について検討する。
計算の各ステップにおける不確実性 - 元のML予測誤差、GS推定中のエラーの複合、そして最後にGFAの最終的な推定 - をトラックする。
GlassNetは、全ての個々の特性に対して妥当な精度を示すが、これらの予測を組み合わせてGSの予測を行い、ランダムな森林モデルがGlassNetに類似した精度を提供することを示した。
また,ガラスファミリのML性能を解析した結果,GS予測の誤差が結晶化ピーク温度予測の誤差と相関していることが判明した。
最後に, 3次ガラス系, ホウケイ酸ナトリウム, リン酸ナトリウムガラスにおけるGSパラメータとGFAの関係について検討した。
GFAの真のML予測能力を得るためには、はるかに多くのデータを集める必要があると結論付けている。
Glasses form the basis of many modern applications and also hold great potential for future medical and environmental applications. However, their structural complexity and large composition space make design and optimization challenging for certain applications. Of particular importance for glass processing is an estimate of a given composition's glass-forming ability (GFA). However, there remain many open questions regarding the physical mechanisms of glass formation, especially in oxide glasses. It is apparent that a proxy for GFA would be highly useful in glass processing and design, but identifying such a surrogate property has proven itself to be difficult. Here, we explore the application of an open-source pre-trained NN model, GlassNet, that can predict the characteristic temperatures necessary to compute glass stability (GS) and assess the feasibility of using these physics-informed ML (PIML)-predicted GS parameters to estimate GFA. In doing so, we track the uncertainties at each step of the computation - from the original ML prediction errors, to the compounding of errors during GS estimation, and finally to the final estimation of GFA. While GlassNet exhibits reasonable accuracy on all individual properties, we observe a large compounding of error in the combination of these individual predictions for the prediction of GS, finding that random forest models offer similar accuracy to GlassNet. We also breakdown the ML performance on different glass families and find that the error in GS prediction is correlated with the error in crystallization peak temperature prediction. Lastly, we utilize this finding to assess the relationship between top-performing GS parameters and GFA for two ternary glass systems: sodium borosilicate and sodium iron phosphate glasses. We conclude that to obtain true ML predictive capability of GFA, significantly more data needs to be collected. | 翻訳日:2024-03-19 22:24:30 公開日:2024-03-15 |
# GS-Pose: 一般化可能なセグメンテーションに基づく6次元オブジェクトマップ推定のためのカスケードフレームワーク
GS-Pose: Cascaded Framework for Generalizable Segmentation-based 6D Object Pose Estimation ( http://arxiv.org/abs/2403.10683v1 ) ライセンス: Link先を確認 | Dingding Cai, Janne Heikkilä, Esa Rahtu, | (参考訳) 本稿では,オブジェクトの6Dポーズの位置と推定のためのエンドツーエンドフレームワークであるGS-Poseを紹介する。
GS-Poseは、以前は目に見えないオブジェクトの配置されたRGBイメージから始まり、3つの異なる表現をデータベースに格納する。
推論において、GS-Poseは、入力画像中のオブジェクトの位置を推定し、検索手法を用いて初期6Dポーズを推定し、レンダリング・アンド・コンペア法でポーズを精算することにより順次動作する。
重要な洞察は、プロセスの各段階で適切なオブジェクト表現を適用することである。
特に,3次元ガウススプラッティング(3D Gaussian splatting)は,高いレンダリング速度と比較的低い最適化時間を実現する新しい微分可能レンダリング技術である。
市販のツールチェーンや携帯電話などのコモディティハードウェアを使用して、データベースに追加される新しいオブジェクトをキャプチャすることができる。
LINEMODとOnePose-LowTextureデータセットの大規模な評価は優れたパフォーマンスを示し、新しい最先端技術を確立している。
プロジェクトページ: https://dingcai.github.io/gs-pose
This paper introduces GS-Pose, an end-to-end framework for locating and estimating the 6D pose of objects. GS-Pose begins with a set of posed RGB images of a previously unseen object and builds three distinct representations stored in a database. At inference, GS-Pose operates sequentially by locating the object in the input image, estimating its initial 6D pose using a retrieval approach, and refining the pose with a render-and-compare method. The key insight is the application of the appropriate object representation at each stage of the process. In particular, for the refinement step, we utilize 3D Gaussian splatting, a novel differentiable rendering technique that offers high rendering speed and relatively low optimization time. Off-the-shelf toolchains and commodity hardware, such as mobile phones, can be used to capture new objects to be added to the database. Extensive evaluations on the LINEMOD and OnePose-LowTexture datasets demonstrate excellent performance, establishing the new state-of-the-art. Project page: https://dingdingcai.github.io/gs-pose. | 翻訳日:2024-03-19 22:24:30 公開日:2024-03-15 |
# Beeアルゴリズムとマルチペアクロスオーバー法による離散粒子群最適化の改良(ケーススタディ:アロケーション問題とベンチマーク関数)
Improved discrete particle swarm optimization using Bee Algorithm and multi-parent crossover method (Case study: Allocation problem and benchmark functions) ( http://arxiv.org/abs/2403.10684v1 ) ライセンス: Link先を確認 | Hamed Zibaei, Mohammad Saadi Mesgari, | (参考訳) 他の手法と比較して、パーティクルスワムの最適化は使いやすさとばらつきの低いため、より頻繁に利用される。
しかし,大規模な最適化問題において,探索空間における最良の解を見つけることは困難である。
さらに、アルゴリズム変数の変更はアルゴリズム収束に大きな影響を与えない。
PSOアルゴリズムは他のアルゴリズムと組み合わせることができる。
この問題を解決するために、それらの利点と演算子を利用することができる。
そこで本稿では,OMPCDPSO (OMPCDPSO) を用いたクロスオーバー離散粒子群最適化手法を提案する。
DPSOアルゴリズムの効率を向上させるために,最適解に対する多目的クロスオーバーを利用した。
我々は,ハチアルゴリズムの見物ミツバチを用いた,独立して集中した近傍探索を行った。
このアルゴリズムは、見物ミツバチと交叉を使う。
ローカルサーチ(探索)とグローバルサーチ(探索)を行う。
それぞれの検索は、ベストソリューション(求職蜂)の1つだ。
NP-hard最適化問題であるアロケーション問題に対して,提案アルゴリズムを検証した。
また,2種類のシミュレーションデータを用いた。
それらは、より良いアルゴリズムのスケーラビリティと複雑さをテストするために使われました。
また、14個の2D試験関数と13個の30D試験関数が使用された。
彼らはまた、OMPCDPSOの効率をテストするために、IEEE CEC2005ベンチマーク関数を20個使用した。
また、OMPCDPSOの性能をテストするために、4つの新しいバイナリ最適化アルゴリズムと3つの古典最適化アルゴリズムを比較した。
その結果,OMPCDPSOは高機能であった。
他のアルゴリズムよりも優れていた。
この研究で開発されたアルゴリズム(OMCDPSO)は、47(76.60%)のうち36の試験関数で、他のアルゴリズムよりも優れている。
Onlooker 蜂とマルチパーセンシャル演算子はアルゴリズムの性能に大きな影響を及ぼす。
Compared to other techniques, particle swarm optimization is more frequently utilized because of its ease of use and low variability. However, it is complicated to find the best possible solution in the search space in large-scale optimization problems. Moreover, changing algorithm variables does not influence algorithm convergence much. The PSO algorithm can be combined with other algorithms. It can use their advantages and operators to solve this problem. Therefore, this paper proposes the onlooker multi-parent crossover discrete particle swarm optimization (OMPCDPSO). To improve the efficiency of the DPSO algorithm, we utilized multi-parent crossover on the best solutions. We performed an independent and intensive neighborhood search using the onlooker bees of the bee algorithm. The algorithm uses onlooker bees and crossover. They do local search (exploitation) and global search (exploration). Each of these searches is among the best solutions (employed bees). The proposed algorithm was tested on the allocation problem, which is an NP-hard optimization problem. Also, we used two types of simulated data. They were used to test the scalability and complexity of the better algorithm. Also, fourteen 2D test functions and thirteen 30D test functions were used. They also used twenty IEEE CEC2005 benchmark functions to test the efficiency of OMPCDPSO. Also, to test OMPCDPSO's performance, we compared it to four new binary optimization algorithms and three classic ones. The results show that the OMPCDPSO version had high capability. It performed better than other algorithms. The developed algorithm in this research (OMCDPSO) in 36 test functions out of 47 (76.60%) is better than other algorithms. The Onlooker bees and multi-parent operators significantly impact the algorithm's performance. | 翻訳日:2024-03-19 22:24:30 公開日:2024-03-15 |
# AutoHLS: HLS設計のための設計スペース探索を加速する学習
AutoHLS: Learning to Accelerate Design Space Exploration for HLS Designs ( http://arxiv.org/abs/2403.10686v1 ) ライセンス: Link先を確認 | Md Rubel Ahmed, Toshiaki Koike-Akino, Kieran Parsons, Ye Wang, | (参考訳) 高レベル合成(HLS)は、複雑なデータ構造、継承、テンプレートなど、現代的な言語機能と柔軟性を活用して、ハードウェア設計のプロトタイプを迅速に作成する設計フローである。
しかし、様々な設計空間パラメータを探索することは、ハードウェアエンジニアが特定の設計仕様を満たすのに多くの時間と労力を要する可能性がある。
本稿では,深層ニューラルネットワーク(DNN)とベイズ最適化(BO)を統合してHLSハードウェア設計最適化を高速化する,AutoHLSという新しいフレームワークを提案する。
本ツールは,HLSプラグマ探索と操作変換に焦点を当てている。
統合DNNを使用して、所定のFPGAリソース予算内での合成可能性を予測する。
また、AutoHLSパイプライン用の古典的DNNの代わりに、新しい量子ニューラルネットワーク(QNN)の可能性についても検討する。
実験の結果,探索時間の70倍のスピードアップが得られた。
High-level synthesis (HLS) is a design flow that leverages modern language features and flexibility, such as complex data structures, inheritance, templates, etc., to prototype hardware designs rapidly. However, exploring various design space parameters can take much time and effort for hardware engineers to meet specific design specifications. This paper proposes a novel framework called AutoHLS, which integrates a deep neural network (DNN) with Bayesian optimization (BO) to accelerate HLS hardware design optimization. Our tool focuses on HLS pragma exploration and operation transformation. It utilizes integrated DNNs to predict synthesizability within a given FPGA resource budget. We also investigate the potential of emerging quantum neural networks (QNNs) instead of classical DNNs for the AutoHLS pipeline. Our experimental results demonstrate up to a 70-fold speedup in exploration time. | 翻訳日:2024-03-19 22:24:30 公開日:2024-03-15 |
# セクシーな労働者のためのデジタル親密さを省く:技術研究アジェンダ
Department Safer Digital Intimacy For Sex Workers And Beyond: A Technical Research Agenda ( http://arxiv.org/abs/2403.10688v1 ) ライセンス: Link先を確認 | Vaughn Hamilton, Gabriel Kaptchuk, Allison McDonald, Elissa M. Redmiles, | (参考訳) 多くの人は、セックスワーカー、クライアント、親密なコンテンツをレクリエーションに作り、共有する人々といったデジタル親密さに従事しています。
この近親相姦によって、スティグマによって悪化する、重大なセキュリティとプライバシーのリスクがもたらされる。
本稿では、より安全なデジタル親和性のための商用デジタル親和性脅威モデルと10の研究方向について述べる。
Many people engage in digital intimacy: sex workers, their clients, and people who create and share intimate content recreationally. With this intimacy comes significant security and privacy risk, exacerbated by stigma. In this article, we present a commercial digital intimacy threat model and 10 research directions for safer digital intimacy | 翻訳日:2024-03-19 22:24:30 公開日:2024-03-15 |
# 視覚とハプティック・オーディオ・クロスモーダル・トランスファー学習を用いた潜時物体特徴認識
Latent Object Characteristics Recognition with Visual to Haptic-Audio Cross-modal Transfer Learning ( http://arxiv.org/abs/2403.10689v1 ) ライセンス: Link先を確認 | Namiko Saito, Joao Moura, Hiroki Uchida, Sethu Vijayakumar, | (参考訳) ロボットが物体を処理している間に物体の特徴を認識することは、コンテナとの安定的で効率的な相互作用を保証する動きを調整するために不可欠である。
コンテナのハンドリング/転送のための安定的で効率的なロボット動作の実現に先立ち、この研究は、潜伏する観測不可能な物体の特性を認識することを目的としている。
視覚はロボットによる物体認識によく用いられるが、隠された物体を検出するには効果がない。
しかし、他のセンサーを使って物体を間接的に認識することは難しい課題である。
この課題に対処するために,視覚から触覚へのクロスモーダル・トランスファー学習手法を提案する。
私たちはまず、ターゲットオブジェクトを直接観察して、ビジョンでモデルをトレーニングします。
その後、視覚から学習した潜伏空間を第2モジュールに転送し、触覚と運動データのみで訓練した。
この伝達学習フレームワークは、間接センサデータを用いた物体特性の表現を容易にし、認識精度を向上させる。
提案する学習フレームワークの認識精度を評価するため,対象特性として形状,位置,方向を選択した。
最後に,ヒューマノイドロボットNextage Openを用いて,トレーニング対象とトレーニング対象の両方をオンラインで認識する。
Recognising the characteristics of objects while a robot handles them is crucial for adjusting motions that ensure stable and efficient interactions with containers. Ahead of realising stable and efficient robot motions for handling/transferring the containers, this work aims to recognise the latent unobservable object characteristics. While vision is commonly used for object recognition by robots, it is ineffective for detecting hidden objects. However, recognising objects indirectly using other sensors is a challenging task. To address this challenge, we propose a cross-modal transfer learning approach from vision to haptic-audio. We initially train the model with vision, directly observing the target object. Subsequently, we transfer the latent space learned from vision to a second module, trained only with haptic-audio and motor data. This transfer learning framework facilitates the representation of object characteristics using indirect sensor data, thereby improving recognition accuracy. For evaluating the recognition accuracy of our proposed learning framework we selected shape, position, and orientation as the object characteristics. Finally, we demonstrate online recognition of both trained and untrained objects using the humanoid robot Nextage Open. | 翻訳日:2024-03-19 22:14:44 公開日:2024-03-15 |
# MYTE: より良く公平な多言語言語モデリングのための形態素駆動バイトコード符号化
MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling ( http://arxiv.org/abs/2403.10691v1 ) ライセンス: Link先を確認 | Tomasz Limisiewicz, Terra Blevins, Hila Gonen, Orevaoghene Ahia, Luke Zettlemoyer, | (参考訳) 多言語言語モデリングにおける主要な考慮事項は、様々な語彙とスクリプトを持つ言語を最もよく表現する方法である。
現代のテキスト符号化方式は世界の書記システムの大半をカバーしているが、グローバル・ウェストの高リソース言語に対する偏見を示す。
結果として、あまり表現されていない言語のテキストは、言語的に意味のない単位の長いシーケンスに分割される傾向にある。
多様な言語にまたがる一貫した大きさのセグメントで同一情報を符号化する新しいパラダイムを導入する。
我々の符号化規約(MYTE)は形態素に基づいており、その発明は文字よりも言語間でバランスが取れている。
我々は、MYTEが99言語すべてに対して短いエンコーディングを生成することを示し、ヨーロッパ以外の言語や非ラテン文字に対して最も顕著な改善がなされた。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
A major consideration in multilingual language modeling is how to best represent languages with diverse vocabularies and scripts. Although contemporary text encoding methods cover most of the world's writing systems, they exhibit bias towards the high-resource languages of the Global West. As a result, texts of underrepresented languages tend to be segmented into long sequences of linguistically meaningless units. To address the disparities, we introduce a new paradigm that encodes the same information with segments of consistent size across diverse languages. Our encoding convention (MYTE) is based on morphemes, as their inventories are more balanced across languages than characters, which are used in previous methods. We show that MYTE produces shorter encodings for all 99 analyzed languages, with the most notable improvements for non-European languages and non-Latin scripts. This, in turn, improves multilingual LM performance and diminishes the perplexity gap throughout diverse languages. | 翻訳日:2024-03-19 22:14:44 公開日:2024-03-15 |
# EXPLORER:テキスト強化学習のための探索誘導推論
EXPLORER: Exploration-guided Reasoning for Textual Reinforcement Learning ( http://arxiv.org/abs/2403.10692v1 ) ライセンス: Link先を確認 | Kinjal Basu, Keerthiram Murugesan, Subhajit Chaudhury, Murray Campbell, Kartik Talamadupula, Tim Klinger, | (参考訳) テキストベースのゲーム(TBG)は、自然言語理解と推論を組み合わせるために強化学習(RL)エージェントを必要とするNLPタスクの重要なコレクションとして登場した。
このような課題を解決しようとするエージェントにとって重要な課題は、複数のゲームにまたがって一般化し、見えないオブジェクトと見えないオブジェクトの両方で優れたパフォーマンスを示すことである。
純粋に深いRLベースのアプローチは、目に見えないオブジェクトでよく機能するが、見えないオブジェクトで同じパフォーマンスを示すことは失敗する。
コモンセンスを注入したディープRLエージェントは、見えないデータに対してよりうまく機能することがあるが、あいにく、それらのポリシーは解釈できないか、容易に転送可能である。
本稿では,テキスト強化学習のための探索誘導推論エージェントであるEXPLORERを提案する。
EXPLORERは自然界においてニューロシンボリックであり、探索のための神経モジュールと、搾取のためのシンボリックモジュールに依存している。
また、一般化されたシンボルポリシーを学習し、目に見えないデータをうまく処理することができる。
実験の結果,EXPLORERはテキストワールド調理(TW-Cooking)およびテキストワールドコモンセンス(TWC)ゲームにおいて,ベースラインエージェントよりも優れていた。
Text-based games (TBGs) have emerged as an important collection of NLP tasks, requiring reinforcement learning (RL) agents to combine natural language understanding with reasoning. A key challenge for agents attempting to solve such tasks is to generalize across multiple games and demonstrate good performance on both seen and unseen objects. Purely deep-RL-based approaches may perform well on seen objects; however, they fail to showcase the same performance on unseen objects. Commonsense-infused deep-RL agents may work better on unseen data; unfortunately, their policies are often not interpretable or easily transferable. To tackle these issues, in this paper, we present EXPLORER which is an exploration-guided reasoning agent for textual reinforcement learning. EXPLORER is neurosymbolic in nature, as it relies on a neural module for exploration and a symbolic module for exploitation. It can also learn generalized symbolic policies and perform well over unseen data. Our experiments show that EXPLORER outperforms the baseline agents on Text-World cooking (TW-Cooking) and Text-World Commonsense (TWC) games. | 翻訳日:2024-03-19 22:14:44 公開日:2024-03-15 |
# 超強三元偏光子
Ultra-strong trion-polaritons ( http://arxiv.org/abs/2403.10693v1 ) ライセンス: Link先を確認 | M. A. Bastarrachea-Magnani, A. Camacho-Guardian, | (参考訳) 荷電励起子とキャビティ光子とのハイブリッド化により、マイクロキャビティ半導体におけるトリオン偏光子(TP)は、強い偏光子相互作用と多体偏光子相を実現するための有望な道である。
超強光-マター結合系において、イテナント電子をドープした微小キャビティ半導体におけるトリチウム-ポラリトンの形成を研究するために、量子場理論の定式化を開発する。
我々は、光-物質相互作用とフェシュバッハ物理学の非チャート領域におけるポーラロンと仮想光子の興味深い相互作用から生じる新しい多体状態のクラスを予測する。
Due to the hybridization of charged excitons with cavity photons, trion-polaritons (TP) in microcavity semiconductors are a promising avenue for realizing strong polariton interactions and many-body polariton phases. We develop a quantum field theoretical formalism to study the formation of trion-polaritons in a microcavity semiconductor doped with itinerant electrons within the ultra-strong light-matter coupling regime. We predict a new class of many-body states resulting from the intriguing interplay of polarons and virtual photons in an uncharted territory of light-matter interactions and Feshbach physics. | 翻訳日:2024-03-19 22:14:44 公開日:2024-03-15 |
# EAGLE:CT画像再構成のためのエッジ認識によるグラディエント・ローカライゼーション・ロスの強化
EAGLE: An Edge-Aware Gradient Localization Enhanced Loss for CT Image Reconstruction ( http://arxiv.org/abs/2403.10695v1 ) ライセンス: Link先を確認 | Yipeng Sun, Yixing Huang, Linda-Sophie Schneider, Mareike Thies, Mingxuan Gu, Siyuan Mei, Siming Bayer, Andreas Maier, | (参考訳) CT画像再構成は正確な診断に不可欠であり, 深層学習アプローチは, 再現性の向上に有意な可能性を示唆している。
しかし、損失関数の選択は、再構成された画像に大きく影響する。
従来の平均二乗誤差損失は、細部を欠いたぼやけたイメージをしばしば生み出すが、改良するために設計された代替手段は、構造的アーティファクトやその他の望ましくない効果をもたらす可能性がある。
これらの制約に対処するために,CT画像再構成の視覚的品質向上を目的とした新しい損失関数であるEagle-Lossを提案する。
Eagle-Lossは、勾配変化における局所的特徴のスペクトル分析を適用して、シャープネスと明確に定義されたエッジを強化する。
低用量CT再構成とCTフィールド・オブ・ビュー拡張タスクの2つの公開データセットについてEagle-Lossの評価を行った。
この結果から,Eagle-Lossは画像の視覚的品質を常に向上し,ネットワークアーキテクチャ全体にわたって最先端の手法を超越していることがわかった。
コードとデータは \url{https://github.com/sypsyp97/Eagle_Loss} で公開されている。
Computed Tomography (CT) image reconstruction is crucial for accurate diagnosis and deep learning approaches have demonstrated significant potential in improving reconstruction quality. However, the choice of loss function profoundly affects the reconstructed images. Traditional mean squared error loss often produces blurry images lacking fine details, while alternatives designed to improve may introduce structural artifacts or other undesirable effects. To address these limitations, we propose Eagle-Loss, a novel loss function designed to enhance the visual quality of CT image reconstructions. Eagle-Loss applies spectral analysis of localized features within gradient changes to enhance sharpness and well-defined edges. We evaluated Eagle-Loss on two public datasets across low-dose CT reconstruction and CT field-of-view extension tasks. Our results show that Eagle-Loss consistently improves the visual quality of reconstructed images, surpassing state-of-the-art methods across various network architectures. Code and data are available at \url{https://github.com/sypsyp97/Eagle_Loss}. | 翻訳日:2024-03-19 22:14:44 公開日:2024-03-15 |
# V]-マンバの低ショット転写性について
On the low-shot transferability of [V]-Mamba ( http://arxiv.org/abs/2403.10696v1 ) ライセンス: Link先を確認 | Diganta Misra, Jay Gala, Antonio Orvieto, | (参考訳) 現代の大規模ニューラルネットワークの強みは、いくつかの例で新しいタスクに効率的に適応できる能力にある。
様々な制約の下で,視覚変換器(ViT)の下流タスクへの伝達可能性について検討してきたが,本研究では,[V]-マンバの伝達学習の可能性について検討する。
我々は、その性能を、異なる数ショットのデータ予算と効率的な転送方法で比較する。
我々の分析は、[V]-マンバのショット転送性能に関する3つの重要な洞察を得る。
(a)[V]-マンバは、転送に線形プローブ(LP)を利用する場合、VTに比べて優れた、または同等の少ショット学習能力を示す。
b) 逆に、[V]-マンバは、視覚的プロンプト(VP)を転送方法として用いた場合、VTと比較して、より弱い、または類似の少ショット学習性能を示す。
(c) LPとVPによる転送性能ギャップと[V]-マンバモデルのスケールとの間には, 弱い正の相関関係が認められた。
この予備的な分析は、[V]-マンバ変種とそのViTとの区別能力の理解を深めるために、より包括的な研究の基礎を築いた。
The strength of modern large-scale neural networks lies in their ability to efficiently adapt to new tasks with few examples. Although extensive research has investigated the transferability of Vision Transformers (ViTs) to various downstream tasks under diverse constraints, this study shifts focus to explore the transfer learning potential of [V]-Mamba. We compare its performance with ViTs across different few-shot data budgets and efficient transfer methods. Our analysis yields three key insights into [V]-Mamba's few-shot transfer performance: (a) [V]-Mamba demonstrates superior or equivalent few-shot learning capabilities compared to ViTs when utilizing linear probing (LP) for transfer, (b) Conversely, [V]-Mamba exhibits weaker or similar few-shot learning performance compared to ViTs when employing visual prompting (VP) as the transfer method, and (c) We observe a weak positive correlation between the performance gap in transfer via LP and VP and the scale of the [V]-Mamba model. This preliminary analysis lays the foundation for more comprehensive studies aimed at furthering our understanding of the capabilities of [V]-Mamba variants and their distinctions from ViTs. | 翻訳日:2024-03-19 22:14:44 公開日:2024-03-15 |
# 雑音脳MRIにおけるロバスト影響に基づくトレーニング法
Robust Influence-based Training Methods for Noisy Brain MRI ( http://arxiv.org/abs/2403.10698v1 ) ライセンス: Link先を確認 | Minh-Hao Van, Alycia N. Carey, Xintao Wu, | (参考訳) 脳腫瘍の正確な分類は、患者の迅速かつ正確な治療に不可欠である。
MR画像中の腫瘍を高速に分類するために,古典的画像処理法や深層学習法に基づくいくつかの分類アルゴリズムが提案されているが,ほとんどの場合,非現実的なノイズフリートレーニングデータの設定を前提としている。
本研究では,脳腫瘍の分類を行うため,ノイズの多いMR画像の深層学習モデルを訓練する難易度,現実性について検討する。
本稿では, 雑音の多いMRIトレーニングデータに頑健な2つのトレーニング手法, 影響に基づくサンプル修正(ISR)と影響に基づくサンプル摂動(ISP)を提案する。
インフルエンス関数を用いて、ISRでは、トレーニングプロセスがいかに有用で有害であるかに応じてトレーニング例を適応的に再考し、ISPでは、インフルエンススコアに比例した有用な摂動を作らせ、注入する。
ISRとISPは、試験データに対するモデルの一般化能力に大きな影響を及ぼすことなく、ノイズの多いトレーニングデータに対する分類モデルを強化した。
我々は、共通の脳腫瘍データセットに対して経験的評価を行い、ISRとISPを3つのベースラインと比較した。
実験結果から、ISRとISPは、ノイズの多いトレーニングデータに対して、ディープラーニングモデルを堅牢にトレーニングできることがわかった。
Correctly classifying brain tumors is imperative to the prompt and accurate treatment of a patient. While several classification algorithms based on classical image processing or deep learning methods have been proposed to rapidly classify tumors in MR images, most assume the unrealistic setting of noise-free training data. In this work, we study a difficult but realistic setting of training a deep learning model on noisy MR images to classify brain tumors. We propose two training methods that are robust to noisy MRI training data, Influence-based Sample Reweighing (ISR) and Influence-based Sample Perturbation (ISP), which are based on influence functions from robust statistics. Using the influence functions, in ISR, we adaptively reweigh training examples according to how helpful/harmful they are to the training process, while in ISP, we craft and inject helpful perturbation proportional to the influence score. Both ISR and ISP harden the classification model against noisy training data without significantly affecting the generalization ability of the model on test data. We conduct empirical evaluations over a common brain tumor dataset and compare ISR and ISP to three baselines. Our empirical results show that ISR and ISP can efficiently train deep learning models robust against noisy training data. | 翻訳日:2024-03-19 22:14:44 公開日:2024-03-15 |
# ジェンダーバイアスの探索に関する多言語的視点
A Multilingual Perspective on Probing Gender Bias ( http://arxiv.org/abs/2403.10699v1 ) ライセンス: Link先を確認 | Karolina Stańczak, | (参考訳) 性バイアスは、性別に基づいて個人を標的とする体系的なネガティブな治療の一形態である。
この差別は、微妙な性差別的発言や性差別的なステレオタイプから、完全にヘイトスピーチまで様々である。
以前の研究では、オンライン虐待を無視することは、標的とする個人に影響を及ぼすだけでなく、より広い社会的意味を持つことが明らかになっている。
これらの結果は、公的な領域における女性のエンゲージメントと可視性を損なうことによって、男女不平等の強化に繋がる。
この論文は、ジェンダーバイアスが言語および言語技術を通してどのように表現されるかというニュアンスについて考察する。
この論文は、社会的バイアスを理解する上での多言語的・多文化的な視点の重要性を強調し、ジェンダーバイアスの研究を多言語的文脈へと拡大する。
この論文では、自然言語と言語モデルにおけるジェンダーバイアスを調査するために、政治科学や歴史などの他の分野と自然言語処理を結合する学際的アプローチを採用する。
Gender bias represents a form of systematic negative treatment that targets individuals based on their gender. This discrimination can range from subtle sexist remarks and gendered stereotypes to outright hate speech. Prior research has revealed that ignoring online abuse not only affects the individuals targeted but also has broader societal implications. These consequences extend to the discouragement of women's engagement and visibility within public spheres, thereby reinforcing gender inequality. This thesis investigates the nuances of how gender bias is expressed through language and within language technologies. Significantly, this thesis expands research on gender bias to multilingual contexts, emphasising the importance of a multilingual and multicultural perspective in understanding societal biases. In this thesis, I adopt an interdisciplinary approach, bridging natural language processing with other disciplines such as political science and history, to probe gender bias in natural language and language models. | 翻訳日:2024-03-19 22:14:44 公開日:2024-03-15 |
# 視覚・言語ナビゲーションにおける指示誤差の検出と位置決定
Mind the Error! Detection and Localization of Instruction Errors in Vision-and-Language Navigation ( http://arxiv.org/abs/2403.10700v1 ) ライセンス: Link先を確認 | Francesco Taioli, Stefano Rosa, Alberto Castellini, Lorenzo Natale, Alessio Del Bue, Alessandro Farinelli, Marco Cristani, Yiming Wang, | (参考訳) VLN-CE(Vision-and-Language Navigation in Continuous Environments)は、最も直感的だが難しいAIタスクの1つである。
エージェントは、一連の自然言語命令に従って、一連の低レベルのアクションを実行することで、目標に向かってナビゲートするように指示される。
文献中の全てのVLN-CEメソッドは、言語命令が正確であると仮定する。
しかし、実際には、人間の指示は不正確な記憶や混乱によって空間環境を記述する際にエラーを含むことができる。
現在のVLN-CEベンチマークでは、このシナリオには対処していない。
本稿では,人為的な原因を考慮し,様々な種類の命令誤りを提示する新しいベンチマークデータセットを提案する。
このベンチマークは、連続環境におけるVLNシステムの堅牢性に関する貴重な洞察を提供する。
我々のベンチマークで最先端のVLN-CE法を評価する場合、成功率において顕著な性能低下(最大-25%)が観測される。
さらに,インストラクションエラー検出と局所化のタスクを正式に定義し,ベンチマークデータセット上に評価プロトコルを確立する。
また,ベースラインに比べてエラー検出とローカライゼーションの優れた性能を実現する,クロスモーダルトランスフォーマーアーキテクチャに基づく効率的な手法を提案する。
意外なことに,提案手法はVLN-CEの2つの一般的なデータセット,すなわちR2R-CEとRxR-CEの検証セットの誤りを明らかにし,他のタスクにおける我々の手法の有用性を実証した。
コードとデータセットはhttps://intelligolabs.github.io/R2RIE-CEで利用可能になる。
Vision-and-Language Navigation in Continuous Environments (VLN-CE) is one of the most intuitive yet challenging embodied AI tasks. Agents are tasked to navigate towards a target goal by executing a set of low-level actions, following a series of natural language instructions. All VLN-CE methods in the literature assume that language instructions are exact. However, in practice, instructions given by humans can contain errors when describing a spatial environment due to inaccurate memory or confusion. Current VLN-CE benchmarks do not address this scenario, making the state-of-the-art methods in VLN-CE fragile in the presence of erroneous instructions from human users. For the first time, we propose a novel benchmark dataset that introduces various types of instruction errors considering potential human causes. This benchmark provides valuable insight into the robustness of VLN systems in continuous environments. We observe a noticeable performance drop (up to -25%) in Success Rate when evaluating the state-of-the-art VLN-CE methods on our benchmark. Moreover, we formally define the task of Instruction Error Detection and Localization, and establish an evaluation protocol on top of our benchmark dataset. We also propose an effective method, based on a cross-modal transformer architecture, that achieves the best performance in error detection and localization, compared to baselines. Surprisingly, our proposed method has revealed errors in the validation set of the two commonly used datasets for VLN-CE, i.e., R2R-CE and RxR-CE, demonstrating the utility of our technique in other tasks. Code and dataset will be made available upon acceptance at https://intelligolabs.github.io/R2RIE-CE | 翻訳日:2024-03-19 22:14:44 公開日:2024-03-15 |
# IMPRINT:アイデンティティ保存表現の学習による生成オブジェクトの合成
IMPRINT: Generative Object Compositing by Learning Identity-Preserving Representation ( http://arxiv.org/abs/2403.10701v1 ) ライセンス: Link先を確認 | Yizhi Song, Zhifei Zhang, Zhe Lin, Scott Cohen, Brian Price, Jianming Zhang, Soo Ye Kim, He Zhang, Wei Xiong, Daniel Aliaga, | (参考訳) 生成オブジェクト合成は、合成画像編集のための有望な新しい道として現れる。
しかし、オブジェクトアイデンティティ保存の要件は、既存のほとんどのメソッドの実用的使用を制限するという大きな課題を生んでいる。
そこで本研究では,2段階学習フレームワークを用いて学習した拡散モデルIMPRINTについて述べる。
最初のステージは、オブジェクトエンコーダのコンテキストに依存しない、アイデンティティを保存する事前トレーニングをターゲットにしており、エンコーダは、ビュー不変で、詳細保存の強化に寄与する埋め込みを学ぶことができる。
その後の段階は、この表現を利用して、背景に合成されたオブジェクトのシームレスな調和を学ぶ。
さらにIMPRINTには、コンポジションプロセスに対するユーザ指向制御を提供する形状誘導機構が組み込まれている。
IMPRINTは、既存の方法や、アイデンティティの保存や構成品質に関する様々な基準を著しく上回っている。
Generative object compositing emerges as a promising new avenue for compositional image editing. However, the requirement of object identity preservation poses a significant challenge, limiting practical usage of most existing methods. In response, this paper introduces IMPRINT, a novel diffusion-based generative model trained with a two-stage learning framework that decouples learning of identity preservation from that of compositing. The first stage is targeted for context-agnostic, identity-preserving pretraining of the object encoder, enabling the encoder to learn an embedding that is both view-invariant and conducive to enhanced detail preservation. The subsequent stage leverages this representation to learn seamless harmonization of the object composited to the background. In addition, IMPRINT incorporates a shape-guidance mechanism offering user-directed control over the compositing process. Extensive experiments demonstrate that IMPRINT significantly outperforms existing methods and various baselines on identity preservation and composition quality. | 翻訳日:2024-03-19 22:14:44 公開日:2024-03-15 |
# PERL:人間のフィードバックからのパラメータ効率の良い強化学習
PERL: Parameter Efficient Reinforcement Learning from Human Feedback ( http://arxiv.org/abs/2403.10704v1 ) ライセンス: Link先を確認 | Hakim Sidahmed, Samrat Phatale, Alex Hutcheson, Zhuonan Lin, Zhang Chen, Zac Yu, Jarvis Jin, Roman Komarytsia, Christiane Ahlheim, Yonghao Zhu, Simral Chaudhary, Bowen Li, Saravanan Ganesh, Bill Byrne, Jessica Hoffmann, Hassan Mansoor, Wei Li, Abhinav Rastogi, Lucas Dixon, | (参考訳) Reinforcement Learning from Human Feedback (RLHF) は、事前学習された大規模言語モデル(LLM)を人間の好みに合わせる強力な手法であることが証明されている。
しかし、RLHFを用いたトレーニングモデルは計算コストが高く、全体的な複雑なプロセスである。
本稿では,Hu et al [2021]が導入したLoRA(Lo-Rank Adaptation)のパラメータ効率向上手法を用いて,基礎となるモデルを学習するRLHFについて検討する。
報奨モデルトレーニングとLoRAを用いた強化学習を行うParameter Efficient Reinforcement Learning(PERL)のセットアップについて検討する。
PERLと従来の微調整(フルチューニング)を比較して、報酬モデリングと強化学習の2つの新しいデータセットを含む7つのベンチマークのさまざまな構成を比較した。
PERLは従来のRLHF設定と同等に動作し、高速かつ少ないメモリでトレーニングを行う。
これにより、RLHFの性能が向上し、大規模言語モデルのアライメント技術としての採用を制限する計算負担が軽減される。
また、RLHFに関する研究を促進するために、"Taskmaster Coffee"と"Taskmaster Ticketing"の2つの新しい親指アップ/ダウン選好データセットもリリースしています。
Reinforcement Learning from Human Feedback (RLHF) has proven to be a strong method to align Pretrained Large Language Models (LLMs) with human preferences. But training models with RLHF is computationally expensive, and an overall complex process. In this work, we study RLHF where the underlying models are trained using the parameter efficient method of Low-Rank Adaptation (LoRA) introduced by Hu et al. [2021]. We investigate the setup of "Parameter Efficient Reinforcement Learning" (PERL), in which we perform reward model training and reinforcement learning using LoRA. We compare PERL to conventional fine-tuning (full-tuning) across various configurations for 7 benchmarks, including 2 novel datasets, of reward modeling and reinforcement learning. We find that PERL performs on par with the conventional RLHF setting, while training faster, and with less memory. This enables the high performance of RLHF, while reducing the computational burden that limits its adoption as an alignment technique for Large Language Models. We also release 2 novel thumbs up/down preference datasets: "Taskmaster Coffee", and "Taskmaster Ticketing" to promote research around RLHF. | 翻訳日:2024-03-19 22:14:44 公開日:2024-03-15 |
# PyHySCO: GPUで実現可能なサセプティビティアーチファクトの歪み補正
PyHySCO: GPU-Enabled Susceptibility Artifact Distortion Correction in Seconds ( http://arxiv.org/abs/2403.10706v1 ) ライセンス: Link先を確認 | Abigail Julian, Lars Ruthotto, | (参考訳) 過去10年間で、逆勾配極性(RGP)法は、エコープラナーイメージング(EPI)における感受性アーチファクトの修正の一般的なアプローチとなっている。
RGPのいくつかの後処理ツールが利用可能であるが、その実装は最近のハードウェア、アルゴリズム、計算の進歩を十分に活用していないため、画像体積あたりの修正時間は数分である。
PyTorch で実装されたユーザフレンドリーな EPI 歪み補正ツールである PyHySCO を導入し,グラフィック処理ユニット (GPU) のマルチスレッドと効率的な利用を可能にした。
PyHySCOは時間的な物理的歪みモデルと数学的定式化を用いており、訓練なしで信頼性がある。
PyHySCOのアルゴリズムによる改良は、1次元最適輸送を用いた新しい初期化方式である。
PyHySCOはGNUパブリックライセンスで公開されており、コマンドラインまたはPythonインターフェースから使用することができる。
Human Connectome Projectの3Tおよび7Tデータを用いた大規模な数値検証では、PyHySCOはRGPツールの先行ツールに匹敵する精度を低コストで達成している。
また,新しい初期化方式を検証し,異なる最適化アルゴリズムを比較し,異なるハードウェアおよび演算精度でアルゴリズムをテストする。
Over the past decade, reversed Gradient Polarity (RGP) methods have become a popular approach for correcting susceptibility artifacts in Echo-Planar Imaging (EPI). Although several post-processing tools for RGP are available, their implementations do not fully leverage recent hardware, algorithmic, and computational advances, leading to correction times of several minutes per image volume. To enable 3D RGP correction in seconds, we introduce PyHySCO, a user-friendly EPI distortion correction tool implemented in PyTorch that enables multi-threading and efficient use of graphics processing units (GPUs). PyHySCO uses a time-tested physical distortion model and mathematical formulation and is, therefore, reliable without training. An algorithmic improvement in PyHySCO is its novel initialization scheme that uses 1D optimal transport. PyHySCO is published under the GNU public license and can be used from the command line or its Python interface. Our extensive numerical validation using 3T and 7T data from the Human Connectome Project suggests that PyHySCO achieves accuracy comparable to that of leading RGP tools at a fraction of the cost. We also validate the new initialization scheme, compare different optimization algorithms, and test the algorithm on different hardware and arithmetic precision. | 翻訳日:2024-03-19 22:14:44 公開日:2024-03-15 |
# LLMの統合によるソーシャルメディア上でのメッセージの潜在テーマ発見--気候キャンペーンを事例として
Uncovering Latent Themes of Messaging on Social Media by Integrating LLMs: A Case Study on Climate Campaigns ( http://arxiv.org/abs/2403.10707v1 ) ライセンス: Link先を確認 | Tunazzina Islam, Dan Goldwasser, | (参考訳) 本稿では,ソーシャルメディアメッセージングにおけるテーマの発見と分析に新たなアプローチを提案する。
従来のトピックレベルの分析の限界を認識して、よりきめ細かなテーマ中心の探索の必要性を強調する。
手動のプロセスとヒューマン・イン・ザ・ループのアプローチを含む従来のテーマ発見の方法は価値があるが、時間とコストの観点から、スケーラビリティ、一貫性、リソースの強度といった課題に直面している。
これらの課題に対処するため,我々はLarge Language Models (LLMs) の高度な機能を活用するマシン・イン・ザ・ループアプローチを提案する。
このアプローチにより、ソーシャルメディアの話題のテーマ的側面を深く研究し、さまざまなテーマを発見でき、それぞれに固有の特徴と関連性があり、より広範なトピックに存在するニュアンスを包括的に理解することができる。
さらに,本手法はテキストと新たに発見されたテーマを効率的にマッピングし,ソーシャルメディアメッセージングにおけるテーマニュアンスに対する理解を深める。
我々は,ケーススタディとして気候キャンペーンを採用し,従来のトピックモデルと比較して,方法論がより正確かつ解釈可能な結果をもたらすことを示す。
本研究の結果は,潜在テーマを明らかにする上でのアプローチの有効性を実証するだけでなく,ソーシャルメディアの文脈において,これらのテーマが階層的ターゲットにどのように適合しているかを示すものである。
さらに、私たちの仕事はソーシャルメディアのダイナミックな性質に光を当て、現実の出来事に対するメッセージのテーマ的焦点の変化を明らかにします。
This paper introduces a novel approach to uncovering and analyzing themes in social media messaging. Recognizing the limitations of traditional topic-level analysis, which tends to capture only the overarching patterns, this study emphasizes the need for a finer-grained, theme-focused exploration. Conventional methods of theme discovery, involving manual processes and a human-in-the-loop approach, are valuable but face challenges in scalability, consistency, and resource intensity in terms of time and cost. To address these challenges, we propose a machine-in-the-loop approach that leverages the advanced capabilities of Large Language Models (LLMs). This approach allows for a deeper investigation into the thematic aspects of social media discourse, enabling us to uncover a diverse array of themes, each with unique characteristics and relevance, thereby offering a comprehensive understanding of the nuances present within broader topics. Furthermore, this method efficiently maps the text and the newly discovered themes, enhancing our understanding of the thematic nuances in social media messaging. We employ climate campaigns as a case study and demonstrate that our methodology yields more accurate and interpretable results compared to traditional topic models. Our results not only demonstrate the effectiveness of our approach in uncovering latent themes but also illuminate how these themes are tailored for demographic targeting in social media contexts. Additionally, our work sheds light on the dynamic nature of social media, revealing the shifts in the thematic focus of messaging in response to real-world events. | 翻訳日:2024-03-19 22:14:44 公開日:2024-03-15 |
# バックドアの秘密: スケールした予測一貫性を最適化したバックドアデータの識別
Backdoor Secrets Unveiled: Identifying Backdoor Data with Optimized Scaled Prediction Consistency ( http://arxiv.org/abs/2403.10717v1 ) ライセンス: Link先を確認 | Soumyadeep Pal, Yuguang Yao, Ren Wang, Bingquan Shen, Sijia Liu, | (参考訳) 現代の機械学習(ML)システムは、しばしば外部ソースに頼って、かなりのトレーニングデータを要求する。
しかし、この慣行は、バックドア中毒の攻撃に対して脆弱である。
バックドア防衛戦略は、主にバックドアモデルや有毒データの特徴の識別に重点を置いており、典型的にはクリーンデータへのアクセスを前提として運用されている。
この研究では、毒性データセット内のバックドアデータの自動識別、すなわち、追加のクリーンデータや手動でバックドア検出のしきい値を定義することなく、現実的な条件下で、比較的過小評価された課題を掘り下げる。
我々は,有毒データの入力スケーリング係数に対する予測不変性を利用したスケールド予測整合性(SPC)技術から着想を得た。
これに基づいて、バックドアデータ識別問題を階層的なデータ分割最適化問題として、新しいSPCベースの損失関数を主最適化目的として活用する。
私たちのイノベーションは、いくつかの重要な側面に広がっています。
まず,バニラSPC法を再検討し,提案したバックドア識別問題に対処する際の限界を明らかにする。
その後,先進的なSPC損失を最小限に抑えて,バックドアデータを正確に識別する二段階最適化手法を開発した。
最後に, バックドア攻撃に対する提案の有効性を実証し, 各種ベンチマークデータセットで評価した, 基本的なラベル破損攻撃だけでなく, より洗練されたクリーンラベル攻撃も実施した。
実験結果から, バックドアデータポイントの同定において, 提案手法は現在のベースラインを上回り, 平均AUROCの約4%~36%の改善が得られた。
コードはhttps://github.com/OPTML-Group/BackdoorMSPCで入手できる。
Modern machine learning (ML) systems demand substantial training data, often resorting to external sources. Nevertheless, this practice renders them vulnerable to backdoor poisoning attacks. Prior backdoor defense strategies have primarily focused on the identification of backdoored models or poisoned data characteristics, typically operating under the assumption of access to clean data. In this work, we delve into a relatively underexplored challenge: the automatic identification of backdoor data within a poisoned dataset, all under realistic conditions, i.e., without the need for additional clean data or without manually defining a threshold for backdoor detection. We draw an inspiration from the scaled prediction consistency (SPC) technique, which exploits the prediction invariance of poisoned data to an input scaling factor. Based on this, we pose the backdoor data identification problem as a hierarchical data splitting optimization problem, leveraging a novel SPC-based loss function as the primary optimization objective. Our innovation unfolds in several key aspects. First, we revisit the vanilla SPC method, unveiling its limitations in addressing the proposed backdoor identification problem. Subsequently, we develop a bi-level optimization-based approach to precisely identify backdoor data by minimizing the advanced SPC loss. Finally, we demonstrate the efficacy of our proposal against a spectrum of backdoor attacks, encompassing basic label-corrupted attacks as well as more sophisticated clean-label attacks, evaluated across various benchmark datasets. Experiment results show that our approach often surpasses the performance of current baselines in identifying backdoor data points, resulting in about 4%-36% improvement in average AUROC. Codes are available at https://github.com/OPTML-Group/BackdoorMSPC. | 翻訳日:2024-03-19 22:14:44 公開日:2024-03-15 |
# Da Vinciコードゲーム戦略のシミュレーションのためのモンテカルロ木探索アルゴリズムの開発と応用
Development and Application of a Monte Carlo Tree Search Algorithm for Simulating Da Vinci Code Game Strategies ( http://arxiv.org/abs/2403.10720v1 ) ライセンス: Link先を確認 | Ye Zhang, Mengran Zhu, Kailin Gui, Jiayue Yu, Yong Hao, Haozhan Sun, | (参考訳) 本研究では,モンテカルロ木探索(MCTS, Monte Carlo Tree Search)の効率性を検討した。
幅広い適用性にもかかわらず、アルゴリズムのパフォーマンスは特定のシナリオ、特にゲーム戦略開発分野において悪影響を及ぼす可能性がある。
この研究は、Da Vinci Codeのボードゲームにおける固有の分岐分岐は、グラフィクス処理ユニット(GPU)上で実行される場合、並列性を著しく阻害することを示している。
この仮説を解明するために,我々はMCTSアルゴリズムの2つの変種を慎重に評価し,特に分岐分岐が計算性能に与える影響を評価するために設計した。
比較分析の結果,GPU実装とは対照的に,非線形拡張パターンと識別可能な性能トラフを有するCPU実装では,性能が線形に向上していることが明らかとなった。
これらの結果は,分散分岐シナリオにおけるMCTSアルゴリズムの挙動のより深い理解に寄与し,並列コンピューティングアーキテクチャ上でゲーム戦略アルゴリズムを最適化するための重要な考慮点を浮き彫りにした。
In this study, we explore the efficiency of the Monte Carlo Tree Search (MCTS), a prominent decision-making algorithm renowned for its effectiveness in complex decision environments, contingent upon the volume of simulations conducted. Notwithstanding its broad applicability, the algorithm's performance can be adversely impacted in certain scenarios, particularly within the domain of game strategy development. This research posits that the inherent branch divergence within the Da Vinci Code board game significantly impedes parallelism when executed on Graphics Processing Units (GPUs). To investigate this hypothesis, we implemented and meticulously evaluated two variants of the MCTS algorithm, specifically designed to assess the impact of branch divergence on computational performance. Our comparative analysis reveals a linear improvement in performance with the CPU-based implementation, in stark contrast to the GPU implementation, which exhibits a non-linear enhancement pattern and discernible performance troughs. These findings contribute to a deeper understanding of the MCTS algorithm's behavior in divergent branch scenarios, highlighting critical considerations for optimizing game strategy algorithms on parallel computing architectures. | 翻訳日:2024-03-19 22:14:44 公開日:2024-03-15 |
# 高速R-CNNを用いた大麻種子変異検出
Cannabis Seed Variant Detection using Faster R-CNN ( http://arxiv.org/abs/2403.10722v1 ) ライセンス: Link先を確認 | Toqi Tahamid Sarker, Taminul Islam, Khaled R Ahmed, | (参考訳) 大麻の種変異の分析と検出は農業にとって不可欠である。
精密な育種を可能にし、栽培者は好適な形質を選択的に増強することができる。
種子品種の正確な同定はまた、規制の遵守を保証し、特定の大麻株を特定の特性で培養し、最終的には農業生産性を改善し、多様な市場需要を満たす。
本稿では,現在最先端のオブジェクト検出モデルであるFaster R-CNNを用いて,大麻種子の変種検出について検討する。
本研究は,タイ国で発生した大麻種子データセットに17種類の異なるクラスからなるモデルを実装した。
6つの高速R-CNNモデルについて,各種指標の性能を比較し,mAPスコア94.08\%,F1スコア95.66\%を達成して評価した。
本稿では,大麻の種型を視覚的に識別する新しい課題に対して,ディープニューラルネットワークオブジェクト検出モデルの最初の応用例を示す。
Analyzing and detecting cannabis seed variants is crucial for the agriculture industry. It enables precision breeding, allowing cultivators to selectively enhance desirable traits. Accurate identification of seed variants also ensures regulatory compliance, facilitating the cultivation of specific cannabis strains with defined characteristics, ultimately improving agricultural productivity and meeting diverse market demands. This paper presents a study on cannabis seed variant detection by employing a state-of-the-art object detection model Faster R-CNN. This study implemented the model on a locally sourced cannabis seed dataset in Thailand, comprising 17 distinct classes. We evaluate six Faster R-CNN models by comparing performance on various metrics and achieving a mAP score of 94.08\% and an F1 score of 95.66\%. This paper presents the first known application of deep neural network object detection models to the novel task of visually identifying cannabis seed types. | 翻訳日:2024-03-19 22:04:53 公開日:2024-03-15 |
# 障害とモニタリングにより局在したシステムにおける単一粒子波動関数の非破壊
Unscrambling of single-particle wave functions in systems localized through disorder and monitoring ( http://arxiv.org/abs/2403.10725v1 ) ライセンス: Link先を確認 | Marcin Szyniszewski, | (参考訳) 障害やモニタリングによる局在化-非局在化量子相転移を行うシステムでは、位相を識別し、固有の性質を明らかにすることのできるロバストな方法が不可欠である。
本研究では,局所粒子を正確に特徴付ける自由フェルミオン波動関数のスレーター決定式を求める過程,すなわち「アンスクラムリング」を解く過程を開発する。
中心となる考え方は、単一粒子波動関数のエンベロープ間の重なりを最小化すること、または等価に、各軌道の逆参加比を最大化することである。
この数値的に効率的な手法は、指数的局所化(英語版)、パワーロー局所化(英語版)、コンフォメーションクリティカル(英語版)といった異なる種類の波動関数を区別することができる。
さらに,不規則な監視自由フェルミオンを1次元に含むより困難な問題に適用し,非破壊過程が共形臨界相と局所化領域法量子Zeno相の存在を明らかにする。
本手法は粒子数保存のない自由フェルミオン系にも拡張可能であり, $\mathbb{Z}_2$-symmetric disordered monitored free fermion の位相図を推定して実演する。
その結果, 単一粒子波動関数を応用して, 観測された自由フェルミオンや乱れモデルなどのシステムにおける局在化遷移特性について, 貴重な知見を得ることが可能となった。
In systems undergoing localization-delocalization quantum phase transitions due to disorder or monitoring, there is a crucial need for robust methods capable of distinguishing phases and uncovering their intrinsic properties. In this work, we develop a process of finding a Slater determinant representation of free-fermion wave functions that accurately characterizes localized particles, a procedure we dub "unscrambling". The central idea is to minimize the overlap between envelopes of single-particle wave functions or, equivalently, to maximize the inverse participation ratio of each orbital. This numerically efficient methodology can differentiate between distinct types of wave functions: exponentially localized, power-law localized, and conformal critical, also revealing the underlying physics of these states. Furthermore, we apply this approach to a more challenging problem involving disordered monitored free fermions in one dimension, where the unscrambling process unveils the presence of a conformal critical phase and a localized area-law quantum Zeno phase. Importantly, our method can also be extended to free fermion systems without particle number conservation, which we demonstrate by estimating the phase diagram of $\mathbb{Z}_2$-symmetric disordered monitored free fermions. Our results unlock the potential of utilizing single-particle wave functions to gain valuable insights into the localization transition properties in systems such as monitored free fermions and disordered models. | 翻訳日:2024-03-19 22:04:53 公開日:2024-03-15 |
# Strict Partitioning for Sporadic Rigid Gang Tasks
Strict Partitioning for Sporadic Rigid Gang Tasks ( http://arxiv.org/abs/2403.10726v1 ) ライセンス: Link先を確認 | Binqi Sun, Tomasz Kloda, Marco Caccamo, | (参考訳) 厳密なギャングタスクモデルは、効率と性能を向上させるために、一定数のプロセッサ上で複数のスレッドを同時に実行するというアイデアに基づいている。
グローバルな厳密なギャングスケジューリングには広範な文献があるが、分割されたアプローチにはいくつかの実用的な利点がある(例えば、タスク分離とスケジューリングオーバーヘッドの削減)。
本稿では,厳密なパーティショニングという,厳密なギャングタスクのための分割型スケジューリング手法を提案する。
この方法は、パーティション間干渉を避けるために、タスクとプロセッサの切り離しパーティションを生成する。
さらに、同じボリューム(すなわち並列性)のタスクを同じパーティションに割り当てて、パーティション内干渉を減らす。
各パーティション内では、タスクは任意のタイプのスケジューラを使ってスケジュールすることができる。
エッジTPUベンチマークに基づく大規模合成実験とケーススタディにより、厳密なパーティショニングは、プリエンプティブと非プリエンプティブな厳密なギャングタスクセットの両方に対して、最先端のグローバルギャングスケジューリング可能性分析よりも優れたスケジュール性を実現することが示された。
The rigid gang task model is based on the idea of executing multiple threads simultaneously on a fixed number of processors to increase efficiency and performance. Although there is extensive literature on global rigid gang scheduling, partitioned approaches have several practical advantages (e.g., task isolation and reduced scheduling overheads). In this paper, we propose a new partitioned scheduling strategy for rigid gang tasks, named strict partitioning. The method creates disjoint partitions of tasks and processors to avoid inter-partition interference. Moreover, it tries to assign tasks with similar volumes (i.e., parallelisms) to the same partition so that the intra-partition interference can be reduced. Within each partition, the tasks can be scheduled using any type of scheduler, which allows the use of a less pessimistic schedulability test. Extensive synthetic experiments and a case study based on Edge TPU benchmarks show that strict partitioning achieves better schedulability performance than state-of-the-art global gang schedulability analyses for both preemptive and non-preemptive rigid gang task sets. | 翻訳日:2024-03-19 22:04:53 公開日:2024-03-15 |
# 肥料管理ゾーン作成に使用するニューラルネットワークのファクトファクト解析
Counterfactual Analysis of Neural Networks Used to Create Fertilizer Management Zones ( http://arxiv.org/abs/2403.10730v1 ) ライセンス: Link先を確認 | Giorgio Morales, John Sheppard, | (参考訳) 精密農業では、フィールド内変動を考慮した管理ゾーン(MZ)の利用は、効率的な肥料管理を促進する。
このアプローチにより、窒素(N)速度の最適化により、収量生産を最大化し、農業利用効率を高めることができる。
しかし,MZ決定に影響を及ぼす要因として,肥料に対する応答性の考慮は,既存の作業では無視されることが多い。
このギャップに対応するために,肥料の応答性に基づくMZクラスタリング手法を提案する。
本研究は, 施肥率に対する所定部位の応答性は, 対応する施肥収率(N-応答性)曲線の形状によって説明されることを示す。
そこで、畳み込みニューラルネットワーク(CNN)を用いて、フィールド内のすべてのサイトに対するN応答曲線を生成する。
近似されたN-応答曲線の形状は、機能的主成分分析を用いて特徴づけられる。
その後、様々な変数がMZメンバシップに与える影響を明らかにするために、CFE法を適用した。
遺伝的アルゴリズムに基づくCFEは、多目的最適化問題を解くとともに、サイトのクラスタ割り当てを変更するために必要な機能の最小の組み合わせを特定することを目的としている。
2つの収量予測データセットの結果,MZ比に最も影響を与える特徴は,地形斜面や地形面など,肥料流出を促進するか妨げる地形特性に関連していることが示された。
In Precision Agriculture, the utilization of management zones (MZs) that take into account within-field variability facilitates effective fertilizer management. This approach enables the optimization of nitrogen (N) rates to maximize crop yield production and enhance agronomic use efficiency. However, existing works often neglect the consideration of responsivity to fertilizer as a factor influencing MZ determination. In response to this gap, we present a MZ clustering method based on fertilizer responsivity. We build upon the statement that the responsivity of a given site to the fertilizer rate is described by the shape of its corresponding N fertilizer-yield response (N-response) curve. Thus, we generate N-response curves for all sites within the field using a convolutional neural network (CNN). The shape of the approximated N-response curves is then characterized using functional principal component analysis. Subsequently, a counterfactual explanation (CFE) method is applied to discern the impact of various variables on MZ membership. The genetic algorithm-based CFE solves a multi-objective optimization problem and aims to identify the minimum combination of features needed to alter a site's cluster assignment. Results from two yield prediction datasets indicate that the features with the greatest influence on MZ membership are associated with terrain characteristics that either facilitate or impede fertilizer runoff, such as terrain slope or topographic aspect. | 翻訳日:2024-03-19 22:04:53 公開日:2024-03-15 |
# 拡散モデルに手を与える:条件付き画像生成における2段階的アプローチ
Giving a Hand to Diffusion Models: a Two-Stage Approach to Improving Conditional Human Image Generation ( http://arxiv.org/abs/2403.10731v1 ) ライセンス: Link先を確認 | Anton Pelykh, Ozge Mercanoglu Sincan, Richard Bowden, | (参考訳) 近年,人間の画像生成,特に拡散モデルの発展が著しい進歩を遂げている。
しかし、既存の拡散法は、一貫した手解剖を作成する際に問題に遭遇し、生成された画像は手ポーズの正確な制御を欠いていることが多い。
この制限に対処するために、ポーズ条件付き人体画像生成の新たなアプローチを導入し、プロセスを2段階に分割する。
本稿では,手動画像とそれに対応するセグメンテーションマスクの両方を生成するために,マルチタスク設定で手動生成装置を訓練し,第1世代にトレーニングモデルを適用することを提案する。
適応されたコントロールネットモデルが第2段階で使用され、生成された手の周りにボディを塗り替え、最終的な結果が生成される。
両ステージの結果をコヒーレントな方法で組み合わせた第2段階のハンドディテールを維持するために, 新規なブレンディング技術が導入された。
これは、最終像のシームレスで密着的な合成を保証するために、潜在表現を融合させながら、塗装された領域を順次拡張することを含む。
実験により,HGRIDデータセットで検証した精度と画質の両面において,提案手法が最先端技術よりも優れていることを示す。
提案手法は生成した手の品質を向上するだけでなく、ポーズ条件付き人体画像生成の能力を向上させるとともに、手ポーズの制御も改善する。
提案されたアプローチのソースコードはhttps://github.com/apelykh/hand-to-diffusionで公開されている。
Recent years have seen significant progress in human image generation, particularly with the advancements in diffusion models. However, existing diffusion methods encounter challenges when producing consistent hand anatomy and the generated images often lack precise control over the hand pose. To address this limitation, we introduce a novel approach to pose-conditioned human image generation, dividing the process into two stages: hand generation and subsequent body out-painting around the hands. We propose training the hand generator in a multi-task setting to produce both hand images and their corresponding segmentation masks, and employ the trained model in the first stage of generation. An adapted ControlNet model is then used in the second stage to outpaint the body around the generated hands, producing the final result. A novel blending technique is introduced to preserve the hand details during the second stage that combines the results of both stages in a coherent way. This involves sequential expansion of the out-painted region while fusing the latent representations, to ensure a seamless and cohesive synthesis of the final image. Experimental evaluations demonstrate the superiority of our proposed method over state-of-the-art techniques, in both pose accuracy and image quality, as validated on the HaGRID dataset. Our approach not only enhances the quality of the generated hands but also offers improved control over hand pose, advancing the capabilities of pose-conditioned human image generation. The source code of the proposed approach is available at https://github.com/apelykh/hand-to-diffusion. | 翻訳日:2024-03-19 22:04:53 公開日:2024-03-15 |
# 非定常線形帯域に対する変数依存レギュレット境界
Variance-Dependent Regret Bounds for Non-stationary Linear Bandits ( http://arxiv.org/abs/2403.10732v1 ) ライセンス: Link先を確認 | Zhiyong Wang, Jize Xie, Yi Chen, John C. S. Lui, Dongruo Zhou, | (参考訳) 報酬分布が各ラウンドで進化する非定常確率線形帯域問題について検討する。
既存のアルゴリズムは、総変動予算$B_K$によって非定常性を特徴付けており、これは線形包帯の連続的な特徴ベクトルが$K$のラウンドで変化したことの総和である。
しかし、そのような量は報酬分布の期待に関してのみ非定常性を測定するため、既存のアルゴリズムは一般の非定常分布設定の下で最適化される。
本研究では,報酬分布の分散と$B_K$の分散を利用したアルゴリズムを提案する。
具体的には、Restarted Weighted$\text{OFUL}^+$とRestarted$\text{SAVE}^+$の2つの新しいアルゴリズムを紹介します。
これらのアルゴリズムは、各報酬の分散情報が既知の場合と未知の場合に対処する。
特に、V_K$ が$K$ よりもはるかに小さい場合、我々のアルゴリズムは、異なる設定下での非定常確率線形帯域において、過去の最先端の結果よりも優れている。
実験により,提案アルゴリズムの既存手法よりも優れた性能が得られた。
We investigate the non-stationary stochastic linear bandit problem where the reward distribution evolves each round. Existing algorithms characterize the non-stationarity by the total variation budget $B_K$, which is the summation of the change of the consecutive feature vectors of the linear bandits over $K$ rounds. However, such a quantity only measures the non-stationarity with respect to the expectation of the reward distribution, which makes existing algorithms sub-optimal under the general non-stationary distribution setting. In this work, we propose algorithms that utilize the variance of the reward distribution as well as the $B_K$, and show that they can achieve tighter regret upper bounds. Specifically, we introduce two novel algorithms: Restarted Weighted$\text{OFUL}^+$ and Restarted $\text{SAVE}^+$. These algorithms address cases where the variance information of the rewards is known and unknown, respectively. Notably, when the total variance $V_K$ is much smaller than $K$, our algorithms outperform previous state-of-the-art results on non-stationary stochastic linear bandits under different settings. Experimental evaluations further validate the superior performance of our proposed algorithms over existing works. | 翻訳日:2024-03-19 22:04:53 公開日:2024-03-15 |
# 一般化可能かつ公平な行動単位検出のための合成データの活用
Leveraging Synthetic Data for Generalizable and Fair Facial Action Unit Detection ( http://arxiv.org/abs/2403.10737v1 ) ライセンス: Link先を確認 | Liupei Lu, Yufeng Yin, Yuming Gu, Yizhen Wu, Pratusha Prasad, Yajie Zhao, Mohammad Soleymani, | (参考訳) AU(Facial Action Unit)検出は、顔表情分析の基本的なブロックである。
教師付き学習アプローチでは、大量の手動ラベリングが必要で、コストがかかる。
限定ラベル付きデータは、モデルフェアネスに影響を与える可能性のある性別の観点からも多様ではない。
本稿では,合成データとマルチソースドメイン適応(MSDA)を用いて,ラベル付きデータの不足や対象の多様性の問題に対処する。
具体的には,表情を現実の顔から合成アバターに転送することで,表情の再ターゲット化を通じて多様なデータセットを生成することを提案する。
次に,MSDAを用いて実際のデータセットと合成データセットからターゲットデータセットにAU検出知識を転送する。
異なるドメインの全体分布を整列する代わりに、ペアドモーメントマッチング(PM2)を提案し、ペア化された実データと合成データの特徴を同じ表情で整列させる。
ジェンダーフェアネスをさらに向上させるために、PM2は実際のデータの特徴と女性と男性の合成画像とを一致させる。
以上の結果から, 合成データとモデルにより, 性別間でのAU検出性能と公正性の両方が向上し, AU検出を未解決で解決できる可能性が示唆された。
Facial action unit (AU) detection is a fundamental block for objective facial expression analysis. Supervised learning approaches require a large amount of manual labeling which is costly. The limited labeled data are also not diverse in terms of gender which can affect model fairness. In this paper, we propose to use synthetically generated data and multi-source domain adaptation (MSDA) to address the problems of the scarcity of labeled data and the diversity of subjects. Specifically, we propose to generate a diverse dataset through synthetic facial expression re-targeting by transferring the expressions from real faces to synthetic avatars. Then, we use MSDA to transfer the AU detection knowledge from a real dataset and the synthetic dataset to a target dataset. Instead of aligning the overall distributions of different domains, we propose Paired Moment Matching (PM2) to align the features of the paired real and synthetic data with the same facial expression. To further improve gender fairness, PM2 matches the features of the real data with a female and a male synthetic image. Our results indicate that synthetic data and the proposed model improve both AU detection performance and fairness across genders, demonstrating its potential to solve AU detection in-the-wild. | 翻訳日:2024-03-19 22:04:53 公開日:2024-03-15 |
# 線形マルコフ決定過程に対する水平自由回帰法
Horizon-Free Regret for Linear Markov Decision Processes ( http://arxiv.org/abs/2403.10738v1 ) ライセンス: Link先を確認 | Zihan Zhang, Jason D. Lee, Yuxin Chen, Simon S. Du, | (参考訳) 最近の一連の研究は、強化学習(RL)が(ほぼ)計画的地平線、すなわち地平線のない地平線から独立していることを示した。
しかしながら、これらの後悔の限界は、テーブル状マルコフ決定プロセス(MDP)や線形混合MDPのような遷移モデルのサイズに対する多項式依存が許容される設定にのみ適用される。
遷移モデルのサイズが指数関数的に大きくなり、あるいは非可算となるような、一般的な線形 MDP 設定に対して、最初の地平面自由境界を与える。
遷移モデルを明示的に推定し、異なる時間ステップで不均一な値関数を計算する先行研究とは対照的に、値関数と信頼セットを直接推定する。
1)値関数に対する多重重み付き最小二乗推定器の維持,(2)不均一値関数の最大総変動を示す構造的補題は特徴次元の多項式係数で有界である。
A recent line of works showed regret bounds in reinforcement learning (RL) can be (nearly) independent of planning horizon, a.k.a.~the horizon-free bounds. However, these regret bounds only apply to settings where a polynomial dependency on the size of transition model is allowed, such as tabular Markov Decision Process (MDP) and linear mixture MDP. We give the first horizon-free bound for the popular linear MDP setting where the size of the transition model can be exponentially large or even uncountable. In contrast to prior works which explicitly estimate the transition model and compute the inhomogeneous value functions at different time steps, we directly estimate the value functions and confidence sets. We obtain the horizon-free bound by: (1) maintaining multiple weighted least square estimators for the value functions; and (2) a structural lemma which shows the maximal total variation of the inhomogeneous value functions is bounded by a polynomial factor of the feature dimension. | 翻訳日:2024-03-19 22:04:53 公開日:2024-03-15 |
# 運動マンバ:階層型および双方向選択型SSMを用いた効率よく長周期な運動生成
Motion Mamba: Efficient and Long Sequence Motion Generation with Hierarchical and Bidirectional Selective SSM ( http://arxiv.org/abs/2403.07487v2 ) ライセンス: Link先を確認 | Zeyu Zhang, Akide Liu, Ian Reid, Richard Hartley, Bohan Zhuang, Hao Tang, | (参考訳) 人間の動き生成は、生成的コンピュータビジョンにおいて重要な追求であり、長いシーケンスと効率的な動き生成を実現することは依然として困難である。
状態空間モデル(SSM)の最近の進歩、特にMambaは、効率的なハードウェア・アウェア・デザインによる長いシーケンス・モデリングにおいてかなりの可能性を秘めている。
それでも、モーション生成へのSSMの適用は、モーションシーケンスをモデル化するための特別な設計アーキテクチャが欠如しているため、ハードルに直面している。
これらの課題に対処するために、我々はSSMを用いた先駆的な動き生成モデルを示すシンプルで効率的なアプローチであるMotion Mambaを提案する。
具体的には,階層型テンポラルマンバ(HTM)ブロックを設計し,フレーム間の動きの整合性を保つことを目的とした対称U-Netアーキテクチャを用いて,孤立SSMモジュールの様々な数をアンサンブルすることで時間データを処理する。
また,2方向空間マンバ(BSM)ブロックを2方向処理し,時間フレーム内での高精度な動作生成を実現する。
提案手法は,HumanML3DおよびKIT-MLデータセットの最大50%のFID改善と最大4倍の高速化を実現する。
https://steve-zeyu-zhang.github.io/MotionMamba/
Human motion generation stands as a significant pursuit in generative computer vision, while achieving long-sequence and efficient motion generation remains challenging. Recent advancements in state space models (SSMs), notably Mamba, have showcased considerable promise in long sequence modeling with an efficient hardware-aware design, which appears to be a promising direction to build motion generation model upon it. Nevertheless, adapting SSMs to motion generation faces hurdles since the lack of a specialized design architecture to model motion sequence. To address these challenges, we propose Motion Mamba, a simple and efficient approach that presents the pioneering motion generation model utilized SSMs. Specifically, we design a Hierarchical Temporal Mamba (HTM) block to process temporal data by ensemble varying numbers of isolated SSM modules across a symmetric U-Net architecture aimed at preserving motion consistency between frames. We also design a Bidirectional Spatial Mamba (BSM) block to bidirectionally process latent poses, to enhance accurate motion generation within a temporal frame. Our proposed method achieves up to 50% FID improvement and up to 4 times faster on the HumanML3D and KIT-ML datasets compared to the previous best diffusion-based method, which demonstrates strong capabilities of high-quality long sequence motion modeling and real-time human motion generation. See project website https://steve-zeyu-zhang.github.io/MotionMamba/ | 翻訳日:2024-03-19 11:35:28 公開日:2024-03-15 |
# PRAGO:オブジェクト検出による多視点ポーズ最適化
PRAGO: Differentiable Multi-View Pose Optimization From Objectness Detections ( http://arxiv.org/abs/2403.08586v2 ) ライセンス: Link先を確認 | Matteo Taiana, Matteo Toso, Stuart James, Alessio Del Bue, | (参考訳) 画像の集合からカメラのポーズをロバストに推定することは、微分可能な方法、特に小さくスパースなカメラのポーズグラフの場合において、依然として困難である基本課題である。
この課題を克服するため、我々はPose-refined Rotation Averaging Graph Optimization (PRAGO)を提案する。
非順序画像上の対象性検出の集合から回転ポーズを再構成し、従って、絶対ポーズは幾何的タスクの列の最適化の恩恵を受け、微分可能な方法で再構成する。
PRAGOにおける我々の目的性ポーズ・リファインメント・モジュールは、エッジを除去することなく、グラフエッジの生存性に関する早期決定を避けることなく、ペアワイズな相対的なポーズ推定において、固有の曖昧さを洗練できることを示す。
その後、PRAGOは反復グラフ構築を通じて絶対回転を洗練し、グラフエッジを再重み付けして最終的な回転ポーズを計算する。
その結果,PRAGOは7シーンから抽出した未分化のシーンにおいて,類似の翻訳推定を行いながら,相対的に21%の回転率向上を実現できることがわかった。
Robustly estimating camera poses from a set of images is a fundamental task which remains challenging for differentiable methods, especially in the case of small and sparse camera pose graphs. To overcome this challenge, we propose Pose-refined Rotation Averaging Graph Optimization (PRAGO). From a set of objectness detections on unordered images, our method reconstructs the rotational pose, and in turn, the absolute pose, in a differentiable manner benefiting from the optimization of a sequence of geometrical tasks. We show how our objectness pose-refinement module in PRAGO is able to refine the inherent ambiguities in pairwise relative pose estimation without removing edges and avoiding making early decisions on the viability of graph edges. PRAGO then refines the absolute rotations through iterative graph construction, reweighting the graph edges to compute the final rotational pose, which can be converted into absolute poses using translation averaging. We show that PRAGO is able to outperform non-differentiable solvers on small and sparse scenes extracted from 7-Scenes achieving a relative improvement of 21% for rotations while achieving similar translation estimates. | 翻訳日:2024-03-19 11:35:28 公開日:2024-03-15 |
# AraTrust: アラビア語におけるLLMの信頼性評価
AraTrust: An Evaluation of Trustworthiness for LLMs in Arabic ( http://arxiv.org/abs/2403.09017v2 ) ライセンス: Link先を確認 | Emad A. Alghamdi, Reem I. Masoud, Deema Alnuhait, Afnan Y. Alomairi, Ahmed Ashraf, Mohamed Zaytoon, | (参考訳) 人工知能(AI)システムの急速な進歩と広く受け入れられていることは、AIに関連する能力と潜在的なリスクの両方を理解することの要求を強調している。
AI研究におけるアラビア語の言語的複雑さ、文化的豊かさ、表現不足などを考えると、大きな言語モデル(LLM)のパフォーマンスとアラビア関連のタスクの安全性に重点を置く必要がある。
開発に多少の進展があったにもかかわらず、総合的な信頼性評価ベンチマークが欠如しており、アラビア語で誘導されたLLMの安全性を正確に評価し改善する上で大きな課題となっている。
本稿では,アラビア語におけるLLMの総合的信頼性ベンチマークであるAraTrustを紹介する。
AraTrustは、真理、倫理、安全、身体的健康、メンタルヘルス、不公平、違法な活動、プライバシー、不快な言語に関連する様々な次元に対処する516の人間による多重選択質問で構成されている。
我々は,その信頼性を評価するため,LLMのセットをベンチマークに対して評価した。
GPT-4は最も信頼できるLCMであり、特にAceGPT 7BやJais 13Bといったオープンソースモデルはベンチマークで60%のスコアを得るのに苦労しました。
The swift progress and widespread acceptance of artificial intelligence (AI) systems highlight a pressing requirement to comprehend both the capabilities and potential risks associated with AI. Given the linguistic complexity, cultural richness, and underrepresented status of Arabic in AI research, there is a pressing need to focus on Large Language Models (LLMs) performance and safety for Arabic related tasks. Despite some progress in their development, there is a lack of comprehensive trustworthiness evaluation benchmarks which presents a major challenge in accurately assessing and improving the safety of LLMs when prompted in Arabic. In this paper, we introduce AraTrust, the first comprehensive trustworthiness benchmark for LLMs in Arabic. AraTrust comprises 516 human-written multiple-choice questions addressing diverse dimensions related to truthfulness, ethics, safety, physical health, mental health, unfairness, illegal activities, privacy, and offensive language. We evaluated a set of LLMs against our benchmark to assess their trustworthiness. GPT-4 was the most trustworthy LLM, while open-source models, particularly AceGPT 7B and Jais 13B, struggled to achieve a score of 60% in our benchmark. | 翻訳日:2024-03-19 11:35:28 公開日:2024-03-15 |
# 懐疑論: 自動で、正当化され、プライバシ保護されるパスワード構成ポリシーの選択
Skeptic: Automatic, Justified and Privacy-Preserving Password Composition Policy Selection ( http://arxiv.org/abs/2007.03809v2 ) ライセンス: Link先を確認 | Saul Johnson, João F. Ferreira, Alexandra Mendes, Julien Cordry, | (参考訳) パスワード保護システムに強制するパスワード構成ポリシーの選択は、重要なセキュリティ上の決定であり、攻撃を推測するユーザ長パスワードの脆弱性に大きく影響することが示されている。
しかし実際には、システム管理者が直感だけでパスワード構成ポリシーを選択する傾向にあるため、この選択は通常厳密で正当化できない。
本研究では,様々なパスワード構成ポリシーに従ってフィルタリングされた大量の実世界のパスワードデータから構築されたパスワード確率分布に基づく新しい手法を提案する。
パスワード再選択動作をシミュレートするためにパスワード確率を再配布し、パスワード構成ポリシーを自動的に決定し、最大均一度でユーザ長パスワードの配布を誘導する。
さらに, ユーザパスワードデータに直接アクセスすることなく, パスワード構成ポリシーの選択を正当化できることを示す。
最後に、この方法論を実装するソフトウェアツールキットであるSkepticを紹介します。DSLは、パスワードセキュリティのバックグラウンドを持たないシステム管理者が、高価で時間を要するユーザスタディに頼ることなく、パスワード構成ポリシーの比較とランク付けを可能にします。
3つのデータセットに205,176,321の単語を渡すと、パスワード構成ポリシーの有効性に関する過去の実証研究から得られた結果と密接に一致していることを示し、我々のアプローチに有効であることを示す。
The choice of password composition policy to enforce on a password-protected system represents a critical security decision, and has been shown to significantly affect the vulnerability of user-chosen passwords to guessing attacks. In practice, however, this choice is not usually rigorous or justifiable, with a tendency for system administrators to choose password composition policies based on intuition alone. In this work, we propose a novel methodology that draws on password probability distributions constructed from large sets of real-world password data which have been filtered according to various password composition policies. Password probabilities are then redistributed to simulate different user password reselection behaviours in order to automatically determine the password composition policy that will induce the distribution of user-chosen passwords with the greatest uniformity, a metric which we show to be a useful proxy to measure overall resistance to password guessing attacks. Further, we show that by fitting power-law equations to the password probability distributions we generate, we can justify our choice of password composition policy without any direct access to user password data. Finally, we present Skeptic -- a software toolkit that implements this methodology, including a DSL to enable system administrators with no background in password security to compare and rank password composition policies without resorting to expensive and time-consuming user studies. Drawing on 205,176,321 pass words across 3 datasets, we lend validity to our approach by demonstrating that the results we obtain align closely with findings from a previous empirical study into password composition policy effectiveness. | 翻訳日:2024-03-19 08:10:52 公開日:2024-03-15 |
# 量子データ解析の改良
Improved quantum data analysis ( http://arxiv.org/abs/2011.10908v4 ) ライセンス: Link先を確認 | Costin Bădescu, Ryan O'Donnell, | (参考訳) 量子データ解析において、より単純な証明とともに、いくつかの基本ルーチンのよりサンプル効率の良いバージョンを提供する。
特に、$O((\log^2 m)/\epsilon^2)$$d$次元状態 $\rho$ のサンプルのみを必要とする量子 "Threshold Search" アルゴリズムを与える。
つまり、$0 \le A_1, A_2, ..., A_m \le 1$ が$\mathrm{tr}(\rho A_i) \ge 1/2$ となると、このアルゴリズムは$\mathrm{tr}(\rho A_j) \ge 1/2-\epsilon$ で$j$ を求める。
その結果,Shadow Tomography アルゴリズムは$\tilde{O}((\log^2 m)(\log d)/\epsilon^4)$サンプルしか必要とせず,パラメータ $m$, $d$, $\epsilon$ に対して最もよく知られた依存を実現する。
また、$\tilde{O}((\log^3 m)/\epsilon^2)$サンプルを用いた別の仮説選択法も提供する。
We provide more sample-efficient versions of some basic routines in quantum data analysis, along with simpler proofs. Particularly, we give a quantum "Threshold Search" algorithm that requires only $O((\log^2 m)/\epsilon^2)$ samples of a $d$-dimensional state $\rho$. That is, given observables $0 \le A_1, A_2, ..., A_m \le 1$ such that $\mathrm{tr}(\rho A_i) \ge 1/2$ for at least one $i$, the algorithm finds $j$ with $\mathrm{tr}(\rho A_j) \ge 1/2-\epsilon$. As a consequence, we obtain a Shadow Tomography algorithm requiring only $\tilde{O}((\log^2 m)(\log d)/\epsilon^4)$ samples, which simultaneously achieves the best known dependence on each parameter $m$, $d$, $\epsilon$. This yields the same sample complexity for quantum Hypothesis Selection among $m$ states; we also give an alternative Hypothesis Selection method using $\tilde{O}((\log^3 m)/\epsilon^2)$ samples. | 翻訳日:2024-03-19 08:10:52 公開日:2024-03-15 |
# 深層強化学習のためのマルコフ状態抽象化の学習
Learning Markov State Abstractions for Deep Reinforcement Learning ( http://arxiv.org/abs/2106.04379v4 ) ライセンス: Link先を確認 | Cameron Allen, Neev Parikh, Omer Gottesman, George Konidaris, | (参考訳) マルコフ決定過程(MDPs)における強化学習の基本的な前提は、関連する決定過程が実際にマルコフであるということである。
しかし、MDPが豊富な観測値を持つ場合、エージェントは通常抽象状態表現によって学習し、そのような表現はマルコフ特性を保存することが保証されない。
本稿では,マルコフの抽象状態表現を学習するのに十分であることを示す。
次に、逆モデル推定と時間的コントラスト学習を組み合わせて、これらの条件をほぼ満足する抽象化を学ぶための実践的な訓練手順について述べる。
我々の新しい訓練目的はオンライントレーニングとオフライントレーニングの両方と互換性があり、報酬信号を必要としないが、エージェントは報酬情報を利用することができる。
視覚グリッドワールドドメインと連続制御ベンチマークのセットに対する我々のアプローチを実証的に評価する。
我々の手法は、ドメインの基盤となる構造を捉える表現を学び、視覚的特徴を持つ最先端の深層強化学習よりもサンプル効率を向上させる。
A fundamental assumption of reinforcement learning in Markov decision processes (MDPs) is that the relevant decision process is, in fact, Markov. However, when MDPs have rich observations, agents typically learn by way of an abstract state representation, and such representations are not guaranteed to preserve the Markov property. We introduce a novel set of conditions and prove that they are sufficient for learning a Markov abstract state representation. We then describe a practical training procedure that combines inverse model estimation and temporal contrastive learning to learn an abstraction that approximately satisfies these conditions. Our novel training objective is compatible with both online and offline training: it does not require a reward signal, but agents can capitalize on reward information when available. We empirically evaluate our approach on a visual gridworld domain and a set of continuous control benchmarks. Our approach learns representations that capture the underlying structure of the domain and lead to improved sample efficiency over state-of-the-art deep reinforcement learning with visual features -- often matching or exceeding the performance achieved with hand-designed compact state information. | 翻訳日:2024-03-19 08:10:52 公開日:2024-03-15 |
# LASSOによるMARS
MARS via LASSO ( http://arxiv.org/abs/2111.11694v3 ) ライセンス: Link先を確認 | Dohyeong Ki, Billy Fang, Adityanand Guntuboyina, | (参考訳) 多変量適応回帰スプライン(MARS)は、1991年にフリードマンによって導入された非パラメトリック回帰の一般的な方法である。
MARSは単純な非線形および非付加的な関数を回帰データに適合させる。
我々はMARS法の自然なラッソ変種を提案し,研究する。
本手法は,MARSに基づく関数の無限次元線形結合を考慮し,変動に基づく複雑性制約を課すことにより得られる関数の凸クラスに対する最小二乗推定に基づく。
我々の推定子は有限次元凸最適化によって計算できるが、無限次元最適化問題の解として定義される。
いくつかの標準的な設計仮定の下では、我々の推定器は次元に対数的にのみ依存する収束率を達成でき、従ってある程度に次元性の通常の呪いを避けることができる。
また,本手法はスムーズ性制約に基づく非パラメトリック推定手法と自然に結びついていることを示す。
本手法は,パラメータ選択のためのクロスバリデーション方式を用いて実装し,様々なシミュレーションや実データ設定において通常のMARS法と比較する。
Multivariate adaptive regression splines (MARS) is a popular method for nonparametric regression introduced by Friedman in 1991. MARS fits simple nonlinear and non-additive functions to regression data. We propose and study a natural lasso variant of the MARS method. Our method is based on least squares estimation over a convex class of functions obtained by considering infinite-dimensional linear combinations of functions in the MARS basis and imposing a variation based complexity constraint. Our estimator can be computed via finite-dimensional convex optimization, although it is defined as a solution to an infinite-dimensional optimization problem. Under a few standard design assumptions, we prove that our estimator achieves a rate of convergence that depends only logarithmically on dimension and thus avoids the usual curse of dimensionality to some extent. We also show that our method is naturally connected to nonparametric estimation techniques based on smoothness constraints. We implement our method with a cross-validation scheme for the selection of the involved tuning parameter and compare it to the usual MARS method in various simulation and real data settings. | 翻訳日:2024-03-19 08:10:52 公開日:2024-03-15 |
# MMO: ソフトウェア構成調整のためのメタ多目的化
MMO: Meta Multi-Objectivization for Software Configuration Tuning ( http://arxiv.org/abs/2112.07303v3 ) ライセンス: Link先を確認 | Pengzhou Chen, Tao Chen, Miqing Li, | (参考訳) ソフトウェア構成チューニングは、与えられたパフォーマンス目標(例えば、レイテンシの最小化)を最適化するために不可欠である。
しかし、ソフトウェアが本質的に複雑な構成のランドスケープと高価な測定のために、特に検索がローカルのオプティマに閉じ込められるのを防ぐために、かなり穏やかな成功を収めた。
この問題に対処するため、本論文では異なる視点で論じる。
最適化モデルの改善に焦点をあてる代わりに、最適化モデルに取り組み、補助的なパフォーマンス目標(例えばレイテンシに加えてスループット)を考慮したメタ多目的化(MMO)モデルを提案する。
このモデルを明確にしているのは、補助的なパフォーマンスの目的を最適化するのではなく、異なる構成(Paretoが互いに支配的でない)で同等に性能を保ちながら、検索がローカルなオプティマに閉じ込められないようにするためである。
重要なことは、新しい正規化法を設計することで、重みを気にせずにMMOモデルを効果的に利用する方法を示します。
11の現実世界のソフトウェアシステム/環境による22のケースの実験では、新しい正規化を備えたMMOモデルは82%のケースで最先端の単一オブジェクトモデルよりも性能が良く、最大2.09倍のスピードアップを実現しています。
68%のケースでは、MMOモデルを使用することで、事前調整したベストウェイトの下でのFSE作業の正規化により、MMOモデルがインスタンスよりも優れており、優れたウェイトを見つけるのに必要となる大量のリソースを節約することができる。
また、新しい正規化を伴うMMOモデルは、一般的に1.22倍のスピードアップを持つ68%のケースにおいて、最新のモデルベースチューニングツールを統合可能であることを実証した。
Software configuration tuning is essential for optimizing a given performance objective (e.g., minimizing latency). Yet, due to the software's intrinsically complex configuration landscape and expensive measurement, there has been a rather mild success, particularly in preventing the search from being trapped in local optima. To address this issue, in this paper we take a different perspective. Instead of focusing on improving the optimizer, we work on the level of optimization model and propose a meta multi-objectivization (MMO) model that considers an auxiliary performance objective (e.g., throughput in addition to latency). What makes this model distinct is that we do not optimize the auxiliary performance objective, but rather use it to make similarly-performing while different configurations less comparable (i.e. Pareto nondominated to each other), thus preventing the search from being trapped in local optima. Importantly, by designing a new normalization method, we show how to effectively use the MMO model without worrying about its weight -- the only yet highly sensitive parameter that can affect its effectiveness. Experiments on 22 cases from 11 real-world software systems/environments confirm that our MMO model with the new normalization performs better than its state-of-the-art single-objective counterparts on 82% cases while achieving up to 2.09x speedup. For 68% of the cases, the new normalization also enables the MMO model to outperform the instance when using it with the normalization from our prior FSE work under pre-tuned best weights, saving a great amount of resources which would be otherwise necessary to find a good weight. We also demonstrate that the MMO model with the new normalization can consolidate recent model-based tuning tools on 68% of the cases with up to 1.22x speedup in general. | 翻訳日:2024-03-19 08:10:52 公開日:2024-03-15 |
# 画像超解法における過度に滑らかな挑戦:エントロピーに基づく量子化とコントラスト最適化
Uncovering the Over-smoothing Challenge in Image Super-Resolution: Entropy-based Quantification and Contrastive Optimization ( http://arxiv.org/abs/2201.01034v2 ) ライセンス: Link先を確認 | Tianshuo Xu, Lijiang Li, Peng Mi, Xiawu Zheng, Fei Chao, Rongrong Ji, Yonghong Tian, Qiang Shen, | (参考訳) PSNR指向モデル(PSNR-oriented model)は、様々な分野に適用可能な超解像モデルの重要なクラスである。
しかし、これらのモデルでは、以前モデルや損失関数の観点から分析され、データ特性の影響を考慮せずに、過度に滑らかな画像を生成する傾向にある。
本稿では,モデル出力が基底真理ではなく,類似の高解像度画像の中心点に収束する中心指向最適化(COO)問題(Central-oriented optimization, COO)問題(Central-oriented optimization, COO)問題(Central-oriented optimization, COO)問題)と呼ぶ新しい現象を示す。
この問題の強さは,エントロピーを用いて定量化するデータの不確実性に関係があることを実証する。
高解像度画像のエントロピーが増大するにつれて、その中心点がクリーンな画像分布から遠ざかっていき、モデルが過度に滑らかな画像を生成することが証明される。
COO問題を暗黙的に最適化し、知覚的損失やモデル構造最適化、GANベースの手法などの知覚駆動アプローチを見ることができる。
本稿では,Detail Enhanced Contrastive Loss (DECLoss)と呼ばれる,COO問題の明示的な解決法を提案する。
DECLossは、コントラスト学習のクラスタリング特性を利用して、潜在的高分解能分布の分散を直接低減し、エントロピーを減少させる。
我々は複数の超高解像度ベンチマーク上でDECLosを評価し,PSNR指向モデルの知覚品質を向上させることを実証した。
さらに,RaGAN などの GAN ベースの手法に適用した場合,DCLoss は 4x ダウンサンプリングしたUrban100 上で 24.51 PSNR の 0.093 LPIPS などの最先端性能を実現し,提案手法の有効性と一般化の検証を行う。
PSNR-oriented models are a critical class of super-resolution models with applications across various fields. However, these models tend to generate over-smoothed images, a problem that has been analyzed previously from the perspectives of models or loss functions, but without taking into account the impact of data properties. In this paper, we present a novel phenomenon that we term the center-oriented optimization (COO) problem, where a model's output converges towards the center point of similar high-resolution images, rather than towards the ground truth. We demonstrate that the strength of this problem is related to the uncertainty of data, which we quantify using entropy. We prove that as the entropy of high-resolution images increases, their center point will move further away from the clean image distribution, and the model will generate over-smoothed images. Implicitly optimizing the COO problem, perceptual-driven approaches such as perceptual loss, model structure optimization, or GAN-based methods can be viewed. We propose an explicit solution to the COO problem, called Detail Enhanced Contrastive Loss (DECLoss). DECLoss utilizes the clustering property of contrastive learning to directly reduce the variance of the potential high-resolution distribution and thereby decrease the entropy. We evaluate DECLoss on multiple super-resolution benchmarks and demonstrate that it improves the perceptual quality of PSNR-oriented models. Moreover, when applied to GAN-based methods, such as RaGAN, DECLoss helps to achieve state-of-the-art performance, such as 0.093 LPIPS with 24.51 PSNR on 4x downsampled Urban100, validating the effectiveness and generalization of our approach. | 翻訳日:2024-03-19 08:10:52 公開日:2024-03-15 |
# 2020年国勢調査開示回避システムにおける地理的スピン
Geographic Spines in the 2020 Census Disclosure Avoidance System ( http://arxiv.org/abs/2203.16654v3 ) ライセンス: Link先を確認 | Ryan Cumings-Menon, John M. Abowd, Robert Ashmead, Daniel Kifer, Philip Leclerc, Jeffrey Ocker, Michael Ratcliffe, Pavel Zhuravlev, | (参考訳) 2020年国勢調査開示回避システム(英: 2020 Census Disclosure Avoidance System、DAS)は、地理的スピンとして知られる、事前に指定された階層的な地理的単位の集合に対して、最初に独立したノイズを集計に付加する正式な私的なメカニズムである。
これらの騒々しい測定を後処理した後、DASは、アメリカ合衆国が定義する標準国勢調査の地形の場所を示すフィールドを、州、郡、国勢調査区域、ブロックグループ、および国勢調査ブロックとして、正式にプライベートなデータベースを出力した。
本稿では,DAS内部での初期ノイズ測定が出力データベースの精度に与える影響について述べる。
具体的には、地理的領域の集計は、どちらも地理的領域において最も正確である傾向がある。
1) 内背椎ブロック上の地理的単位を集約することにより導出することができる。
2) 内脊椎の地理的単位に近い。
内部DASの地理的スピンの選択に関連する正確なトレードオフを説明した後、2020年国勢調査のDAS実行を定義するために使用される設定を提供する。
The 2020 Census Disclosure Avoidance System (DAS) is a formally private mechanism that first adds independent noise to cross tabulations for a set of pre-specified hierarchical geographic units, which is known as the geographic spine. After post-processing these noisy measurements, DAS outputs a formally private database with fields indicating location in the standard census geographic spine, which is defined by the United States as a whole, states, counties, census tracts, block groups, and census blocks. This paper describes how the geographic spine used internally within DAS to define the initial noisy measurements impacts accuracy of the output database. Specifically, tabulations for geographic areas tend to be most accurate for geographic areas that both 1) can be derived by aggregating together geographic units above the block geographic level of the internal spine, and 2) are closer to the geographic units of the internal spine. After describing the accuracy tradeoffs relevant to the choice of internal DAS geographic spine, we provide the settings used to define the 2020 Census production DAS runs. | 翻訳日:2024-03-19 08:10:52 公開日:2024-03-15 |
# 自然言語処理によるアルツハイマー病の臨床ノートからの睡眠情報抽出
Extraction of Sleep Information from Clinical Notes of Patients with Alzheimer's Disease Using Natural Language Processing ( http://arxiv.org/abs/2204.09601v2 ) ライセンス: Link先を確認 | Sonish Sivarajkumar, Thomas Yu CHow Tam, Haneef Ahamed Mohammad, Samual Viggiano, David Oniani, Shyam Visweswaran, Yanshan Wang, | (参考訳) アルツハイマー病(英語: Alzheimer's Disease、AD)は、アメリカ合衆国で最も一般的な認知症である。
睡眠は、高齢者の最適な認知機能に不可欠なライフスタイルに関連する要因の1つである。
しかし、睡眠とADの発生との関連についての研究は乏しい。
このような研究を行う上で大きなボトルネックは、伝統的な睡眠情報取得の方法は、時間がかかり、効率が悪く、非スケーリング可能であり、患者の主観的な経験に限られていることである。
ゴールド・スタンダード・データセットは、ピッツバーグ大学医学センター(UPMC)から回収された7,266人のAD患者の192,000人の未確認臨床ノートのコーパスであるadSLEEPから、ランダムにサンプル化された570人の臨床ノートのマニュアルから作成されている。
我々は,睡眠関連概念の抽出を自動化するために,ルールベース自然言語処理アルゴリズム,機械学習モデル,およびLarge Language Model(LLM)ベースのNLPアルゴリズムを開発した。
ルールベースのNLPアルゴリズムは、すべての睡眠関連概念でF1の最高の性能を達成した。
Positive Predictive Value (PPV) の観点では、ルールベースのNLPアルゴリズムは昼間の睡眠時間と睡眠時間に1.00を達成し、機械学習モデルでは0.95と昼寝に0.86と睡眠品質に0.90、微調整で0.93と睡眠時間に0.89、睡眠時間に1.00を達成した。
その結果、規則に基づくNLPアルゴリズムは、すべての睡眠概念に対して常に最高の性能を達成できた。
本研究はAD患者の臨床ノートに焦点をあてるが、他の疾患に対する一般的な睡眠情報抽出にも拡張できる可能性がある。
Alzheimer's Disease (AD) is the most common form of dementia in the United States. Sleep is one of the lifestyle-related factors that has been shown critical for optimal cognitive function in old age. However, there is a lack of research studying the association between sleep and AD incidence. A major bottleneck for conducting such research is that the traditional way to acquire sleep information is time-consuming, inefficient, non-scalable, and limited to patients' subjective experience. A gold standard dataset is created from manual annotation of 570 randomly sampled clinical note documents from the adSLEEP, a corpus of 192,000 de-identified clinical notes of 7,266 AD patients retrieved from the University of Pittsburgh Medical Center (UPMC). We developed a rule-based Natural Language Processing (NLP) algorithm, machine learning models, and Large Language Model(LLM)-based NLP algorithms to automate the extraction of sleep-related concepts, including snoring, napping, sleep problem, bad sleep quality, daytime sleepiness, night wakings, and sleep duration, from the gold standard dataset. Rule-based NLP algorithm achieved the best performance of F1 across all sleep-related concepts. In terms of Positive Predictive Value (PPV), rule-based NLP algorithm achieved 1.00 for daytime sleepiness and sleep duration, machine learning models: 0.95 and for napping, 0.86 for bad sleep quality and 0.90 for snoring; and LLAMA2 with finetuning achieved PPV of 0.93 for Night Wakings, 0.89 for sleep problem, and 1.00 for sleep duration. The results show that the rule-based NLP algorithm consistently achieved the best performance for all sleep concepts. This study focused on the clinical notes of patients with AD, but could be extended to general sleep information extraction for other diseases. | 翻訳日:2024-03-19 08:10:52 公開日:2024-03-15 |
# 野生におけるバーチャルリアリティ映像の知覚的品質評価
Perceptual Quality Assessment of Virtual Reality Videos in the Wild ( http://arxiv.org/abs/2206.08751v3 ) ライセンス: Link先を確認 | Wen Wen, Mu Li, Yiru Yao, Xiangjie Sui, Yabin Zhang, Long Lan, Yuming Fang, Kede Ma, | (参考訳) 人々がバーチャルリアリティ(VR)ビデオをどのように捉えているか(つまり、日々のユーザーによって捉えられるもの)を調べることは、空間と時間に局所化される複雑な真の歪みのために、VR関連のアプリケーションにおいて決定的かつ困難な課題である。
既存のパノラマビデオデータベースでは、合成歪みのみを考慮し、一定の視聴条件を仮定し、サイズに制限がある。
これらの欠点を克服するため,VRVQW(VR Video Quality in the Wild)データベースを構築した。
VRVQWに基づいて,2つの異なる視聴条件下で,スキャンパスと品質スコアを139ドルの参加者から記録する,正式な心理物理実験を行った。
我々は、記録されたデータの詳細な統計分析を行い、人間のスキャンパスと知覚された品質の両方に対する視聴条件の顕著な影響を観察する。
さらに,擬似円筒表現と畳み込みに基づくVRビデオの客観的品質評価モデルを構築した。
提案したVRVQWの結果から,既存の映像品質評価モデルよりも優れた手法であることが示唆された。
データベースとコードはhttps://github.com/limuhit/VR-Video-Quality-in-the-Wild.comで公開しています。
Investigating how people perceive virtual reality (VR) videos in the wild (i.e., those captured by everyday users) is a crucial and challenging task in VR-related applications due to complex authentic distortions localized in space and time. Existing panoramic video databases only consider synthetic distortions, assume fixed viewing conditions, and are limited in size. To overcome these shortcomings, we construct the VR Video Quality in the Wild (VRVQW) database, containing $502$ user-generated videos with diverse content and distortion characteristics. Based on VRVQW, we conduct a formal psychophysical experiment to record the scanpaths and perceived quality scores from $139$ participants under two different viewing conditions. We provide a thorough statistical analysis of the recorded data, observing significant impact of viewing conditions on both human scanpaths and perceived quality. Moreover, we develop an objective quality assessment model for VR videos based on pseudocylindrical representation and convolution. Results on the proposed VRVQW show that our method is superior to existing video quality assessment models. We have made the database and code available at https://github.com/limuhit/VR-Video-Quality-in-the-Wild. | 翻訳日:2024-03-19 08:10:52 公開日:2024-03-15 |
# ソフトマックスフリーリニアトランス
Softmax-free Linear Transformers ( http://arxiv.org/abs/2207.03341v3 ) ライセンス: Link先を確認 | Jiachen Lu, Junge Zhang, Xiatian Zhu, Jianfeng Feng, Tao Xiang, Li Zhang, | (参考訳) 視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
ViTの強度を支える自己保持機構は、計算とメモリ使用の両方において二次的な複雑さを持つ。
このことは、線形複雑性における自己意識の近似の発展を動機付けている。
しかし、本研究では、既存の手法が理論的に欠陥があるか、あるいは視覚認識に実験的に効果がないことが明らかにされている。
これらの制限は,ソフトマックス関数を用いたトークン特徴ベクトル間の拡張ドット積の正規化という,近似中のソフトマックスに基づく自己注意の継承に根ざしている。
ソフトマックス演算の保存として、その後の線形化の取り組みに挑戦する。
この知見により、Softmax-Free Transformers (SOFT) のファミリーが提案されている。
具体的には、ガウス核関数はドット積の類似性を置き換えるために採用され、完全な自己注意行列をローランク行列分解の下で近似することができる。
計算的ロバスト性について、ムーア・ペンローズ逆を前方過程のみにおいて反復ニュートン・ラフソン法を用いて推定し、後方過程においてその理論勾配を1回だけ計算する。
適用性(例えば高密度予測タスク)をさらに拡張するため、効率的な対称正規化手法が導入された。
ImageNet, COCO, ADE20K の大規模な実験により, 我々の SOFT は既存の ViT 変種の計算効率を大幅に向上することを示した。
線形複雑性では、より長いトークンシーケンスがSOFTによって許容され、精度と複雑さのトレードオフが優れている。
コードとモデルはhttps://github.com/fudan-zvg/SOFT.comで公開されている。
Vision transformers (ViTs) have pushed the state-of-the-art for visual perception tasks. The self-attention mechanism underpinning the strength of ViTs has a quadratic complexity in both computation and memory usage. This motivates the development of approximating the self-attention at linear complexity. However, an in-depth analysis in this work reveals that existing methods are either theoretically flawed or empirically ineffective for visual recognition. We identify that their limitations are rooted in the inheritance of softmax-based self-attention during approximations, that is, normalizing the scaled dot-product between token feature vectors using the softmax function. As preserving the softmax operation challenges any subsequent linearization efforts. By this insight, a family of Softmax-Free Transformers (SOFT) are proposed. Specifically, a Gaussian kernel function is adopted to replace the dot-product similarity, enabling a full self-attention matrix to be approximated under low-rank matrix decomposition. For computational robustness, we estimate the Moore-Penrose inverse using an iterative Newton-Raphson method in the forward process only, while calculating its theoretical gradients only once in the backward process. To further expand applicability (e.g., dense prediction tasks), an efficient symmetric normalization technique is introduced. Extensive experiments on ImageNet, COCO, and ADE20K show that our SOFT significantly improves the computational efficiency of existing ViT variants. With linear complexity, much longer token sequences are permitted by SOFT, resulting in superior trade-off between accuracy and complexity. Code and models are available at https://github.com/fudan-zvg/SOFT. | 翻訳日:2024-03-19 08:10:52 公開日:2024-03-15 |
# StyleTalker:ワンショットスタイルによる音声駆動型トーキングヘッドビデオ生成
StyleTalker: One-shot Style-based Audio-driven Talking Head Video Generation ( http://arxiv.org/abs/2208.10922v2 ) ライセンス: Link先を確認 | Dongchan Min, Minyoung Song, Eunji Ko, Sung Ju Hwang, | (参考訳) StyleTalkerは、単一の参照画像から、正確に音声同期された唇形状、リアルな頭部ポーズ、目まぐれの映像を合成する新しい音声駆動音声ヘッド生成モデルである。
具体的には、予め訓練された画像生成器と画像エンコーダを利用して、所定の音声を忠実に反映した音声ヘッドビデオの潜時符号を推定する。
これは、新しく考案されたいくつかのコンポーネントで実現されている。
1) 正確な唇同期のための対照的な唇同期判別器
2) 唇運動から遠ざかる潜伏運動空間を学習する条件付き逐次変分オートエンコーダにより, 同一性を保ちながら動きや唇の動きを独立に操作することができる。
3) 複雑なマルチモーダルラテント空間を学習するために, 正規化フローを付加した自己回帰型事前拡張を行う。
これらのコンポーネントを組み込んだStyleTalkerは、他のモーションソースビデオが提供されるときだけでなく、入力されたオーディオからリアルな動きを推測することによって、完全にオーディオ駆動の方法で音声ヘッドビデオを生成することができる。
広範にわたる実験とユーザスタディにより、我々のモデルは、入力オーディオと正確にリップ同期された印象的な知覚的品質の音声ヘッドビデオを合成することができ、その大部分は最先端のベースラインよりも優れていることを示す。
We propose StyleTalker, a novel audio-driven talking head generation model that can synthesize a video of a talking person from a single reference image with accurately audio-synced lip shapes, realistic head poses, and eye blinks. Specifically, by leveraging a pretrained image generator and an image encoder, we estimate the latent codes of the talking head video that faithfully reflects the given audio. This is made possible with several newly devised components: 1) A contrastive lip-sync discriminator for accurate lip synchronization, 2) A conditional sequential variational autoencoder that learns the latent motion space disentangled from the lip movements, such that we can independently manipulate the motions and lip movements while preserving the identity. 3) An auto-regressive prior augmented with normalizing flow to learn a complex audio-to-motion multi-modal latent space. Equipped with these components, StyleTalker can generate talking head videos not only in a motion-controllable way when another motion source video is given but also in a completely audio-driven manner by inferring realistic motions from the input audio. Through extensive experiments and user studies, we show that our model is able to synthesize talking head videos with impressive perceptual quality which are accurately lip-synced with the input audios, largely outperforming state-of-the-art baselines. | 翻訳日:2024-03-19 08:01:36 公開日:2024-03-15 |
# 構造化プロンプトによる継続的QA学習
Continuous QA Learning with Structured Prompts ( http://arxiv.org/abs/2208.14602v3 ) ライセンス: Link先を確認 | Yinhe Zheng, | (参考訳) 生涯学習能力を持つQAモデルは実践的なQAアプリケーションにとって重要であり、アーキテクチャベースのLLメソッドはこれらのモデルに効果的な実装であると報告されている。
しかし、テストフェーズでタスクの同一性にアクセスするか、目に見えないタスクからのサンプルを明示的にモデル化しないため、以前のアプローチをQAタスクに拡張するのは簡単ではない。
本稿では,動的アーキテクチャに基づくQAモデルであるDianaを提案する。
階層的に整理された4つのプロンプトは、異なる粒度からQA知識を取得するためにダイアナで使用される。
具体的には、タスク固有の知識をキャプチャして高いLL性能を維持するためのタスクレベルのプロンプトと、異なる入力サンプル間で共有される知識をインスタンスレベルのプロンプトで学習し、モデルの一般化性能を改善する。
さらに、未確認タスクを明示的にモデル化するための個別のプロンプトと、タスク間の知識共有を容易にするための一連のプロンプトキーベクターを導入する。
大規模な実験により、Dianaは最先端のQAモデルよりも優れており、特に目に見えないタスクを処理している。
QA models with lifelong learning (LL) abilities are important for practical QA applications, and architecture-based LL methods are reported to be an effective implementation for these models. However, it is non-trivial to extend previous approaches to QA tasks since they either require access to task identities in the testing phase or do not explicitly model samples from unseen tasks. In this paper, we propose Diana: a dynamic architecture-based lifelong QA model that tries to learn a sequence of QA tasks with a prompt enhanced language model. Four types of hierarchically organized prompts are used in Diana to capture QA knowledge from different granularities. Specifically, we dedicate task-level prompts to capture task-specific knowledge to retain high LL performances and maintain instance-level prompts to learn knowledge shared across different input samples to improve the model's generalization performance. Moreover, we dedicate separate prompts to explicitly model unseen tasks and introduce a set of prompt key vectors to facilitate knowledge sharing between tasks. Extensive experiments demonstrate that Diana outperforms state-of-the-art lifelong QA models, especially in handling unseen tasks. | 翻訳日:2024-03-19 08:01:36 公開日:2024-03-15 |
# 半球特殊化を伴う両側脳における深層学習
Deep learning in a bilateral brain with hemispheric specialization ( http://arxiv.org/abs/2209.06862v8 ) ライセンス: Link先を確認 | Chandramouli Rajagopalan, David Rawlinson, Elkhonon Goldberg, Gideon Kowadlo, | (参考訳) 地球上の左右対称な動物の脳は、左右の半球に分けられる。
半球の解剖学と機能の重複は大きいが、非対称性があり、異なる属性を持つように特化している。
他の著者は、セマンティックおよび視覚処理タスクに関する人間のデータを再現することに焦点を当てた、半球の非対称性を模倣する計算モデルを使用している。
我々は異なるアプローチを採り、二元的アーキテクチャにおける二重半球がどのように相互作用し、与えられたタスクでうまく機能するかを理解することを目指していた。
本稿では,左半球が特異性や一般性に特化している,自然界の側方化を模倣した2次元人工ニューラルネットワークを提案する。
私たちは、望まれる特殊化を達成するために異なるトレーニング目標を使用して、ResNetとVGGという2つの異なるCNNバックボーンを持つイメージ分類タスクでそれをテストしました。
解析の結果、ヘミスフィアは、重み付けされた注意の型を実装したネットワークヘッドによって利用される相補的特徴を表すことがわかった。
両アーキテクチャは、差分特殊化を生かさない類似の表現能力のベースラインを、特殊性や一般性のための2つの訓練目標に基づいて訓練された一方的なネットワークの従来のアンサンブルを除いて上回った。
結果は、二元主義の有効性を実証し、生物学的脳における二元主義の議論に寄与し、この原則は、新しいAIシステムに対する帰納的バイアスとなる可能性がある。
The brains of all bilaterally symmetric animals on Earth are divided into left and right hemispheres. The anatomy and functionality of the hemispheres have a large degree of overlap, but there are asymmetries and they specialise to possess different attributes. Other authors have used computational models to mimic hemispheric asymmetries with a focus on reproducing human data on semantic and visual processing tasks. We took a different approach and aimed to understand how dual hemispheres in a bilateral architecture interact to perform well in a given task. We propose a bilateral artificial neural network that imitates lateralisation observed in nature: that the left hemisphere specialises in specificity and the right in generality. We used different training objectives to achieve the desired specialisation and tested it on an image classification task with two different CNN backbones -- ResNet and VGG. Our analysis found that the hemispheres represent complementary features that are exploited by a network head which implements a type of weighted attention. The bilateral architecture outperformed a range of baselines of similar representational capacity that don't exploit differential specialisation, with the exception of a conventional ensemble of unilateral networks trained on a dual training objective for specifics and generalities. The results demonstrate the efficacy of bilateralism, contribute to the discussion of bilateralism in biological brains and the principle may serves as an inductive bias for new AI systems. | 翻訳日:2024-03-19 08:01:36 公開日:2024-03-15 |
# 単一画像ビュー合成のためのブリッジインプシットと明示的幾何学変換
Bridging Implicit and Explicit Geometric Transformation for Single-Image View Synthesis ( http://arxiv.org/abs/2209.07105v3 ) ライセンス: Link先を確認 | Byeongjun Park, Hyojun Go, Changick Kim, | (参考訳) 単一の画像から新しいビューを作成することは、視覚的なシーンの内容から未知の領域を推測する必要があるため、高度な自己回帰モデルによって大きな進歩を遂げた。
最近の手法は高品質な新奇な視点を生成するが、明示的な3次元幾何学と暗黙的な3次元幾何学の合成は、私たちが「シーソー」問題と呼ぶ2つの目的の間のトレードオフを持つ。
1)再計画された内容の保存及び
2)現実的なアウトオブビュー領域を完成させる。
また、自己回帰モデルは相当な計算コストを必要とする。
本稿では,効率的な非自己回帰モデルを用いてシーソー問題を緩和する単一画像ビュー合成フレームワークを提案する。
そこで我々は2つのレンダラーを補完する損失関数を導入する。
我々の損失関数は、明示的特徴が暗黙的特徴の再投影領域を改善し、暗黙的特徴が明示的特徴のアウト・オブ・ビュー領域を改善することを促進します。
提案したアーキテクチャと損失関数により、シーソー問題を緩和し、自己回帰に基づく最先端メソッドを性能良くし、イメージを$\approx$100倍高速に生成できる。
本研究では,RealEstate10KとACIDデータセットを用いた実験により,本手法の有効性と有効性を検証する。
Creating novel views from a single image has achieved tremendous strides with advanced autoregressive models, as unseen regions have to be inferred from the visible scene contents. Although recent methods generate high-quality novel views, synthesizing with only one explicit or implicit 3D geometry has a trade-off between two objectives that we call the "seesaw" problem: 1) preserving reprojected contents and 2) completing realistic out-of-view regions. Also, autoregressive models require a considerable computational cost. In this paper, we propose a single-image view synthesis framework for mitigating the seesaw problem while utilizing an efficient non-autoregressive model. Motivated by the characteristics that explicit methods well preserve reprojected pixels and implicit methods complete realistic out-of-view regions, we introduce a loss function to complement two renderers. Our loss function promotes that explicit features improve the reprojected area of implicit features and implicit features improve the out-of-view area of explicit features. With the proposed architecture and loss function, we can alleviate the seesaw problem, outperforming autoregressive-based state-of-the-art methods and generating an image $\approx$100 times faster. We validate the efficiency and effectiveness of our method with experiments on RealEstate10K and ACID datasets. | 翻訳日:2024-03-19 08:01:36 公開日:2024-03-15 |
# DPAR:ノードレベル差分プライバシーを備えたグラフニューラルネットワークの分離
DPAR: Decoupled Graph Neural Networks with Node-Level Differential Privacy ( http://arxiv.org/abs/2210.04442v3 ) ライセンス: Link先を確認 | Qiuchen Zhang, Hong kyu Lee, Jing Ma, Jian Lou, Carl Yang, Li Xiong, | (参考訳) グラフニューラルネットワーク(GNN)は,グラフ構造化データによる学習において大きな成功を収めている。
また、ノードの特徴と構造情報の両方を含むグラフのセンシティブな情報を公開可能な、トレーニング済みモデルのプライバシに関する懸念も提起されている。
本稿では,ノードとエッジが保護されるように,GNNをトレーニングするためのノードレベルの差分プライバシー(DP)を実現することを目的とする。
ノードDPは、すべてのダイレクトおよびマルチホップ隣人がレイヤーワイドメッセージパスを介して各ノードの勾配の計算に参加するため、GNNにとって本質的に困難である。
プライバシーとユーティリティのトレードオフが強化されたGNNをトレーニングするために,DPAR(Dariially Private Approximate Personalized PageRank)を用いたデカップリングGNNを提案する。
鍵となるアイデアは、DP PageRankアルゴリズムを介して機能プロジェクションとメッセージパッシングを分離することである。
各ノードの最も重要な隣人を捕捉し、レイヤワイドメッセージパッシングを避けることで、ノードの感度を制限し、レイヤワイドの摂動に基づく方法と比較して、プライバシーとユーティリティのトレードオフを改善する。
両プロセスのノードDP保証を理論的に解析し,同レベルのノードDPを持つDPARの有用性を,最先端の手法と比較して実証的に実証する。
Graph Neural Networks (GNNs) have achieved great success in learning with graph-structured data. Privacy concerns have also been raised for the trained models which could expose the sensitive information of graphs including both node features and the structure information. In this paper, we aim to achieve node-level differential privacy (DP) for training GNNs so that a node and its edges are protected. Node DP is inherently difficult for GNNs because all direct and multi-hop neighbors participate in the calculation of gradients for each node via layer-wise message passing and there is no bound on how many direct and multi-hop neighbors a node can have, so existing DP methods will result in high privacy cost or poor utility due to high node sensitivity. We propose a Decoupled GNN with Differentially Private Approximate Personalized PageRank (DPAR) for training GNNs with an enhanced privacy-utility tradeoff. The key idea is to decouple the feature projection and message passing via a DP PageRank algorithm which learns the structure information and uses the top-$K$ neighbors determined by the PageRank for feature aggregation. By capturing the most important neighbors for each node and avoiding the layer-wise message passing, it bounds the node sensitivity and achieves improved privacy-utility tradeoff compared to layer-wise perturbation based methods. We theoretically analyze the node DP guarantee for the two processes combined together and empirically demonstrate better utilities of DPAR with the same level of node DP compared with state-of-the-art methods. | 翻訳日:2024-03-19 08:01:36 公開日:2024-03-15 |
# 進化的計算に基づくニューラルアーキテクチャ探索アルゴリズムの隠れ時間予測の解析
Analyzing the Expected Hitting Time of Evolutionary Computation-based Neural Architecture Search Algorithms ( http://arxiv.org/abs/2210.05397v3 ) ライセンス: Link先を確認 | Zeqiong Lv, Chao Qian, Gary G. Yen, Yanan Sun, | (参考訳) 進化的計算に基づくニューラルネットワーク探索(ENAS)は、ディープニューラルネットワークのアーキテクチャ設計を自動化する一般的な手法である。
基礎的な応用にもかかわらず、ENASの理論的な研究は行われていない。
期待ヒット時間(EHT)は、平均計算時間の複雑さを意味するため、理論上の最も重要な問題の一つである。
本稿では,共通構成,探索空間分割,遷移確率推定,人口分布の適合,ヒット時間解析などを含むENASアルゴリズムのEHTを推定するための理論と実験を統合することで,一般的な手法を提案する。
提案手法を利用して,異なる突然変異演算子を持つ($\lambda$+$\lambda$)-ENASアルゴリズムを検討し,EHTの下位境界を推定する。
さらに,NAS-Bench-101問題に対するEHTについて検討し,提案手法の有効性を実証した。
我々の知る限りでは、この研究はENASアルゴリズムの理論的基盤を確立する最初の試みである。
Evolutionary computation-based neural architecture search (ENAS) is a popular technique for automating architecture design of deep neural networks. Despite its groundbreaking applications, there is no theoretical study for ENAS. The expected hitting time (EHT) is one of the most important theoretical issues, since it implies the average computational time complexity. This paper proposes a general method by integrating theory and experiment for estimating the EHT of ENAS algorithms, which includes common configuration, search space partition, transition probability estimation, population distribution fitting, and hitting time analysis. By exploiting the proposed method, we consider the ($\lambda$+$\lambda$)-ENAS algorithms with different mutation operators and estimate the lower bounds of the EHT. Furthermore, we study the EHT on the NAS-Bench-101 problem, and the results demonstrate the validity of the proposed method. To the best of our knowledge, this work is the first attempt to establish a theoretical foundation for ENAS algorithms. | 翻訳日:2024-03-19 08:01:36 公開日:2024-03-15 |
# 量子力学のゲージ図
The Gauge Picture of Quantum Dynamics ( http://arxiv.org/abs/2210.09314v5 ) ライセンス: Link先を確認 | Kevin Slagle, | (参考訳) 局所ハミルトニアンは局所時間ダイナミクスを示すが、この局所性は、波動関数の振幅が局所運動方程式に従わないという意味では、Schr\"{o}dinger 図では明示されていない。
すなわち、期待値 $\langle \psi|A|\psi \rangle$ は波動関数 $|\psi\rangle \to U |\psi\rangle$ と作用素 $A \to U A U^\dagger$ に作用する大域的ユニタリ変換の下で不変であり、この大域的不変性は局所ゲージ不変量に測定可能であることを示す。
これを行うために、波動関数をローカルな波動関数の集合に置き換える: $|\psi_J\rangle$, 1 for each patch of space $J$.} である。
空間的パッチのコレクションは、空間をカバーするために選択される。例えば、格子上の単一のキュービットまたは最も近い場所のパッチを選択することができる。
近傍の空間パッチのペアに付随する局所波動関数$I$と$J$は、動的ユニタリ変換$U_{IJ}$によって互いに関連付けられる。
局所波動関数は、その力学が局所的であるという意味で局所的である。
すなわち、局所波動関数の運動方程式 $|\psi_J\rangle$ と接続 $U_{IJ}$ は空間において明示的に局所であり、近傍のハミルトン項にのみ依存する。
(局所波動関数は多体波動関数であり、通常の波動関数と同じヒルベルト空間次元を持つ。)
量子力学のこの図は、局所的なゲージ不変性を示すため、ゲージ像と呼ぶ。
単一の空間パッチの局所力学は相互作用図形と関連しており、相互作用ハミルトンは近傍のハミルトン項のみからなる。
また、明示的な局所性を一般化して、局所電荷とエネルギー密度の局所性を含めることができる。
Although local Hamiltonians exhibit local time dynamics, this locality is not explicit in the Schr\"{o}dinger picture in the sense that the wavefunction amplitudes do not obey a local equation of motion. We show that geometric locality can be achieved explicitly in the equations of motion by "gauging" the global unitary invariance of quantum mechanics into a local gauge invariance. That is, expectation values $\langle \psi|A|\psi \rangle$ are invariant under a global unitary transformation acting on the wavefunction $|\psi\rangle \to U |\psi\rangle$ and operators $A \to U A U^\dagger$, and we show that it is possible to gauge this global invariance into a local gauge invariance. To do this, we replace the wavefunction with a collection of local wavefunctions $|\psi_J\rangle$, one for each patch of space $J$. The collection of spatial patches is chosen to cover the space; e.g. we could choose the patches to be single qubits or nearest-neighbor sites on a lattice. Local wavefunctions associated with neighboring pairs of spatial patches $I$ and $J$ are related to each other by dynamical unitary transformations $U_{IJ}$. The local wavefunctions are local in the sense that their dynamics are local. That is, the equations of motion for the local wavefunctions $|\psi_J\rangle$ and connections $U_{IJ}$ are explicitly local in space and only depend on nearby Hamiltonian terms. (The local wavefunctions are many-body wavefunctions and have the same Hilbert space dimension as the usual wavefunction.) We call this picture of quantum dynamics the gauge picture since it exhibits a local gauge invariance. The local dynamics of a single spatial patch is related to the interaction picture, where the interaction Hamiltonian consists of only nearby Hamiltonian terms. We can also generalize the explicit locality to include locality in local charge and energy densities. | 翻訳日:2024-03-19 08:01:36 公開日:2024-03-15 |
# CFT$_D$ from TQFT$_{D+1}$ via Holographic Tensor Network and Precision Discretisation of CFT$_2$
CFT$_D$ from TQFT$_{D+1}$ via Holographic Tensor Network, and Precision Discretisation of CFT$_2$ ( http://arxiv.org/abs/2210.12127v3 ) ライセンス: Link先を確認 | Lin Chen, Haochen Zhang, Kaixin Ji, Ce Shen, Ruoshui Wang, Xiangdong Zeng, Ling-Yan Hung, | (参考訳) D$次元(CFT$_D$)における共形場理論の経路積分は、D+1$次元(TQFT$_{D+1}$)における位相場理論のトゥラエフ・ヴェロの定式化(TQFT$_{D+1}$)に従ってRG作用素の固有状態に対して解き、対称理論とTQFTの間のホログラフィックサンドイッチ関係を明示的に実現することで構成できることを示す。
本質的に、対称-TQFT$_D$に対応する正確な固有状態は、TQFT$_{D+1}$のフロベニウス代数から従う。
D=2$ の場合、我々は2次元有理 CFT パス積分を正確に生成する固有状態を構築した。
また、CFT$_D$を対称TQFT$_D$間の相転移点として探索するために$D=2,3$の数値法を考案し、説明する。
最後に、RG演算子は実際に正確な解析ホログラフィックテンソルネットワークであるため、 ``bulk-boundary'' 相関器を計算し、AdS/CFT辞書を$D=2$で比較する。
しかし,AdS/CFT対応との正確な関係を解明するためには,さらなる研究が必要である。
We show that the path-integral of conformal field theories in $D$ dimensions (CFT$_D$) can be constructed by solving for eigenstates of an RG operator following from the Turaev-Viro formulation of a topological field theory in $D+1$ dimensions (TQFT$_{D+1}$), explicitly realising the holographic sandwich relation between a symmetric theory and a TQFT. Generically, exact eigenstates corresponding to symmetric-TQFT$_D$ follow from Frobenius algebra in the TQFT$_{D+1}$. For $D=2$, we constructed eigenstates that produce 2D rational CFT path-integral exactly, which, curiously connects a continuous field theoretic path-integral with the Turaev-Viro state sum. We also devise and illustrate numerical methods for $D=2,3$ to search for CFT$_D$ as phase transition points between symmetric TQFT$_D$. Finally since the RG operator is in fact an exact analytic holographic tensor network, we compute ``bulk-boundary'' correlator and compare with the AdS/CFT dictionary at $D=2$. Promisingly, they are numerically compatible given our accuracy, although further works will be needed to explore the precise connection to the AdS/CFT correspondence. | 翻訳日:2024-03-19 08:01:36 公開日:2024-03-15 |
# ThreatCluster: コンピュータ緊急対応チームにおける情報負荷低減のための脅威クラスタリング
ThreatCluster: Threat Clustering for Information Overload Reduction in Computer Emergency Response Teams ( http://arxiv.org/abs/2210.14067v2 ) ライセンス: Link先を確認 | Philipp Kuehn, Dilara Nadermahmoodi, Moritz Kerk, Christian Reuter, | (参考訳) 脅威の増加と既存の情報ソースの多様性は、コンピュータ緊急対応チーム(CERT)の課題を引き起こしている。
新たな脅威に対応するため、CERTはタイムリーで包括的な方法で情報を集める必要がある。
しかし、情報源や情報の量は、情報の過負荷につながる。
本稿では,CERTにおける情報過負荷を低減する方法について考察する。
我々は、この情報をスキャンするときに、最も面倒だが必要な手動ステップの1つとして、入ってくる情報をクラスタリングすることを提案する。
現状の研究では,このような枠組みの条件を定めている。
異なるタイプの評価指標が、フレームワークの条件に応じて使用され、選択される。
さらに、異なる文書埋め込みと距離測定をクラスタリング法と組み合わせて評価し、解釈する。
評価には3つの異なるコーパス,脅威レポートに基づく新たな真実コーパス,セキュリティバグレポート(SBR)コーパス,ニュース記事を含む。
我々の研究は、同種クラスタで最大84.8%の情報オーバーロードを削減可能であることを示している。
クラスタリング手法のランタイム解析により,選択したクラスタリング手法の決定が強化される。
ソースコードとデータセットは、受理後に公開される。
The ever-increasing number of threats and the existing diversity of information sources pose challenges for Computer Emergency Response Teams (CERTs). To respond to emerging threats, CERTs must gather information in a timely and comprehensive manner. But the volume of sources and information leads to information overload. This paper contributes to the question of how to reduce information overload for CERTs. We propose clustering incoming information as scanning this information is one of the most tiresome, but necessary, manual steps. Based on current studies, we establish conditions for such a framework. Different types of evaluation metrics are used and selected in relation to the framework conditions. Furthermore, different document embeddings and distance measures are evaluated and interpreted in combination with clustering methods. We use three different corpora for the evaluation, a novel ground truth corpus based on threat reports, one security bug report (SBR) corpus, and one with news articles. Our work shows, it is possible to reduce the information overload by up to 84.8% with homogeneous clusters. A runtime analysis of the clustering methods strengthens the decision of selected clustering methods. The source code and dataset will be made publicly available after acceptance. | 翻訳日:2024-03-19 08:01:36 公開日:2024-03-15 |
# ヒッグス凝縮は対称性が検出される位相相:I.離散対称性
Higgs Condensates are Symmetry-Protected Topological Phases: I. Discrete Symmetries ( http://arxiv.org/abs/2211.01376v2 ) ライセンス: Link先を確認 | Ruben Verresen, Umberto Borla, Ashvin Vishwanath, Sergej Moroz, Ryan Thorngren, | (参考訳) 物質の多体相の風景では、ゲージ理論のヒッグス凝縮体をどこに配置するか。
一方、ヒッグス位相はギャップがあり、局所順序パラメータがなく、基本ヒッグス場は閉じ込められた位相に断続的に連結である。
一方、超伝導体のようなヒッグス相は豊富な現象論を示す。
本研究では, 従来および高次対称性を用いた対称性保護位相(SPT)相としてヒッグス位相の最小記述を提案する。
この第一部では、2+1D $\mathbb Z_2$ gauge 理論に焦点をあて、ヒッグス相が物理的文脈に依存する高次磁気対称性と物質対称性によって保護されていることが分かる。
この提案はヒッグス相の既知の性質を捉えるが、フラドキン・シェンカーモデルのヒッグス相は位相図の対称部分においてSPTエッジモードを持つと予測し、解析的に確認する。
さらに、このSPT特性は、磁気対称性を明示的に破る際、極めて堅牢であると主張する。
ヒッグスと閉じ込められた位相はバルク遷移なしで接続されるが、境界相転移によって分離され、テンソルネットワークシミュレーションで確認される。
より一般に、ヒッグス SPT 相の境界異常は対称性破れ相の創発的異常と一致し、ヒッグス相と対称性破れの関係を正確にする。
ヒッグス相のSPTの性質は、ヒッグス凝縮体間の遷移においてバルク、例えば、バルクに現れる。
最後に、超伝導体-絶縁体-超伝導体(SIS)接合の離散ゲージ群アナログを一般化する「バルク欠陥対応」のような一般的なSPT位相に適用可能な知見を抽出する。
この研究の続編は「ヒッグス=SPT」を連続対称性に一般化し、超伝導をSPT特性として解釈する。
Where in the landscape of many-body phases of matter do we place the Higgs condensate of a gauge theory? On the one hand, the Higgs phase is gapped, has no local order parameter, and for fundamental Higgs fields is adiabatically connected to the confined phase. On the other hand, Higgs phases such as superconductors display rich phenomenology. In this work, we propose a minimal description of the Higgs phase as a symmetry-protected topological (SPT) phase, utilizing conventional and higher-form symmetries. In this first part, we focus on 2+1D $\mathbb Z_2$ gauge theory and find that the Higgs phase is protected by a higher-form magnetic symmetry and a matter symmetry, whose meaning depends on the physical context. While this proposal captures known properties of Higgs phases, it also predicts that the Higgs phase of the Fradkin-Shenker model has SPT edge modes in the symmetric part of the phase diagram, which we confirm analytically. In addition, we argue that this SPT property is remarkably robust upon explicitly breaking the magnetic symmetry. Although the Higgs and confined phases are then connected without a bulk transition, they are separated by a boundary phase transition, which we confirm with tensor network simulations. More generally, the boundary anomaly of the Higgs SPT phase coincides with the emergent anomaly of symmetry-breaking phases, making precise the relation between Higgs phases and symmetry breaking. The SPT nature of the Higgs phase can also manifest in the bulk, e.g., at transitions between distinct Higgs condensates. Finally, we extract insights which are applicable to general SPT phases, such as a 'bulk-defect correspondence' generalizing discrete gauge group analogs of Superconductor-Insulator-Superconductor (SIS) junctions. The sequel to this work will generalize 'Higgs=SPT' to continuous symmetries, interpreting superconductivity as an SPT property. | 翻訳日:2024-03-19 08:01:36 公開日:2024-03-15 |
# クラウス作用素の数値範囲による操作忠実度の検討
Operation fidelity explored by numerical range of Kraus operators ( http://arxiv.org/abs/2212.10139v2 ) ライセンス: Link先を確認 | Igor Chełstowski, Grzegorz Rajchel-Mieldzioć, Karol Życzkowski, | (参考訳) 現在の量子デバイスは、所望の量子チャネルを正確に実装する必要がある。
実装の質を特徴付けるために、初期純状態と解析された操作に対する画像との忠実度として定義される平均演算忠実度$F$を用いて、純状態のアンサンブル上で平均化される。
低次元チャネルに対する操作忠実度の統計的性質を解析し、その極端な値と確率分布を統計的チャネル識別に利用することができる。
これらの結果は、チャネルを表すクラウス作用素の集合の合同数値範囲の助けを借りて得られる。
密度$P\left(F\right)$の解析式は、ユニタリチャネルと混合ユニタリチャネルを含む特定のケースと、クラウス作用素の交換によって表される量子写像から導出される。
演算忠実度の測定された分布は、2つの量子演算を区別するために用いられる。
Present-day quantum devices require precise implementation of desired quantum channels. To characterize the quality of implementation one uses the average operation fidelity $F$, defined as the fidelity between an initial pure state and its image with respect to the analyzed operation, averaged over an ensemble of pure states. We analyze statistical properties of the operation fidelity for low-dimensional channels and study its extreme values and probability distribution, both of which can be used for statistical channel discrimination. These results are obtained with help of the joint numerical range of the set of Kraus operators representing a channel. Analytic expressions for the density $P\left(F\right)$ are derived in some particular cases including unitary and mixed unitary channels as well as quantum maps represented by commuting Kraus operators. Measured distributions of operation fidelity can be used to distinguish between two quantum operations. | 翻訳日:2024-03-19 08:01:36 公開日:2024-03-15 |
# 量子貯留層計算のための資源としての散逸
Dissipation as a resource for Quantum Reservoir Computing ( http://arxiv.org/abs/2212.12078v2 ) ライセンス: Link先を確認 | Antonio Sannia, Rodrigo Martínez-Peña, Miguel C. Soriano, Gian Luca Giorgi, Roberta Zambrini, | (参考訳) 外部環境との相互作用によって引き起こされる散逸は、典型的には量子計算の性能を阻害するが、いくつかの場合において有用な資源として証明できる。
本稿では,スピンネットワークモデルに局所的損失をもたらす量子貯水池計算の分野において,散逸によって引き起こされるポテンシャルの増大を示す。
連続散逸に基づくアプローチは、不連続消去マップに基づく従来の量子貯水池計算の提案のダイナミクスを再現するだけでなく、その性能を向上させることができる。
減衰率の制御は、入力履歴を線形に非線形に処理し、カオス系列を予測する能力として、一般的な機械学習の時間的タスクを促進することが示されている。
最後に、非制限条件下では、我々の散逸モデルが貯水池計算の普遍クラスとなることを正式に証明する。
これは、我々のアプローチを考えると、任意の精度で任意の暗色メモリマップを近似することができることを意味している。
Dissipation induced by interactions with an external environment typically hinders the performance of quantum computation, but in some cases can be turned out as a useful resource. We show the potential enhancement induced by dissipation in the field of quantum reservoir computing introducing tunable local losses in spin network models. Our approach based on continuous dissipation is able not only to reproduce the dynamics of previous proposals of quantum reservoir computing, based on discontinuous erasing maps but also to enhance their performance. Control of the damping rates is shown to boost popular machine learning temporal tasks as the capability to linearly and non-linearly process the input history and to forecast chaotic series. Finally, we formally prove that, under non-restrictive conditions, our dissipative models form a universal class for reservoir computing. It means that considering our approach, it is possible to approximate any fading memory map with arbitrary precision. | 翻訳日:2024-03-19 08:01:36 公開日:2024-03-15 |
# CinPatent: 特許分類のためのデータセット
CinPatent: Datasets for Patent Classification ( http://arxiv.org/abs/2212.12192v3 ) ライセンス: Link先を確認 | Minh-Tien Nguyen, Nhung Bui, Manh Tran-Tien, Linh Le, Huy-The Vu, | (参考訳) 特許分類は、各入力特許を複数のコード(クラス)に割り当てるタスクである。
需要が高いため、いくつかのデータセットや手法が導入されている。
しかしながら、ベースラインの体系的なパフォーマンス比較といくつかのデータセットへのアクセスの欠如は、タスクのギャップを生み出します。
このギャップを埋めるために、CPCコードを用いて収集した英語と日本語の新しいデータセットを2つ導入する。
英語データセットには45,131の特許文書と425のラベルがあり、日本語データセットには54,657のドキュメントと523のラベルが含まれている。
次の研究を容易にするために,2つのデータセット上での強力な多ラベルテキスト分類手法の性能を比較した。
実験の結果、AttentionXMLは他の強力なベースラインよりも一貫して優れていることが示されています。
アブレーション研究は、特許の異なる部分(タイトル、抽象、記述、クレーム)の貢献と、異なるトレーニングデータセグメンテーションによるパフォーマンスの面でのベースラインの挙動の2つの側面で実施される。
2つの新しいデータセットをベースラインのコードでリリースします。
Patent classification is the task that assigns each input patent into several codes (classes). Due to its high demand, several datasets and methods have been introduced. However, the lack of both systematic performance comparison of baselines and access to some datasets creates a gap for the task. To fill the gap, we introduce two new datasets in English and Japanese collected by using CPC codes. The English dataset includes 45,131 patent documents with 425 labels and the Japanese dataset contains 54,657 documents with 523 labels. To facilitate the next studies, we compare the performance of strong multi-label text classification methods on the two datasets. Experimental results show that AttentionXML is consistently better than other strong baselines. The ablation study is also conducted in two aspects: the contribution of different parts (title, abstract, description, and claims) of a patent and the behavior of baselines in terms of performance with different training data segmentation. We release the two new datasets with the code of the baselines. | 翻訳日:2024-03-19 08:01:36 公開日:2024-03-15 |
# 超伝導カプラアーキテクチャにおける量子チップ設計の最適化と自動化
Quantum chip design optimization and automation in superconducting coupler architecture ( http://arxiv.org/abs/2212.13751v2 ) ライセンス: Link先を確認 | Fei-Yu Li, Li-Jing Jin, | (参考訳) 超伝導カプラアーキテクチャは、スケーラブルで高性能な量子プロセッサにとって大きな可能性を示しているが、レイアウトの観点からハイパフォーマンスの「Qubit-Coupler-Qubit (QCQ)」を効率的にかつ自動的に設計する方法はいまだ不明である。
本研究は,3つの重要な知見が得られた結果として,本研究を初めて行った。
まず,レイアウトの幾何学的設計にのみ依存する重要なゼロカップリング条件を得る。
第二に、量子ビット有効結合の上限は$0.0822~ \omega_l/\beta_s^2$であり、これは特定のレイアウトではなく、人工的にあらかじめ決定された量$\omega_l, \beta_s$にのみ依存する。
第3に,超上界に到達するための最適レイアウト設計手法を提案し,効率的かつ高性能なレイアウト設計を実現する。
この方法の有効性は電磁シミュレーション実験を用いて精査的に実証されている。
スパイリングアプリケーションとして、量子誤り訂正に特に重要な長距離でスケーラブルなQCQレイアウトについて、最先端の3202を報告する。
我々の研究は、既存のカプラアーキテクチャの性能を最適化し、新しいレイアウトを見つけ、量子チップ設計の自動化をさらに進めるための実用的なガイドを提供する。
Superconducting coupler architecture demonstrates great potential for scalable and high-performance quantum processors, yet how to design efficiently and automatically 'Qubit-Coupler-Qubit (QCQ)' of high performance from the layout perspective remains obscure. In this work, this issue is studied for the first time resulting in three key findings. Firstly, we acquire the crucial zero-coupling condition that is only dependent on the geometric design of the layout. Secondly, the upper bound of the qubit-qubit effective coupling is found as $0.0822~ \omega_l/\beta_s^2$ which surprisingly depends only on the artificially pre-decided quantities $\omega_l, \beta_s$ instead of specific layouts. Thirdly, we propose an optimal layout design procedure to reach the very upper bound, leading to efficient and high-performance layout design. The effectiveness of the procedure has been demonstrated scrupulously using electromagnetic simulation experiments. As a stirring application, we report a state-of-the-art 3202 um long-range and scalable QCQ layout that is especially crucial to quantum error correction. Our work provides practical guides to optimize the performance of the existing coupler architecture, find out novel layouts, and further advance the progress of quantum chip design automation. | 翻訳日:2024-03-19 07:51:44 公開日:2024-03-15 |
# センサ強化クイックドリューの配向に基づくスポーツクライミングにおける下降検出
Lowering Detection in Sport Climbing Based on Orientation of the Sensor Enhanced Quickdraw ( http://arxiv.org/abs/2301.10164v3 ) ライセンス: Link先を確認 | Sadaf Moaveninejad, Andrea Janes, Camillo Porcaro, | (参考訳) 登山者の活動を追跡してサービスを改善し、インフラを最大限活用することは、体育館を登る際の関心事である。
各クライミングセッションは、登山者の開始から下降まで分析されなければならない。
そのため、登山者が降り注ぐのは、登頂がいつ終わったかを示すためである。
この問題は、登山者のプライバシーと利便性と体育館のコストを保ちながら解決しなければならない。
この目的のために,クライミングロープをボルトアンカーに接続するクイックドリューと呼ばれる壁に取り付けられたクライミング機器に取り付けられた加速度センサを用いて,データを収集するハードウェアプロトタイプを開発した。
対応するセンサはエネルギー効率がよいように構成されており、登山ジムで大量に使用する場合の費用や代替の時間消費の観点から実用的になる。
本稿では、ハードウェア仕様、超低電力モードでセンサが測定したデータ、異なる経路におけるセンサの向きパターンを検出し、低電力モードを特定するための教師ありアプローチを開発する。
Tracking climbers' activity to improve services and make the best use of their infrastructure is a concern for climbing gyms. Each climbing session must be analyzed from beginning till lowering of the climber. Therefore, spotting the climbers descending is crucial since it indicates when the ascent has come to an end. This problem must be addressed while preserving privacy and convenience of the climbers and the costs of the gyms. To this aim, a hardware prototype is developed to collect data using accelerometer sensors attached to a piece of climbing equipment mounted on the wall, called quickdraw, that connects the climbing rope to the bolt anchors. The corresponding sensors are configured to be energy-efficient, hence become practical in terms of expenses and time consumption for replacement when using in large quantity in a climbing gym. This paper describes hardware specifications, studies data measured by the sensors in ultra-low power mode, detect sensors' orientation patterns during lowering different routes, and develop an supervised approach to identify lowering. | 翻訳日:2024-03-19 07:51:44 公開日:2024-03-15 |
# 強化学習のためのプロトタイプを用いたクロスドメインランダム事前学習
Cross-domain Random Pre-training with Prototypes for Reinforcement Learning ( http://arxiv.org/abs/2302.05614v2 ) ライセンス: Link先を確認 | Xin Liu, Yaran Chen, Haoran Li, Boyu Li, Dongbin Zhao, | (参考訳) この研究はIEEEに提出された。
著作権は無通知で転送され、その後、このバージョンはアクセスできなくなる。
タスク非依存のクロスドメイン事前トレーニングは、イメージベース強化学習(RL)において大きな可能性を秘めているが、大きな課題となっている。
本稿では,画像ベースRLのプロトタイプを用いたクロスドメイン自己教師型ランダム事前学習フレームワークCRPTproを提案する。
CRPTproはクロスドメインランダムポリシーを使用して、複数のドメインから多様なデータを簡単かつ迅速にサンプリングし、事前学習効率を向上させる。
さらに,異なる領域にまたがる有効で汎用的なエンコーダを事前学習するために,新規な内在的損失を伴う原型表現学習を提案する。
微調整なしで、クロスドメインエンコーダは、異なるドメインで定義された下流視覚制御RLタスクに効率よく挑戦するために実装できる。
APTやProto-RLといった先行技術と比較して、CRPTproは専門家データ収集のための探索エージェントを余分に訓練することなく、クロスドメインの下流RLタスクのパフォーマンス向上を実現し、事前学習の負担を大幅に軽減する。
DeepMind Control Suite(DMControl)の実験では、CRPTproは11/12のクロスドメインRLタスクにおいてわずか39%の事前トレーニング時間でAPTを著しく上回り、政策学習性能と事前トレーニング効率の両方において最先端のクロスドメイン事前トレーニング方法となった。
完全なコードはhttps://github.com/liuxin0824/CRPTproでリリースされる。
This work has been submitted to the IEEE for possible publication. Copyright may be transferred without notice, after which this version may no longer be accessible. Task-agnostic cross-domain pre-training shows great potential in image-based Reinforcement Learning (RL) but poses a big challenge. In this paper, we propose CRPTpro, a Cross-domain self-supervised Random Pre-Training framework with prototypes for image-based RL. CRPTpro employs cross-domain random policy to easily and quickly sample diverse data from multiple domains, to improve pre-training efficiency. Moreover, prototypical representation learning with a novel intrinsic loss is proposed to pre-train an effective and generic encoder across different domains. Without finetuning, the cross-domain encoder can be implemented for challenging downstream visual-control RL tasks defined in different domains efficiently. Compared with prior arts like APT and Proto-RL, CRPTpro achieves better performance on cross-domain downstream RL tasks without extra training on exploration agents for expert data collection, greatly reducing the burden of pre-training. Experiments on DeepMind Control suite (DMControl) demonstrate that CRPTpro outperforms APT significantly on 11/12 cross-domain RL tasks with only 39% pre-training hours, becoming a state-of-the-art cross-domain pre-training method in both policy learning performance and pre-training efficiency. The complete code will be released at https://github.com/liuxin0824/CRPTpro. | 翻訳日:2024-03-19 07:51:44 公開日:2024-03-15 |
# シリコン中における高忠実度2ビットゲートの誤差変動の評価
Assessment of error variation in high-fidelity two-qubit gates in silicon ( http://arxiv.org/abs/2303.04090v3 ) ライセンス: Link先を確認 | Tuomo Tanttu, Wee Han Lim, Jonathan Y. Huang, Nard Dumoulin Stuyck, Will Gilbert, Rocky Y. Su, MengKe Feng, Jesus D. Cifuentes, Amanda E. Seedhouse, Stefan K. Seritan, Corey I. Ostrove, Kenneth M. Rudinger, Ross C. C. Leon, Wister Huang, Christopher C. Escott, Kohei M. Itoh, Nikolay V. Abrosimov, Hans-Joachim Pohl, Michael L. W. Thewalt, Fay E. Hudson, Robin Blume-Kohout, Stephen D. Bartlett, Andrea Morello, Arne Laucht, Chih Hwan Yang, Andre Saraiva, Andrew S. Dzurak, | (参考訳) 量子ビット間の高忠実なエンタングリング操作を一貫して達成することは、マルチキュービットシステムの性能に不可欠であり、フォールトトレラントな量子プロセッサを実現する上で重要な要素である。
ソリッドステートプラットフォームは、クォービット間の材料誘起のばらつきにより、特にエラーに晒されるため、パフォーマンス上の不整合が生じる。
ここでは、スピン量子ビットプロセッサの誤差を調査し、それらを物理的起源に結びつける。
技術的に重要なシリコン-酸化物-半導体(SiMOS)量子ドットプラットフォームにおいて、2量子ゲートの99%以上の忠実度で一貫した繰り返し動作を示すために、この知識を活用する。
複数のデバイスにおける物理誤差と忠実度を多数の試行錯誤と拡張期間を通じて分析することにより,これらの動作を詳細に検討し,その変動と最も一般的なエラータイプを確実に把握する。
物理誤差源には、単一量子ビット上の遅い核と電気のノイズと文脈ノイズがある。
ノイズ源の識別は、耐久性能を維持するだけでなく、将来のデバイス製造を知らせるためにも利用できる。
さらに,量子ビット設計,フィードバックシステム,ロバストゲートがスケーラブルかつ高忠実な制御戦略の実装に与える影響について検討する。
これらの結果は3つの異なるキャラクタリゼーション手法を用いて,96.8%から99.8%までの密閉ゲート密度を測定することで達成される。
解析ツールは、量子ビット劣化の原因を特定し、それらの物理的メカニズムを理解する方法を提供する。
これらの結果は、シリコンスピンベースの量子ビットをフルスケールの量子プロセッサにスケールアップする能力と課題の両方を強調している。
Achieving high-fidelity entangling operations between qubits consistently is essential for the performance of multi-qubit systems and is a crucial factor in achieving fault-tolerant quantum processors. Solid-state platforms are particularly exposed to errors due to materials-induced variability between qubits, which leads to performance inconsistencies. Here we study the errors in a spin qubit processor, tying them to their physical origins. We leverage this knowledge to demonstrate consistent and repeatable operation with above 99% fidelity of two-qubit gates in the technologically important silicon metal-oxide-semiconductor (SiMOS) quantum dot platform. We undertake a detailed study of these operations by analysing the physical errors and fidelities in multiple devices through numerous trials and extended periods to ensure that we capture the variation and the most common error types. Physical error sources include the slow nuclear and electrical noise on single qubits and contextual noise. The identification of the noise sources can be used to maintain performance within tolerance as well as inform future device fabrication. Furthermore, we investigate the impact of qubit design, feedback systems, and robust gates on implementing scalable, high-fidelity control strategies. These results are achieved by using three different characterization methods, we measure entangling gate fidelities ranging from 96.8% to 99.8%. Our analysis tools identify the causes of qubit degradation and offer ways understand their physical mechanisms. These results highlight both the capabilities and challenges for the scaling up of silicon spin-based qubits into full-scale quantum processors. | 翻訳日:2024-03-19 07:51:44 公開日:2024-03-15 |
# SelfPromer: 奥行きに一貫性のあるセルフプロンプトデハージングトランス
SelfPromer: Self-Prompt Dehazing Transformers with Depth-Consistency ( http://arxiv.org/abs/2303.07033v3 ) ライセンス: Link先を確認 | Cong Wang, Jinshan Pan, Wanyu Lin, Jiangxin Dong, Xiao-Ming Wu, | (参考訳) 本研究は,画像デハージングに有効な深度整合型セルフプロンプトトランスを提案する。
ヘイズ残像とその明確な像の深さが異なるという観測によって動機づけられた。
したがって、デハズド画像の奥行きの整合性を確保することは、デハズド画像のデハズ化に不可欠である。
そこで本研究では, より優れた修復のために, ヘイズ入力画像とそれに対応する鮮明な画像との深度差の特徴に基づくプロンプトを開発する。
具体的には、入力画像から抽出した深度特徴を、入力に迷路残差情報を含むプロンプトを生成するための深度差特徴に適用する。
そこで我々は,深い特徴にプロンプトを線形に追加することにより,迷路残差を知覚するプロンプト埋め込みモジュールを提案する。
さらに, より優れた除去のために, ヘイズ残留物により多くの注意を払うために, 効果的な注意モジュールを開発した。
VQGANに基づくエンコーダ・デコーダネットワークにプロンプト、プロンプト埋め込み、そしてインタプリタを組み込むことにより、より優れた知覚品質を実現することができる。
画像の鮮明な深さは推論では得られず,一方のフィードフォワード実行によるデハズ化画像は依然として一部のヘイズ残差を含む可能性があるため,より優れたヘイズフリー画像生成に向けてデハズ化モデルを反復的に補正できる新しい連続自己プロンプト推論を提案する。
本手法は,NIQE,PI,PIQEなどの知覚指標を用いて,合成と実世界の両方のデータセットに対する最先端のアプローチに対して良好に作用することを示す。
This work presents an effective depth-consistency self-prompt Transformer for image dehazing. It is motivated by an observation that the estimated depths of an image with haze residuals and its clear counterpart vary. Enforcing the depth consistency of dehazed images with clear ones, therefore, is essential for dehazing. For this purpose, we develop a prompt based on the features of depth differences between the hazy input images and corresponding clear counterparts that can guide dehazing models for better restoration. Specifically, we first apply deep features extracted from the input images to the depth difference features for generating the prompt that contains the haze residual information in the input. Then we propose a prompt embedding module that is designed to perceive the haze residuals, by linearly adding the prompt to the deep features. Further, we develop an effective prompt attention module to pay more attention to haze residuals for better removal. By incorporating the prompt, prompt embedding, and prompt attention into an encoder-decoder network based on VQGAN, we can achieve better perception quality. As the depths of clear images are not available at inference, and the dehazed images with one-time feed-forward execution may still contain a portion of haze residuals, we propose a new continuous self-prompt inference that can iteratively correct the dehazing model towards better haze-free image generation. Extensive experiments show that our method performs favorably against the state-of-the-art approaches on both synthetic and real-world datasets in terms of perception metrics including NIQE, PI, and PIQE. | 翻訳日:2024-03-19 07:51:44 公開日:2024-03-15 |
# 身体リハビリテーション運動情報のためのマイニング臨床ノート:自然言語処理アルゴリズムの開発と検証研究
Mining Clinical Notes for Physical Rehabilitation Exercise Information: Natural Language Processing Algorithm Development and Validation Study ( http://arxiv.org/abs/2303.13466v2 ) ライセンス: Link先を確認 | Sonish Sivarajkumar, Fengyi Gao, Parker E. Denny, Bayan M. Aldhahwani, Shyam Visweswaran, Allyn Bove, Yanshan Wang, | (参考訳) 術後患者のリハビリテーションには、正確にパーソナライズされた治療計画が必要である。
自然言語処理(NLP)は、より効果的なリハビリテーション戦略の開発を支援するために、臨床ノートから貴重な運動情報を抽出する可能性がある。
目的: 本研究の目的は, ピッツバーグ大学医学部における術後患者の臨床ノートから, 身体リハビリテーション運動情報を抽出し, 分類するための様々なNLPアルゴリズムを開発し, 評価することである。
脳卒中と診断された13,605人のコホートを同定し,リハビリテーション治療ノートを含む臨床ノートを検索した。
身体リハビリテーション運動の様々な側面を表す包括的臨床オントロジーが作成された。
その後、ルールベース、機械学習ベースのアルゴリズム、大規模言語モデル(LLM)ベースのアルゴリズム(ChatGPT)など、最先端のNLPアルゴリズムを開発し、比較した。
分析は23,724枚のノートからなり,詳細な統計学的特徴と臨床特性が得られた。
規則に基づく NLP アルゴリズムは,F1 スコア 0.975 の 'Right Side' 位置を検出し,グラディエントブースティング 0.063 よりも優れた性能を示した。
グラディエントブースティングは「下限」位置検出(F1スコア:0.978)に優れ、ルールベースNLPを0.023で上回った。
また、F1スコア0.970の「Passive Range of Motion」では、ルールベースのNLPよりも0.032改善された。
ルールベースのアルゴリズムは、F1スコアの「Duration」、「Sets」、そして「Reps」を最大0.65まで効率的に処理した。
LLMベースのNLP、特に数発のプロンプトを持つChatGPTは高いリコールを達成したが、一般的には低い精度とF1スコアを得た。
しかし、これは「後方平面」運動検出において顕著に優れ、F1スコアは0.846であり、ルールベースのアルゴリズムの0.720を上回った。
Post-stroke patient rehabilitation requires precise, personalized treatment plans. Natural Language Processing (NLP) offers potential to extract valuable exercise information from clinical notes, aiding in the development of more effective rehabilitation strategies. Objective: This study aims to develop and evaluate a variety of NLP algorithms to extract and categorize physical rehabilitation exercise information from the clinical notes of post-stroke patients treated at the University of Pittsburgh Medical Center. A cohort of 13,605 patients diagnosed with stroke was identified, and their clinical notes containing rehabilitation therapy notes were retrieved. A comprehensive clinical ontology was created to represent various aspects of physical rehabilitation exercises. State-of-the-art NLP algorithms were then developed and compared, including rule-based, machine learning-based algorithms, and large language model (LLM)-based algorithms (ChatGPT). Analysis was conducted on a dataset comprising 23,724 notes with detailed demographic and clinical characteristics. The rule-based NLP algorithm demonstrated superior performance in most areas, particularly in detecting the 'Right Side' location with an F1 score of 0.975, outperforming Gradient Boosting by 0.063. Gradient Boosting excelled in 'Lower Extremity' location detection (F1 score: 0.978), surpassing rule-based NLP by 0.023. It also showed notable performance in 'Passive Range of Motion' with an F1 score of 0.970, a 0.032 improvement over rule-based NLP. The rule-based algorithm efficiently handled 'Duration', 'Sets', and 'Reps' with F1 scores up to 0.65. LLM-based NLP, particularly ChatGPT with few-shot prompts, achieved high recall but generally lower precision and F1 scores. However, it notably excelled in 'Backward Plane' motion detection, achieving an F1 score of 0.846, surpassing the rule-based algorithm's 0.720. | 翻訳日:2024-03-19 07:51:44 公開日:2024-03-15 |
# ビデオデモへのステップバイステップインストラクショナルダイアグラムの適応
Aligning Step-by-Step Instructional Diagrams to Video Demonstrations ( http://arxiv.org/abs/2303.13800v3 ) ライセンス: Link先を確認 | Jiahao Zhang, Anoop Cherian, Yanbin Liu, Yizhak Ben-Shabat, Cristian Rodriguez, Stephen Gould, | (参考訳) マルチモーダルアライメントは、あるモダリティから別のモダリティを使ってクエリする際のインスタンスの検索を容易にする。
本稿では,このようなアライメントを両立させる新しい環境について考察する。
一 組立図(池田組立マニュアルによく見られる)、及び
(II)このビデオは,実世界の組み立て動作を再現した映像である。
このアライメントを学習するために,新しい教師付きコントラスト学習手法を導入する。
本手法の有効性を検証し,本手法の有効性を示すために,多様な家具組立コレクションから183時間分の映像と関連する指導マニュアルから8,300点近いイラストを収録した野生のイケア組立用IAWと,それらの真実のアライメントに注釈を付したアノテートを用いた新しいデータセットを提案する。
このデータセットでは、まず、ビデオセグメントとイラストの隣り合う検索と、命令ステップと各ビデオのセグメントのアライメントという2つのタスクを定義している。
IAWに関する大規模な実験は、代替案に対する我々のアプローチの優れた性能を示す。
Multimodal alignment facilitates the retrieval of instances from one modality when queried using another. In this paper, we consider a novel setting where such an alignment is between (i) instruction steps that are depicted as assembly diagrams (commonly seen in Ikea assembly manuals) and (ii) video segments from in-the-wild videos; these videos comprising an enactment of the assembly actions in the real world. To learn this alignment, we introduce a novel supervised contrastive learning method that learns to align videos with the subtle details in the assembly diagrams, guided by a set of novel losses. To study this problem and demonstrate the effectiveness of our method, we introduce a novel dataset: IAW for Ikea assembly in the wild consisting of 183 hours of videos from diverse furniture assembly collections and nearly 8,300 illustrations from their associated instruction manuals and annotated for their ground truth alignments. We define two tasks on this dataset: First, nearest neighbor retrieval between video segments and illustrations, and, second, alignment of instruction steps and the segments for each video. Extensive experiments on IAW demonstrate superior performances of our approach against alternatives. | 翻訳日:2024-03-19 07:51:44 公開日:2024-03-15 |
# WebQAmGaze: マルチリンガルなWebカメラアイトラッキング-While-Readingデータセット
WebQAmGaze: A Multilingual Webcam Eye-Tracking-While-Reading Dataset ( http://arxiv.org/abs/2303.17876v3 ) ライセンス: Link先を確認 | Tiago Ribeiro, Stephanie Brandl, Anders Søgaard, Nora Hollenstein, | (参考訳) WebQAmGazeはマルチリンガルで低コストな視線追跡時読取データセットであり,Webカメラによる視線追跡コーパスとして初めて設計され,説明可能な計算言語処理モデルの開発を支援する。
WebQAmGazeには、英語、ドイツ語、スペイン語、トルコ語のテキストを自然に読む幅広い年齢層の600人の参加者によるWebカメラによるアイトラッキングデータが含まれている。
参加者はそれぞれ5つのテキストからなる2つの読解タスク、通常の読解タスクと情報検索タスクを実行し、続いて理解可能な質問を行う。
収集したウェブカメラデータを高品質なアイトラッキング記録と比較した。
その結果,Webカメラで得られた眼球運動測定値と市販の眼球追跡装置で得られた眼球運動測定値との間には中程度から強い相関関係が認められた。
データを検証すると、関連するテキストに対する高い固定期間が、対応する質問に答える際の正確さを示すことが分かる。
このデータセットは、Webカメラベースの読書研究を前進させ、低コストで多様なデータ収集への道を開く。
WebQAmGazeは、質問応答の背後にある認知過程について学び、これらの知見を言語理解の計算モデルに適用するのに有益である。
We present WebQAmGaze, a multilingual low-cost eye-tracking-while-reading dataset, designed as the first webcam-based eye-tracking corpus of reading to support the development of explainable computational language processing models. WebQAmGaze includes webcam eye-tracking data from 600 participants of a wide age range naturally reading English, German, Spanish, and Turkish texts. Each participant performs two reading tasks composed of five texts each, a normal reading and an information-seeking task, followed by a comprehension question. We compare the collected webcam data to high-quality eye-tracking recordings. The results show a moderate to strong correlation between the eye movement measures obtained with the webcam compared to those obtained with a commercial eye-tracking device. When validating the data, we find that higher fixation duration on relevant text spans accurately indicates correctness when answering the corresponding questions. This dataset advances webcam-based reading studies and opens avenues to low-cost and diverse data collection. WebQAmGaze is beneficial to learn about the cognitive processes behind question-answering and to apply these insights to computational models of language understanding. | 翻訳日:2024-03-19 07:51:44 公開日:2024-03-15 |
# 誘導エネルギー参加比を用いた超伝導量子チップのキャラクタリゼーション
Using the inductive-energy participation ratio to characterize a superconducting quantum chip ( http://arxiv.org/abs/2303.18220v2 ) ライセンス: Link先を確認 | Ke-Hui Yu, Xiao-Yang Jiao, Li-Jing Jin, | (参考訳) 超伝導量子チップをシミュレーションし検証するための誘導エネルギー参加率(IEPR)法と合理化手法を開発した。
これらの進歩は、大規模でフォールトトレラントな量子コンピューティングの文脈でますます重要になっている。
提案手法は,量子チップレイアウトのハミルトニアンと同様に,重要な線形および非線形特性パラメータを効率的に抽出する。
理論上、IEPR法はエネルギー分布と表現変換の関係に関する洞察を提供する。
本稿では,量子チップレイアウトに適用し,素面および正規表現の両方において重要な特性パラメーターを効率よく取得することで,その実用性を実証する。
我々の研究はシミュレーションと検証技術の大幅な強化を約束しており、量子電子設計の自動化に向けた重要なステップを示している。
We developed an inductive energy participation ratio (IEPR) method and a streamlined procedure for simulating and verifying superconducting quantum chips. These advancements are increasingly vital in the context of large-scale, fault-tolerant quantum computing. Our approach efficiently extracts the key linear and nonlinear characteristic parameters, as well as the Hamiltonian of a quantum chip layout. In theory, the IEPR method provides insights into the relationship between energy distribution and representation transformation. We demonstrate its practicality by applying it to quantum chip layouts, efficiently obtaining crucial characteristic parameters in both bare and normal representations-an endeavor that challenges existing methods. Our work holds the promise of significant enhancements in simulation and verification techniques and represents a pivotal step towards quantum electronic design automation. | 翻訳日:2024-03-19 07:51:44 公開日:2024-03-15 |
# 個人知識グラフのためのエコシステム:調査と研究ロードマップ
An Ecosystem for Personal Knowledge Graphs: A Survey and Research Roadmap ( http://arxiv.org/abs/2304.09572v2 ) ライセンス: Link先を確認 | Martin G. Skjæveland, Krisztian Balog, Nolwenn Bernard, Weronika Łajewska, Trond Linjordet, | (参考訳) 本稿では,個人に関連するエンティティや属性,それらの関係に関する構造化情報の資源として一般的に定義されるPKG(Personal Knowledge Graphs)のエコシステムについて述べる。
PKGは、セキュアで洗練された個人データ管理とパーソナライズサービスを実現する重要な手段である。
しかしながら、PKGが広く採用される前に対処する必要がある課題がある。
基本的な課題の1つは、この用語の複数の解釈が存在するため、PKGを構成するものの定義である。
我々は,(1)個人によるデータ所有の側面を強調し,(2)パーソナライズされたサービスの提供を主目的とする,PKGの独自の定義を提案する。
PKGは、データサービスやデータソースに対する明確なインターフェースを備えた、より大きなエコシステムの一部である。
既存の作業の総合的な調査と合成を行い、調査された作業のマッピングを、提案された統合されたエコシステムにマッピングする。
最後に、人口、表現と管理、利用を含むPKGの具体的な側面と同様に、生態系全体に対するオープンな課題と研究機会を特定します。
This paper presents an ecosystem for personal knowledge graphs (PKGs), commonly defined as resources of structured information about entities related to an individual, their attributes, and the relations between them. PKGs are a key enabler of secure and sophisticated personal data management and personalized services. However, there are challenges that need to be addressed before PKGs can achieve widespread adoption. One of the fundamental challenges is the very definition of what constitutes a PKG, as there are multiple interpretations of the term. We propose our own definition of a PKG, emphasizing the aspects of (1) data ownership by a single individual and (2) the delivery of personalized services as the primary purpose. We further argue that a holistic view of PKGs is needed to unlock their full potential, and propose a unified framework for PKGs, where the PKG is a part of a larger ecosystem with clear interfaces towards data services and data sources. A comprehensive survey and synthesis of existing work is conducted, with a mapping of the surveyed work into the proposed unified ecosystem. Finally, we identify open challenges and research opportunities for the ecosystem as a whole, as well as for the specific aspects of PKGs, which include population, representation and management, and utilization. | 翻訳日:2024-03-19 07:51:44 公開日:2024-03-15 |
# 注意に基づくシームズ複合ニューラルネットワークの医用画像認識への応用
Application of attention-based Siamese composite neural network in medical image recognition ( http://arxiv.org/abs/2304.09783v3 ) ライセンス: Link先を確認 | Zihao Huang, Yue Wang, Weixing Xin, Xingtong Lin, Huizhen Li, Haowen Chen, Yizhen Lao, Xia Chen, | (参考訳) 医用画像認識は、実際的な応用において不十分なデータに直面することが多い。
数ショットの条件下での画像認識と処理は、過度に適合し、認識精度が低く、信頼性が低く、ロバスト性が不十分である。
特徴の違いが微妙な場合が多く、認識は視点、背景、閉塞、その他の要因に影響され、認識の難しさが増す。
さらに、きめ細かい画像では、少数ショットの問題により、画像の有用な特徴情報が不十分になる。
本研究は,少ないショットときめ細かい画像認識の特性を考慮し,注目とシームズニューラルネットワークに基づく認識モデルを構築した。
数発のサンプルの問題を考慮し,分類モデルに適したシームズニューラルネットワークを提案する。
アテンションに基づくニューラルネットワークは、分類効果を改善するためにメインネットワークとして使用される。
このモデルをテストするために、コビッド-19の肺サンプルが選択されている。
その結果、画像サンプルの数が少ないほど、通常のニューラルネットワークよりも利点が明らかになることがわかった。
Medical image recognition often faces the problem of insufficient data in practical applications. Image recognition and processing under few-shot conditions will produce overfitting, low recognition accuracy, low reliability and insufficient robustness. It is often the case that the difference of characteristics is subtle, and the recognition is affected by perspectives, background, occlusion and other factors, which increases the difficulty of recognition. Furthermore, in fine-grained images, the few-shot problem leads to insufficient useful feature information in the images. Considering the characteristics of few-shot and fine-grained image recognition, this study has established a recognition model based on attention and Siamese neural network. Aiming at the problem of few-shot samples, a Siamese neural network suitable for classification model is proposed. The Attention-Based neural network is used as the main network to improve the classification effect. Covid- 19 lung samples have been selected for testing the model. The results show that the less the number of image samples are, the more obvious the advantage shows than the ordinary neural network. | 翻訳日:2024-03-19 07:51:44 公開日:2024-03-15 |
# 大規模言語モデルにおける反復ブートストラップによる思考連鎖の促進
Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models ( http://arxiv.org/abs/2304.11657v3 ) ライセンス: Link先を確認 | Jiashuo Sun, Yi Luo, Yeyun Gong, Chen Lin, Yelong Shen, Jian Guo, Nan Duan, | (参考訳) 大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
しかし、LLMによって生成された実演の推論連鎖は誤りを起こしやすいため、推論中に誤った推論につながる可能性がある。
さらに、不適切な例(過度に単純化または複雑)は、様々な難易度の中で全体的なパフォーマンスに影響を与える可能性がある。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
反復的なブートストラップを活用することで,LLMが自動でエラーを修正できるようになり,より正確で包括的な推論チェーンが実現される。
同時に,LLMの難易度を適度に向上させるため,解答が困難で解答し難易度の高い質問を解答チェーンとして選択する。
実験結果から, Iter-CoTは10個のデータセット上での3つの異なる推論タスクにまたがる競合性能を実現していることがわかった。
Large language models (LLMs) can achieve highly effective performance on various reasoning tasks by incorporating step-by-step chain-of-thought (CoT) prompting as demonstrations. However, the reasoning chains of demonstrations generated by LLMs are prone to errors, which can subsequently lead to incorrect reasoning during inference. Furthermore, inappropriate exemplars (overly simplistic or complex), can affect overall performance among varying levels of difficulty. We introduce Iter-CoT (Iterative bootstrapping in Chain-of-Thoughts Prompting), an iterative bootstrapping approach for selecting exemplars and generating reasoning chains. By utilizing iterative bootstrapping, our approach enables LLMs to autonomously rectify errors, resulting in more precise and comprehensive reasoning chains. Simultaneously, our approach selects challenging yet answerable questions accompanied by reasoning chains as exemplars with a moderate level of difficulty, which enhances the LLMs' generalizability across varying levels of difficulty. Experimental results indicate that Iter-CoT exhibits superiority, achieving competitive performance across three distinct reasoning tasks on ten datasets. | 翻訳日:2024-03-19 07:51:44 公開日:2024-03-15 |
# 複数の光子の時間と周波数を直接測定した高速データ駆動分光計
Fast data-driven spectrometer with direct measurement of time and frequency for multiple single photons ( http://arxiv.org/abs/2304.11999v4 ) ライセンス: Link先を確認 | Jakub Jirsa, Sergei Kulkov, Raphael A. Abrahao, Jesse Crawford, Aaron Mueninghoff, Ermanno Bernasconi, Claudio Bruschini, Samuel Burri, Stephen Vintskevich, Michal Marcisovsky, Edoardo Charbon, Andrei Nomerotski, | (参考訳) 波長0.04nm、時間分解能40psの512個の単光子アバランシェダイオード検出器の線形アレイに基づく単光子感度分光計を提案する。
我々は、単一光子の同時検出に時間と周波数を直接測定できる高速なデータ駆動型演算を用い、各単光子の検出に時間と周波数をスタンプする。
その結果,時間分解能とスペクトル分解能の両立が得られた。
我々は,室温操作を含む実験装置の単純さにもかかわらず,hbar/2 の Heisenberg Uncertainty Principle limit に対して時間とエネルギーについてベンチマークを行った。
この研究は古典的および量子フォトニクス、特に単一光子のスペクトル特性と時間特性の両方を利用する場合に多くの応用を開放する。
We present a single-photon-sensitive spectrometer, based on a linear array of 512 single-photon avalanche diode detectors, with 0.04 nm spectral and 40 ps temporal resolutions. We employ a fast data-driven operation that allows direct measurement of time and frequency for simultaneous single photons, time- and frequency-stamping each single-photon detection. Our results combine excellent temporal and spectral resolution. We benchmark our result against the Heisenberg Uncertainty Principle limit of hbar/2 for time and energy, and we are only a factor of 10 above it, despite the simplicity of our experimental setup, including room temperature operation. This work opens numerous applications in both classical and quantum photonics, especially when both spectral and temporal properties of single photons are exploited. | 翻訳日:2024-03-19 07:42:00 公開日:2024-03-15 |
# 短期軌跡予測のための蒸留知識
Distilling Knowledge for Short-to-Long Term Trajectory Prediction ( http://arxiv.org/abs/2305.08553v3 ) ライセンス: Link先を確認 | Sourav Das, Guglielmo Camporese, Shaokang Cheng, Lamberto Ballan, | (参考訳) 長期軌跡予測はコンピュータビジョン、機械学習、ロボット工学の分野において重要かつ困難な問題である。
1つの根本的な困難は、時間的地平線が大きくなるにつれてますます不確実で予測不可能になる軌道の進化であり、その後、問題の複雑さを増大させる。
そこで本稿では,学生ネットワークの長期軌跡予測を指導する短期軌跡モデル予測器の蒸留手法であるDi-Longを提案する。
学生ネットワークと相補的対象系列に対する許容された観測を理解できる全順序長が与えられた場合、学生と教師は、同じ全軌道上で定義された2つの異なる関連タスクを解決させる: 学生は短い順序を観察し、長い軌道を予測し、教師は長い順序を観察し、残りの短目標軌道を予測する。
教師の課題は不確実性が少なく,その正確な予測を用いて知識蒸留の枠組みを通じて学生を指導し,長期的な不確実性を軽減する。
実験の結果,提案手法は長期予測に有効であり,InD(Intersection Drone Dataset)とSDD(Stanford Drone Dataset)の最先端性能を実現する。
Long-term trajectory forecasting is an important and challenging problem in the fields of computer vision, machine learning, and robotics. One fundamental difficulty stands in the evolution of the trajectory that becomes more and more uncertain and unpredictable as the time horizon grows, subsequently increasing the complexity of the problem. To overcome this issue, in this paper, we propose Di-Long, a new method that employs the distillation of a short-term trajectory model forecaster that guides a student network for long-term trajectory prediction during the training process. Given a total sequence length that comprehends the allowed observation for the student network and the complementary target sequence, we let the student and the teacher solve two different related tasks defined over the same full trajectory: the student observes a short sequence and predicts a long trajectory, whereas the teacher observes a longer sequence and predicts the remaining short target trajectory. The teacher's task is less uncertain, and we use its accurate predictions to guide the student through our knowledge distillation framework, reducing long-term future uncertainty. Our experiments show that our proposed Di-Long method is effective for long-term forecasting and achieves state-of-the-art performance on the Intersection Drone Dataset (inD) and the Stanford Drone Dataset (SDD). | 翻訳日:2024-03-19 07:42:00 公開日:2024-03-15 |
# 工学的アンシラリセットによる量子状態生成
Quantum state preparation via engineered ancilla resetting ( http://arxiv.org/abs/2305.08641v3 ) ライセンス: Link先を確認 | Daniel Alcalde Puente, Felix Motzoi, Tommaso Calarco, Giovanna Morigi, Matteo Rizzi, | (参考訳) 本研究では, フラストレーションのない親ハミルトニアンの基底状態を作成するために, 周期量子リセットを組み込んだプロトコルの有効性について検討する。
このプロトコルでは、ハミルトニアンを操り、システムとアシラリー自由度の間の局所的な結合を可能にする。
周期的な間隔で、補助システムは初期状態にリセットされる。
無限に短いリセット時間に対して、この力学は、定常状態が目標状態であるリンドブラディアンによって近似することができる。
しかし、有限リセット時間の間、スピン鎖とアンシラはリセット操作の間に絡み合う。
プロトコルの性能を評価するため,我々は,スピン-1 Affleck-Kennedy-Lieb-Tasaki状態の作成に焦点をあてて,行列積状態シミュレーションと量子軌道法を用いている。
我々の分析は、異なるリセット間隔下での収束時間、忠実度、エネルギー進化を考察する。
以上の結果から,アンシラ系の絡み合いはより高速な収束に不可欠であることが示唆された。
特に、プロトコルが最高に機能する最適なリセット時間が存在する。
簡単な近似を用いて、リセット手順中にシステムに適用されたマッピング演算子を最適に選択する方法の知見を提供する。
さらに、このプロトコルは、リセット時間とデフォーカスノイズの小さな偏差に対して顕著なレジリエンスを示す。
我々の研究は、量子リセットを用いたストロボスコピックマップが、マルコフ力学に依存する量子貯水池工学や量子状態ステアリングプロトコルといった代替手法よりも有利である可能性を示唆している。
In this theoretical investigation, we study the effectiveness of a protocol that incorporates periodic quantum resetting to prepare ground states of frustration-free parent Hamiltonians. This protocol uses a steering Hamiltonian that enables local coupling between the system and ancillary degrees of freedom. At periodic intervals, the ancillary system is reset to its initial state. For infinitesimally short reset times, the dynamics can be approximated by a Lindbladian whose steady state is the target state. For finite reset times, however, the spin chain and the ancilla become entangled between reset operations. To evaluate the performance of the protocol, we employ Matrix Product State simulations and quantum trajectory techniques, focusing on the preparation of the spin-1 Affleck-Kennedy-Lieb-Tasaki state. Our analysis considers convergence time, fidelity, and energy evolution under different reset intervals. Our numerical results show that ancilla system entanglement is essential for faster convergence. In particular, there exists an optimal reset time at which the protocol performs best. Using a simple approximation, we provide insights into how to optimally choose the mapping operators applied to the system during the reset procedure. Furthermore, the protocol shows remarkable resilience to small deviations in reset time and dephasing noise. Our study suggests that stroboscopic maps using quantum resetting may offer advantages over alternative methods, such as quantum reservoir engineering and quantum state steering protocols, which rely on Markovian dynamics. | 翻訳日:2024-03-19 07:42:00 公開日:2024-03-15 |
# アノテーションの課題:ウェアラブルセンサからのIn situおよびSelf-Recallアクティビティアノテーションに関する実証的研究
A Matter of Annotation: An Empirical Study on In Situ and Self-Recall Activity Annotations from Wearable Sensors ( http://arxiv.org/abs/2305.08752v2 ) ライセンス: Link先を確認 | Alexander Hoelzemann, Kristof Van Laerhoven, | (参考訳) ウェアラブルセンサーから人間の活動を検出する研究は、フィットネスコーチングから手作業プロセスの合理化に至るまで、多くの応用の恩恵を受け、非常に活発な分野である。
そこで本研究では,ユーザ研究でよく使われている4種類のアノテーション手法を比較し,その対象データに焦点をあてた実証的研究を行う。
これらのメソッドはユーザ主導のin situアノテーション – アクティビティの前後に実行される – とリコールメソッド – にグループ化することができる。
本研究は,異なるラベル付け手法がアノテーションの品質や,データで訓練されたディープラーニング分類器の能力に直接影響を及ぼすことを示す。
In situ法はリコール法よりも精度の低いラベルを生成することに気づいた。
さらに,アクティビティダイアログと可視化ツールを組み合わせることで,参加者のアクティビティデータの検査とラベル付けを可能にした。
このようなツールの導入により、欠落したアノテーションを減らし、アノテーションの一貫性を高めることができ、深層学習モデルのF1スコアは最大8%向上した(82.1から90.4%のF1スコア)。
さらに,本研究と比較した手法の利点と欠点,導入可能なバイアス,人間の活動認識研究における使用結果,および可能な解決策について考察した。
Research into the detection of human activities from wearable sensors is a highly active field, benefiting numerous applications, from ambulatory monitoring of healthcare patients via fitness coaching to streamlining manual work processes. We present an empirical study that compares 4 different commonly used annotation methods utilized in user studies that focus on in-the-wild data. These methods can be grouped in user-driven, in situ annotations - which are performed before or during the activity is recorded - and recall methods - where participants annotate their data in hindsight at the end of the day. Our study illustrates that different labeling methodologies directly impact the annotations' quality, as well as the capabilities of a deep learning classifier trained with the data respectively. We noticed that in situ methods produce less but more precise labels than recall methods. Furthermore, we combined an activity diary with a visualization tool that enables the participant to inspect and label their activity data. Due to the introduction of such a tool were able to decrease missing annotations and increase the annotation consistency, and therefore the F1-score of the deep learning model by up to 8% (ranging between 82.1 and 90.4% F1-score). Furthermore, we discuss the advantages and disadvantages of the methods compared in our study, the biases they may could introduce and the consequences of their usage on human activity recognition studies and as well as possible solutions. | 翻訳日:2024-03-19 07:42:00 公開日:2024-03-15 |
# コンクリート量子チャネルと抽象量子チャネルの代数構造
Concrete Quantum Channels and Algebraic Structure of Abstract Quantum Channels ( http://arxiv.org/abs/2305.11471v2 ) ライセンス: Link先を確認 | M. N. N. Namboodiri, | (参考訳) 本稿では、ホレボ表現を持つ全ての量子チャネルとその部分集合の代数的構造を解析する。
写像の構成によるこれらの半群の正則性は解析される。
これらの集合はコンパクト凸集合であり、したがって幾何学に富むことも知られている。
一般化された非可逆チャネルと等等性チャネルを識別する試みが行われた。
チャネルがホレボ型である場合、これらの2つの問題はこの記事で完全に研究されている。
本研究の背景には, チャネル変換の可逆性の適用性, 資源破壊チャネルの最近の発展等がある。
これは量子情報理論における符号化問題と関連している。
数値線形代数において、プレコンディショナーを行列に割り当てるプレコンディショナー写像の主な例を含むいくつかの例が提供されるが、既知のプレコンディショナー写像は有限次元の量子チャネルと見なされる。
This article analyzes the algebraic structure of the set of all quantum channels and its subset consisting of quantum channels that have Holevo representation. The regularity of these semigroups under composition of mappings are analysed. It is also known that these sets are compact convex sets and, therefore, rich in geometry. An attempt is made to identify generalized invertible channels and also the idempotent channels. When channels are of the Holevo type, these two problems are fully studied in this article. The motivation behind this study is its applicability to the reversibility of channel transformations and recent developments in resource-destroying channels, which are idempotents. This is related to the coding-encoding problem in quantum information theory. Several examples are provided, with the main examples coming from pre-conditioner maps which assigns preconditioners to matrices, in numerical linear algebra.Thus the known pre-conditioner maps are viewd as a quantum-channel in finite dimentions. | 翻訳日:2024-03-19 07:42:00 公開日:2024-03-15 |
# Neyman-Pearson 試験による適合性の良さ
Goodness of fit by Neyman-Pearson testing ( http://arxiv.org/abs/2305.14137v2 ) ライセンス: Link先を確認 | Gaia Grosso, Marco Letizia, Maurizio Pierini, Andrea Wulzer, | (参考訳) 仮説テストのためのナイマン・ピアソンの戦略は、統計変動の影響を制御しながら、リッチなパラメトリドモデルのファミリーを探索することによって、データから代替仮説が選択される場合、適合性のために用いられる。
新しい物理学習機械(NPLM)手法は、高エネルギー物理コライダー実験の文脈における新しい物理効果の検出を目的とした、このアイデアの具体的実装として開発された。
本稿では,NPLMと強い類似性を持つ分類器ベースの戦略と,他の手法との適合性を比較検討する。
以上の結果から,NPLMはより敏感な検査として,予測分布からデータを取り除き,特定の種類の異常の検出に偏りがないことが示唆された。
これらの特徴は、コライダー実験における新しい物理学の発見に適している。
その他の科学的・工業的なシナリオへの展開について検討する必要がある。
The Neyman-Pearson strategy for hypothesis testing can be employed for goodness of fit if the alternative hypothesis is selected from data by exploring a rich parametrised family of models, while controlling the impact of statistical fluctuations. The New Physics Learning Machine (NPLM) methodology has been developed as a concrete implementation of this idea, to target the detection of new physical effects in the context of high energy physics collider experiments. In this paper we conduct a comparison of this approach to goodness of fit with others, in particular with classifier-based strategies that share strong similarities with NPLM. From our comparison, NPLM emerges as the more sensitive test to small departures of the data from the expected distribution and not biased towards detecting specific types of anomalies. These features make it suited for agnostic searches for new physics at collider experiments. Its deployment in other scientific and industrial scenarios should be investigated. | 翻訳日:2024-03-19 07:42:00 公開日:2024-03-15 |
# 長文のためのニューラル自然言語処理:分類と要約に関する調査
Neural Natural Language Processing for Long Texts: A Survey on Classification and Summarization ( http://arxiv.org/abs/2305.16259v6 ) ライセンス: Link先を確認 | Dimitrios Tsirmpas, Ioannis Gkionis, Georgios Th. Papadopoulos, Ioannis Mademlis, | (参考訳) ディープニューラルネットワーク(DNN)の採用は、過去10年間に自然言語処理(NLP)に大きな恩恵をもたらしてきた。
しかし、長文解析の要求は短いテキストの要求とはかなり異なるが、オンラインにアップロードされた文書のサイズが増大すると、長文の自動理解が重要な問題となる。
関連するアプリケーションは、自動化されたWebマイニング、法的文書レビュー、医療記録分析、財務報告分析、契約管理、環境影響評価、ニュース集約などである。
長い文書を解析するための効率的なアルゴリズムが近年開発されているにもかかわらず、この分野の実践的ツールは現在盛んである。
この記事では、この動的ドメインのエントリポイントとして機能し、2つの目的を達成することを目的としています。
まず第一に、関連するニューラルネットワーク構築ブロックの入門的な概要を提供し、フィールドの簡潔なチュートリアルとして機能する。
第2に、文書分類と文書要約の2つの重要な長文文書解析タスクにおいて、最先端技術の現状を簡潔に検証する。
典型的には文書分類の特定の事例として扱われるので、長文の感性分析もカバーされている。
そこで本論文では,文書レベルの分析の序文として,主要な課題,関心事,既存ソリューションについて考察する。
最後に、"long text/document"の簡潔な定義を提供し、長いドキュメント分析のために共通のディープ・ニューラル・メソッドのオリジナルの包括的な分類を示し、この領域でさらなる研究を促進するために利用可能な注釈付きデータセットのリストを提供する。
The adoption of Deep Neural Networks (DNNs) has greatly benefited Natural Language Processing (NLP) during the past decade. However, the demands of long document analysis are quite different from those of shorter texts, while the ever increasing size of documents uploaded online renders automated understanding of lengthy texts a critical issue. Relevant applications include automated Web mining, legal document review, medical records analysis, financial reports analysis, contract management, environmental impact assessment, news aggregation, etc. Despite the relatively recent development of efficient algorithms for analyzing long documents, practical tools in this field are currently flourishing. This article serves as an entry point into this dynamic domain and aims to achieve two objectives. First of all, it provides an introductory overview of the relevant neural building blocks, serving as a concise tutorial for the field. Secondly, it offers a brief examination of the current state-of-the-art in two key long document analysis tasks: document classification and document summarization. Sentiment analysis for long texts is also covered, since it is typically treated as a particular case of document classification. Consequently, this article presents an introductory exploration of document-level analysis, addressing the primary challenges, concerns, and existing solutions. Finally, it offers a concise definition of "long text/document", presents an original overarching taxonomy of common deep neural methods for long document analysis and lists publicly available annotated datasets that can facilitate further research in this area. | 翻訳日:2024-03-19 07:42:00 公開日:2024-03-15 |
# 逆適応サンプリング:PDEの近似のためのPINNと最適輸送の統合
Adversarial Adaptive Sampling: Unify PINN and Optimal Transport for the Approximation of PDEs ( http://arxiv.org/abs/2305.18702v2 ) ライセンス: Link先を確認 | Kejun Tang, Jiayu Zhai, Xiaoliang Wan, Chao Yang, | (参考訳) 偏微分方程式(PDE)の解法は、科学計算における中心的な課題である。
近年、メッシュレスのフレキシブルな離散化と高次元問題の可能性により、PDEのニューラルネットワーク近似が注目されている。
1つの基本的な数値的な困難は、トレーニングセットのランダムなサンプルは、損失関数の離散化に統計的誤差を導入し、最終近似において支配的な誤差となり、したがってニューラルネットワークのモデリング能力を覆す。
本研究では,ニューラルネットワークモデルによって与えられる近似解と,深部生成モデルによって提供されるトレーニングセット内のランダムサンプルを同時に最適化する,minmaxの新たな定式化を提案する。
鍵となる考え方は、深層生成モデルを用いてトレーニングセット内のランダムサンプルを調整し、近似PDE解によって誘導される残差が最小化されるときに滑らかなプロファイルを維持することである。
そのようなアイデアは、残留誘起分布と一様分布の間のワッサーシュタイン距離を損失に暗黙的に埋め込むことによって達成され、残余とともに最小化される。
ほぼ均一な残差プロファイルは、その分散が任意の正規化重み関数に対して小さいことを意味するので、損失関数のモンテカルロ近似誤差は特定のサンプルサイズに対して著しく減少する。
本研究で提案される対向適応サンプリング(英語版)(AAS)アプローチは、残差を最小化し最適なトレーニングセットを求める2つの必須成分をPDEのニューラルネットワーク近似のための1つの最小目標関数に定式化する最初の試みである。
Solving partial differential equations (PDEs) is a central task in scientific computing. Recently, neural network approximation of PDEs has received increasing attention due to its flexible meshless discretization and its potential for high-dimensional problems. One fundamental numerical difficulty is that random samples in the training set introduce statistical errors into the discretization of loss functional which may become the dominant error in the final approximation, and therefore overshadow the modeling capability of the neural network. In this work, we propose a new minmax formulation to optimize simultaneously the approximate solution, given by a neural network model, and the random samples in the training set, provided by a deep generative model. The key idea is to use a deep generative model to adjust random samples in the training set such that the residual induced by the approximate PDE solution can maintain a smooth profile when it is being minimized. Such an idea is achieved by implicitly embedding the Wasserstein distance between the residual-induced distribution and the uniform distribution into the loss, which is then minimized together with the residual. A nearly uniform residual profile means that its variance is small for any normalized weight function such that the Monte Carlo approximation error of the loss functional is reduced significantly for a certain sample size. The adversarial adaptive sampling (AAS) approach proposed in this work is the first attempt to formulate two essential components, minimizing the residual and seeking the optimal training set, into one minmax objective functional for the neural network approximation of PDEs. | 翻訳日:2024-03-19 07:42:00 公開日:2024-03-15 |
# マッピングアシスタントとしてのChatGPT:ストリートレベルの画像から得られた生成AIとコンテンツで地図を豊かにする新しい方法
ChatGPT as a mapping assistant: A novel method to enrich maps with generative AI and content derived from street-level photographs ( http://arxiv.org/abs/2306.03204v2 ) ライセンス: Link先を確認 | Levente Juhász, Peter Mooney, Hartwig H. Hochmair, Boyuan Guan, | (参考訳) 本稿では,コラボレーティブマッピングの効率を高めるために,生成AIをマッピングアシスタントとして活用するという概念について検討する。
本稿では,ボランティア地理情報(VGI)と大規模言語モデル(LLM)を組み合わせた実験結果について述べる。
3人のアナリストは、フロリダ州マイアミの小さなテストエリアで道路に沿って撮影されたクラウドソースのMapillaryストリートレベルの写真の内容について説明した。
GPT-3.5-turbo は OpenStreetMap (OSM) で各道路に最適なタグ付けを提案するように指示された。
この研究は、人間の分析に加え、ストリートレベルの写真の人為的分析として、最先端のマルチモーダル事前学習手法であるBLIP-2の利用についても検討した。
その結果,(1)ソース画像のより詳細な記述を提供すること,(2)プロンプトエンジニアリングと追加のコンテキスト(例えば,道路に沿って検出された位置や物体)を組み合わせることで,AIモデルを変更することなく,マッピング提案の精度を効果的に向上する2つの方法が示された。
第1のアプローチでは提案精度を最大29%、第2のアプローチでは最大20%向上する。
This paper explores the concept of leveraging generative AI as a mapping assistant for enhancing the efficiency of collaborative mapping. We present results of an experiment that combines multiple sources of volunteered geographic information (VGI) and large language models (LLMs). Three analysts described the content of crowdsourced Mapillary street-level photographs taken along roads in a small test area in Miami, Florida. GPT-3.5-turbo was instructed to suggest the most appropriate tagging for each road in OpenStreetMap (OSM). The study also explores the utilization of BLIP-2, a state-of-the-art multimodal pre-training method as an artificial analyst of street-level photographs in addition to human analysts. Results demonstrate two ways to effectively increase the accuracy of mapping suggestions without modifying the underlying AI models: by (1) providing a more detailed description of source photographs, and (2) combining prompt engineering with additional context (e.g. location and objects detected along a road). The first approach increases the suggestion accuracy by up to 29%, and the second one by up to 20%. | 翻訳日:2024-03-19 07:42:00 公開日:2024-03-15 |
# ScoreCL: スコアマッチング機能による拡張適応型コントラスト学習
ScoreCL: Augmentation-Adaptive Contrastive Learning via Score-Matching Function ( http://arxiv.org/abs/2306.04175v2 ) ライセンス: Link先を確認 | Jin-Young Kim, Soonwoo Kwon, Hyojun Go, Yunsung Lee, Seungtaek Choi, | (参考訳) 自己教師付きコントラスト学習(CL)は、正のペア間の距離を最小化し、負のペア間の距離を最大化し、表現学習における最先端のパフォーマンスを達成した。
近年,モデルが多彩な正のペアでより良い表現を学習することが確認されている。
しかし、CLに関するいくつかの研究は、拡張的な視点の違いを考慮し、手作りの知見を超えていない。
本稿では、まず、スコアマッチング関数が、元のデータから拡張までの変化量を測定することができることを観察する。
観測特性により、CL内の各ペアはスコア値の差により適応的に重み付けが可能となり、既存のCL法の性能が向上する。
我々は,CIFAR-10,CIFAR-100,ImageNet-100のk-NN評価において,SimCLR,SimSiam,W-MSE,VICRegの様々なCL法を一貫して改良し,ScoreCLと呼ばれる手法の一般性を示す。
さらに,様々な下流タスクの結果,ベースラインとの比較,および他の拡張手法を用いた場合の改善など,徹底的な実験と改善を実施してきた。
CLのスコアマッチングを利用したさらなる研究が期待できる。
Self-supervised contrastive learning (CL) has achieved state-of-the-art performance in representation learning by minimizing the distance between positive pairs while maximizing that of negative ones. Recently, it has been verified that the model learns better representation with diversely augmented positive pairs because they enable the model to be more view-invariant. However, only a few studies on CL have considered the difference between augmented views, and have not gone beyond the hand-crafted findings. In this paper, we first observe that the score-matching function can measure how much data has changed from the original through augmentation. With the observed property, every pair in CL can be weighted adaptively by the difference of score values, resulting in boosting the performance of the existing CL method. We show the generality of our method, referred to as ScoreCL, by consistently improving various CL methods, SimCLR, SimSiam, W-MSE, and VICReg, up to 3%p in k-NN evaluation on CIFAR-10, CIFAR-100, and ImageNet-100. Moreover, we have conducted exhaustive experiments and ablations, including results on diverse downstream tasks, comparison with possible baselines, and improvement when used with other proposed augmentation methods. We hope our exploration will inspire more research in exploiting the score matching for CL. | 翻訳日:2024-03-19 07:42:00 公開日:2024-03-15 |
# アルゴリズムフェアネスの7年間の非処理
Unprocessing Seven Years of Algorithmic Fairness ( http://arxiv.org/abs/2306.07261v5 ) ライセンス: Link先を確認 | André F. Cruz, Moritz Hardt, | (参考訳) 7年前、研究者は、異なる人口集団にわたるモデルのエラー率を等化するためのポストプロセッシング手法を提案した。
作業は後処理のベースラインを改善するために数百の論文を発行した。
いくつかの表付きデータセット上で数千のモデル評価を行うことで,これらの主張を実証的に評価する。
ポストプロセッシングによって達成されたフェアネス精度のParetoフロンティアには、評価可能な他の方法がすべて含まれていることが分かりました。
そこで本研究では,従来の観測結果から得られた2つの一般的な方法論的誤りに対処する。
1つは、異なる制約のないベースモデルとのメソッドの比較に関するものである。
他の関心事は、異なるレベルの制約緩和を達成する方法である。
私たちの研究の中心は、ポストプロセッシングの逆に対応するアンプロセッシング(unprocessing)と呼ばれる単純なアイデアです。
アンプロセッシングは、異なる基礎モデルと緩和レベルを用いたメソッドの直接比較を可能にする。
Seven years ago, researchers proposed a postprocessing method to equalize the error rates of a model across different demographic groups. The work launched hundreds of papers purporting to improve over the postprocessing baseline. We empirically evaluate these claims through thousands of model evaluations on several tabular datasets. We find that the fairness-accuracy Pareto frontier achieved by postprocessing contains all other methods we were feasibly able to evaluate. In doing so, we address two common methodological errors that have confounded previous observations. One relates to the comparison of methods with different unconstrained base models. The other concerns methods achieving different levels of constraint relaxation. At the heart of our study is a simple idea we call unprocessing that roughly corresponds to the inverse of postprocessing. Unprocessing allows for a direct comparison of methods using different underlying models and levels of relaxation. | 翻訳日:2024-03-19 07:42:00 公開日:2024-03-15 |
# 拡散モデルを用いた3次元アノテーションによる画像生成
Generating Images with 3D Annotations Using Diffusion Models ( http://arxiv.org/abs/2306.08103v3 ) ライセンス: Link先を確認 | Wufei Ma, Qihao Liu, Jiahao Wang, Angtian Wang, Xiaoding Yuan, Yi Zhang, Zihao Xiao, Guofeng Zhang, Beijia Lu, Ruxiao Duan, Yongrui Qi, Adam Kortylewski, Yaoyao Liu, Alan Yuille, | (参考訳) 拡散モデルは強力な生成法として登場し、自然言語の記述から素晴らしい写真リアル画像を生成することができる。
しかし、これらのモデルでは生成された画像の3D構造を明示的に制御することができない。
これにより、生成された画像の詳細な3Dアノテーションを入手したり、特定のポーズと距離でインスタンスを作れなくなる。
本稿では,3次元幾何制御を拡散モデルに組み込んだ3次元拡散スタイル転送(3D-DST)を提案する。
提案手法は,テキストプロンプトに加えて視覚的プロンプトを用いて拡散モデルを拡張する制御ネットを利用する。
我々は3D形状リポジトリー~(eg, ShapeNet, Objaverse)から抽出した3Dオブジェクトの画像を生成し、様々なポーズや方向からレンダリングし、レンダリングされた画像のエッジマップを計算し、これらのエッジマップを視覚的プロンプトとして使用し、現実的な画像を生成する。
明示的な3次元幾何制御により、生成した画像中のオブジェクトの3次元構造を容易に変更でき、グラウンドトルース3Dアノテーションを自動で取得できる。
これにより、例えば分類や3次元ポーズ推定といった幅広い視覚タスクを、内分布(ID)と外分布(OOD)の両方で改善することができる。
我々は,ImageNet-100/200, ImageNet-R, PASCAL3D+, ObjectNet3D, OOD-CV の広範な実験により提案手法の有効性を実証した。
その結果,DeiT-Bを用いたImageNet-100では既存の手法よりも3.8ポイント優れていた。
Diffusion models have emerged as a powerful generative method, capable of producing stunning photo-realistic images from natural language descriptions. However, these models lack explicit control over the 3D structure in the generated images. Consequently, this hinders our ability to obtain detailed 3D annotations for the generated images or to craft instances with specific poses and distances. In this paper, we propose 3D Diffusion Style Transfer (3D-DST), which incorporates 3D geometry control into diffusion models. Our method exploits ControlNet, which extends diffusion models by using visual prompts in addition to text prompts. We generate images of the 3D objects taken from 3D shape repositories~(e.g., ShapeNet and Objaverse), render them from a variety of poses and viewing directions, compute the edge maps of the rendered images, and use these edge maps as visual prompts to generate realistic images. With explicit 3D geometry control, we can easily change the 3D structures of the objects in the generated images and obtain ground-truth 3D annotations automatically. This allows us to improve a wide range of vision tasks, e.g., classification and 3D pose estimation, in both in-distribution (ID) and out-of-distribution (OOD) settings. We demonstrate the effectiveness of our method through extensive experiments on ImageNet-100/200, ImageNet-R, PASCAL3D+, ObjectNet3D, and OOD-CV. The results show that our method significantly outperforms existing methods, e.g., 3.8 percentage points on ImageNet-100 using DeiT-B. | 翻訳日:2024-03-19 07:42:00 公開日:2024-03-15 |
# 断続的に観測可能な熱時間
Thermal time as an unsharp observable ( http://arxiv.org/abs/2306.13774v2 ) ライセンス: Link先を確認 | Jan van Neerven, Pierre Portal, | (参考訳) 量子調和振動子に付随するConnes-Rovelli熱時間は(非シャープ)観測可能、すなわち正の演算子値測定値として記述できることを示す。
さらに、この結果を1次元の自由質量を持たない相対論的粒子や、非可換積分によって平衡状態が与えられる仮説物理系に拡張する。
We show that the Connes-Rovelli thermal time associated with the quantum harmonic oscillator can be described as an (unsharp) observable, that is, as a positive operator valued measure. We furthermore present extensions of this result to the free massless relativistic particle in one dimension and to a hypothetical physical system whose equilibrium state is given by the noncommutative integral. | 翻訳日:2024-03-19 07:32:15 公開日:2024-03-15 |
# ステレオマッチングのための適応型多モードクロスエントロピー損失
Adaptive Multi-Modal Cross-Entropy Loss for Stereo Matching ( http://arxiv.org/abs/2306.15612v2 ) ライセンス: Link先を確認 | Peng Xu, Zhiyu Xiang, Chenyu Qiao, Jingyun Fu, Tianyu Pu, | (参考訳) ステレオマッチングにおけるディープラーニングの大きな成功にもかかわらず、正確な格差マップの復元は依然として困難である。
現在、L1とクロスエントロピーはステレオネットワークトレーニングにおいて最も広く使われている2つの損失である。
前者と比較して、後者は確率モデリングとコストボリュームの直接監督により、通常より優れた性能を発揮する。
しかし、クロスエントロピー損失のための立体構造を正確にモデル化する方法はほとんど探索されていない。
既存の研究は、接地構造分布がユニモーダルであることを単純に仮定し、エッジピクセルの大半がマルチモーダルであるという事実を無視している。
本稿では,ADL(Adaptive Multi-modal Cross-Entropy Los)を提案する。
さらに, 差分推定器を最適化することにより, 推論における出血や誤認識を緩和する。
実験の結果,本手法は汎用的であり,従来のステレオネットワークが最先端の性能を取り戻すのに役立つことが示された。
特に,本手法を用いたGANetは,KITTI 2015 と 2012 のベンチマークでそれぞれ$ $1^{st}$ である。
一方、従来の損失を我々のものに置き換えることで、優れた合成と現実の一般化性能を実現することができる。
Despite the great success of deep learning in stereo matching, recovering accurate disparity maps is still challenging. Currently, L1 and cross-entropy are the two most widely used losses for stereo network training. Compared with the former, the latter usually performs better thanks to its probability modeling and direct supervision to the cost volume. However, how to accurately model the stereo ground-truth for cross-entropy loss remains largely under-explored. Existing works simply assume that the ground-truth distributions are uni-modal, which ignores the fact that most of the edge pixels can be multi-modal. In this paper, a novel adaptive multi-modal cross-entropy loss (ADL) is proposed to guide the networks to learn different distribution patterns for each pixel. Moreover, we optimize the disparity estimator to further alleviate the bleeding or misalignment artifacts in inference. Extensive experimental results show that our method is generic and can help classic stereo networks regain state-of-the-art performance. In particular, GANet with our method ranks $1^{st}$ on both the KITTI 2015 and 2012 benchmarks among the published methods. Meanwhile, excellent synthetic-to-realistic generalization performance can be achieved by simply replacing the traditional loss with ours. | 翻訳日:2024-03-19 07:32:15 公開日:2024-03-15 |
# 投票に基づくマルチモーダル自動偽造検出
Voting-based Multimodal Automatic Deception Detection ( http://arxiv.org/abs/2307.07516v3 ) ライセンス: Link先を確認 | Lana Touma, Mohammad Al Horani, Manar Tailouni, Anas Dahabiah, Khloud Al Jallad, | (参考訳) 自動偽証検出は長い間ホットな研究トピックであり、機械学習とディープラーニングを使って偽証を自動的に検出し、この古い分野に新たな光をもたらす。
本稿では,音声,視覚的,語彙的特徴を用いたビデオからの自動偽造検出のための投票方式を提案する。
ミシガン大学のリアルライフトライアルデータセットとマイアミ大学の偽装検出データセットの2つのデータセットで実験が行われた。
ビデオサンプルは、画像、オーディオ、原稿のフレームに分割された。
我々の投票に基づくマルチモーダル・ソリューションは3つのモデルから成り立っている。
第1のモデルは画像から詐欺を検出するCNNであり、第2のモデルはMelスペクトログラム上のサポートベクトルマシン(SVM)であり、第3のモデルは原稿からの詐欺を検出するWord2Vec on Support Vector Machine(SVM)である。
提案手法は最先端のソリューションよりも優れている。
画像,音声,テキストで得られた最良の結果は,実生活試験データセットで97%,96%,97%,82%,動画,音声,テキストで73%であった。
Automatic Deception Detection has been a hot research topic for a long time, using machine learning and deep learning to automatically detect deception, brings new light to this old field. In this paper, we proposed a voting-based method for automatic deception detection from videos using audio, visual and lexical features. Experiments were done on two datasets, the Real-life trial dataset by Michigan University and the Miami University deception detection dataset. Video samples were split into frames of images, audio, and manuscripts. Our Voting-based Multimodal proposed solution consists of three models. The first model is CNN for detecting deception from images, the second model is Support Vector Machine (SVM) on Mel spectrograms for detecting deception from audio and the third model is Word2Vec on Support Vector Machine (SVM) for detecting deception from manuscripts. Our proposed solution outperforms state of the art. Best results achieved on images, audio and text were 97%, 96%, 92% respectively on Real-Life Trial Dataset, and 97%, 82%, 73% on video, audio and text respectively on Miami University Deception Detection. | 翻訳日:2024-03-19 07:32:15 公開日:2024-03-15 |
# 自己整合性: 地中真実を伴わない因果発見の評価
Self-Compatibility: Evaluating Causal Discovery without Ground Truth ( http://arxiv.org/abs/2307.09552v2 ) ライセンス: Link先を確認 | Philipp M. Faller, Leena Chennuru Vankadara, Atalanti A. Mastakouri, Francesco Locatello, Dominik Janzing, | (参考訳) 因果的基底真理は非常に稀であるため、因果的発見アルゴリズムは一般的にシミュレーションデータでのみ評価される。
このことは、ノイズ分布やモデルクラスなどに関するプロセスの生成について、シミュレーションが先入観を反映していることに関係している。
本研究では,基底真理が欠如している場合に因果探索アルゴリズムの出力をfalsificationする新しい手法を提案する。
我々の重要な洞察は、統計的学習がデータポイントのサブセット間の安定性を求める一方で、因果学習は変数のサブセット間の安定性を求めるべきであるということである。
この知見により、本手法は変数の異なる部分集合で学習した因果グラフ間の整合性の概念に依存している。
本研究では,不整合性の検出が,仮定や誤差が有限なサンプル効果によって誤って因果関係を推定することを証明する。
このような整合性テストの通過は, 良好な性能を示す上で必要な基準に過ぎないが, 整合性が結合分布に強い影響を及ぼす場合, 因果関係モデルに対して強い証拠を与えると論じる。
また,不整合の検出が因果モデル選択に有効であることを示す。
As causal ground truth is incredibly rare, causal discovery algorithms are commonly only evaluated on simulated data. This is concerning, given that simulations reflect preconceptions about generating processes regarding noise distributions, model classes, and more. In this work, we propose a novel method for falsifying the output of a causal discovery algorithm in the absence of ground truth. Our key insight is that while statistical learning seeks stability across subsets of data points, causal learning should seek stability across subsets of variables. Motivated by this insight, our method relies on a notion of compatibility between causal graphs learned on different subsets of variables. We prove that detecting incompatibilities can falsify wrongly inferred causal relations due to violation of assumptions or errors from finite sample effects. Although passing such compatibility tests is only a necessary criterion for good performance, we argue that it provides strong evidence for the causal models whenever compatibility entails strong implications for the joint distribution. We also demonstrate experimentally that detection of incompatibilities can aid in causal model selection. | 翻訳日:2024-03-19 07:32:15 公開日:2024-03-15 |
# 事前学習したエンコーダに基づく言語モデルに対する正確なリトレーニングフリープルーニング
Accurate Retraining-free Pruning for Pretrained Encoder-based Language Models ( http://arxiv.org/abs/2308.03449v2 ) ライセンス: Link先を確認 | Seungcheol Park, Hojun Choi, U Kang, | (参考訳) 事前訓練されたエンコーダベースの言語モデルを考えると、リトレーニングなしで正確に圧縮できるだろうか?
リトレーニングフリーな構造化プルーニングアルゴリズムは、大規模言語モデルのプルーニング能力と大幅に削減されたプルーニングコストのために、事前訓練された言語モデルの圧縮に不可欠である。
しかし、既存のリトレーニングフリーアルゴリズムは、特に高い圧縮速度でプルーニングエラーを処理できないため、精度が著しく低下する。
本稿では,事前学習したエンコーダに基づく言語モデルに対して,K-prune (Knowledge-serving pruning) を提案する。
K-pruneは、知識測定、知識保存マスクサーチ、知識保存ウェイトチューニングからなる、慎重に設計された反復的プルーニングプロセスを通じて、プレトレーニングされたモデルの有用な知識を保存し、プルーニングエラーを最小限に抑えることに焦点を当てている。
その結果、K-pruneは、SQuADベンチマークの80%の圧縮率で既存の再トレーニングなしプルーニングアルゴリズムと比較して、最大58.02%pのF1スコアの大幅な精度向上を示した。
Given a pretrained encoder-based language model, how can we accurately compress it without retraining? Retraining-free structured pruning algorithms are crucial in pretrained language model compression due to their significantly reduced pruning cost and capability to prune large language models. However, existing retraining-free algorithms encounter severe accuracy degradation, as they fail to handle pruning errors, especially at high compression rates. In this paper, we propose K-prune (Knowledge-preserving pruning), an accurate retraining-free structured pruning algorithm for pretrained encoder-based language models. K-prune focuses on preserving the useful knowledge of the pretrained model to minimize pruning errors through a carefully designed iterative pruning process composed of knowledge measurement, knowledge-preserving mask search, and knowledge-preserving weight-tuning. As a result, K-prune shows significant accuracy improvements up to 58.02%p higher F1 score compared to existing retraining-free pruning algorithms under a high compression rate of 80% on the SQuAD benchmark without any retraining process. | 翻訳日:2024-03-19 07:32:15 公開日:2024-03-15 |
# 機械学習: 解決策と課題
Machine Unlearning: Solutions and Challenges ( http://arxiv.org/abs/2308.07061v3 ) ライセンス: Link先を確認 | Jie Xu, Zihan Wu, Cong Wang, Xiaohua Jia, | (参考訳) 機械学習モデルは、機密性、不正、悪意のあるデータを不注意に記憶し、プライバシ侵害、セキュリティ脆弱性、パフォーマンス劣化のリスクを生じさせる可能性がある。
これらの問題に対処するために、機械学習は訓練されたモデルに対する特定の訓練データポイントの影響を選択的に除去する重要なテクニックとして登場した。
本稿では,機械学習における解の包括的分類と解析について述べる。
既存のソリューションを、データの影響を徹底的に除去する正確なアンラーニングアプローチと、データの影響を効率的に最小化するアンラーニングアプローチに分類する。
ソリューションを包括的にレビューすることで、その強みと限界を特定し、議論する。
さらに,機械学習を進化させるための今後の方向性を提案し,それを信頼性と適応性のある機械学習モデルに欠かせない能力として確立する。
本稿では、研究者にオープンな問題のロードマップを提供し、選択的データ除去の現実的なニーズに対処するためのインパクトのある貢献を奨励する。
Machine learning models may inadvertently memorize sensitive, unauthorized, or malicious data, posing risks of privacy breaches, security vulnerabilities, and performance degradation. To address these issues, machine unlearning has emerged as a critical technique to selectively remove specific training data points' influence on trained models. This paper provides a comprehensive taxonomy and analysis of the solutions in machine unlearning. We categorize existing solutions into exact unlearning approaches that remove data influence thoroughly and approximate unlearning approaches that efficiently minimize data influence. By comprehensively reviewing solutions, we identify and discuss their strengths and limitations. Furthermore, we propose future directions to advance machine unlearning and establish it as an essential capability for trustworthy and adaptive machine learning models. This paper provides researchers with a roadmap of open problems, encouraging impactful contributions to address real-world needs for selective data removal. | 翻訳日:2024-03-19 07:32:15 公開日:2024-03-15 |
# 小児脳腫瘍分節の自動アンサンブル法
Automated ensemble method for pediatric brain tumor segmentation ( http://arxiv.org/abs/2308.07212v2 ) ライセンス: Link先を確認 | Shashidhar Reddy Javaji, Sovesh Mohapatra, Advait Gosai, Gottfried Schlaug, | (参考訳) 脳腫瘍は依然として重要な世界的な健康問題であり、診断技術や治療方法の進歩を必要としている。
腫瘍またはその再発はしばしば、画像研究において識別され、正常な脳組織と区別される必要がある。
年齢別セグメンテーションモデル(特に小児患者)の必要性が高まっている中で,MRIを用いた深層学習技術の展開について検討した。
ONetとUNetの修正版と革新的な損失関数を組み合わせた新しいアンサンブルアプローチを導入することにより、BraTS-PEDs 2023 Challengeの正確なセグメンテーションモデルを実現する。
単一および複合変換を含むデータ拡張は、異なるスキャンプロトコル間でモデルの堅牢性と正確性を保証する。
ONet と UNet モデルを統合したアンサンブル戦略は、MRI 画像の特定の特徴を捉え、病変の賢明さをもたらす様々な側面をモデル化し、未確認の検証データでは Dice スコアが 0.52, 0.72, 0.78 となり、それぞれ "enhancing tumor" と "tumor core" と "whole tumor" ラベルの最終的なテストデータでは 0.55, 0.70, 0.79 となる。
画像比較により, 正確な腫瘍領域被覆において, アンサンブル法が優れていることが確認された。
その結果、この高度なアンサンブルアプローチは、個々のモデルの独特な強みの上に構築され、診断精度を向上し、小児脳の脳腫瘍の効果的な治療計画とモニタリングを行うための有望な可能性をもたらすことが示唆された。
Brain tumors remain a critical global health challenge, necessitating advancements in diagnostic techniques and treatment methodologies. A tumor or its recurrence often needs to be identified in imaging studies and differentiated from normal brain tissue. In response to the growing need for age-specific segmentation models, particularly for pediatric patients, this study explores the deployment of deep learning techniques using magnetic resonance imaging (MRI) modalities. By introducing a novel ensemble approach using ONet and modified versions of UNet, coupled with innovative loss functions, this study achieves a precise segmentation model for the BraTS-PEDs 2023 Challenge. Data augmentation, including both single and composite transformations, ensures model robustness and accuracy across different scanning protocols. The ensemble strategy, integrating the ONet and UNet models, shows greater effectiveness in capturing specific features and modeling diverse aspects of the MRI images which result in lesion wise Dice scores of 0.52, 0.72 and 0.78 on unseen validation data and scores of 0.55, 0.70, 0.79 on final testing data for the "enhancing tumor", "tumor core" and "whole tumor" labels respectively. Visual comparisons further confirm the superiority of the ensemble method in accurate tumor region coverage. The results indicate that this advanced ensemble approach, building upon the unique strengths of individual models, offers promising prospects for enhanced diagnostic accuracy and effective treatment planning and monitoring for brain tumors in pediatric brains. | 翻訳日:2024-03-19 07:32:15 公開日:2024-03-15 |
# 視覚皮質の幾何学と画像強調への応用
Geometry of the Visual Cortex with Applications to Image Inpainting and Enhancement ( http://arxiv.org/abs/2308.07652v3 ) ライセンス: Link先を確認 | Francesco Ballerin, Erlend Grong, | (参考訳) ロート翻訳群$SE(2)$を視覚野V1にインスパイアされたサブリーマン構造で取得し,低楕円波拡散に基づく画像の着色と強調のためのアルゴリズムを提案する。
我々はCitti, Sarti, Boscainらによる従来の手法の実装を革新し, フェードを防止し, WaxOn-WaxOff と呼ばれる手順でよりシャープな結果を生成する方法を提案する。
また,2次元画像処理のための古典的アンシャープフィルタに類似した$SE(2)$を用いて,完全に新しいアンシャープフィルタを定義するために,サブリーマン構造を利用する。
網膜シンチグラフィーにおける血管造影法について検討した。
Equipping the rototranslation group $SE(2)$ with a sub-Riemannian structure inspired by the visual cortex V1, we propose algorithms for image inpainting and enhancement based on hypoelliptic diffusion. We innovate on previous implementations of the methods by Citti, Sarti, and Boscain et al., by proposing an alternative that prevents fading and is capable of producing sharper results in a procedure that we call WaxOn-WaxOff. We also exploit the sub-Riemannian structure to define a completely new unsharp filter using $SE(2)$, analogous to the classical unsharp filter for 2D image processing. We demonstrate our method on blood vessels enhancement in retinal scans. | 翻訳日:2024-03-19 07:32:15 公開日:2024-03-15 |
# スパイクニューラルネットワークの表現性
Expressivity of Spiking Neural Networks ( http://arxiv.org/abs/2308.08218v2 ) ライセンス: Link先を確認 | Manjot Singh, Adalbert Fono, Gitta Kutyniok, | (参考訳) スパイクニューラルネットワークとニューロモルフィックハードウェアの相乗効果は、エネルギー効率の良いAIアプリケーションの開発を約束する。
この可能性に触発されて、我々は基礎的な側面を再考し、ニューロンの発射時間に情報を符号化する神経回路をスパイクする能力について研究する。
スパイク応答モデルでは、スパイク応答関数を持つスパイクニューロンの数学的モデルとして、人工ニューラルネットワークとスパイクニューラルネットワークの表現力を比較する。
ReLUネットワークとは対照的に、スパイクニューラルネットワークは連続関数と不連続関数の両方を実現することができる。
さらに,多層ニューラルネットワーク(ReLU)をエミュレートするために,スパイクニューラルネットワークのサイズによる複雑性境界を提供する。
連続的な設定を制限することにより、一層スパイクニューラルネットワークの逆方向の複雑性境界も確立する。
The synergy between spiking neural networks and neuromorphic hardware holds promise for the development of energy-efficient AI applications. Inspired by this potential, we revisit the foundational aspects to study the capabilities of spiking neural networks where information is encoded in the firing time of neurons. Under the Spike Response Model as a mathematical model of a spiking neuron with a linear response function, we compare the expressive power of artificial and spiking neural networks, where we initially show that they realize piecewise linear mappings. In contrast to ReLU networks, we prove that spiking neural networks can realize both continuous and discontinuous functions. Moreover, we provide complexity bounds on the size of spiking neural networks to emulate multi-layer (ReLU) neural networks. Restricting to the continuous setting, we also establish complexity bounds in the reverse direction for one-layer spiking neural networks. | 翻訳日:2024-03-19 07:32:15 公開日:2024-03-15 |
# 一般量子前兆を持つ観測エントロピー
Observational entropy with general quantum priors ( http://arxiv.org/abs/2308.08763v2 ) ライセンス: Link先を確認 | Ge Bai, Dominik Šafránek, Joseph Schindler, Francesco Buscemi, Valerio Scarani, | (参考訳) 観測エントロピーは熱力学状態の本質的な不確実性と粗粒化による知識の欠如の両方を捉えている。
本稿では,観測エントロピーの2つの解釈について述べる。一方は測定結果の統計的欠如であり,他方は量子ベイズ回帰法による測定統計から入力状態の推測が困難であることを示す。
これらの解釈は、観測エントロピーが暗黙的に一様参照を含むことを示している。
系が無限次元である場合やエネルギー制約がある場合、均一な事前は使用できないため、均一な量子状態に置き換えることで一般化を提案する。
この一般化の候補を3つ提案し、それらの特性について議論し、そのうちの1つが両解釈を関連づけた統一表現であることを示す。
Observational entropy captures both the intrinsic uncertainty of a thermodynamic state and the lack of knowledge due to coarse-graining. We demonstrate two interpretations of observational entropy, one as the statistical deficiency resulting from a measurement, the other as the difficulty of inferring the input state from the measurement statistics by quantum Bayesian retrodiction. These interpretations show that the observational entropy implicitly includes a uniform reference prior. Since the uniform prior cannot be used when the system is infinite-dimensional or otherwise energy-constrained, we propose generalizations by replacing the uniform prior with arbitrary quantum states that may not even commute with the state of the system. We propose three candidates for this generalization, discuss their properties, and show that one of them gives a unified expression that relates both interpretations. | 翻訳日:2024-03-19 07:32:15 公開日:2024-03-15 |
# フェデレーションラーニングにおける分散資源管理のための価格差別ゲーム
Price-Discrimination Game for Distributed Resource Management in Federated Learning ( http://arxiv.org/abs/2308.13838v5 ) ライセンス: Link先を確認 | Han Zhang, Halvin Yang, Guopeng Zhang, | (参考訳) FedAvgのようなバニラ連合学習(FL)では、パラメータサーバ(PS)と複数の分散クライアントが典型的な買い手市場を形成し、FLサービスのPS/購入者数はクライアント/販売者数よりはるかに少ない。
本稿では、FLの性能向上と、FLに参加するクライアントの動機付けコストの低減を図るため、異なるクライアントに対して同じサービス価格を提供するのではなく、異なるクライアントが提供するサービスの価格を区別することを提案する。
FLがもたらす性能改善と、コンピューティングと通信能力における不均一性に基づいて、価格が差別化されている。
この目的のために、多目的トレードオフ、クライアント選択、インセンティブ機構を含むFLの分散リソース管理問題に包括的に対処するために、価格判別ゲーム(PDG)を定式化する。
PDGは混合整数非線形プログラミング(MINLP)問題であるため、計算複雑性が低く通信オーバーヘッドの少ない分散半ヒューリスティックアルゴリズムがこの問題を解決するために設計されている。
シミュレーションの結果,提案手法の有効性を検証した。
In vanilla federated learning (FL) such as FedAvg, the parameter server (PS) and multiple distributed clients can form a typical buyer's market, where the number of PS/buyers of FL services is far less than the number of clients/sellers. In order to improve the performance of FL and reduce the cost of motivating clients to participate in FL, this paper proposes to differentiate the pricing for services provided by different clients rather than simply providing the same service pricing for different clients. The price is differentiated based on the performance improvements brought to FL and their heterogeneity in computing and communication capabilities. To this end, a price-discrimination game (PDG) is formulated to comprehensively address the distributed resource management problems in FL, including multi-objective trade-off, client selection, and incentive mechanism. As the PDG is a mixed-integer nonlinear programming (MINLP) problem, a distributed semi-heuristic algorithm with low computational complexity and low communication overhead is designed to solve it. The simulation result verifies the effectiveness of the proposed approach. | 翻訳日:2024-03-19 07:32:15 公開日:2024-03-15 |
# 言語エージェントのための認知アーキテクチャ
Cognitive Architectures for Language Agents ( http://arxiv.org/abs/2309.02427v3 ) ライセンス: Link先を確認 | Theodore R. Sumers, Shunyu Yao, Karthik Narasimhan, Thomas L. Griffiths, | (参考訳) 近年,大規模言語モデル (LLM) を外部リソース (例えばインターネット) や内部制御フロー (例えば,即時連鎖) で拡張し,基礎化や推論を必要とするタスクを処理し,新たな言語エージェントを創出している。
これらのエージェントは経験的成功をおさめたものの,既存のエージェントを組織化し,今後の展開を計画するための体系的な枠組みは欠如している。
本稿では,認知科学と象徴的人工知能の豊富な歴史を振り返り,言語エージェントのための認知アーキテクチャ(CoALA)を提案する。
CoALAはモジュラーメモリコンポーネントを備えた言語エージェント、内部メモリと外部環境と相互作用する構造化されたアクションスペース、アクションを選択するための一般的な意思決定プロセスを記述する。
我々は、CoALAを使用して、振り返りによる調査と、最近の多くの作業の組織化を行い、より有能なエージェントに対する行動可能な方向を前向きに特定します。
CoALAはAIの幅広い歴史の中で、今日の言語エージェントを文脈的に扱い、言語ベースの汎用インテリジェンスへの道筋を概説している。
Recent efforts have augmented large language models (LLMs) with external resources (e.g., the Internet) or internal control flows (e.g., prompt chaining) for tasks requiring grounding or reasoning, leading to a new class of language agents. While these agents have achieved substantial empirical success, we lack a systematic framework to organize existing agents and plan future developments. In this paper, we draw on the rich history of cognitive science and symbolic artificial intelligence to propose Cognitive Architectures for Language Agents (CoALA). CoALA describes a language agent with modular memory components, a structured action space to interact with internal memory and external environments, and a generalized decision-making process to choose actions. We use CoALA to retrospectively survey and organize a large body of recent work, and prospectively identify actionable directions towards more capable agents. Taken together, CoALA contextualizes today's language agents within the broader history of AI and outlines a path towards language-based general intelligence. | 翻訳日:2024-03-19 06:53:05 公開日:2024-03-15 |
# 反事実生成の過程を知識の源として見る--分類器の説明のための新しいアプローチ
Viewing the process of generating counterfactuals as a source of knowledge: a new approach for explaining classifiers ( http://arxiv.org/abs/2309.04284v3 ) ライセンス: Link先を確認 | Vincent Lemaire, Nathan Le Boudec, Victor Guyomard, Françoise Fessant, | (参考訳) 現在、機械学習モデルの決定を理解するための説明可能なAIメソッドが多数存在する。
そのうちの1つは、特徴の変化をシミュレートし、予測への影響を観察する反事実的推論に基づくものである。
本稿では,このシミュレーションプロセスを,使用可能な知識を,後に異なる方法で生成するための情報源として捉えることを提案する。
この過程は加法モデルで説明され、より具体的には、この目的の興味深い性質を示すネーブ・ベイズ分類器の場合に説明される。
There are now many explainable AI methods for understanding the decisions of a machine learning model. Among these are those based on counterfactual reasoning, which involve simulating features changes and observing the impact on the prediction. This article proposes to view this simulation process as a source of creating a certain amount of knowledge that can be stored to be used, later, in different ways. This process is illustrated in the additive model and, more specifically, in the case of the naive Bayes classifier, whose interesting properties for this purpose are shown. | 翻訳日:2024-03-19 06:53:05 公開日:2024-03-15 |
# 地球科学と基礎モデル:一般地球科学人工知能システムを目指して
When Geoscience Meets Foundation Models: Towards General Geoscience Artificial Intelligence System ( http://arxiv.org/abs/2309.06799v3 ) ライセンス: Link先を確認 | Hao Zhang, Jin-Jian Xu, Hong-Wei Cui, Lin Li, Yaowen Yang, Chao-Sheng Tang, Niklas Boers, | (参考訳) 地球科学基礎モデル (GFMs) は、地球系の力学のシミュレーションと理解を改善するために大規模な学際データを統合するための、地球科学における革命的なアプローチである。
データ中心の人工知能パラダイムとして、GFMは構造化データと非構造化データのペタバイトから貴重な洞察を抽出する。
タスク仕様、多様なインプットとアウトプット、マルチモーダルな知識表現におけるそれらの汎用性は、個々のデータソースの能力を超越した包括的な分析を可能にする。
GFMのスケーラビリティと一般化性は、地球システムコンポーネント間の複雑な相互作用に関連する様々な予測、シミュレーション、決定タスクに対処することを可能にする。
観測されたパターンや変化の根底にある因果的メカニズムを明らかにすることで、GFMは地球系の知識と様々なドライバや摂動に対する応答の促進に貢献します。
ドメインの専門家とコンピュータ科学者のコラボレーションは、地球の歴史、現在、未来を理解する上で、これらの貴重なツールにおいて、イノベーションを育む上で重要な役割を担います。
さらに,GFM,特にリモートセンシングアプリケーションを構築するための重要な技術を含む最近の進歩を紹介する。
しかし、検証と検証、スケーラビリティ、解釈可能性、知識表現、社会的偏見への対処には課題が残っている。
今後は、学際的なチームワークを通じて、モデル統合、解決、正確性、エクイティを強化することが鍵となる。
現在の制限にもかかわらず、GFMは、気候変動、自然災害、持続可能性などの問題に対する重要な洞察を複数のシナリオを探索し、不確実性を定量化する能力を通じて提供することを約束している。
データ駆動モデリングへの彼らの継続的な進化は、地球科学のパラダイムシフトの可能性を秘めている。
Geoscience foundation models (GFMs) represent a revolutionary approach within Earth sciences to integrate massive cross-disciplinary data for improved simulation and understanding of Earth system dynamics. As a data-centric artificial intelligence paradigm, GFMs extract valuable insights from petabytes of both structured and unstructured data. Their versatility in task specification, diverse inputs and outputs, and multi-modal knowledge representation enable a comprehensive analysis that surpasses the capabilities of individual data sources. Critically, the scalability and generalizability of GFMs empower them to address a wide array of prediction, simulation, and decision tasks related to the intricate interactions among Earth system components. By unraveling the causal mechanisms underlying observed patterns and changes, GFMs contribute to advancing our knowledge of the Earth system and its responses to various drivers and perturbations. Collaboration between domain experts and computer scientists plays a pivotal role in fostering innovations in these invaluable tools for understanding the past, present, and future of our planet. Moreover, we introduce recent advances including key technologies for constructing GFMs, especially remote sensing applications. However, challenges remain in validation and verification, scalability, interpretability, knowledge representation, and addressing social bias. Going forward, the key lies in enhancing model integration, resolution, accuracy, and equity through interdisciplinary teamwork. Despite current limitations, GFMs hold great promise for providing critical insights into pressing issues including climate change, natural hazards, and sustainability through their ability to explore multiple scenarios and quantify uncertainties. Their continued evolution toward integrated, data-driven modeling holds paradigm-shifting potential for Earth science. | 翻訳日:2024-03-19 04:50:58 公開日:2024-03-15 |
# 量子コンピュータにおける線形微分方程式の解法コスト--明示的な資源数への高速フォワード
The cost of solving linear differential equations on a quantum computer: fast-forwarding to explicit resource counts ( http://arxiv.org/abs/2309.07881v2 ) ライセンス: Link先を確認 | David Jennings, Matteo Lostaglio, Robert B. Lowrie, Sam Pallister, Andrew T. Sornborger, | (参考訳) 量子コンピュータはいかに古典力学系をシミュレートできるか?
ハミルトンシミュレーション以外の力学を効率的にシミュレートする量子アルゴリズムの開発には多くの取り組みがあるが、今のところ正確な資源推定は分かっていない。
この仕事において、私たちは2つの重要な貢献をします。
まず、一般線型常微分方程式に対する解を量子状態に符号化するコストを、最後に解を符号化するか、時間間隔で歴史全体を符号化するという、最初の漸近的でない計算を与える。
第二に、古典力学の大規模クラスの安定性は、その高速なフォワードを可能にし、量子シミュレーションをはるかに時間効率良くすることを示した。
この観点から、量子ハミルトニアン力学は、この安定性によって引き起こされる高速なフォワードを許さない境界ケースである。
特に、任意の安定線型系に対して、履歴状態は常に複雑性$O(T^{1/2})$で出力できることが分かる。
様々な体制における最先端技術に対する漸近的な改善について述べる。
本稿では, 線形化プラズマ問題, 結合型, 減衰型, 強制型高調波発振器, 散逸性非線形問題など, 一連の力学系について述べる。
この場合、スケーリングは2次的に改善され、関連するすべての定数プレファクターを含めると、クエリ数が大幅に削減される。
How well can quantum computers simulate classical dynamical systems? There is increasing effort in developing quantum algorithms to efficiently simulate dynamics beyond Hamiltonian simulation, but so far exact resource estimates are not known. In this work, we provide two significant contributions. First, we give the first non-asymptotic computation of the cost of encoding the solution to general linear ordinary differential equations into quantum states -- either the solution at a final time, or an encoding of the whole history within a time interval. Second, we show that the stability properties of a large class of classical dynamics allow their fast-forwarding, making their quantum simulation much more time-efficient. From this point of view, quantum Hamiltonian dynamics is a boundary case that does not allow this form of stability-induced fast-forwarding. In particular, we find that the history state can always be output with complexity $O(T^{1/2})$ for any stable linear system. We present a range of asymptotic improvements over state-of-the-art in various regimes. We illustrate our results with a family of dynamics including linearized collisional plasma problems, coupled, damped, forced harmonic oscillators and dissipative nonlinear problems. In this case the scaling is quadratically improved, and leads to significant reductions in the query counts after inclusion of all relevant constant prefactors. | 翻訳日:2024-03-19 04:41:11 公開日:2024-03-15 |
# リモート光胸腺撮影による顔面キンシップの検証
Facial Kinship Verification from remote photoplethysmography ( http://arxiv.org/abs/2309.08006v2 ) ライセンス: Link先を確認 | Xiaoting Wu, Xiaoyi Feng, Constantino Álvarez Casado, Lili Liu, Miguel Bordallo López, | (参考訳) FKV(Facial Kinship Verification)は、2人の被験者が人間の顔に基づいて血縁関係を持つかどうかを自動的に判定することを目的としている。
行方不明の子供の発見やソーシャルメディア分析に応用できる可能性がある。
従来のFKVは、スプーフ攻撃に脆弱であり、プライバシーの問題を引き起こすため、課題に直面している。
本稿では,生体信号を用いたFKV実験を初めて実施し,遠隔光断層撮影(rPPG)に焦点を当てた。
rPPG信号は顔の映像から抽出され、心臓の鼓動によって皮膚から放射され検出される可視光の反射の変化を測定する1次元信号となる。
具体的には,1DCNN-Attentionモジュールとkinship contrastive lossを併用した1次元畳み込みニューラルネットワーク(1DCNN)を用いて,RPPGの類似性を学習した。
ネットワークは、様々な関心領域(ROI)から抽出された複数のrPPG信号を入力として取り出す。
さらに、1DCNNアテンションモジュールは、特徴埋め込みから識別的親類機能を学習し、キャプチャするように設計されている。
最後に、異なる親族関係からUvANEMO Smile Databaseで実験評価を行い、親族関係を検出するためのrPPGの実現可能性を示す。
Facial Kinship Verification (FKV) aims at automatically determining whether two subjects have a kinship relation based on human faces. It has potential applications in finding missing children and social media analysis. Traditional FKV faces challenges as it is vulnerable to spoof attacks and raises privacy issues. In this paper, we explore for the first time the FKV with vital bio-signals, focusing on remote Photoplethysmography (rPPG). rPPG signals are extracted from facial videos, resulting in a one-dimensional signal that measures the changes in visible light reflection emitted to and detected from the skin caused by the heartbeat. Specifically, in this paper, we employed a straightforward one-dimensional Convolutional Neural Network (1DCNN) with a 1DCNN-Attention module and kinship contrastive loss to learn the kin similarity from rPPGs. The network takes multiple rPPG signals extracted from various facial Regions of Interest (ROIs) as inputs. Additionally, the 1DCNN attention module is designed to learn and capture the discriminative kin features from feature embeddings. Finally, we demonstrate the feasibility of rPPG to detect kinship with the experiment evaluation on the UvANEMO Smile Database from different kin relations. | 翻訳日:2024-03-19 04:41:11 公開日:2024-03-15 |
# トラベリングウェーブは、最近の過去とエンハンス・シーケンス学習を符号化する
Traveling Waves Encode the Recent Past and Enhance Sequence Learning ( http://arxiv.org/abs/2309.08045v2 ) ライセンス: Link先を確認 | T. Anderson Keller, Lyle Muller, Terrence Sejnowski, Max Welling, | (参考訳) 神経活動の進行波は脳全体で様々な領域やスケールで観測されているが、その正確な計算的役割は議論されている。
ある物理的にインスピレーションを受けた仮説は、皮質シートが、皮質表面を横断する誘導波を通して、連続的な刺激の短期記憶を無意識に保存できる波動伝播系のように振る舞うことを示唆している。
しかし、このアイデアの計算的意味は、そのような波を表現できる単純なリカレントニューラルネットワークアーキテクチャが欠如しているため、いまだに仮説的のままである。
本稿では、このギャップを埋めるモデルを紹介し、このアーキテクチャが、WRNNよりも高速に学習し、エラーをかなり少なくする合成メモリタスクを通じて、どのようにして近年の過去を効率的にエンコードしているかを示す。
さらに, 逐次画像分類などの複雑なシーケンスモデリングタスクにおいて, このメモリ記憶システムが持つ意味を考察し, パラメータを著しく少なくしながら, ウェーブベースモデルが再び同等のウェーブフリーRNNより優れているだけでなく, LSTMやGRUといったより複雑なゲートアーキテクチャと相容れないことを見出した。
Traveling waves of neural activity have been observed throughout the brain at a diversity of regions and scales; however, their precise computational role is still debated. One physically inspired hypothesis suggests that the cortical sheet may act like a wave-propagating system capable of invertibly storing a short-term memory of sequential stimuli through induced waves traveling across the cortical surface, and indeed many experimental results from neuroscience correlate wave activity with memory tasks. To date, however, the computational implications of this idea have remained hypothetical due to the lack of a simple recurrent neural network architecture capable of exhibiting such waves. In this work, we introduce a model to fill this gap, which we denote the Wave-RNN (wRNN), and demonstrate how such an architecture indeed efficiently encodes the recent past through a suite of synthetic memory tasks where wRNNs learn faster and reach significantly lower error than wave-free counterparts. We further explore the implications of this memory storage system on more complex sequence modeling tasks such as sequential image classification and find that wave-based models not only again outperform comparable wave-free RNNs while using significantly fewer parameters, but additionally perform comparably to more complex gated architectures such as LSTMs and GRUs. | 翻訳日:2024-03-19 04:41:11 公開日:2024-03-15 |
# 米国の量子情報教育における格差
Disparities in access to US quantum information education ( http://arxiv.org/abs/2309.08629v3 ) ライセンス: Link先を確認 | Josephine C. Meyer, Gina Passante, Bethany R. Wilcox, | (参考訳) 2018年の国家量子イニシアティブ法(National Quantum Initiative Act of 2018)により、量子情報科学(QIS)のコースワークと学位プログラムが米国の機関に急速に普及している。
しかし、以前の研究は、量子労働者教育へのアクセスが不平等に分散しており、学生団体が米国全体の高等教育を代表していない民間の研究機関の学生に不公平に利益をもたらすことを示唆していた。
我々は、2022年秋時点で456の高等教育機関におけるQISコースワークの分布を分析するために回帰分析を用い、特に制度分類、資金提供、地理的分布の軸に沿った機関間での統計的に重要な格差を特定し、今日のQIS教育プログラムが低所得・農村の学生にほとんど届かないことを示唆している。
また、新たな専用QIS学位プログラムの分布を簡潔に分析し、ほぼ同じ傾向を呈する。
我々は、低所得・農村の学生を対象とする学校へのQIS教育への直接投資、量子コミュニティ内で発生した既存の草の根の多様性と包摂的イニシアチブの活用、QIS教育データ収集のための手順の更新・近代化など、教育者、政策立案者、教育研究者への意味の議論から締めくくくった。
Driven in large part by the National Quantum Initiative Act of 2018, quantum information science (QIS) coursework and degree programs are rapidly spreading across US institutions. Yet prior work suggests that access to quantum workforce education is unequally distributed, disproportionately benefiting students at private research-focused institutions whose student bodies are unrepresentative of US higher education as a whole. We use regression analysis to analyze the distribution of QIS coursework across 456 institutions of higher learning as of fall 2022, identifying statistically significant disparities across institutions in particular along the axes of institution classification, funding, and geographic distribution suggesting today's QIS education programs are largely failing to reach low-income and rural students. We also conduct a brief analysis of the distribution of emerging dedicated QIS degree programs, discovering much the same trends. We conclude with a discussion of implications for educators, policymakers, and education researchers including specific policy recommendations to direct investments in QIS education to schools serving low-income and rural students, leverage existing grassroots diversity and inclusion initiatives that have arisen within the quantum community, and update and modernize procedures for collecting QIS educational data to better track these trends. | 翻訳日:2024-03-19 04:30:16 公開日:2024-03-15 |
# 偏光に基づく角速度測定のための循環弱値距離法
Polarization-based cyclic weak value metrology for angular velocity measurement ( http://arxiv.org/abs/2309.11041v3 ) ライセンス: Link先を確認 | Zi-Rui Zhong, Yue Chen, Wei-Jun Tan, Xiang-Ming Hu, Qing-Lin Wu, | (参考訳) 弱測定は、選択後の低い確率でほとんどの光子を捨てながら、メートルの変化の検出を増幅することが証明されている。
従来の電力リサイクル方式では、失敗した後光子の繰り返し選択が可能であり、非効率な後選択を克服し、検出精度を向上する。
本研究では, 偏光による弱値角速度測定に着目し, ガウシアンビームの時間変化検出精度を高めるための3つの循環法, 電力リサイクル, 信号リサイクル, 二重リサイクル方式を提案する。
1つまたは2つの部分透過ミラーをシステムに組み込むことで、検出された光のパワーと信号対雑音比(SNR)が大幅に向上する。
非偏光方式と比較して、偏光に基づくアプローチは、より低い光損失、一意な巡回方向、より広い最適領域など、いくつかの利点をもたらす。
これらの特徴は、異なる光路間のクロストークを効果的に低減し、理論的にウォークオフ効果を排除し、理論的性能と応用性の両方の改善をもたらす。
Weak measurement has been proven to amplify the detection of changes in meters while discarding most photons due to the low probability of post-selection. Previous power-recycling schemes enable the failed post-selection photons to be repeatedly selected, thus overcoming the inefficient post-selection and increasing the precision of detection. In this study, we focus on the polarization-based weak value angular-velocity measurement and introduce three cyclic methods to enhance the accuracy of detecting time shift in a Gaussian beam: power recycling, signal recycling, and dual recycling schemes. By incorporating one or two partially transmitting mirrors into the system, both the power and signal-to-noise ratio (SNR) of the detected light are substantially enhanced. Compared to non-polarization schemes, polarization-based approaches offer several advantages, including lower optical loss, unique cyclic directions, and a wider optimal region. These features effectively reduce crosstalk among different light paths and theoretically eliminate the walk-off effect, thus yielding improvements in both theoretical performance and application. | 翻訳日:2024-03-19 04:20:31 公開日:2024-03-15 |
# LiDAR点雲を用いた3次元線検出技術の進歩:データ収集からモデル開発へ
Advancements in 3D Lane Detection Using LiDAR Point Clouds: From Data Collection to Model Development ( http://arxiv.org/abs/2309.13596v3 ) ライセンス: Link先を確認 | Runkai Zhao, Yuwen Heng, Heng Wang, Yuanda Gao, Shilei Liu, Changhao Yao, Jiawen Chen, Weidong Cai, | (参考訳) Advanced Driver-Assistance Systems (ADAS)は、車両の認識と意思決定に学習ベースの技術を統合することに成功した。
しかし, 効率的な運転環境認識のための3次元車線検出への応用は, 包括的LiDARデータセットの欠如によって妨げられる。
LiDARポイントクラウドデータのスパースな性質は、効率的な手動アノテーションプロセスを防ぐ。
そこで本研究では,20kフレームの周辺視LiDAR点雲からなる大規模3次元レーン・データセットLiSV-3DLaneを提案する。
前景に限定された既存のデータセットとは異なり、LiSV-3DLaneはエゴ車の周りに360度の空間パノラマを提供し、都市と高速道路の両方で複雑な車線パターンを捉えている。
我々は、レーンラインの幾何学的特性とLiDARデータ固有の空間特性を利用して、より微細なレーンラベルを生成するためのシンプルで効果的な自動アノテーションパイプラインを設計する。
本研究では,LiDARを用いた新しい3次元車線検出モデルLiLaDetを提案し,LiDAR点雲の空間幾何学的学習をBird's Eye View (BEV) に基づく車線識別に取り入れた。
実験結果から,K-LaneデータセットとLiSV-3DLaneの3次元車線検出タスクにおいて,LiLaDetは既存のカメラおよびLiDARベースのアプローチよりも優れていたことが示唆された。
Advanced Driver-Assistance Systems (ADAS) have successfully integrated learning-based techniques into vehicle perception and decision-making. However, their application in 3D lane detection for effective driving environment perception is hindered by the lack of comprehensive LiDAR datasets. The sparse nature of LiDAR point cloud data prevents an efficient manual annotation process. To solve this problem, we present LiSV-3DLane, a large-scale 3D lane dataset that comprises 20k frames of surround-view LiDAR point clouds with enriched semantic annotation. Unlike existing datasets confined to a frontal perspective, LiSV-3DLane provides a full 360-degree spatial panorama around the ego vehicle, capturing complex lane patterns in both urban and highway environments. We leverage the geometric traits of lane lines and the intrinsic spatial attributes of LiDAR data to design a simple yet effective automatic annotation pipeline for generating finer lane labels. To propel future research, we propose a novel LiDAR-based 3D lane detection model, LiLaDet, incorporating the spatial geometry learning of the LiDAR point cloud into Bird's Eye View (BEV) based lane identification. Experimental results indicate that LiLaDet outperforms existing camera- and LiDAR-based approaches in the 3D lane detection task on the K-Lane dataset and our LiSV-3DLane. | 翻訳日:2024-03-19 03:51:14 公開日:2024-03-15 |
# Guess & Sketch: 言語モデルによるトランスパイレーション
Guess & Sketch: Language Model Guided Transpilation ( http://arxiv.org/abs/2309.14396v2 ) ライセンス: Link先を確認 | Celine Lee, Abdulrahman Mahmoud, Michal Kurek, Simone Campanoni, David Brooks, Stephen Chong, Gu-Yeon Wei, Alexander M. Rush, | (参考訳) レガシーソフトウェアを維持するには、多くのソフトウェアやシステムエンジニアリング時間が必要です。
アセンブリコードプログラムは、コンピュータマシンの状態に対して低レベルな制御を要求し、変数名を持たないが、人間が分析するのは特に困難である。
既存のプログラムトランスレータは、正確性を保証するが、問題のソースおよびターゲットプログラミング言語のために手作業で設計されている。
学習されたトランスパイレーション、すなわちコードの自動翻訳は、手作業による書き直しやエンジニアリングの取り組みに代わるものである。
自動記号型プログラム翻訳は、精度を保証するが、指数関数的に大きい検索空間のため、より長いプログラムにスケールするのに苦労する。
彼らの厳密な規則に基づくシステムは、その表現性も制限するので、プログラムの空間を減らすことしか説明できない。
確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。
本研究は,組立符号に対する学習的トランスパイル化のためのニューロシンボリックアプローチにおいて,LMとシンボリックソルバの強みを利用するものである。
アセンブリコードは、シンボリックメソッドの使用により考慮可能な、より短い非分岐的基本ブロックに分割することができるため、アセンブリコードは、ニューロシンボリックアプローチに適した設定である。
Guess & Sketchは、LMの特徴からアライメントと信頼性情報を抽出し、それをシンボルソルバに渡して、トランスパイレーション入力と出力のセマンティック等価性を解決する。
我々は、Gues & Sketchを3つの異なる組立トランスパイラの試験セットでテストし、GPT-4よりも57.6%、エンジニアリングされたトランスパイラよりも39.6%のサンプルをトランスパイラにトランスパイラできることを示した。
このタスクのトレーニングと評価のデータセットも共有しています。
Maintaining legacy software requires many software and systems engineering hours. Assembly code programs, which demand low-level control over the computer machine state and have no variable names, are particularly difficult for humans to analyze. Existing conventional program translators guarantee correctness, but are hand-engineered for the source and target programming languages in question. Learned transpilation, i.e. automatic translation of code, offers an alternative to manual re-writing and engineering efforts. Automated symbolic program translation approaches guarantee correctness but struggle to scale to longer programs due to the exponentially large search space. Their rigid rule-based systems also limit their expressivity, so they can only reason about a reduced space of programs. Probabilistic neural language models (LMs) produce plausible outputs for every input, but do so at the cost of guaranteed correctness. In this work, we leverage the strengths of LMs and symbolic solvers in a neurosymbolic approach to learned transpilation for assembly code. Assembly code is an appropriate setting for a neurosymbolic approach, since assembly code can be divided into shorter non-branching basic blocks amenable to the use of symbolic methods. Guess & Sketch extracts alignment and confidence information from features of the LM then passes it to a symbolic solver to resolve semantic equivalence of the transpilation input and output. We test Guess & Sketch on three different test sets of assembly transpilation tasks, varying in difficulty, and show that it successfully transpiles 57.6% more examples than GPT-4 and 39.6% more examples than an engineered transpiler. We also share a training and evaluation dataset for this task. | 翻訳日:2024-03-19 03:41:25 公開日:2024-03-15 |
# 気候変動に関する知識の移転
Transferring climate change knowledge ( http://arxiv.org/abs/2309.14780v3 ) ライセンス: Link先を確認 | Francesco Immorlano, Veronika Eyring, Thomas le Monnier de Gouville, Gabriele Accarino, Donatello Elia, Giovanni Aloisio, Pierre Gentine, | (参考訳) 気候適応と緩和には正確な正確な気候予測が必要であるが、地球系のモデルには大きな不確実性がある。
気候予測やフィードバックの拡散を減らすためにいくつかのアプローチが開発されているが、これらの手法は気候システムに固有の非線形の複雑さを捉えることはできない。
トランスファーラーニングアプローチを用いることで,21世紀における地球系モデルシミュレーションと歴史的観測から得られた知識を最適に活用し,マージし,地球表面温度場をより正確に予測できることが示される。
我々は最先端のアプローチに関して50%以上の不確実性削減に達している。
我々は,本手法が気候適応に緊急に必要な,より正確な平均的な気候予測とともに,より狭い予測の不確実性を提供することを示す。
Accurate and precise climate projections are required for climate adaptation and mitigation, but Earth system models still exhibit great uncertainties. Several approaches have been developed to reduce the spread of climate projections and feedbacks, yet those methods cannot capture the non-linear complexity inherent in the climate system. Using a Transfer Learning approach, we show that Machine Learning can be used to optimally leverage and merge the knowledge gained from Earth system models simulations and historical observations to more accurately project global surface air temperature fields in the 21st century. We reach an uncertainty reduction of more than 50% with respect to state-of-the-art approaches. We give evidence that our novel method provides narrower projection uncertainty together with more accurate mean climate projections, urgently required for climate adaptation. | 翻訳日:2024-03-19 03:41:25 公開日:2024-03-15 |
# 2次元ウィグナーフラッグメントにおける六角形格子の創出
The Emergence of the Hexagonal Lattice in Two-Dimensional Wigner Fragments ( http://arxiv.org/abs/2309.15260v2 ) ライセンス: Link先を確認 | Miguel Escobar Azor, Amer Alrakik, Louan de Bentzmann, Xabier Telleria-Allika, Alfredo Sánchez de Merás, Stefano Evangelisti, J. Arjan Berger, | (参考訳) 非常に低い密度では、均一な電子ガス中の電子が自発的に対称性を破り、ウィグナー結晶と呼ばれる結晶格子を形成する。
しかし、電子はどのような結晶を形成するのか?
ウィグナー結晶の破片の密度分布の第一原理による数値的研究を報告する。
ウィグナーフラグメントをシミュレートするために、クリフォード周期境界条件とクーロンポテンシャルにおける再正規化距離を用いる。
さらに、高スピン制限されたオープンシェルハートリー・フォック理論が低密度極限において完全となることを示す。
したがって、多くの電子を持つ2次元ウィグナー断片の局所化を正確に捉えることができる。
電子が局在する位置に関する仮定は存在しない。
系の総エネルギーを最小にすると、得られる密度プロファイルが自然に現れる。
2次元ウィグナー結晶の基底状態構造であると予測された六角形結晶構造の出現を明瞭に観察した。
At very low density, the electrons in a uniform electron gas spontaneously break symmetry and form a crystalline lattice called a Wigner crystal. But which type of crystal will the electrons form? We report a numerical study of the density profiles of fragments of Wigner crystals from first principles. To simulate Wigner fragments we use Clifford periodic boundary conditions and a renormalized distance in the Coulomb potential. Moreover, we show that high-spin restricted open-shell Hartree-Fock theory becomes exact in the low-density limit. We are thus able to accurately capture the localisation in two-dimensional Wigner fragments with many electrons. No assumptions about the positions where the electrons will localise are made. The density profiles we obtain emerge naturally when we minimise the total energy of the system. We clearly observe the emergence of the hexagonal crystal structure which has been predicted to be ground-state structure of the two-dimensional Wigner crystal. | 翻訳日:2024-03-19 03:41:25 公開日:2024-03-15 |
# DeepRepViz: ディープラーニングモデル予測で共同創業者を特定する
DeepRepViz: Identifying Confounders in Deep Learning Model Predictions ( http://arxiv.org/abs/2309.15551v2 ) ライセンス: Link先を確認 | Roshan Prakash Rane, JiHoon Kim, Arjun Umesha, Didem Stark, Marc-André Schulz, Kerstin Ritter, | (参考訳) 深層学習(DL)モデルは、心理的行動、認知特性、脳病理を予測する神経画像研究で人気を博している。
しかし、これらのモデルは、取得プロセスから年齢、性別、画像のアーティファクトなどの共同創設者によってバイアスを受けることができる。
これを解決するために,DLモデルの予測において,共同創設者を特定するために設計された2部構成のフレームワークである"DeepRepViz"を紹介した。
最初のコンポーネントは視覚化ツールで、DLモデルの最終的な潜在表現を定性的に調べることができる。
第2のコンポーネントは'Con-score'と呼ばれるメトリクスで、DLモデルの最終的な潜在表現を使用して、変数に関連する共同創設者のリスクを定量化する。
シミュレーション共同設立者の強度を反復的に変化させ,コンスコアの変化を観察することにより,簡単なシミュレーション設定によるコンスコアの有効性を実証する。
次に,大規模なニューロイメージングデータセット(n=12000)上のDeepRepVizフレームワークを検証する。
(a)慢性アルコール使用者の予測
(b)受講者セックスの分類、及び
(c)「皿作り」という認知タスクにおける性能速度の予測。
DeepRepVizは、性は慢性アルコールユーザー(Con-score=0.35)を予測するDLモデルの重要な共同創設者であり、認知タスクのパフォーマンスを予測するモデルの共同創設者である(Con-score=0.3)。
結論として、DeepRepVizフレームワークは、年齢、性別、画像アーティファクトといった潜在的な共同創設者をテストするための体系的なアプローチを提供し、ニューロイメージング研究のためのDLモデルの透明性を向上させる。
Deep Learning (DL) models have gained popularity in neuroimaging studies for predicting psychological behaviors, cognitive traits, and brain pathologies. However, these models can be biased by confounders such as age, sex, or imaging artifacts from the acquisition process. To address this, we introduce 'DeepRepViz', a two-part framework designed to identify confounders in DL model predictions. The first component is a visualization tool that can be used to qualitatively examine the final latent representation of the DL model. The second component is a metric called 'Con-score' that quantifies the confounder risk associated with a variable, using the final latent representation of the DL model. We demonstrate the effectiveness of the Con-score using a simple simulated setup by iteratively altering the strength of a simulated confounder and observing the corresponding change in the Con-score. Next, we validate the DeepRepViz framework on a large-scale neuroimaging dataset (n=12000) by performing three MRI-phenotype prediction tasks that include (a) predicting chronic alcohol users, (b) classifying participant sex, and (c) predicting performance speed on a cognitive task called 'trail making'. DeepRepViz identifies sex as a significant confounder in the DL model predicting chronic alcohol users (Con-score=0.35) and age as a confounder in the model predicting cognitive task performance (Con-score=0.3). In conclusion, the DeepRepViz framework provides a systematic approach to test for potential confounders such as age, sex, and imaging artifacts and improves the transparency of DL models for neuroimaging studies. | 翻訳日:2024-03-19 03:41:25 公開日:2024-03-15 |
# イメージング技術としてのスペックル場
Speckled-speckle field as a resource for imaging techniques ( http://arxiv.org/abs/2309.17138v2 ) ライセンス: Link先を確認 | Silvia Cassina, Gabriele Cenedese, Alessia Allevi, Maria Bondani, | (参考訳) 光の相関状態、古典的および量子的状態は、いくつかのイメージング技術の実装において有用な応用を見出すことができる。
使用元のうち、レーザービームの拡散器通過によって生じる擬熱状態は、標準的な選択である。
相関度の高い光を生成するために, 数値シミュレーションと実験実装の両方を用いて2つの拡散器を用いて得られたスペックル・スペックル場について検討し, 特性評価を行った。
撮像プロトコルにおける超熱光の潜在的有用性について議論するため、コントラスト、信号対雑音比、画像分解能のいくつかの指標の挙動を解析した。
得られた結果は, この種の光がもたらす利点を明らかにするとともに, 擬熱光よりも優れている理由を強調した。
Correlated states of light, both classical and quantum, can find useful applications in the implementation of several imaging techniques. Among the employed sources, pseudo-thermal states, generated by the passage of a laser beam through a diffuser, represent the standard choice. To produce light with a higher level of correlation, in this work we consider and characterize the speckled-speckle field obtained with two diffusers using both a numerical simulation and an experimental implementation. In order to discuss the potential usefulness of super-thermal light in imaging protocols, we analyze the behavior of some figures of merit, namely the contrast, the signal-to-noise ratio and the image resolution. The obtained results clarify the possible advantages offered by this kind of light, and at the same time better emphasize the reasons why it does not outperform pseudo-thermal light. | 翻訳日:2024-03-19 03:31:41 公開日:2024-03-15 |
# JoMA: MLPとアテンションのジョイントダイナミクスによる多層トランスのデミスティファイション
JoMA: Demystifying Multilayer Transformers via JOint Dynamics of MLP and Attention ( http://arxiv.org/abs/2310.00535v3 ) ライセンス: Link先を確認 | Yuandong Tian, Yiping Wang, Zhenyu Zhang, Beidi Chen, Simon Du, | (参考訳) 多層トランスフォーマーアーキテクチャのトレーニング手順を理解するための新しい数学的枠組みであるジョイントMLP/アテンション(JoMA)ダイナミクスを提案する。
これはTransformersに自己アテンション層を統合することで実現され、MPP層の修正されたダイナミックスのみを生成する。
JoMAは、以前の分析(例えば、残差接続の欠如)における非現実的な仮定を取り除き、注意が(正則なトークンを学習するために)疎くなり、次に非線形なアクティベーションの存在下で(より正則なトークンを学習するために)密度が高くなると予測する。
入力トークンが潜在階層生成モデルによって生成されるとき、JoMAを利用してトークンを定性的に組み合わせて多層トランスフォーマーの階層を形成する方法について説明する。
実世界のデータセット (Wikitext2/Wikitext103) と様々な事前学習モデル (OPT, Pythia) から学習したモデルを用いた実験により, 理論的知見が得られた。
コードはhttps://github.com/facebookresearch/luckmatters/tree/yuandong3で見ることができる。
We propose Joint MLP/Attention (JoMA) dynamics, a novel mathematical framework to understand the training procedure of multilayer Transformer architectures. This is achieved by integrating out the self-attention layer in Transformers, producing a modified dynamics of MLP layers only. JoMA removes unrealistic assumptions in previous analysis (e.g., lack of residual connection) and predicts that the attention first becomes sparse (to learn salient tokens), then dense (to learn less salient tokens) in the presence of nonlinear activations, while in the linear case, it is consistent with existing works that show attention becomes sparse over time. We leverage JoMA to qualitatively explains how tokens are combined to form hierarchies in multilayer Transformers, when the input tokens are generated by a latent hierarchical generative model. Experiments on models trained from real-world dataset (Wikitext2/Wikitext103) and various pre-trained models (OPT, Pythia) verify our theoretical findings. Code can be found in https://github.com/facebookresearch/luckmatters/tree/yuandong3. | 翻訳日:2024-03-19 03:31:41 公開日:2024-03-15 |
# DeepZero: 深層モデルトレーニングにおけるゼロ階最適化のスケールアップ
DeepZero: Scaling up Zeroth-Order Optimization for Deep Model Training ( http://arxiv.org/abs/2310.02025v4 ) ライセンス: Link先を確認 | Aochuan Chen, Yimeng Zhang, Jinghan Jia, James Diffenderfer, Jiancheng Liu, Konstantinos Parasyris, Yihua Zhang, Zheng Zhang, Bhavya Kailkhura, Sijia Liu, | (参考訳) ゼロオーダー(ZO)最適化は、一階情報を得るのが難しく、あるいは不可能なときに機械学習(ML)問題を解決するための一般的な手法となっている。
しかし、ZO最適化のスケーラビリティは未解決の問題であり、主にサンプルワイドの敵攻撃生成のような比較的小規模なML問題に限られている。
我々の知る限り、ディープニューラルネットワーク(DNN)のトレーニングにおけるZO最適化の有効性は、性能を著しく低下させることなく実証されていない。
この障害を克服するために,ZO最適化をDNNトレーニングにスクラッチから3つの主要なイノベーションまで拡張可能なZOディープラーニング(DL)フレームワークであるDeepZeroを開発した。
まず、学習精度と計算効率において、ランダム化ベクトルの勾配推定に対する座標勾配推定(CGE)の利点を示す。
第2に, CGE 以前のスパースDL を探索・活用するために, 有限差分のみを用いてモデルプルーニング手法を拡張したスポーシティ誘導型ZOトレーニングプロトコルを提案する。
第3に,ZO訓練の実践的実装を進めるために,機能再利用法と前方並列化法を開発した。
CIFAR-10でトレーニングしたResNet-20では,DeepZeroがSOTA(State-of-the-art)の精度を達成し,FOトレーニング性能に初めて接近した。
さらに,認証された対角防御とDLに基づく偏微分方程式誤差補正の適用においてDeepZeroの実用性を示し,SOTAよりも10~20%向上した。
我々は,拡張性のあるZO最適化に関する今後の研究を刺激し,ブラックボックスによるDLの進展に寄与すると考えている。
コードはhttps://github.com/OPTML-Group/DeepZeroで入手できる。
Zeroth-order (ZO) optimization has become a popular technique for solving machine learning (ML) problems when first-order (FO) information is difficult or impossible to obtain. However, the scalability of ZO optimization remains an open problem: Its use has primarily been limited to relatively small-scale ML problems, such as sample-wise adversarial attack generation. To our best knowledge, no prior work has demonstrated the effectiveness of ZO optimization in training deep neural networks (DNNs) without a significant decrease in performance. To overcome this roadblock, we develop DeepZero, a principled ZO deep learning (DL) framework that can scale ZO optimization to DNN training from scratch through three primary innovations. First, we demonstrate the advantages of coordinatewise gradient estimation (CGE) over randomized vector-wise gradient estimation in training accuracy and computational efficiency. Second, we propose a sparsityinduced ZO training protocol that extends the model pruning methodology using only finite differences to explore and exploit the sparse DL prior in CGE. Third, we develop the methods of feature reuse and forward parallelization to advance the practical implementations of ZO training. Our extensive experiments show that DeepZero achieves state-of-the-art (SOTA) accuracy on ResNet-20 trained on CIFAR-10, approaching FO training performance for the first time. Furthermore, we show the practical utility of DeepZero in applications of certified adversarial defense and DL-based partial differential equation error correction, achieving 10-20% improvement over SOTA. We believe our results will inspire future research on scalable ZO optimization and contribute to advancing DL with black box. Codes are available at https://github.com/OPTML-Group/DeepZero. | 翻訳日:2024-03-19 03:21:56 公開日:2024-03-15 |
# SNIP:統一事前学習による数理記号と数理領域のブリッジ
SNIP: Bridging Mathematical Symbolic and Numeric Realms with Unified Pre-training ( http://arxiv.org/abs/2310.02227v3 ) ライセンス: Link先を確認 | Kazem Meidani, Parshin Shojaee, Chandan K. Reddy, Amir Barati Farimani, | (参考訳) 記号数学の方程式が複雑な自然現象をモデル化するのに欠かせない時代において、科学的な調査はしばしば観察を集め、それらを数学的表現に翻訳する。
近年,データから洞察を抽出する強力なツールとしてディープラーニングが登場している。
しかしながら、既存のモデルは典型的には数値領域または記号領域に特化しており、通常特定のタスクに合わせて教師付き方法で訓練される。
このアプローチは、記号方程式とその数値方程式の間のタスクに依存しないマルチモーダル理解から生じる、実質的な利点を無視している。
このギャップを埋めるために,シンボリック・数値統合事前学習モデルであるSNIPを導入する。
潜時空間解析を行うことにより,SNIPが表現のクロスドメインな洞察を提供し,記号的指導によって数値データの埋め込みが促進され,その逆も引き起こされることがわかった。
我々は,記号型から数値型への数学的性質予測や,記号型回帰と呼ばれる数値型から記号型への方程式発見など,SNIPを多種多様なタスクで評価する。
その結果、SNIPは様々なタスクに効果的に移行し、完全に教師されたベースラインを一貫して上回り、特に利用可能なデータが制限された低データレギュレーションシナリオにおいて、確立されたタスク固有のメソッドと強く競合することがわかった。
code and model are available at https://github.com/deep-symbolic-mathematics/Multimodal-Math-Pretraining
In an era where symbolic mathematical equations are indispensable for modeling complex natural phenomena, scientific inquiry often involves collecting observations and translating them into mathematical expressions. Recently, deep learning has emerged as a powerful tool for extracting insights from data. However, existing models typically specialize in either numeric or symbolic domains, and are usually trained in a supervised manner tailored to specific tasks. This approach neglects the substantial benefits that could arise from a task-agnostic multi-modal understanding between symbolic equations and their numeric counterparts. To bridge the gap, we introduce SNIP, a Symbolic-Numeric Integrated Pre-training model, which employs contrastive learning between symbolic and numeric domains, enhancing their mutual similarities in the embeddings. By performing latent space analysis, we observe that SNIP provides cross-domain insights into the representations, revealing that symbolic supervision enhances the embeddings of numeric data and vice versa. We evaluate SNIP across diverse tasks, including symbolic-to-numeric mathematical property prediction and numeric-to-symbolic equation discovery, commonly known as symbolic regression. Results show that SNIP effectively transfers to various tasks, consistently outperforming fully supervised baselines and competing strongly with established task-specific methods, especially in the low data regime scenarios where available data is limited. Code and model are available at: https://github.com/deep-symbolic-mathematics/Multimodal-Math-Pretraining | 翻訳日:2024-03-19 03:21:56 公開日:2024-03-15 |
# 位置方向空間の重み共有による高速表現型SE$(n)$同変ネットワーク
Fast, Expressive SE$(n)$ Equivariant Networks through Weight-Sharing in Position-Orientation Space ( http://arxiv.org/abs/2310.02970v3 ) ライセンス: Link先を確認 | Erik J Bekkers, Sharvaree Vadgama, Rob D Hesselink, Putri A van der Linden, David W Romero, | (参考訳) 等質空間の理論に基づいて、フレキシブルメッセージパッシングフレームワーク内で使用される幾何学的に最適なエッジ属性を導出する。
畳み込みネットワークにおける重み共有の概念を,等しく扱うべき点対上のメッセージ関数の共有として定式化する。
群内の変換と同一の点対の同値類を定義し、これらの類を一意に識別する属性を導出する。
重み共有は、これらの属性にメッセージ関数を条件付けすることで得られる。
この理論の応用として、3次元点雲を処理するための効率的な同変群畳み込みネットワークを開発する。
等質空間の理論は、位置 $\mathbb{R}^3$, 位置と向き $\mathbb{R}^3 {\times} S^2$, 群 $SE(3)$ の同質空間上の特徴写像で群畳み込みを行う方法を示している。
これらのうち、$\mathbb{R}^3 {\times} S^2$は、$\mathbb{R}^3$メソッドではできない方向情報を表現できるため最適選択であり、完全な$SE(3)$グループのインデックス化機能と比較して計算効率を著しく向上させる。
我々は、原子間ポテンシャルエネルギー予測、N体系の軌道予測、同変拡散モデルによる分子生成を含む、5つの異なる2次元および3次元のベンチマークで、最先端の結果(精度と速度)でこの主張を支持している。
Based on the theory of homogeneous spaces we derive geometrically optimal edge attributes to be used within the flexible message-passing framework. We formalize the notion of weight sharing in convolutional networks as the sharing of message functions over point-pairs that should be treated equally. We define equivalence classes of point-pairs that are identical up to a transformation in the group and derive attributes that uniquely identify these classes. Weight sharing is then obtained by conditioning message functions on these attributes. As an application of the theory, we develop an efficient equivariant group convolutional network for processing 3D point clouds. The theory of homogeneous spaces tells us how to do group convolutions with feature maps over the homogeneous space of positions $\mathbb{R}^3$, position and orientations $\mathbb{R}^3 {\times} S^2$, and the group $SE(3)$ itself. Among these, $\mathbb{R}^3 {\times} S^2$ is an optimal choice due to the ability to represent directional information, which $\mathbb{R}^3$ methods cannot, and it significantly enhances computational efficiency compared to indexing features on the full $SE(3)$ group. We support this claim with state-of-the-art results -- in accuracy and speed -- on five different benchmarks in 2D and 3D, including interatomic potential energy prediction, trajectory forecasting in N-body systems, and generating molecules via equivariant diffusion models. | 翻訳日:2024-03-19 03:21:56 公開日:2024-03-15 |
# Kosmos-G:マルチモーダル大言語モデルを用いた文脈における画像生成
Kosmos-G: Generating Images in Context with Multimodal Large Language Models ( http://arxiv.org/abs/2310.02992v2 ) ライセンス: Link先を確認 | Xichen Pan, Li Dong, Shaohan Huang, Zhiliang Peng, Wenhu Chen, Furu Wei, | (参考訳) 被写体駆動画像生成の最近の進歩は、大きな進歩をもたらした。
しかし、現在のメソッドはテスト時のチューニングが必要であり、インターリーブされたマルチイメージやテキスト入力を受け入れることができないため、さまざまなアプリケーションシナリオでは依然として不足している。
これらの制限は、「画像生成における外国語としてのイメージ」という最終的な目標から遠ざかっている。
本稿では,Multimodal Large Language Models (MLLM) の高度なマルチモーダル認識機能を活用するモデルであるKosmos-Gを提案する。
提案手法は,テキストモダリティをアンカーとして用いたMLLMとCLIPの出力空間を整列し,キュレートされたデータに対して合成指導を行う。
Kosmos-Gは、インターリーブされたマルチイメージとテキスト入力によるゼロショットの主観的生成の印象的な能力を示す。
特に、スコア蒸留指示チューニングでは、画像デコーダの変更は不要である。
これにより、CLIPのシームレスな置換と、きめ細かいコントロールからパーソナライズされたイメージデコーダまで、数多くのU-Net技術との統合が可能になる。
我々は、コスモスGを「画像生成における外国語としてのイメージ」という目標に向けた最初の試みとしている。
コードはhttps://aka.ms/Kosmos-Gで確認できる。
Recent advancements in subject-driven image generation have made significant strides. However, current methods still fall short in diverse application scenarios, as they require test-time tuning and cannot accept interleaved multi-image and text input. These limitations keep them far from the ultimate goal of "image as a foreign language in image generation." This paper presents Kosmos-G, a model that leverages the advanced multimodal perception capabilities of Multimodal Large Language Models (MLLMs) to tackle the aforementioned challenge. Our approach aligns the output space of MLLM with CLIP using the textual modality as an anchor and performs compositional instruction tuning on curated data. Kosmos-G demonstrates an impressive capability of zero-shot subject-driven generation with interleaved multi-image and text input. Notably, the score distillation instruction tuning requires no modifications to the image decoder. This allows for a seamless substitution of CLIP and effortless integration with a myriad of U-Net techniques ranging from fine-grained controls to personalized image decoder variants. We posit Kosmos-G as an initial attempt towards the goal of "image as a foreign language in image generation." The code can be found at https://aka.ms/Kosmos-G | 翻訳日:2024-03-19 03:21:56 公開日:2024-03-15 |
# Neur2RO: ニューラルネットワークによる2段階ロバスト最適化
Neur2RO: Neural Two-Stage Robust Optimization ( http://arxiv.org/abs/2310.04345v2 ) ライセンス: Link先を確認 | Justin Dumouchelle, Esther Julien, Jannis Kurtz, Elias B. Khalil, | (参考訳) ロバスト最適化は、最悪の不確実性の下で意思決定問題をモデル化し、解決するための数学的フレームワークを提供する。
この研究は、2段階のロバスト最適化 (2RO) 問題(調整可能なロバスト最適化とも呼ばれる)に対処する。
これは、特に決定が離散的である場合、計算的に非常に難しいネストされた min-max-min 最適化問題をもたらす。
我々は,2ROの古典的反復アルゴリズムである,カラム・アンド・制約生成(CCG)の効率的な機械学習によるインスタンス化であるNeur2ROを提案する。
具体的には、設計によって簡単に最適化できる新しいニューラルネットワークアーキテクチャを用いて、第2段階の問題の価値関数を推定することを学ぶ。
ニューラルネットワークをCCGに組み込むと、クナップサックと資本予算という2つの2ROベンチマークの実験によって証明されたような、高品質なソリューションがすぐに得られます。
knapsackの場合、Neur2ROは最先端の正確なブランチ・アンド・プライスアルゴリズムの3時間と比較すると、数秒で最もよく知られた値の約2.%以内のソリューションを見つける。
資本予算の面では、Neur2ROは$k$-adaptabilityアルゴリズムの3つの変種、特に最大のインスタンスにおいて、ソリューション時間の10倍から100倍の削減を達成している。
私たちのコードとデータはhttps://github.com/khalil-research/Neur2ROで公開されています。
Robust optimization provides a mathematical framework for modeling and solving decision-making problems under worst-case uncertainty. This work addresses two-stage robust optimization (2RO) problems (also called adjustable robust optimization), wherein first-stage and second-stage decisions are made before and after uncertainty is realized, respectively. This results in a nested min-max-min optimization problem which is extremely challenging computationally, especially when the decisions are discrete. We propose Neur2RO, an efficient machine learning-driven instantiation of column-and-constraint generation (CCG), a classical iterative algorithm for 2RO. Specifically, we learn to estimate the value function of the second-stage problem via a novel neural network architecture that is easy to optimize over by design. Embedding our neural network into CCG yields high-quality solutions quickly as evidenced by experiments on two 2RO benchmarks, knapsack and capital budgeting. For knapsack, Neur2RO finds solutions that are within roughly $2\%$ of the best-known values in a few seconds compared to the three hours of the state-of-the-art exact branch-and-price algorithm; for larger and more complex instances, Neur2RO finds even better solutions. For capital budgeting, Neur2RO outperforms three variants of the $k$-adaptability algorithm, particularly on the largest instances, with a 10 to 100-fold reduction in solution time. Our code and data are available at https://github.com/khalil-research/Neur2RO. | 翻訳日:2024-03-19 03:02:24 公開日:2024-03-15 |
# XAL: 説明可能なアクティブラーニングは、低リソースラーナーをより良くする
XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners ( http://arxiv.org/abs/2310.05502v3 ) ライセンス: Link先を確認 | Yun Luo, Zhen Yang, Fandong Meng, Yingjie Li, Fang Guo, Qinglin Qi, Jie Zhou, Yue Zhang, | (参考訳) アノテーションのために最も形式的でないデータを反復的にキュレートすることで効果的なトレーニングセットを構築することを目的としたアクティブラーニング(AL)は、低リソースタスクで広く利用されている。
分類における最も活発な学習技術は、表層パターンの過度な信頼の問題と探索の欠如に悩まされ、ラベルのないデータを選択するためのモデルの不確実性や不一致に依存している。
人間が因果情報を通じて推論し予測する認知プロセスに触発されて、我々は論理をALに統合する最初の試みを行い、低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案します。
具体的には、事前学習された双方向エンコーダの分類に加えて、事前学習された一方向デコーダを用いて説明を生成し、スコア付けする。
提案するランキング損失により、モデルと人間の推論的嗜好との整合をさらに促進する。
ラベルなしデータの選択中、エンコーダの予測不確かさとデコーダの説明スコアが最終指標として補完し、情報データを取得する。
6つのデータセットに対する大規模な実験は、XALが9つの強いベースラインに対して一貫した改善を達成していることを示している。
解析により,提案手法は,その予測に対して対応する説明を生成できることが示唆された。
Active learning (AL), which aims to construct an effective training set by iteratively curating the most formative unlabeled data for annotation, has been widely used in low-resource tasks. Most active learning techniques in classification rely on the model's uncertainty or disagreement to choose unlabeled data, suffering from the problem of over-confidence in superficial patterns and a lack of exploration. Inspired by the cognitive processes in which humans deduce and predict through causal information, we take an initial attempt towards integrating rationales into AL and propose a novel Explainable Active Learning framework (XAL) for low-resource text classification, which aims to encourage classifiers to justify their inferences and delve into unlabeled data for which they cannot provide reasonable explanations. Specifically, besides using a pre-trained bi-directional encoder for classification, we employ a pre-trained uni-directional decoder to generate and score the explanation. We further facilitate the alignment of the model with human reasoning preference through a proposed ranking loss. During the selection of unlabeled data, the predicted uncertainty of the encoder and the explanation score of the decoder complement each other as the final metric to acquire informative data. Extensive experiments on six datasets show that XAL achieves consistent improvement over 9 strong baselines. Analysis indicates that the proposed method can generate corresponding explanations for its predictions. | 翻訳日:2024-03-19 02:52:40 公開日:2024-03-15 |
# ホック後のバイアススコーリングは公平な分類に最適
Post-hoc Bias Scoring Is Optimal For Fair Classification ( http://arxiv.org/abs/2310.05725v3 ) ライセンス: Link先を確認 | Wenlong Chen, Yegor Klochkov, Yang Liu, | (参考訳) グループフェアネス制約の下で二項分類問題を考えると、これは復号法パリティ(DP)、等化オポチュニティ(EOp)、等化オッド(EO)のいずれかである。
フェアネス制約の下でベイズ最適分類器の明示的な特徴付けを提案するが、これは制約のない分類器の単純な修正規則であることが判明した。
すなわち、バイアススコアと呼ばれる新しいインスタンスレベルのバイアス尺度を導入し、修正規則は、有限量のバイアススコアの上に単純な線形ルールであり、この特徴に基づいて、高い精度を維持しながら公平性制約に適応できるポストホックなアプローチを開発する。
DPとEOpの制約の場合、修正規則は1つのバイアススコアをしきい値にし、EOの制約の場合、線形修正規則を2つのパラメータに適合させることが要求される。
この方法は、いくつかの感度特性を含むような複合グループフェアネス基準にも適用することができる。
We consider a binary classification problem under group fairness constraints, which can be one of Demographic Parity (DP), Equalized Opportunity (EOp), or Equalized Odds (EO). We propose an explicit characterization of Bayes optimal classifier under the fairness constraints, which turns out to be a simple modification rule of the unconstrained classifier. Namely, we introduce a novel instance-level measure of bias, which we call bias score, and the modification rule is a simple linear rule on top of the finite amount of bias scores.Based on this characterization, we develop a post-hoc approach that allows us to adapt to fairness constraints while maintaining high accuracy. In the case of DP and EOp constraints, the modification rule is thresholding a single bias score, while in the case of EO constraints we are required to fit a linear modification rule with 2 parameters. The method can also be applied for composite group-fairness criteria, such as ones involving several sensitive attributes. | 翻訳日:2024-03-19 02:52:40 公開日:2024-03-15 |
# SimPLR: スケール効率の良いオブジェクト検出とセグメンテーションのためのシンプルでプレーンな変換器
SimPLR: A Simple and Plain Transformer for Scaling-Efficient Object Detection and Segmentation ( http://arxiv.org/abs/2310.05920v3 ) ライセンス: Link先を確認 | Duy-Kien Nguyen, Martin R. Oswald, Cees G. M. Snoek, | (参考訳) 画像中の物体を様々なスケールで検出する能力は、現代の物体検出器の設計において重要な役割を担っている。
手作りの部品を取り除き、トランスフォーマーでアーキテクチャを単純化するという大きな進歩にもかかわらず、マルチスケールの特徴マップやピラミッドデザインは、その経験的成功の重要な要素である。
本稿では, この特徴ピラミッドや階層的バックボーンへの依存は不要であり, 大規模注意を意識した変圧器ベースの検出器により, 背骨と検出ヘッドが非階層的かつ単一スケールの特徴を持つ平板検出器「SimPLR」が実現可能であることを示す。
実験の結果,SimPLRは単純かつシンプルでありながら,マルチスケールビジョントランスフォーマーの代替品と競合することがわかった。
マルチスケールおよびシングルスケールの最先端技術と比較して、我々のモデルはより大きなキャパシティ(自己教師付き)モデルとより多くの事前学習データで大幅にスケールし、オブジェクト検出、インスタンスセグメンテーション、およびパン光学セグメンテーションに対して、一貫した精度とより高速なランタイムを報告できます。
コードはリリースされる。
The ability to detect objects in images at varying scales has played a pivotal role in the design of modern object detectors. Despite considerable progress in removing hand-crafted components and simplifying the architecture with transformers, multi-scale feature maps and/or pyramid design remain a key factor for their empirical success. In this paper, we show that this reliance on either feature pyramids or an hierarchical backbone is unnecessary and a transformer-based detector with scale-aware attention enables the plain detector `SimPLR' whose backbone and detection head are both non-hierarchical and operate on single-scale features. We find through our experiments that SimPLR with scale-aware attention is plain and simple, yet competitive with multi-scale vision transformer alternatives. Compared to the multi-scale and single-scale state-of-the-art, our model scales much better with bigger capacity (self-supervised) models and more pre-training data, allowing us to report a consistently better accuracy and faster runtime for object detection, instance segmentation as well as panoptic segmentation. Code will be released. | 翻訳日:2024-03-19 02:52:40 公開日:2024-03-15 |
# DyST: リアルタイムビデオにおける動的ニューラルシーン表現に向けて
DyST: Towards Dynamic Neural Scene Representations on Real-World Videos ( http://arxiv.org/abs/2310.06020v2 ) ライセンス: Link先を確認 | Maximilian Seitzer, Sjoerd van Steenkiste, Thomas Kipf, Klaus Greff, Mehdi S. M. Sajjadi, | (参考訳) 世界の視覚的理解は、個々のイメージのセマンティクスや平らな構造を越えている。
本研究では,モノクラー・リアル・ワールド・ビデオから実世界の3次元構造とダイナミックスの両方を捉えることを目的とする。
我々のダイナミックシーントランスフォーマー(DyST)モデルは、ニューラルシーン表現における最近の研究を活用して、モノクロの実世界のビデオのシーンコンテンツ、ビュー毎のシーンダイナミックス、カメラポーズへの遅延分解を学習する。
この分離は、モノクロビデオと我々の新しい合成データセットDySOによる新しいコトレーニング方式によって達成される。
DySTは、カメラとシーンの内容を別々に制御したビュー生成を可能にする動的シーンの具体的な潜在表現を学習する。
Visual understanding of the world goes beyond the semantics and flat structure of individual images. In this work, we aim to capture both the 3D structure and dynamics of real-world scenes from monocular real-world videos. Our Dynamic Scene Transformer (DyST) model leverages recent work in neural scene representation to learn a latent decomposition of monocular real-world videos into scene content, per-view scene dynamics, and camera pose. This separation is achieved through a novel co-training scheme on monocular videos and our new synthetic dataset DySO. DyST learns tangible latent representations for dynamic scenes that enable view generation with separate control over the camera and the content of the scene. | 翻訳日:2024-03-19 02:52:40 公開日:2024-03-15 |
# 拡散挙動によるスコア正規化政策最適化
Score Regularized Policy Optimization through Diffusion Behavior ( http://arxiv.org/abs/2310.07297v3 ) ライセンス: Link先を確認 | Huayu Chen, Cheng Lu, Zhengyi Wang, Hang Su, Jun Zhu, | (参考訳) オフライン強化学習の最近の進歩は、不均一な行動ポリシーを表現する上で優れた拡散モデリングの潜在可能性を明らかにしている。
しかし、拡散政策からのサンプリングは、1つのアクションに対して数十から数百の反復的推論ステップを必要とするため、かなり遅い。
この問題に対処するために,批判モデルと事前訓練された拡散行動モデルから効率的な決定論的推論ポリシーを抽出し,後者を活用して,最適化中の行動分布のスコア関数と直接正規化する手法を提案する。
本手法は,学習と評価の両方において,計算集約的かつ時間を要する拡散サンプリングスキームを完全に回避しつつ,拡散モデリングの強力な生成能力を享受する。
D4RLタスクの広汎な結果から,本手法は動作のサンプリング速度を25倍以上に向上させるが,ローコモーションタスクにおける各種拡散に基づく手法と比較して,最先端性能を維持しつつも,動作のサンプリング速度を向上させる。
Recent developments in offline reinforcement learning have uncovered the immense potential of diffusion modeling, which excels at representing heterogeneous behavior policies. However, sampling from diffusion policies is considerably slow because it necessitates tens to hundreds of iterative inference steps for one action. To address this issue, we propose to extract an efficient deterministic inference policy from critic models and pretrained diffusion behavior models, leveraging the latter to directly regularize the policy gradient with the behavior distribution's score function during optimization. Our method enjoys powerful generative capabilities of diffusion modeling while completely circumventing the computationally intensive and time-consuming diffusion sampling scheme, both during training and evaluation. Extensive results on D4RL tasks show that our method boosts action sampling speed by more than 25 times compared with various leading diffusion-based methods in locomotion tasks, while still maintaining state-of-the-art performance. | 翻訳日:2024-03-19 02:42:56 公開日:2024-03-15 |
# 形状分類のための微分可能なオイラー特性変換
Differentiable Euler Characteristic Transforms for Shape Classification ( http://arxiv.org/abs/2310.07630v2 ) ライセンス: Link先を確認 | Ernst Roell, Bastian Rieck, | (参考訳) オイラー特性変換(ECT)は、形状とグラフの幾何学的特徴と位相的特徴を組み合わせた強力な表現であることが証明されている。
しかし、ECTはタスク固有の表現を学べなかった。
我々はこの問題を克服し、エンドツーエンドでECTを学習できる新しい計算層を開発する。
我々の手法である微分可能なオイラー特性変換(DECT)は高速かつ計算的に効率的であり、グラフおよび点クラウドの分類タスクにおいてより複雑なモデルと同等の性能を示す。
さらに、この一見単純な統計は、より複雑なトポロジカルディープラーニング層と同じトポロジカルな表現性を提供することを示す。
The Euler Characteristic Transform (ECT) has proven to be a powerful representation, combining geometrical and topological characteristics of shapes and graphs. However, the ECT was hitherto unable to learn task-specific representations. We overcome this issue and develop a novel computational layer that enables learning the ECT in an end-to-end fashion. Our method, the Differentiable Euler Characteristic Transform (DECT), is fast and computationally efficient, while exhibiting performance on a par with more complex models in both graph and point cloud classification tasks. Moreover, we show that this seemingly simple statistic provides the same topological expressivity as more complex topological deep learning layers. | 翻訳日:2024-03-19 02:33:12 公開日:2024-03-15 |
# 線形回帰の文脈学習に必要となる事前学習タスクはいくつあるか?
How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? ( http://arxiv.org/abs/2310.08391v2 ) ライセンス: Link先を確認 | Jingfeng Wu, Difan Zou, Zixiang Chen, Vladimir Braverman, Quanquan Gu, Peter L. Bartlett, | (参考訳) 様々なタスクで事前訓練されたトランスフォーマーは、優れたインコンテキスト学習(ICL)能力を示し、モデルパラメータを調整することなく、入力コンテキストのみに基づいて、目に見えないタスクを解決できる。
本稿では,線形パラメータ化単一層線形アテンションモデルをガウス先行の線形回帰のために事前学習する,最も簡単な構成の1つとしてICLについて検討する。
注意モデル事前学習に縛られた統計的タスクの複雑性を確立し、有効事前学習には少数の独立したタスクしか必要としないことを示す。
さらに,事前学習されたモデルがベイズ最適アルゴリズム,すなわち最適に調整されたリッジ回帰と密接に一致していることを証明する。
これらの理論的な発見は、以前の実験的研究を補完し、ICCの統計的基礎について光を当てた。
Transformers pretrained on diverse tasks exhibit remarkable in-context learning (ICL) capabilities, enabling them to solve unseen tasks solely based on input contexts without adjusting model parameters. In this paper, we study ICL in one of its simplest setups: pretraining a linearly parameterized single-layer linear attention model for linear regression with a Gaussian prior. We establish a statistical task complexity bound for the attention model pretraining, showing that effective pretraining only requires a small number of independent tasks. Furthermore, we prove that the pretrained model closely matches the Bayes optimal algorithm, i.e., optimally tuned ridge regression, by achieving nearly Bayes optimal risk on unseen tasks under a fixed context length. These theoretical findings complement prior experimental research and shed light on the statistical foundations of ICL. | 翻訳日:2024-03-19 02:33:12 公開日:2024-03-15 |
# HyperHuman: 潜在構造拡散を伴う超現実的ヒューマンジェネレーション
HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion ( http://arxiv.org/abs/2310.08579v2 ) ライセンス: Link先を確認 | Xian Liu, Jian Ren, Aliaksandr Siarohin, Ivan Skorokhodov, Yanyu Li, Dahua Lin, Xihui Liu, Ziwei Liu, Sergey Tulyakov, | (参考訳) 大規模なテキスト画像モデルの大幅な進歩にもかかわらず、超現実的な人間の画像生成を実現することは、望ましいが未解決の課題である。
既存のモデルであるStable DiffusionやDALL-E 2は、不整合部分や不自然なポーズを持つ人間の画像を生成する傾向がある。
これらの課題に対処するためには、人間の画像は、粗いレベルの体骨格から細かな空間幾何学に至るまで、本質的に複数の粒度に対して構造的である、という重要な洞察が得られます。
したがって、1つのモデルにおける明示的な外観と潜伏構造との相関を捉えることは、コヒーレントで自然な人間の画像を生成するのに不可欠である。
そこで本研究では,高リアリズムと多彩なレイアウトの人体画像を生成する統一的なフレームワークHyperHumanを提案する。
具体的には
1)人間中心の大規模なデータセット、HumanVerseは、人間のポーズ、深さ、表面正常といった包括的なアノテーションを備えた3億4000万の画像で構成されています。
次に, 合成RGB画像とともに, 深度と表面の正規化を同時に行う潜在構造拡散モデルを提案する。
本モデルでは, 画像の外観, 空間的関係, 幾何の連成学習を行い, モデルの各枝が相互に補完し, 構造的認識とテクスチャ的豊かさを両立させる。
3) さらに視覚的品質を高めるために,より詳細な高分解能発生のための予測条件を構成する構造ガイド精錬機を提案する。
大規模な実験により、我々のフレームワークは最先端の性能を示し、多様なシナリオ下で超現実的な人間の画像を生成する。
Project Page: https://snap-research.github.io/HyperHuman/
Despite significant advances in large-scale text-to-image models, achieving hyper-realistic human image generation remains a desirable yet unsolved task. Existing models like Stable Diffusion and DALL-E 2 tend to generate human images with incoherent parts or unnatural poses. To tackle these challenges, our key insight is that human image is inherently structural over multiple granularities, from the coarse-level body skeleton to fine-grained spatial geometry. Therefore, capturing such correlations between the explicit appearance and latent structure in one model is essential to generate coherent and natural human images. To this end, we propose a unified framework, HyperHuman, that generates in-the-wild human images of high realism and diverse layouts. Specifically, 1) we first build a large-scale human-centric dataset, named HumanVerse, which consists of 340M images with comprehensive annotations like human pose, depth, and surface normal. 2) Next, we propose a Latent Structural Diffusion Model that simultaneously denoises the depth and surface normal along with the synthesized RGB image. Our model enforces the joint learning of image appearance, spatial relationship, and geometry in a unified network, where each branch in the model complements to each other with both structural awareness and textural richness. 3) Finally, to further boost the visual quality, we propose a Structure-Guided Refiner to compose the predicted conditions for more detailed generation of higher resolution. Extensive experiments demonstrate that our framework yields the state-of-the-art performance, generating hyper-realistic human images under diverse scenarios. Project Page: https://snap-research.github.io/HyperHuman/ | 翻訳日:2024-03-19 02:33:12 公開日:2024-03-15 |
# UNK-VQA:マルチモーダル大モデルに対するデータセットと証明
UNK-VQA: A Dataset and A Probe into Multi-modal Large Models' Abstention Ability ( http://arxiv.org/abs/2310.10942v3 ) ライセンス: Link先を確認 | Yangyang Guo, Fangkai Jiao, Zhiqi Shen, Liqiang Nie, Mohan Kankanhalli, | (参考訳) 信頼できるAIシステムを構築するためには、VQA(Visual Question Answering)モデルに、解決不可能な質問への回答を控えるように教える必要がある。
現存する研究は、VQAの様々な側面を探求してきたが、この特質を幾らか無視した。
本稿では,UNK-VQAと呼ばれる包括的データセットを提供することで,研究ギャップを埋めることを目的とする。
データセットは、モデルが知らない問題に対処するために特別に設計されている。
この目的のために、私たちはまず、画像または疑問に対して意図的に摂動することで既存のデータを拡張します。
具体的には、質問画像のセマンティクスが元の未摂動分布に近いことを慎重に確認する。
これはつまり、解決不可能な質問の識別が難しくなり、単なる画像置換を含む他の問題とデータセットを分離します。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショットと少数ショットのパフォーマンスを広範囲に評価し,データセットに適用した場合に,それらの重要な制限を見いだす。
また,これらの疑問に対処するための簡単な手法も提案する。
このデータセットは、VQAモデルの禁断能力を高めるための貴重なベンチマークとして機能し、それによってAIシステムの信頼性が向上すると考えています。
この分野のさらなる探索を容易にするため、データセット(https://github.com/guoyang9/UNK-VQA)を利用可能にしました。
Teaching Visual Question Answering (VQA) models to refrain from answering unanswerable questions is necessary for building a trustworthy AI system. Existing studies, though have explored various aspects of VQA but somewhat ignored this particular attribute. This paper aims to bridge the research gap by contributing a comprehensive dataset, called UNK-VQA. The dataset is specifically designed to address the challenge of questions that models do not know. To this end, we first augment the existing data via deliberate perturbations on either the image or question. In specific, we carefully ensure that the question-image semantics remain close to the original unperturbed distribution. By this means, the identification of unanswerable questions becomes challenging, setting our dataset apart from others that involve mere image replacement. We then extensively evaluate the zero- and few-shot performance of several emerging multi-modal large models and discover their significant limitations when applied to our dataset. Additionally, we also propose a straightforward method to tackle these unanswerable questions. This dataset, we believe, will serve as a valuable benchmark for enhancing the abstention capability of VQA models, thereby leading to increased trustworthiness of AI systems. We have made the dataset (https://github.com/guoyang9/UNK-VQA) available to facilitate further exploration in this area. | 翻訳日:2024-03-19 02:13:39 公開日:2024-03-15 |
# 混合スピン-ボソンハミルトニアンの量子計算シミュレーションとそのキャビティ量子電磁力学問題への応用
Quantum Computing Simulation of a Mixed Spin-Boson Hamiltonian and Its Performance for a Cavity Quantum Electrodynamics Problem ( http://arxiv.org/abs/2310.11342v2 ) ライセンス: Link先を確認 | Maria Tudorovskaya, David Muñoz Ramo, | (参考訳) 本稿では,量子コンピュータの応用可能性のスペクトルを広げ,空洞量子電磁力学(Cavity QED)の効果を調べることを目的とする。
興味深い応用例としては、材料特性、超放射能のような多光子効果、強い場-物質結合を持つ系などがある。
QEDアプリケーションの場合、実験的な研究は困難であり、古典的なシミュレーションは高価であることが多い。
したがって、量子コンピュータの能力を探究することが重要である。
以下に、光子ホッピングを可能にする一対の結合キャビティにおける相転移をシミュレートする手法を示す。
スピンとボソンの系をレジスタの分離部分にマッピングし,1次トロッタライゼーションを用いて波動関数の時間的伝搬を行う。
位相遷移の観測可能な順序パラメータは、数演算子とその正方形を測定して算出する。
本稿では,多光子・多原子ケーススタディを容易にするボソン・ツー・キュービットマッピングを提案する。
我々の写像スキームは、逆ホルシュタイン・プリマコフ変換に基づいている。
多光子系では、ボソン作用素は高スピン作用素を介して表現され、後にパウリ作用素を用いて回路上に写像される。
我々はニュートン級数展開を用いて平方根作用素の厳密な処理を可能にする。
ノイズレス6量子ビットシミュレーションによる相転移の古典シミュレーションの結果を再現する。
シミュレーションは、控えめな量の量子資源で行うことができる。
最後に、ノイズエミュレータのシミュレーションを行い、ノイズと信号の区別に緩和技術が不可欠であることを示す。
In this paper, we aim to broaden the spectrum of possible applications of quantum computers and use their capabilities to investigate effects in cavity quantum electrodynamics ("cavity QED"). Interesting application examples are material properties, multiphoton effects such as superradiance, systems with strong field-matter coupling, and others. For QED applications, experimental studies are challenging, and classical simulations are often expensive. Therefore, exploring the capabilities of quantum computers is of interest. Below we present a methodology for simulating a phase transition in a pair of coupled cavities that permit photon hopping. We map the spin and boson systems to separate parts of the register and use first-order Trotterization to time-propagate the wavefunction. The order parameter, which is the observable for the phase transition, is calculated by measuring the number operator and its square. We introduce a boson-to-qubit mapping to facilitate a multi-photon, multi-atom case study. Our mapping scheme is based on the inverse Holstein-Primakoff transformation. In the multi-photon regime, boson operators are expressed via higher-spin operators which are subsequently mapped on a circuit using Pauli operators. We use a Newton series expansion to enable rigorous treatment of the square root operator. We reproduce the results of classical simulations of a phase transition with a noiseless 6-qubit simulation. We find that the simulation can be performed with a modest amount of quantum resources. Finally, we perform simulations on noisy emulators and find that mitigation techniques are essential to distinguish signal from noise. | 翻訳日:2024-03-19 02:13:39 公開日:2024-03-15 |
# RGM:ロバストな一般化可能なマッチングモデル
RGM: A Robust Generalizable Matching Model ( http://arxiv.org/abs/2310.11755v4 ) ライセンス: Link先を確認 | Songyan Zhang, Xinyu Sun, Hao Chen, Bo Li, Chunhua Shen, | (参考訳) 一対のイメージ内で対応するピクセルを見つけることは、様々な用途において基本的なコンピュータビジョンタスクである。
光学的フロー推定や局所的特徴マッチングのような様々なタスクの特定の要求のため、以前の研究は主に、特定のアーキテクチャに焦点を当てた密マッチングとスパースな特徴マッチングとタスク固有のデータセットに分類され、特殊モデルの一般化性能をやや損なう可能性がある。
本稿では,RGM (Robust Generalist Matching) と呼ばれる疎密なマッチングモデルを提案する。
特に,複数のスケールで幾何的類似性を反復的に探索し,スペーシフィケーションのための新たな不確実性推定モジュールを付加することにより,改良のためのカスケードGRUモジュールを精巧に設計する。
合成トレーニングサンプルと実世界のシナリオとのギャップを狭めるために,より広い間隔で光フローの監視を生成することにより,疎対応の地上真実を持つ大規模データセットを構築した。
そのため、さまざまな密集したスパースマッチングデータセットを混ぜ合わせることができ、トレーニングの多様性が大幅に向上します。
提案するRGMの一般化能力は、2段階の混合データに基づいてマッチングと不確実性推定を学習することにより大幅に向上する。
複数のデータセットにまたがるゼロショットマッチングと下流幾何推定において、上位性能が達成され、従来の手法よりも大きなマージンで性能が向上した。
Finding corresponding pixels within a pair of images is a fundamental computer vision task with various applications. Due to the specific requirements of different tasks like optical flow estimation and local feature matching, previous works are primarily categorized into dense matching and sparse feature matching focusing on specialized architectures along with task-specific datasets, which may somewhat hinder the generalization performance of specialized models. In this paper, we propose a deep model for sparse and dense matching, termed RGM (Robust Generalist Matching). In particular, we elaborately design a cascaded GRU module for refinement by exploring the geometric similarity iteratively at multiple scales following an additional uncertainty estimation module for sparsification. To narrow the gap between synthetic training samples and real-world scenarios, we build a new, large-scale dataset with sparse correspondence ground truth by generating optical flow supervision with greater intervals. As such, we are able to mix up various dense and sparse matching datasets, significantly improving the training diversity. The generalization capacity of our proposed RGM is greatly improved by learning the matching and uncertainty estimation in a two-stage manner on the large, mixed data. Superior performance is achieved for zero-shot matching and downstream geometry estimation across multiple datasets, outperforming the previous methods by a large margin. | 翻訳日:2024-03-19 02:13:39 公開日:2024-03-15 |
# IRAD: 敵対的攻撃に対する暗黙の表現駆動型イメージリサンプリング
IRAD: Implicit Representation-driven Image Resampling against Adversarial Attacks ( http://arxiv.org/abs/2310.11890v2 ) ライセンス: Link先を確認 | Yue Cao, Tianlin Li, Xiaofeng Cao, Ivor Tsang, Yang Liu, Qing Guo, | (参考訳) 本稿では,画像再サンプリングという,敵対的攻撃に対する新たなアプローチを提案する。
画像再サンプリングは、幾何学的変換によって指定されたシーンの再調整や再レンダリングの過程をシミュレートして、離散画像を新しい画像に変換する。
我々の考えの根底にある理論的根拠は、画像再サンプリングは、本質的な意味情報を保持しながら、敵の摂動の影響を緩和し、敵の攻撃を防御する固有の優位性を与える、というものである。
この概念を検証するために,画像再サンプリングを活用して敵の攻撃を防ぐための総合的研究を行った。
我々は補間戦略と座標シフト等級を用いた基本的な再サンプリング手法を開発した。
解析の結果,これらの基本手法は部分的に敵攻撃を軽減できることが明らかとなった。
クリーンな画像の精度は顕著に低下する一方、敵の例に対する精度の改善はそれほど大きくない。
これらの制限を克服するために、暗黙的な表現駆動画像再サンプリング(IRAD)を提案する。
まず、連続座標空間内の任意の入力画像を表現できる暗黙的な連続表現を構築する。
次にSampleNetを導入し、異なる入力に応じて再サンプリングのための画素単位のシフトを自動的に生成する。
さらに,我々のアプローチを最先端拡散法に拡張し,防衛能力を保ちながら,より少ない時間ステップで高速化することができる。
大規模な実験により, クリーン画像の精度を維持しつつ, 多様な深層モデルの種々の攻撃に対する対角的堅牢性を著しく向上することが示された。
We introduce a novel approach to counter adversarial attacks, namely, image resampling. Image resampling transforms a discrete image into a new one, simulating the process of scene recapturing or rerendering as specified by a geometrical transformation. The underlying rationale behind our idea is that image resampling can alleviate the influence of adversarial perturbations while preserving essential semantic information, thereby conferring an inherent advantage in defending against adversarial attacks. To validate this concept, we present a comprehensive study on leveraging image resampling to defend against adversarial attacks. We have developed basic resampling methods that employ interpolation strategies and coordinate shifting magnitudes. Our analysis reveals that these basic methods can partially mitigate adversarial attacks. However, they come with apparent limitations: the accuracy of clean images noticeably decreases, while the improvement in accuracy on adversarial examples is not substantial. We propose implicit representation-driven image resampling (IRAD) to overcome these limitations. First, we construct an implicit continuous representation that enables us to represent any input image within a continuous coordinate space. Second, we introduce SampleNet, which automatically generates pixel-wise shifts for resampling in response to different inputs. Furthermore, we can extend our approach to the state-of-the-art diffusion-based method, accelerating it with fewer time steps while preserving its defense capability. Extensive experiments demonstrate that our method significantly enhances the adversarial robustness of diverse deep models against various attacks while maintaining high accuracy on clean images. | 翻訳日:2024-03-19 02:03:55 公開日:2024-03-15 |
# 変圧器の追加を理解する
Understanding Addition in Transformers ( http://arxiv.org/abs/2310.13121v7 ) ライセンス: Link先を確認 | Philip Quirke, Fazl Barez, | (参考訳) Transformersのような機械学習モデルの内部動作を理解することは、安全で倫理的な使用に不可欠である。
本稿では,n桁整数加算を行うために訓練された1層トランスフォーマーモデルの包括的解析を行う。
提案手法は,各桁を対象とする並列ストリームに分割し,各桁の異なる位置に合わせて最適化されたアルゴリズムを用いることを示唆している。
さらに,高い損失を特徴とする稀なシナリオを特定し,その説明を行う。
モデルのアルゴリズムを徹底的に解明することにより、その機能に関する新たな洞察を提供する。
これらの知見は厳密なテストと数学的モデリングを通じて検証され、モデル理解と解釈可能性の幅広い分野に寄与する。
我々のアプローチは、より複雑なタスクと多層トランスフォーマーモデルを分析するための扉を開く。
Understanding the inner workings of machine learning models like Transformers is vital for their safe and ethical use. This paper provides a comprehensive analysis of a one-layer Transformer model trained to perform n-digit integer addition. Our findings suggest that the model dissects the task into parallel streams dedicated to individual digits, employing varied algorithms tailored to different positions within the digits. Furthermore, we identify a rare scenario characterized by high loss, which we explain. By thoroughly elucidating the model's algorithm, we provide new insights into its functioning. These findings are validated through rigorous testing and mathematical modeling, thereby contributing to the broader fields of model understanding and interpretability. Our approach opens the door for analyzing more complex tasks and multi-layer Transformer models. | 翻訳日:2024-03-19 01:54:08 公開日:2024-03-15 |
# ダークマター用マグレブ:浮遊超伝導体を用いたダークフォトンとアクシオンダークマターセンシング
Maglev for Dark Matter: Dark-photon and axion dark matter sensing with levitated superconductors ( http://arxiv.org/abs/2310.18398v2 ) ライセンス: Link先を確認 | Gerard Higgins, Saarik Kalia, Zhen Liu, | (参考訳) 超精密なメカニカルセンサーは、新しい物理学をテストするためのエキサイティングな道を提供する。
これらのセンサーの多くは慣性力を検出するために調整されているが、磁気浮上式(Maglev)システムは電磁力にも敏感であるという点で特に興味深い。
本研究では, 磁気浮上型超伝導体を用いて, ダークフォトンおよびアクシオンダークマターを磁気磁気に結合して検出する手法を提案する。
既存の実験では、これらのダークマター候補を高周波数で探索するが、$\mathrm{1\,kHz}$以下の周波数に敏感であるものはほとんどない(ダークマター質量は$m_\mathrm{DM}\lesssim10^{-12}\,\mathrm{eV}$)。
機械共振器として、磁気浮上型超伝導体は低周波に敏感であり、現在実験で探索されていないパラメータ空間を探索することができる。
ダークフォトンとアクシオンダークマターは、磁気浮上型超伝導体の運動を駆動する振動磁場を発生させることができる。
この運動は、ダークマターコンプトン周波数が浮遊超伝導体のトラップ周波数と一致するときに共鳴的に増強される。
磁気浮上型超伝導体を暗黒物質に敏感にするために必要な改良点について概説する。
我々は、f_\mathrm{DM}\lesssim f_\mathrm{kHz}$ frequency rangeにおいて、我々の技術は暗黒光子とアクシオンダークマターの両方の実験プローブの先行感度を達成することができることを示した。
Ultraprecise mechanical sensors offer an exciting avenue for testing new physics. While many of these sensors are tailored to detect inertial forces, magnetically levitated (Maglev) systems are particularly interesting, in that they are also sensitive to electromagnetic forces. In this work, we propose the use of magnetically levitated superconductors to detect dark-photon and axion dark matter through their couplings to electromagnetism. Several existing laboratory experiments search for these dark-matter candidates at high frequencies, but few are sensitive to frequencies below $\mathrm{1\,kHz}$ (corresponding to dark-matter masses $m_\mathrm{DM}\lesssim10^{-12}\,\mathrm{eV}$). As a mechanical resonator, magnetically levitated superconductors are sensitive to lower frequencies, and so can probe parameter space currently unexplored by laboratory experiments. Dark-photon and axion dark matter can source an oscillating magnetic field that drives the motion of a magnetically levitated superconductor. This motion is resonantly enhanced when the dark matter Compton frequency matches the levitated superconductor's trapping frequency. We outline the necessary modifications to make magnetically levitated superconductors sensitive to dark matter, including specifications for both broadband and resonant schemes. We show that in the $\mathrm{Hz}\lesssim f_\mathrm{DM}\lesssim\mathrm{kHz}$ frequency range our technique can achieve the leading sensitivity amongst laboratory probes of both dark-photon and axion dark matter. | 翻訳日:2024-03-18 23:51:32 公開日:2024-03-15 |
# 2ビット状態による操舵楕円体動物園の実験的検証
Experimental verification of the steering ellipsoid zoo via two-qubit states ( http://arxiv.org/abs/2310.18645v2 ) ライセンス: Link先を確認 | Kai Xu, Lijun Liu, Ning-Ning Wang, Chao Zhang, Yun-Feng Huang, Bi-Heng Liu, Shuming Cheng, Chuan-Feng Li, Guang-Can Guo, | (参考訳) 量子ステアリング楕円体(Quantum steering ellipsoid)は、ブロッホ図における別の相関量子ビットの測定によって操れる全ての量子ビット状態の集合を視覚化する。
局所的還元状態とともに、基礎となる2量子状態の忠実な幾何学的特徴を提供し、その幾何学的性質にほとんどすべての非古典的状態特徴が反映されるようにしている。
その結果、幾何学的性質の異なる様々な種類の量子楕円体が楕円体動物園を形成し、この研究において、多くの偏光パス光子状態の測定によって実験的に検証される。
高い忠実度を有する2量子状態を生成することにより、対応する楕円体が、絡み合いの存在、一方方向アインシュタイン-ポドルスキー-ローゼン操舵、不協和、および操舵不完全性を証明するために構築される。
また、イコサヘドロンの12頂点を測定方向として使用することにより、操舵楕円体を再構成できることを実験的に検証した。
本研究は, 量子ステアリング楕円体を用いて, マルチキュービット系の非古典的特徴を明らかにした。
Quantum steering ellipsoid visualizes the set of all qubit states that can be steered by measuring on another correlated qubit in the Bloch picture. Together with local reduced states, it provides a faithful geometric characterization of the underlying two-qubit state so that almost all nonclassical state features can be reflected in its geometric properties. Consequently, the various types of quantum ellipsoids with different geometric properties form an ellipsoid zoo, which, in this work, is experimentally verified via measurements on many polarization-path photonic states. By generating two-qubit states with high fidelity, the corresponding ellipsoids are constructed to certify the presence of entanglement, one-way Einstein-Podolsky-Rosen steering, discord, and steering incompleteness. It is also experimentally verified that the steering ellipsoid can be reconstructed from using the twelve vertices of the icosahedron as measurement directions. Our results aid progress in applying the quantum steering ellipsoid to reveal nonclassical features of the multi-qubit system. | 翻訳日:2024-03-18 23:51:32 公開日:2024-03-15 |
# モデル適応によるデバイアスアルゴリズム
Debiasing Algorithm through Model Adaptation ( http://arxiv.org/abs/2310.18913v3 ) ライセンス: Link先を確認 | Tomasz Limisiewicz, David Mareček, Tomáš Musil, | (参考訳) 大規模言語モデルは、ますます増え続けるタスクの解決策になりつつある。
しかし、能力の増大に伴い、モデルはトレーニングデータに存在するバイアスやステレオタイプから生じる急激な相関に依存する傾向にある。
本研究は,言語モデルにおけるジェンダーバイアスの検出と緩和のための新しい手法を提案する。
因果解析を行い、問題のあるモデル成分を同定し、フィードフォワードの中間層が最も偏りを伝達しやすいことを明らかにする。
解析結果に基づいて,これらの層の重み行列に線形射影を適用することにより,モデルに介入する。
提案手法であるDAMAは,下流タスクにおけるモデルの性能を維持しながら,様々な指標によって測定されるバイアスを著しく低減する。
我々はLLaMAの最先端性能を再訓練する手法とモデルのためのコードをリリースし、バイアスを著しく低減した。
Large language models are becoming the go-to solution for the ever-growing number of tasks. However, with growing capacity, models are prone to rely on spurious correlations stemming from biases and stereotypes present in the training data. This work proposes a novel method for detecting and mitigating gender bias in language models. We perform causal analysis to identify problematic model components and discover that mid-upper feed-forward layers are most prone to convey bias. Based on the analysis results, we intervene in the model by applying a linear projection to the weight matrices of these layers. Our titular method, DAMA, significantly decreases bias as measured by diverse metrics while maintaining the model's performance on downstream tasks. We release code for our method and models, which retrain LLaMA's state-of-the-art performance while being significantly less biased. | 翻訳日:2024-03-18 23:51:32 公開日:2024-03-15 |
# 物体検出のための半・弱修正領域一般化における平均教師によるフラットミニマの探索
Seeking Flat Minima with Mean Teacher on Semi- and Weakly-Supervised Domain Generalization for Object Detection ( http://arxiv.org/abs/2310.19351v2 ) ライセンス: Link先を確認 | Ryosuke Furuta, Yoichi Sato, | (参考訳) ドメインがトレーニングとテストデータに大きく異なる場合、オブジェクト検出器はうまく機能しない。
高価なアノテーションを必要とせずに、オブジェクト検出におけるドメインギャップを克服するために、半教師付きドメイン一般化オブジェクト検出(SS-DGOD)と弱い教師付きDGOD(WS-DGOD)の2つの問題設定を検討する。
複数のドメインからのラベル付きデータを必要とする従来のドメインの一般化とは対照的に、SS-DGODとWS-DGODは1つのドメインからのみラベル付きデータを必要とし、トレーニングのために複数のドメインからラベル付きまたは弱いラベル付きデータを必要とする。
そこで,本研究では,学生ネットワークを教師からの擬似ラベルで学習し,未ラベルデータや弱ラベルデータを用いて学習する,同じ平均教師学習フレームワークを用いて,2つの設定でオブジェクト検出を効果的に訓練できることを述べる。
平均教師学習フレームワークが,パラメータ空間における一般化ギャップと平坦な最小値の関係から,2つの設定でうまく機能する理由を新たに解釈する。
また,その解釈に基づいて,平らなミニマを見つけるために,簡単な正規化手法を平均教師学習フレームワークに組み込むことを提案する。
実験結果から, 正規化はよりフラットな最小化につながり, 平均教師学習フレームワークで訓練した検出器の性能を高めることが示唆された。
また、これらの検出器は最先端の手法を大きく上回っていることも示している。
Object detectors do not work well when domains largely differ between training and testing data. To overcome this domain gap in object detection without requiring expensive annotations, we consider two problem settings: semi-supervised domain generalizable object detection (SS-DGOD) and weakly-supervised DGOD (WS-DGOD). In contrast to the conventional domain generalization for object detection that requires labeled data from multiple domains, SS-DGOD and WS-DGOD require labeled data only from one domain and unlabeled or weakly-labeled data from multiple domains for training. In this paper, we show that object detectors can be effectively trained on the two settings with the same Mean Teacher learning framework, where a student network is trained with pseudo-labels output from a teacher on the unlabeled or weakly-labeled data. We provide novel interpretations of why the Mean Teacher learning framework works well on the two settings in terms of the relationships between the generalization gap and flat minima in parameter space. On the basis of the interpretations, we also propose incorporating a simple regularization method into the Mean Teacher learning framework to find flatter minima. The experimental results demonstrate that the regularization leads to flatter minima and boosts the performance of the detectors trained with the Mean Teacher learning framework on the two settings. They also indicate that those detectors significantly outperform the state-of-the-art methods. | 翻訳日:2024-03-18 23:51:32 公開日:2024-03-15 |
# LILO:コードの圧縮と文書化による解釈可能なライブラリの学習
LILO: Learning Interpretable Libraries by Compressing and Documenting Code ( http://arxiv.org/abs/2310.19791v4 ) ライセンス: Link先を確認 | Gabriel Grand, Lionel Wong, Maddy Bowers, Theo X. Olausson, Muxin Liu, Joshua B. Tenenbaum, Jacob Andreas, | (参考訳) 大規模言語モデル(LLM)はコード生成に優れていますが、ソフトウェア開発の重要な側面はリファクタリングのテクニックです。
本稿では、特定の問題領域に適したライブラリを構築するために、反復的に合成、圧縮、文書コードを生成する、ニューロシンボリックなフレームワークであるLILOを紹介する。
LILOは、LLM誘導型プログラム合成と、Stitchからの自動リファクタリングにおける最近のアルゴリズム的進歩を組み合わせた、大規模なコードコーパスをまたいだ最適なラムダ抽象化を効率的に識別するシンボリック圧縮システムである。
これらの抽象化を解釈できるように、文脈的使用例に基づいて自然言語名や文書を推論するAuto-Doc(Auto-Docmentation)手順を導入する。
人間の可読性の改善に加えて、AutoDocはLILOのシンセサイザーが学習した抽象化を解釈し、デプロイするのを手助けすることで、パフォーマンスを向上させる。
我々は、文字列編集、シーン推論、グラフィック合成のための3つの帰納的プログラム合成ベンチマーク上でLILOを評価する。
最先端のライブラリ学習アルゴリズムDreamCoderを含む既存のニューラルおよびシンボリックメソッドと比較して、LILOはより複雑なタスクを解決し、言語知識に根ざしたリッチなライブラリを学ぶ。
While large language models (LLMs) now excel at code generation, a key aspect of software development is the art of refactoring: consolidating code into libraries of reusable and readable programs. In this paper, we introduce LILO, a neurosymbolic framework that iteratively synthesizes, compresses, and documents code to build libraries tailored to particular problem domains. LILO combines LLM-guided program synthesis with recent algorithmic advances in automated refactoring from Stitch: a symbolic compression system that efficiently identifies optimal lambda abstractions across large code corpora. To make these abstractions interpretable, we introduce an auto-documentation (AutoDoc) procedure that infers natural language names and docstrings based on contextual examples of usage. In addition to improving human readability, we find that AutoDoc boosts performance by helping LILO's synthesizer to interpret and deploy learned abstractions. We evaluate LILO on three inductive program synthesis benchmarks for string editing, scene reasoning, and graphics composition. Compared to existing neural and symbolic methods - including the state-of-the-art library learning algorithm DreamCoder - LILO solves more complex tasks and learns richer libraries that are grounded in linguistic knowledge. | 翻訳日:2024-03-18 23:51:32 公開日:2024-03-15 |
# 拡散モデルにおけるデータ属性の導出特性
Intriguing Properties of Data Attribution on Diffusion Models ( http://arxiv.org/abs/2311.00500v2 ) ライセンス: Link先を確認 | Xiaosen Zheng, Tianyu Pang, Chao Du, Jing Jiang, Min Lin, | (参考訳) データ属性は、モデルの出力をトレーニングデータに戻そうとする。
近年の拡散モデルの発展により、データ属性は、高品質なトレーニングサンプルや著作権のあるトレーニングサンプルのバリュエーションを適切に割り当て、データコントリビュータが相当に補償されたり、認定されたりする上で、望ましいモジュールになっている。
計算スケーラビリティと有効性の間のトレードオフを改善するために、データ属性を実装するための理論的動機付け手法がいくつか提案されている。
本研究は,CIFAR-10およびCelebAで訓練されたDDPMとArtBenchで作製された安定拡散モデルLoRAに焦点を当て,帰属拡散モデルに関する広範囲な実験およびアブレーション研究を行う。
興味深いことに、線形データモデリングスコアと反事実評価の両方の観点から、帰属のための設計選択が、経験的に以前のベースラインよりも大きなマージンで上回っているという、理論的に不適切な反直観的な観察を報告する。
その結果,少なくとも非凸条件下では,理論的な仮定によって導かれる構造が,導出性能の低下につながる可能性が示唆された。
コードはhttps://github.com/sail-sg/D-TRAK.comで公開されている。
Data attribution seeks to trace model outputs back to training data. With the recent development of diffusion models, data attribution has become a desired module to properly assign valuations for high-quality or copyrighted training samples, ensuring that data contributors are fairly compensated or credited. Several theoretically motivated methods have been proposed to implement data attribution, in an effort to improve the trade-off between computational scalability and effectiveness. In this work, we conduct extensive experiments and ablation studies on attributing diffusion models, specifically focusing on DDPMs trained on CIFAR-10 and CelebA, as well as a Stable Diffusion model LoRA-finetuned on ArtBench. Intriguingly, we report counter-intuitive observations that theoretically unjustified design choices for attribution empirically outperform previous baselines by a large margin, in terms of both linear datamodeling score and counterfactual evaluation. Our work presents a significantly more efficient approach for attributing diffusion models, while the unexpected findings suggest that at least in non-convex settings, constructions guided by theoretical assumptions may lead to inferior attribution performance. The code is available at https://github.com/sail-sg/D-TRAK. | 翻訳日:2024-03-18 23:41:48 公開日:2024-03-15 |
# 単一ハミルトンクエンチダイナミクスによる任意状態の予測
Predicting Arbitrary State Properties from Single Hamiltonian Quench Dynamics ( http://arxiv.org/abs/2311.00695v2 ) ライセンス: Link先を確認 | Zhenhuan Liu, Zihan Hao, Hong-Ye Hu, | (参考訳) アナログ量子シミュレーションは量子コンピューティングにとって不可欠なルーチンであり、量子多体物理学の研究において重要な役割を果たす。
典型的には、アナログシミュレータの量子進化は、その物理的特性によって決定され、量子ゲートの正確な制御や汎用性に欠ける。
この制限は、量子シミュレーションの重要なステップであるアナログ量子シミュレータの物理的性質を抽出する際の課題を提起する。
この問題に対処するために、任意の状態特性を推定するために単一のクエンチ・ハミルトンを用いたハミルトニアン・シャドウプロトコルを導入する。
さらに、このプロトコルのサンプル複雑さを導出し、古典的なシャドウプロトコルと相容れない性能を示す。
ハミルトニアン・シャドウ・プロトコルは高度な制御を必要としないため、幅広いアナログ量子シミュレータに適用することができる。
現実的なパラメータ設定下では、Rydberg atom array を用いて数値的な実演を行い、その実用性を実証する。
新しいプロトコルは、正確な制御と補助システムなしでアナログ量子シミュレーターに対するランダム化測定の適用を著しく拡大する。
Analog quantum simulation is an essential routine for quantum computing and plays a crucial role in studying quantum many-body physics. Typically, the quantum evolution of an analog simulator is largely determined by its physical characteristics, lacking the precise control or versatility of quantum gates. This limitation poses challenges in extracting physical properties on analog quantum simulators, an essential step of quantum simulations. To address this issue, we introduce the Hamiltonian shadow protocol, which uses a single quench Hamiltonian for estimating arbitrary state properties, eliminating the need for ancillary systems and random unitaries. Additionally, we derive the sample complexity of this protocol and show that it performs comparably to the classical shadow protocol. The Hamiltonian shadow protocol does not require sophisticated control and can be applied to a wide range of analog quantum simulators. We demonstrate its utility through numerical demonstrations with Rydberg atom arrays under realistic parameter settings. The new protocol significantly broadens the application of randomized measurements for analog quantum simulators without precise control and ancillary systems. | 翻訳日:2024-03-18 23:41:48 公開日:2024-03-15 |
# EHA:固有解像器用エンタングルメント可変ハードウェア効率アンサッツ
EHA: Entanglement-variational Hardware-efficient Ansatz for Eigensolvers ( http://arxiv.org/abs/2311.01120v2 ) ライセンス: Link先を確認 | Xin Wang, Bo Qi, Yabo Wang, Daoyi Dong, | (参考訳) 変分量子固有解法 (VQEs) は、量子コンピューティングの最も重要かつ効果的な応用の1つであり、特に現在の雑音の中間スケール量子 (NISQ) 時代においてである。
VQEには主に2つの方法がある。
問題に依存しない手法では、しばしばトレーニング容易性の問題に悩まされる。
問題固有の手法では、その性能は多くの場合、決定が難しい初期参照状態の選択に依存する。
本稿では,量子多体系と量子化学のベンチマーク問題を解くことで,エンタングルメント可変ハードウェア効率アンサッツ(EHA)を提案する。
我々のEHAは問題に依存しないハードウェア効率であり、特にNISQデバイスに適している。
EHAは、問題固有の手法と比較して、ほとんどの場合において基底状態とそのエネルギーを見つける際に高いレベルの精度を達成することができる。
EHAの性能は初期状態とパラメータの初期化の選択に頑健であり、必要な量への絡み合いを迅速に調整する能力を持っている。
Variational quantum eigensolvers (VQEs) are one of the most important and effective applications of quantum computing, especially in the current noisy intermediate-scale quantum (NISQ) era. There are mainly two ways for VQEs: problem-agnostic and problem-specific. For problem-agnostic methods, they often suffer from trainability issues. For problem-specific methods, their performance usually relies upon choices of initial reference states which are often hard to determine. In this paper, we propose an Entanglement-variational Hardware-efficient Ansatz (EHA), and numerically compare it with some widely used ansatzes by solving benchmark problems in quantum many-body systems and quantum chemistry. Our EHA is problem-agnostic and hardware-efficient, especially suitable for NISQ devices and having potential for wide applications. EHA can achieve a higher level of accuracy in finding ground states and their energies in most cases even compared with problem-specific methods. The performance of EHA is robust to choices of initial states and parameters initialization and it has the ability to quickly adjust the entanglement to the required amount, which is also the fundamental reason for its superiority. | 翻訳日:2024-03-18 23:41:48 公開日:2024-03-15 |
# ディープフェイク・フェイス・スワッピングに対する知覚的透かしのロバストアイデンティティ
Robust Identity Perceptual Watermark Against Deepfake Face Swapping ( http://arxiv.org/abs/2311.01357v2 ) ライセンス: Link先を確認 | Tianyi Wang, Mengxiao Huang, Harry Cheng, Bin Ma, Yinglong Wang, | (参考訳) 社会に利便性とエンターテイメントを提供するにもかかわらず、ディープフェイク・フェイス・スワッピングは、ディープジェネレーティブ・モデルの急速な発展によって、重要なプライバシー問題を引き起こしている。
高品質な合成画像における知覚不可能な人工物のため、近年の顔スワップに対する受動的検出モデルは通常、一般化可能性の問題に関して性能減衰に悩まされている。
そのため,前もって目に見えない信号を挿入することにより,悪質な操作に対して元のイメージを積極的に保護する研究がいくつか試みられている。
しかし、既存のプロアクティブディフェンスアプローチは、視覚的品質、検出精度、ソース追跡能力に関して不満足な結果を示す。
本研究では,研究ギャップを満たすために,Deepfake顔スワップに対する検出とソーストレースを積極的に行う,最初の頑健なアイデンティティ認識型透かしフレームワークを提案する。
画像の内容に関する識別セマンティクスを透かしに割り当て、透かしの秘密性を確保するために予測不可能で不可逆的なカオス暗号システムを作成する。
透かしは、エンコーダ・デコーダ・フレームワークと逆画像操作を併用して、エンコーダ・デコーダ・フレームワークを共同で訓練し、復元する。
Falsificationとソーストレースは、コンテンツマッチングされたアイデンティティの知覚的透かしと、画像から復元された堅牢な透かしとの整合性を正当化することにより達成される。
クロスデータセットおよびクロスマニピュレーション設定下でのディープフェイク面スワップにおける最先端検出性能の実証実験を行った。
Notwithstanding offering convenience and entertainment to society, Deepfake face swapping has caused critical privacy issues with the rapid development of deep generative models. Due to imperceptible artifacts in high-quality synthetic images, passive detection models against face swapping in recent years usually suffer performance damping regarding the generalizability issue. Therefore, several studies have been attempted to proactively protect the original images against malicious manipulations by inserting invisible signals in advance. However, the existing proactive defense approaches demonstrate unsatisfactory results with respect to visual quality, detection accuracy, and source tracing ability. In this study, to fulfill the research gap, we propose the first robust identity perceptual watermarking framework that concurrently performs detection and source tracing against Deepfake face swapping proactively. We assign identity semantics regarding the image contents to the watermarks and devise an unpredictable and nonreversible chaotic encryption system to ensure watermark confidentiality. The watermarks are encoded and recovered by jointly training an encoder-decoder framework along with adversarial image manipulations. Falsification and source tracing are accomplished by justifying the consistency between the content-matched identity perceptual watermark and the recovered robust watermark from the image. Extensive experiments demonstrate state-of-the-art detection performance on Deepfake face swapping under both cross-dataset and cross-manipulation settings. | 翻訳日:2024-03-18 23:41:48 公開日:2024-03-15 |
# COGNAC:勾配と雑音認識による回路最適化
COGNAC: Circuit Optimization via Gradients and Noise-Aware Compilation ( http://arxiv.org/abs/2311.02769v2 ) ライセンス: Link先を確認 | Finn Voichick, Leonidas Lampropoulos, Robert Rand, | (参考訳) 本稿では,数値最適化アルゴリズムに基づく量子回路の計算手法であるCOGNACを提案する。
ゲートの絡み合いの持続時間から得られる単純なノイズモデルを用いて、勾配に基づく手法は、ターゲットのユニタリを近似した局所的な最適値に迅速に収束させることができる。
繰り返しかつ連続的にゲートの時間をゼロにすることで、多数の明示的な消去書き直し規則を必要とせずに回路のゲート数を削減できる。
この手法を汎用のQiskitコンパイラプラグインとして実装し、様々な標準4ビットベンチマークにおける最先端の最適化器の性能と比較した。
COGNACは2キュービットのゲート数を減らすために既存のオプティマイザよりも優れている。
私たちのプラグインはローエンドのラップトップ上で動作し、小さな回路を最適化するのに数秒かかります。
We present COGNAC, a novel strategy for compiling quantum circuits based on numerical optimization algorithms from scientific computing. Using a simple noise model informed by the duration of entangling gates, our gradient-based method can quickly converge to a local optimum that closely approximates the target unitary. By iteratively and continuously decreasing a gate's duration to zero, we reduce a circuit's gate count without the need for a large number of explicit elimination rewrite rules. We have implemented this technique as a general-purpose Qiskit compiler plugin and compared performance with state-of-the-art optimizers on a variety of standard 4-qubit benchmarks. COGNAC typically outperforms existing optimizers in reducing 2-qubit gate count, sometimes significantly. Running on a low-end laptop, our plugin takes seconds to optimize a small circuit, making it effective and accessible for a typical quantum programmer. | 翻訳日:2024-03-18 23:41:48 公開日:2024-03-15 |
# マルチスペクトル衛星画像へのエッジ誘導によるテキスト・画像拡散モデルの適用可能性の検討
Exploring the Capability of Text-to-Image Diffusion Models with Structural Edge Guidance for Multi-Spectral Satellite Image Inpainting ( http://arxiv.org/abs/2311.03008v2 ) ライセンス: Link先を確認 | Mikolaj Czerkawski, Christos Tachtatzis, | (参考訳) 本文は,衛星画像データに対するテキスト・ツー・イメージ・インペインティング・モデルの有用性について検討する。
構造導波路信号を生成プロセスに注入する2つの技術的課題と,RGB-to-MSI翻訳の新たな手法であるStableDiffusionとControlNetに基づく新しい塗膜フレームワークを導入することにより,より広いMSI帯域にRGB画素を変換する2つの技術的課題に対処する。
以上の結果から,StableDiffusionを用いて合成したインパインティングは望ましくない人工物に悩まされ,自己監督型内部インパインティングの簡単な代替手段がより高品質な合成を実現することが示唆された。
The letter investigates the utility of text-to-image inpainting models for satellite image data. Two technical challenges of injecting structural guiding signals into the generative process as well as translating the inpainted RGB pixels to a wider set of MSI bands are addressed by introducing a novel inpainting framework based on StableDiffusion and ControlNet as well as a novel method for RGB-to-MSI translation. The results on a wider set of data suggest that the inpainting synthesized via StableDiffusion suffers from undesired artifacts and that a simple alternative of self-supervised internal inpainting achieves a higher quality of synthesis. | 翻訳日:2024-03-18 23:41:48 公開日:2024-03-15 |
# 円筒Geナノワイヤにおけるホールサブバンド分散:軸方向ルッティンガー-コーンハミルトニアンに基づく正確な結果
Hole subband dispersions in a cylindrical Ge nanowire: exact results based on the axial Luttinger-Kohn Hamiltonian ( http://arxiv.org/abs/2311.03816v2 ) ライセンス: Link先を確認 | Rui Li, | (参考訳) 軸近似におけるルッティンガー・コーン・ハミルトニアンに基づいて、円筒Geナノワイヤのホールサブバンド分散を決定する超越方程式を解析的に導出した。
これらの方程式は球面近似を用いて導出した方程式よりも一般であり、サブバンド分散の成長方向依存性を研究するのに適している。
軸近似は、高対称性のナノワイヤ成長方向[001]と[111]の正確な低エネルギーサブバンド分散をもたらす。
非軸項からの摂動補正はこの2つの方向について無視される。
最も低い2つのサブバンド分散は、[001] と [111] の両方の成長方向に対して、エネルギーギャップが$k_{z}=0$の2つのシフトパラボラ曲線とみなすことができる。
エネルギーギャップの位置では、成長方向[111]の固有状態が、成長方向[001]の通常の固有状態と比較される。
エネルギーギャップが$k_{z}=0$で閉じるナノワイヤ成長方向は[001]と[111]の間に存在すると予測される。
Based on the Luttinger-Kohn Hamiltonian in the axial approximation, the transcendental equations determining the hole subband dispersions in a cylindrical Ge nanowire are analytically derived. These equations are more general than that derived using the spherical approximation, and are suitable to study the growth direction dependence of the subband dispersions. The axial approximation almost gives rise to the accurate low-energy subband dispersions for high-symmetry nanowire growth directions [001] and [111]. The perturbation correction from the non-axial term is negligible for these two directions. The lowest two subband dispersions can be regarded as two shifted parabolic curves with an energy gap at $k_{z}=0$ for both growth directions [001] and [111]. At the position of the energy gap, the eigenstates for growth direction [111] are inverted in comparison with the normal eigenstates for growth direction [001]. A nanowire growth direction where the energy gap closes at $k_{z}=0$ is predicted to exist between directions [001] and [111]. | 翻訳日:2024-03-18 23:41:48 公開日:2024-03-15 |
# 内的モノローグによる大規模言語モデルのコミュニケーションスキルの育成
Think Before You Speak: Cultivating Communication Skills of Large Language Models via Inner Monologue ( http://arxiv.org/abs/2311.07445v2 ) ライセンス: Link先を確認 | Junkai Zhou, Liang Pang, Huawei Shen, Xueqi Cheng, | (参考訳) 大規模言語モデル(LLM)の出現により、オープンドメイン対話システムの能力はさらに向上し、流動的で一貫性があり多様な応答を生成することができる。
しかし、LLMには重要な能力がない。
この制限は、人為的なチャットボットというよりも、情報検索ツールのようなものだ。
トピック移行、積極的に質問する質問、概念指導、共感、要約といったコミュニケーションスキルは、会話中にLLMをより人為的かつ積極的にし、ユーザの興味を増し、より長くチャットに惹きつけるために考慮すべきである。
しかしながら、これらのコミュニケーションスキルをブラックボックスのLLMで実現することは、実際の人と同じ発話形成モードを持っていないため、重要な課題である。
言語学と認知科学にインスパイアされた私たちは、内部のモノローグを通してコミュニケーションスキルを持つLLMに力を与えます。
様々なコミュニケーションスキルを評価するために,Cskillsというベンチマークを構築し,モデルの対話生成能力をより包括的に評価する。
実験の結果,提案したCSIM戦略はバックボーンモデルを改善し,ベースラインよりも優れていた。
The emergence of large language models (LLMs) further improves the capabilities of open-domain dialogue systems and can generate fluent, coherent, and diverse responses. However, LLMs still lack a crucial ability: communication skills. This limitation renders them more like information seeking tools rather than anthropomorphic chatbots. Communication skills, such as topic transition, proactively asking questions, concept guidance, empathy, and summarising often should be taken into consideration, to make LLMs more anthropomorphic and proactive during the conversation, thereby increasing the interest of users and attracting them to chat for longer. However, enabling these communication skills in black-box LLMs remains a key challenge because they do not have the same utterance formation mode as real people: think before speaking. Inspired by linguistics and cognitive science, we empower LLMs with communication skills through inner monologues. To evaluate various communication skills, we construct a benchmark named Cskills, which can also more comprehensively evaluate the dialogue generation ability of the model. Experimental results show that the proposed CSIM strategy improves the backbone models and outperforms the baselines. | 翻訳日:2024-03-18 23:22:19 公開日:2024-03-15 |
# Follow-Up Differential Descriptions: 言語モデルが画像分類の曖昧性を解消する
Follow-Up Differential Descriptions: Language Models Resolve Ambiguities for Image Classification ( http://arxiv.org/abs/2311.07593v2 ) ライセンス: Link先を確認 | Reza Esfandiarpoor, Stephen H. Bach, | (参考訳) 画像分類のためのCLIPのような視覚言語モデルの性能を改善するための有望なアプローチは、クラス記述(プロンプト)をスプローの代わりに茶色のスパロウを使って関連属性で拡張することである。
しかし、現在のゼロショットメソッドは、ターゲットクラス間の共通性に関係なく属性のサブセットを選択し、それらの区別に役立つ有用な情報を提供しない可能性がある。
例えば、黄褐色のスズメとレンを区別するために、紙の代わりに色を使うこともある。
Follow-up Differential Descriptions (FuDD) は、クラス記述を各データセットに合わせるゼロショットアプローチであり、ターゲットクラスをよりよく区別する追加属性をもたらす。
FuDDはまず各画像のあいまいなクラスを特定し、次にLarge Language Model(LLM)を使用して、それらの区別する新しいクラス記述を生成する。
新しいクラス記述は、最初の曖昧さを解決し、正しいラベルを予測するのに役立つ。
我々の実験では、FuDDは12のデータセット上で汎用的な記述アンサンブルやナイーブなLCM生成記述よりも一貫して優れています。
差分記述はクラスあいまいさを解決するのに有効なツールであり、そうでなければ性能を著しく低下させることを示す。
また、FuDDが生成した高品質な自然言語クラス記述により、少数ショット適応法に匹敵する性能が得られることを示す。
A promising approach for improving the performance of vision-language models like CLIP for image classification is to extend the class descriptions (i.e., prompts) with related attributes, e.g., using brown sparrow instead of sparrow. However, current zero-shot methods select a subset of attributes regardless of commonalities between the target classes, potentially providing no useful information that would have helped to distinguish between them. For instance, they may use color instead of bill shape to distinguish between sparrows and wrens, which are both brown. We propose Follow-up Differential Descriptions (FuDD), a zero-shot approach that tailors the class descriptions to each dataset and leads to additional attributes that better differentiate the target classes. FuDD first identifies the ambiguous classes for each image, and then uses a Large Language Model (LLM) to generate new class descriptions that differentiate between them. The new class descriptions resolve the initial ambiguity and help predict the correct label. In our experiments, FuDD consistently outperforms generic description ensembles and naive LLM-generated descriptions on 12 datasets. We show that differential descriptions are an effective tool to resolve class ambiguities, which otherwise significantly degrade the performance. We also show that high quality natural language class descriptions produced by FuDD result in comparable performance to few-shot adaptation methods. | 翻訳日:2024-03-18 23:22:19 公開日:2024-03-15 |
# フェアネスのための微調整テキスト・画像拡散モデル
Finetuning Text-to-Image Diffusion Models for Fairness ( http://arxiv.org/abs/2311.07604v2 ) ライセンス: Link先を確認 | Xudong Shen, Chao Du, Tianyu Pang, Min Lin, Yongkang Wong, Mohan Kankanhalli, | (参考訳) 社会におけるテキスト・画像拡散モデルの急速な導入は、彼らのバイアスに対処する緊急の必要性を浮き彫りにしている。
介入がなければ、これらの偏見は歪んだ世界観を伝播させ、少数民族の機会を制限する可能性がある。
本研究では,分布アライメント問題として公正性を考察する。
提案手法は,(1) 生成した画像の特定の特性をユーザ定義の目標分布に向ける分布アライメント損失,(2) 生成した画像に定義された損失を直接最適化するために調整された勾配を利用する拡散モデルのサンプリングプロセス(調整DFT)の調整された微調整,の2つの技術的貢献から成り立っている。
経験的手法では、職業的プロンプトに対する性別、人種、およびそれらの交叉バイアスを著しく低減する。
ソフトトークンを5個だけ微調整しても、ジェンダーバイアスは著しく低下する。
本手法は,性別と人種を同時に嫌悪しながら,年齢を75\%,年齢を25\%,年齢分布を25\%に抑えることによって,絶対平等を超える公平性の多様さを実証する。
最後に,これらのプロンプトを微調整データに含めることで,複数の概念を同時にデバイアスすることができる。
コードとさまざまな公正拡散モデルアダプタをhttps://sail-sg.github.io/finetune-fair-diffusion/で共有しています。
The rapid adoption of text-to-image diffusion models in society underscores an urgent need to address their biases. Without interventions, these biases could propagate a skewed worldview and restrict opportunities for minority groups. In this work, we frame fairness as a distributional alignment problem. Our solution consists of two main technical contributions: (1) a distributional alignment loss that steers specific characteristics of the generated images towards a user-defined target distribution, and (2) adjusted direct finetuning of diffusion model's sampling process (adjusted DFT), which leverages an adjusted gradient to directly optimize losses defined on the generated images. Empirically, our method markedly reduces gender, racial, and their intersectional biases for occupational prompts. Gender bias is significantly reduced even when finetuning just five soft tokens. Crucially, our method supports diverse perspectives of fairness beyond absolute equality, which is demonstrated by controlling age to a $75\%$ young and $25\%$ old distribution while simultaneously debiasing gender and race. Finally, our method is scalable: it can debias multiple concepts at once by simply including these prompts in the finetuning data. We share code and various fair diffusion model adaptors at https://sail-sg.github.io/finetune-fair-diffusion/. | 翻訳日:2024-03-18 23:22:19 公開日:2024-03-15 |
# 計算論における大規模言語モデルの可能性を探る
Exploring the Potential of Large Language Models in Computational Argumentation ( http://arxiv.org/abs/2311.09022v2 ) ライセンス: Link先を確認 | Guizhen Chen, Liying Cheng, Luu Anh Tuan, Lidong Bing, | (参考訳) 計算的議論は、人工知能、法律、公共政策など、様々な分野において欠かせない道具となっている。
自然言語処理における新たな研究分野であり、注目を集めている。
計算的議論に関する研究は、主に議論マイニングと議論生成の2つのタイプのタスクを含む。
大規模言語モデルは文脈の理解や自然言語の生成に強い能力を示してきたため、様々な計算的議論タスクにおいてLLMの性能を評価することには価値がある。
本研究の目的は,ChatGPTモデルやFlanモデル,LLaMA2モデルなどのLLMを,ゼロショットおよび数ショット設定で計算議論の領域内で評価することである。
既存のタスクを6つの主要なカテゴリに分類し、14のオープンソースデータセットのフォーマットを標準化します。
さらに,LLMの終端性能を議論マイニングと議論生成の両面から評価することを目的とした,対向音声生成のための新しいベンチマークデータセットを提案する。
大規模な実験により、LLMはこれらのデータセットのほとんどにまたがって高い性能を示し、議論の分野におけるそれらの能力を実証している。
我々の分析は,今後の研究における計算論証の評価とLLMとの統合について,重要な提案を提供する。
Computational argumentation has become an essential tool in various fields, including artificial intelligence, law, and public policy. It is an emerging research field in natural language processing that attracts increasing attention. Research on computational argumentation mainly involves two types of tasks: argument mining and argument generation. As large language models have demonstrated strong abilities in understanding context and generating natural language, it is worthwhile to evaluate the performance of LLMs on various computational argumentation tasks. This work aims to embark on an assessment of LLMs, such as ChatGPT, Flan models and LLaMA2 models, under zero-shot and few-shot settings within the realm of computational argumentation. We organize existing tasks into six main categories and standardise the format of fourteen open-sourced datasets. In addition, we present a new benchmark dataset on counter speech generation, that aims to holistically evaluate the end-to-end performance of LLMs on argument mining and argument generation. Extensive experiments show that LLMs exhibit commendable performance across most of these datasets, demonstrating their capabilities in the field of argumentation. Our analysis offers valuable suggestions for evaluating computational argumentation and its integration with LLMs in future research endeavors. | 翻訳日:2024-03-18 23:12:35 公開日:2024-03-15 |
# 分子エネルギーに対するコンパクアンザッツ生成へのノイズ非依存経路-動的アプローチ
Noise-independent Route towards the Genesis of a COMPACT Ansatz for Molecular Energetics: a Dynamic Approach ( http://arxiv.org/abs/2311.09895v2 ) ライセンス: Link先を確認 | Dipanjali Halder, Dibyendu Mondal, Rahul Maitra, | (参考訳) 量子情報と量子科学の最近の進歩は、ノイズ中間スケール量子(NISQ)デバイスで実現可能であると期待される様々なコンパクトな動的構造化 ans\"{a}tze の開発にインスピレーションを与えている。
しかし、そのようなアンス・{a}tze 構成戦略が発達したヒッヘルトは、かなりの測度を持つため、それらの理想構造から NISQ プラットフォームにおいて著しく逸脱する。
したがって、量子資源の使用は、相関の度合いに応じてそれ自体を適応できるアンザッツの表現性と動的構造を維持しつつ、最小化されなければならない。
本稿では,<textit{ab-initio}多体摂動理論に基づく新しいアンザッツ構成法を提案する。
アンザッツに付随する精度と量子複雑性は、所望の摂動順序によってのみ予測され、従ってチューナブルである。
さらに、アンザッツ構成パイプラインの基盤となる摂動構造は、高摂動順序で現れる高階励起を様々な低階作用素の積に分解することができ、これにより、実行ゲート深さを最小限に抑えることができる。
強相関系における多くの挑戦的な応用により、我々のアンサッツは、アライアンス・ユニタリ結合クラスタ・ベースである ans\{a}tze と比較して、精度、パラメータ数、回路深さの両面で、はるかに優れた性能を示すことを示す。
Recent advances in quantum information and quantum science have inspired the development of various compact dynamic structured ans\"{a}tze that are expected to be realizable in the Noisy Intermediate-Scale Quantum (NISQ) devices. However, such ans\"{a}tze construction strategies hitherto developed involve considerable measurements, and thus they deviate significantly in NISQ platform from their ideal structures. Therefore, it is imperative that the usage of quantum resources must be minimized while retaining the expressivity and dynamical structure of the ansatz that can adapt itself depending on the degree of correlation. We propose a novel ansatz construction strategy based on the \textit{ab-initio} many-body perturbation theory that requires \textit{no} pre-circuit measurement and thus it remains structurally unaffected by any hardware noise. The accuracy and quantum complexity associated with the ansatz are solely dictated by a pre-defined perturbative order as desired and hence are tunable. Furthermore, the underlying perturbative structure of the ansatz construction pipeline enables us to decompose any high-rank excitation that appears in higher perturbative orders into the product of various low-rank operators, and it thus keeps the execution gate-depth to its minimum. With a number of challenging applications on strongly correlated systems, we demonstrate that our ansatz performs significantly better, both in terms of accuracy, parameter count and circuit depth, in comparison to the allied unitary coupled cluster based ans\"{a}tze. | 翻訳日:2024-03-18 23:12:35 公開日:2024-03-15 |
# zrLLM:大規模言語モデルを用いた時間的知識グラフにおけるゼロショット関係学習
zrLLM: Zero-Shot Relational Learning on Temporal Knowledge Graphs with Large Language Models ( http://arxiv.org/abs/2311.10112v2 ) ライセンス: Link先を確認 | Zifeng Ding, Heling Cai, Jingpei Wu, Yunpu Ma, Ruotong Liao, Bo Xiong, Volker Tresp, | (参考訳) 時間的知識グラフ(TKG)による進化的知識のモデリングは熱い話題となっている。
TKGのリンクを予測するための様々な手法が提案されている。
多くは埋め込み型であり、隠れた表現は、観察されたグラフコンテキストに基づいて知識グラフ(KG)の実体と関係を表現するために学習される。
これらの手法は従来のTKG予測(TKGF)ベンチマークで強い性能を示すが、従来のグラフコンテキストを持たないゼロショット関係をモデル化する上で大きな課題に直面している。
本稿では,この問題を次のように緩和しようと試みる。
まず,KG関係のテキスト記述を大言語モデル(LLM)に入力して関係表現を生成し,それを埋め込みベースのTKGF手法に導入する。
LLMを用いた表現は、関係記述における意味情報をキャプチャすることができる。
これにより、類似の意味を持つ関係が埋め込み空間に近づき、TKGFモデルが観測されたグラフコンテキストがなくてもゼロショット関係を認識できる。
実験結果から,TKGFモデルでは,従来見つからなかった関係性のある事実を予測し,その関係性に関する予測を関連づける能力を維持しつつ,より優れた性能を達成できることが示唆された。
Modeling evolving knowledge over temporal knowledge graphs (TKGs) has become a heated topic. Various methods have been proposed to forecast links on TKGs. Most of them are embedding-based, where hidden representations are learned to represent knowledge graph (KG) entities and relations based on the observed graph contexts. Although these methods show strong performance on traditional TKG forecasting (TKGF) benchmarks, they face a strong challenge in modeling the unseen zero-shot relations that have no prior graph context. In this paper, we try to mitigate this problem as follows. We first input the text descriptions of KG relations into large language models (LLMs) for generating relation representations, and then introduce them into embedding-based TKGF methods. LLM-empowered representations can capture the semantic information in the relation descriptions. This makes the relations, whether seen or unseen, with similar semantic meanings stay close in the embedding space, enabling TKGF models to recognize zero-shot relations even without any observed graph context. Experimental results show that our approach helps TKGF models to achieve much better performance in forecasting the facts with previously unseen relations, while still maintaining their ability in link forecasting regarding seen relations. | 翻訳日:2024-03-18 23:12:35 公開日:2024-03-15 |
# 高忠実度人物中心画像合成
High-fidelity Person-centric Subject-to-Image Synthesis ( http://arxiv.org/abs/2311.10329v4 ) ライセンス: Link先を確認 | Yibin Wang, Weizhong Zhang, Jianwei Zheng, Cheng Jin, | (参考訳) 現在の被写体駆動画像生成法は、人中心画像生成において重大な課題に直面している。
理由は、一般的な訓練前の拡散を微調整することで、意味的なシーンと人物の生成を学習するためである。
正確には、現実的な人を生成するためには、事前訓練されたモデルを十分に調整する必要がある。
さらに、十分な微調整を施しても、シーンと人物の同時学習が品質の妥協につながるため、これらの手法は依然として高忠実な人物を生成できない。
本稿では、上記のトレーニングの不均衡と品質の妥協を解消する効果的な協調生成パイプラインであるFace-diffuserを提案する。
具体的には,まずテキスト駆動拡散モデル (TDM) と主観拡張拡散モデル (SDM) の2つの専門的な事前学習拡散モデルを開発し,シーン生成と人物生成を行う。
サンプリングプロセスは, セマンティックシーン構築, テーマシーン融合, テーマエンハンスメントの3段階に分けられる。
第1段と第2段はそれぞれTDMとSDMによって行われる。
SNF(Saliency-Adaptive Noise Fusion)という,新しい高効率なメカニズムによって達成された,テーマ・シーンの融合段階である。
具体的には、分類者なし誘導応答と生成画像の正当性との間には、ロバストなリンクが存在するというキーとなる観察に基づいている。
各時間ステップにおいて、SNFは各モデルの特異な強度を活用し、両方のモデルから予測されたノイズを、正当性を考慮した方法で自動的に空間ブレンディングすることができる。
大規模な実験により、顔拡散器の顕著な有効性と堅牢性が確認された。
Current subject-driven image generation methods encounter significant challenges in person-centric image generation. The reason is that they learn the semantic scene and person generation by fine-tuning a common pre-trained diffusion, which involves an irreconcilable training imbalance. Precisely, to generate realistic persons, they need to sufficiently tune the pre-trained model, which inevitably causes the model to forget the rich semantic scene prior and makes scene generation over-fit to the training data. Moreover, even with sufficient fine-tuning, these methods can still not generate high-fidelity persons since joint learning of the scene and person generation also lead to quality compromise. In this paper, we propose Face-diffuser, an effective collaborative generation pipeline to eliminate the above training imbalance and quality compromise. Specifically, we first develop two specialized pre-trained diffusion models, i.e., Text-driven Diffusion Model (TDM) and Subject-augmented Diffusion Model (SDM), for scene and person generation, respectively. The sampling process is divided into three sequential stages, i.e., semantic scene construction, subject-scene fusion, and subject enhancement. The first and last stages are performed by TDM and SDM respectively. The subject-scene fusion stage, that is the collaboration achieved through a novel and highly effective mechanism, Saliency-adaptive Noise Fusion (SNF). Specifically, it is based on our key observation that there exists a robust link between classifier-free guidance responses and the saliency of generated images. In each time step, SNF leverages the unique strengths of each model and allows for the spatial blending of predicted noises from both models automatically in a saliency-aware manner. Extensive experiments confirm the impressive effectiveness and robustness of the Face-diffuser. | 翻訳日:2024-03-18 23:02:51 公開日:2024-03-15 |
# ガウス滑らか化とガウス微分の離散近似
Discrete approximations of Gaussian smoothing and Gaussian derivatives ( http://arxiv.org/abs/2311.11317v5 ) ライセンス: Link先を確認 | Tony Lindeberg, | (参考訳) 本稿では,離散データに適用するためのスケール空間理論におけるガウススムージングとガウス微分計算の近似問題に関する詳細な処理法を開発する。
連続的および離散的スケール空間理論の以前の公理的処理と密接な関係で、これらのスケール空間の操作を明示的な離散的畳み込みの観点から区別する3つの主要な方法を考える。
(i)ガウス核とガウス微分核をサンプリングする。
(ii)各画素支持領域上にガウス核とガウス微分核を局所的に統合し、
3) ガウス核の離散的類似点のスケール空間解析を基礎とし, 空間的スムーズな画像データに小サポート中央差分演算子を適用することにより微分近似を計算する。
本研究では,これら3つの主要な離散化手法の特性を理論的・実験的に検討し,その性能を定量的に評価する。
その結果、サンプル化されたガウス核と導関数、および統合されたガウス核と導関数は、非常に微細なスケールで非常に低性能であることがわかった。
非常に微細なスケールでは、ガウス核の離散的な類似とそれに対応する離散微分近似が大幅に向上する。
一方、サンプル化されたガウス核とサンプル化されたガウス微分は、スケールパラメータが十分に大きい場合、グリッド間隔の単位においてスケールパラメータが約1より大きい場合、対応する連続結果の数値的に非常に良い近似をもたらす。
This paper develops an in-depth treatment concerning the problem of approximating the Gaussian smoothing and Gaussian derivative computations in scale-space theory for application on discrete data. With close connections to previous axiomatic treatments of continuous and discrete scale-space theory, we consider three main ways discretizing these scale-space operations in terms of explicit discrete convolutions, based on either (i) sampling the Gaussian kernels and the Gaussian derivative kernels, (ii) locally integrating the Gaussian kernels and the Gaussian derivative kernels over each pixel support region and (iii) basing the scale-space analysis on the discrete analogue of the Gaussian kernel, and then computing derivative approximations by applying small-support central difference operators to the spatially smoothed image data. We study the properties of these three main discretization methods both theoretically and experimentally, and characterize their performance by quantitative measures, including the results they give rise to with respect to the task of scale selection, investigated for four different use cases, and with emphasis on the behaviour at fine scales. The results show that the sampled Gaussian kernels and derivatives as well as the integrated Gaussian kernels and derivatives perform very poorly at very fine scales. At very fine scales, the discrete analogue of the Gaussian kernel with its corresponding discrete derivative approximations performs substantially better. The sampled Gaussian kernel and the sampled Gaussian derivatives do, on the other hand, lead to numerically very good approximations of the corresponding continuous results, when the scale parameter is sufficiently large, in the experiments presented in the paper, when the scale parameter is greater than a value of about 1, in units of the grid spacing. | 翻訳日:2024-03-18 22:53:06 公開日:2024-03-15 |
# MSIにおける雲検出のための雲厚対策の合成データセットの作成と活用
Creating and Leveraging a Synthetic Dataset of Cloud Optical Thickness Measures for Cloud Detection in MSI ( http://arxiv.org/abs/2311.14024v3 ) ライセンス: Link先を確認 | Aleksis Pirinen, Nosheen Abid, Nuria Agues Paszkowsky, Thomas Ohlson Timoudas, Ronald Scheirer, Chiara Ceccobello, György Kovács, Anders Persson, | (参考訳) 雲の形成は、しばしば地球表面の光学衛星による監視を曖昧にし、地球観測(EO)活動を制限する。
リモートセンシング領域における機械学習(ML)メソッドの統合は、クラウド検出やフィルタリングを含む幅広いEOタスクのパフォーマンスを大幅に向上させたが、まだ改善の余地がたくさんある。
重要なボトルネックは、一般的にMLメソッドがトレーニングのために大量のアノテートされたデータに依存していることだ。
これは、雲の光学的厚さ(COT)の推定において特に当てはまる。
COTの信頼性の高い推定は、実際に一般的に行われているように、事前に特定されたクラウドカテゴリを使用する場合に比べて、よりきめ細やかでアプリケーションに依存しない制御を可能にする。
本研究では,COTデータ不足問題を軽減するために,COT推定のための新しい合成データセットを提案する。
本データセットでは,Sentinel-2プラットフォーム上でのマルチスペクトル画像(MSI)センサのスペクトル帯域の12つについて,大気上放射光をシミュレートした。
これらのデータポイントは、異なる雲の種類、COT、地表および大気プロファイルを考慮してシミュレーションされている。
スペクトル帯域の反射率の測定値からCOTを予測するためのMLモデルの大規模な実験により,提案したデータセットの有用性が示された。
特に、私たちのMLモデルからCOT推定を閾値付けすることで、2つの衛星画像データセット(公開されており、1つが収集され、注釈付けされているもの)に信頼性の高いクラウドマスクが取得可能であることを示す。
合成データ、収集された実際のデータセット、コード、モデルはhttps://github.com/aleksispi/ml-cloud-opt-thickで公開されている。
Cloud formations often obscure optical satellite-based monitoring of the Earth's surface, thus limiting Earth observation (EO) activities such as land cover mapping, ocean color analysis, and cropland monitoring. The integration of machine learning (ML) methods within the remote sensing domain has significantly improved performance on a wide range of EO tasks, including cloud detection and filtering, but there is still much room for improvement. A key bottleneck is that ML methods typically depend on large amounts of annotated data for training, which is often difficult to come by in EO contexts. This is especially true when it comes to cloud optical thickness (COT) estimation. A reliable estimation of COT enables more fine-grained and application-dependent control compared to using pre-specified cloud categories, as is commonly done in practice. To alleviate the COT data scarcity problem, in this work we propose a novel synthetic dataset for COT estimation, that we subsequently leverage for obtaining reliable and versatile cloud masks on real data. In our dataset, top-of-atmosphere radiances have been simulated for 12 of the spectral bands of the Multispectral Imagery (MSI) sensor onboard Sentinel-2 platforms. These data points have been simulated under consideration of different cloud types, COTs, and ground surface and atmospheric profiles. Extensive experimentation of training several ML models to predict COT from the measured reflectivity of the spectral bands demonstrates the usefulness of our proposed dataset. In particular, by thresholding COT estimates from our ML models, we show on two satellite image datasets (one that is publicly available, and one which we have collected and annotated) that reliable cloud masks can be obtained. The synthetic data, the collected real dataset, code and models have been made publicly available at https://github.com/aleksispi/ml-cloud-opt-thick. | 翻訳日:2024-03-18 22:53:06 公開日:2024-03-15 |
# 深い)線形ニューラルネットワークにおける重み変動と逆分散平坦性関係の導出
Weight fluctuations in (deep) linear neural networks and a derivation of the inverse-variance flatness relation ( http://arxiv.org/abs/2311.14120v2 ) ライセンス: Link先を確認 | Markus Gross, Arne P. Raulf, Christoph Räth, | (参考訳) 合成ガウスデータに対する確率勾配勾配勾配(SGD)の連続限界内における1層および2層線形パラメータ化ニューラルネットワークの定常的(時間的)訓練条件について検討した。
弱いパラメータ化状態の単一層ネットワークの場合、ノイズ共分散行列のスペクトルは特にヘシアンから逸脱し、これはSGD力学の詳細なバランスの破れに起因する。
この場合、重量のゆらぎは概して異方性であるが、等方性損失を受ける。
2層ネットワークの場合、各層における重みの確率的ダイナミクスを求め、関連する定常共分散を解析する。
重み変動に対する新しい異方性源として層間結合を同定する。
単層の場合とは対照的に、重みのゆらぎは異方性損失を経験し、その平坦度は揺らぎのばらつきと逆関係である。
そこで我々は,最近観測された逆分散-平坦性関係を,ディープ線形ニューラルネットワークのモデルで解析的に導出した。
We investigate the stationary (late-time) training regime of single- and two-layer linear underparameterized neural networks within the continuum limit of stochastic gradient descent (SGD) for synthetic Gaussian data. In the case of a single-layer network in the weakly underparameterized regime, the spectrum of the noise covariance matrix deviates notably from the Hessian, which can be attributed to the broken detailed balance of SGD dynamics. The weight fluctuations are in this case generally anisotropic, but are subject to an isotropic loss. For a two-layer network, we obtain the stochastic dynamics of the weights in each layer and analyze the associated stationary covariances. We identify the inter-layer coupling as a new source of anisotropy for the weight fluctuations. In contrast to the single-layer case, the weight fluctuations experience an anisotropic loss, the flatness of which is inversely related to the fluctuation variance. We thereby provide an analytical derivation of the recently observed inverse variance-flatness relation in a model of a deep linear neural network. | 翻訳日:2024-03-18 22:53:06 公開日:2024-03-15 |
# GigaPose: 1つの対応による高速でロバストな新しいオブジェクトポス推定
GigaPose: Fast and Robust Novel Object Pose Estimation via One Correspondence ( http://arxiv.org/abs/2311.14155v2 ) ライセンス: Link先を確認 | Van Nguyen Nguyen, Thibault Groueix, Mathieu Salzmann, Vincent Lepetit, | (参考訳) 本稿では,RGB画像におけるCADに基づく新しいオブジェクトポーズ推定手法であるGigaPoseを提案する。
GigaPoseはまず差別的な「テンプレート」を利用してCADモデルのレンダリング画像を作成し、外界の回転を復元し、パッチ対応を使って残りの4つのパラメータを推定する。
提案手法では,通常の3倍ではなく,2自由度でのみテンプレートをサンプリングし,特徴空間の高速近傍探索を用いて入力画像とテンプレートをマッチングすることにより,最先端技術と比較して35倍の高速化率が得られる。
さらに、GigaPoseはセグメンテーションエラーに対してはるかに堅牢である。
BOPチャレンジの7つのコアデータセットに対する広範な評価は、最先端の精度を実現し、既存の精細化手法とシームレスに統合できることを示しています。
さらに,1枚の画像から3次元再構成を行い,CADモデルの必要性を緩和し、6次元ポーズオブジェクト推定をより便利にするための3次元モデルによるGigaPoseの可能性を示す。
私たちのソースコードとトレーニングされたモデルはhttps://github.com/nv-nguyen/gigaPoseで公開されています。
We present GigaPose, a fast, robust, and accurate method for CAD-based novel object pose estimation in RGB images. GigaPose first leverages discriminative "templates", rendered images of the CAD models, to recover the out-of-plane rotation and then uses patch correspondences to estimate the four remaining parameters. Our approach samples templates in only a two-degrees-of-freedom space instead of the usual three and matches the input image to the templates using fast nearest-neighbor search in feature space, results in a speedup factor of 35x compared to the state of the art. Moreover, GigaPose is significantly more robust to segmentation errors. Our extensive evaluation on the seven core datasets of the BOP challenge demonstrates that it achieves state-of-the-art accuracy and can be seamlessly integrated with existing refinement methods. Additionally, we show the potential of GigaPose with 3D models predicted by recent work on 3D reconstruction from a single image, relaxing the need for CAD models and making 6D pose object estimation much more convenient. Our source code and trained models are publicly available at https://github.com/nv-nguyen/gigaPose | 翻訳日:2024-03-18 22:53:06 公開日:2024-03-15 |
# 単位充填時の一次元双極子格子ボソンの基底状態
Ground states of one-dimensional dipolar lattice bosons at unit filling ( http://arxiv.org/abs/2311.14606v2 ) ライセンス: Link先を確認 | Mateusz Łącki, Henning Korbmacher, G. A. Domínguez-Castro, Jakub Zakrzewski, Luis Santos, | (参考訳) 光学格子における超低温双極子に関する最近の実験は、拡張されたハバードモデルの量子シミュレーションのエキサイティングな可能性を開く。
一次元で考えると、これらのモデルは特に興味深い基底状態の物理を埋める単位に存在し、例えば対称保護位相はハルデン絶縁体(Haldane insulator)と呼ばれる。
両極間相互作用の尾部は, 横方向の閉じ込めによって調整される可能性があり, ハルダン絶縁体機構を定量的に変化させるだけでなく, より大きな周期の密度波を生じさせるだけでなく, 予期せぬ絶縁相でも生じることを示す。
これらの絶縁相は、トポロジカルまたはトポロジカルに自明であり、サイト占有の特異な相関によって特徴づけられる。
これらの相は、最先端の実験で実現し、観察することができる。
Recent experiments on ultracold dipoles in optical lattices open exciting possibilities for the quantum simulation of extended Hubbard models. When considered in one dimension, these models present at unit filling a particularly interesting ground-state physics, including a symmetry-protected topological phase known as Haldane insulator. We show that the tail of the dipolar interaction beyond nearest-neighbors, which may be tailored by means of the transversal confinement, does not only modify quantitatively the Haldane insulator regime and lead to density waves of larger periods, but results as well in unexpected insulating phases. These insulating phases may be topological or topologically trivial, and are characterized by peculiar correlations of the site occupations. These phases may be realized and observed in state-of-the-art experiments. | 翻訳日:2024-03-18 22:53:06 公開日:2024-03-15 |
# Insect-Foundation: Visual Insect Understandingのための基盤モデルと大規模100万データセット
Insect-Foundation: A Foundation Model and Large-scale 1M Dataset for Visual Insect Understanding ( http://arxiv.org/abs/2311.15206v2 ) ライセンス: Link先を確認 | Hoang-Quan Nguyen, Thanh-Dat Truong, Xuan Bac Nguyen, Ashley Dowling, Xin Li, Khoa Luu, | (参考訳) 精密農業において、昆虫の検出と認識は、作物が健康に育ち、高品質な収量を生み出す能力において重要な役割を担っている。
現在のマシンビジョンモデルは、高いパフォーマンスを達成するために大量のデータを必要とする。
しかし、世界中で約550万種の昆虫が生息している。
既存の昆虫のデータセットは、地理的に異なる場所と取得コストのために、そのわずかしかカバーできない。
本稿では,昆虫に関する基礎モデルトレーニングに革命をもたらすゲーム変更リソースである,新しい"Insect-1M"データセットを紹介する。
私たちのデータセットは昆虫の幅広い範囲をカバーしており、100万枚の画像に分類階層と昆虫の記述の密接な識別ラベルが付けられており、昆虫学のパノラマ的なビューを提供しており、基礎モデルではかつてないような昆虫の視覚的・意味的な情報を理解できます。
そこで本研究では,昆虫画像間の微妙な相違を識別できるパッチワイド関連注意機構を備えた,微小機能自己教師型学習法を開発した。
さらに,昆虫記述による微小機能モデリングを改善するために,記述一貫性損失を導入する。
実験を通じて,昆虫モデルにおける提案手法の有効性を概説し,昆虫関連タスクの標準ベンチマーク上でのStand-of-the-Art性能を実現する。
私たちのInsect Foundation ModelとDatasetは、次世代の昆虫関連ビジョンモデルを強化することを約束し、それらを精密農業の最終的な目標に近づけます。
In precision agriculture, the detection and recognition of insects play an essential role in the ability of crops to grow healthy and produce a high-quality yield. The current machine vision model requires a large volume of data to achieve high performance. However, there are approximately 5.5 million different insect species in the world. None of the existing insect datasets can cover even a fraction of them due to varying geographic locations and acquisition costs. In this paper, we introduce a novel "Insect-1M" dataset, a game-changing resource poised to revolutionize insect-related foundation model training. Covering a vast spectrum of insect species, our dataset, including 1 million images with dense identification labels of taxonomy hierarchy and insect descriptions, offers a panoramic view of entomology, enabling foundation models to comprehend visual and semantic information about insects like never before. Then, to efficiently establish an Insect Foundation Model, we develop a micro-feature self-supervised learning method with a Patch-wise Relevant Attention mechanism capable of discerning the subtle differences among insect images. In addition, we introduce Description Consistency loss to improve micro-feature modeling via insect descriptions. Through our experiments, we illustrate the effectiveness of our proposed approach in insect modeling and achieve State-of-the-Art performance on standard benchmarks of insect-related tasks. Our Insect Foundation Model and Dataset promise to empower the next generation of insect-related vision models, bringing them closer to the ultimate goal of precision agriculture. | 翻訳日:2024-03-18 22:53:06 公開日:2024-03-15 |
# Animatable Gaussian:高忠実な人間のアバターモデリングのためのPose-dependent Gaussian Mapsの学習
Animatable Gaussians: Learning Pose-dependent Gaussian Maps for High-fidelity Human Avatar Modeling ( http://arxiv.org/abs/2311.16096v2 ) ライセンス: Link先を確認 | Zhe Li, Zerong Zheng, Lizhen Wang, Yebin Liu, | (参考訳) RGBビデオからアニマタブルな人間のアバターをモデル化することは、長年の課題である。
最近の研究は、通常3次元人間を表現するために、MLPベースの神経放射場(NeRF)を採用するが、純粋なMLPがポーズ依存の衣服の詳細を遅らせることは困難である。
この目的のために、強力な2次元CNNと3次元ガウススプラッティングを利用して高忠実度アバターを作成する新しいアバター表現であるAnimatable Gaussianを導入する。
アニマタブルなアバターと3Dガウスアンを関連付けるために,入力ビデオからパラメトリックテンプレートを学習し,各画素が3Dガウスアンを表す2つの前後カノニカルガウス写像上のテンプレートをパラメータ化する。
学習されたテンプレートは、ドレスのようなよりゆるい服をモデル化するための衣服に適応する。
このようなテンプレート誘導2次元パラメータ化により、強力なStyleGANベースのCNNを用いて、ポーズ依存ガウス写像を学習し、詳細な動的外観をモデル化することができる。
さらに,新規なポーズに対して,より優れた一般化のためのポーズプロジェクション戦略を導入する。
全体として,本手法は動的,現実的,一般化された外観を持つ生活型アバターを作成できる。
実験により,本手法が他の最先端手法よりも優れていることが示された。
コード:https://github.com/lizhe00/AnimatableGaussians
Modeling animatable human avatars from RGB videos is a long-standing and challenging problem. Recent works usually adopt MLP-based neural radiance fields (NeRF) to represent 3D humans, but it remains difficult for pure MLPs to regress pose-dependent garment details. To this end, we introduce Animatable Gaussians, a new avatar representation that leverages powerful 2D CNNs and 3D Gaussian splatting to create high-fidelity avatars. To associate 3D Gaussians with the animatable avatar, we learn a parametric template from the input videos, and then parameterize the template on two front \& back canonical Gaussian maps where each pixel represents a 3D Gaussian. The learned template is adaptive to the wearing garments for modeling looser clothes like dresses. Such template-guided 2D parameterization enables us to employ a powerful StyleGAN-based CNN to learn the pose-dependent Gaussian maps for modeling detailed dynamic appearances. Furthermore, we introduce a pose projection strategy for better generalization given novel poses. Overall, our method can create lifelike avatars with dynamic, realistic and generalized appearances. Experiments show that our method outperforms other state-of-the-art approaches. Code: https://github.com/lizhe00/AnimatableGaussians | 翻訳日:2024-03-18 22:53:06 公開日:2024-03-15 |
# 線形逆問題の解法のための深い正則化複合ガウスネットワーク
Deep Regularized Compound Gaussian Network for Solving Linear Inverse Problems ( http://arxiv.org/abs/2311.17248v2 ) ライセンス: Link先を確認 | Carter Lyons, Raghu G. Raj, Margaret Cheney, | (参考訳) 逆問題に事前情報を組み込むことは、例えば、最大位置推定によって、堅牢な逆問題解決を容易にする重要な手法である。
本稿では,複合ガウス分布(CG)クラスにおける問題固有の統計的事前選択を許容する線形逆問題に対する2つの新しいアプローチを考案する。
CGクラスは、疎度に基づくアプローチを含む信号および画像再構成手法において、よく使われる多くの先行を仮定する。
最初に開発された手法は、一般化複合ガウス最小二乗法(G-CG-LS)と呼ばれる反復アルゴリズムであり、正規化がCGを前に強制する正規化最小二乗目的関数を最小化する。
そして、G-CG-LSをアンロールするか、展開するかして、2つ目の手法、DR-CG-Netと呼ばれる新しいDeep regularized(DR)ニューラルネットワークを構築し、事前情報を学習する。
G-CG-LSの収束特性に関する詳細な計算理論とDR-CG-Netの詳細な数値実験を提供する。
従来のCGの総合的な性質から、DR-CG-Netはトモグラフィーや圧縮センシングにおいて、特に低トレーニングのシナリオにおいて、競合する先行技術よりも優れていたことが示されている。
Incorporating prior information into inverse problems, e.g. via maximum-a-posteriori estimation, is an important technique for facilitating robust inverse problem solutions. In this paper, we devise two novel approaches for linear inverse problems that permit problem-specific statistical prior selections within the compound Gaussian (CG) class of distributions. The CG class subsumes many commonly used priors in signal and image reconstruction methods including those of sparsity-based approaches. The first method developed is an iterative algorithm, called generalized compound Gaussian least squares (G-CG-LS), that minimizes a regularized least squares objective function where the regularization enforces a CG prior. G-CG-LS is then unrolled, or unfolded, to furnish our second method, which is a novel deep regularized (DR) neural network, called DR-CG-Net, that learns the prior information. A detailed computational theory on convergence properties of G-CG-LS and thorough numerical experiments for DR-CG-Net are provided. Due to the comprehensive nature of the CG prior, these experiments show that DR-CG-Net outperforms competitive prior art methods in tomographic imaging and compressive sensing, especially in challenging low-training scenarios. | 翻訳日:2024-03-18 22:53:06 公開日:2024-03-15 |
# 雑音認識学習による複数の擬似ラベルからの光学ディスクとカップの正確なセグメンテーション
Accurate Segmentation of Optic Disc And Cup from Multiple Pseudo-labels by Noise-aware Learning ( http://arxiv.org/abs/2311.18496v2 ) ライセンス: Link先を確認 | Tengjin Weng, Yang Shen, Zhidong Zhao, Zhiming Cheng, Shuai Wang, | (参考訳) 光緑内障のスクリーニングと診断の自動化において,視ディスクとカップセグメンテーションが重要な役割を担っている。
データ駆動畳み込みニューラルネットワーク(CNN)はこの分野で有望であるが、光学ディスクとカップセグメンテーションのタスクにおけるセグメンテーションオブジェクトと背景境界の固有の曖昧さは、モデルパフォーマンスに影響を与えるノイズの多いアノテーションをもたらす。
そこで本研究では,光ディスクとカップセグメンテーションの精度向上を目的として,MPNN(Multiple Pseudo-labels Noise-Aware Network)のラベルデノベーション手法を提案する。
具体的には、Multiple Pseudo-labels Generation and Guided Denoising (MPGGD)モジュールは、真のラベルに基づいて訓練された複数の異なる初期化ネットワークによって擬似ラベルを生成し、これらの擬似ラベルガイドから抽出された画素レベルのコンセンサス情報を用いて、清潔なピクセルをノイズの多いピクセルと区別する。
MPNNのトレーニングフレームワークは、清潔なピクセルとノイズの多いピクセルからセグメンテーションを学ぶための教師/学生アーキテクチャによって構築されている。
特に、そのようなフレームワークは、十分に活用する。
一 清潔な画素からの信頼と根本的洞察
(2)多重摂動に基づく教師なし整合性による雑音画素内の補足的知識。
他のラベルデノベーション手法と比較して,RIGAデータセットの総合的な実験結果から,提案手法の優れた性能が示された。
コードはhttps://github.com/wwwtttjjj/MPNNで公開されている。
Optic disc and cup segmentation plays a crucial role in automating the screening and diagnosis of optic glaucoma. While data-driven convolutional neural networks (CNNs) show promise in this area, the inherent ambiguity of segmenting objects and background boundaries in the task of optic disc and cup segmentation leads to noisy annotations that impact model performance. To address this, we propose an innovative label-denoising method of Multiple Pseudo-labels Noise-aware Network (MPNN) for accurate optic disc and cup segmentation. Specifically, the Multiple Pseudo-labels Generation and Guided Denoising (MPGGD) module generates pseudo-labels by multiple different initialization networks trained on true labels, and the pixel-level consensus information extracted from these pseudo-labels guides to differentiate clean pixels from noisy pixels. The training framework of the MPNN is constructed by a teacher-student architecture to learn segmentation from clean pixels and noisy pixels. Particularly, such a framework adeptly leverages (i) reliable and fundamental insight from clean pixels and (ii) the supplementary knowledge within noisy pixels via multiple perturbation-based unsupervised consistency. Compared to other label-denoising methods, comprehensive experimental results on the RIGA dataset demonstrate our method's excellent performance. The code is available at https://github.com/wwwtttjjj/MPNN | 翻訳日:2024-03-18 22:53:06 公開日:2024-03-15 |
# 予め訓練した視覚変換器とBERTを用いた病理画像の自動レポート生成
Automatic Report Generation for Histopathology images using pre-trained Vision Transformers and BERT ( http://arxiv.org/abs/2312.01435v2 ) ライセンス: Link先を確認 | Saurav Sengupta, Donald E. Brown, | (参考訳) 病理組織学の深層学習は、疾患の分類、画像のセグメンテーションなどに成功している。
しかし, 現状技術(SOTA)手法を用いた画像とテキストのモダリティの組み合わせは, 病理像の高解像度化による課題となっている。
病理組織像の自動レポート生成はそのような課題である。
本研究では、既存のトレーニング済みビジョントランスフォーマー(ViT)を用いて、4096x4096サイズの全スライド画像(WSI)のパッチを符号化し、レポート生成のための言語モデリングベースのデコーダのための変換器(BERT)モデルから事前トレーニング済み双方向エンコーダを表現できることを示し、高解像度画像全体を考慮した高性能でポータブルなレポート生成機構を構築することができる。
本手法は,画像を記述するキャプションの生成と評価だけでなく,画像の組織型や患者の性別の分類にも有効である。
組織型分類では89.52%の精度でBLEU-4スコアが0.12である。
Deep learning for histopathology has been successfully used for disease classification, image segmentation and more. However, combining image and text modalities using current state-of-the-art (SOTA) methods has been a challenge due to the high resolution of histopathology images. Automatic report generation for histopathology images is one such challenge. In this work, we show that using an existing pre-trained Vision Transformer (ViT) to encode 4096x4096 sized patches of the Whole Slide Image (WSI) and a pre-trained Bidirectional Encoder Representations from Transformers (BERT) model for language modeling-based decoder for report generation, we can build a performant and portable report generation mechanism that takes into account the whole high resolution image. Our method allows us to not only generate and evaluate captions that describe the image, but also helps us classify the image into tissue types and the gender of the patient as well. Our best performing model achieves a 89.52% accuracy in Tissue Type classification with a BLEU-4 score of 0.12 in our caption generation task. | 翻訳日:2024-03-18 22:43:22 公開日:2024-03-15 |
# 有限次元フォック空間における最適位相推定
Optimal phase estimation in finite-dimensional Fock space ( http://arxiv.org/abs/2312.01965v2 ) ライセンス: Link先を確認 | Jin-Feng Qin, Yuqian Xu, Jing Liu, | (参考訳) 位相推定は量子力学における主要なミッションである。
有限次元フォック空間において、NOON状態が最適となるのは、粒子数が空間次元のマイナス 1 に等しくないときであり、この場合の真の最適状態がまだ発見されていないときである。
ここでは、この疑問に答える3つの定理を提示し、実際の最終的な精度限界を実現するための完全な最適スキームを提供する。
これらの最適状態は、空間次元が気象資源として扱われる重要な事実を示し、与えられたスキームは、弱い光や限られた粒子数が要求されるシナリオで特に有用である。
Phase estimation is a major mission in quantum metrology. In the finite-dimensional Fock space the NOON state ceases to be optimal when the particle number is fixed yet not equal to the space dimension minus one, and what is the true optimal state in this case is still undiscovered. Hereby we present three theorems to answer this question and provide a complete optimal scheme to realize the ultimate precision limit in practice. These optimal states reveal an important fact that the space dimension could be treated as a metrological resource, and the given scheme is particularly useful in scenarios where weak light or limited particle number is demanded. | 翻訳日:2024-03-18 22:43:22 公開日:2024-03-15 |
# MUFFIN: インストラクションフォローを改善するための多面的インストラクションのキュレーション
MUFFIN: Curating Multi-Faceted Instructions for Improving Instruction-Following ( http://arxiv.org/abs/2312.02436v3 ) ライセンス: Link先を確認 | Renze Lou, Kai Zhang, Jian Xie, Yuxuan Sun, Janice Ahn, Hanzi Xu, Yu Su, Wenpeng Yin, | (参考訳) 大規模言語モデル(LLM)の領域では、命令追従能力の強化は、拡張トレーニングデータのキュレーションを伴うことが多い。
これは2つの主要なスキームによって達成される。
i)スケーリング入力: タスク命令毎のペア(入出力)を増幅し、より良い命令順守を目指す。
ii) 入力自由タスクのスケーリング: タスクを拡大し、それぞれが(指示、出力)ペアで構成されます(もはや別の入力を必要としない)。
しかし、Scaling-Inputs の LLM は入力に対して過度に敏感であり、誤った解釈や命令への不適合につながる。
逆に、Scaling Input-Free Tasksは相当数のタスクを必要とするが、Scaling-Inputsのインスタンスを扱う場合の命令処理では効果が低い。
MUFFINは命令追従型データセットキュレーションの新しいスキームである。
具体的には、これらのタスクを様々な入力ファセットで多様化することにより、入力毎のタスクを自動的にスケールする。
4つのゼロショットベンチマーク(Scaling-Inputs)とScaling Input-Free Tasksスキーム(Scaling Input-Free Tasksスキーム)にまたがる実験結果から、MUFFINで訓練されたLLMは、上記の2つのスキームで訓練されたものに比べて、一般的に優れた命令追従能力を示すことが明らかになった。
In the realm of large language models (LLMs), enhancing instruction-following capability often involves curating expansive training data. This is achieved through two primary schemes: i) Scaling-Inputs: Amplifying (input, output) pairs per task instruction, aiming for better instruction adherence. ii) Scaling Input-Free Tasks: Enlarging tasks, each composed of an (instruction, output) pair (without requiring a separate input anymore). However, LLMs under Scaling-Inputs tend to be overly sensitive to inputs, leading to misinterpretation or non-compliance with instructions. Conversely, Scaling Input-Free Tasks demands a substantial number of tasks but is less effective in instruction following when dealing with instances in Scaling-Inputs. This work introduces MUFFIN, a new scheme of instruction-following dataset curation. Specifically, we automatically Scale Tasks per Input by diversifying these tasks with various input facets. Experimental results across four zero-shot benchmarks, spanning both Scaling-Inputs and Scaling Input-Free Tasks schemes, reveal that LLMs, at various scales, trained on MUFFIN generally demonstrate superior instruction-following capabilities compared to those trained on the two aforementioned schemes. | 翻訳日:2024-03-18 22:43:22 公開日:2024-03-15 |
# 拡散モデルにおける参照画像からの条件抽出
Retrieving Conditions from Reference Images for Diffusion Models ( http://arxiv.org/abs/2312.02521v2 ) ライセンス: Link先を確認 | Haoran Tang, Xin Zhou, Jieren Deng, Zhihong Pan, Hao Tian, Pratik Chaudhari, | (参考訳) 拡散に基づく新しい技術は、幅広い高品質な画像を作成する際の驚くべき能力を示し、様々な応用に多大な関心を呼んだ。
一般的なシナリオは、参照画像から被写体に基づいた新しい画像を生成することである。
この主題は、スタイル化されたアバター、仮想試着用の体と衣服などに対する顔認証である可能性がある。
この要件を満たすことは、主観駆動生成と呼ばれる分野へと進化しています。
本稿では,拡散モデルを用いた統合検索問題として,主観駆動生成を考察する。
本稿では,参照画像から対象属性を正確に抽出し,無関係な情報をフィルタリングすることで,これらの問題に対処し,解決するための新しい拡散モデルアーキテクチャRetriNetを紹介する。
RetriNetは、顔生成における既存の最先端アプローチと比較して、素晴らしいパフォーマンスを示している。
さらに、より難しい問題、概念構成を研究するために、研究とイテレーションフレンドリなデータセットRetriBooruを提案する。
最後に、類似度と多様性の整合性を評価するために、これまで考慮されていなかった多様性を測定するために、Simisity Weighted Diversity (SWD)と呼ばれる新しいメトリクスのクラスを導入する。
Newly developed diffusion-based techniques have showcased phenomenal abilities in producing a wide range of high-quality images, sparking considerable interest in various applications. A prevalent scenario is to generate new images based on a subject from reference images. This subject could be face identity for styled avatars, body and clothing for virtual try-on and so on. Satisfying this requirement is evolving into a field called Subject-Driven Generation. In this paper, we consider Subject-Driven Generation as a unified retrieval problem with diffusion models. We introduce a novel diffusion model architecture, named RetriNet, designed to address and solve these problems by retrieving subject attributes from reference images precisely, and filter out irrelevant information. RetriNet demonstrates impressive performance when compared to existing state-of-the-art approaches in face generation. We further propose a research and iteration friendly dataset, RetriBooru, to study a more difficult problem, concept composition. Finally, to better evaluate alignment between similarity and diversity or measure diversity that have been previously unaccounted for, we introduce a novel class of metrics named Similarity Weighted Diversity (SWD). | 翻訳日:2024-03-18 22:43:22 公開日:2024-03-15 |
# HIG:階層型インターレースグラフによる映像理解におけるシーングラフ生成
HIG: Hierarchical Interlacement Graph Approach to Scene Graph Generation in Video Understanding ( http://arxiv.org/abs/2312.03050v3 ) ライセンス: Link先を確認 | Trong-Thuan Nguyen, Pha Nguyen, Khoa Luu, | (参考訳) 視覚シーンにおける視覚的対話性理解は、コンピュータビジョンにおいて重要な課題である。
既存の手法は単純な関係モデルを活用しながら複雑な相互作用に焦点を当てている。
しかし、これらの手法は、ビデオにおける外観、状況、位置、相互作用、関係の多様性に苦慮している。
この制限は、被験者の複雑な視覚力学における相互作用を完全に理解する能力を妨げる。
本稿では,人間と物体間の密接な相互作用からシーングラフ表現を導出することにより,視覚内容内の相互作用性を理解する。
この目的を達成するために、我々はまず、ASPIReと名付けられ、多様な対話性を示すビデオの広範なコレクションを提供する、外観-姿勢-反応-相互作用-関係の述語を含む新しいデータセットを提示する。
そして,階層構造内の統一層とグラフを利用して,5つの異なるタスク間のシーン変化の深い洞察を提供する階層型インターレースメントグラフ (HIG) を提案する。
提案手法は,様々なシナリオで実施された広範囲な実験を通じて,他の手法よりも優れた性能を示す。
Visual interactivity understanding within visual scenes presents a significant challenge in computer vision. Existing methods focus on complex interactivities while leveraging a simple relationship model. These methods, however, struggle with a diversity of appearance, situation, position, interaction, and relation in videos. This limitation hinders the ability to fully comprehend the interplay within the complex visual dynamics of subjects. In this paper, we delve into interactivities understanding within visual content by deriving scene graph representations from dense interactivities among humans and objects. To achieve this goal, we first present a new dataset containing Appearance-Situation-Position-Interaction-Relation predicates, named ASPIRe, offering an extensive collection of videos marked by a wide range of interactivities. Then, we propose a new approach named Hierarchical Interlacement Graph (HIG), which leverages a unified layer and graph within a hierarchical structure to provide deep insights into scene changes across five distinct tasks. Our approach demonstrates superior performance to other methods through extensive experiments conducted in various scenarios. | 翻訳日:2024-03-18 22:43:22 公開日:2024-03-15 |
# 物理バックドアデータセットの合成 - 深層生成モデルを活用する自動化フレームワーク
Synthesizing Physical Backdoor Datasets: An Automated Framework Leveraging Deep Generative Models ( http://arxiv.org/abs/2312.03419v3 ) ライセンス: Link先を確認 | Sze Jue Yang, Chinh D. La, Quang H. Nguyen, Kok-Seng Wong, Anh Tuan Tran, Chee Seng Chan, Khoa D. Doan, | (参考訳) 深層ニューラルネットワークの完全性に対する新たな脅威であるバックドア攻撃は、ディープラーニングシステムを秘密裏に妥協する能力のために、大きな注目を集めている。
多くのバックドア攻撃がデジタル空間内で発生しているが、現実の予測システムにおける実践的実装は、物理世界の混乱に対して制限され、脆弱である。
その結果、この制限により物理的なバックドア攻撃が生まれ、現実世界の物理的実体として現れるトリガーオブジェクトが出現した。
しかし、物理的なバックドアモデルをトレーニングしたり評価したりするために必要なデータセットを作成することは、バックドアの研究者や実践者がそのような物理的な攻撃シナリオを研究するのを制限している、大変な作業である。
本稿では, バックドア研究者が, 生成モデリングの進歩に基づいて, 悪意ある物理的バックドアデータセットを作成できるようにするためのレシピを公開する。
特に、このレシピには3つの自動的なモジュールが含まれる: 適切な物理的トリガーを提案し、毒化された候補サンプルを生成する(新しいサンプルを合成したり、既存のクリーンサンプルを編集することで)。
そのため、物理的なバックドアデータセットを作成することで認識される複雑さを効果的に軽減し、途方もないタスクから達成可能な目標へと変換する。
大規模な実験結果から、我々の「レシピ」によって作成されたデータセットは、実際の物理世界データに対して、敵が印象的な攻撃成功率を達成し、以前の物理バックドアアタック研究と同じような特性を示すことを示唆している。
本稿では,物理バックドアの研究に有用なツールキットを研究者に提供する。
Backdoor attacks, representing an emerging threat to the integrity of deep neural networks, have garnered significant attention due to their ability to compromise deep learning systems clandestinely. While numerous backdoor attacks occur within the digital realm, their practical implementation in real-world prediction systems remains limited and vulnerable to disturbances in the physical world. Consequently, this limitation has given rise to the development of physical backdoor attacks, where trigger objects manifest as physical entities within the real world. However, creating the requisite dataset to train or evaluate a physical backdoor model is a daunting task, limiting the backdoor researchers and practitioners from studying such physical attack scenarios. This paper unleashes a recipe that empowers backdoor researchers to effortlessly create a malicious, physical backdoor dataset based on advances in generative modeling. Particularly, this recipe involves 3 automatic modules: suggesting the suitable physical triggers, generating the poisoned candidate samples (either by synthesizing new samples or editing existing clean samples), and finally refining for the most plausible ones. As such, it effectively mitigates the perceived complexity associated with creating a physical backdoor dataset, transforming it from a daunting task into an attainable objective. Extensive experiment results show that datasets created by our "recipe" enable adversaries to achieve an impressive attack success rate on real physical world data and exhibit similar properties compared to previous physical backdoor attack studies. This paper offers researchers a valuable toolkit for studies of physical backdoors, all within the confines of their laboratories. | 翻訳日:2024-03-18 22:43:22 公開日:2024-03-15 |
# オフライン強化学習における一般化ギャップ
The Generalization Gap in Offline Reinforcement Learning ( http://arxiv.org/abs/2312.05742v2 ) ライセンス: Link先を確認 | Ishita Mediratta, Qingfei You, Minqi Jiang, Roberta Raileanu, | (参考訳) オフライン学習の最近の進歩にもかかわらず、これらの手法はいまだに同じ環境で訓練され、テストされている。
本稿では、オンライン強化学習(RL)、オフラインRL、シーケンスモデリング、行動クローニングなど、広く使われているオンラインおよびオフライン学習手法の一般化能力を比較する。
実験の結果,オフライン学習アルゴリズムはオンライン学習アルゴリズムよりも新しい環境においてより優れていることがわかった。
また、オフライン学習における一般化を評価するための最初のベンチマークを導入し、Procgen(2Dビデオゲーム)とWebShop(eコマースWebサイト)からさまざまなサイズのデータセットとスキルレベルを収集する。
データセットには、限られた数のゲームレベルや自然言語命令の軌跡が含まれており、テスト時には、エージェントが新しいレベルや命令に一般化する必要がある。
実験の結果,既存のオフライン学習アルゴリズムは,トレーニング環境とテスト環境の両方においてオンラインRLの性能に適合することが判明した。
ビヘイビアクローンは強力なベースラインであり、複数の環境のデータに基づいてトレーニングし、新しい環境でテストした場合、最先端のオフラインRLとシーケンスモデリングアプローチより優れている。
最後に、データのサイズよりも多様性を増すことで、すべてのオフライン学習アルゴリズムの新たな環境におけるパフォーマンスが向上することがわかった。
本研究は、現在のオフライン学習アルゴリズムの限定的な一般化が、この分野におけるさらなる研究の必要性を浮き彫りにしていることを示す。
Despite recent progress in offline learning, these methods are still trained and tested on the same environment. In this paper, we compare the generalization abilities of widely used online and offline learning methods such as online reinforcement learning (RL), offline RL, sequence modeling, and behavioral cloning. Our experiments show that offline learning algorithms perform worse on new environments than online learning ones. We also introduce the first benchmark for evaluating generalization in offline learning, collecting datasets of varying sizes and skill-levels from Procgen (2D video games) and WebShop (e-commerce websites). The datasets contain trajectories for a limited number of game levels or natural language instructions and at test time, the agent has to generalize to new levels or instructions. Our experiments reveal that existing offline learning algorithms struggle to match the performance of online RL on both train and test environments. Behavioral cloning is a strong baseline, outperforming state-of-the-art offline RL and sequence modeling approaches when trained on data from multiple environments and tested on new ones. Finally, we find that increasing the diversity of the data, rather than its size, improves performance on new environments for all offline learning algorithms. Our study demonstrates the limited generalization of current offline learning algorithms highlighting the need for more research in this area. | 翻訳日:2024-03-18 22:43:22 公開日:2024-03-15 |
# HOI-Diff:拡散モデルを用いた3次元物体相互作用のテキスト駆動合成
HOI-Diff: Text-Driven Synthesis of 3D Human-Object Interactions using Diffusion Models ( http://arxiv.org/abs/2312.06553v2 ) ライセンス: Link先を確認 | Xiaogang Peng, Yiming Xie, Zizhao Wu, Varun Jampani, Deqing Sun, Huaizu Jiang, | (参考訳) テキストのプロンプトによって駆動される現実的な3次元物体間相互作用(HOI)を創出する問題に対処する。
この目的のために、モジュール化された設計を採用し、複雑なタスクを単純なサブタスクに分解する。
まず、入力テキストに条件付された人・物の両方の動きを生成し、人・物の両方の動きを生成するための二重ブランチ拡散モデル(HOI-DM)を開発し、人・物の両方の動作生成部間の相互注意通信モジュールによるコヒーレントな動きを促進する。
また,テキストプロンプトによって駆動されるインタラクションにおいて,人間と物体の接触領域を予測するためのアベイランス予測拡散モデル(APDM)を開発した。
APDMはHOI-DMの結果とは独立であり、後者によって潜在的なエラーを修正することができる。
さらに、接触点を確率的に生成し、生成された動きを多様化する。
最後に、推定された接触点を分類器ガイダンスに組み込んで、人間と物体との正確な密接な接触を実現する。
このアプローチをトレーニングし、評価するために、テキスト記述でBEHAVEデータセットに注釈を付ける。
BEHAVE と OMOMO の実験結果から,本手法は様々な相互作用と異なる種類のオブジェクトを持つ現実的な HOI を生成することが示された。
We address the problem of generating realistic 3D human-object interactions (HOIs) driven by textual prompts. To this end, we take a modular design and decompose the complex task into simpler sub-tasks. We first develop a dual-branch diffusion model (HOI-DM) to generate both human and object motions conditioned on the input text, and encourage coherent motions by a cross-attention communication module between the human and object motion generation branches. We also develop an affordance prediction diffusion model (APDM) to predict the contacting area between the human and object during the interactions driven by the textual prompt. The APDM is independent of the results by the HOI-DM and thus can correct potential errors by the latter. Moreover, it stochastically generates the contacting points to diversify the generated motions. Finally, we incorporate the estimated contacting points into the classifier-guidance to achieve accurate and close contact between humans and objects. To train and evaluate our approach, we annotate BEHAVE dataset with text descriptions. Experimental results on BEHAVE and OMOMO demonstrate that our approach produces realistic HOIs with various interactions and different types of objects. | 翻訳日:2024-03-18 22:43:22 公開日:2024-03-15 |
# ニューラルネットワークを用いた超伝導量子ビットの時間分解状態トモグラフィ
Neural network based time-resolved state tomography of superconducting qubits ( http://arxiv.org/abs/2312.07958v2 ) ライセンス: Link先を確認 | Ziyang You, Jiheng Duan, Wenhui Huang, Libo Zhang, Song Liu, Youpeng Zhong, Hou Ian, | (参考訳) 超伝導量子ビットは大規模量子計算の第一のプラットフォームとして登場したが、状態の読み出しの忠実さはランダムノイズやクロストーク、特にマルチキュービットシステムによって妨げられていることが多い。
ラベル付きデータに基づいてトレーニングされたニューラルネットワークは、読み出し時のクロストーク効果の低減を約束しているが、現在の能力は、アーキテクチャ上の制約により、結合量子状態のバイナリ識別に限定されている。
ここでは、個々の量子ビットのフルステートトモグラフィーが可能な時間分解変調ニューラルネットワークを導入し、Rabi発振のような詳細な時間分解計測を可能にする。
このスケーラブルなアプローチは、キュービット当たりの専用モジュールで、低信号-雑音比での桁違いの読み出し誤差を軽減し、Rabi振動測定のばらつきを大幅に低減する。
この進歩は、ニューラルネットワークによる量子状態の識別を促進し、パフォーマンスとスケーラビリティを向上した次世代量子プロセッサの開発を促進する。
Superconducting qubits have emerged as a premier platform for large-scale quantum computation, yet the fidelity of state readout is often hindered by random noise and crosstalk, especially in multi-qubit systems. While neural networks trained on labeled data have shown promise in reducing crosstalk effects during readout, their current capabilities are limited to binary discrimination of joint-qubit states due to architectural constraints. Here we introduce a time-resolved modulated neural network capable of full-state tomography for individual qubits, enabling detailed time-resolved measurements like Rabi oscillations. This scalable approach, with a dedicated module per qubit, mitigated readout error by an order of magnitude under low signal-to-noise ratios and substantially reduced variance in Rabi oscillation measurements. This advancement bolsters quantum state discrimination with neural networks, and propels the development of next-generation quantum processors with enhanced performance and scalability. | 翻訳日:2024-03-18 22:43:22 公開日:2024-03-15 |
# ニューラル$k$-Formsを用いた単純表現学習
Simplicial Representation Learning with Neural $k$-Forms ( http://arxiv.org/abs/2312.08515v2 ) ライセンス: Link先を確認 | Kelly Maggs, Celia Hacker, Bastian Rieck, | (参考訳) 幾何学的深層学習は、特にグラフのような複雑な領域において、幾何学的および位相的データに関する情報を組み込むようにディープラーニングを拡張する。
この分野ではメッセージパッシングの人気にもかかわらず、グラフの書き換えの必要性、データの解釈の曖昧さ、過度なスムース化といった制限がある。
本稿では、ノード座標を用いて、$\mathbb{R}^n$に埋め込まれた単体錯体の幾何学的情報を活用することに焦点をあてて、異なるアプローチをとる。
我々は \mathbb{R}^n の微分 k-形式を用いて単純化の表現を作成し、メッセージパッシングなしで解釈可能性と幾何的整合性を提供する。
このアプローチはまた、微分幾何学ツールを適用し、普遍近似を実現できる。
本手法は, グラフ, simplicial Complex, セルコンプレックスなど, 様々な入力コンプレックスに適用可能である。
これは、座標として機能するノード特徴を持つ幾何学グラフからの情報を活用することで、既存のメッセージパッシングニューラルネットワークよりも優れています。
Geometric deep learning extends deep learning to incorporate information about the geometry and topology data, especially in complex domains like graphs. Despite the popularity of message passing in this field, it has limitations such as the need for graph rewiring, ambiguity in interpreting data, and over-smoothing. In this paper, we take a different approach, focusing on leveraging geometric information from simplicial complexes embedded in $\mathbb{R}^n$ using node coordinates. We use differential k-forms in \mathbb{R}^n to create representations of simplices, offering interpretability and geometric consistency without message passing. This approach also enables us to apply differential geometry tools and achieve universal approximation. Our method is efficient, versatile, and applicable to various input complexes, including graphs, simplicial complexes, and cell complexes. It outperforms existing message passing neural networks in harnessing information from geometrical graphs with node features serving as coordinates. | 翻訳日:2024-03-18 22:43:22 公開日:2024-03-15 |
# RAW領域とsRGB領域における画像復号化
Image Demoireing in RAW and sRGB Domains ( http://arxiv.org/abs/2312.09063v2 ) ライセンス: Link先を確認 | Shuning Xu, Binbin Song, Xiangyu Chen, Xina Liu, Jiantao Zhou, | (参考訳) モアレパターンは、スマートフォンやカメラで画面をキャプチャするときに頻繁に現れ、画像の品質を損なう可能性がある。
これまでの研究では、RAWドメインにおけるモアレパターンの除去は、sRGBドメインにおけるモアレの除去よりも効果が高いことが示唆された。
それでも、画像信号処理装置(ISP)による色補正に必要な必須情報がないため、カラーキャストを緩和するには、RAWデータのみに依存するには不十分である。
本稿では,現代のスマートフォンやデジタル一眼レフカメラでアクセス可能なRAWデータとsRGBデータの両方を併用して画像復号処理(RRID)を提案する。
Gated Feedback Module (GFM) と Frequency Selection Module (FSM) を併用したSkip-Connection-based Demoireing Module (SCDM) を開発した。
その後、RGB Guided ISP (RGISP) を設計し、デバイス依存のISPを学習し、色回復のプロセスを支援する。
以上の結果から,PSNRでは0.62dB,SSIMでは0.003,モアレパターン除去では0.62dB,カラーキャスト補正では0.003,最先端アプローチではRRIDが優れていた。
Moire patterns frequently appear when capturing screens with smartphones or cameras, potentially compromising image quality. Previous studies suggest that moire pattern elimination in the RAW domain offers greater effectiveness compared to demoireing in the sRGB domain. Nevertheless, relying solely on RAW data for image demoireing is insufficient in mitigating the color cast due to the absence of essential information required for the color correction by the image signal processor (ISP). In this paper, we propose to jointly utilize both RAW and sRGB data for image demoireing (RRID), which are readily accessible in modern smartphones and DSLR cameras. We develop Skip-Connection-based Demoireing Module (SCDM) with Gated Feedback Module (GFM) and Frequency Selection Module (FSM) embedded in skip-connections for the efficient and effective demoireing of RAW and sRGB features, respectively. Subsequently, we design a RGB Guided ISP (RGISP) to learn a device-dependent ISP, assisting the process of color recovery. Extensive experiments demonstrate that our RRID outperforms state-of-the-art approaches, in terms of the performance in moire pattern removal and color cast correction by 0.62dB in PSNR and 0.003 in SSIM. | 翻訳日:2024-03-18 22:43:22 公開日:2024-03-15 |
# デジタル法医学研究におけるDFRWS EUの10年間の展望と今後の方向性
DFRWS EU 10-Year Review and Future Directions in Digital Forensic Research ( http://arxiv.org/abs/2312.11292v2 ) ライセンス: Link先を確認 | Frank Breitinger, Jan-Niclas Hilgert, Christopher Hargreaves, John Sheppard, Rebekah Overdorf, Mark Scanlon, | (参考訳) 組織的な文献レビューと包括的分析を行い、2014-2023年の第1回実施以来の10年間のDFRWS EU(Digital Forensics Research Conference Europe)で発表された135の査読論文について調査する。
DFRWS EUの記事の包括的な研究は、デジタル法科学、デバイス法科学、技術と基礎、アーティファクト法科学、マルチメディア法科学、メモリ法医学、ネットワーク法学などのサブ分野を含んでいる。
論文の共著者,地理的拡散,引用指標の定量的分析について概説する。
この分析は、この10年間のデジタル法医学研究の進化に関する洞察を与え、将来的な研究の方向性を明らかにしている。
Conducting a systematic literature review and comprehensive analysis, this paper surveys all 135 peer-reviewed articles published at the Digital Forensics Research Conference Europe (DFRWS EU) spanning the decade since its inaugural running (2014-2023). This comprehensive study of DFRWS EU articles encompasses sub-disciplines such as digital forensic science, device forensics, techniques and fundamentals, artefact forensics, multimedia forensics, memory forensics, and network forensics. Quantitative analysis of the articles' co-authorships, geographical spread and citation metrics are outlined. The analysis presented offers insights into the evolution of digital forensic research efforts over these ten years and informs some identified future research directions. | 翻訳日:2024-03-18 22:43:22 公開日:2024-03-15 |
# 量子力学のジョルダン代数的定式化と非可換ランダウ問題
Jordan Algebraic Formulation of Quantum Mechanics and The Non-commutative Landau Problem ( http://arxiv.org/abs/2312.12047v4 ) ライセンス: Link先を確認 | Tekin Dereli, Ekin Sıla Yörük, | (参考訳) 非可換ランダウ問題のジョルダン代数的定式化と調和ポテンシャルについて述べる。
これを達成するために、ヒルベルト空間版の量子力学の別の定式化が提示される。
この構成を用いて、非可換ランダウ問題に対応するヒルベルト空間を得る。
非可換パラメータは、ジョルダン代数的設定における連想項の項で記述される。
この問題から生じる純状態と密度行列を特徴付ける。
これにより、この特定の問題に対する状態ベクトルに対するジョルダン=シュリンガー時変方程式が導かれる。
We present a Jordan algebraic formulation of the non-commutative Landau problem coupled to a harmonic potential. To achieve this, an alternative formulation of the Hilbert space version of quantum mechanics is presented. Using this construction, the Hilbert space corresponding to the non-commutative Landau problem is obtained. Non-commutative parameters are then described in terms of an associator in the Jordan algebraic setting. Pure states and density matrices arising from this problem are characterized. This in turn leads us to the Jordan-Schr\"odinger time-evolution equation for the state vectors for this specific problem. | 翻訳日:2024-03-18 22:33:38 公開日:2024-03-15 |
# 階層型コンタクトメッシュ変換器を用いたフレキシブルボディ衝突ダイナミクスの学習
Learning Flexible Body Collision Dynamics with Hierarchical Contact Mesh Transformer ( http://arxiv.org/abs/2312.12467v2 ) ライセンス: Link先を確認 | Youn-Yeol Yu, Jeongwhan Choi, Woojin Cho, Kookjin Lee, Nayong Kim, Kiseok Chang, Chang-Seung Woo, Ilho Kim, Seok-Woo Lee, Joon-Young Yang, Sooyoung Yoon, Noseong Park, | (参考訳) 近年、複雑な高次元物理系をモデル化するためのメッシュベースグラフニューラルネットワーク(GNN)モデルが多数提案されている。
従来の数値解法と比較して解法時間を大幅に短縮する顕著な成果が得られた。
これらの手法は典型的には
一 物理力学の解法及び/又は解法における計算コストの低減
二 流体力学及び剛体力学における解の精度を高める技術を提案すること。
しかし、非常に短い時間枠内で瞬時に衝突が起こるフレキシブルボディダイナミクスの課題に取り組むのに効果があるかどうかはまだ解明されていない。
本稿では,階層型メッシュ構造を用いた階層型コンタクトメッシュトランス (HCMT) を提案する。
HCMTは長距離相互作用を可能にし、階層メッシュ構造はすぐに遠くの位置への衝突効果を伝播させる。
この目的のために、コンタクトメッシュ変換器と階層メッシュ変換器(それぞれCMTとHMT)で構成される。
最後に,製品デザインの表示業界で頻繁に使用される実験的な設定を反映したトラジェクトリからなるフレキシブルボディダイナミックスデータセットを提案する。
また、よく知られたベンチマークデータセットを用いて、いくつかのベースラインのパフォーマンスを比較する。
その結果,HCMTは既存の手法に比べて大幅な性能向上を実現していることがわかった。
私たちのコードは \url{https://github.com/yuyudeep/hcmt} で利用可能です。
Recently, many mesh-based graph neural network (GNN) models have been proposed for modeling complex high-dimensional physical systems. Remarkable achievements have been made in significantly reducing the solving time compared to traditional numerical solvers. These methods are typically designed to i) reduce the computational cost in solving physical dynamics and/or ii) propose techniques to enhance the solution accuracy in fluid and rigid body dynamics. However, it remains under-explored whether they are effective in addressing the challenges of flexible body dynamics, where instantaneous collisions occur within a very short timeframe. In this paper, we present Hierarchical Contact Mesh Transformer (HCMT), which uses hierarchical mesh structures and can learn long-range dependencies (occurred by collisions) among spatially distant positions of a body -- two close positions in a higher-level mesh corresponds to two distant positions in a lower-level mesh. HCMT enables long-range interactions, and the hierarchical mesh structure quickly propagates collision effects to faraway positions. To this end, it consists of a contact mesh Transformer and a hierarchical mesh Transformer (CMT and HMT, respectively). Lastly, we propose a flexible body dynamics dataset, consisting of trajectories that reflect experimental settings frequently used in the display industry for product designs. We also compare the performance of several baselines using well-known benchmark datasets. Our results show that HCMT provides significant performance improvements over existing methods. Our code is available at \url{https://github.com/yuyudeep/hcmt}. | 翻訳日:2024-03-18 22:33:38 公開日:2024-03-15 |
# 正規化偏差2乗統計量を用いたガウス混合フィルタの厳密整合性試験
Exact Consistency Tests for Gaussian Mixture Filters using Normalized Deviation Squared Statistics ( http://arxiv.org/abs/2312.17420v2 ) ライセンス: Link先を確認 | Nisar Ahmed, Luke Burks, Kailah Cabral, Alyssa Bekai Rose, | (参考訳) 確率的系状態密度をガウス混合に近似した離散時間確率フィルタにおける動的整合性の評価問題を考える。
動的整合性は、推定された確率分布が実際の不確かさを正しく記述することを意味する。
そのため、アプリケーションにおいて、推定器のチューニングと検証に関して、一貫性テストの問題は自然に発生する。
しかし、密度関数の一般複雑性のため、混合型推定器の整合性テストのための簡単なアプローチは定義と実装が難しいままである。
本稿では正規化偏差二乗(NDS)統計の枠組みにおけるガウス混合整合性試験の新しい正確な結果を得る。
一般多変量ガウス混合モデルに対するNDSテスト統計は、効率的な計算ツールが利用できる一般化されたカイ二乗分布の混合に正確に従っていることが示されている。
結果の整合性試験の精度と有用性を静的および動的混合推定例で数値的に示す。
We consider the problem of evaluating dynamic consistency in discrete time probabilistic filters that approximate stochastic system state densities with Gaussian mixtures. Dynamic consistency means that the estimated probability distributions correctly describe the actual uncertainties. As such, the problem of consistency testing naturally arises in applications with regards to estimator tuning and validation. However, due to the general complexity of the density functions involved, straightforward approaches for consistency testing of mixture-based estimators have remained challenging to define and implement. This paper derives a new exact result for Gaussian mixture consistency testing within the framework of normalized deviation squared (NDS) statistics. It is shown that NDS test statistics for generic multivariate Gaussian mixture models exactly follow mixtures of generalized chi-square distributions, for which efficient computational tools are available. The accuracy and utility of the resulting consistency tests are numerically demonstrated on static and dynamic mixture estimation examples. | 翻訳日:2024-03-18 22:33:38 公開日:2024-03-15 |
# Imperio: 任意モデル制御のための言語誘導型バックドアアタック
Imperio: Language-Guided Backdoor Attacks for Arbitrary Model Control ( http://arxiv.org/abs/2401.01085v2 ) ライセンス: Link先を確認 | Ka-Ho Chow, Wenqi Wei, Lei Yu, | (参考訳) 自然言語処理(NLP)は前例のない注目を集めている。
NLPモデルの進歩は、バックドアの脆弱性に関する広範な研究につながっているが、新しいバックドアの脅威を導入する可能性はまだ明らかではない。
本稿では,NLPモデルの言語理解機能を活用し,バックドア攻撃を増強するImperioを提案する。
Imperioは新しいモデルコントロールエクスペリエンスを提供する。
画像分類器を制御することで実証され、言語誘導命令を通じて任意の出力で被害者モデルを操作できる。
これは言語モデルを用いて条件付きトリガジェネレータを駆動し、言語理解能力をバックドア命令の解釈と実行にまで拡張するよう設計されている。
3つのデータセット、5つの攻撃、9つの防御実験により、Imperioの有効性が確認された。
テキスト記述からコンテキスト適応的なトリガを生成し、トレーニング中に遭遇しないシナリオであっても、望ましい出力で被害者モデルを制御することができる。
この攻撃は、クリーンな入力の精度を損なうことなく、複雑なデータセット間で高い成功率に達し、代表防御に対するレジリエンスを示す。
Natural language processing (NLP) has received unprecedented attention. While advancements in NLP models have led to extensive research into their backdoor vulnerabilities, the potential for these advancements to introduce new backdoor threats remains unexplored. This paper proposes Imperio, which harnesses the language understanding capabilities of NLP models to enrich backdoor attacks. Imperio provides a new model control experience. Demonstrated through controlling image classifiers, it empowers the adversary to manipulate the victim model with arbitrary output through language-guided instructions. This is achieved using a language model to fuel a conditional trigger generator, with optimizations designed to extend its language understanding capabilities to backdoor instruction interpretation and execution. Our experiments across three datasets, five attacks, and nine defenses confirm Imperio's effectiveness. It can produce contextually adaptive triggers from text descriptions and control the victim model with desired outputs, even in scenarios not encountered during training. The attack reaches a high success rate across complex datasets without compromising the accuracy of clean inputs and exhibits resilience against representative defenses. | 翻訳日:2024-03-18 22:33:38 公開日:2024-03-15 |
# 分散Webグラフを用いた誤情報源の検出と発見
Detection and Discovery of Misinformation Sources using Attributed Webgraphs ( http://arxiv.org/abs/2401.02379v2 ) ライセンス: Link先を確認 | Peter Carragher, Evan M. Williams, Kathleen M. Carley, | (参考訳) ウェブサイト信頼性ラベルは、誤情報検出のほとんどすべての研究を支えている。
しかし、誤報ソースは過渡的な行動を示すことが多く、多くのラベル付きリストが時代とともに時代遅れになっている。
本稿では,検索エンジン最適化(SEO)属性がニュースサイトの信頼性を予測する強力な信号を提供することを示す。
本稿では、ラベル付きニュースドメインと、アウトリンクおよびバックリンクドメインへの接続を含む、新しい属性付きWebグラフデータセットを提案する。
これらの属性付きWebグラフを用いてニュースサイト信頼性を検出するグラフニューラルネットワークの成功を実証し、ベースラインニュースサイト信頼性分類器が政治ニューズデータセット上で現在のSoTA手法より優れており、F1スコアが0.96であることを示す。
最後に,未知の誤報ニュースソースを発見するための新しいグラフベースアルゴリズムを提案し,評価する。
Website reliability labels underpin almost all research in misinformation detection. However, misinformation sources often exhibit transient behavior, which makes many such labeled lists obsolete over time. We demonstrate that Search Engine Optimization (SEO) attributes provide strong signals for predicting news site reliability. We introduce a novel attributed webgraph dataset with labeled news domains and their connections to outlinking and backlinking domains. We demonstrate the success of graph neural networks in detecting news site reliability using these attributed webgraphs, and show that our baseline news site reliability classifier outperforms current SoTA methods on the PoliticalNews dataset, achieving an F1 score of 0.96. Finally, we introduce and evaluate a novel graph-based algorithm for discovering previously unknown misinformation news sources. | 翻訳日:2024-03-18 22:33:38 公開日:2024-03-15 |
# 高電荷イオン中の全前順序核偏極
Full leading-order nuclear polarization in highly charged ions ( http://arxiv.org/abs/2401.05904v2 ) ライセンス: Link先を確認 | Igor A. Valuev, Natalia S. Oreshkina, | (参考訳) 高電荷イオンのエネルギー準位に対する核偏極補正は、微細構造定数の先頭の順に体系的に研究される。
この目的のために、核分極挿入を伴う有効光子プロパゲータの概念を用い、ハートリー・フォックに基づくランダム位相近似を用いて核励起スペクトルを計算する。
有効なスカイム力は核子間の相互作用を記述するのに使われ、モデル依存を解析する。
順序を導くために、形式主義は有効な真空分極と自己エネルギー図によって与えられる2つの寄与を予測する。
真空偏極項に関する既存の曖昧さは、標準有限核サイズの補正に効果的に吸収されていることを示すことで解決される。
自己エネルギー部は、核三電流の影響の重要性が強調される電磁電子-核相互作用を考慮に入れて評価される。
The nuclear-polarization corrections to the energy levels of highly charged ions are systematically investigated to leading order in the fine-structure constant. To this end, the notion of effective photon propagators with nuclear-polarization insertions is employed, where the nuclear excitation spectrum is calculated by means of the Hartree-Fock-based random-phase approximation. The effective Skyrme force is used to describe the interaction between nucleons, and the model dependence is analyzed. To leading order, the formalism predicts two contributions given by the effective vacuum-polarization and self-energy diagrams. The existing ambiguity around the vacuum-polarization term is resolved by demonstrating that it is effectively absorbed in the standard finite-nuclear-size correction. The self-energy part is evaluated with the full electromagnetic electron-nucleus interaction taken into account, where the importance of the effects of the nuclear three-currents is emphasized. | 翻訳日:2024-03-18 22:33:38 公開日:2024-03-15 |
# BOK-VQA:グラフ表現による二言語外知識に基づく視覚質問応答
BOK-VQA: Bilingual outside Knowledge-Based Visual Question Answering via Graph Representation Pretraining ( http://arxiv.org/abs/2401.06443v2 ) ライセンス: Link先を確認 | Minjun Kim, Seungwoo Song, Youhan Lee, Haneol Jang, Kyungtae Lim, | (参考訳) 最近開発されたGPT4のような生成モデルにおける現在の研究方向は、複数のモーダル入力と多言語入力の関連知識情報を見つけることを目的としている。
これらの研究状況下では,マルチモーダルシステムの代表的な課題である視覚的質問応答(VQA)タスクの多言語評価の需要が高まっている。
そこで本研究では,多言語に拡張可能な二言語外部知識VQA(BOK-VQA)データセットを提案する。
提案したデータには、17K画像、韓国語と英語の問合せ対、問合せ内容に関連する知識情報の280Kインスタンスが含まれる。
また,BOK-VQAデータの知識情報をグラフ埋め込み形式で事前学習することにより,知識情報をVQAシステムに効果的に注入できるフレームワークを提案する。
最後に,詳細な分析を通じて,構築した学習データに含まれる知識情報がVQAに与える影響を実演した。
The current research direction in generative models, such as the recently developed GPT4, aims to find relevant knowledge information for multimodal and multilingual inputs to provide answers. Under these research circumstances, the demand for multilingual evaluation of visual question answering (VQA) tasks, a representative task of multimodal systems, has increased. Accordingly, we propose a bilingual outside-knowledge VQA (BOK-VQA) dataset in this study that can be extended to multilingualism. The proposed data include 17K images, 17K question-answer pairs for both Korean and English and 280K instances of knowledge information related to question-answer content. We also present a framework that can effectively inject knowledge information into a VQA system by pretraining the knowledge information of BOK-VQA data in the form of graph embeddings. Finally, through in-depth analysis, we demonstrated the actual effect of the knowledge information contained in the constructed training data on VQA. | 翻訳日:2024-03-18 22:33:38 公開日:2024-03-15 |
# EU法における生成AI - 責任、プライバシ、知的財産権、サイバーセキュリティ
Generative AI in EU Law: Liability, Privacy, Intellectual Property, and Cybersecurity ( http://arxiv.org/abs/2401.07348v4 ) ライセンス: Link先を確認 | Claudio Novelli, Federico Casolari, Philipp Hacker, Giorgio Spedicato, Luciano Floridi, | (参考訳) 生成AIの出現、特にChatGPTとその後継者のような大規模言語モデル(LLM)を通じて、AIの世界におけるパラダイムシフトを象徴する。
高度なLCMはマルチモーダリティを示し、多様なデータフォーマットを扱い、アプリケーションの範囲を広げる。
しかし、これらのモデルの複雑さと創発的な自律性は、予測可能性と法的コンプライアンスの課題をもたらす。
本稿では、欧州連合の文脈におけるジェネレーティブAIとLLMの法的および規制的な意味を掘り下げ、責任、プライバシー、知的財産権、サイバーセキュリティの側面を分析する。
人工知能法(AIA)の草案を含む、既存のおよび提案されたEUの法律の妥当性を批判的に検証し、ジェネレーティブAIの一般的な問題、特にLLMの課題に対処する。
本稿は、立法枠組みにおける潜在的なギャップと欠点を特定し、生成モデルの安全かつコンプライアンスの確保と、EUの進化するデジタルランドスケープと法的基準との整合性を確保するための勧告を提案する。
The advent of Generative AI, particularly through Large Language Models (LLMs) like ChatGPT and its successors, marks a paradigm shift in the AI landscape. Advanced LLMs exhibit multimodality, handling diverse data formats, thereby broadening their application scope. However, the complexity and emergent autonomy of these models introduce challenges in predictability and legal compliance. This paper delves into the legal and regulatory implications of Generative AI and LLMs in the European Union context, analyzing aspects of liability, privacy, intellectual property, and cybersecurity. It critically examines the adequacy of the existing and proposed EU legislation, including the Artificial Intelligence Act (AIA) draft, in addressing the unique challenges posed by Generative AI in general and LLMs in particular. The paper identifies potential gaps and shortcomings in the legislative framework and proposes recommendations to ensure the safe and compliant deployment of generative models, ensuring they align with the EU's evolving digital landscape and legal standards. | 翻訳日:2024-03-18 22:33:38 公開日:2024-03-15 |
# 教育のための自然言語処理に関する調査:分類学、体系的レビュー、将来の動向
Survey of Natural Language Processing for Education: Taxonomy, Systematic Review, and Future Trends ( http://arxiv.org/abs/2401.07518v3 ) ライセンス: Link先を確認 | Yunshi Lan, Xinyuan Li, Hanyue Du, Xuesong Lu, Ming Gao, Weining Qian, Aoying Zhou, | (参考訳) 自然言語処理(NLP)は、コンピュータ科学の分野における技術を通してテキストや音声を分析することを目的としている。
医療、商業、教育などの分野に応用できる。
特に、NLPは教育分野に広く適用されており、その応用は教育や学習に役立つ大きな可能性を秘めている。
本調査では,NLPの最近の進歩を,教育領域に関連する課題の解決に焦点をあてて概観する。
より詳しくは、NLP技術が貢献できる教育において、関連する背景と実世界のシナリオを導入することから始める。
次に、教育領域におけるNLPの分類を提示し、質問応答、質問構築、自動評価、誤り訂正を含む典型的なNLPアプリケーションに焦点を当てる。
次に、上記の分類に基づくタスク定義、課題、およびそれに対応する最先端技術について説明する。
特に,多様な NLP アプリケーションで LLM が広く使用されているため, LLM に関連する手法が議論の対象となっている。
その後、このドメインでオフ・ザ・シェルフのデモをお見せします。
最終的に、教育領域におけるデータセットの増加、LCMの制御可能な使用、難易度制御の介入、解釈可能な教育NLP、適応学習の方法、教育統合システムなど、将来の研究に期待できる6つの方向性を結論付けた。
利用可能なGithub Linkのすべての関連するデータセットと論文を整理して、よりよくレビューします。
Natural Language Processing (NLP) aims to analyze text or speech via techniques in the computer science field. It serves the applications in domains of healthcare, commerce, education and so on. Particularly, NLP has been widely applied to the education domain and its applications have enormous potential to help teaching and learning. In this survey, we review recent advances in NLP with the focus on solving problems relevant to the education domain. In detail, we begin with introducing the related background and the real-world scenarios in education where NLP techniques could contribute. Then, we present a taxonomy of NLP in the education domain and highlight typical NLP applications including question answering, question construction, automated assessment, and error correction. Next, we illustrate the task definition, challenges, and corresponding cutting-edge techniques based on the above taxonomy. In particular, LLM-involved methods are included for discussion due to the wide usage of LLMs in diverse NLP applications. After that, we showcase some off-the-shelf demonstrations in this domain. At last, we conclude with six promising directions for future research, including more datasets in education domain, controllable usage of LLMs, intervention of difficulty-level control, interpretable educational NLP, methods with adaptive learning, and integrated systems for education. We organize all relevant datasets and papers in the open-available Github Link for better review~\url{https://github.com/LiXinyuan1015/NLP-for-Education}. | 翻訳日:2024-03-18 22:33:38 公開日:2024-03-15 |
# アンサンブルによる表面符号の効率的な近似復号
Efficient near-optimal decoding of the surface code through ensembling ( http://arxiv.org/abs/2401.12434v3 ) ライセンス: Link先を確認 | Noah Shutty, Michael Newman, Benjamin Villalonga, | (参考訳) 我々は,複数のノイズの多いデコーダを組み合わせて高精度なデコード予測を生成するアンサンブル手法であるハーモニゼーションを導入する。
MWPMデコーダの高調波アンサンブルは、繰り返しおよび表面コードベンチマークにおいて個々のアンサンブルよりも低い論理誤差率を達成し、大きなアンサンブルサイズで最大値の精度に近づく。
アンサンブル間のコンセンサス度を階層化復号方式の信頼度尺度として用いることができ、小さなアンサンブルはより大きく、より正確なアンサンブルによってチェックされるリスクの高いケースをフラグする。
この階層化方式は,計算オーバーヘッドの一定要素が比較的小さい大規模アンサンブルの精度向上を実現することができる。
我々は、調和は高度に正確なリアルタイム復号化への有効な道筋を提供すると結論づける。
We introduce harmonization, an ensembling method that combines several "noisy" decoders to generate highly accurate decoding predictions. Harmonized ensembles of MWPM-based decoders achieve lower logical error rates than their individual counterparts on repetition and surface code benchmarks, approaching maximum-likelihood accuracy at large ensemble sizes. We can use the degree of consensus among the ensemble as a confidence measure for a layered decoding scheme, in which a small ensemble flags high-risk cases to be checked by a larger, more accurate ensemble. This layered scheme can realize the accuracy improvements of large ensembles with a relatively small constant factor of computational overhead. We conclude that harmonization provides a viable path towards highly accurate real-time decoding. | 翻訳日:2024-03-18 22:33:38 公開日:2024-03-15 |
# UniHDA: マルチモーダルハイブリッドドメイン適応のための統一的で多機能なフレームワーク
UniHDA: A Unified and Versatile Framework for Multi-Modal Hybrid Domain Adaptation ( http://arxiv.org/abs/2401.12596v2 ) ライセンス: Link先を確認 | Hengjia Li, Yang Liu, Yuqi Lin, Zhanwei Zhang, Yibo Zhao, weihang Pan, Tu Zheng, Zheng Yang, Yuchun Jiang, Boxi Wu, Deng Cai, | (参考訳) 近年、生成ドメイン適応は顕著な進歩を遂げており、事前学習されたジェネレータを新しいターゲットドメインに適応させることができる。
しかし、既存の手法では、ジェネレータを単一のターゲットドメインに適応させるだけで、テキスト駆動またはイメージ駆動のいずれでも単一のモダリティに制限される。
さらに、多様性の継承を妨げるソースドメインとの整合性を維持することはできない。
本稿では,複数のドメインからのマルチモーダル参照を用いた生成ハイブリッドドメイン適応のための,UniHDA, \textbf{unified} および \textbf{versatile} フレームワークを提案する。
我々は,CLIPエンコーダを用いて,マルチモーダル参照を統一的な埋め込み空間に投影し,複数の対象領域からの方向ベクトルを線形に補間して,ハイブリッドドメイン適応を実現する。
そこで本研究では,ソース領域とターゲットジェネレータ間の詳細な空間構造情報を保持する,新たなクロスドメイン空間構造(CSS)ロスを提案する。
実験により、適応された生成器は、様々な属性組成でリアルなイメージを合成できることが示されている。
さらに、我々のフレームワークはジェネレータに依存しず、複数のジェネレータ(例えば、StyleGAN、EG3D、Diffusion Models)に汎用的である。
Recently, generative domain adaptation has achieved remarkable progress, enabling us to adapt a pre-trained generator to a new target domain. However, existing methods simply adapt the generator to a single target domain and are limited to a single modality, either text-driven or image-driven. Moreover, they cannot maintain well consistency with the source domain, which impedes the inheritance of the diversity. In this paper, we propose UniHDA, a \textbf{unified} and \textbf{versatile} framework for generative hybrid domain adaptation with multi-modal references from multiple domains. We use CLIP encoder to project multi-modal references into a unified embedding space and then linearly interpolate the direction vectors from multiple target domains to achieve hybrid domain adaptation. To ensure \textbf{consistency} with the source domain, we propose a novel cross-domain spatial structure (CSS) loss that maintains detailed spatial structure information between source and target generator. Experiments show that the adapted generator can synthesise realistic images with various attribute compositions. Additionally, our framework is generator-agnostic and versatile to multiple generators, e.g., StyleGAN, EG3D, and Diffusion Models. | 翻訳日:2024-03-18 22:33:38 公開日:2024-03-15 |
# エネルギーを用いた自動モデル評価
Energy-based Automated Model Evaluation ( http://arxiv.org/abs/2401.12689v3 ) ライセンス: Link先を確認 | Ru Peng, Heming Zou, Haobo Wang, Yawen Zeng, Zenan Huang, Junbo Zhao, | (参考訳) 機械学習モデルに対する従来の評価プロトコルは、ラベル付き、すなわち、想定されるテストデータセットに大きく依存している。
Automated Model Evaluation (AutoEval)は、地平線ラベルなしでテストパフォーマンスの近位予測パイプラインを構築することで、この従来のワークフローに代わるものを示している。
最近の成功にもかかわらず、AutoEvalフレームワークはいまだに自信過剰な問題、かなりのストレージと計算コストに悩まされている。
そこで我々は,AutoEvalフレームワークをより効率的かつ効果的にするための新しい手段であるメタ・ディストリビューション・エナジー(MDE)を提案する。
MDEの中核は、個々のサンプルに関連する情報(エネルギー)に基づいて、メタ分配統計を定式化し、エネルギーベースの学習によってよりスムーズな表現を提供することである。
我々は、MDEと分類損失を結びつけることによって、理論的な洞察を提供する。
我々は、MDEの有効性を検証するために、モーダル性、データセット、異なるアーキテクチャのバックボーンをまたいだ広範囲な実験を行い、従来のアプローチと比較してその優位性を示している。
また,大規模モデルとのシームレスな統合と,ノイズやバランスの取れないラベルによる学習シナリオへの適応性を示すことで,MDEの汎用性を証明する。
コードとデータが利用可能だ。 https://github.com/pengr/Energy_AutoEval
The conventional evaluation protocols on machine learning models rely heavily on a labeled, i.i.d-assumed testing dataset, which is not often present in real world applications. The Automated Model Evaluation (AutoEval) shows an alternative to this traditional workflow, by forming a proximal prediction pipeline of the testing performance without the presence of ground-truth labels. Despite its recent successes, the AutoEval frameworks still suffer from an overconfidence issue, substantial storage and computational cost. In that regard, we propose a novel measure -- Meta-Distribution Energy (MDE) -- that allows the AutoEval framework to be both more efficient and effective. The core of the MDE is to establish a meta-distribution statistic, on the information (energy) associated with individual samples, then offer a smoother representation enabled by energy-based learning. We further provide our theoretical insights by connecting the MDE with the classification loss. We provide extensive experiments across modalities, datasets and different architectural backbones to validate MDE's validity, together with its superiority compared with prior approaches. We also prove MDE's versatility by showing its seamless integration with large-scale models, and easy adaption to learning scenarios with noisy- or imbalanced- labels. Code and data are available: https://github.com/pengr/Energy_AutoEval | 翻訳日:2024-03-18 22:23:54 公開日:2024-03-15 |
# 量子多体系における基底状態問題の解法のための量子ガウスフィルタを用いた変分量子固有解法
Variational Quantum Eigensolvers with Quantum Gaussian Filters for solving ground-state problems in quantum many-body systems ( http://arxiv.org/abs/2401.13459v2 ) ライセンス: Link先を確認 | Yihao Liu, Min-Quan He, Z. D. Wang, | (参考訳) 本稿では,量子多体系における基底状態を近似する新しい量子アルゴリズムを提案する。
提案手法は変分量子固有解器(VQE)と量子ガウスフィルタ(QGF)を統合し,QGF演算子をVQEを介して小さな最適化ステップに分解する反復手法を利用する。
逆場イジングモデルを用いて,従来のVQE法と比較して,特に雑音条件下での収束速度と精度の向上を示した。
この進歩は、複雑な量子シミュレーションを効果的に処理するアルゴリズムの可能性を強調し、NISQ時代の量子コンピューティングアプリケーションにおいて重要な一歩を踏み出した。
We present a novel quantum algorithm for approximating the ground-state in quantum many-body systems, particularly suited for Noisy Intermediate-Scale Quantum (NISQ) devices. Our approach integrates Variational Quantum Eigensolvers (VQE) with Quantum Gaussian Filters (QGF), utilizing an iterative methodology that discretizes the application of the QGF operator into small, optimized steps through VQE. Demonstrated on the Transverse Field Ising models, our method shows improved convergence speed and accuracy, particularly under noisy conditions, compared to conventional VQE methods. This advancement highlights the potential of our algorithm in effectively addressing complex quantum simulations, marking a significant stride in quantum computing applications within the NISQ era. | 翻訳日:2024-03-18 22:23:54 公開日:2024-03-15 |
# Cyber-Twin:Vehicular Ad-Hoc Networkのディジタル双発自律攻撃検出
Cyber-Twin: Digital Twin-boosted Autonomous Attack Detection for Vehicular Ad-Hoc Networks ( http://arxiv.org/abs/2401.14005v4 ) ライセンス: Link先を確認 | Yagmur Yigit, Ioannis Panitsas, Leandros Maglaras, Leandros Tassiulas, Berk Canberk, | (参考訳) Vehicular Ad-hoc NETworks (VANETs) の急速な進化は、インテリジェントトランスポートシステム (ITS) の変革時代に始まり、道路安全性と車両通信を著しく向上させた。
しかし、VANETの複雑でダイナミックな性質は、特にV2I通信において、深刻な課題を呈している。
VANETの不可欠なコンポーネントであるロードサイドユニット(RSU)は、妨害やDDoS攻撃などのサイバー攻撃の影響を受けやすくなっている。
これらの脆弱性は道路の安全に重大な危険をもたらし、交通渋滞や車両の故障につながる可能性がある。
既存の方法では、動的攻撃を検出し、VANETサイバーセキュリティを強化するためにデジタルツイン技術と人工知能(AI)モデルを統合するのが困難である。
本研究では,デジタルツイン技術とAIを組み合わせた新しいフレームワークを提案し,VANETにおけるRASのセキュリティを強化し,このギャップに対処する。
このフレームワークは、リアルタイム監視と効率的な脅威検出を可能にするとともに、計算効率を改善し、データ伝送遅延を低減し、エネルギー効率とハードウェア耐久性を向上させる。
我々のフレームワークは、リソース管理とアタック検出において、既存のソリューションよりも優れています。
リソース消費と高い攻撃検出効率の最適なバランスを保ちながら、RSU負荷とデータ送信遅延を低減する。
これは、スマートシティのための安全で持続可能な車両通信システムへのコミットメントを強調します。
The rapid evolution of Vehicular Ad-hoc NETworks (VANETs) has ushered in a transformative era for intelligent transportation systems (ITS), significantly enhancing road safety and vehicular communication. However, the intricate and dynamic nature of VANETs presents formidable challenges, particularly in vehicle-to-infrastructure (V2I) communications. Roadside Units (RSUs), integral components of VANETs, are increasingly susceptible to cyberattacks, such as jamming and distributed denial of service (DDoS) attacks. These vulnerabilities pose grave risks to road safety, potentially leading to traffic congestion and vehicle malfunctions. Existing methods face difficulties in detecting dynamic attacks and integrating digital twin technology and artificial intelligence (AI) models to enhance VANET cybersecurity. Our study proposes a novel framework that combines digital twin technology with AI to enhance the security of RSUs in VANETs and address this gap. This framework enables real-time monitoring and efficient threat detection while also improving computational efficiency and reducing data transmission delay for increased energy efficiency and hardware durability. Our framework outperforms existing solutions in resource management and attack detection. It reduces RSU load and data transmission delay while achieving an optimal balance between resource consumption and high attack detection effectiveness. This highlights our commitment to secure and sustainable vehicular communication systems for smart cities. | 翻訳日:2024-03-18 22:23:54 公開日:2024-03-15 |
# 浄化教育(AToP:Adversarial Training on Purification) : ロバストネスと一般化の両立
Adversarial Training on Purification (AToP): Advancing Both Robustness and Generalization ( http://arxiv.org/abs/2401.16352v3 ) ライセンス: Link先を確認 | Guang Lin, Chao Li, Jianhai Zhang, Toshihisa Tanaka, Qibin Zhao, | (参考訳) ディープニューラルネットワークは、よく設計された敵攻撃に弱いことが知られている。
対戦訓練(AT)に基づく最も成功した防御技術は、特定の攻撃に対して最適な堅牢性を達成することができるが、目に見えない攻撃に対してうまく一般化できない。
対向的浄化(AP)に基づく他の効果的な防御技術は、一般化を高めることができるが、最適ロバスト性は達成できない。
一方、両手法は、劣化した標準精度の1つの共通制限を共有している。
これらの問題を緩和するために、ランダムトランスフォーメーション(RT)による摂動破壊と、逆方向の損失による微調整(FT)という2つのコンポーネントからなる、Adversarial Training on Purification(AToP)と呼ばれる堅牢なパーファイアモデルを取得するパイプラインを提案する。
RTは、既知の攻撃に対する過度な学習を避けるために不可欠であり、その結果、目に見えない攻撃に対する堅牢性一般化をもたらし、FTは堅牢性の改善に不可欠である。
そこで我々は,CIFAR-10,CIFAR-100,ImageNetteに対して,本手法が最適なロバスト性を実現し,未知の攻撃に対する一般化能力を示すことを示すため,大規模実験を行った。
The deep neural networks are known to be vulnerable to well-designed adversarial attacks. The most successful defense technique based on adversarial training (AT) can achieve optimal robustness against particular attacks but cannot generalize well to unseen attacks. Another effective defense technique based on adversarial purification (AP) can enhance generalization but cannot achieve optimal robustness. Meanwhile, both methods share one common limitation on the degraded standard accuracy. To mitigate these issues, we propose a novel pipeline to acquire the robust purifier model, named Adversarial Training on Purification (AToP), which comprises two components: perturbation destruction by random transforms (RT) and purifier model fine-tuned (FT) by adversarial loss. RT is essential to avoid overlearning to known attacks, resulting in the robustness generalization to unseen attacks, and FT is essential for the improvement of robustness. To evaluate our method in an efficient and scalable way, we conduct extensive experiments on CIFAR-10, CIFAR-100, and ImageNette to demonstrate that our method achieves optimal robustness and exhibits generalization ability against unseen attacks. | 翻訳日:2024-03-18 22:23:54 公開日:2024-03-15 |
# マルチモーダルニューラルネットワークによる脳腫瘍の検出
Detecting Brain Tumors through Multimodal Neural Networks ( http://arxiv.org/abs/2402.00038v2 ) ライセンス: Link先を確認 | Antonio Curci, Andrea Esposito, | (参考訳) 腫瘍は、様々な形態や人間の身体の様々な領域に現れることがある。
脳腫瘍は、発達する器官の複雑さのために、特に診断と治療が困難である。
時間内に検出することは、死亡率を低下させ、患者に対する治療プロセスを促進する。
人工知能(AI)の使用と、より具体的には、ディープラーニングは、イメージング技術によって得られた画像から腫瘍の発見と同定のための時間とリソースの観点から、コストを大幅に削減する可能性がある。
本研究の目的は、グレースケール画像として処理されたMRIスキャンの分類のためのマルチモーダルモデルの性能を評価することである。
結果は有望であり、モデルが約98倍の精度に達すると、同様の結果が得られる。
また、人間のコントロールと安全性を確保するために、説明可能性と透明性の必要性を強調します。
Tumors can manifest in various forms and in different areas of the human body. Brain tumors are specifically hard to diagnose and treat because of the complexity of the organ in which they develop. Detecting them in time can lower the chances of death and facilitate the therapy process for patients. The use of Artificial Intelligence (AI) and, more specifically, deep learning, has the potential to significantly reduce costs in terms of time and resources for the discovery and identification of tumors from images obtained through imaging techniques. This research work aims to assess the performance of a multimodal model for the classification of Magnetic Resonance Imaging (MRI) scans processed as grayscale images. The results are promising, and in line with similar works, as the model reaches an accuracy of around 98\%. We also highlight the need for explainability and transparency to ensure human control and safety. | 翻訳日:2024-03-18 22:23:54 公開日:2024-03-15 |
# TEDDY:Degreeベースの差別戦略によるエッジのトリミング
TEDDY: Trimming Edges with Degree-based Discrimination strategY ( http://arxiv.org/abs/2402.01261v3 ) ライセンス: Link先を確認 | Hyunjin Seo, Jihun Yun, Eunho Yang, | (参考訳) グラフニューラルネットワーク(GNN)の抽選チケット仮説(GNN)に関する先駆的な研究が2021年にChenらによって提案されて以来、グラフ抽選チケット(GLT)の発見に関する研究は、GNNコミュニティにおける重要な焦点の1つとなり、研究者たちは、元の高密度ネットワークに匹敵する性能を達成しつつ、スパーサーGLTを発見することを奨励している。
並行して、グラフ構造はGNNのトレーニング力学において重要な要素としてかなりの注目を集めており、近年のいくつかの研究によって解明されている。
それにもかかわらず、GLTに関する現代の研究は一般的に、グラフ構造における固有の経路を完全に活用せず、反復的な方法でチケットを識別している。
これらの制約に対処するため,一発のエッジスペーシフィケーションフレームワークであるTEDDYを導入する。
エッジスペーシフィケーションの後に、$\ell_0$ボール上の単純な投影勾配降下により、トレーニング中のパラメータスペーシリティを奨励する。
我々のTEDDYは,グラフ構造とモデルパラメータの両方のターゲット空間レベルを考慮し,単一のトレーニング内でのGLTの効率的かつ迅速な実現を促進する。
特色を考慮に入れずに,グラフ構造のみを利用するワンショットスペーシフィケーションを行う場合においても,TEDDYは従来の反復的手法をはるかに上回ることを示す実験結果が得られた。
Since the pioneering work on the lottery ticket hypothesis for graph neural networks (GNNs) was proposed in Chen et al. (2021), the study on finding graph lottery tickets (GLT) has become one of the pivotal focus in the GNN community, inspiring researchers to discover sparser GLT while achieving comparable performance to original dense networks. In parallel, the graph structure has gained substantial attention as a crucial factor in GNN training dynamics, also elucidated by several recent studies. Despite this, contemporary studies on GLT, in general, have not fully exploited inherent pathways in the graph structure and identified tickets in an iterative manner, which is time-consuming and inefficient. To address these limitations, we introduce TEDDY, a one-shot edge sparsification framework that leverages structural information by incorporating edge-degree information. Following edge sparsification, we encourage the parameter sparsity during training via simple projected gradient descent on the $\ell_0$ ball. Given the target sparsity levels for both the graph structure and the model parameters, our TEDDY facilitates efficient and rapid realization of GLT within a single training. Remarkably, our experimental results demonstrate that TEDDY significantly surpasses conventional iterative approaches in generalization, even when conducting one-shot sparsification that solely utilizes graph structures, without taking feature information into account. | 翻訳日:2024-03-18 22:23:54 公開日:2024-03-15 |
# X線-CT画像融合のための完全微分相関駆動2D/3Dレジストレーション
Fully Differentiable Correlation-driven 2D/3D Registration for X-ray to CT Image Fusion ( http://arxiv.org/abs/2402.02498v2 ) ライセンス: Link先を確認 | Minheng Chen, Zhirun Zhang, Shuheng Gu, Zhangyang Ge, Youyong Kong, | (参考訳) 画像ベース剛性2D/3Dレジストレーションは, 蛍光ガイド下外科手術において重要な技術である。
近年, 特徴抽出と勾配流伝達のプロセスは制御性や解釈性に欠ける一方で, 学習に基づく完全微分可能な手法が有益である。
これらの問題を緩和するため,両分岐CNN変換器エンコーダを用いて,低周波グローバル特徴を高周波局所特徴から抽出・分離する,完全微分型相関駆動ネットワークを提案する。
組込み情報に基づく低周波特徴と高周波特徴の分解に対して相関による損失がさらに提案される。
また,凸形状の類似性関数を近似する学習方法を本研究に適用した。
提案手法を社内データセットで検証した結果,既存の完全微分可能な学習ベース登録手法と,従来の最適化ベースラインとを比較検討した。
Image-based rigid 2D/3D registration is a critical technique for fluoroscopic guided surgical interventions. In recent years, some learning-based fully differentiable methods have produced beneficial outcomes while the process of feature extraction and gradient flow transmission still lack controllability and interpretability. To alleviate these problems, in this work, we propose a novel fully differentiable correlation-driven network using a dual-branch CNN-transformer encoder which enables the network to extract and separate low-frequency global features from high-frequency local features. A correlation-driven loss is further proposed for low-frequency feature and high-frequency feature decomposition based on embedded information. Besides, a training strategy that learns to approximate a convex-shape similarity function is applied in our work. We test our approach on a in-house datasetand show that it outperforms both existing fully differentiable learning-based registration approaches and the conventional optimization-based baseline. | 翻訳日:2024-03-18 22:23:54 公開日:2024-03-15 |
# 予算制約下における行動的ユーザセグメンテーションのデリバリ最適化発見
Delivery Optimized Discovery in Behavioral User Segmentation under Budget Constraint ( http://arxiv.org/abs/2402.03388v2 ) ライセンス: Link先を確認 | Harshita Chopra, Atanu R. Sinha, Sunav Choudhary, Ryan A. Rossi, Paavan Kumar Indela, Veda Pranav Parwatala, Srinjayee Paul, Aurghya Maiti, | (参考訳) ユーザの行動フットプリントは,行動ベースのユーザセグメント(あるいはセグメント)を発見し,ユーザに対してセグメント固有のメッセージを配信することを可能にする。
セグメントの発見後、FacebookやGoogleのような好みのメディアチャンネルを通じてユーザーにメッセージを送ることは難しい。
配達が失敗すると、高品質な発見さえも無駄になる。
振る舞いセグメントを発見するための高度なアルゴリズムは数多く存在するが、これらはデリバリコンポーネントを無視している。
その問題は複雑である
i) 発見は企業のデータ(例えば、ユーザクリック)の行動データ空間上で行われ、一方、配信は、メディアによって定義された静的データ空間(例えば、地理、年齢)に述示される。
(二 会社は、予算制約の下で働く。)
本稿では,納期最適化のための確率的最適化に基づくアルゴリズムを導入し,共同最適化に対処するための新しい指標を提供する。
私たちは、デリバリのための予算制約と、ディスカバリのための学習ベースのコンポーネントを組み合わせた最適化を活用します。
Googleとプロプライエタリなデータセットの公開データセットに関する大規模な実験は、デリバリメトリクスを同時に改善し、予算を削減し、発見における強力な予測パフォーマンスを達成することによって、私たちのアプローチの有効性を示しています。
Users' behavioral footprints online enable firms to discover behavior-based user segments (or, segments) and deliver segment specific messages to users. Following the discovery of segments, delivery of messages to users through preferred media channels like Facebook and Google can be challenging, as only a portion of users in a behavior segment find match in a medium, and only a fraction of those matched actually see the message (exposure). Even high quality discovery becomes futile when delivery fails. Many sophisticated algorithms exist for discovering behavioral segments; however, these ignore the delivery component. The problem is compounded because (i) the discovery is performed on the behavior data space in firms' data (e.g., user clicks), while the delivery is predicated on the static data space (e.g., geo, age) as defined by media; and (ii) firms work under budget constraint. We introduce a stochastic optimization based algorithm for delivery optimized discovery of behavioral user segmentation and offer new metrics to address the joint optimization. We leverage optimization under a budget constraint for delivery combined with a learning-based component for discovery. Extensive experiments on a public dataset from Google and a proprietary dataset show the effectiveness of our approach by simultaneously improving delivery metrics, reducing budget spend and achieving strong predictive performance in discovery. | 翻訳日:2024-03-18 22:23:54 公開日:2024-03-15 |
# 因果探索アルゴリズム評価のためのマルコフ等価クラスに関するメトリクス
Metrics on Markov Equivalence Classes for Evaluating Causal Discovery Algorithms ( http://arxiv.org/abs/2402.04952v2 ) ライセンス: Link先を確認 | Jonas Wahl, Jakob Runge, | (参考訳) 多くの最先端の因果探索手法は、データ生成プロセスの基礎となる因果グラフのグラフィカルな分離と接続文を符号化した出力グラフを生成することを目的としている。
本研究では,合成データに対する因果的発見手法の評価には,この明確な目標がどの程度の精度で達成できるかを,提案手法のアウトプットの分離/接続が基底真理とどの程度密に一致しているかを測ることによる分析を含めるべきである,と論じる。
確立された評価尺度は2つの因果グラフの分離・連結の差を正確に捉えていないことを示すとともに,この欠点に対処するs/c距離,マルコフ距離,忠実度距離という3つの新しい尺度を導入する。
理論解析をおもちゃの例、経験実験、擬似コードで補完する。
Many state-of-the-art causal discovery methods aim to generate an output graph that encodes the graphical separation and connection statements of the causal graph that underlies the data-generating process. In this work, we argue that an evaluation of a causal discovery method against synthetic data should include an analysis of how well this explicit goal is achieved by measuring how closely the separations/connections of the method's output align with those of the ground truth. We show that established evaluation measures do not accurately capture the difference in separations/connections of two causal graphs, and we introduce three new measures of distance called s/c-distance, Markov distance and Faithfulness distance that address this shortcoming. We complement our theoretical analysis with toy examples, empirical experiments and pseudocode. | 翻訳日:2024-03-18 22:23:54 公開日:2024-03-15 |
# 入力出力仕様によるグラウンドデータサイエンスコード生成
Grounding Data Science Code Generation with Input-Output Specifications ( http://arxiv.org/abs/2402.08073v2 ) ライセンス: Link先を確認 | Yeming Wen, Pengcheng Yin, Kensen Shi, Henryk Michalewski, Swarat Chaudhuri, Alex Polozov, | (参考訳) 大規模言語モデル(LLM)は、最近、自然言語(NL)プロンプトからコードを生成する驚くべき能力を示した。
しかし、現実の世界では、NLは曖昧すぎるため、プログラミング問題の背後にある真の意図を捉え、追加の入出力(I/O)仕様を必要とします。
残念ながら、LSMは出力をNLプロンプトとI/O仕様の両方と整合させることが困難である。
本稿では,タスクが明快さのために明示的なI/O仕様を必要とするデータサイエンスプログラミングの文脈において,この問題を緩和する方法を提供する。
具体的には、I/O仕様に対するLLMの微調整のための新しいアプローチであるGIFT4Codeを提案する。
提案手法は, LLM自体が生成する合成データを活用し, 実行からのフィードバックを鍵学習信号として利用する。
このフィードバックは、プログラムI/O仕様の形で、命令の微調整を容易にするためにLLMに提供される。
我々は、ArcadeとDS-1000という2つの挑戦的なデータサイエンスベンチマークに対するアプローチを評価した。
結果は、LCMが実行可能なだけでなく、ユーザ仕様に正確に適合するコードを生成する能力を大幅に改善し、複雑なデータサイエンスタスクにおけるコード生成の品質を大幅に改善したことを示す。
Large language models (LLMs) have recently demonstrated a remarkable ability to generate code from natural language (NL) prompts. However, in the real world, NL is often too ambiguous to capture the true intent behind programming problems, requiring additional input-output (I/O) specifications. Unfortunately, LLMs can have difficulty aligning their outputs with both the NL prompt and the I/O specification. In this paper, we give a way to mitigate this issue in the context of data science programming, where tasks require explicit I/O specifications for clarity. Specifically, we propose GIFT4Code, a novel approach for the instruction fine-tuning of LLMs with respect to I/O specifications. Our method leverages synthetic data produced by the LLM itself and utilizes execution-derived feedback as a key learning signal. This feedback, in the form of program I/O specifications, is provided to the LLM to facilitate instruction fine-tuning. We evaluated our approach on two challenging data science benchmarks, Arcade and DS-1000. The results demonstrate a significant improvement in the LLM's ability to generate code that is not only executable but also accurately aligned with user specifications, substantially improving the quality of code generation for complex data science tasks. | 翻訳日:2024-03-18 22:23:54 公開日:2024-03-15 |
# P-Mamba : 心エコー心エコー法による心室分離術におけるP-MambaとP-Mambaの併用
P-Mamba: Marrying Perona Malik Diffusion with Mamba for Efficient Pediatric Echocardiographic Left Ventricular Segmentation ( http://arxiv.org/abs/2402.08506v2 ) ライセンス: Link先を確認 | Zi Ye, Tianxiang Chen, Fangyijie Wang, Hanwei Zhang, Guanxi Li, Lijun Zhang, | (参考訳) 小児心疾患では, 緊急介入が必要かどうかを判断できるため, 心エコー法による心機能の正確かつ即時評価が重要である。
しかし、心エコー検査は曖昧さと背景雑音の干渉が特徴であり、正確なセグメンテーションが困難である。
現在の手法では効率性が欠如しており、ノイズ障害による左室領域としてバックグラウンドノイズ領域を誤って分割する傾向にある。
この2つの問題を解消するため,小児心エコー図による左室区分けを効率的に行うためにP-Mambaを導入する。
具体的には、最近提案されたビジョン・マンバ・エンコーダ・ブランチのビジョン・マンバ・レイヤに目を向け、グローバルな依存関係をモデル化しながら、モデルの計算とメモリ効率を改善する。
他のDWTベースのPMDエンコーダブランチでは、左室の局所的な形状を同時に保存しつつ、MDDをノイズ抑制に利用するDWTベースのPMDブロックを考案する。
P-Mambaは2つのエンコーダ分岐の強度を利用して、2次および線形計算複雑性を持つ視覚変換器のような確立されたモデルに対して精度と効率を向上する。
このイノベーティブなアプローチは、小児心電図などにおける大幅な進歩を約束する。
In pediatric cardiology, the accurate and immediate assessment of cardiac function through echocardiography is important since it can determine whether urgent intervention is required in many emergencies. However, echocardiography is characterized by ambiguity and heavy background noise interference, bringing more difficulty to accurate segmentation. Present methods lack efficiency and are also prone to mistakenly segmenting some background noise areas as the left ventricular area due to noise disturbance. To relieve the two issues, we introduce P-Mamba for efficient pediatric echocardiographic left ventricular segmentation. Specifically, we turn to the recently proposed vision mamba layers in our vision mamba encoder branch to improve the computing and memory efficiency of our model while modeling global dependencies. In the other DWT-based PMD encoder branch, we devise DWT-based Perona-Malik Diffusion (PMD) Blocks that utilize PMD for noise suppression, while simultaneously preserving the local shape cues of the left ventricle. Leveraging the strengths of both the two encoder branches, P-Mamba achieves superior accuracy and efficiency to established models, such as vision transformers with quadratic and linear computational complexity. This innovative approach promises significant advancements in pediatric cardiac imaging and beyond. | 翻訳日:2024-03-18 22:14:10 公開日:2024-03-15 |
# 符号付き逆多重ネットワーク:クラスタリングと推論
Signed Diverse Multiplex Networks: Clustering and Inference ( http://arxiv.org/abs/2402.10242v2 ) ライセンス: Link先を確認 | Marianna Pensky, | (参考訳) 本稿では, 一般ランダムドット製品グラフ (GRDPG) の変種である Signed Generalized Random Dot Product Graph (SGRDPG) モデルを紹介する。
設定は多重バージョンに拡張され、すべてのレイヤが同じノードのコレクションを持ち、SGRDPGに従う。
ネットワークの層に共通する唯一の特徴は、それらが共通の部分空間構造を持つ群に分割できることである。
上記の設定は非常に柔軟で、様々な既存の多重ネットワークモデルが特定のケースとして含まれている。
その論文は2つの目的を果たす。
まず、ネットワーク構築の過程でエッジの兆候を保持することによって、推定とクラスタリングの精度が向上し、脳ネットワークの分析のような現実世界の問題に対処する上で有益であることが示される。
第二に、新しいアルゴリズムを用いることで、階層の強い一貫したクラスタリングと、部分空間推定の高精度を保証できる。
理論的保証に加えて、これらの特徴は数値シミュレーションと実データ例を用いて示される。
The paper introduces a Signed Generalized Random Dot Product Graph (SGRDPG) model, which is a variant of the Generalized Random Dot Product Graph (GRDPG), where, in addition, edges can be positive or negative. The setting is extended to a multiplex version, where all layers have the same collection of nodes and follow the SGRDPG. The only common feature of the layers of the network is that they can be partitioned into groups with common subspace structures, while otherwise matrices of connection probabilities can be all different. The setting above is extremely flexible and includes a variety of existing multiplex network models as its particular cases. The paper fulfills two objectives. First, it shows that keeping signs of the edges in the process of network construction leads to a better precision of estimation and clustering and, hence, is beneficial for tackling real world problems such as, for example, analysis of brain networks. Second, by employing novel algorithms, our paper ensures strongly consistent clustering of layers and high accuracy of subspace estimation. In addition to theoretical guarantees, both of those features are demonstrated using numerical simulations and a real data example. | 翻訳日:2024-03-18 22:14:10 公開日:2024-03-15 |
# WSe$_2$における単一光子放射体:励起スキームと不明瞭性におけるフォノンの重要性
Single-photon emitters in WSe$_2$: The critical role of phonons on excitation schemes and indistinguishability ( http://arxiv.org/abs/2402.10897v2 ) ライセンス: Link先を確認 | Luca Vannucci, José Ferreira Neto, Claudia Piccinini, Athanasios Paralikis, Niels Gregersen, Battulga Munkhbat, | (参考訳) 光量子情報処理において、半導体材料中の2レベルシステムに基づく単一光子源は、単一光子のオンデマンド生成を可能にする。
自然放出プロセスを開始するには, 励起状態を効率よく凝集させる必要がある。
しかし, 固体環境における電荷ノイズとフォノン誘起脱コヒーレンスの存在により, 高効率・高光子不明瞭性の両方でオンデマンド励起の要求を整合させることは依然として困難である。
本稿では,WSe$_{2}$量子エミッタが放出過程で経験したフォノンスペクトル密度を再構成する手法を提案する。
再構成されたフォノンスペクトル密度を用いて, 共振器, フォノンアシストおよびSUPER発振励振方式の性能を解析した。
共振励起下では、強いフォノンカップリングにより$\sim$0.80に制限された励起子生成フィデリティが得られ、SUPERスキームでは0.96に向上する(または、考慮されるエミッタの種類によって0.89に改善される)。
近共振フォノンアシスト励起では, 0.976 (0.997) の準均一励起忠実度が観測される。
さらに, フォノン側バンドの抑制を仮定すると, 電荷/スピン変動などの残留劣化機構が光子の不明瞭性を損なう支配的脱コヒーレンス機構であることを示す。
Within optical quantum information processing, single-photon sources based on a two-level system in a semiconductor material allow for on-demand generation of single photons. To initiate the spontaneous emission process, it is necessary to efficiently populate the excited state. However, reconciling the requirement for on-demand excitation with both high efficiency and high photon indistinguishability remains a challenge due to the presence of charge noise and phonon-induced decoherence in the solid-state environment. Here, we propose a method for reconstructing the phonon spectral density experienced by WSe$_{2}$ quantum emitters in the emission process. Using the reconstructed phonon spectral density, we analyze the performance of the resonant, phonon-assisted, and SUPER swing-up excitation schemes. Under resonant excitation, we obtain an exciton preparation fidelity limited to $\sim$0.80 by the strong phonon coupling, which improves to 0.96 for the SUPER scheme (or 0.89, depending on the type of emitter considered). Under near-resonant phonon-assisted excitation, we observe near-unity excitation fidelity up to 0.976 (0.997). Additionally, we demonstrate that, assuming the suppression of the phonon sidebands, residual dephasing mechanisms such as charge/spin fluctuations are the dominating decoherence mechanisms undermining the photon indistinguishability. | 翻訳日:2024-03-18 22:14:10 公開日:2024-03-15 |
# 心理尺度によるソーシャルメディアのゼロショット説明可能なメンタルヘルス分析
Zero-shot Explainable Mental Health Analysis on Social Media by Incorporating Mental Scales ( http://arxiv.org/abs/2402.10948v2 ) ライセンス: Link先を確認 | Wenyu Li, Yinuo Zhu, Xin Lin, Ming Li, Ziyue Jiang, Ziqian Zeng, | (参考訳) メンタルヘルス分析における従来の差別的アプローチは、その強い能力で知られているが、解釈可能性に欠け、大規模な注釈データを必要とする。
大きな言語モデル(LLM)に基づくような生成的アプローチは、重いアノテーションを取り除き、説明を提供する可能性を秘めているが、その能力は差別的アプローチに比べて依然として不足しており、説明の生成がブラックボックスプロセスであるという事実から、それらの説明は信頼できないかもしれない。
精神状態を評価するための尺度を用いた心理的評価の実践に触発されて,精神尺度を組み込んだメンタル分析(MAIMS)と呼ばれる手法が,LSMを通して2つの手順を取り入れている。
第一に、患者はメンタルスケールを完了し、第二に、心理学者は収集した情報をメンタルスケールから解釈し、情報的決定を行う。
MAIMSは他のゼロショット法よりも優れていることを示す実験結果が得られた。
MAIMSはメンタルスケールのアウトプットに基づいてより厳密な説明を生成することができる
Traditional discriminative approaches in mental health analysis are known for their strong capacity but lack interpretability and demand large-scale annotated data. The generative approaches, such as those based on large language models (LLMs), have the potential to get rid of heavy annotations and provide explanations but their capabilities still fall short compared to discriminative approaches, and their explanations may be unreliable due to the fact that the generation of explanation is a black-box process. Inspired by the psychological assessment practice of using scales to evaluate mental states, our method which is called Mental Analysis by Incorporating Mental Scales (MAIMS), incorporates two procedures via LLMs. First, the patient completes mental scales, and second, the psychologist interprets the collected information from the mental scales and makes informed decisions. Experimental results show that MAIMS outperforms other zero-shot methods. MAIMS can generate more rigorous explanation based on the outputs of mental scales | 翻訳日:2024-03-18 22:14:10 公開日:2024-03-15 |
# CODIS:マルチモーダル大規模言語モデルのためのコンテキスト依存ビジュアル理解のベンチマーク
CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models ( http://arxiv.org/abs/2402.13607v2 ) ライセンス: Link先を確認 | Fuwen Luo, Chi Chen, Zihao Wan, Zhaolu Kang, Qidong Yan, Yingjie Li, Xiaolong Wang, Siyu Wang, Ziyue Wang, Xiaoyue Mi, Peng Li, Ning Ma, Maosong Sun, Yang Liu, | (参考訳) マルチモーダル大規模言語モデル(MLLM)は、視覚と言語を組み合わせた様々なタスクにおいて有望な結果を示してきた。
これらのモデルが研究や応用にとってより不可欠なものになるにつれて、それらの能力の包括的な評価がますます重要になっている。
しかし、既存のベンチマークのほとんどは、ある状況において、画像がより広い文脈で解釈される必要があることを考慮していない。
本研究では,自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために,CODISと呼ばれる新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
さらなる分析により、これらのモデルが、画像の理解を改善するために文脈情報を効果的に抽出し、利用するのに苦労していることが確認される。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
プロジェクトのWebサイトはhttps://thunlp-mt.github.io/CODIS.com。
Multimodal large language models (MLLMs) have demonstrated promising results in a variety of tasks that combine vision and language. As these models become more integral to research and applications, conducting comprehensive evaluations of their capabilities has grown increasingly important. However, most existing benchmarks fail to consider that, in certain situations, images need to be interpreted within a broader context. In this work, we introduce a new benchmark, named as CODIS, designed to assess the ability of models to use context provided in free-form text to enhance visual comprehension. Our findings indicate that MLLMs consistently fall short of human performance on this benchmark. Further analysis confirms that these models struggle to effectively extract and utilize contextual information to improve their understanding of images. This underscores the pressing need to enhance the ability of MLLMs to comprehend visuals in a context-dependent manner. View our project website at https://thunlp-mt.github.io/CODIS. | 翻訳日:2024-03-18 22:14:10 公開日:2024-03-15 |
# 3次元分子生成前訓練とサンプリングによる構造的薬物設計
Structure-Based Drug Design via 3D Molecular Generative Pre-training and Sampling ( http://arxiv.org/abs/2402.14315v2 ) ライセンス: Link先を確認 | Yuwei Yang, Siqi Ouyang, Xueyu Hu, Mingyue Zheng, Hao Zhou, Lei Li, | (参考訳) 構造に基づく薬物設計は、3Dターゲット構造に関する事前の知識で高親和性配位子を生成することを目的としている。
既存の方法は、条件付き生成モデルを用いて、標的となる結合部位の3Dリガンドの分布を学習するか、または構造に基づく活動推定器を最適化するために分子を反復的に修正するかのいずれかである。
前者はデータ量と品質に強く制約されており、実際のシナリオでは最適化ベースのアプローチがより有望である。
しかし、既存の最適化に基づくアプローチでは、2次元空間における分子の編集を選択し、分子ドッキングを用いて予測された3次元標的配位子錯体のドッキングを用いて活性を推定する。
アクション空間と目的とのミスアライメントはこれらのモデルの性能を阻害する。
本研究では,3次元分子生成と最適化フレームワークを組み合わせたMolEdit3Dを提案する。
本研究では, フラグメントを用いた分子生成のための新しい3次元グラフ編集モデルを開発し, ターゲット非依存特性を学習するための豊富な3次元リガンドの事前学習を行う。
そこで,本研究では,自己サンプル分子を用いた目標学習戦略を用いて,目標関連特性を改善する。
MolEdit3Dは、評価指標の大部分で最先端のパフォーマンスを実現し、ターゲット依存プロパティと非依存プロパティの両方をキャプチャする強力な能力を示している。
Structure-based drug design aims at generating high affinity ligands with prior knowledge of 3D target structures. Existing methods either use conditional generative model to learn the distribution of 3D ligands given target binding sites, or iteratively modify molecules to optimize a structure-based activity estimator. The former is highly constrained by data quantity and quality, which leaves optimization-based approaches more promising in practical scenario. However, existing optimization-based approaches choose to edit molecules in 2D space, and use molecular docking to estimate the activity using docking predicted 3D target-ligand complexes. The misalignment between the action space and the objective hinders the performance of these models, especially for those employ deep learning for acceleration. In this work, we propose MolEdit3D to combine 3D molecular generation with optimization frameworks. We develop a novel 3D graph editing model to generate molecules using fragments, and pre-train this model on abundant 3D ligands for learning target-independent properties. Then we employ a target-guided self-learning strategy to improve target-related properties using self-sampled molecules. MolEdit3D achieves state-of-the-art performance on majority of the evaluation metrics, and demonstrate strong capability of capturing both target-dependent and -independent properties. | 翻訳日:2024-03-18 22:14:10 公開日:2024-03-15 |
# LLMの(非)倫理的対応 : 有害なクエリに対する安全ガードレールの脆弱性の解明
How (un)ethical are instruction-centric responses of LLMs? Unveiling the vulnerabilities of safety guardrails to harmful queries ( http://arxiv.org/abs/2402.15302v4 ) ライセンス: Link先を確認 | Somnath Banerjee, Sayan Layek, Rima Hazra, Animesh Mukherjee, | (参考訳) 本研究では,大規模言語モデル(LLM)の安全性と倫理的利用に関する懸念が高まっている。
その可能性にもかかわらず、これらのモデルは「ジェイルブレイク」技法やターゲットの操作など、様々な高度な手法によって有害または非倫理的なコンテンツを生み出すことができる。
我々の研究は、特定の問題についてゼロにしている: どの程度まで LLM は、バニラテキストではなく、擬似コード、プログラムまたはソフトウェアスニペットのような命令中心の応答を生成することで、アストレイを導くことができるか。
そこで本研究では、テキストと命令中心の形式(擬似コードなど)の両方で答えるべき複雑なクエリを含むデータセットであるTechHazardQAを紹介し、非倫理的応答のトリガを特定することを目的とした。
LLM - Llama-2-13b, Llama-2-7b, Mistral-V2, Mistral 8X7B - をクエリして,テキストと命令中心の応答を生成する。
評価には,GPT-4およびヒトの有害度測定値とともに,有害度測定値も報告する。
全体として、LLMに命令中心の応答を生成させると、モデル全体で約2~38%の非倫理的応答生成が増加することが観察された。
さらに, ROME 技術を用いたモデル編集の影響について検討し, 好ましくないコンテンツを生成するための妥当性をさらに高めている。
特に、編集されたLSMに命令中心の応答を生成するよう要求すると、異なるモデル間で、非倫理的な応答生成が3-16%増加する。
In this study, we tackle a growing concern around the safety and ethical use of large language models (LLMs). Despite their potential, these models can be tricked into producing harmful or unethical content through various sophisticated methods, including 'jailbreaking' techniques and targeted manipulation. Our work zeroes in on a specific issue: to what extent LLMs can be led astray by asking them to generate responses that are instruction-centric such as a pseudocode, a program or a software snippet as opposed to vanilla text. To investigate this question, we introduce TechHazardQA, a dataset containing complex queries which should be answered in both text and instruction-centric formats (e.g., pseudocodes), aimed at identifying triggers for unethical responses. We query a series of LLMs -- Llama-2-13b, Llama-2-7b, Mistral-V2 and Mistral 8X7B -- and ask them to generate both text and instruction-centric responses. For evaluation we report the harmfulness score metric as well as judgements from GPT-4 and humans. Overall, we observe that asking LLMs to produce instruction-centric responses enhances the unethical response generation by ~2-38% across the models. As an additional objective, we investigate the impact of model editing using the ROME technique, which further increases the propensity for generating undesirable content. In particular, asking edited LLMs to generate instruction-centric responses further increases the unethical response generation by ~3-16% across the different models. | 翻訳日:2024-03-18 22:14:10 公開日:2024-03-15 |
# 半線形ニューラルネットワークの学習 : 予測とデータ同化のための統一的再帰的フレームワーク
Learning Semilinear Neural Operators : A Unified Recursive Framework For Prediction And Data Assimilation ( http://arxiv.org/abs/2402.15656v2 ) ライセンス: Link先を確認 | Ashutosh Singh, Ricardo Augusto Borsoi, Deniz Erdogmus, Tales Imbiriba, | (参考訳) ニューラル演算子(NOs)の理論の最近の進歩は、偏微分方程式(PDE)によって記述された複素系に対する解の高速かつ正確な計算を可能にしている。
彼らの大きな成功にもかかわらず、現在のNOベースのソリューションは、長期にわたる時空間PDEを扱う際に重要な課題に直面します。
特に、NOsの現在の理論は、わずかにサンプリングされたノイズ測定に基づいて、データ同化を行い、PDE溶液の進化を時間とともに効率的に補正する体系的な枠組みを提示していない。
本稿では,無限次元半線形PDEに対する解演算子を計算するための学習に基づく状態空間アプローチを提案する。
半線形PDEの構造と非線形オブザーバの理論を関数空間で展開し、予測と修正操作を組み合わせることで、予測とデータ同化の両方を可能にする柔軟な再帰的手法を開発した。
提案手法は, 長期間の地平線上での高速かつ高精度な予測を行い, 不規則にサンプリングされた雑音測定を用いて解を補正し, このタイプのPDEの空間的・時間的ダイナミクスの疎結合による恩恵を享受する。
倉本・シヴァシンスキー,ナヴィエ・ストークス,コルテヴェーグ・ド・ブリースの方程式を用いて,提案モデルが雑音に対して頑健であり,任意の量の測定値を用いて,計算オーバーヘッドが少なく長時間水平線上での予測を補正できることを示す。
Recent advances in the theory of Neural Operators (NOs) have enabled fast and accurate computation of the solutions to complex systems described by partial differential equations (PDEs). Despite their great success, current NO-based solutions face important challenges when dealing with spatio-temporal PDEs over long time scales. Specifically, the current theory of NOs does not present a systematic framework to perform data assimilation and efficiently correct the evolution of PDE solutions over time based on sparsely sampled noisy measurements. In this paper, we propose a learning-based state-space approach to compute the solution operators to infinite-dimensional semilinear PDEs. Exploiting the structure of semilinear PDEs and the theory of nonlinear observers in function spaces, we develop a flexible recursive method that allows for both prediction and data assimilation by combining prediction and correction operations. The proposed framework is capable of producing fast and accurate predictions over long time horizons, dealing with irregularly sampled noisy measurements to correct the solution, and benefits from the decoupling between the spatial and temporal dynamics of this class of PDEs. We show through experiments on the Kuramoto-Sivashinsky, Navier-Stokes and Korteweg-de Vries equations that the proposed model is robust to noise and can leverage arbitrary amounts of measurements to correct its prediction over a long time horizon with little computational overhead. | 翻訳日:2024-03-18 22:14:10 公開日:2024-03-15 |
# LLM推論が明らかに:サーベイとルーフラインモデル
LLM Inference Unveiled: Survey and Roofline Model Insights ( http://arxiv.org/abs/2402.16363v5 ) ライセンス: Link先を確認 | Zhihang Yuan, Yuzhang Shang, Yang Zhou, Zhen Dong, Zhe Zhou, Chenhao Xue, Bingzhe Wu, Zhikai Li, Qingyi Gu, Yong Jae Lee, Yan Yan, Beidi Chen, Guangyu Sun, Kurt Keutzer, | (参考訳) 効率的なLarge Language Model(LLM)推論の分野は急速に発展しており、機会と課題のユニークなブレンドが提示されている。
フィールドは拡張され、活気があるが、このドメインを明確に理解するために、LLM推論の様々なメソッドを分析する簡潔なフレームワークは存在していない。
本調査は,研究の現状を要約するだけでなく,LLM推論手法の体系的解析のための屋上モデルに基づく枠組みを導入することで,従来の文献レビューから際立っている。
このフレームワークは、LLMをハードウェアデバイスにデプロイする際のボトルネックを特定し、LCMがメモリバウンドである理由、必要なメモリと計算量、適切なハードウェアを選択する方法など、実用的な問題を明確に理解する。
モデル圧縮(例えば、知識蒸留と量子化)、アルゴリズムの改良(例えば、早期排他と混合実験)、ハードウェアとシステムレベルの拡張といった重要な領域を網羅し、効率的なLLM推論の最新の進歩を体系的に解析する。
本調査は,これらの手法を屋上モデルで解析し,メモリアクセスと計算への影響を理解する上で有効である。
この独特なアプローチは、現在の研究状況を示すだけでなく、我々の研究をこの分野に新たに参入した研究者や、効率的なLLMデプロイメントの理解を深めようとする研究者にとって欠かせない資源として位置づける、実践的な実践のための貴重な洞察を提供する。
アナリティクスツールのLLM-Viewerがオープンソース化された。
The field of efficient Large Language Model (LLM) inference is rapidly evolving, presenting a unique blend of opportunities and challenges. Although the field has expanded and is vibrant, there hasn't been a concise framework that analyzes the various methods of LLM Inference to provide a clear understanding of this domain. Our survey stands out from traditional literature reviews by not only summarizing the current state of research but also by introducing a framework based on roofline model for systematic analysis of LLM inference techniques. This framework identifies the bottlenecks when deploying LLMs on hardware devices and provides a clear understanding of practical problems, such as why LLMs are memory-bound, how much memory and computation they need, and how to choose the right hardware. We systematically collate the latest advancements in efficient LLM inference, covering crucial areas such as model compression (e.g., Knowledge Distillation and Quantization), algorithm improvements (e.g., Early Exit and Mixture-of-Expert), and both hardware and system-level enhancements. Our survey stands out by analyzing these methods with roofline model, helping us understand their impact on memory access and computation. This distinctive approach not only showcases the current research landscape but also delivers valuable insights for practical implementation, positioning our work as an indispensable resource for researchers new to the field as well as for those seeking to deepen their understanding of efficient LLM deployment. The analyze tool, LLM-Viewer, is open-sourced. | 翻訳日:2024-03-18 22:14:10 公開日:2024-03-15 |
# 仮想蒸留に基づく誤り緩和影推定
Error mitigated shadow estimation based on virtual distillation ( http://arxiv.org/abs/2402.18829v2 ) ライセンス: Link先を確認 | Ruyu Yang, Xiaoming Sun, Hongyi Zhou, | (参考訳) シャドウ推定(シャドウえい、Shadow Estimation)は、未知の量子状態の多数の特性を、量子デバイスのノイズに悩まされる限られた一連の測定によって推定する手法である。
本稿では,近距離量子デバイスにおける仮想蒸留に基づく誤差緩和型シャドウ推定手法を提案する。
提案手法は、キュービットリセット手法を利用して、関連するキュービットオーバーヘッドを低減する。
重要なこととして,本手法は,要求されるキュービット資源が所望の精度とは無関係であることを保証するとともに,指数的測定オーバーヘッドを回避し,実用的な応用の大幅な進歩を図っている。
さらに,本手法はクリフォードとパウリ型の混合影に対応し,様々なシナリオにおいて必要な測定回数を減らすことができる。
また,回路深さと測定オーバーヘッドのトレードオフを定量的に検討した。
数値シミュレーションにより,提案手法の有効性を検証し,短期量子デバイスにおける影推定のロバスト性を高めるための有効性を確立した。
Shadow estimation is a method for deducing numerous properties of an unknown quantum state through a limited set of measurements, which suffers from noises in quantum devices. In this paper, we introduce an error-mitigated shadow estimation approach based on virtual distillation, tailored for applications in near-term quantum devices. Our methodology leverages the qubit reset technique, thereby reducing the associated qubit overhead. Crucially, our approach ensures that the required qubit resources remain independent of the desired accuracy and avoid an exponential measurement overhead, marking a substantial advancement in practical applications. Furthermore, our technique accommodates a mixed Clifford and Pauli-type shadow, which can result in a reduction in the number of required measurements across various scenarios. We also study the trade-off between circuit depth and measurement overhead quantitatively. Through numerical simulations, we substantiate the efficacy of our error mitigation method, establishing its utility in enhancing the robustness of shadow estimations on near-term quantum devices. | 翻訳日:2024-03-18 22:14:10 公開日:2024-03-15 |
# CAMixerSR:詳細は「注意」のみ
CAMixerSR: Only Details Need More "Attention" ( http://arxiv.org/abs/2402.19289v2 ) ライセンス: Link先を確認 | Yan Wang, Yi Liu, Shijie Zhao, Junlin Li, Li Zhang, | (参考訳) 大きな画像(2K-8K)の超解像(SR)に対する要求が急速に高まっていることを満たすため、一般的な手法は2つの独立した軌道を踏襲する。
1)コンテンツ認識ルーティングにより既存のネットワークを加速し、
2) トークンミキサー精製による高解像度ネットワークの設計
直接性にもかかわらず、それらは避けられない欠陥(例えば、柔軟性のない経路や非差別的な処理)に遭遇し、品質と複雑さのトレードオフのさらなる改善を制限します。
欠点を解消するために,コンテント・アウェア・ミキサー (CAMixer) を提案し,コンボリューションを単純なコンテキストに割り当てるとともに,余分なテクスチャに変形可能なウィンドウアテンションを追加することで,これらのスキームを統合する。
具体的には、CAMixerは学習可能な予測器を使用して複数のブートストラップを生成し、ウィンドウのワープのオフセット、ウィンドウの分類のためのマスク、動的特性との畳み込みを達成するための畳み込み注意、より有用なテクスチャを自己適応的に含み、畳み込みの表現能力を向上させる。
さらに、予測器の精度を向上させるために、グローバルな分類損失を導入する。
単純にCAMixerを積み重ねることで、大画面SR、軽量SR、全方位SRにおいて優れた性能を実現するCAMixerSRを得る。
To satisfy the rapidly increasing demands on the large image (2K-8K) super-resolution (SR), prevailing methods follow two independent tracks: 1) accelerate existing networks by content-aware routing, and 2) design better super-resolution networks via token mixer refining. Despite directness, they encounter unavoidable defects (e.g., inflexible route or non-discriminative processing) limiting further improvements of quality-complexity trade-off. To erase the drawbacks, we integrate these schemes by proposing a content-aware mixer (CAMixer), which assigns convolution for simple contexts and additional deformable window-attention for sparse textures. Specifically, the CAMixer uses a learnable predictor to generate multiple bootstraps, including offsets for windows warping, a mask for classifying windows, and convolutional attentions for endowing convolution with the dynamic property, which modulates attention to include more useful textures self-adaptively and improves the representation capability of convolution. We further introduce a global classification loss to improve the accuracy of predictors. By simply stacking CAMixers, we obtain CAMixerSR which achieves superior performance on large-image SR, lightweight SR, and omnidirectional-image SR. | 翻訳日:2024-03-18 22:14:10 公開日:2024-03-15 |
# 異方性誘起スピンパリティ効果
Anisotropy-Induced Spin Parity Effects ( http://arxiv.org/abs/2402.19311v2 ) ライセンス: Link先を確認 | Shuntaro Sumita, Akihiro Tanaka, Yusuke Kato, | (参考訳) スピンパリティ効果(スピンパリティえき、英: Spin parity effect)とは、系の物理的挙動における二分法が生じる特別な状況を指し、関連するスピン量子数が積分であるか半負積分であるかに依存する。
反強磁性スピン鎖におけるハルダン予想と同様に、それらの追求はしばしば深い洞察を導き、量子凝縮物質物理学の新しい発展を呼び起こす。
ここでは、異方性相互作用を用いて、任意の空間次元におけるそのような効果を生成するための単純で一般的なスキームと、最先端のコールド原子実装の妥当な到達範囲に設定する。
本研究では, 横磁場中の異方性反強磁性体である1次元スピン鎖モデルの磁化挙動を詳細に解析し, 従来注目されてきたが明確には理解されていない磁化曲線で観測された有限サイズの効果の量子的起源を解明する。
Spin parity effects refer to those special situations where a dichotomy in the physical behavior of a system arises, solely depending on whether the relevant spin quantum number is integral or half-odd integral. As is the case with the Haldane conjecture in antiferromagnetic spin chains, their pursuit often derives deep insights and invokes new developments in quantum condensed matter physics. Here we put forth a simple and general scheme for generating such effects in any spatial dimension through the use of anisotropic interactions, and a setup within reasonable reach of state-of-the-art cold-atom implementations. We demonstrate its utility through a detailed analysis of the magnetization behavior of a specific one-dimensional spin chain model -- an anisotropic antiferromagnet in a transverse magnetic field, unraveling along the way the quantum origin of finite-size effects observed in the magnetization curve that had previously been noted but not clearly understood. | 翻訳日:2024-03-18 22:04:23 公開日:2024-03-15 |
# ハイゼンベルク極限におけるフェルミオンハミルトニアン間の相互作用の学習
Learning interacting fermionic Hamiltonians at the Heisenberg limit ( http://arxiv.org/abs/2403.00069v2 ) ライセンス: Link先を確認 | Arjun Mirani, Patrick Hayden, | (参考訳) 未知のハミルトニアンの力学へのアクセスを効果的に学習することは、量子力学、多体物理学、機械学習への関心の問題である。
根本的な問題は、ハミルトニアン進化時間は再構成されたパラメータの誤差$\varepsilon$と逆スケールするハイゼンベルク極限で学習が実行できるかどうかである。
ハイゼンベルク極限は以前、量子ビットとボソニックハミルトニアンのある種のクラスに対して達成可能であることが示されている。
最近では、ハイゼンベルク限定学習アルゴリズムが、実ホッピング振幅と全ての場所での化学的ポテンシャルのゼロに制限されたフェルミオンハバード・ハミルトンの単純化されたクラスのために提案された。
本研究では,ハイゼンベルク極限におけるフェルミオンハバードハミルトニアンのより一般的なクラスを学習するためのアルゴリズムを提供する。
我々のプロトコルにおける全ての実験で必要とされる進化時間は$\mathcal{O}(1/\varepsilon)$であり、すべてのハミルトンパラメータを学習するのに必要な実験の数は$\mathcal{O}(\text{polylog}(1/\varepsilon)$、各フェルミオンモードが$\mathcal{O}(1)$他のモードと相互作用する限りシステムサイズに依存しない。
ボゾンおよびフェルミオンハミルトニアンに対する以前のアルゴリズムとは異なり、より一般的な設定でフェルミオンパリティ超選択制約に従うために、我々のプロトコルは$\mathcal{O}(N)$ ancillary fermionic modesを使用し、そこで$N$はシステムサイズである。
それぞれの実験は、フェルミオンのガウス状態の調製、フェルミオンの線形光学単位との時間発展、フェルミオンのモードでの局所的な占有数測定を含む。
このプロトコルは一定量の状態準備と測定誤差に対して堅牢である。
Efficiently learning an unknown Hamiltonian given access to its dynamics is a problem of interest for quantum metrology, many-body physics and machine learning. A fundamental question is whether learning can be performed at the Heisenberg limit, where the Hamiltonian evolution time scales inversely with the error, $\varepsilon$, in the reconstructed parameters. The Heisenberg limit has previously been shown to be achievable for certain classes of qubit and bosonic Hamiltonians. Most recently, a Heisenberg-limited learning algorithm was proposed for a simplified class of fermionic Hubbard Hamiltonians restricted to real hopping amplitudes and zero chemical potential at all sites, along with on-site interactions. In this work, we provide an algorithm to learn a more general class of fermionic Hubbard Hamiltonians at the Heisenberg limit, allowing complex hopping amplitudes and nonzero chemical potentials in addition to the on-site interactions, thereby including several models of physical interest. The required evolution time across all experiments in our protocol is $\mathcal{O}(1/\varepsilon)$ and the number of experiments required to learn all the Hamiltonian parameters is $\mathcal{O}(\text{polylog}(1/\varepsilon))$, independent of system size as long as each fermionic mode interacts with $\mathcal{O}(1)$ other modes. Unlike prior algorithms for bosonic and fermionic Hamiltonians, to obey fermionic parity superselection constraints in our more general setting, our protocol utilizes $\mathcal{O}(N)$ ancillary fermionic modes, where $N$ is the system size. Each experiment involves preparing fermionic Gaussian states, interleaving time evolution with fermionic linear optics unitaries, and performing local occupation number measurements on the fermionic modes. The protocol is robust to a constant amount of state preparation and measurement error. | 翻訳日:2024-03-18 22:04:23 公開日:2024-03-15 |
# DD-VNB:Dual-Loop Framework for Real-time Visually Navigated Bronchoscopy
DD-VNB: A Depth-based Dual-Loop Framework for Real-time Visually Navigated Bronchoscopy ( http://arxiv.org/abs/2403.01683v2 ) ライセンス: Link先を確認 | Qingyao Tian, Huai Liao, Xinyan Huang, Jian Chen, Zihui Zhang, Bingyu Yang, Sebastien Ourselin, Hongbin Liu, | (参考訳) 気管支鏡のリアルタイム6 DOF局在化は介入品質の向上に不可欠である。
しかし、現在のビジョンベースの技術は、一般化と見えないデータと計算速度のバランスをとるのに苦労している。
本研究では,Dual-Loopフレームワークを用いたリアルタイム視覚ナビゲーション気管支鏡 (DD-VNB) を提案する。
DD-VNBフレームワークは、深さ推定とデュアルループローカライゼーションという2つの重要なモジュールを統合している。
患者間の領域ギャップを解決するために,内視鏡のフレームを深度にマッピングし,患者固有のテクスチャを排除して一般化を確実にする知識埋め込み深度推定ネットワークを提案する。
このネットワークは、ビュー合成知識を、スケール制約された単眼深度推定のためのサイクル逆アーキテクチャに組み込む。
リアルタイムな性能を実現するため,位置決めモジュールは高速なエゴモーション推定ネットワークを深度登録ループに埋め込む。
エゴモーション推論ネットワークは、気管支鏡のポーズ変化を高周波で推定する一方、術前の3Dモデルに対する深さ登録は、絶対的なポーズを周期的に提供する。
具体的には、相対的なポーズ変化を、その精度と速度を高める最初の推測として登録プロセスに入力する。
患者からのファントムデータとin-vivoデータの実験は、我々の枠組みの有効性を実証している。
1)単分子深度推定はSOTAより優れている。
2) 局所化による絶対追跡誤差(ATE)の精度は、ファントムで4.7$\pm$3.17 mm、患者データで6.49$\pm$3.88 mmである。
3)フレームレートがビデオキャプチャ速度に近づく。
4) ケースワイドネットワーク再トレーニングは不要であった。
このフレームワークの速度と精度は、リアルタイム気管支鏡ナビゲーションの有望な臨床可能性を示している。
Real-time 6 DOF localization of bronchoscopes is crucial for enhancing intervention quality. However, current vision-based technologies struggle to balance between generalization to unseen data and computational speed. In this study, we propose a Depth-based Dual-Loop framework for real-time Visually Navigated Bronchoscopy (DD-VNB) that can generalize across patient cases without the need of re-training. The DD-VNB framework integrates two key modules: depth estimation and dual-loop localization. To address the domain gap among patients, we propose a knowledge-embedded depth estimation network that maps endoscope frames to depth, ensuring generalization by eliminating patient-specific textures. The network embeds view synthesis knowledge into a cycle adversarial architecture for scale-constrained monocular depth estimation. For real-time performance, our localization module embeds a fast ego-motion estimation network into the loop of depth registration. The ego-motion inference network estimates the pose change of the bronchoscope in high frequency while depth registration against the pre-operative 3D model provides absolute pose periodically. Specifically, the relative pose changes are fed into the registration process as the initial guess to boost its accuracy and speed. Experiments on phantom and in-vivo data from patients demonstrate the effectiveness of our framework: 1) monocular depth estimation outperforms SOTA, 2) localization achieves an accuracy of Absolute Tracking Error (ATE) of 4.7 $\pm$ 3.17 mm in phantom and 6.49 $\pm$ 3.88 mm in patient data, 3) with a frame-rate approaching video capture speed, 4) without the necessity of case-wise network retraining. The framework's superior speed and accuracy demonstrate its promising clinical potential for real-time bronchoscopic navigation. | 翻訳日:2024-03-18 22:04:23 公開日:2024-03-15 |
# トレーニングフリープレトレーニングモデルマージ
Training-Free Pretrained Model Merging ( http://arxiv.org/abs/2403.01753v3 ) ライセンス: Link先を確認 | Zhengqi Xu, Ke Yuan, Huiqiong Wang, Yong Wang, Mingli Song, Jie Song, | (参考訳) 近年,複数の単一タレントモデルと単一マルチタレントモデルを組み合わせたソリューションとして,モデルマージ技術が浮上している。
しかし、この分野における以前の取り組みでは、追加のトレーニングや微調整のプロセスが必要になるか、あるいはモデルが同じ事前訓練された初期化を持つ必要がある。
この研究において、ウェイト空間とアクティベーション空間における単位類似性の矛盾について、先行研究における共通の欠点を特定する。
この不整合に対処するために,双対空間制約(MuDSC)の下でのマージという,革新的なモデルマージフレームワークを提案する。
具体的には、単一空間の目的のみを最大化する代わりに、双対空間において統一された高類似性を持つ領域に位置する置換行列の探索を、活性化と重み類似性行列の線形結合によって行うことを提唱する。
ユーザビリティを高めるため,マルチヘッドアテンションやグループ正規化など,グループ構造への適応も取り入れた。
総合的な比較実験により、MuDSCは様々なタスクの組み合わせとアーキテクチャで統合されたモデルの性能を大幅に向上させることができることが示された。
さらに、マルチタスクの損失ランドスケープ内のマージモデルの可視化により、MuDSCはマージモデルを重なり合うセグメントに配置することができ、各タスクに統一された低損失を特徴付けることが明らかとなった。
私たちのコードはhttps://github.com/zju-vipa/training_free_model_merging.comで公開されています。
Recently, model merging techniques have surfaced as a solution to combine multiple single-talent models into a single multi-talent model. However, previous endeavors in this field have either necessitated additional training or fine-tuning processes, or require that the models possess the same pre-trained initialization. In this work, we identify a common drawback in prior works w.r.t. the inconsistency of unit similarity in the weight space and the activation space. To address this inconsistency, we propose an innovative model merging framework, coined as merging under dual-space constraints (MuDSC). Specifically, instead of solely maximizing the objective of a single space, we advocate for the exploration of permutation matrices situated in a region with a unified high similarity in the dual space, achieved through the linear combination of activation and weight similarity matrices. In order to enhance usability, we have also incorporated adaptations for group structure, including Multi-Head Attention and Group Normalization. Comprehensive experimental comparisons demonstrate that MuDSC can significantly boost the performance of merged models with various task combinations and architectures. Furthermore, the visualization of the merged model within the multi-task loss landscape reveals that MuDSC enables the merged model to reside in the overlapping segment, featuring a unified lower loss for each task. Our code is publicly available at https://github.com/zju-vipa/training_free_model_merging. | 翻訳日:2024-03-18 22:04:23 公開日:2024-03-15 |
# オープンワールド機械学習: レビューと新たな展望
Open-world Machine Learning: A Review and New Outlooks ( http://arxiv.org/abs/2403.01759v2 ) ライセンス: Link先を確認 | Fei Zhu, Shijie Ma, Zhen Cheng, Xu-Yao Zhang, Zhaoxiang Zhang, Cheng-Lin Liu, | (参考訳) 機械学習は多くのアプリケーションで顕著な成功を収めた。
しかし、既存の研究はほとんどがクローズドワールドの仮定に基づいており、それは環境が静止しており、モデルが一度デプロイされると修正されるという仮定である。
多くの現実世界のアプリケーションでは、オープンな環境は複雑で、動的で、未知の環境に満ちているため、この基本的で、かなり素直な仮定は成り立たないかもしれない。
そのような場合、未知を拒絶し、新奇性を発見し、それを漸進的に学習することで、モデルが生物学的システムのように安全で継続的に進化することを可能にする。
本稿では、未知の拒絶、新しいクラス発見、および統一パラダイムによるクラスインクリメンタルラーニングを調査することにより、オープンワールド機械学習の全体像を提供する。
現在の方法論の課題、原則、限界について詳しく議論する。
最後に,今後の研究の方向性について論じる。
本稿では,新たなオープンワールド機械学習パラダイムの包括的導入を目標とし,研究者がそれぞれの分野においてより強力なAIシステムを構築することを支援するとともに,人工知能の開発を促進することを目的とする。
Machine learning has achieved remarkable success in many applications. However, existing studies are largely based on the closed-world assumption, which assumes that the environment is stationary, and the model is fixed once deployed. In many real-world applications, this fundamental and rather naive assumption may not hold because an open environment is complex, dynamic, and full of unknowns. In such cases, rejecting unknowns, discovering novelties, and then incrementally learning them, could enable models to be safe and evolve continually as biological systems do. This paper provides a holistic view of open-world machine learning by investigating unknown rejection, novel class discovery, and class-incremental learning in a unified paradigm. The challenges, principles, and limitations of current methodologies are discussed in detail. Finally, we discuss several potential directions for future research. This paper aims to provide a comprehensive introduction to the emerging open-world machine learning paradigm, to help researchers build more powerful AI systems in their respective fields, and to promote the development of artificial general intelligence. | 翻訳日:2024-03-18 22:04:23 公開日:2024-03-15 |
# SciAssess:科学文献分析におけるLCM能力のベンチマーク
SciAssess: Benchmarking LLM Proficiency in Scientific Literature Analysis ( http://arxiv.org/abs/2403.01976v2 ) ライセンス: Link先を確認 | Hengxing Cai, Xiaochen Cai, Junhan Chang, Sihang Li, Lin Yao, Changxin Wang, Zhifeng Gao, Hongshuai Wang, Yongge Li, Mujie Lin, Shuwen Yang, Jiankun Wang, Yuqi Yin, Yaqi Li, Linfeng Zhang, Guolin Ke, | (参考訳) 近年のLarge Language Models (LLMs) のブレークスルーは自然言語の理解と生成に革命をもたらし、科学文献分析の分野でこれらの技術を活用することへの関心が高まっている。
しかし、既存のベンチマークでは、科学文献分析において、特に複雑な理解とマルチモーダルデータを含むシナリオにおいて、LLMの習熟度を不十分に評価している。
その結果,学術文献の詳細な分析に適したベンチマークであるSciAssessを導入し,LCMの有効性を徹底的に評価した。
SciAssessは、科学文献分析の文脈における記憶、理解、分析におけるLLMの能力の評価に焦点を当てている。
一般的な化学、有機材料、合金材料などの様々な科学分野からの代表的タスクを含む。
そして厳格な品質管理手段は、正確性、匿名化、および著作権コンプライアンスの観点から信頼性を確保します。
SciAssess は GPT-4, GPT-3.5, Gemini を含む主要な LLM の評価を行い、科学文献解析における LLM の応用の継続的な発展と改善の強みと側面を明らかにしている。
SciAssessとそのリソースはhttps://sci-assess.github.ioで公開されている。
Recent breakthroughs in Large Language Models (LLMs) have revolutionized natural language understanding and generation, igniting a surge of interest in leveraging these technologies in the field of scientific literature analysis. Existing benchmarks, however, inadequately evaluate the proficiency of LLMs in scientific literature analysis, especially in scenarios involving complex comprehension and multimodal data. In response, we introduced SciAssess, a benchmark tailored for the in-depth analysis of scientific literature, crafted to provide a thorough assessment of LLMs' efficacy. SciAssess focuses on evaluating LLMs' abilities in memorization, comprehension, and analysis within the context of scientific literature analysis. It includes representative tasks from diverse scientific fields, such as general chemistry, organic materials, and alloy materials. And rigorous quality control measures ensure its reliability in terms of correctness, anonymization, and copyright compliance. SciAssess evaluates leading LLMs, including GPT-4, GPT-3.5, and Gemini, identifying their strengths and aspects for improvement and supporting the ongoing development of LLM applications in scientific literature analysis. SciAssess and its resources are made available at https://sci-assess.github.io, offering a valuable tool for advancing LLM capabilities in scientific literature analysis. | 翻訳日:2024-03-18 22:04:23 公開日:2024-03-15 |
# 最大スライス2-ワッサーシュタイン距離
Max-sliced 2-Wasserstein distance ( http://arxiv.org/abs/2403.02142v2 ) ライセンス: Link先を確認 | March T. Boedihardjo, | (参考訳) この注記は、著者の"Sharp bounds for the max-sliced Wasserstein distance"に関する以前の研究の継続である。
同じ手法を用いて、ユークリッド空間上のコンパクトに支持された対称確率測度とその対称性を持つ経験分布の間の最大スライクな2-ワッサーシュタイン距離の上限を求める。
This note is a continuation of the author's previous work on "Sharp bounds for the max-sliced Wasserstein distance." We use the same technique to obtain an upper bound for the expected max-sliced 2-Wasserstein distance between a compactly supported symmetric probability measure on a Euclidean space and its symmetrized empirical distribution. | 翻訳日:2024-03-18 22:04:23 公開日:2024-03-15 |
# HUNTER: 合成事例から実シーンへの知識伝達による教師なし人間中心型3D検出
HUNTER: Unsupervised Human-centric 3D Detection via Transferring Knowledge from Synthetic Instances to Real Scenes ( http://arxiv.org/abs/2403.02769v2 ) ライセンス: Link先を確認 | Yichen Yao, Zimo Jiang, Yujing Sun, Zhencai Zhu, Xinge Zhu, Runnan Chen, Yuexin Ma, | (参考訳) 人間中心の3Dシーンの理解は、ロボット工学における重要な影響により、最近注目を集めている。
しかし、人間中心の現実のシナリオは非常に多様で複雑であり、人間は複雑な動きや相互作用を持っている。
ラベル付きデータに制限があるため、教師付き手法は一般的なシナリオに一般化することは困難であり、現実のアプリケーションを妨げる。
人間の知能を模倣し、人工的な人間のインスタンスから現実のシーンに知識を移すことにより、人間中心のシナリオに対する教師なし3次元検出手法を提案する。
合成モデルと実点雲の差分表現と特徴分布のギャップを埋めるために,実例間表現転送と合成-実特徴アライメントのための新しいモジュールを導入する。
その結果,HuCenLife データセット上での完全教師付き手法 (62.15 mAP vs. 69.02 mAP) の性能に近づいた。
Human-centric 3D scene understanding has recently drawn increasing attention, driven by its critical impact on robotics. However, human-centric real-life scenarios are extremely diverse and complicated, and humans have intricate motions and interactions. With limited labeled data, supervised methods are difficult to generalize to general scenarios, hindering real-life applications. Mimicking human intelligence, we propose an unsupervised 3D detection method for human-centric scenarios by transferring the knowledge from synthetic human instances to real scenes. To bridge the gap between the distinct data representations and feature distributions of synthetic models and real point clouds, we introduce novel modules for effective instance-to-scene representation transfer and synthetic-to-real feature alignment. Remarkably, our method exhibits superior performance compared to current state-of-the-art techniques, achieving 87.8% improvement in mAP and closely approaching the performance of fully supervised methods (62.15 mAP vs. 69.02 mAP) on HuCenLife Dataset. | 翻訳日:2024-03-18 22:04:23 公開日:2024-03-15 |
# RACE-SM:ソーシャルオンランプマージのための強化学習に基づく自律制御
RACE-SM: Reinforcement Learning Based Autonomous Control for Social On-Ramp Merging ( http://arxiv.org/abs/2403.03359v2 ) ライセンス: Link先を確認 | Jordan Poots, | (参考訳) 人間の制御された交通における自律的な並列方式のオンランプ統合は、自動運転車の制御における既存の問題であり続けている。
既存の非学習ベースの車両制御ソリューションは主にルールと最適化に依存している。
これらの手法は重要な課題を呈している。
近年のDeep Reinforcement Learningの進歩は、将来性を示し、学術的な関心を集めているが、利用可能な学習ベースのアプローチは、他の高速道路車両に不適切な注意を払っており、しばしば不正確な道路交通の仮定に依存している。
また、並列型の場合はほとんど考慮されない。
社会に受け入れられる行動を生み出すために,エゴ車とその周辺車両に協調的あるいは協力的でないものの両方の有用性を明示的に考慮した,アクセラレーションとレーン変更決定のための新しい学習ベースモデルを提案する。
新たな報酬関数は、車両の社会的協力のレベルを重み付けするために社会価値オリエンテーションを利用し、モデルが指定した社会価値オリエンテーションに応じて重み付けされるエゴ車と周辺車両ユーティリティに分割される。
オンランプの2車線道路は、テーパースタイルとパラレルスタイルに分けられている。
シミュレーションの結果, 周辺車両を報酬関数設計において考慮することの重要性が示され, 提案モデルが衝突の点から, 文学的モデルと一致あるいは相反することを示すとともに, 周辺車両への合流効果を直接考慮して, 近距離ミスや反社会的行動を回避し, 社会的に礼儀正しく振舞うことが示唆された。
Autonomous parallel-style on-ramp merging in human controlled traffic continues to be an existing issue for autonomous vehicle control. Existing non-learning based solutions for vehicle control rely on rules and optimization primarily. These methods have been seen to present significant challenges. Recent advancements in Deep Reinforcement Learning have shown promise and have received significant academic interest however the available learning based approaches show inadequate attention to other highway vehicles and often rely on inaccurate road traffic assumptions. In addition, the parallel-style case is rarely considered. A novel learning based model for acceleration and lane change decision making that explicitly considers the utility to both the ego vehicle and its surrounding vehicles which may be cooperative or uncooperative to produce behaviour that is socially acceptable is proposed. The novel reward function makes use of Social Value Orientation to weight the vehicle's level of social cooperation and is divided into ego vehicle and surrounding vehicle utility which are weighted according to the model's designated Social Value Orientation. A two-lane highway with an on-ramp divided into a taper-style and parallel-style section is considered. Simulation results indicated the importance of considering surrounding vehicles in reward function design and show that the proposed model matches or surpasses those in literature in terms of collisions while also introducing socially courteous behaviour avoiding near misses and anti-social behaviour through direct consideration of the effect of merging on surrounding vehicles. | 翻訳日:2024-03-18 22:04:23 公開日:2024-03-15 |
# 非エルミタン系と$\mathbb{Z}_2$ポイントギャップトポロジーの二重対称性分類
Dual Symmetry Classification of Non-Hermitian Systems and $\mathbb{Z}_2$ Point-Gap Topology of a Non-Unitary Quantum Walk ( http://arxiv.org/abs/2403.04147v2 ) ライセンス: Link先を確認 | Zhiyu Jiang, Ryo Okamoto, Hideaki Obuse, | (参考訳) 非エルミート系は、エルミート系と比較してよりリッチな位相的性質を示す。
非エルミート系は、非エルミートハミルトニアンの対称性関係か、フロケ位相の文脈における非単位時間進化作用素の対称性関係のいずれかに基づいて分類されたことが知られている。
本研究では、非エルミート系をフロケ位相によらず、非エルミート系を非エルミートハミルトニアンあるいは時間進化作用素の対称性関係を用いて分類することができる。
これを二重対称性分類と呼ぶ。
これを実証するために, 2次元対称性の分類を適用した$\mathbb{Z}_2$点ギャップ位相を用いて点ギャップを示す新しい非ユニタリ量子ウォークを導入し,この量子ウォークの時間進化作用素を非エルミート・ハミルトニアンとして扱う。
Non-Hermitian systems exhibit richer topological properties compared to their Hermitian counterparts. It is well known that non-Hermitian systems have been classified based on either the symmetry relations for non-Hermitian Hamiltonians or the symmetry relations for non-unitary time-evolution operators in the context of Floquet topological phases. In this work, we propose that non-Hermitian systems can always be classified in two ways; a non-Hermitian system can be classified using the symmetry relations for non-Hermitian Hamiltonians or time-evolution operator regardless of the Floquet topological phases or not. We refer to this as dual symmetry classification. To demonstrate this, we successfully introduce a new non-unitary quantum walk that exhibits point gaps with a $\mathbb{Z}_2$ point-gap topological phase applying the dual symmetry classification and treating the time-evolution operator of this quantum walk as the non-Hermitian Hamiltonian. | 翻訳日:2024-03-18 22:04:23 公開日:2024-03-15 |
# MKF-ADS:制御領域ネットワークのための多知識融合に基づく自己教師付き異常検出システム
MKF-ADS: Multi-Knowledge Fusion Based Self-supervised Anomaly Detection System for Control Area Network ( http://arxiv.org/abs/2403.04293v2 ) ライセンス: Link先を確認 | Pengzhou Cheng, Zongru Wu, Gongshen Liu, | (参考訳) 制御エリアネットワーク(英: Control Area Network, CAN)は、車両ネットワークにおける電子制御ユニット(ECU)間の通信プロトコルである。
しかし、CANは本質的にセキュリティ上のリスクのため、厳しいセキュリティ上の課題に直面している。
侵入検知システム(IDS)は、Vehicular Electronics and Systemsの脆弱性を修復するための重要な安全コンポーネントである。
しかし、既存のIDSは複雑さの攻撃を識別できず、能力ボトルネックのため、より高い誤報を発生させる。
本稿では,MKF-ADSと呼ばれる自己教師型マルチ知識融合型異常検出モデルを提案する。
具体的には、アテンション機構(STcAM)モジュールとパッチスパース変換モジュール(PatchST)との空間時間相関を含む統合フレームワークを設計する。
微細プルーニングを伴うSTcAMは1次元畳み込み(Conv1D)を用いて空間的特徴を抽出し、次に双方向長短期記憶(Bi-LSTM)を用いて時間的特徴を抽出し、注意機構は重要な時間ステップに集中する。
一方、PatchSTは独立した単変量時系列から組み合わせたコンテキスト特徴をキャプチャする。
最後に,本提案手法は,本質的な知識を学習し,PatchSTを模倣する能力を横断する学生モデルとして,STcAMへの知識蒸留に基づいている。
我々は、様々なCANIDと時間ステップの6つのシミュレーション攻撃シナリオと、競合予測と検出性能を示す2つの実際の攻撃シナリオについて広範な実験を行った。
同じパラダイムのベースラインと比較すると、エラーレートとFARは2.62\%と2.41\%であり、97.3\%の有望なF1スコアを達成する。
Control Area Network (CAN) is an essential communication protocol that interacts between Electronic Control Units (ECUs) in the vehicular network. However, CAN is facing stringent security challenges due to innate security risks. Intrusion detection systems (IDSs) are a crucial safety component in remediating Vehicular Electronics and Systems vulnerabilities. However, existing IDSs fail to identify complexity attacks and have higher false alarms owing to capability bottleneck. In this paper, we propose a self-supervised multi-knowledge fused anomaly detection model, called MKF-ADS. Specifically, the method designs an integration framework, including spatial-temporal correlation with an attention mechanism (STcAM) module and patch sparse-transformer module (PatchST). The STcAM with fine-pruning uses one-dimensional convolution (Conv1D) to extract spatial features and subsequently utilizes the Bidirectional Long Short Term Memory (Bi-LSTM) to extract the temporal features, where the attention mechanism will focus on the important time steps. Meanwhile, the PatchST captures the combined contextual features from independent univariate time series. Finally, the proposed method is based on knowledge distillation to STcAM as a student model for learning intrinsic knowledge and cross the ability to mimic PatchST. We conduct extensive experiments on six simulation attack scenarios across various CAN IDs and time steps, and two real attack scenarios, which present a competitive prediction and detection performance. Compared with the baseline in the same paradigm, the error rate and FAR are 2.62\% and 2.41\% and achieve a promising F1-score of 97.3\%. | 翻訳日:2024-03-18 22:04:23 公開日:2024-03-15 |
# TextMonkey: ドキュメント理解のためのOCRフリー大規模マルチモーダルモデル
TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document ( http://arxiv.org/abs/2403.04473v2 ) ライセンス: Link先を確認 | Yuliang Liu, Biao Yang, Qiang Liu, Zhang Li, Zhiyin Ma, Shuo Zhang, Xiang Bai, | (参考訳) テキスト中心タスクに適した大規模マルチモーダルモデル(LMM)であるTextMonkeyを提案する。
ゼロ初期化によるシフトウィンドウアテンションの採用により、高い入力解像度でのクロスウィンドウ接続を実現し、早期訓練を安定化し、画像には冗長なトークンを含む可能性があると仮定し、重要なトークンをフィルタリングする類似性を利用することで、トークン長の合理化だけでなく、モデルの性能の向上も図っている。
さらに,テキストスポッティングとグラウンド化を包含するモデルの能力を拡張し,位置情報を応答に組み込むことで,解釈可能性を高める。
また、微調整によってスクリーンショットタスクを実行することを学ぶ。
STVQA、TextVQA、OCRVQAを含むScene Text-Centricタスクの5.2%、ドキュメント指向タスクの6.9%(DocVQA、InfoVQA、ChartVQA、DeepForm、Kleister Charity、WikiTableQuestionsなど)、キー情報抽出タスクの2.8%(FUNSD、SROIE、POIEなど)。
OCRBenchは29のOCR関連アセスメントからなる総合ベンチマークで、スコアは561で、従来のオープンソースの文書理解のための大規模なマルチモーダルモデルを上回った。
コードはhttps://github.com/Yuliang-Liu/Monkey.comでリリースされる。
We present TextMonkey, a large multimodal model (LMM) tailored for text-centric tasks. Our approach introduces enhancement across several dimensions: By adopting Shifted Window Attention with zero-initialization, we achieve cross-window connectivity at higher input resolutions and stabilize early training; We hypothesize that images may contain redundant tokens, and by using similarity to filter out significant tokens, we can not only streamline the token length but also enhance the model's performance. Moreover, by expanding our model's capabilities to encompass text spotting and grounding, and incorporating positional information into responses, we enhance interpretability. It also learns to perform screenshot tasks through finetuning. Evaluation on 12 benchmarks shows notable improvements: 5.2% in Scene Text-Centric tasks (including STVQA, TextVQA, and OCRVQA), 6.9% in Document-Oriented tasks (such as DocVQA, InfoVQA, ChartVQA, DeepForm, Kleister Charity, and WikiTableQuestions), and 2.8% in Key Information Extraction tasks (comprising FUNSD, SROIE, and POIE). It outperforms in scene text spotting with a 10.9\% increase and sets a new standard on OCRBench, a comprehensive benchmark consisting of 29 OCR-related assessments, with a score of 561, surpassing previous open-sourced large multimodal models for document understanding. Code will be released at https://github.com/Yuliang-Liu/Monkey. | 翻訳日:2024-03-18 21:54:39 公開日:2024-03-15 |
# ObjectCompose: 対象と背景の組成変化に対するビジョンベースモデルのレジリエンスの評価
ObjectCompose: Evaluating Resilience of Vision-Based Models on Object-to-Background Compositional Changes ( http://arxiv.org/abs/2403.04701v2 ) ライセンス: Link先を確認 | Hashmat Shadab Malik, Muhammad Huzaifa, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan, | (参考訳) 最近のビジョンベースモデルの大規模マルチモーダルトレーニングとその一般化能力を考えると、彼らの堅牢性の範囲を理解することは、彼らの実世界展開に不可欠である。
本研究では,現状の視覚モデルによる多様な背景背景環境に対するレジリエンスを評価する。
多くのロバスト性評価手法は、オブジェクトの特性(視点、スケール、色)の変化を誘導する合成データセットや、実際の画像上の画像変換技術(逆転、一般的な腐敗)を導入し、分布の変化をシミュレートしている。
最近の研究は、大きな言語モデルと拡散モデルを活用して、背景の変化を発生させている。
しかしながら、これらのメソッドは変更を制御できないか、オブジェクトのセマンティクスを歪めているため、タスクには適さない。
一方,本手法では,オブジェクトの本来の意味や外観を保ちながら,多様なオブジェクト間変化を誘発することができる。
この目的を達成するために、テキスト・ツー・イメージ・トゥ・テキスト、画像・ツー・セグメンテーション・モデルの生成機能を活用し、オブジェクト・ツー・バックグラウンドの幅広い変化を自動的に生成する。
我々は,テキスト・ツー・イメージ・モデルのテキスト・プロンプトの変更や,テキスト・ツー・イメージ・モデルのテキスト・エンベッドを最適化することにより,自然な背景変化と敵対的背景変化を誘導する。
これにより、ディープニューラルネットワークの堅牢性と一般化を理解する上で、バックグラウンドコンテキストの役割を定量化することができる。
標準視覚データセット(ImageNet, COCO)の様々なバージョンを作成し、多様な背景と現実的な背景を画像に組み込んだり、背景に色、テクスチャ、敵対的な変化を導入したりします。
本研究では,視覚モデルが様々なタスクにまたがるオブジェクト・ツー・バックグラウンド・コンテキストの変動に対して頑健さを解析するための広範囲な実験を行った。
Given the large-scale multi-modal training of recent vision-based models and their generalization capabilities, understanding the extent of their robustness is critical for their real-world deployment. In this work, we evaluate the resilience of current vision-based models against diverse object-to-background context variations. The majority of robustness evaluation methods have introduced synthetic datasets to induce changes to object characteristics (viewpoints, scale, color) or utilized image transformation techniques (adversarial changes, common corruptions) on real images to simulate shifts in distributions. Recent works have explored leveraging large language models and diffusion models to generate changes in the background. However, these methods either lack in offering control over the changes to be made or distort the object semantics, making them unsuitable for the task. Our method, on the other hand, can induce diverse object-to-background changes while preserving the original semantics and appearance of the object. To achieve this goal, we harness the generative capabilities of text-to-image, image-to-text, and image-to-segment models to automatically generate a broad spectrum of object-to-background changes. We induce both natural and adversarial background changes by either modifying the textual prompts or optimizing the latents and textual embedding of text-to-image models. This allows us to quantify the role of background context in understanding the robustness and generalization of deep neural networks. We produce various versions of standard vision datasets (ImageNet, COCO), incorporating either diverse and realistic backgrounds into the images or introducing color, texture, and adversarial changes in the background. We conduct extensive experiment to analyze the robustness of vision-based models against object-to-background context variations across diverse tasks. | 翻訳日:2024-03-18 21:54:39 公開日:2024-03-15 |
# DyRoNet: ストリーミング知覚のための低ランクアダプタ強化動的ルーティングネットワーク
DyRoNet: A Low-Rank Adapter Enhanced Dynamic Routing Network for Streaming Perception ( http://arxiv.org/abs/2403.05050v2 ) ライセンス: Link先を確認 | Xiang Huang, Zhi-Qi Cheng, Jun-Yan He, Chenyang Li, Wangmeng Xiang, Baigui Sun, Xiao Wu, | (参考訳) リアルタイムで正確な環境認識の追求は、自動運転技術の進化に欠かせない。
この課題に対応するために,低ランクな動的ルーティングを組み込んだ動的ルータネットワークDyRoNetを提案する。
DyRoNetは、様々な訓練済みの分岐ネットワークをシームレスに統合し、それぞれが特定の環境状況に対して微調整され、応答遅延と検出精度の最適なバランスを取る。
DyRoNetのアーキテクチャの中心はSpeed Routerモジュールであり、このモジュールはインテリジェントなルーティング機構を使用して、入力データを最も適切な分岐ネットワークに動的に割り当て、リアルタイムシナリオにおけるパフォーマンス適応性の向上を保証する。
包括的な評価を通じて、DyRoNetは既存の手法よりも優れた適応性を示し、様々な環境条件に効率よく対応し、ストリーミング認識精度と効率の新たなベンチマークを設定する。
DyRoNetは、自律運転知覚のパラダイムを確立するだけでなく、エンジニアリングの洞察も提供し、ストリーミング知覚の今後の進歩のための基盤となるフレームワークを構築している。
プロジェクトの詳細やアップデートについては、https://tastevision.github.io/DyRoNet/.com/を参照してほしい。
The quest for real-time, accurate environmental perception is pivotal in the evolution of autonomous driving technologies. In response to this challenge, we present DyRoNet, a Dynamic Router Network that innovates by incorporating low-rank dynamic routing to enhance streaming perception. DyRoNet distinguishes itself by seamlessly integrating a diverse array of specialized pre-trained branch networks, each meticulously fine-tuned for specific environmental contingencies, thus facilitating an optimal balance between response latency and detection precision. Central to DyRoNet's architecture is the Speed Router module, which employs an intelligent routing mechanism to dynamically allocate input data to the most suitable branch network, thereby ensuring enhanced performance adaptability in real-time scenarios. Through comprehensive evaluations, DyRoNet demonstrates superior adaptability and significantly improved performance over existing methods, efficiently catering to a wide variety of environmental conditions and setting new benchmarks in streaming perception accuracy and efficiency. Beyond establishing a paradigm in autonomous driving perception, DyRoNet also offers engineering insights and lays a foundational framework for future advancements in streaming perception. For further information and updates on the project, visit https://tastevision.github.io/DyRoNet/. | 翻訳日:2024-03-18 21:54:39 公開日:2024-03-15 |
# 脳ネットワークにおける因果補充に必須な外因性ノードのアルゴリズムによる同定
Algorithmic Identification of Essential Exogenous Nodes for Causal Sufficiency in Brain Networks ( http://arxiv.org/abs/2403.05407v2 ) ライセンス: Link先を確認 | Abdolmahdi Bagheri, Mahdi Dehshiri, Babak Nadjar Araabi, Alireza Akhondi Asl, | (参考訳) 脳の因果関係などの因果関係の解明において、因果関係の仮定は重要な役割を担っている。
特に、この仮定を無視すると重大なエラーが発生する可能性があり、脳ネットワークの因果解析では無視されることが多い。
本研究では,本研究における因果補充性の重要要件を満たす重要な外因性ノードを決定するためのアルゴリズム的同定手法を提案する。
まず、Peter-Clark(PC)アルゴリズムの本質を捉えることで、ネットワーク内の複数のリージョンのペアと、他のネットワークからのノードで条件付けられた同じペアの独立性テストを行います。
次に,Kolmogorov-Smirnov テストを用いて,条件付き結果と条件なし結果の違いを分析することで,候補共同創設者を識別する。
次に,NF-iVAE(Non-Factorized identible Variational Autoencoders)と相関係数指標(CCI)を用いて,これらの候補ノード内の共役変数を同定する。
本手法をヒューマン・コネクトーム・プロジェクト(HCP)映画視聴タスクデータに適用することにより,背側領域と腹側領域との相互作用は存在するものの,背側領域のみが視覚ネットワークの共同創設者として機能し,その逆も可能であることを示す。
これらの知見は神経科学的な観点から得られたものと一致している。
最後に,NF-iVAE初期化のための30個の独立したランニングテストにより,結果の信頼性を示す。
In the investigation of any causal mechanisms, such as the brain's causal networks, the assumption of causal sufficiency plays a critical role. Notably, neglecting this assumption can result in significant errors, a fact that is often disregarded in the causal analysis of brain networks. In this study, we propose an algorithmic identification approach for determining essential exogenous nodes that satisfy the critical need for causal sufficiency to adhere to it in such inquiries. Our approach consists of three main steps: First, by capturing the essence of the Peter-Clark (PC) algorithm, we conduct independence tests for pairs of regions within a network, as well as for the same pairs conditioned on nodes from other networks. Next, we distinguish candidate confounders by analyzing the differences between the conditional and unconditional results, using the Kolmogorov-Smirnov test. Subsequently, we utilize Non-Factorized identifiable Variational Autoencoders (NF-iVAE) along with the Correlation Coefficient index (CCI) metric to identify the confounding variables within these candidate nodes. Applying our method to the Human Connectome Projects (HCP) movie-watching task data, we demonstrate that while interactions exist between dorsal and ventral regions, only dorsal regions serve as confounders for the visual networks, and vice versa. These findings align consistently with those resulting from the neuroscientific perspective. Finally, we show the reliability of our results by testing 30 independent runs for NF-iVAE initialization. | 翻訳日:2024-03-18 21:54:39 公開日:2024-03-15 |
# tsGT: Transformerによる確率的時系列モデリング
tsGT: Stochastic Time Series Modeling With Transformer ( http://arxiv.org/abs/2403.05713v2 ) ライセンス: Link先を確認 | Łukasz Kuciński, Witold Drzewakowski, Mateusz Olko, Piotr Kozakowski, Łukasz Maziarka, Marta Emilia Nowakowska, Łukasz Kaiser, Piotr Miłoś, | (参考訳) 時系列法は、時間的に構造化されたデータを扱う科学のあらゆる分野において、基本的な重要性である。
近年、時系列固有のアーキテクチャバイアスを持つ決定論的トランスフォーマーモデルが急増している。
本稿では,汎用トランスアーキテクチャ上に構築された確率的時系列モデルであるtsGTを導入することで,異なる方向に進む。
我々は、よく知られた理論上正当化されたロールウィンドウバックテストと評価プロトコルの使用に焦点をあてる。
tsGT は MAD と RMSE の最先端モデルより優れており,QL と CRPS の確率的ピアよりも 4 つの一般的なデータセットで優れていることを示す。
これらの結果は、データ分布をモデル化し、限界量子値を予測するtsGTの能力を詳細に分析することで補完する。
Time series methods are of fundamental importance in virtually any field of science that deals with temporally structured data. Recently, there has been a surge of deterministic transformer models with time series-specific architectural biases. In this paper, we go in a different direction by introducing tsGT, a stochastic time series model built on a general-purpose transformer architecture. We focus on using a well-known and theoretically justified rolling window backtesting and evaluation protocol. We show that tsGT outperforms the state-of-the-art models on MAD and RMSE, and surpasses its stochastic peers on QL and CRPS, on four commonly used datasets. We complement these results with a detailed analysis of tsGT's ability to model the data distribution and predict marginal quantile values. | 翻訳日:2024-03-18 21:54:39 公開日:2024-03-15 |
# 大容量データで学習した拡散モデルは伝達可能な視覚モデルである
Diffusion Models Trained with Large Data Are Transferable Visual Models ( http://arxiv.org/abs/2403.06090v2 ) ライセンス: Link先を確認 | Guangkai Xu, Yongtao Ge, Mingyu Liu, Chengxiang Fan, Kangyang Xie, Zhiyue Zhao, Hao Chen, Chunhua Shen, | (参考訳) 拡散モデルの事前訓練されたUNet(または変換器)を用いて画像理解モデルの初期化を行うことで、モノクロ深度、表面正規化、画像分割、マッチング、人間のポーズ推定などを含む適度な量の目標データ(合成データのみ)を用いて、基本的な視覚知覚タスクにおいて顕著な伝達性能を達成することができることを示す。
従来の研究は、様々な知覚タスクに拡散モデルを適用しており、拡散プロセスに合わせてこれらのタスクを生成プロセスとして再構成することが多い。
対照的に、これらのモデルを最小限の調整で微調整することは、恥ずかしいほどシンプルで、はるかに高速であるという利点を提供する、より効果的な代替手段となり得ることを実証する。
安定拡散モデルのバックボーンネットワークは、数十億の画像からなる巨大なデータセットに基づいて訓練されるため、拡散バックボーンの非常に堅牢な一般化能力が観察される。
実験の結果、様々なタスクや実世界のデータセットにまたがる拡散モデルのバックボーンの顕著な伝達性を示した。
We show that, simply initializing image understanding models using a pre-trained UNet (or transformer) of diffusion models, it is possible to achieve remarkable transferable performance on fundamental vision perception tasks using a moderate amount of target data (even synthetic data only), including monocular depth, surface normal, image segmentation, matting, human pose estimation, among virtually many others. Previous works have adapted diffusion models for various perception tasks, often reformulating these tasks as generation processes to align with the diffusion process. In sharp contrast, we demonstrate that fine-tuning these models with minimal adjustments can be a more effective alternative, offering the advantages of being embarrassingly simple and significantly faster. As the backbone network of Stable Diffusion models is trained on giant datasets comprising billions of images, we observe very robust generalization capabilities of the diffusion backbone. Experimental results showcase the remarkable transferability of the backbone of diffusion models across diverse tasks and real-world datasets. | 翻訳日:2024-03-18 21:54:39 公開日:2024-03-15 |
# AdaNovo: 条件付き相互情報を用いたアダプティブ \emph{De Novo} ペプチドシークエンシング
AdaNovo: Adaptive \emph{De Novo} Peptide Sequencing with Conditional Mutual Information ( http://arxiv.org/abs/2403.07013v2 ) ライセンス: Link先を確認 | Jun Xia, Shaorong Chen, Jingbo Zhou, Tianze Ling, Wenjie Du, Sizhe Liu, Stan Z. Li, | (参考訳) タンデム質量分析法はプロテオミクスの進行において重要な役割を担い、生体試料中のタンパク質組成の分析を可能にした。
観察されたスペクトルに責任を持つアミノ酸配列(ペプチド)を同定するための様々な深層学習法の開発にもかかわらず、課題は 'emph{de novo} peptide sequencing' に持続する。
まず, 翻訳後修飾(PTM)によるアミノ酸の同定に苦慮し, さらにペプチドレベルの同定精度が低下した。
第二に、質量スペクトルにおける様々なノイズやピークの欠如により、トレーニングデータの信頼性が低下する(ペプチド-スペクトルマッチング、PSMs)。
これらの課題に対処するために、適応モデルトレーニングにCMIを用いて、スペクトルと各アミノ酸/ペプチド間の条件付き相互情報(CMI)を計算する新しいフレームワークであるAdaNovoを提案する。
大規模な実験では、AdaNovoが9種のベンチマークで最先端のパフォーマンスを示しており、トレーニングセットのペプチドはテストセットのペプチドとほぼ完全に解離している。
さらに、AdaNovoはアミノ酸をPTMで同定し、データノイズに対して堅牢性を示す。
補充資料には公式コードが含まれている。
Tandem mass spectrometry has played a pivotal role in advancing proteomics, enabling the analysis of protein composition in biological samples. Despite the development of various deep learning methods for identifying amino acid sequences (peptides) responsible for observed spectra, challenges persist in \emph{de novo} peptide sequencing. Firstly, prior methods struggle to identify amino acids with post-translational modifications (PTMs) due to their lower frequency in training data compared to canonical amino acids, further resulting in decreased peptide-level identification precision. Secondly, diverse types of noise and missing peaks in mass spectra reduce the reliability of training data (peptide-spectrum matches, PSMs). To address these challenges, we propose AdaNovo, a novel framework that calculates conditional mutual information (CMI) between the spectrum and each amino acid/peptide, using CMI for adaptive model training. Extensive experiments demonstrate AdaNovo's state-of-the-art performance on a 9-species benchmark, where the peptides in the training set are almost completely disjoint from the peptides of the test sets. Moreover, AdaNovo excels in identifying amino acids with PTMs and exhibits robustness against data noise. The supplementary materials contain the official code. | 翻訳日:2024-03-18 21:54:39 公開日:2024-03-15 |
# MAGPIE:表現の事前学習のためのマルチタスクメディアバイアス解析の一般化
MAGPIE: Multi-Task Media-Bias Analysis Generalization for Pre-Trained Identification of Expressions ( http://arxiv.org/abs/2403.07910v2 ) ライセンス: Link先を確認 | Tomáš Horych, Martin Wessel, Jan Philip Wahle, Terry Ruas, Jerome Waßmuth, André Greiner-Petter, Akiko Aizawa, Bela Gipp, Timo Spinde, | (参考訳) メディアバイアス検出は、伝統的に単一タスクモデルと小さなドメイン内のデータセットを使用して取り組まれてきた複雑で多面的な問題であり、結果として一般化性に欠ける。
そこで本稿では,メディアバイアス検出に適した大規模マルチタスク事前学習手法であるMAGPIEを紹介する。
本稿では,59のバイアス関連タスクのコンパイルであるLarge Bias Mixture(LBM)を提案する。
MAGPIE は Bias Annotation By Experts (BABE) データセットのメディアバイアス検出における従来の手法より優れており、相対的な改善は 3.3% F1スコアである。
MAGPIEはまた、メディアバイアス識別ベンチマーク(MBIB)の8つのタスクのうち5つのタスクにおいて、以前のモデルよりもパフォーマンスが良い。
RoBERTaエンコーダを使用すると、MAGPIEはシングルタスクアプローチに比べて15%の微調整ステップしか必要としない。
私たちの評価では、感情や感情といったタスクがすべての学習を促進し、すべてのタスクがフェイクニュースの検出を促進し、タスクのスケーリングが最良の結果につながることが示されています。
MAGPIEは、MTLがメディアバイアス検出に対処し、既存のモデルの精度と効率を高めるための有望なアプローチであることを確認した。
さらに、LBMはメディアバイアスMTLに焦点を当てた最初のリソースコレクションである。
Media bias detection poses a complex, multifaceted problem traditionally tackled using single-task models and small in-domain datasets, consequently lacking generalizability. To address this, we introduce MAGPIE, the first large-scale multi-task pre-training approach explicitly tailored for media bias detection. To enable pre-training at scale, we present Large Bias Mixture (LBM), a compilation of 59 bias-related tasks. MAGPIE outperforms previous approaches in media bias detection on the Bias Annotation By Experts (BABE) dataset, with a relative improvement of 3.3% F1-score. MAGPIE also performs better than previous models on 5 out of 8 tasks in the Media Bias Identification Benchmark (MBIB). Using a RoBERTa encoder, MAGPIE needs only 15% of finetuning steps compared to single-task approaches. Our evaluation shows, for instance, that tasks like sentiment and emotionality boost all learning, all tasks enhance fake news detection, and scaling tasks leads to the best results. MAGPIE confirms that MTL is a promising approach for addressing media bias detection, enhancing the accuracy and efficiency of existing models. Furthermore, LBM is the first available resource collection focused on media bias MTL. | 翻訳日:2024-03-18 21:54:39 公開日:2024-03-15 |
# 薬物様分子コンホメータの物理インフォームド生成モデル
Physics-informed generative model for drug-like molecule conformers ( http://arxiv.org/abs/2403.07925v2 ) ライセンス: Link先を確認 | David C. Williams, Neil Inala, | (参考訳) 共振器生成のための拡散型生成モデルを提案する。
我々のモデルは結合構造の再現に焦点をあて、古典的な力場において伝統的に見られる関連する用語から構成され、物理的に関係のある表現を確実にする。
深層学習の技法は、トレーニングセットから原子タイピングと幾何学的パラメータを推測するために用いられる。
拡散型生成の最近の進歩を生かして, コンバータサンプリングを実現する。
半経験的GFN2-xTB法で最適化された多種多様な薬物様分子の大規模な合成データセットをトレーニングすることにより、従来の知識に基づく手法よりも高い精度で結合パラメーターを得ることができる。
また、タンパク質データバンク(PDB)とケンブリッジ構造データベース(CSD)の実験構造と比較した。
We present a diffusion-based, generative model for conformer generation. Our model is focused on the reproduction of bonded structure and is constructed from the associated terms traditionally found in classical force fields to ensure a physically relevant representation. Techniques in deep learning are used to infer atom typing and geometric parameters from a training set. Conformer sampling is achieved by taking advantage of recent advancements in diffusion-based generation. By training on large, synthetic data sets of diverse, drug-like molecules optimized with the semiempirical GFN2-xTB method, high accuracy is achieved for bonded parameters, exceeding that of conventional, knowledge-based methods. Results are also compared to experimental structures from the Protein Databank (PDB) and Cambridge Structural Database (CSD). | 翻訳日:2024-03-18 21:54:39 公開日:2024-03-15 |
# 品質多様性アクター批判:価値・継承的特徴批判によるハイパフォーマンス・ディヴァージョンの学習
Quality-Diversity Actor-Critic: Learning High-Performing and Diverse Behaviors via Value and Successor Features Critics ( http://arxiv.org/abs/2403.09930v1 ) ライセンス: Link先を確認 | Luca Grillotti, Maxence Faldor, Borja G. León, Antoine Cully, | (参考訳) 知性の重要な側面は、予期せぬ状況に適応するための幅広い行動のスペクトルを示す能力である。
過去10年間で、深層強化学習の進歩は、複雑な継続的制御タスクを解決するための画期的な成果をもたらした。
しかし、ほとんどのアプローチは特定の問題に特化した1つの解しか返さない。
本稿では,QDAC(Quality-Diversity Actor-Critic)について紹介する。QDAC(Quality-Diversity Actor-Critic)とは,価値関数批判と後継機能批判を利用して,ハイパフォーマンスで多様な振る舞いを学習する,非政治アクタ批判的深層強化学習アルゴリズムである。
この枠組みでは,(1)リターンを最大化し,(2)多様なスキルを実行するために,アクターが制約付き最適化を用いて両批評家をシームレスに統一する目的を最適化する。
他の品質多様性手法と比較すると、QDACは6つの困難な連続制御ロコモーションタスクにおいて、より高いパフォーマンスとより多様な振る舞いを達成する。
また、学習したスキルを活用して、他のベースラインよりも5つの摂動環境に適応できることも示しています。
最後に質的な分析では,次のような注目すべき動作が紹介されている。
A key aspect of intelligence is the ability to demonstrate a broad spectrum of behaviors for adapting to unexpected situations. Over the past decade, advancements in deep reinforcement learning have led to groundbreaking achievements to solve complex continuous control tasks. However, most approaches return only one solution specialized for a specific problem. We introduce Quality-Diversity Actor-Critic (QDAC), an off-policy actor-critic deep reinforcement learning algorithm that leverages a value function critic and a successor features critic to learn high-performing and diverse behaviors. In this framework, the actor optimizes an objective that seamlessly unifies both critics using constrained optimization to (1) maximize return, while (2) executing diverse skills. Compared with other Quality-Diversity methods, QDAC achieves significantly higher performance and more diverse behaviors on six challenging continuous control locomotion tasks. We also demonstrate that we can harness the learned skills to adapt better than other baselines to five perturbed environments. Finally, qualitative analyses showcase a range of remarkable behaviors, available at: http://bit.ly/qdac. | 翻訳日:2024-03-18 20:56:05 公開日:2024-03-15 |
# 六面体多層グラフェンの位相周波数変換
Topological frequency conversion in rhombohedral multilayer graphene ( http://arxiv.org/abs/2403.09935v1 ) ライセンス: Link先を確認 | Étienne Lantagne-Hurtubise, Iliya Esin, Gil Refael, Frederik Nathan, | (参考訳) ロンボヘドラル多層グラフェンはトポロジカル周波数変換をサポートし, 電子のごく一部が量子化速度で2つの単色光源間でエネルギーを伝達することを示した。
これらの材料の原始的性質とゲートチューニング性は、電場に直接結合するベリー曲率とともに、トポロジカル周波数変換の実験的実現のための理想的なプラットフォームとなる。
ロンボヘドラル族の中では、ベルナル二層グラフェンは、低い散逸のため、THzスケールの用途に最も有望であると考えられる。
グラフェンの2つの谷間のキャンセルを回避し、余剰周波数を用いて散逸損失を最小限に抑える戦略について議論し、ネット増幅の潜在的経路を開拓する。
We show that rhombohedral multilayer graphene supports topological frequency conversion, whereby a fraction of electrons transfer energy between two monochromatic light sources at a quantized rate. The pristine nature and gate tunability of these materials, along with a Berry curvature that directly couples to electric fields, make them ideal platforms for the experimental realization of topological frequency conversion. Among the rhombohedral family, we find that Bernal bilayer graphene appears most promising for THz-scale applications due to lower dissipation. We discuss strategies to circumvent cancellations between the two valleys of graphene and to minimize dissipative losses using commensurate frequencies, thus opening a potential pathway for net amplification. | 翻訳日:2024-03-18 20:56:05 公開日:2024-03-15 |
# 量子化がニューラルネットワークの知覚に与える影響:視覚モデルの知覚場をどのように変えるか?
Quantization Effects on Neural Networks Perception: How would quantization change the perceptual field of vision models? ( http://arxiv.org/abs/2403.09939v1 ) ライセンス: Link先を確認 | Mohamed Amine Kerkouri, Marouane Tliba, Aladine Chetouani, Alessandro Bruno, | (参考訳) ニューラルネットワークの量子化は、リソース制約のあるデバイスにモデルをデプロイするための重要な技術である。
しかし、特にクラスアクティベーションマップ(CAM)に関するモデル知覚領域への影響は、依然として重要な研究領域である。
本研究では,視覚モデルの知覚領域における空間認識能力の定量化について検討し,CAMと様々なアーキテクチャを横断する視覚塩分マップのアライメントに光を当てた。
ImageNetから1万の画像のデータセットを活用し、VGG16、ResNet50、EfficientNet、MobileNet、SqueezeNet、DenseNetの6つの多様な基盤CNNを厳格に評価した。
これらのモデルに適用した体系的量子化手法により,CAMの微妙な変化と人間の視覚的サリエンシマップとの整合性を明らかにする。
本研究は, 各種アーキテクチャの量子化と, モデル性能と解釈可能性の両面から, 実世界の応用への意義を明らかにするものである。
この研究の主な貢献は、ニューラルネットワークの量子化に対する理解を深めることに集中し、実用的な環境で効率的で解釈可能なモデルをデプロイする上で重要な洞察を提供する。
Neural network quantization is an essential technique for deploying models on resource-constrained devices. However, its impact on model perceptual fields, particularly regarding class activation maps (CAMs), remains a significant area of investigation. In this study, we explore how quantization alters the spatial recognition ability of the perceptual field of vision models, shedding light on the alignment between CAMs and visual saliency maps across various architectures. Leveraging a dataset of 10,000 images from ImageNet, we rigorously evaluate six diverse foundational CNNs: VGG16, ResNet50, EfficientNet, MobileNet, SqueezeNet, and DenseNet. We uncover nuanced changes in CAMs and their alignment with human visual saliency maps through systematic quantization techniques applied to these models. Our findings reveal the varying sensitivities of different architectures to quantization and underscore its implications for real-world applications in terms of model performance and interpretability. The primary contribution of this work revolves around deepening our understanding of neural network quantization, providing insights crucial for deploying efficient and interpretable models in practical settings. | 翻訳日:2024-03-18 20:56:05 公開日:2024-03-15 |
# グローバル・コンバージェンス保証
Global Convergence Guarantees for Federated Policy Gradient Methods with Adversaries ( http://arxiv.org/abs/2403.09940v1 ) ライセンス: Link先を確認 | Swetha Ganesh, Jiayu Chen, Gugan Thoppe, Vaneet Aggarwal, | (参考訳) Federated Reinforcement Learning (FRL)は、複数のエージェントが生の軌跡を共有することなく、協調して意思決定ポリシーを構築することを可能にする。
しかし、これらの薬剤のごく一部が敵対的であれば、破滅的な結果をもたらす可能性がある。
本稿では,サーバに任意の値を送信可能な敵エージェントに対して堅牢なポリシー勾配に基づくアプローチを提案する。
この設定の下で、我々の結果は一般パラメトリゼーションによる最初の大域収束保証を形成する。
これらの結果は,次数$\tilde{\mathcal{O}}\left( \frac{1}{\epsilon^2} \left( \frac{1}{N-f} + \frac{f^2}{(N-f)^2}\right)\right)\right)$,$N$はエージェントの総数であり,$f$は敵エージェントの数である。
Federated Reinforcement Learning (FRL) allows multiple agents to collaboratively build a decision making policy without sharing raw trajectories. However, if a small fraction of these agents are adversarial, it can lead to catastrophic results. We propose a policy gradient based approach that is robust to adversarial agents which can send arbitrary values to the server. Under this setting, our results form the first global convergence guarantees with general parametrization. These results demonstrate resilience with adversaries, while achieving sample complexity of order $\tilde{\mathcal{O}}\left( \frac{1}{\epsilon^2} \left( \frac{1}{N-f} + \frac{f^2}{(N-f)^2}\right)\right)$, where $N$ is the total number of agents and $f$ is the number of adversarial agents. | 翻訳日:2024-03-18 20:56:05 公開日:2024-03-15 |
# 3次元脳腫瘍分離のための注意増強型ハイブリッド特徴集積ネットワーク
Attention-Enhanced Hybrid Feature Aggregation Network for 3D Brain Tumor Segmentation ( http://arxiv.org/abs/2403.09942v1 ) ライセンス: Link先を確認 | Ziya Ata Yazıcı, İlkay Öksüz, Hazım Kemal Ekenel, | (参考訳) グリオ芽腫は、早期診断と迅速な介入を必要とする非常に攻撃的で悪性な脳腫瘍である。
外観の不均一性のため、自動検出アプローチの開発は困難である。
この課題に対処するため、人工知能(AI)が主導する医療のアプローチは、脳腫瘍の効率的な診断と評価に関心を寄せている。
Brain tumor Segmentation Challenge (BraTS)は、高品質で臨床的に取得されたMRIデータを用いて、腫瘍解析の自動化技術の開発と評価を行うプラットフォームである。
提案手法では,マルチスケール,注目誘導型,ハイブリッドU-Net型モデル(GLIMS)を用いて,腫瘍(ET),腫瘍コア(TC),全腫瘍(WT)の3領域で3次元脳腫瘍セグメンテーションを行った。
マルチスケールの特徴抽出は、高解像度の文脈的特徴集約を向上し、Swin Transformerブロックは、モデルのより深いレベルでのグローバルな特徴抽出を改善する。
デコーダブランチにおけるセグメンテーションマスク生成は、重要な属性を強化するためにエンコーダブランチから収集された注意精錬された特徴によってガイドされる。
さらに、モデルを効率的にトレーニングするために階層的な監督が使用される。
その結果, WT, TC, ETで92.19, 87.75, 83.18 Dice Scores, 89.09, 84.67, 82.15 Lesion-wise Dice Scoresが得られた。
コードはhttps://github.com/yaziciz/GLIMSで公開されている。
Glioblastoma is a highly aggressive and malignant brain tumor type that requires early diagnosis and prompt intervention. Due to its heterogeneity in appearance, developing automated detection approaches is challenging. To address this challenge, Artificial Intelligence (AI)-driven approaches in healthcare have generated interest in efficiently diagnosing and evaluating brain tumors. The Brain Tumor Segmentation Challenge (BraTS) is a platform for developing and assessing automated techniques for tumor analysis using high-quality, clinically acquired MRI data. In our approach, we utilized a multi-scale, attention-guided and hybrid U-Net-shaped model -- GLIMS -- to perform 3D brain tumor segmentation in three regions: Enhancing Tumor (ET), Tumor Core (TC), and Whole Tumor (WT). The multi-scale feature extraction provides better contextual feature aggregation in high resolutions and the Swin Transformer blocks improve the global feature extraction at deeper levels of the model. The segmentation mask generation in the decoder branch is guided by the attention-refined features gathered from the encoder branch to enhance the important attributes. Moreover, hierarchical supervision is used to train the model efficiently. Our model's performance on the validation set resulted in 92.19, 87.75, and 83.18 Dice Scores and 89.09, 84.67, and 82.15 Lesion-wise Dice Scores in WT, TC, and ET, respectively. The code is publicly available at https://github.com/yaziciz/GLIMS. | 翻訳日:2024-03-18 20:46:21 公開日:2024-03-15 |
# マルコフ的および非マルコフ的マスター方程式と空洞内のキュービットの正確に解けるモデル
Markovian and non-Markovian master equations versus an exactly solvable model of a qubit in a cavity ( http://arxiv.org/abs/2403.09944v1 ) ライセンス: Link先を確認 | Zihan Xia, Juan Garcia-Nila, Daniel Lidar, | (参考訳) 量子マスター方程式は一般に開量子系の力学をモデル化するために用いられるが、その精度は正確に解けるモデルの解析解と比較されることは稀である。
本研究では, 漏洩キャビティ内の量子ビットの減衰したJaynes-Cummingsモデルとの比較を行い, 一励起部分空間で解析解が利用できることを示した。
我々は、非マルコフ的時間畳み込みマスター方程式を2階(レッドフィールド)と4階(レッドフィールド)まで、およびマルコフ的マスター方程式の3種類の種類(粗粒度、累積、標準回転波近似(RWA)リンドブラッド方程式)を考える。
これらのマスター方程式の正確な解を、インパルス、オーミック、三角形の3つの異なるスペクトル密度に対して比較する。
粗粒度マスター方程式は、マルコフ近似が有効であるような(スペクトル密度の高い高周波カットオフ$\omega_c$)弱結合または高量子周波数に対する標準RWAベースのリンドブラッドマスター方程式よりも優れていることを示す。
非マルコフ効果の存在下では、TCL近似は、マルコフ近似の妥当性の条件外でさえ短い進化時間($\omega_c^{-1}$の単位)の正確な解と密接に一致している。
長い進化時間の間、すべてのマスター方程式は、正確な解から北緯線までの距離で定量化されるように、不十分に機能する。
4階の時間畳み込みのないマスター方程式は、すべての場合において最高性能を達成する。
この結果から,短時間の限界を超えて,オープンシステム量子力学を記述するための信頼性近似法の必要性が浮き彫りになった。
Quantum master equations are commonly used to model the dynamics of open quantum systems, but their accuracy is rarely compared with the analytical solution of exactly solvable models. In this work, we perform such a comparison for the damped Jaynes-Cummings model of a qubit in a leaky cavity, for which an analytical solution is available in the one-excitation subspace. We consider the non-Markovian time-convolutionless master equation up to the second (Redfield) and fourth orders as well as three types of Markovian master equations: the coarse-grained, cumulant, and standard rotating-wave approximation (RWA) Lindblad equations. We compare the exact solution to these master equations for three different spectral densities: impulse, Ohmic, and triangular. We demonstrate that the coarse-grained master equation outperforms the standard RWA-based Lindblad master equation for weak coupling or high qubit frequency (relative to the spectral density high-frequency cutoff $\omega_c$), where the Markovian approximation is valid. In the presence of non-Markovian effects characterized by oscillatory, non-decaying behavior, the TCL approximation closely matches the exact solution for short evolution times (in units of $\omega_c^{-1}$) even outside the regime of validity of the Markovian approximations. For long evolution times, all master equations perform poorly, as quantified in terms of the trace-norm distance from the exact solution. The fourth-order time-convolutionless master equation achieves the top performance in all cases. Our results highlight the need for reliable approximation methods to describe open-system quantum dynamics beyond the short-time limit. | 翻訳日:2024-03-18 20:46:21 公開日:2024-03-15 |
# 変形性膝関節症に対するスキントランスフォーマーのグローバルセマンティックスから局所的特徴への転換
Shifting Focus: From Global Semantics to Local Prominent Features in Swin-Transformer for Knee Osteoarthritis Severity Assessment ( http://arxiv.org/abs/2403.09947v1 ) ライセンス: Link先を確認 | Aymen Sekhri, Marouane Tliba, Mohamed Amine Kerkouri, Yassine Nasser, Aladine Chetouani, Alessandro Bruno, Rachid Jennane, | (参考訳) 従来の画像診断では手動検査によるボトルネックが頻繁に発生し、遅延や不整合につながる可能性がある。
ディープラーニングは、自動化と精度の向上の道筋を提供するが、コンピュータビジョンの基本モデルは、局所的な詳細を犠牲にしてグローバルな文脈を強調することが多く、医療画像診断に欠かせない。
そこで我々は,Swin Transformerの能力を活用し,階層的な枠組みを通じて画像内の空間依存性を識別する。
我々の新しい貢献は、局所的な特徴表現を精細化し、分類器の最終的な分布に特化することにある。
この方法は、局所的な特徴が保存されるだけでなく、タスク固有の情報に富み、各階層レベルでそれらの関連性と詳細性を高める。
本手法により, 膝関節症(KOA)分類の確立した2つの評価基準を広範囲に検証し, 本モデルの有効性と精度を検証した。
これらの結果は,医用画像診断の将来へのアプローチの有効性と今後の展望を浮き彫りにするものである。
私たちの実装はhttps://github.com/mtliba/KOA_NLCS2024で利用可能です。
Conventional imaging diagnostics frequently encounter bottlenecks due to manual inspection, which can lead to delays and inconsistencies. Although deep learning offers a pathway to automation and enhanced accuracy, foundational models in computer vision often emphasize global context at the expense of local details, which are vital for medical imaging diagnostics. To address this, we harness the Swin Transformer's capacity to discern extended spatial dependencies within images through the hierarchical framework. Our novel contribution lies in refining local feature representations, orienting them specifically toward the final distribution of the classifier. This method ensures that local features are not only preserved but are also enriched with task-specific information, enhancing their relevance and detail at every hierarchical level. By implementing this strategy, our model demonstrates significant robustness and precision, as evidenced by extensive validation of two established benchmarks for Knee OsteoArthritis (KOA) grade classification. These results highlight our approach's effectiveness and its promising implications for the future of medical imaging diagnostics. Our implementation is available on https://github.com/mtliba/KOA_NLCS2024 | 翻訳日:2024-03-18 20:46:21 公開日:2024-03-15 |
# RadCLIP: コントラスト言語による事前学習による放射線画像解析の強化
RadCLIP: Enhancing Radiologic Image Analysis through Contrastive Language-Image Pre-training ( http://arxiv.org/abs/2403.09948v1 ) ライセンス: Link先を確認 | Zhixiu Lu, Hailong Li, Lili He, | (参考訳) 人工知能(AI)と放射線学の統合は、医学診断における転換期を象徴している。
放射線画像解析を強化するために、視覚基盤モデルが採用されている。
しかし、2Dおよび3Dの放射線学的データの解釈を含む放射線画像の複雑さは、一般的な非医学的画像に基づいて訓練された既存のモデルが適切に対処できないという固有の課題を生じさせる。
このギャップを埋め、医用画像診断に必要な診断精度を活かすため、X線画像解析を洗練させるためにContrastive Language- Image Pre-Training(CLIP)を利用する先駆的なクロスモーダル基盤モデルであるRadCLIPを紹介した。
RadCLIPには、ボリューム画像解析に適した新しい3Dスライスプーリング機構が組み込まれており、無線画像テキストペアの包括的で多様なデータセットを使用して訓練されている。
評価の結果,RadCLIPは,放射線画像と対応するテキストアノテーションを効果的に整合させ,その一方で,ラジオグラフィ画像の堅牢なバックボーンを有望に提供できることが示唆された。
The integration of artificial intelligence (AI) with radiology has marked a transformative era in medical diagnostics. Vision foundation models have been adopted to enhance radiologic imaging analysis. However, the distinct complexities of radiological imaging, including the interpretation of 2D and 3D radiological data, pose unique challenges that existing models, trained on general non-medical images, fail to address adequately. To bridge this gap and capitalize on the diagnostic precision required in medical imaging, we introduce RadCLIP: a pioneering cross-modal foundational model that harnesses Contrastive Language-Image Pre-training (CLIP) to refine radiologic image analysis. RadCLIP incorporates a novel 3D slice pooling mechanism tailored for volumetric image analysis and is trained using a comprehensive and diverse dataset of radiologic image-text pairs. Our evaluations demonstrate that RadCLIP effectively aligns radiological images with their corresponding textual annotations, and in the meantime, offers a robust vision backbone for radiologic imagery with significant promise. | 翻訳日:2024-03-18 20:46:21 公開日:2024-03-15 |
# SO(n)AKLT鎖のトポロジカル量子基底状態の対称性
SO(n) AKLT Chains as Symmetry Protected Topological Quantum Ground States ( http://arxiv.org/abs/2403.09951v1 ) ライセンス: Link先を確認 | Michael Ragone, | (参考訳) この理論は、自然な直交群対称性を持つ1次元量子スピン系を考える際に生じる一対の対称性保護位相(SPT)位相を研究する。
特に、基底状態が行列積の状態記述を許容し、AKLT鎖を一般化する、正確に解けるモデルの族に注意が払われる。
我々はこれらのモデルを ``$SO(n)$ AKLT chains' と呼び、それらが ``$SO(n)$ Haldane phase'' を占有する相を '`$SO(n)$ AKLT chains' と呼ぶ。
基底状態構造を記述する新しい結果と、$n$が偶数であるとき、その特異な$O(n)$-to-$SO(n)$対称性の破れを示す。
また、これらの状態は、$n$の増加により任意の相関と射影距離を持つが、いずれも2-局所親ハミルトニアン(英語版)を持ち、これらが分岐するにつれて、親ハミルトニアンの相互作用範囲が分岐すべきという自然な期待とは対照的である。
我々は、有限対称性群 $G$ に対する分裂状態に対するオガタの SPT 指数の定義をコンパクトリー群 $G$ に対する SPT 指数に拡張する。
次に、この指数を計算し、2番目のボレル群コホモロジー $H^2(SO(n,U(1))$ の値を取る。
2つの点が異なる指標を持ち、2つのSPT相が確かに異なることを確認する。
第1章では、第7章と第8章で新たな結果を発表する前に、背景情報のいくつかの章を含む、この論文の内容の詳細な概要が紹介されている。
This thesis studies a pair of symmetry protected topological (SPT) phases which arise when considering one-dimensional quantum spin systems possessing a natural orthogonal group symmetry. Particular attention is given to a family of exactly solvable models whose ground states admit a matrix product state description and generalize the AKLT chain. We call these models ``$SO(n)$ AKLT chains'' and the phase they occupy the ``$SO(n)$ Haldane phase''. We present new results describing their ground state structure and, when $n$ is even, their peculiar $O(n)$-to-$SO(n)$ symmetry breaking. We also prove that these states have arbitrarily large correlation and injectivity length by increasing $n$, but all have a 2-local parent Hamiltonian, in contrast to the natural expectation that the interaction range of a parent Hamiltonian should diverge as these quantities diverge. We extend Ogata's definition of an SPT index for a split state for a finite symmetry group $G$ to an SPT index for a compact Lie group $G$. We then compute this index, which takes values in the second Borel group cohomology $H^2(SO(n),U(1))$, at a single point in each of the SPT phases. The two points have different indices, confirming the two SPT phases are indeed distinct. Chapter 1 contains an introduction with a detailed overview of the contents of this thesis, which includes several chapters of background information before presenting new results in Chapter 7 and Chapter 8. | 翻訳日:2024-03-18 20:46:21 公開日:2024-03-15 |
# テスト時間グラフ配信シフトによるオンラインGNN評価
Online GNN Evaluation Under Test-time Graph Distribution Shifts ( http://arxiv.org/abs/2403.09953v1 ) ライセンス: Link先を確認 | Xin Zheng, Dongjin Song, Qingsong Wen, Bo Du, Shirui Pan, | (参考訳) 実世界のグラフ上でのよく訓練されたGNNモデルの性能評価は、信頼性の高いGNNオンラインデプロイメントとサービスにとって重要なステップである。
テストノードラベルの欠如と、未知のトレーニング-テストグラフデータ分散シフトのため、従来のモデル評価では、パフォーマンスメトリクス(例えば、テストエラー)の計算とグラフデータレベルの不一致(特にGNNの開発に使用されるトレーニンググラフがテスト期間中に観測されない場合)の制限に遭遇する。
本稿では、テスト時間グラフ分散シフトの下で、実世界の未ラベルグラフに効果的に一般化する、よく訓練されたGNNの能力に関する貴重な洞察を提供することを目的とした、オンラインGNN評価という新たな研究課題について検討する。
具体的には、よく訓練されたGNNモデルの試験時間一般化誤差を推定するために、LeBeDと呼ばれる効果的な学習行動差スコアを開発する。
パラメータフリー最適性基準を用いた新しいGNN再学習戦略を通じて,提案手法はノード予測と構造再構成の両方の観点から学習行動の相違を包括的に統合する。
これにより、よく訓練されたGNNがテストノードのセマンティクスと構造表現をキャプチャする能力を効果的に評価することができ、オンラインGNN評価における一般化誤差を推定するための表現的指標となる。
グラフ分布シフトの異なる実世界のテストグラフに対する大規模な実験により, 提案手法の有効性が検証され, 各種GNNモデルにおける地絡テスト誤差との強い相関が明らかとなった。
Evaluating the performance of a well-trained GNN model on real-world graphs is a pivotal step for reliable GNN online deployment and serving. Due to a lack of test node labels and unknown potential training-test graph data distribution shifts, conventional model evaluation encounters limitations in calculating performance metrics (e.g., test error) and measuring graph data-level discrepancies, particularly when the training graph used for developing GNNs remains unobserved during test time. In this paper, we study a new research problem, online GNN evaluation, which aims to provide valuable insights into the well-trained GNNs's ability to effectively generalize to real-world unlabeled graphs under the test-time graph distribution shifts. Concretely, we develop an effective learning behavior discrepancy score, dubbed LeBeD, to estimate the test-time generalization errors of well-trained GNN models. Through a novel GNN re-training strategy with a parameter-free optimality criterion, the proposed LeBeD comprehensively integrates learning behavior discrepancies from both node prediction and structure reconstruction perspectives. This enables the effective evaluation of the well-trained GNNs' ability to capture test node semantics and structural representations, making it an expressive metric for estimating the generalization error in online GNN evaluation. Extensive experiments on real-world test graphs under diverse graph distribution shifts could verify the effectiveness of the proposed method, revealing its strong correlation with ground-truth test errors on various well-trained GNN models. | 翻訳日:2024-03-18 20:46:21 公開日:2024-03-15 |
# 検索に基づく自己回帰型ニューラルネットワークの順序付きパスワード生成
Search-based Ordered Password Generation of Autoregressive Neural Networks ( http://arxiv.org/abs/2403.09954v1 ) ライセンス: Link先を確認 | Min Jin, Junbin Ye, Rongxuan Shen, Huaxing Lu, | (参考訳) パスワードは最も広く使われている認証手法であり、パスワードの解読とパスワードのセキュリティ研究に欠かせない部分である。
ディープラーニング技術の進歩は、パスワード推測の効率を改善するための有望な方法を提供する。
しかし、ニューラルネットワークパスワード推定法に関する最近の研究は、主にモデル構造に焦点を当てており、生成方法を見落としている。
サンプリングのランダム性のため、生成されたパスワードには多数の重複があるだけでなく、パスワードが生成される順序もランダムであり、非効率なパスワード攻撃につながる。
本稿では,自己回帰型ニューラルネットワークに基づくパスワード推測モデルを用いて,確率のおよそ下降順でパスワードを生成する,検索に基づく順序付きパスワード生成手法SOPGを提案する。
SOPGとランダムサンプリングの比較実験では、SOPGが生成したパスワードは繰り返されず、同じカバーレートに達すると、SOPGはランダムサンプリングよりも推論を少なくし、生成したパスワードをはるかに少なくする。
GPTに基づくパスワード推測モデルであるSOPGesGPTを構築し,SOPGを用いてパスワードを生成する。
OMEN, FLA, PassGAN, VAEPass, and the latest model PassGPT in one-site testと比較すると, SOPGesGPTは有効率とカバー率の両方においてはるかに優れていることが示された。
カバーレートは、SOPGesGPTが35.06%に達し、それぞれ254%、298%、421%、380%、81%がOMEN、FLA、PassGAN、VAEPass、PassGPTよりも高い。
Passwords are the most widely used method of authentication and password guessing is the essential part of password cracking and password security research. The progress of deep learning technology provides a promising way to improve the efficiency of password guessing. However, current research on neural network password guessing methods mostly focuses on model structure and has overlooked the generation method. Due to the randomness of sampling, not only the generated passwords have a large number of duplicates, but also the order in which passwords generated is random, leading to inefficient password attacks. In this paper, we propose SOPG, a search-based ordered password generation method, which enables the password guessing model based on autoregressive neural network to generate passwords in approximately descending order of probability. Experiment on comparison of SOPG and Random sampling shows passwords generated by SOPG do not repeat, and when they reach the same cover rate, SOPG requires fewer inferences and far fewer generated passwords than Random sampling, which brings great efficiency improvement to subsequent password attacks. We build SOPGesGPT, a password guessing model based on GPT, using SOPG to generate passwords. Compared with the most influential models OMEN, FLA, PassGAN, VAEPass and the latest model PassGPT in one-site test, experiments show that SOPGesGPT is far ahead in terms of both effective rate and cover rate. As to cover rate that everyone recognizes, SOPGesGPT reaches 35.06%, which is 254%, 298%, 421%, 380%, 81% higher than OMEN, FLA, PassGAN, VAEPass, and PassGPT respectively. | 翻訳日:2024-03-18 20:46:21 公開日:2024-03-15 |
# 開散空洞QEDにおける暗黒および明るい状態を利用した量子ゲート
Quantum gates utilizing dark and bright states in open dissipative cavity QED ( http://arxiv.org/abs/2403.09955v1 ) ライセンス: Link先を確認 | Mikhail Tokman, Jitendra Verma, Alexey Belyanin, | (参考訳) 本稿では、単一光子と量子エミッタのアンサンブルを含む開散性ナノキャビティとの相互作用に基づく量子ゲートの一般形式と具体的実装について述べる。
ナノキャビティ場に結合した量子エミッタの絡み合った明るい暗黒状態のリッチダイナミクスは、入射光子の量子状態の効率的な操作を引き起こす。
最も単純な実装では、古典的な光パルスによる量子エミッタの状態の初期準備が反射光子の偏光状態を制御する。
We present a general formalism and specific implementation of quantum gates based on interaction of single photons with open dissipative nanocavities containing ensembles of quantum emitters. Rich dynamics of entangled bright and dark states of quantum emitters coupled to a nanocavity field gives rise to efficient manipulation of the quantum state of an incident photon. In its simplest implementation, an initial preparation of the state of quantum emitters by a classical optical pulse controls the polarization state of the reflected photon. | 翻訳日:2024-03-18 20:46:21 公開日:2024-03-15 |
# 地域安定化によるランダム森林の多変量ガウス近似
Multivariate Gaussian Approximation for Random Forest via Region-based Stabilization ( http://arxiv.org/abs/2403.09960v1 ) ライセンス: Link先を確認 | Zhaoyang Shi, Chinmoy Bhattacharjee, Krishnakumar Balasubramanian, Wolfgang Polonik, | (参考訳) 我々はポアソン過程によって与えられる一連のトレーニングポイントに基づいて、データ生成過程における比較的穏やかな規則性仮定に基づいて、ランダムな森林予測のためのガウス近似境界を導出する。
我々のアプローチは、ランダムな森林予測が地域ベースの安定化と呼ばれる特定の幾何学的特性を満たすという重要な観測に基づいている。
ランダム・フォレストの結果を開発する過程では,多変量ガウス近似によるポアソン過程の一般関数に対する独立な興味を持つ確率的結果も確立する。
この一般的な結果は、マリアビン=シュタイン法を利用しており、様々な関連する統計問題に適用できる可能性がある。
We derive Gaussian approximation bounds for random forest predictions based on a set of training points given by a Poisson process, under fairly mild regularity assumptions on the data generating process. Our approach is based on the key observation that the random forest predictions satisfy a certain geometric property called region-based stabilization. In the process of developing our results for the random forest, we also establish a probabilistic result, which might be of independent interest, on multivariate Gaussian approximation bounds for general functionals of Poisson process that are region-based stabilizing. This general result makes use of the Malliavin-Stein method, and is potentially applicable to various related statistical problems. | 翻訳日:2024-03-18 20:46:21 公開日:2024-03-15 |
# 補間物理インフォームドグラフニューラルネット(InterPIGNN)を用いたアメリカ合衆国における熱地球モデルの構築
Thermal Earth Model for the Conterminous United States Using an Interpolative Physics-Informed Graph Neural Network (InterPIGNN) ( http://arxiv.org/abs/2403.09961v1 ) ライセンス: Link先を確認 | Mohammad J. Aljubran, Roland N. Horne, | (参考訳) 本研究では, 物理インフォームドグラフニューラルネットワークを用いたデータ駆動型空間補間アルゴリズムを提案する。
このモデルは,地下温度,表面熱流,岩石熱伝導率を同時に予測することにより,3次元熱伝導則をほぼ満たすよう訓練された。
ボトムホール温度測定に加えて, 深度, 地理的座標, 標高, 堆積物厚, 磁気異常, 重力異常, 放射性元素のガンマ線フラックス, 地震性, 電気伝導率などのモデル入力として, その他の物理量を組み込んだ。
表面熱流を構築し,0~7kmの深さを1km間隔で空間分解能18km$^2$の温度・熱伝導率予測を行った。
その結果, 温度, 表面熱流, 熱伝導率の平均絶対誤差は4.8{\deg} C, 5.817 mW/m$^2$, 0.022 W/(C-m)$であった。
予測はモデル深度を横断する2次元空間地図で可視化された。
この地球の熱過程の徹底的なモデリングは、地下現象を理解し、自然の地下資源を利用するために不可欠である。
This study presents a data-driven spatial interpolation algorithm based on physics-informed graph neural networks used to develop national temperature-at-depth maps for the conterminous United States. The model was trained to approximately satisfy the three-dimensional heat conduction law by simultaneously predicting subsurface temperature, surface heat flow, and rock thermal conductivity. In addition to bottomhole temperature measurements, we incorporated other physical quantities as model inputs, such as depth, geographic coordinates, elevation, sediment thickness, magnetic anomaly, gravity anomaly, gamma-ray flux of radioactive elements, seismicity, and electric conductivity. We constructed surface heat flow, and temperature and thermal conductivity predictions for depths of 0-7 km at an interval of 1 km with spatial resolution of 18 km$^2$ per grid cell. Our model showed superior temperature, surface heat flow and thermal conductivity mean absolute errors of 4.8{\deg} C, 5.817 mW/m$^2$ and 0.022 W/(C-m)$, respectively. The predictions were visualized in two-dimensional spatial maps across the modeled depths. This thorough modeling of the Earth's thermal processes is crucial to understanding subsurface phenomena and exploiting natural underground resources. | 翻訳日:2024-03-18 20:46:21 公開日:2024-03-15 |
# ViTCN:視覚変換器による推論のためのコントラストネットワーク
ViTCN: Vision Transformer Contrastive Network For Reasoning ( http://arxiv.org/abs/2403.09962v1 ) ライセンス: Link先を確認 | Bo Song, Yuanhao Xu, Yichao Wu, | (参考訳) 例えば、コンピュータビジョンモデルはオブジェクト認識において例外的な結果をもたらし、自然言語処理では、GPTのようなLarge Language Models(LLM)が人間のような習熟度で会話を始めることができる。
しかし、抽象的推論はこれらのモデルにとって依然として課題である。
まだ答えられていない質問です
レイヴン・プログレッシブ・マトリックス(Raven Progressive Matrices、RPM)は、人間の推論能力を評価するために設計された計量である。
一連の8つのイメージを問題セットとして提示し、参加者はこれらのイメージの根底にあるルールを発見し、最も最適な8つのオプションから最も適切なイメージを選択するべきである。
このタスクは、常に人間の推論能力とIQをテストするために使用される。
Zhang氏らは、機械学習モデルの抽象推論能力をテストできるRAVENと呼ばれるデータセットを提案した。
本稿では,従来のコントラスト型知覚推論ネットワーク(CoPiNet)を用いたビジョントランスフォーマーコントラストネットワークを目的とし,心理学,認知,教育のコントラスト効果を取り入れた多変量モデルRaven Progressive Matricesを新たにベンチマークし,最先端のビジョントランスフォーマーアーキテクチャを活用することにより,この基盤を拡張した。
この統合は、RAVENデータセット上のピクセルレベルの入力とグローバルワイズ機能から空間時間情報を処理し、推論するマシン能力をさらに強化することを目的としている。
Machine learning models have achieved significant milestones in various domains, for example, computer vision models have an exceptional result in object recognition, and in natural language processing, where Large Language Models (LLM) like GPT can start a conversation with human-like proficiency. However, abstract reasoning remains a challenge for these models, Can AI really thinking like a human? still be a question yet to be answered. Raven Progressive Matrices (RPM) is a metric designed to assess human reasoning capabilities. It presents a series of eight images as a problem set, where the participant should try to discover the underlying rules among these images and select the most appropriate image from eight possible options that best completes the sequence. This task always be used to test human reasoning abilities and IQ. Zhang et al proposed a dataset called RAVEN which can be used to test Machine Learning model abstract reasoning ability. In this paper, we purposed Vision Transformer Contrastive Network which build on previous work with the Contrastive Perceptual Inference network (CoPiNet), which set a new benchmark for permutationinvariant models Raven Progressive Matrices by incorporating contrast effects from psychology, cognition, and education, and extends this foundation by leveraging the cutting-edge Vision Transformer architecture. This integration aims to further refine the machine ability to process and reason about spatial-temporal information from pixel-level inputs and global wise features on RAVEN dataset. | 翻訳日:2024-03-18 20:46:21 公開日:2024-03-15 |
# プロンプトバイアスの注意! ファクチュアル知識抽出におけるプロンプトバイアスの調査と緩和
Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction ( http://arxiv.org/abs/2403.09963v1 ) ライセンス: Link先を確認 | Ziyang Xu, Keqin Peng, Liang Ding, Dacheng Tao, Xiliang Lu, | (参考訳) 近年の研究では、事前学習言語モデル(PLM)は、事実知識抽出において「急激なバイアス」、すなわち特定のラベルに対するバイアスをもたらす傾向があることが示されている。
しかしながら、モデル内の迅速なバイアスの程度と影響は、まだ未解明のままである。
そこで本研究では,様々な種類のプロンプトでバイアスを定量化し,その影響をベンチマークで評価する。
以下に示す。
1) 実験のすべてのプロンプトは無視できないバイアスを示し、AutoPromptやOptiPromptのような勾配に基づくプロンプトは、はるかに高いバイアスを示す。
2) プロンプトバイアスは、テストデータセット、特にLAMAのような不均衡なデータセットに過度に適合させることで、ベンチマークの精度を不合理に増幅することができる。
これらの知見に基づき,提案手法は推論時間における即時バイアスを軽減するための表現に基づく手法を提案する。
具体的には、まずプロンプトのみのクエリを用いてバイアス表現を推定し、それからモデルの内部表現からデバイアス表現を除去し、最終的なデバイアス出力を生成する。
様々なプロンプト, PLM, ベンチマーク実験により, 本手法は, 即時バイアスによる過度な性能の補正だけでなく, 即時検索能力(絶対性能の10%まで)を大幅に改善できることを示した。
そこで本研究では,PLMにおけるプロンプトベースのクエリの予測機構について,新たな光を当てた。
私たちのプラグイン・アンド・プレイアプローチは、信頼できる知識ベースに向けてPLMを強化するための黄金の標準になり得ることを願っています。
コードとデータはhttps://github.com/FelliYang/PromptBias.comで公開されている。
Recent research shows that pre-trained language models (PLMs) suffer from "prompt bias" in factual knowledge extraction, i.e., prompts tend to introduce biases toward specific labels. However, the extent and impact of prompt bias within the model remain underexplored. In response, this paper quantifies the bias with various types of prompts and assesses their impact on different benchmarks. We show that: 1) all prompts in the experiments exhibit non-negligible bias, with gradient-based prompts like AutoPrompt and OptiPrompt displaying significantly higher levels of bias; 2) prompt bias can amplify benchmark accuracy unreasonably by overfitting the test datasets, especially on imbalanced datasets like LAMA. Based on these findings, we propose a representation-based approach to mitigate the prompt bias during inference time. Specifically, we first estimate the biased representation using prompt-only querying, and then remove it from the model's internal representations to generate the debiased representations, which are used to produce the final debiased outputs. Experiments across various prompts, PLMs, and benchmarks show that our approach can not only correct the overfitted performance caused by prompt bias, but also significantly improve the prompt retrieval capability (up to 10% absolute performance gain). Our findings shed new light on the underlying predicting mechanisms of prompt-based queries in PLMs. Hopefully, our plug-and-play approach can be a golden standard to strengthen PLMs toward reliable knowledge bases. Code and data are released in https://github.com/FelliYang/PromptBias. | 翻訳日:2024-03-18 20:46:21 公開日:2024-03-15 |
# 肝内変形矯正における境界拘束のない生体力学的モデルに基づく表面マッチング
Boundary Constraint-free Biomechanical Model-Based Surface Matching for Intraoperative Liver Deformation Correction ( http://arxiv.org/abs/2403.09964v1 ) ライセンス: Link先を確認 | Zixin Yang, Richard Simon, Kelly Merrell, Cristian. A. Linte, | (参考訳) 画像ガイド下肝手術において, 3D-3D非剛性登録法は, 術前モデルと術中表面を点群としてマッピングし, 組織変形の課題に対処する上で重要な役割を担っている。
通常、これらの手法は有限要素モデル(FEM)として表される生体力学モデルを含み、表面整合項を正規化するために用いられる。
本稿では,新しい3D-3D非剛性登録法を提案する。
従来の手法とは対照的に,本手法は表面整合項自体にFEMを独自に組み込んで,推定変形が登録過程を通して幾何的整合性を維持することを保証している。
さらに、FEMにおけるゼロ境界条件と印加力位置を決定する必要がなくなる。
柔らかいばねを剛性マトリックスに統合し,肝臓表面全体に力を分散させることで,その実現を図っている。
強靭性をさらに向上するため, 力量勾配に着目した正則化手法を導入する。
この正規化は空間的滑らかさを課し、術中データにおける不規則ノイズの過度な適合を防ぐのに役立つ。
最適化は高速化された近位勾配アルゴリズムにより達成され、提案手法によりさらに拡張され、最適ステップサイズが決定される。
本手法は,これまでに開発したファントムから収集したデータと2つの公開データセットを用いて,FEM正則化を特徴とする学習ベース手法と従来手法の両方と比較して評価・比較を行った。
我々の手法は一貫して性能を上回り、ベースライン技術に匹敵する。
コードとデータセットの両方が公開されている。
In image-guided liver surgery, 3D-3D non-rigid registration methods play a crucial role in estimating the mapping between the preoperative model and the intraoperative surface represented as point clouds, addressing the challenge of tissue deformation. Typically, these methods incorporate a biomechanical model, represented as a finite element model (FEM), used to regularize a surface matching term. This paper introduces a novel 3D-3D non-rigid registration method. In contrast to the preceding techniques, our method uniquely incorporates the FEM within the surface matching term itself, ensuring that the estimated deformation maintains geometric consistency throughout the registration process. Additionally, we eliminate the need to determine zero-boundary conditions and applied force locations in the FEM. We achieve this by integrating soft springs into the stiffness matrix and allowing forces to be distributed across the entire liver surface. To further improve robustness, we introduce a regularization technique focused on the gradient of the force magnitudes. This regularization imposes spatial smoothness and helps prevent the overfitting of irregular noise in intraoperative data. Optimization is achieved through an accelerated proximal gradient algorithm, further enhanced by our proposed method for determining the optimal step size. Our method is evaluated and compared to both a learning-based method and a traditional method that features FEM regularization using data collected on our custom-developed phantom, as well as two publicly available datasets. Our method consistently outperforms or is comparable to the baseline techniques. Both the code and dataset will be made publicly available. | 翻訳日:2024-03-18 20:46:21 公開日:2024-03-15 |
# マルチデータフュージョンと深層学習によるパイロットエリアへの船舶到着時間予測
Prediction of Vessel Arrival Time to Pilotage Area Using Multi-Data Fusion and Deep Learning ( http://arxiv.org/abs/2403.09969v1 ) ライセンス: Link先を確認 | Xiaocai Zhang, Xiuju Fu, Zhe Xiao, Haiyan Xu, Xiaoyang Wei, Jimmy Koh, Daichi Ogawa, Zheng Qin, | (参考訳) 本稿では,マルチデータフュージョンと深層学習手法を用いて,船舶の操縦場到着時刻の予測について検討する。
まず、多変量カーネル密度推定(MKDE)とクラスタリングに基づいて、容器到着輪郭を抽出する。
第2に、自動識別システム(AIS)、操縦予約情報、気象データを含む複数のデータソースを、遅延特徴抽出の前に融合させる。
第3に、残留機構を組み込んだ一時畳み込みネットワーク(TCN)フレームワークを構築し、容器の隠れた到着パターンを学習する。
シンガポールの2つの実世界のデータセットに対する大規模な試験が行われ、以下の有望な結果が得られた。
1) パイロット予約情報と気象データの融合により、予測精度が向上し、パイロット予約情報がより大きな影響を与える。
2) 気象データに対する個別の埋め込みは, 連続的な埋め込みよりも良好である。
3)TCNは,4.58分から4.86分までの平均絶対誤差(MAE)を示す回帰作業において,最先端のベースライン法より優れている。
4) 絶対予測残差の89.41%から90.61%は10分以内である。
This paper investigates the prediction of vessels' arrival time to the pilotage area using multi-data fusion and deep learning approaches. Firstly, the vessel arrival contour is extracted based on Multivariate Kernel Density Estimation (MKDE) and clustering. Secondly, multiple data sources, including Automatic Identification System (AIS), pilotage booking information, and meteorological data, are fused before latent feature extraction. Thirdly, a Temporal Convolutional Network (TCN) framework that incorporates a residual mechanism is constructed to learn the hidden arrival patterns of the vessels. Extensive tests on two real-world data sets from Singapore have been conducted and the following promising results have been obtained: 1) fusion of pilotage booking information and meteorological data improves the prediction accuracy, with pilotage booking information having a more significant impact; 2) using discrete embedding for the meteorological data performs better than using continuous embedding; 3) the TCN outperforms the state-of-the-art baseline methods in regression tasks, exhibiting Mean Absolute Error (MAE) ranging from 4.58 min to 4.86 min; and 4) approximately 89.41% to 90.61% of the absolute prediction residuals fall within a time frame of 10 min. | 翻訳日:2024-03-18 20:46:21 公開日:2024-03-15 |
# 保証前に2回考える: 複数回答に対するリフレクションによる大規模言語モデルの信頼度推定
Think Twice Before Assure: Confidence Estimation for Large Language Models through Reflection on Multiple Answers ( http://arxiv.org/abs/2403.09972v1 ) ライセンス: Link先を確認 | Moxin Li, Wenjie Wang, Fuli Feng, Fengbin Zhu, Qifan Wang, Tat-Seng Chua, | (参考訳) 信頼度評価を目的とした信頼度推定は,大規模言語モデル(LLM),特にブラックボックスモデルの適用において重要である。
LLMの既存の信頼度推定は、その生成した誤った回答に対するLLMの過度な信頼のために調整されないのが一般的である。
過信問題に対処する既存のアプローチは、LLMが生み出す1つの回答の信頼性を単に考慮しているという重大な制限によって妨げられている。
この制限に対処するために、複数の候補回答の信頼性を徹底的に評価し、不正確な回答に対する過信を軽減する新しいパラダイムを提案する。
このパラダイムを基盤として,まず LLM に各回答の正当性を反映して提示するように指示し,さらに総合的信頼度推定のための正当性を集約する2段階の枠組みを導入する。
このフレームワークは、優れたキャリブレーションのための既存の信頼度推定手法と統合することができる。
3つのタスクの6つのデータセットに対する実験結果は、提案フレームワークの合理性と有効性を示している。
Confidence estimation aiming to evaluate output trustability is crucial for the application of large language models (LLM), especially the black-box ones. Existing confidence estimation of LLM is typically not calibrated due to the overconfidence of LLM on its generated incorrect answers. Existing approaches addressing the overconfidence issue are hindered by a significant limitation that they merely consider the confidence of one answer generated by LLM. To tackle this limitation, we propose a novel paradigm that thoroughly evaluates the trustability of multiple candidate answers to mitigate the overconfidence on incorrect answers. Building upon this paradigm, we introduce a two-step framework, which firstly instructs LLM to reflect and provide justifications for each answer, and then aggregates the justifications for comprehensive confidence estimation. This framework can be integrated with existing confidence estimation approaches for superior calibration. Experimental results on six datasets of three tasks demonstrate the rationality and effectiveness of the proposed framework. | 翻訳日:2024-03-18 20:46:21 公開日:2024-03-15 |
# Den-SOFT:6自由度没入実験のための高密度空間配向光場データセット
Den-SOFT: Dense Space-Oriented Light Field DataseT for 6-DOF Immersive Experience ( http://arxiv.org/abs/2403.09973v1 ) ライセンス: Link先を確認 | Xiaohang Yu, Zhengxian Yang, Shi Pan, Yuqi Han, Haoxiang Wang, Jun Zhang, Shi Yan, Borong Lin, Lei Yang, Tao Yu, Lu Fang, | (参考訳) 我々は,様々なシナリオに対して,高品質で十分に高密度な光フィールド画像を提供する,カスタムな移動体マルチカメラ大空間高密度光フィールドキャプチャシステムを構築した。
本研究の目的は, IBRnet, NeRF, 3次元ガウス分割などの3次元シーン再構成アルゴリズムの開発に寄与することである。
さらに重要なのは、既存のデータセットよりもはるかに密集した収集データセットが、没入型VR/AR体験のために、オブジェクト中心の3D再構成とは異なる、空間指向の光場再構成を誘発する可能性があることだ。
40台のGoPro 10カメラを使って、5K解像度の画像を撮影しました。
各シーンで撮影された写真数は1000枚以下であり、平均密度(単位球内のビュー数)は134.68である。
また,大規模な屋外シーンを効率よく撮影できるシステムも注目に値する。
大規模な空間と高密度の光場データセットの欠如に対処するため、我々は、データキャプチャプロセス中の3D再構成の分野における研究者にとって関心のある、空、反射、光、影などの要素を含めようと努力した。
最後に、提案したデータセットを3つの人気アルゴリズムで検証し、再構成された3DGS結果をUnityエンジンに統合し、我々のデータセットを活用してバーチャルリアリティ(VR)の現実性を高め、実現可能な対話空間を構築する可能性を実証した。
データセットはプロジェクトのWebサイトで公開されています。
We have built a custom mobile multi-camera large-space dense light field capture system, which provides a series of high-quality and sufficiently dense light field images for various scenarios. Our aim is to contribute to the development of popular 3D scene reconstruction algorithms such as IBRnet, NeRF, and 3D Gaussian splitting. More importantly, the collected dataset, which is much denser than existing datasets, may also inspire space-oriented light field reconstruction, which is potentially different from object-centric 3D reconstruction, for immersive VR/AR experiences. We utilized a total of 40 GoPro 10 cameras, capturing images of 5k resolution. The number of photos captured for each scene is no less than 1000, and the average density (view number within a unit sphere) is 134.68. It is also worth noting that our system is capable of efficiently capturing large outdoor scenes. Addressing the current lack of large-space and dense light field datasets, we made efforts to include elements such as sky, reflections, lights and shadows that are of interest to researchers in the field of 3D reconstruction during the data capture process. Finally, we validated the effectiveness of our provided dataset on three popular algorithms and also integrated the reconstructed 3DGS results into the Unity engine, demonstrating the potential of utilizing our datasets to enhance the realism of virtual reality (VR) and create feasible interactive spaces. The dataset is available at our project website. | 翻訳日:2024-03-18 18:48:40 公開日:2024-03-15 |
# GET: 一般化カテゴリー発見のためのCLIPのマルチモーダルポテンシャルを解き放つ
GET: Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery ( http://arxiv.org/abs/2403.09974v1 ) ライセンス: Link先を確認 | Enguang Wang, Zhimao Peng, Zhengyuan Xie, Xialei Liu, Ming-Ming Cheng, | (参考訳) 古いカテゴリと新しいカテゴリの両方を含むラベルのないデータセットが与えられたとき、一般化されたカテゴリ発見(GCD)は、ラベル付きサンプルから学んだクラス概念を活用しながら、古いクラスを正しく分類しながら、新しいクラスを正確に発見することを目的としている。
現在のGCD法では、情報の単一の視覚的モダリティしか使用せず、視覚的に類似したクラスの分類が不十分である。
ある種のクラスは視覚的に混同されているが、それらのテキスト情報は異なっており、GCDタスクにテキスト情報を導入する動機となっている。
しかし、不正なデータに対するクラス名の欠如は、テキスト情報を利用するのが現実的ではない。
この課題に対処するため,本稿ではテキスト埋め込み合成器(TES)を提案する。
具体的には、私たちのTESは、CLIPが一致した視覚言語機能を生成することができる特性を活用し、視覚的な埋め込みをCLIPのテキストエンコーダのトークンに変換して擬似テキスト埋め込みを生成する。
さらに,視覚と意味情報を相互に強化し,視覚とテキストの埋め込み空間の相互作用と融合を促進する。
提案手法は,CLIPのマルチモーダルポテンシャルを解放し,すべてのGCDベンチマークにおいてベースライン手法よりも高い精度で性能を向上し,新しい最先端技術を実現する。
コードは \url{https://github.com/enguangW/GET} でリリースされる。
Given unlabelled datasets containing both old and new categories, generalized category discovery (GCD) aims to accurately discover new classes while correctly classifying old classes, leveraging the class concepts learned from labeled samples. Current GCD methods only use a single visual modality of information, resulting in poor classification of visually similar classes. Though certain classes are visually confused, their text information might be distinct, motivating us to introduce text information into the GCD task. However, the lack of class names for unlabelled data makes it impractical to utilize text information. To tackle this challenging problem, in this paper, we propose a Text Embedding Synthesizer (TES) to generate pseudo text embeddings for unlabelled samples. Specifically, our TES leverages the property that CLIP can generate aligned vision-language features, converting visual embeddings into tokens of the CLIP's text encoder to generate pseudo text embeddings. Besides, we employ a dual-branch framework, through the joint learning and instance consistency of different modality branches, visual and semantic information mutually enhance each other, promoting the interaction and fusion of visual and text embedding space. Our method unlocks the multi-modal potentials of CLIP and outperforms the baseline methods by a large margin on all GCD benchmarks, achieving new state-of-the-art. The code will be released at \url{https://github.com/enguangW/GET}. | 翻訳日:2024-03-18 18:48:40 公開日:2024-03-15 |
# 雑音ラベルを用いた骨格に基づく人間行動認識
Skeleton-Based Human Action Recognition with Noisy Labels ( http://arxiv.org/abs/2403.09975v1 ) ライセンス: Link先を確認 | Yi Xu, Kunyu Peng, Di Wen, Ruiping Liu, Junwei Zheng, Yufan Chen, Jiaming Zhang, Alina Roitberg, Kailun Yang, Rainer Stiefelhagen, | (参考訳) 身体のポーズから人間の行動を理解することは、次の相互作用について情報と安全な決定を行うために、人間と空間を共有する補助ロボットにとって重要である。
しかし、正確な時間的局所化とアクティビティシーケンスのアノテーションは時間がかかり、その結果のラベルはうるさいことが多い。
効果的に対処しない場合、ラベルノイズはモデルのトレーニングに悪影響を及ぼし、認識品質が低下する。
その重要性にもかかわらず、骨格に基づく行動認識のためのラベルノイズへの対処は、これまで見過ごされてきた。
本研究では,このギャップを,様々な研究分野からラベルをデノベートする手法によって確立された骨格に基づく人間行動認識手法を,初期ベンチマークとして機能させるフレームワークの実装によって埋める。
観察の結果、これらの基線はスパース骨格データを扱う際の限界性能しか得られないことが判明した。
その結果,ラベルノイズの悪影響を軽減するために,グローバルなサンプル選択,コティーチング,CM-MOE(Cross-Modal Mixture-of-Experts)戦略を統合した新しい手法であるNossEraSARを導入する。
提案手法は,確立されたベンチマークの性能向上を実証し,新しい最先端標準を設定した。
この研究のソースコードはhttps://github.com/xuyizdby/NoiseEraSARで公開されます。
Understanding human actions from body poses is critical for assistive robots sharing space with humans in order to make informed and safe decisions about the next interaction. However, precise temporal localization and annotation of activity sequences is time-consuming and the resulting labels are often noisy. If not effectively addressed, label noise negatively affects the model's training, resulting in lower recognition quality. Despite its importance, addressing label noise for skeleton-based action recognition has been overlooked so far. In this study, we bridge this gap by implementing a framework that augments well-established skeleton-based human action recognition methods with label-denoising strategies from various research areas to serve as the initial benchmark. Observations reveal that these baselines yield only marginal performance when dealing with sparse skeleton data. Consequently, we introduce a novel methodology, NoiseEraSAR, which integrates global sample selection, co-teaching, and Cross-Modal Mixture-of-Experts (CM-MOE) strategies, aimed at mitigating the adverse impacts of label noise. Our proposed approach demonstrates better performance on the established benchmark, setting new state-of-the-art standards. The source code for this study will be made accessible at https://github.com/xuyizdby/NoiseEraSAR. | 翻訳日:2024-03-18 18:48:40 公開日:2024-03-15 |
# AD3: Inlicit Actionは、さまざまな視覚障害を識別する世界モデルの鍵である
AD3: Implicit Action is the Key for World Models to Distinguish the Diverse Visual Distractors ( http://arxiv.org/abs/2403.09976v1 ) ライセンス: Link先を確認 | Yucen Wang, Shenghua Wan, Le Gan, Shuai Feng, De-Chuan Zhan, | (参考訳) モデルに基づく手法は、視覚制御のためのタスク非関連な割り込み器の識別に大きく貢献している。
しかし、従来の研究では、ノイズの多いバックグラウンドビデオのような異質なイントラクタに主に焦点を当てており、制御可能なエージェントによく似ている同質なイントラクタは、ほとんど探索されていないため、既存の手法には重大な課題が生じる。
この問題に対処するために,視覚的障害の暗黙的な動作を学ぶためにImplicit Action Generator (IAG)を提案するとともに,IAGが推定した動作を利用して,分離世界モデルのトレーニングを行う暗黙的な動作インフォームド・ディバース・ディトラクタ・ディスタンス・ディスタンス・ディスタンス(AD3)と呼ばれる新しいアルゴリズムを提案する。
Inlicitアクションは、タスク関連コンポーネントの識別を支援するバックグラウンドインタラプタの挙動を効果的にキャプチャし、エージェントはタスク関連状態空間内のポリシーを最適化することができる。
そこで本手法は,異種・同種両輪のトラヒックを特徴とする様々な視覚制御タスクにおいて,優れた性能を実現する。
IAGが学習した暗黙的な行動の必要不可欠な役割も実証的に検証されている。
Model-based methods have significantly contributed to distinguishing task-irrelevant distractors for visual control. However, prior research has primarily focused on heterogeneous distractors like noisy background videos, leaving homogeneous distractors that closely resemble controllable agents largely unexplored, which poses significant challenges to existing methods. To tackle this problem, we propose Implicit Action Generator (IAG) to learn the implicit actions of visual distractors, and present a new algorithm named implicit Action-informed Diverse visual Distractors Distinguisher (AD3), that leverages the action inferred by IAG to train separated world models. Implicit actions effectively capture the behavior of background distractors, aiding in distinguishing the task-irrelevant components, and the agent can optimize the policy within the task-relevant state space. Our method achieves superior performance on various visual control tasks featuring both heterogeneous and homogeneous distractors. The indispensable role of implicit actions learned by IAG is also empirically validated. | 翻訳日:2024-03-18 18:48:40 公開日:2024-03-15 |
# EfficientVMamba:軽量ビジュアルマンバのためのアトラス選択スキャン
EfficientVMamba: Atrous Selective Scan for Light Weight Visual Mamba ( http://arxiv.org/abs/2403.09977v1 ) ライセンス: Link先を確認 | Xiaohuan Pei, Tao Huang, Chang Xu, | (参考訳) 当初、CNNとトランスフォーマーをベースとしたデザインを中心に軽量モデルの開発に取り組んでいたが、難題に直面した。
CNNは局所的な特徴抽出妥協の解決に有効であり、Transformerはグローバルリーチを提供するが、計算要求をエスカレートする$\mathcal{O}(N^2)$。
この精度と効率の間の継続的なトレードオフは、依然として大きなハードルである。
近年、Mambaのような状態空間モデル(SSM)は、言語モデリングやコンピュータビジョンといった様々なタスクにおいて優れた性能と競争力を示し、グローバル情報抽出の時間的複雑さを$\mathcal{O}(N)$に下げている。
そこで本研究では,軽量モデル設計における視覚状態空間モデルの可能性を探究し,EfficientVMambaと呼ばれる新しいモデルバリアントを導入することを提案する。
具体的には,グローバルおよびローカルの両方の表現機能を利用するように設計されたビルディングブロックを構成する,効率的なスキップサンプリングによって,アトラスに基づく選択的スキャン手法を統合する。
さらに、SSMブロックと畳み込みの統合について検討し、より効率的な視覚状態空間ブロックと追加の畳み込み分岐を導入し、モデル性能をさらに高める。
実験の結果,EfficientVMambaは計算複雑性を縮小し,様々な視覚タスクの競合結果が得られることがわかった。
例えば、1.3ドルのFLOPを持つEfficientVMamba-Sは、ImageNetで5.6\%の精度で1.5ドルのFLOPでVim-Tiを改善した。
コードは以下の通り: \url{https://github.com/TerryPei/EfficientVMamba}。
Prior efforts in light-weight model development mainly centered on CNN and Transformer-based designs yet faced persistent challenges. CNNs adept at local feature extraction compromise resolution while Transformers offer global reach but escalate computational demands $\mathcal{O}(N^2)$. This ongoing trade-off between accuracy and efficiency remains a significant hurdle. Recently, state space models (SSMs), such as Mamba, have shown outstanding performance and competitiveness in various tasks such as language modeling and computer vision, while reducing the time complexity of global information extraction to $\mathcal{O}(N)$. Inspired by this, this work proposes to explore the potential of visual state space models in light-weight model design and introduce a novel efficient model variant dubbed EfficientVMamba. Concretely, our EfficientVMamba integrates a atrous-based selective scan approach by efficient skip sampling, constituting building blocks designed to harness both global and local representational features. Additionally, we investigate the integration between SSM blocks and convolutions, and introduce an efficient visual state space block combined with an additional convolution branch, which further elevate the model performance. Experimental results show that, EfficientVMamba scales down the computational complexity while yields competitive results across a variety of vision tasks. For example, our EfficientVMamba-S with $1.3$G FLOPs improves Vim-Ti with $1.5$G FLOPs by a large margin of $5.6\%$ accuracy on ImageNet. Code is available at: \url{https://github.com/TerryPei/EfficientVMamba}. | 翻訳日:2024-03-18 18:48:40 公開日:2024-03-15 |
# 単フラッグシンドロームチェックを併用したSteane符号
Concatenated Steane code with single-flag syndrome checks ( http://arxiv.org/abs/2403.09978v1 ) ライセンス: Link先を確認 | Balint Pato, Theerapat Tansuwannont, Kenneth R. Brown, | (参考訳) 量子コンピュータの短期実装において,エラー抑制率とオーバーヘッドの低いFTECプロトコルが望ましい。
本研究では,[49,1,9]連結Steane符号のための距離保存フラグFTECプロトコルを開発した。
我々は,[Phys. A 104, 042410 (2021)] からウェイトパリティ誤り訂正(WPEC) 法を一般化し,2つのアンシラ量子ビットによるシンドローム抽出を可能にする連結ステアン符号のフラグ回路のゲート順序を求める。
FTECプロトコルは[arXiv:2306.12862]で開発されたFTECフラグの最適化ツールを用いて構築され、アイドリングノイズのない回路レベルのノイズモデルの下でシミュレートされる。
我々のシミュレーションでは、[[49,1,9]の連結されたSteane符号に対して1.64 \times 10^{-3}$の擬似閾値を与え、[[61,1,9]の6.6.6色符号に対して1.43 \times 10^{-3}$の擬似閾値よりも優れている。
これは[61,1,9]コードのパフォーマンスが向上するコードキャパシティモデルとは対照的である。
A fault-tolerant error correction (FTEC) protocol with a high error suppression rate and low overhead is very desirable for the near-term implementation of quantum computers. In this work, we develop a distance-preserving flag FTEC protocol for the [[49,1,9]] concatenated Steane code, which requires only two ancilla qubits per generator and can be implemented on a planar layout. We generalize the weight-parity error correction (WPEC) technique from [Phys. Rev. A 104, 042410 (2021)] and find a gate ordering of flag circuits for the concatenated Steane code which makes syndrome extraction with two ancilla qubits per generator possible. The FTEC protocol is constructed using the optimization tools for flag FTEC developed in [arXiv:2306.12862] and is simulated under the circuit-level noise model without idling noise. Our simulations give a pseudothreshold of $1.64 \times 10^{-3}$ for the [[49,1,9]] concatenated Steane code, which is better than a pseudothreshold of $1.43 \times 10^{-3}$ for the [[61,1,9]] 6.6.6 color code simulated under the same settings. This is in contrast to the code capacity model where the [[61,1,9]] code performs better. | 翻訳日:2024-03-18 18:48:40 公開日:2024-03-15 |
# 弱力センシングの強化におけるワンウェイスキーの量子アドバンテージ
Quantum Advantage of One-Way Squeezing in Enhancing Weak-Force Sensing ( http://arxiv.org/abs/2403.09979v1 ) ライセンス: Link先を確認 | Jie Wang, Qian Zhang, Ya-Feng Jiao, Sheng-Dian Zhang, Tian-Xiang Lu, Zhipeng Li, Cheng-Wei Qiu, Hui Jing, | (参考訳) 効率の良い光-運動結合を特徴とするキャビティ光学(COM)センサは、変位から加速度、弱い力まで様々な物理量の超高感度測定に広く用いられている。
しかし、以前の研究は主に相互COMシステムに焦点を当てていた。
本稿では、純粋量子状態における相互対称性を破り、量子COMセンサの性能をさらに向上する方法を提案する。
具体的には、回転するCOM共振器について検討し、逆方向を選択的に駆動することで、超非相互光スクイーズが出現し、従来の相互デバイスに存在しない標準量子限界を超える効率的な方法を提供することを示す。
我々の研究は、基本的な物理法則のテストから実用的な量子力学まで、様々なシステムで既に達成されている相互対称性の破れが、高度な量子センサーの能力をさらに強化するための新たな戦略として役立つことを確認している。
Cavity optomechanical (COM) sensors, featuring efficient light-motion couplings, have been widely used for ultra sensitive measurements of various physical quantities ranging from displacements to accelerations or weak forces. Previous works, however, have mainly focused on reciprocal COM systems. Here, we propose how to further improve the performance of quantum COM sensors by breaking reciprocal symmetry in purely quantum regime. Specifically, we consider a spinning COM resonator and show that by selectively driving it in opposite directions, highly nonreciprocal optical squeezing can emerge, which in turn provides an efficient way to surpass the standard quantum limit that otherwise exists in conventional reciprocal devices. Our work confirms that breaking reciprocal symmetry, already achieved in diverse systems well beyond spinning systems, can serve as a new strategy to further enhance the abilities of advanced quantum sensors, for applications ranging from testing fundamental physical laws to practical quantum metrology. | 翻訳日:2024-03-18 18:48:40 公開日:2024-03-15 |
# 表面配向ガウス平板による可制御型テキスト・ツー・3D生成
Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting ( http://arxiv.org/abs/2403.09981v1 ) ライセンス: Link先を確認 | Zhiqi Li, Yiming Chen, Lingzhe Zhao, Peidong Liu, | (参考訳) テキスト・トゥ・3Dと画像・ツー・3D生成タスクは注目されているが,その間には制御可能なテキスト・ツー・3D生成機能がある。
この課題に対処する。
1)Multi-view ControlNet(MVControl)は,エッジ,深さ,正規,スクリブルマップなどの入力条件を統合することで,既存のトレーニング済みのマルチビュー拡散モデルを強化するニューラルネットワークアーキテクチャである。
我々の革新は、入力条件画像とカメラポーズから計算される局所的およびグローバルな埋め込みを用いてベース拡散モデルを制御する条件付きモジュールの導入にある。
トレーニングが完了すると、MVControlは最適化ベースの3D生成のための3D拡散ガイダンスを提供することができる。
そして
2) 近年の大規模再構成モデルとスコア蒸留アルゴリズムの利点を生かした,効率的な多段3D生成パイプラインを提案する。
MVControlアーキテクチャを基盤として,最適化プロセスの指示に独自のハイブリッド拡散誘導手法を採用している。
効率性を追求するために、一般的に使用される暗黙の表現の代わりに、3Dガウスを表現として採用する。
我々はまた、ガウスを三角形の面に結合するハイブリッド表現SuGaRの使用の先駆者でもある。
このアプローチは、3Dガウスの幾何学の問題を緩和し、メッシュ上の微細な幾何学を直接彫刻することを可能にする。
大規模な実験により,本手法は堅牢な一般化を実現し,高品質な3Dコンテンツの制御可能な生成を可能にした。
While text-to-3D and image-to-3D generation tasks have received considerable attention, one important but under-explored field between them is controllable text-to-3D generation, which we mainly focus on in this work. To address this task, 1) we introduce Multi-view ControlNet (MVControl), a novel neural network architecture designed to enhance existing pre-trained multi-view diffusion models by integrating additional input conditions, such as edge, depth, normal, and scribble maps. Our innovation lies in the introduction of a conditioning module that controls the base diffusion model using both local and global embeddings, which are computed from the input condition images and camera poses. Once trained, MVControl is able to offer 3D diffusion guidance for optimization-based 3D generation. And, 2) we propose an efficient multi-stage 3D generation pipeline that leverages the benefits of recent large reconstruction models and score distillation algorithm. Building upon our MVControl architecture, we employ a unique hybrid diffusion guidance method to direct the optimization process. In pursuit of efficiency, we adopt 3D Gaussians as our representation instead of the commonly used implicit representations. We also pioneer the use of SuGaR, a hybrid representation that binds Gaussians to mesh triangle faces. This approach alleviates the issue of poor geometry in 3D Gaussians and enables the direct sculpting of fine-grained geometry on the mesh. Extensive experiments demonstrate that our method achieves robust generalization and enables the controllable generation of high-quality 3D content. | 翻訳日:2024-03-18 18:48:40 公開日:2024-03-15 |
# 多重軌道イオン干渉計を用いたアハロノフ-ボーム相のセンシング
Sensing Aharonov--Bohm phase using a multiply-orbiting-ion interferometer ( http://arxiv.org/abs/2403.09982v1 ) ライセンス: Link先を確認 | Ryoichi Saito, Takashi Mukaiyama, | (参考訳) 干渉計は空間的に伝播する光や物質波を用いて構築され、物理量を測定するために一般的に用いられる。
これらの測定は、異なる経路を走行する波の干渉を利用して行うことができる。
本研究では,トラップ電位の2次元円軌道内で動作するイオン物質波干渉計であるAharonov-Bohm相の新たな検出法を提案する。
電位のイオン軌道はリッサホス曲線を形成し、イオン回転の方向が逆になる。
この反転は干渉相の対応する変化をもたらす。
本研究は, 物理量測定のための干渉計の構築において, イオンの伝搬物質波を利用した最初の試みである。
干渉計のサイクロトロン運動と系の回転に対するスケール係数が一般的であることを考えると、アハロノフ-ボーム相に対する感度は約300〜rad/sである。
干渉計の進歩に加えて、我々の研究は、ジャイロスコピック応用におけるイオン物質波の利用に関する将来の研究の基礎も築いている。
Interferometers, which are built using spatially propagating light or matter waves, are commonly used to measure physical quantities. These measurements are made possible by exploiting the interference between waves traveling along different paths. This study introduces a novel approach to sensing of the Aharonov--Bohm phase, an ion matter-wave interferometer operating within a two-dimensional circular trajectory in a trap potential. The ion orbitals in the potential form Lissajous curves, causing the direction of ion rotation to reverse. This reversal results in a corresponding change in the interference phase. Our study is groundbreaking as it is the first attempt to utilize propagating matter waves of an ion in constructing an interferometer for the measurement of physical quantities. Given that the scale factor of the interferometer to the cyclotron motion and the rotation of the system is common, the sensitivity to the Aharonov--Bohm phase in this study corresponds to a rotation sensitivity of approximately 300~rad/s. Besides advancing interferometry, our work also lays the foundation for future research into the use of ion matter waves in gyroscopic applications. | 翻訳日:2024-03-18 18:48:40 公開日:2024-03-15 |
# ギグワーカーのための監視ツールの設計
Designing Sousveillance Tools for Gig Workers ( http://arxiv.org/abs/2403.09986v1 ) ライセンス: Link先を確認 | Kimberly Do, Maya De Los Santos, Michael Muller, Saiph Savage, | (参考訳) ギグワーカーは、独立して契約した従業員として、仕事に対するプレッシャーの増加、プライバシー侵害、デジタル自律性の低下など、職場監視の結果に不釣り合いに苦しんでいる。
職場の監視の悪影響にもかかわらず、ギグワーカーはこれらの害から身を守るための道具、戦略、職場の社会的支援を欠いている。
一方、批判的な理論家の中には、このような権力の乱用に対処する潜在的手段として、監視下にある者が権力者の立場で監視することを提案した者もいる(例えば、ギグワーカーは要求者やプラットフォームに関するデータを収集するなど)。
ギグ・エコノミーにおけるサスベイランス・システムのメリットを理解するため,我々はセミ構造化インタビューを行い,ギグ・ワーカーと共同設計活動を行った。
我々は「ケア倫理」を、インタビューや共同設計データを理解するための指針概念として使用し、共感的な監視技術設計レコメンデーションにも焦点を当てている。
本研究は,ギグワーカーの便宜経験に対する態度と過去の態度を明らかにするものである。
また、労働者が想像する監視技術の種類を明らかにし、デザインレコメンデーションを提供し、ギグプラットフォーム上でエンパワーメントで共感的な空間を作る方法について議論する。
As independently-contracted employees, gig workers disproportionately suffer the consequences of workplace surveillance, which include increased pressures to work, breaches of privacy, and decreased digital autonomy. Despite the negative impacts of workplace surveillance, gig workers lack the tools, strategies, and workplace social support to protect themselves against these harms. Meanwhile, some critical theorists have proposed sousveillance as a potential means of countering such abuses of power, whereby those under surveillance monitor those in positions of authority (e.g., gig workers collect data about requesters/platforms). To understand the benefits of sousveillance systems in the gig economy, we conducted semi-structured interviews and led co-design activities with gig workers. We use "care ethics" as a guiding concept to understand our interview and co-design data, while also focusing on empathic sousveillance technology design recommendations. Through our study, we identify gig workers' attitudes towards and past experiences with sousveillance. We also uncover the type of sousveillance technologies imagined by workers, provide design recommendations, and finish by discussing how to create empowering, empathic spaces on gig platforms. | 翻訳日:2024-03-18 18:48:40 公開日:2024-03-15 |
# TRG-Net:解釈可能で制御可能な降雨発電機
TRG-Net: An Interpretable and Controllable Rain Generator ( http://arxiv.org/abs/2403.09993v1 ) ライセンス: Link先を確認 | Zhiqiang Pang, Hong Wang, Qi Xie, Deyu Meng, Zongben Xu, | (参考訳) 雨水生成機構の探索とモデル化は,雨水画像処理モデルの訓練を容易にするために,ペアデータの拡張に不可欠である。
この課題に対して,本研究では,雨の基盤となる物理的発生機構を十分に考慮し,根本的降雨要因(形状,向き,長さ,幅,幅)を網羅的に学習する,新しい深層学習型降雨発生器を提案する。
その重要な点は、ジェネレータが雨の本質的な要素を精巧に設計し、従来の人工的な戦略のように予想される雨をシミュレートするだけでなく、深層学習のような複雑で多様な雨のイメージに微妙に適応することである。
フィルタパラメータ化手法を合理的に採用することにより,降雨要因に対してきめ細かな制御が可能な深層ネットワークを初めて実現し,データからこれらの因子の分布を学習することができる。
筆者らは, 提案した雨発生器による降雨が, 高品質であるだけでなく, 現状の降雨法と比較して, 降雨作業や下流作業に有効であることを実証した。
さらに, 分布内および分布外の両方を含むデータ拡張実験を行い, 分布内デラリニングおよびOOD一般化タスクにおいて, モデルが生成したサンプルの多様性を検証した。
Exploring and modeling rain generation mechanism is critical for augmenting paired data to ease training of rainy image processing models. Against this task, this study proposes a novel deep learning based rain generator, which fully takes the physical generation mechanism underlying rains into consideration and well encodes the learning of the fundamental rain factors (i.e., shape, orientation, length, width and sparsity) explicitly into the deep network. Its significance lies in that the generator not only elaborately design essential elements of the rain to simulate expected rains, like conventional artificial strategies, but also finely adapt to complicated and diverse practical rainy images, like deep learning methods. By rationally adopting filter parameterization technique, we first time achieve a deep network that is finely controllable with respect to rain factors and able to learn the distribution of these factors purely from data. Our unpaired generation experiments demonstrate that the rain generated by the proposed rain generator is not only of higher quality, but also more effective for deraining and downstream tasks compared to current state-of-the-art rain generation methods. Besides, the paired data augmentation experiments, including both in-distribution and out-of-distribution (OOD), further validate the diversity of samples generated by our model for in-distribution deraining and OOD generalization tasks. | 翻訳日:2024-03-18 18:48:40 公開日:2024-03-15 |
# 量子アドバイスでさえPPを解くことは不可能である
Even quantum advice is unlikely to solve PP ( http://arxiv.org/abs/2403.09994v1 ) ライセンス: Link先を確認 | Justin Yirka, | (参考訳) PP $\subseteq$ BQP/qpoly ならば、Aaronson CCC'06 arXiv:cs/0504048 が主張したように、カウント階層は崩壊する。
これは、PP が量子アドバイスでさえ任意の固定サイズ $n^k$ の回路を持っていないという関連する無条件の主張を回復させる。
YQP*(QMA $\cap$ coQMA)がAPPに含まれており、PP-lowも同様です。
We give a corrected proof that if PP $\subseteq$ BQP/qpoly, then the Counting Hierarchy collapses, as originally claimed by Aaronson CCC'06 arXiv:cs/0504048. This recovers the related unconditional claim that PP does not have circuits of any fixed size $n^k$ even with quantum advice. We do so by proving that YQP*, an oblivious version of (QMA $\cap$ coQMA), is contained in APP, and so is PP-low. | 翻訳日:2024-03-18 18:48:40 公開日:2024-03-15 |
# MEDPNet: 複合型ダイカストの高精度適応レジストレーションの実現
MEDPNet: Achieving High-Precision Adaptive Registration for Complex Die Castings ( http://arxiv.org/abs/2403.09996v1 ) ライセンス: Link先を確認 | Yu Du, Yu Song, Ce Guo, Xiaojing Tian, Dong Liu, Ming Cong, | (参考訳) 複雑な空間構造と多様な幾何学的特徴により、複雑なダイカストの高精度でロバストな雲の登録はダイカスト産業において大きな課題となっている。
既存のクラウド登録方法は、よく確立された高品質なデータセットを使用してネットワークモデルを最適化する。
このギャップに対処するため,本稿では,マルチスケール・エフェクシエント・ディープ・クローズスト・ポイント(MEDPNet)と呼ばれる高精度適応型登録手法を提案し,ダイキャスト・クラウド・データセットであるDieCastCloudを紹介した。
MEDPNet法は、効率的なDCP法を用いて粗大なダイカストポイントクラウドデータ登録を行い、次いでMDR法を用いて精度の高い登録を行う。
本研究では,DCPにおけるトランスフォーマーのアテンション機構を効率的な注意に置き換え,シリアルブロックと並列ブロックの組み合わせによる協調的なスケール機構を実装することにより,モデルのモデリング能力と計算効率を向上させる。
さらに,多層パーセプトロン (MLP) や正規分布変換 (NDT) ,反復閉点 (ICP) を利用するMDR法を提案し,高い精度,拡張性,耐雑音性を有するグローバルポイントクラウドの登録を可能にする。
提案手法は, 複雑なダイカスト点クラウドデータに適用した場合の, 最先端の幾何学的および学習的登録法と比較して, 優れた性能を示す。
Due to their complex spatial structure and diverse geometric features, achieving high-precision and robust point cloud registration for complex Die Castings has been a significant challenge in the die-casting industry. Existing point cloud registration methods primarily optimize network models using well-established high-quality datasets, often neglecting practical application in real scenarios. To address this gap, this paper proposes a high-precision adaptive registration method called Multiscale Efficient Deep Closest Point (MEDPNet) and introduces a die-casting point cloud dataset, DieCastCloud, specifically designed to tackle the challenges of point cloud registration in the die-casting industry. The MEDPNet method performs coarse die-casting point cloud data registration using the Efficient-DCP method, followed by precision registration using the Multiscale feature fusion dual-channel registration (MDR) method. We enhance the modeling capability and computational efficiency of the model by replacing the attention mechanism of the Transformer in DCP with Efficient Attention and implementing a collaborative scale mechanism through the combination of serial and parallel blocks. Additionally, we propose the MDR method, which utilizes multilayer perceptrons (MLP), Normal Distributions Transform (NDT), and Iterative Closest Point (ICP) to achieve learnable adaptive fusion, enabling high-precision, scalable, and noise-resistant global point cloud registration. Our proposed method demonstrates excellent performance compared to state-of-the-art geometric and learning-based registration methods when applied to complex die-casting point cloud data. | 翻訳日:2024-03-18 18:48:40 公開日:2024-03-15 |
# 家族史から健康リスクを特定する:自然言語処理技術に関する調査
Identifying Health Risks from Family History: A Survey of Natural Language Processing Techniques ( http://arxiv.org/abs/2403.09997v1 ) ライセンス: Link先を確認 | Xiang Dai, Sarvnaz Karimi, Nathan O'Callaghan, | (参考訳) 電子的な健康記録には、遺伝する可能性のある疾患や障害の歴史をカバーできる患者の状態や医療史に関する情報が含まれている。
家族の歴史情報の重要な用途は、予防措置で人口を健康に保つことを目的としている精度の健康である。
自然言語処理(NLP)や機械学習技術は、健康専門家が健康上のリスクを後年開発する前に識別し、命の節約と医療費の削減に役立てることができる。
本研究は,家族性疾患のリスクを特定するために,デジタル健康記録を活用したNLP分野の文献調査である。
ルールベースの手法は研究が盛んであり、現在も家族の歴史抽出に積極的に利用されている点を強調した。
それでも、より最近の取り組みでは、大規模で事前訓練された言語モデルに基づいたニューラルモデルの構築が試みられている。
また,NLPの活用に成功している分野に加えて,データ収集やタスクの定式化,下流アプリケーションといった患者の記録の価値を解放するために,さらなる研究が必要である分野も明らかにした。
Electronic health records include information on patients' status and medical history, which could cover the history of diseases and disorders that could be hereditary. One important use of family history information is in precision health, where the goal is to keep the population healthy with preventative measures. Natural Language Processing (NLP) and machine learning techniques can assist with identifying information that could assist health professionals in identifying health risks before a condition is developed in their later years, saving lives and reducing healthcare costs. We survey the literature on the techniques from the NLP field that have been developed to utilise digital health records to identify risks of familial diseases. We highlight that rule-based methods are heavily investigated and are still actively used for family history extraction. Still, more recent efforts have been put into building neural models based on large-scale pre-trained language models. In addition to the areas where NLP has successfully been utilised, we also identify the areas where more research is needed to unlock the value of patients' records regarding data collection, task formulation and downstream applications. | 翻訳日:2024-03-18 18:48:40 公開日:2024-03-15 |
# FBPT:完全バイナリポイント変換器
FBPT: A Fully Binary Point Transformer ( http://arxiv.org/abs/2403.09998v1 ) ライセンス: Link先を確認 | Zhixing Hou, Yuzhang Shang, Yan Yan, | (参考訳) 本稿では,ロボット工学やモバイルデバイスの分野で広く応用され拡張される可能性を持つ,FBPT(Fully Binary Point Cloud Transformer)モデルを提案する。
32ビットの完全精度ネットワークの重みとアクティベーションを1ビットのバイナリ値に圧縮することにより、提案されたバイナリポイントクラウドトランスフォーマーネットワークは、完全精度のクラウドネットワークと比較して、ポイントクラウド処理タスクのためのニューラルネットワークモデルのストレージフットプリントと計算リソース要求を著しく削減する。
しかし、タスク固有のモジュールを除く全ての部分がバイナリである完全なバイナリポイントクラウドトランスフォーマーネットワークの実現は、単純な確率分布に従わず、入力データによって変化するため、注意モジュールにおけるQ、K、Vのアクティベーションと自己アテンションの定量化において、課題とボトルネックを生じさせる。
さらに,本ネットワークでは,ソフトマックス操作後に発生する均一分布により,2次アテンションモジュールが自己アテンションモジュールの劣化を受ける。
本稿の主な焦点は、バイナリポイントクラウドトランスフォーマーモジュールの使用によるパフォーマンス劣化問題に対処することである。
動的静電ハイブリッド化と呼ばれる新しい二項化機構を提案する。
具体的には,ネットワークモデル全体の静的バイナライゼーションとデータ感度成分の微粒度動的バイナライゼーションを組み合わせる。
さらに、最適なモデルと二項化パラメータを得るために、新しい階層的学習手法を用いる。
これらの改善により、提案手法は、点雲トランスフォーマー構造を用いる場合、畳み込みニューラルネットワークに適用される双項化法より優れる。
アルゴリズムの優位性を示すために,ポイントクラウド分類と位置認識という2つの異なるタスクの実験を行った。
This paper presents a novel Fully Binary Point Cloud Transformer (FBPT) model which has the potential to be widely applied and expanded in the fields of robotics and mobile devices. By compressing the weights and activations of a 32-bit full-precision network to 1-bit binary values, the proposed binary point cloud Transformer network significantly reduces the storage footprint and computational resource requirements of neural network models for point cloud processing tasks, compared to full-precision point cloud networks. However, achieving a fully binary point cloud Transformer network, where all parts except the modules specific to the task are binary, poses challenges and bottlenecks in quantizing the activations of Q, K, V and self-attention in the attention module, as they do not adhere to simple probability distributions and can vary with input data. Furthermore, in our network, the binary attention module undergoes a degradation of the self-attention module due to the uniform distribution that occurs after the softmax operation. The primary focus of this paper is on addressing the performance degradation issue caused by the use of binary point cloud Transformer modules. We propose a novel binarization mechanism called dynamic-static hybridization. Specifically, our approach combines static binarization of the overall network model with fine granularity dynamic binarization of data-sensitive components. Furthermore, we make use of a novel hierarchical training scheme to obtain the optimal model and binarization parameters. These above improvements allow the proposed binarization method to outperform binarization methods applied to convolution neural networks when used in point cloud Transformer structures. To demonstrate the superiority of our algorithm, we conducted experiments on two different tasks: point cloud classification and place recognition. | 翻訳日:2024-03-18 18:48:40 公開日:2024-03-15 |
# 勾配解析と再構成解析による異常検出によるフェデレーション学習
Federated Learning with Anomaly Detection via Gradient and Reconstruction Analysis ( http://arxiv.org/abs/2403.10000v1 ) ライセンス: Link先を確認 | Zahir Alsulaimawi, | (参考訳) フェデレートラーニング(FL)の進化する状況において、特に厳格なプライバシー保護を要求するアプリケーションにおいて、毒殺攻撃に対するデータの完全性を保証するという課題が最重要である。
従来の異常検出戦略は、FLの分散した性質に適応するためにしばしば苦労します。
自動エンコーダ駆動のデータ再構成と勾配解析を相乗化して、前例のない精度で有毒データを検出・緩和する新しいフレームワークを提案する。
本手法は,異常勾配パターンの検出と再構成誤りの同定を一意に組み合わせ,FLモデルの安全性を著しく向上させる。
MNIST と CIFAR-10 データセットの広範な実験によって検証された本手法は,最小の偽陽性率を維持しつつ,異常検出精度を 15 % 向上させる。
この堅牢なパフォーマンスは、さまざまなデータタイプやネットワークサイズに一貫性があり、ヘルスケアやファイナンスといった重要な領域におけるFLデプロイメントの安全性に関する私たちのフレームワークの可能性を浮き彫りにしています。
FL内での異常検出のための新しいベンチマークを設定することで、我々の研究は分散学習セキュリティにおける将来の進歩の道を開くことができる。
In the evolving landscape of Federated Learning (FL), the challenge of ensuring data integrity against poisoning attacks is paramount, particularly for applications demanding stringent privacy preservation. Traditional anomaly detection strategies often struggle to adapt to the distributed nature of FL, leaving a gap our research aims to bridge. We introduce a novel framework that synergizes gradient-based analysis with autoencoder-driven data reconstruction to detect and mitigate poisoned data with unprecedented precision. Our approach uniquely combines detecting anomalous gradient patterns with identifying reconstruction errors, significantly enhancing FL model security. Validated through extensive experiments on MNIST and CIFAR-10 datasets, our method outperforms existing solutions by 15\% in anomaly detection accuracy while maintaining a minimal false positive rate. This robust performance, consistent across varied data types and network sizes, underscores our framework's potential in securing FL deployments in critical domains such as healthcare and finance. By setting new benchmarks for anomaly detection within FL, our work paves the way for future advancements in distributed learning security. | 翻訳日:2024-03-18 18:38:56 公開日:2024-03-15 |
# Visual Foundation Modelsが3Dセマンティックセグメンテーションのためのクロスモーダルな教師なしドメイン適応を強化
Visual Foundation Models Boost Cross-Modal Unsupervised Domain Adaptation for 3D Semantic Segmentation ( http://arxiv.org/abs/2403.10001v1 ) ライセンス: Link先を確認 | Jingyi Xu, Weidong Yang, Lingdong Kong, Youquan Liu, Rui Zhang, Qingyuan Zhou, Ben Fei, | (参考訳) 教師なしドメイン適応(UDA)は、3Dポイントクラウドデータのラベル付け作業の負荷軽減と、新たに定義されたドメインに直面するラベルの欠如軽減に不可欠である。
近年,クロスドメイン3Dセグメンテーションの性能向上に画像を活用する様々な手法が出現している。
しかし、ソースドメイン上でトレーニングされたモデルから生成された疑似ラベルは、その固有のノイズのために3Dセグメンテーションに使用される際には不十分であり、結果としてニューラルネットワークの精度が制限される。
2次元視覚基礎モデル(VFM)の出現と,それ以前の知識の豊富なことから,これらのモデルを活用することで,クロスモーダルな教師なしドメイン適応フレームワークをさらに強化するパイプラインVFMSegを提案する。
本研究では,VFMが学習した知識を活かして,ラベルのない対象ドメインのより正確なラベルを作成し,全体的な性能を向上させる方法について検討する。
まず,大規模画像テキストペア上で事前学習したマルチモーダルVFMを用いて,対象領域からの画像や点雲に対する教師付きラベル(VFM-PL)を提供する。
次に、微細な2Dマスクでトレーニングされた別のVFMを採用して、意味的に拡張された画像と点雲の生成をガイドし、ニューラルネットワークのパフォーマンスを向上させる。
最後に、未ラベルのターゲットドメインに対してより正確なアノテーションを生成するために、クラスワイズ予測をモダリティにマージする。
本手法は, 各種自律走行データセットを用いて評価し, 3次元セグメンテーションタスクにおいて有意な改善が得られた。
Unsupervised domain adaptation (UDA) is vital for alleviating the workload of labeling 3D point cloud data and mitigating the absence of labels when facing a newly defined domain. Various methods of utilizing images to enhance the performance of cross-domain 3D segmentation have recently emerged. However, the pseudo labels, which are generated from models trained on the source domain and provide additional supervised signals for the unseen domain, are inadequate when utilized for 3D segmentation due to their inherent noisiness and consequently restrict the accuracy of neural networks. With the advent of 2D visual foundation models (VFMs) and their abundant knowledge prior, we propose a novel pipeline VFMSeg to further enhance the cross-modal unsupervised domain adaptation framework by leveraging these models. In this work, we study how to harness the knowledge priors learned by VFMs to produce more accurate labels for unlabeled target domains and improve overall performance. We first utilize a multi-modal VFM, which is pre-trained on large scale image-text pairs, to provide supervised labels (VFM-PL) for images and point clouds from the target domain. Then, another VFM trained on fine-grained 2D masks is adopted to guide the generation of semantically augmented images and point clouds to enhance the performance of neural networks, which mix the data from source and target domains like view frustums (FrustumMixing). Finally, we merge class-wise prediction across modalities to produce more accurate annotations for unlabeled target domains. Our method is evaluated on various autonomous driving datasets and the results demonstrate a significant improvement for 3D segmentation task. | 翻訳日:2024-03-18 18:38:56 公開日:2024-03-15 |
# ST-LDM: 実画像におけるテキストグラウンドオブジェクト生成のためのユニバーサルフレームワーク
ST-LDM: A Universal Framework for Text-Grounded Object Generation in Real Images ( http://arxiv.org/abs/2403.10004v1 ) ライセンス: Link先を確認 | Xiangtian Xue, Jiasong Wu, Youyong Kong, Lotfi Senhadji, Huazhong Shu, | (参考訳) 本稿では,テキスト記述による空間的条件付き実画像に新たなオブジェクトを生成することを定義した,テキストグラウンドドオブジェクト生成(TOG)と呼ばれる新しい画像編集シナリオを提案する。
既存の拡散モデルは、複雑な現実世界のシーンにおける空間知覚の限界を示し、制約を強制するための追加のモダリティに依存し、TOGは言語情報の弱い監督の下でシーン理解により高い課題を課している。
本研究では,Swin-Transformerをベースとした汎用フレームワークST-LDMを提案する。
ST-LDMは、適応可能な圧縮スケールと階層的な視覚特徴を備えたグローバルパーセプティブオートエンコーダを含み、変形可能なマルチモーダルトランスフォーマーと平行して、その後のデノナイズプロセスの地域的ガイダンスを生成する。
マルチスケールの視覚情報と言語情報とを融合した空間的位置決めを階層的に洗練するために、変形可能な特徴アライメントを導入することで、既存の視覚的特徴のみに焦点を当てる従来の注意機構の限界を超越する。
広範実験により,拡散モデル固有の生成能力を保ちながら,注意機構の局所化が促進されることが示されている。
We present a novel image editing scenario termed Text-grounded Object Generation (TOG), defined as generating a new object in the real image spatially conditioned by textual descriptions. Existing diffusion models exhibit limitations of spatial perception in complex real-world scenes, relying on additional modalities to enforce constraints, and TOG imposes heightened challenges on scene comprehension under the weak supervision of linguistic information. We propose a universal framework ST-LDM based on Swin-Transformer, which can be integrated into any latent diffusion model with training-free backward guidance. ST-LDM encompasses a global-perceptual autoencoder with adaptable compression scales and hierarchical visual features, parallel with deformable multimodal transformer to generate region-wise guidance for the subsequent denoising process. We transcend the limitation of traditional attention mechanisms that only focus on existing visual features by introducing deformable feature alignment to hierarchically refine spatial positioning fused with multi-scale visual and linguistic information. Extensive Experiments demonstrate that our model enhances the localization of attention mechanisms while preserving the generative capabilities inherent to diffusion models. | 翻訳日:2024-03-18 18:38:56 公開日:2024-03-15 |
# 制御フロー検証によるフェデレーション学習のセキュア化: 敵攻撃に対する統合性とレジリエンスを高めるための新しいフレームワーク
Securing Federated Learning with Control-Flow Attestation: A Novel Framework for Enhanced Integrity and Resilience against Adversarial Attacks ( http://arxiv.org/abs/2403.10005v1 ) ライセンス: Link先を確認 | Zahir Alsulaimawi, | (参考訳) 分散機械学習パラダイムとしてのフェデレーテッド・ラーニング(FL)の出現は、新たなサイバーセキュリティ問題、特にモデルの完全性と参加者のプライバシを脅かす敵攻撃をもたらした。
本研究では,従来サイバーセキュリティに用いられてきた制御フロー検証(CFA)機構にヒントを得た,ソフトウェア実行の整合性を保証する革新的なセキュリティフレームワークを提案する。
FLフレームワークにデジタル署名と暗号ハッシュを統合することにより、ネットワーク全体のモデル更新の整合性を認証し、検証し、モデル中毒や敵対的干渉に関連するリスクを効果的に軽減する。
我々のアプローチは、CFAの原則をFLに適用することで、参加ノードからのコントリビューションが本物で、修正されていないことを保証し、計算効率やモデル性能を損なうことなくシステムのレジリエンスを向上させる。
ベンチマークデータセットであるMNISTとCIFAR-10の実証的な評価は、我々のフレームワークの有効性を示し、完全性検証と認証において100%の成功率と敵攻撃に対する顕著なレジリエンスを達成した。
これらの結果は、よりセキュアで信頼性が高く、プライバシを重視した分散機械学習ソリューションのための、提案されたセキュリティ強化とオープンな方法を検証する。
私たちの仕事は、サイバーセキュリティと分散機械学習の間に重要なギャップを埋め、セキュアなFLにおける将来の進歩の基盤を提供します。
The advent of Federated Learning (FL) as a distributed machine learning paradigm has introduced new cybersecurity challenges, notably adversarial attacks that threaten model integrity and participant privacy. This study proposes an innovative security framework inspired by Control-Flow Attestation (CFA) mechanisms, traditionally used in cybersecurity, to ensure software execution integrity. By integrating digital signatures and cryptographic hashing within the FL framework, we authenticate and verify the integrity of model updates across the network, effectively mitigating risks associated with model poisoning and adversarial interference. Our approach, novel in its application of CFA principles to FL, ensures contributions from participating nodes are authentic and untampered, thereby enhancing system resilience without compromising computational efficiency or model performance. Empirical evaluations on benchmark datasets, MNIST and CIFAR-10, demonstrate our framework's effectiveness, achieving a 100\% success rate in integrity verification and authentication and notable resilience against adversarial attacks. These results validate the proposed security enhancements and open avenues for more secure, reliable, and privacy-conscious distributed machine learning solutions. Our work bridges a critical gap between cybersecurity and distributed machine learning, offering a foundation for future advancements in secure FL. | 翻訳日:2024-03-18 18:38:56 公開日:2024-03-15 |
# 協調問題解決における効果的なグループ形成のためのグラフ強化強化学習
Graph Enhanced Reinforcement Learning for Effective Group Formation in Collaborative Problem Solving ( http://arxiv.org/abs/2403.10006v1 ) ライセンス: Link先を確認 | Zheng Fang, Fucai Ke, Jae Young Han, Zhijie Feng, Toby Cai, | (参考訳) 本研究では,協調的問題解決環境における効果的なグループ形成の課題に対処する。
人的相互作用の複雑さと効率的な協調の必要性を認識し,グラフ理論と強化学習を活用した新しいアプローチを提案する。
我々の手法は、ノードが参加者を表すデータセットからグラフを構築し、エッジはそれらの間の相互作用を表す。
我々は,各参加者を強化学習フレームワーク内のエージェントとして概念化し,効果的なグループダイナミクスを反映した最適なグラフ構造を学習することを目的とした。
クラスタリング技術は、学習したグラフに基づいて明確なグループ構造を記述するために使用される。
提案手法は,評価指標とグラフ測定に基づく理論的解を提供し,グループの有効性の潜在的な改善と競合の発生率の低減に関する洞察を提供する。
本研究は,グループ形成に対するデータ駆動型分析的アプローチを提示することにより,協調作業と教育心理学の分野に寄与する。
それは、組織チームの構築、教室の設定、そしてグループのダイナミクスが不可欠であるあらゆる共同シナリオに、実践的な意味を持っています。
この研究は、グラフ理論と強化学習を社会科学や行動科学に適用するための新たな道を開き、将来の研究における実証的検証の可能性を強調している。
This study addresses the challenge of forming effective groups in collaborative problem-solving environments. Recognizing the complexity of human interactions and the necessity for efficient collaboration, we propose a novel approach leveraging graph theory and reinforcement learning. Our methodology involves constructing a graph from a dataset where nodes represent participants, and edges signify the interactions between them. We conceptualize each participant as an agent within a reinforcement learning framework, aiming to learn an optimal graph structure that reflects effective group dynamics. Clustering techniques are employed to delineate clear group structures based on the learned graph. Our approach provides theoretical solutions based on evaluation metrics and graph measurements, offering insights into potential improvements in group effectiveness and reductions in conflict incidences. This research contributes to the fields of collaborative work and educational psychology by presenting a data-driven, analytical approach to group formation. It has practical implications for organizational team building, classroom settings, and any collaborative scenario where group dynamics are crucial. The study opens new avenues for exploring the application of graph theory and reinforcement learning in social and behavioral sciences, highlighting the potential for empirical validation in future work. | 翻訳日:2024-03-18 18:38:56 公開日:2024-03-15 |
# 時空間SAM適応による心磁気共鳴2D+T短軸・長軸セグメンテーション
Cardiac Magnetic Resonance 2D+T Short- and Long-axis Segmentation via Spatio-temporal SAM Adaptation ( http://arxiv.org/abs/2403.10009v1 ) ライセンス: Link先を確認 | Zhennong Chen, Sekeun Kim, Hui Ren, Quanzheng Li, Xiang Li, | (参考訳) 心臓磁気共鳴(CMR)スキャンにおける正確な2D+T心筋セグメンテーションは、心循環中におけるLV運動を包括的に解析するために不可欠である。
Segment Anything Model (SAM) は正確なセグメンテーションとゼロショットの一般化で知られており、CMR 2D+Tセグメンテーションには未対応である。
そこで,時空間適応を用いたCMR2D+Tセグメンテーションのための新しいアプローチであるCMR2D+T-SAMを導入する。
このアプローチには、マルチスケールの特徴抽出のためのU-Netフレームワークや、単一モデルを用いた短軸(SAX)と長軸(LAX)の両方のビューの正確なセグメンテーションのためのテキストプロンプトも組み込まれている。
CMR2D+T-SAMは、STACOM2011データセット上の既存のディープラーニング手法より優れており、心筋Diceスコアは0.885、ハウスドルフ距離は2.900ピクセルである。
また、Diceスコアが0.840、HDが4.076ピクセルのACDCデータセット上で優れたゼロショットの一般化を示す。
Accurate 2D+T myocardium segmentation in cine cardiac magnetic resonance (CMR) scans is essential to analyze LV motion throughout the cardiac cycle comprehensively. The Segment Anything Model (SAM), known for its accurate segmentation and zero-shot generalization, has not yet been tailored for CMR 2D+T segmentation. We therefore introduce CMR2D+T-SAM, a novel approach to adapt SAM for CMR 2D+T segmentation using spatio-temporal adaption. This approach also incorporates a U-Net framework for multi-scale feature extraction, as well as text prompts for accurate segmentation on both short-axis (SAX) and long-axis (LAX) views using a single model. CMR2D+T-SAM outperforms existing deep learning methods on the STACOM2011 dataset, achieving a myocardium Dice score of 0.885 and a Hausdorff distance (HD) of 2.900 pixels. It also demonstrates superior zero-shot generalization on the ACDC dataset with a Dice score of 0.840 and a HD of 4.076 pixels. | 翻訳日:2024-03-18 18:38:56 公開日:2024-03-15 |
# 量子化ドメインミキシング表現による実世界の計算収差補正
Real-World Computational Aberration Correction via Quantized Domain-Mixing Representation ( http://arxiv.org/abs/2403.10012v1 ) ライセンス: Link先を確認 | Qi Jiang, Zhonghua Yi, Shaohua Gao, Yao Gao, Xiaolong Qian, Hao Shi, Lei Sun, Zhijie Xu, Kailun Yang, Kaiwei Wang, | (参考訳) ペア合成データに基づいて、既存の学習ベースのComputational Aberration Correction (CAC) 法は、複雑で多面的な合成ドメイン間ギャップに直面し、現実世界のアプリケーションでは準最適性能をもたらす。
本稿では,シミュレーションパイプラインの改善とは対照的に,Unsupervised Domain Adaptation(UDA)の観点から,実世界のCACに関する新たな知見を提供する。
アクセシブルな実世界のデータをトレーニングに組み込むことで、ドメイン適応型CAC(DACAC)タスクを形式化し、それをベンチマークするための総合現実世界の収差画像(Realab)データセットを導入します。
設定タスクは、目標収差領域を理解するのが難しいため、非常に難しい課題となる。
そこで本研究では,QDMR(Quntized Domain-Mixing Representation)フレームワークを提案する。
QDMRは、CACモデルをターゲットドメインに適応させ、(1)VQGANによって両方のドメインの収差画像の再構成を行い、劣化認識を特徴付けるDomain-Mixing Codebook(DMC)を学習し、(2)CACモデルの深い特徴をDMCで調整してターゲットドメインの知識を伝達し、(3)訓練されたVQGANを利用してソースドメインから偽の目標収差画像を生成し、ターゲットドメインの監視を説得する。
総合的および実世界のベンチマークの広範な実験により、QDMRのモデルは合成と現実のギャップを緩和する競争手法を一貫して上回り、視覚的に快適な実世界のCACの結果は少ないアーティファクトで得られていることが明らかとなった。
コードとデータセットは公開されます。
Relying on paired synthetic data, existing learning-based Computational Aberration Correction (CAC) methods are confronted with the intricate and multifaceted synthetic-to-real domain gap, which leads to suboptimal performance in real-world applications. In this paper, in contrast to improving the simulation pipeline, we deliver a novel insight into real-world CAC from the perspective of Unsupervised Domain Adaptation (UDA). By incorporating readily accessible unpaired real-world data into training, we formalize the Domain Adaptive CAC (DACAC) task, and then introduce a comprehensive Real-world aberrated images (Realab) dataset to benchmark it. The setup task presents a formidable challenge due to the intricacy of understanding the target aberration domain. To this intent, we propose a novel Quntized Domain-Mixing Representation (QDMR) framework as a potent solution to the issue. QDMR adapts the CAC model to the target domain from three key aspects: (1) reconstructing aberrated images of both domains by a VQGAN to learn a Domain-Mixing Codebook (DMC) which characterizes the degradation-aware priors; (2) modulating the deep features in CAC model with DMC to transfer the target domain knowledge; and (3) leveraging the trained VQGAN to generate pseudo target aberrated images from the source ones for convincing target domain supervision. Extensive experiments on both synthetic and real-world benchmarks reveal that the models with QDMR consistently surpass the competitive methods in mitigating the synthetic-to-real gap, which produces visually pleasant real-world CAC results with fewer artifacts. Codes and datasets will be made publicly available. | 翻訳日:2024-03-18 18:38:56 公開日:2024-03-15 |
# LyZNet - 神経リプノフ関数の学習と検証のための軽量Pythonツール
LyZNet: A Lightweight Python Tool for Learning and Verifying Neural Lyapunov Functions and Regions of Attraction ( http://arxiv.org/abs/2403.10013v1 ) ライセンス: Link先を確認 | Jun Liu, Yiming Meng, Maxwell Fitzsimmons, Ruikun Zhou, | (参考訳) 本稿では、安定解析のためのニューラルネットワークリアプノフ関数の統合学習と検証を提供する軽量Pythonフレームワークについて述べる。
提案手法はLyZNetと呼ばれ,物理インフォームドニューラルネットワーク(PINN)を用いてニューラルリアプノフ関数を学習し,Zubovの方程式を解き,満足度変調理論(SMT)を用いて検証する。
このツールと文学における他のツールとの違いは、アトラクションの領域に近いアトラクションの検証された領域を提供する能力である。
これは、ズボフ偏微分方程式(PDE)をPINNアプローチに符号化することで達成される。
基礎となる最適化問題の非凸性を受け入れることで、半定値プログラミングのような凸最適化がアトラクション領域のキャプチャに失敗した場合、ニューラルネットワークフレームワークがより成功していることを示す。
このツールはまた、結合された非線形システムの合成検証のための低次元サブシステムのネットワークへの自動分解も提供する。
本稿では,非自明な低次元非線形システムと高次元システムの両方を含むいくつかの数値例を用いて,ツールの使用状況と有効性を説明する。
ツールのリポジトリはhttps://git.uwaterloo.ca/hybrid-systems-lab/lyznetにある。
In this paper, we describe a lightweight Python framework that provides integrated learning and verification of neural Lyapunov functions for stability analysis. The proposed tool, named LyZNet, learns neural Lyapunov functions using physics-informed neural networks (PINNs) to solve Zubov's equation and verifies them using satisfiability modulo theories (SMT) solvers. What distinguishes this tool from others in the literature is its ability to provide verified regions of attraction close to the domain of attraction. This is achieved by encoding Zubov's partial differential equation (PDE) into the PINN approach. By embracing the non-convex nature of the underlying optimization problems, we demonstrate that in cases where convex optimization, such as semidefinite programming, fails to capture the domain of attraction, our neural network framework proves more successful. The tool also offers automatic decomposition of coupled nonlinear systems into a network of low-dimensional subsystems for compositional verification. We illustrate the tool's usage and effectiveness with several numerical examples, including both non-trivial low-dimensional nonlinear systems and high-dimensional systems. The repository of the tool can be found at https://git.uwaterloo.ca/hybrid-systems-lab/lyznet. | 翻訳日:2024-03-18 18:38:56 公開日:2024-03-15 |
# NNCTC:ニューラルネットワークによる物理層間通信
NNCTC: Physical Layer Cross-Technology Communication via Neural Networks ( http://arxiv.org/abs/2403.10014v1 ) ライセンス: Link先を確認 | Haoyu Wang, Jiazhao Wang, Demin Gao, Wenchao Jiang, | (参考訳) クロステクノロジー通信(CTC)は、多様な無線技術間のシームレスな相互作用を可能にする。
既存の作業の多くは、送信経路を反転して適切なペイロードを特定し、ターゲットデバイスが認識できる波形を生成することに基づいている。
しかし、この手法には、特定の技術への依存や、歪みを軽減するための複雑なアルゴリズムの必要性など、多くの制限がある。
本研究では,無線通信におけるトレーニング可能なニューラルモデルの適応性に触発されたニューラルネットワークベースのクロステクノロジー通信フレームワークであるNCTCを紹介する。
CTCパイプライン内の信号処理コンポーネントをニューラルモデルに変換することで、NCTCはラベル付きデータを必要としないエンドツーエンドのトレーニング用に設計されている。
これにより、NCTCシステムは最適なCTCペイロードを自律的に導出することができ、開発複雑性を大幅に緩和し、様々なCTCリンクのスケーラビリティの可能性を示す。
特に,Wi-FiからZigBeeへのCTCシステムを構築する。
NNCTCシステムは、よく認識されたWEBeeとWIDEの設計をエラー性能で上回り、平均パケット受信率(PRR)は92.3%、平均シンボルエラー率(SER)は1.3%である。
Cross-technology communication(CTC) enables seamless interactions between diverse wireless technologies. Most existing work is based on reversing the transmission path to identify the appropriate payload to generate the waveform that the target devices can recognize. However, this method suffers from many limitations, including dependency on specific technologies and the necessity for intricate algorithms to mitigate distortion. In this work, we present NNCTC, a Neural-Network-based Cross-Technology Communication framework inspired by the adaptability of trainable neural models in wireless communications. By converting signal processing components within the CTC pipeline into neural models, the NNCTC is designed for end-to-end training without requiring labeled data. This enables the NNCTC system to autonomously derive the optimal CTC payload, which significantly eases the development complexity and showcases the scalability potential for various CTC links. Particularly, we construct a CTC system from Wi-Fi to ZigBee. The NNCTC system outperforms the well-recognized WEBee and WIDE design in error performance, achieving an average packet reception rate(PRR) of 92.3% and an average symbol error rate(SER) as low as 1.3%. | 翻訳日:2024-03-18 18:38:56 公開日:2024-03-15 |
# 点集合分類のための線形最適輸送部分空間
Linear optimal transport subspaces for point set classification ( http://arxiv.org/abs/2403.10015v1 ) ライセンス: Link先を確認 | Mohammad Shifat E Rabbi, Naqib Sad Pathan, Shiying Li, Yan Zhuang, Abu Hasnat Mohammad Rubaiyat, Gustavo K Rohde, | (参考訳) 点集合からの学習は多くのコンピュータビジョンや機械学習アプリケーションにおいて必須の要素である。
ネイティブ、非順序、置換不変な集合構造空間は、特に空間的変形の下での点集合分類のモデル化が困難である。
本稿では,ある種類の空間的変形を示す点集合を分類する枠組みを提案し,特にアフィン変形を特徴とするデータセットに着目した。
提案手法では,Linear Optimal Transport (LOT) 変換を用いて,集合構造データの線形埋め込みを求める。
LOT変換の数学的特性を利用して、凸データ空間を構築し、点集合の分類問題を効果的に単純化することにより、点集合の変動に対応する能力を示す。
提案手法は,LOT空間に最も近い部分空間アルゴリズムを用いて,ラベル効率,非定常挙動を実証し,ハイパーパラメータチューニングを必要としない。
様々な点集合分類タスクにおける最先端の手法と比較して、競争力のある精度を達成する。
さらに,本手法は,変形の程度によってトレーニングやテストの分布が変化する,分布外シナリオにおいて頑健性を示す。
Learning from point sets is an essential component in many computer vision and machine learning applications. Native, unordered, and permutation invariant set structure space is challenging to model, particularly for point set classification under spatial deformations. Here we propose a framework for classifying point sets experiencing certain types of spatial deformations, with a particular emphasis on datasets featuring affine deformations. Our approach employs the Linear Optimal Transport (LOT) transform to obtain a linear embedding of set-structured data. Utilizing the mathematical properties of the LOT transform, we demonstrate its capacity to accommodate variations in point sets by constructing a convex data space, effectively simplifying point set classification problems. Our method, which employs a nearest-subspace algorithm in the LOT space, demonstrates label efficiency, non-iterative behavior, and requires no hyper-parameter tuning. It achieves competitive accuracies compared to state-of-the-art methods across various point set classification tasks. Furthermore, our approach exhibits robustness in out-of-distribution scenarios where training and test distributions vary in terms of deformation magnitudes. | 翻訳日:2024-03-18 18:38:56 公開日:2024-03-15 |
# 有限温度における行列積状態のサンプル複雑性
Sample complexity of matrix product states at finite temperature ( http://arxiv.org/abs/2403.10018v1 ) ライセンス: Link先を確認 | Atsushi Iwaki, Chisa Hotta, | (参考訳) 一次元の量子多体系の場合、計算複雑性理論は、基底状態エネルギーの評価が量子コンピュータ上でも解けることを明らかにし、システムサイズの逆対数よりも高い温度に対する古典的アルゴリズムの存在とは対照的である。
これは計算複雑性の観点から、低温状態と高温状態の質的な違いを浮き彫りにする。
ここでは行列積状態形式を用いて有限温度状態を記述する。
ランダムサンプリングの枠組み内では,必要なサンプル数の解析式が導出され,計算複雑性の定量的および定性的尺度が提供される。
高温と低温では、そのスケーリング挙動は、それぞれ線形かつ二次的であり、これらの数値的差の数値的に難しい状態の間に明確な交差を示す。
For quantum many-body systems in one dimension, computational complexity theory reveals that the evaluation of ground-state energy remains elusive on quantum computers, contrasting the existence of a classical algorithm for temperatures higher than the inverse logarithm of the system size. This highlights a qualitative difference between low- and high-temperature states in terms of computational complexity. Here, we describe finite-temperature states using the matrix product state formalism. Within the framework of random samplings, we derive an analytical formula for the required number of samples, which provides both quantitative and qualitative measures of computational complexity. At high and low temperatures, its scaling behavior with system size is linear and quadratic, respectively, demonstrating a distinct crossover between these numerically difficult regimes of quantitative difference. | 翻訳日:2024-03-18 18:38:56 公開日:2024-03-15 |
# オーバーラップによる損失 - LLMにおける透かし衝突の探索
Lost in Overlap: Exploring Watermark Collision in LLMs ( http://arxiv.org/abs/2403.10020v1 ) ライセンス: Link先を確認 | Yiyang Luo, Ke Lin, Chao Gu, | (参考訳) コンテンツ生成における大きな言語モデル(LLM)の拡散は、テキスト著作権に対する懸念を高めている。
ウォーターマーキング、特にロジットベースのアプローチは、これらの課題に対処するために、認識不能な識別子をテキストに埋め込む。
しかし、多様なLSMにまたがる透かしの広範な使用は、質問応答やパラフレージングといった一般的なタスクにおいて、透かし衝突として知られる必然的な問題を引き起こしている。
本研究は,2つの透かしが同時に同じテキストに存在している二重透かし衝突に着目した。
この研究は、透かし衝突が上流と下流の両方の透かしアルゴリズムの検出性能に脅威をもたらすことを実証している。
The proliferation of large language models (LLMs) in generating content raises concerns about text copyright. Watermarking methods, particularly logit-based approaches, embed imperceptible identifiers into text to address these challenges. However, the widespread use of watermarking across diverse LLMs has led to an inevitable issue known as watermark collision during common tasks like question answering and paraphrasing. This study focuses on dual watermark collisions, where two watermarks are present simultaneously in the same text. The research demonstrates that watermark collision poses a threat to detection performance for detectors of both upstream and downstream watermark algorithms. | 翻訳日:2024-03-18 18:38:56 公開日:2024-03-15 |
# 深層学習モデルを用いた脳内画像認識における時間周波数結合型非知覚的対立攻撃
Time-Frequency Jointed Imperceptible Adversarial Attack to Brainprint Recognition with Deep Learning Models ( http://arxiv.org/abs/2403.10021v1 ) ライセンス: Link先を確認 | Hangjie Yi, Yuhang Ming, Dongjun Liu, Wanzeng Kong, | (参考訳) 深層学習モデルを用いた脳波に基づく脳プリント認識は生体認証において多くの注目を集めている。
しかし,脳波入力を伴う深層学習モデルにおいて,敵対的攻撃に対する脆弱性が示唆されている。
本稿では,ウェーブレット変換を用いて,時間領域と周波数領域のEEG信号を同時攻撃する新たな逆攻撃手法を提案する。
時間領域脳波信号のみをターゲットとする既存の方法とは異なり、我々の手法は時間領域攻撃の強力な対角的強度を活かすだけでなく、周波数領域攻撃に固有の非受容性の利点も生かし、攻撃性能と非受容性のバランスを良くする。
その結果、3つのデータセットと3つのディープラーニングモデルに対して、攻撃手法が最先端の攻撃性能を達成することを実証した。
一方、我々の方法で攻撃された信号の摂動は、人間の視覚系に対してほとんど認識できない。
EEG-based brainprint recognition with deep learning models has garnered much attention in biometric identification. Yet, studies have indicated vulnerability to adversarial attacks in deep learning models with EEG inputs. In this paper, we introduce a novel adversarial attack method that jointly attacks time-domain and frequency-domain EEG signals by employing wavelet transform. Different from most existing methods which only target time-domain EEG signals, our method not only takes advantage of the time-domain attack's potent adversarial strength but also benefits from the imperceptibility inherent in frequency-domain attack, achieving a better balance between attack performance and imperceptibility. Extensive experiments are conducted in both white- and grey-box scenarios and the results demonstrate that our attack method achieves state-of-the-art attack performance on three datasets and three deep-learning models. In the meanwhile, the perturbations in the signals attacked by our method are barely perceptible to the human visual system. | 翻訳日:2024-03-18 18:38:56 公開日:2024-03-15 |
# 後方適合性を考慮した生涯人物再同定
Lifelong Person Re-Identification with Backward-Compatibility ( http://arxiv.org/abs/2403.10022v1 ) ライセンス: Link先を確認 | Minyoung Oh, Jae-Young Sim, | (参考訳) LReID(Lifelong person re-identification)は、古いデータセットの破滅的な忘れを軽減しつつ、連続的な入力データセットに対してモデルを逐次訓練する、実践的なシナリオを前提としている。
しかし、トレーニングデータセットだけでなく、ギャラリーイメージも漸進的に蓄積されているため、推論フェーズで特徴を抽出するためには、膨大な計算複雑性とストレージスペースが必要である。
本稿では,LReIDの後方互換性を初めて取り入れることで,上記の問題に対処する。
我々は、古いギャラリー画像の特徴を再計算することなく、トレーニング済みの古いモデルに対するモデルの互換性を維持しながら、継続的にやってくるデータセットを使用してモデルをトレーニングする。
この目的のために、従来のデータセットをまたいだリプレイ機能に関して、対照的な学習に基づいて、モデル間の互換性の損失を考案する。
さらに,パート分類に基づく知識統合手法を開発し,異なるデータセット間の共有表現を後方互換性のために学習する。
より実用的な性能評価手法を提案する。
実験結果から,提案手法は既存手法に比べて後方互換性を著しく向上することが示された。
LReIDのより実用的なシナリオのための有望なツールである。
Lifelong person re-identification (LReID) assumes a practical scenario where the model is sequentially trained on continuously incoming datasets while alleviating the catastrophic forgetting in the old datasets. However, not only the training datasets but also the gallery images are incrementally accumulated, that requires a huge amount of computational complexity and storage space to extract the features at the inference phase. In this paper, we address the above mentioned problem by incorporating the backward-compatibility to LReID for the first time. We train the model using the continuously incoming datasets while maintaining the model's compatibility toward the previously trained old models without re-computing the features of the old gallery images. To this end, we devise the cross-model compatibility loss based on the contrastive learning with respect to the replay features across all the old datasets. Moreover, we also develop the knowledge consolidation method based on the part classification to learn the shared representation across different datasets for the backward-compatibility. We suggest a more practical methodology for performance evaluation as well where all the gallery and query images are considered together. Experimental results demonstrate that the proposed method achieves a significantly higher performance of the backward-compatibility compared with the existing methods. It is a promising tool for more practical scenarios of LReID. | 翻訳日:2024-03-18 18:38:56 公開日:2024-03-15 |
# 不完全な単一光子源を持つ23Mbpsを超える測定デバイス非依存量子乱数生成
Measurement-device-independent quantum random number generation over 23 Mbps with imperfect single-photon sources ( http://arxiv.org/abs/2403.10023v1 ) ライセンス: Link先を確認 | You-Qi Nie, Hongyi Zhou, Bing Bai, Qi Xu, Xiongfeng Ma, Jun Zhang, Jian-Wei Pan, | (参考訳) 量子ランダム性は、装置の不完全性や不正確な特徴が誤ったエントロピー推定と実践的バイアスをもたらす可能性があるジェネレータの実装の正確な特徴に大きく依存し、生成したランダム性の信頼性に大きく影響する。
測定デバイス非依存(MDI)量子乱数生成(QRNG)は、認証されたランダム性を生成するために、測定の抜け穴をターゲットとする多数の攻撃スキームに脆弱な非文字化および信頼できない測定装置を活用する。
しかし、これまでのところ、既存の実装では性能が不十分である。
本稿では、単光子源の不完全性に対するロバストな計測トモグラフィー手法に基づく高速MDI-QRNG方式を提案する。
従来の手法と比較して,より正確なトモグラフィ結果とより低いランダム性境界を得るために,デコイ状態法を導入している。
最後に、高速時間ビン符号化システムを用いて、この方式を実験的に実証し、既存の実現を著しく上回り、離散変数の半デバイス非依存QRNGに記録する23Mbps以上の生成速度に対応する、パルス当たり7.37 \times 10^{-2}$ bitsという信頼性の高い最小エントロピー低域を得た。
Quantum randomness relies heavily on the accurate characterization of the generator implementation, where the device imperfection or inaccurate characterization can lead to incorrect entropy estimation and practical bias, significantly affecting the reliability of the generated randomness. Measurement-device-independent (MDI) quantum random number generation (QRNG) endeavors to produce certified randomness, utilizing uncharacterized and untrusted measurement devices that are vulnerable to numerous attack schemes targeting measurement loopholes. However, existing implementations have shown insufficient performance thus far. Here, we propose a high-speed MDI-QRNG scheme based on a robust measurement tomography approach against the imperfection of single-photon sources. Compared with the conventional approach, the decoy-state method is introduced to obtain more accurate tomography results and a tighter lower bound of randomness. Finally, by using a high-speed time-bin encoding system, we experimentally demonstrated the scheme and obtained a reliable min-entropy lower bound of $7.37 \times 10^{-2}$ bits per pulse, corresponding to a generation rate over 23 Mbps, which substantially outperforms the existing realizations and makes a record in discrete-variable semi-device-independent QRNGs. | 翻訳日:2024-03-18 18:38:56 公開日:2024-03-15 |
# MR-MT3: 楽器漏れを緩和するマルチトラック音楽の書き起こしを記憶する
MR-MT3: Memory Retaining Multi-Track Music Transcription to Mitigate Instrument Leakage ( http://arxiv.org/abs/2403.10024v1 ) ライセンス: Link先を確認 | Hao Hao Tan, Kin Wai Cheuk, Taemin Cho, Wei-Hsiang Liao, Yuki Mitsufuji, | (参考訳) 本稿では,SOTA(State-of-the-art)トークンを用いたマルチインストラクト自動音楽書き起こし(AMT)モデルであるMT3モデルの改良について述べる。
SOTAの性能にもかかわらず、MT3は様々な楽器間で書き起こしが断片化される計器漏れの問題がある。
これを軽減するため,メモリ保持機構,先行トークンサンプリング,トークンシャッフルといった拡張機能を備えたMR-MT3を提案する。
これらの手法はSlakh2100データセットで評価され、改善されたF1スコアと楽器リークの低減を示す。
従来の多構成転写F1スコアに加えて、計器リーク率や計器検出F1スコアなどの新しい指標を導入して、より包括的な転写品質の評価を行う。
また,ComMUやNSynthのような単一構成単調データセット上でMT3を評価することにより,ドメインオーバーフィッティングの問題についても検討した。
発見はソースコードとともに共有され,トークンベースの多機能AMTモデルの改良を目的とした今後の作業が促進される。
This paper presents enhancements to the MT3 model, a state-of-the-art (SOTA) token-based multi-instrument automatic music transcription (AMT) model. Despite SOTA performance, MT3 has the issue of instrument leakage, where transcriptions are fragmented across different instruments. To mitigate this, we propose MR-MT3, with enhancements including a memory retention mechanism, prior token sampling, and token shuffling are proposed. These methods are evaluated on the Slakh2100 dataset, demonstrating improved onset F1 scores and reduced instrument leakage. In addition to the conventional multi-instrument transcription F1 score, new metrics such as the instrument leakage ratio and the instrument detection F1 score are introduced for a more comprehensive assessment of transcription quality. The study also explores the issue of domain overfitting by evaluating MT3 on single-instrument monophonic datasets such as ComMU and NSynth. The findings, along with the source code, are shared to facilitate future work aimed at refining token-based multi-instrument AMT models. | 翻訳日:2024-03-18 18:29:12 公開日:2024-03-15 |
# 高能率視覚変換器の1ステップアテンションによる多基準トークン核融合
Multi-criteria Token Fusion with One-step-ahead Attention for Efficient Vision Transformers ( http://arxiv.org/abs/2403.10030v1 ) ライセンス: Link先を確認 | Sanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim, | (参考訳) Vision Transformer (ViT) はコンピュータビジョンのバックボーンとして登場した。
より効率的なViTのために、最近の研究は、冗長トークンをプルーニングまたはファンクションすることにより、自己保持層の二次コストを低減している。
しかし、これらの作品は情報の喪失によって引き起こされた速度精度のトレードオフに直面した。
ここでは,トークンの融合は情報損失を最小限に抑えるために,トークン間の多様な関係を考慮する必要があると論じる。
本稿では,多基準トークン(例えば,類似性,情報性,および溶解トークンのサイズ)に基づいて,トークンを徐々に融合させる多基準トークン融合(MCTF)を提案する。
さらに,トークンの情報を捉えるための改良されたアプローチである,ワンステップアヘッドアテンションを利用する。
トークン還元整合性を用いたMCTF搭載モデルの訓練により,画像分類(ImageNet1K)において,最高速度精度のトレードオフを実現する。
実験結果から,MCTF は従来に比べてトレーニングと無トレーニングで常に上回っていることがわかった。
具体的には、MCTFを用いたDeiT-TとDeiT-SはFLOPを約44%削減し、それぞれベースモデルよりも性能(+0.5%、+0.3%)が向上した。
また、様々なビジョン変換器(例えば、T2T-ViT、LV-ViT)におけるMCTFの適用性を実証し、性能劣化を伴わずに少なくとも31%の高速化を実現した。
コードはhttps://github.com/mlvlab/MCTFで入手できる。
Vision Transformer (ViT) has emerged as a prominent backbone for computer vision. For more efficient ViTs, recent works lessen the quadratic cost of the self-attention layer by pruning or fusing the redundant tokens. However, these works faced the speed-accuracy trade-off caused by the loss of information. Here, we argue that token fusion needs to consider diverse relations between tokens to minimize information loss. In this paper, we propose a Multi-criteria Token Fusion (MCTF), that gradually fuses the tokens based on multi-criteria (e.g., similarity, informativeness, and size of fused tokens). Further, we utilize the one-step-ahead attention, which is the improved approach to capture the informativeness of the tokens. By training the model equipped with MCTF using a token reduction consistency, we achieve the best speed-accuracy trade-off in the image classification (ImageNet1K). Experimental results prove that MCTF consistently surpasses the previous reduction methods with and without training. Specifically, DeiT-T and DeiT-S with MCTF reduce FLOPs by about 44% while improving the performance (+0.5%, and +0.3%) over the base model, respectively. We also demonstrate the applicability of MCTF in various Vision Transformers (e.g., T2T-ViT, LV-ViT), achieving at least 31% speedup without performance degradation. Code is available at https://github.com/mlvlab/MCTF. | 翻訳日:2024-03-18 18:29:12 公開日:2024-03-15 |
# シュレーディンガー化による偏微分方程式の量子回路
Quantum Circuits for partial differential equations via Schrödingerisation ( http://arxiv.org/abs/2403.10032v1 ) ライセンス: Link先を確認 | Junpeng Hu, Shi Jin, Nana Liu, Lei Zhang, | (参考訳) 量子コンピューティングは、特に大規模PDEシミュレーションにおいて、古典コンピューティングと比較して、大きなスピードアップを達成するための有望な道として登場した。
主要な量子的アプローチの1つは、シュリンガー型方程式にのみ直接適用可能なハミルトニアンシミュレーションの利用である。
この制限に対処するため、一般線形 PDE を Schr\"odinger-type equation に変換するためにワープ変換を用いることで、Schr\"odingerisation 技術が開発された。
しかし、Schr\"オーダライゼーション技術の開発にもかかわらず、一般のPDEを解くための対応する量子回路の明示的な実装は設計されていない。
本稿では、Schr\"オーダライゼーション技術を用いた一般PDEのための量子アルゴリズムの詳細な実装について述べる。
提案手法の有効性を実証するために, 熱方程式の例と, 風上スキームにより近似された対流方程式を提案する。
複素性解析は、これらのアルゴリズムの量子的利点を古典的アルゴリズムよりも高次元で示すためにも行われる。
Quantum computing has emerged as a promising avenue for achieving significant speedup, particularly in large-scale PDE simulations, compared to classical computing. One of the main quantum approaches involves utilizing Hamiltonian simulation, which is directly applicable only to Schr\"odinger-type equations. To address this limitation, Schr\"odingerisation techniques have been developed, employing the warped transformation to convert general linear PDEs into Schr\"odinger-type equations. However, despite the development of Schr\"odingerisation techniques, the explicit implementation of the corresponding quantum circuit for solving general PDEs remains to be designed. In this paper, we present detailed implementation of a quantum algorithm for general PDEs using Schr\"odingerisation techniques. We provide examples of the heat equation, and the advection equation approximated by the upwind scheme, to demonstrate the effectiveness of our approach. Complexity analysis is also carried out to demonstrate the quantum advantages of these algorithms in high dimensions over their classical counterparts. | 翻訳日:2024-03-18 18:29:12 公開日:2024-03-15 |
# SparseFusion:Long-Range 3D知覚のための効率的なスパース多モード融合フレームワーク
SparseFusion: Efficient Sparse Multi-Modal Fusion Framework for Long-Range 3D Perception ( http://arxiv.org/abs/2403.10036v1 ) ライセンス: Link先を確認 | Yiheng Li, Hongyang Li, Zehao Huang, Hong Chang, Naiyan Wang, | (参考訳) マルチモーダル3次元物体検出は近年大きな進歩を遂げている。
しかし、ほとんどの既存手法は、計算要求とメモリ使用量を大幅にエスカレートする高密度な3D特徴に依存しているため、長距離シナリオへのスケーリングはほとんどできない。
本稿では,SparseFusionについて紹介する。SparseFusionは,スパース3次元特徴を基盤として構築された新しいマルチモーダル融合フレームワークで,より効率的な長距離知覚を実現する。
本手法のコアとなるSparse View Transformerモジュールは、2次元画像空間への関心領域を統一された3次元空間に選択的に持ち上げる。
提案したモジュールは,前景オブジェクトが存在可能なグリッドのみを埋める意味的側面と幾何学的側面の両方から疎結合を導入する。
広視野3次元知覚におけるフレームワークの有効性と有効性について総合実験により検証した。
注目すべきは、長距離Argoverse2データセットにおいて、SparseFusionはメモリフットプリントを減らし、密度の高い検出器に比べて約2倍の速度で推論を高速化する。
mAPは41.2%、CDSは32.1%である。
SparseFusionの汎用性は、時間オブジェクト検出タスクと3Dレーン検出タスクでも検証される。
コードは受理後に公開される。
Multi-modal 3D object detection has exhibited significant progress in recent years. However, most existing methods can hardly scale to long-range scenarios due to their reliance on dense 3D features, which substantially escalate computational demands and memory usage. In this paper, we introduce SparseFusion, a novel multi-modal fusion framework fully built upon sparse 3D features to facilitate efficient long-range perception. The core of our method is the Sparse View Transformer module, which selectively lifts regions of interest in 2D image space into the unified 3D space. The proposed module introduces sparsity from both semantic and geometric aspects which only fill grids that foreground objects potentially reside in. Comprehensive experiments have verified the efficiency and effectiveness of our framework in long-range 3D perception. Remarkably, on the long-range Argoverse2 dataset, SparseFusion reduces memory footprint and accelerates the inference by about two times compared to dense detectors. It also achieves state-of-the-art performance with mAP of 41.2% and CDS of 32.1%. The versatility of SparseFusion is also validated in the temporal object detection task and 3D lane detection task. Codes will be released upon acceptance. | 翻訳日:2024-03-18 18:29:12 公開日:2024-03-15 |
# 知識に基づくVQAのための知識凝縮と推論
Knowledge Condensation and Reasoning for Knowledge-based VQA ( http://arxiv.org/abs/2403.10037v1 ) ライセンス: Link先を確認 | Dongze Hao, Jian Jia, Longteng Guo, Qunbo Wang, Te Yang, Yan Li, Yanhua Cheng, Bo Wang, Quan Chen, Han Li, Jing Liu, | (参考訳) 知識に基づく視覚的質問応答(KB-VQA)は難しい課題であり、視覚コンテンツに基づく質問の理解と回答のために外部知識を活用する必要がある。
近年の研究では、外部知識ベースから知識パスを取得し、それを使って質問に答えている。
しかし、これらの検索された知識通路は、しばしば無関係またはうるさい情報を含んでいるため、モデルの性能が制限される。
この課題に対処するために,知識凝縮モデルと知識推論モデルという2つの相乗的モデルを提案する。
検索した知識を2つの視点から考察する。
まず、視覚言語モデルのマルチモーダル認識と推論能力を利用して、検索した長文から簡潔な知識概念を抽出し、視覚内容と疑問の両方に関連性を確保する。
第二に、大きな言語モデルのテキスト理解能力を活用して、問合せを要約し、問合せに役立てる。
これらの2種類の凝縮した知識は、私たちの知識推論モデルにシームレスに統合されます。
大規模実験により提案手法の優位性を検証した。
従来の手法と比較して,本手法は知識ベースVQAデータセット(OK-VQAは65.1%,A-OKVQAは60.1%)の最先端性能を,GPT-3 (175B) の知識に頼らずに達成した。
Knowledge-based visual question answering (KB-VQA) is a challenging task, which requires the model to leverage external knowledge for comprehending and answering questions grounded in visual content. Recent studies retrieve the knowledge passages from external knowledge bases and then use them to answer questions. However, these retrieved knowledge passages often contain irrelevant or noisy information, which limits the performance of the model. To address the challenge, we propose two synergistic models: Knowledge Condensation model and Knowledge Reasoning model. We condense the retrieved knowledge passages from two perspectives. First, we leverage the multimodal perception and reasoning ability of the visual-language models to distill concise knowledge concepts from retrieved lengthy passages, ensuring relevance to both the visual content and the question. Second, we leverage the text comprehension ability of the large language models to summarize and condense the passages into the knowledge essence which helps answer the question. These two types of condensed knowledge are then seamlessly integrated into our Knowledge Reasoning model, which judiciously navigates through the amalgamated information to arrive at the conclusive answer. Extensive experiments validate the superiority of the proposed method. Compared to previous methods, our method achieves state-of-the-art performance on knowledge-based VQA datasets (65.1% on OK-VQA and 60.1% on A-OKVQA) without resorting to the knowledge produced by GPT-3 (175B). | 翻訳日:2024-03-18 18:29:12 公開日:2024-03-15 |
# 教師なし手術機器セグメンテーションにおける低品質光フローの再考
Rethinking Low-quality Optical Flow in Unsupervised Surgical Instrument Segmentation ( http://arxiv.org/abs/2403.10039v1 ) ライセンス: Link先を確認 | Peiran Wu, Yang Liu, Jiayu Huo, Gongyu Zhang, Christos Bergeles, Rachel Sparks, Prokar Dasgupta, Alejandro Granados, Sebastien Ourselin, | (参考訳) ロボット補助手術において,ビデオベースの手術器具セグメンテーションが重要な役割を担っている。
教師なしセグメンテーションは、教師なしセグメンテーションとは違い、自然のシーンに比べて手術映像の光学的流れの質が低いため、区別が難しいモーションキューに大きく依存している。
これにより、教師なしセグメンテーション技術の進歩にかなりの負担がかかる。
本研究は,低品質光流の固有の限界にもかかわらず,モデル性能の向上という課題に対処する。
提案手法では,光学フローから直接境界線を抽出し,フロー品質が劣るフレームを選択的に破棄し,フレームレートが可変な微調整プロセスを用いる。
我々は、EndoVis2017 VOSデータセットとEndovis2017 Challengeデータセットに対して、我々の戦略を徹底的に評価し、我々のモデルは有望な結果を示し、それぞれ0.75と0.72のインターセクション・オーバー・ユニオン(mIoU)を達成する。
以上の結果から,本手法は臨床環境における手動アノテーションの必要性を大幅に低減し,新たなデータセットのアノテーションプロセスを容易にする可能性が示唆された。
コードはhttps://github.com/wpr1018001/Rethinking-Low-quality-Optical-Flow.gitで公開されている。
Video-based surgical instrument segmentation plays an important role in robot-assisted surgeries. Unlike supervised settings, unsupervised segmentation relies heavily on motion cues, which are challenging to discern due to the typically lower quality of optical flow in surgical footage compared to natural scenes. This presents a considerable burden for the advancement of unsupervised segmentation techniques. In our work, we address the challenge of enhancing model performance despite the inherent limitations of low-quality optical flow. Our methodology employs a three-pronged approach: extracting boundaries directly from the optical flow, selectively discarding frames with inferior flow quality, and employing a fine-tuning process with variable frame rates. We thoroughly evaluate our strategy on the EndoVis2017 VOS dataset and Endovis2017 Challenge dataset, where our model demonstrates promising results, achieving a mean Intersection-over-Union (mIoU) of 0.75 and 0.72, respectively. Our findings suggest that our approach can greatly decrease the need for manual annotations in clinical environments and may facilitate the annotation process for new datasets. The code is available at https://github.com/wpr1018001/Rethinking-Low-quality-Optical-Flow.git | 翻訳日:2024-03-18 18:29:12 公開日:2024-03-15 |
# 病理組織学的全スライス画像を用いた癌予後診断のための組織学的知識蒸留法
Histo-Genomic Knowledge Distillation For Cancer Prognosis From Histopathology Whole Slide Images ( http://arxiv.org/abs/2403.10040v1 ) ライセンス: Link先を確認 | Zhikang Wang, Yumeng Zhang, Yingxue Xu, Seiya Imoto, Hao Chen, Jiangning Song, | (参考訳) ヒスト・ゲノミクスのマルチモーダル法は近年、強力なパラダイムとして登場し、がんの予後を改善する重要な可能性を示している。
しかし、ゲノムシークエンシングは、病理組織像とは異なり、まだ未発達の地域では広くアクセスできないため、臨床環境におけるこれらのマルチモーダルアプローチの適用は制限されている。
そこで本研究では,G-HANetと呼ばれる新しいゲノムインフォームドハイパーアテンションネットワークを提案する。このネットワークは,トレーニング中にヒストリーゲノム知識を効果的に蒸留し,一様全スライド画像(WSI)に基づく推論を初めて高めることができる。
従来の知識蒸留法(すなわち教師-学生アーキテクチャ)と比較すると,学習効率や相互モーダル相互作用の学習において,エンド・ツー・エンドのモデルの方が優れている。
具体的には、クロスモーダル・アソシエーション・ブランチ(CAB)とハイパーアテンション・サバイバル・ブランチ(HSB)とからなる。
WSIsからのゲノムデータ再構成を通じて、CABは機能的遺伝子型と形態的表現型との関係を効果的に蒸留し、特徴空間における遺伝子発現プロファイルに関する洞察を提供する。
その後、HSBは、蒸留されたヒスト・ゲノミクスの関連と、生成されたモルフォロジーに基づく体重を利用して、癌予後を改善するために、病理組織学的およびゲノム学的視点の両方から患者のハイパーアテンションモデリングを実現する。
5つのTCGAベンチマークデータセットで大規模な実験を行い、G-HANetは最先端のWSIベースの手法よりも優れており、ゲノムベースの手法とマルチモーダルな手法との競合性能を実現していることを示した。
G-HANetは、がん予後と精密腫瘍学の文脈において、不十分なヒストリノミクスデータペアリングのボトルネックに対処するために、研究コミュニティが有用なツールとして検討されることが期待されている。
Histo-genomic multi-modal methods have recently emerged as a powerful paradigm, demonstrating significant potential for improving cancer prognosis. However, genome sequencing, unlike histopathology imaging, is still not widely accessible in underdeveloped regions, limiting the application of these multi-modal approaches in clinical settings. To address this, we propose a novel Genome-informed Hyper-Attention Network, termed G-HANet, which is capable of effectively distilling the histo-genomic knowledge during training to elevate uni-modal whole slide image (WSI)-based inference for the first time. Compared with traditional knowledge distillation methods (i.e., teacher-student architecture) in other tasks, our end-to-end model is superior in terms of training efficiency and learning cross-modal interactions. Specifically, the network comprises the cross-modal associating branch (CAB) and hyper-attention survival branch (HSB). Through the genomic data reconstruction from WSIs, CAB effectively distills the associations between functional genotypes and morphological phenotypes and offers insights into the gene expression profiles in the feature space. Subsequently, HSB leverages the distilled histo-genomic associations as well as the generated morphology-based weights to achieve the hyper-attention modeling of the patients from both histopathology and genomic perspectives to improve cancer prognosis. Extensive experiments are conducted on five TCGA benchmarking datasets and the results demonstrate that G-HANet significantly outperforms the state-of-the-art WSI-based methods and achieves competitive performance with genome-based and multi-modal methods. G-HANet is expected to be explored as a useful tool by the research community to address the current bottleneck of insufficient histo-genomic data pairing in the context of cancer prognosis and precision oncology. | 翻訳日:2024-03-18 18:29:12 公開日:2024-03-15 |
# 対話型ロボットにおける動的ペルソナの埋め込みに向けて--Masquerading Animated Social Kinematics (MASK)
Towards Embedding Dynamic Personas in Interactive Robots: Masquerading Animated Social Kinematics (MASK) ( http://arxiv.org/abs/2403.10041v1 ) ライセンス: Link先を確認 | Jeongeun Park, Taemoon Jeong, Hyeonseong Kim, Taehyun Byun, Seungyoon Shin, Keunjun Choi, Jaewoon Kwon, Taeyoon Lee, Matthew Pan, Sungjoon Choi, | (参考訳) 本稿では,キャラクターライクなペルソナを用いたユーザエンゲージメントを高める革新的な対話型ロボットシステムの設計と開発について述べる。
ペルソナ駆動のダイアログエージェントの基礎の上に構築されたこの研究は、エージェントアプリケーションを物理的な領域に拡張し、より没入的でインタラクティブな体験を提供するためにロボットを活用する。
提案システムはMasquerading Animated Social Kinematics (MASK) と名付けられ,表情やジェスチャーを含む非言語的インタラクションを用いてゲストと対話する人型ロボットを活用している。
有限状態機械構造に基づく行動生成システムは、ロボットの動作を効果的に条件付け、異なるペルソナを伝達する。
MASKフレームワークは、知覚エンジン、行動選択エンジン、および包括的なアクションライブラリを統合し、行動設計における人間の介入を最小限に抑えたリアルタイムで動的なインタラクションを可能にする。
本研究は,フィルムキャラクタに基づくペルソナ条件において,ユーザが意図した性格を認識できるかどうかを検討した。
対話型エージェントにおけるペルソナの役割と、魅力的なユーザエクスペリエンスを生み出す上で考慮すべき要素について論じる。
This paper presents the design and development of an innovative interactive robotic system to enhance audience engagement using character-like personas. Built upon the foundations of persona-driven dialog agents, this work extends the agent application to the physical realm, employing robots to provide a more immersive and interactive experience. The proposed system, named the Masquerading Animated Social Kinematics (MASK), leverages an anthropomorphic robot which interacts with guests using non-verbal interactions, including facial expressions and gestures. A behavior generation system based upon a finite-state machine structure effectively conditions robotic behavior to convey distinct personas. The MASK framework integrates a perception engine, a behavior selection engine, and a comprehensive action library to enable real-time, dynamic interactions with minimal human intervention in behavior design. Throughout the user subject studies, we examined whether the users could recognize the intended character in film-character-based persona conditions. We conclude by discussing the role of personas in interactive agents and the factors to consider for creating an engaging user experience. | 翻訳日:2024-03-18 18:29:12 公開日:2024-03-15 |
# マルチタスク学習を用いた高精度・データ効率のマイクロXRD位相同定:熱水流体への応用
Accurate and Data-Efficient Micro-XRD Phase Identification Using Multi-Task Learning: Application to Hydrothermal Fluids ( http://arxiv.org/abs/2403.10042v1 ) ライセンス: Link先を確認 | Yanfei Li, Juejing Liu, Xiaodong Zhao, Wenjun Liu, Tong Geng, Ang Li, Xin Zhang, | (参考訳) 熱水環境からの高度に歪んだマイクロX線回折({\mu}-XRD)パターンの伝統的な分析は、しばしばデータ前処理とラベル付き実験データを必要とする時間を要する。
本研究では,これらの制約を克服するために,マルチタスク学習(MTL)アーキテクチャを用いたディープラーニングの可能性を示す。
我々は、MTLモデルを訓練し、ラベル付き実験データとマスキング前処理ステップの必要性を最小限に抑えながら、XRDパターンの位相情報を同定した。
特に,MTLモデルでは,バイナリ分類CNNに比べて精度が優れていた。
さらに, クロスエントロピー損失関数の導入により, MTLモデルの性能が向上した。
最も顕著なのは、生のXRDパターンと未加工のXRDパターンを解析するために調整されたMTLモデルであり、精度の差が最小限である。
この研究は、MTLのような先進的なディープラーニングアーキテクチャが、厳しいデータ処理タスクを自動化し、歪んだXRDパターンの分析を合理化し、労働集約的な実験データセットへの依存を減らすことができることを示している。
Traditional analysis of highly distorted micro-X-ray diffraction ({\mu}-XRD) patterns from hydrothermal fluid environments is a time-consuming process, often requiring substantial data preprocessing and labeled experimental data. This study demonstrates the potential of deep learning with a multitask learning (MTL) architecture to overcome these limitations. We trained MTL models to identify phase information in {\mu}-XRD patterns, minimizing the need for labeled experimental data and masking preprocessing steps. Notably, MTL models showed superior accuracy compared to binary classification CNNs. Additionally, introducing a tailored cross-entropy loss function improved MTL model performance. Most significantly, MTL models tuned to analyze raw and unmasked XRD patterns achieved close performance to models analyzing preprocessed data, with minimal accuracy differences. This work indicates that advanced deep learning architectures like MTL can automate arduous data handling tasks, streamline the analysis of distorted XRD patterns, and reduce the reliance on labor-intensive experimental datasets. | 翻訳日:2024-03-18 18:29:12 公開日:2024-03-15 |
# 球拡散:球形幾何-歪みを考慮した弾性拡散モデル
SphereDiffusion: Spherical Geometry-Aware Distortion Resilient Diffusion Model ( http://arxiv.org/abs/2403.10044v1 ) ライセンス: Link先を確認 | Tao Wu, Xuewei Li, Zhongang Qi, Di Hu, Xintao Wang, Ying Shan, Xi Li, | (参考訳) 制御可能な球状パノラマ画像生成は, 様々な領域でかなりの応用可能性を持つが, 低品質なコンテンツ生成を実現するため, 固有の球状歪みと幾何学的特性により, 依然として困難な課題である。この記事では, 高品質で正確に制御可能な球状パノラマ画像を生成するための, SphereDiffusionの新しい枠組みを導入する。球状歪み特性には, 歪んだ物体のセマンティックスをテキストエンコーディングで埋め込むとともに, テキストオブジェクトの対応関係を明示的に構築し, 平面画像の事前訓練された知識をよりよく活用する。一方, 球状歪みによる遅延空間におけるセマンティックディフィケーションを緩和するために, 変形性のある技術を用いて, 球状変形による空間的偏差を緩和する。
Controllable spherical panoramic image generation holds substantial applicative potential across a variety of domains.However, it remains a challenging task due to the inherent spherical distortion and geometry characteristics, resulting in low-quality content generation.In this paper, we introduce a novel framework of SphereDiffusion to address these unique challenges, for better generating high-quality and precisely controllable spherical panoramic images.For the spherical distortion characteristic, we embed the semantics of the distorted object with text encoding, then explicitly construct the relationship with text-object correspondence to better use the pre-trained knowledge of the planar images.Meanwhile, we employ a deformable technique to mitigate the semantic deviation in latent space caused by spherical distortion.For the spherical geometry characteristic, in virtue of spherical rotation invariance, we improve the data diversity and optimization objectives in the training process, enabling the model to better learn the spherical geometry characteristic.Furthermore, we enhance the denoising process of the diffusion model, enabling it to effectively use the learned geometric characteristic to ensure the boundary continuity of the generated images.With these specific techniques, experiments on Structured3D dataset show that SphereDiffusion significantly improves the quality of controllable spherical image generation and relatively reduces around 35% FID on average. | 翻訳日:2024-03-18 18:29:12 公開日:2024-03-15 |
# 曲率正規化による逆ロバストデータセット蒸留に向けて
Towards Adversarially Robust Dataset Distillation by Curvature Regularization ( http://arxiv.org/abs/2403.10045v1 ) ライセンス: Link先を確認 | Eric Xue, Yijiang Li, Haoyang Liu, Yifan Shen, Haohan Wang, | (参考訳) データセット蒸留(DD)により、データセットを元のサイズの分数に蒸留し、豊富な分散情報を保存し、蒸留されたデータセットでトレーニングされたモデルが、計算負荷を大幅に節約しながら、同等の精度を達成できる。
この領域の最近の研究は、蒸留データセットで訓練されたモデルの精度向上に重点を置いている。
本稿では,DDの新たな視点を探究する。
蒸留されたデータセットに敵対的ロバスト性を組み込むことで、これらのデータセットでトレーニングされたモデルが高い精度を維持しつつ、より良い敵的ロバスト性を得る。
そこで本研究では, 従来の逆算法よりも計算オーバーヘッドの少ない蒸留プロセスに曲率正規化を組み込むことにより, この目標を達成する新しい手法を提案する。
実験結果から,本手法は,計算オーバーヘッドの少ない精度と堅牢性を両立させるだけでなく,種々の敵攻撃に耐えられる頑健な蒸留データセットを生成できることが示唆された。
Dataset distillation (DD) allows datasets to be distilled to fractions of their original size while preserving the rich distributional information so that models trained on the distilled datasets can achieve a comparable accuracy while saving significant computational loads. Recent research in this area has been focusing on improving the accuracy of models trained on distilled datasets. In this paper, we aim to explore a new perspective of DD. We study how to embed adversarial robustness in distilled datasets, so that models trained on these datasets maintain the high accuracy and meanwhile acquire better adversarial robustness. We propose a new method that achieves this goal by incorporating curvature regularization into the distillation process with much less computational overhead than standard adversarial training. Extensive empirical experiments suggest that our method not only outperforms standard adversarial training on both accuracy and robustness with less computation overhead but is also capable of generating robust distilled datasets that can withstand various adversarial attacks. | 翻訳日:2024-03-18 18:29:12 公開日:2024-03-15 |
# TextBlockV2: 事前学習型言語モデルによる高精度検出不要なシーンテキストスポッティングを目指して
TextBlockV2: Towards Precise-Detection-Free Scene Text Spotting with Pre-trained Language Model ( http://arxiv.org/abs/2403.10047v1 ) ライセンス: Link先を確認 | Jiahao Lyu, Jin Wei, Gangyan Zeng, Zeng Li, Enze Xie, Wei Wang, Yu Zhou, | (参考訳) 既存のシーンテキストスポッターは、画像からテキストを見つけて書き起こすように設計されている。
しかし,スポッターがシーンテキストの正確な検出と認識を同時に行うことは困難である。
人間のスポッティングパイプラインと、視覚的なタスクにおける事前学習言語モデル(PLM)の印象的なパフォーマンスにインスパイアされた。
1)「機械は人間のように正確に検出せずにテキストを見つけるのか?」
2)「テキストは、単語や文字以外のシーンテキストスポッティングの代替手段をブロックしていますか?
この目的のために,提案するシーンテキストスポッターは高度なPLMを活用し,微細な検出を行うことなく性能を向上させる。
具体的には、まずブロックレベルのテキスト検出に簡単な検出器を使用して、粗い位置情報を得る。
次に、大規模OCRデータセットを用いてPLMを微調整し、正確な認識を実現する。
PLMベースの認識モジュールは、事前訓練期間中に得られた包括的な言語知識から恩恵を受け、マルチライン、リバース、クローズド、不完全な検出テキストを含む複雑なシナリオを効果的に処理する。
シーン認識ベンチマークにおける微調整言語モデルとテキストブロック検出のパラダイムを活かして、複数の公開ベンチマークにおいてシーンテキストスポッターの優れた性能を示す実験を行った。
さらに,シーン全体から直接テキストを抽出して,LLM(Large Language Models)の可能性を示す。
Existing scene text spotters are designed to locate and transcribe texts from images. However, it is challenging for a spotter to achieve precise detection and recognition of scene texts simultaneously. Inspired by the glimpse-focus spotting pipeline of human beings and impressive performances of Pre-trained Language Models (PLMs) on visual tasks, we ask: 1) "Can machines spot texts without precise detection just like human beings?", and if yes, 2) "Is text block another alternative for scene text spotting other than word or character?" To this end, our proposed scene text spotter leverages advanced PLMs to enhance performance without fine-grained detection. Specifically, we first use a simple detector for block-level text detection to obtain rough positional information. Then, we finetune a PLM using a large-scale OCR dataset to achieve accurate recognition. Benefiting from the comprehensive language knowledge gained during the pre-training phase, the PLM-based recognition module effectively handles complex scenarios, including multi-line, reversed, occluded, and incomplete-detection texts. Taking advantage of the fine-tuned language model on scene recognition benchmarks and the paradigm of text block detection, extensive experiments demonstrate the superior performance of our scene text spotter across multiple public benchmarks. Additionally, we attempt to spot texts directly from an entire scene image to demonstrate the potential of PLMs, even Large Language Models (LLMs). | 翻訳日:2024-03-18 18:29:12 公開日:2024-03-15 |
# PPM : クリックスルー速度予測のための事前学習プラグインモデル
PPM : A Pre-trained Plug-in Model for Click-through Rate Prediction ( http://arxiv.org/abs/2403.10049v1 ) ライセンス: Link先を確認 | Yuanbo Gao, Peng Lin, Dongyue Wang, Feng Mei, Xiwei Zhao, Sulong Xu, Jinghe Hu, | (参考訳) クリックスルー率(CTR)予測はレコメンダシステムにおける中核的なタスクである。
既存の方法(IDRec、略してIDRec)は、何十年にもわたって普及してきた異なるユーザやアイテムを表現するために、ユニークなアイデンティティに依存している。
一方、IDRecは、繰り返し効率の制約により、より長いトレーニングデータを使用することができない。
多くの先行研究は、事前学習された知識(例えば、事前学習されたユーザモデルやマルチモーダル埋め込み)を導入することで、上記の問題を緩和している。
しかし、オンラインレイテンシの爆発的な成長は、事前訓練されたモデルにおける大きなパラメータに起因する可能性がある。
そのため,産業レコメンデータシステムにおいて,IDRecを用いたエンド・ツー・エンド・エンド・トレーニングの統一モデルを採用できない場合が多く,事前学習モデルの可能性を制限している。
この目的のために、$\textbf{P}$re-trained $\textbf{P}$lug-in CTR $\textbf{M}$odel, すなわち、PPMを提案する。
PPMは入力としてマルチモーダル機能を使用し、事前トレーニングに大規模データを使用する。
次に、PPMをIDRecモデルにプラグインし、統一モデルの性能とイテレーション効率を向上させる。
IDRecモデルを組み込むと、ネットワーク内のある中間結果がキャッシュされ、トレーニングやサービスに参加するパラメータのサブセットのみがキャッシュされる。
したがって、我々のアプローチは、大きなレイテンシの増加を引き起こすことなく、エンドツーエンドモデルをうまくデプロイできる。
JD Eコマースにおける総合的なオフライン実験とオンラインA/Bテストは、PPMの有効性と有効性を示している。
Click-through rate (CTR) prediction is a core task in recommender systems. Existing methods (IDRec for short) rely on unique identities to represent distinct users and items that have prevailed for decades. On one hand, IDRec often faces significant performance degradation on cold-start problem; on the other hand, IDRec cannot use longer training data due to constraints imposed by iteration efficiency. Most prior studies alleviate the above problems by introducing pre-trained knowledge(e.g. pre-trained user model or multi-modal embeddings). However, the explosive growth of online latency can be attributed to the huge parameters in the pre-trained model. Therefore, most of them cannot employ the unified model of end-to-end training with IDRec in industrial recommender systems, thus limiting the potential of the pre-trained model. To this end, we propose a $\textbf{P}$re-trained $\textbf{P}$lug-in CTR $\textbf{M}$odel, namely PPM. PPM employs multi-modal features as input and utilizes large-scale data for pre-training. Then, PPM is plugged in IDRec model to enhance unified model's performance and iteration efficiency. Upon incorporating IDRec model, certain intermediate results within the network are cached, with only a subset of the parameters participating in training and serving. Hence, our approach can successfully deploy an end-to-end model without causing huge latency increases. Comprehensive offline experiments and online A/B testing at JD E-commerce demonstrate the efficiency and effectiveness of PPM. | 翻訳日:2024-03-18 18:29:12 公開日:2024-03-15 |
# テクスチャ-GS:3次元ガウス版編集のための幾何学とテクスチャの分離
Texture-GS: Disentangling the Geometry and Texture for 3D Gaussian Splatting Editing ( http://arxiv.org/abs/2403.10050v1 ) ライセンス: Link先を確認 | Tian-Xing Xu, Wenbo Hu, Yu-Kun Lai, Ying Shan, Song-Hai Zhang, | (参考訳) 3Dガウススプラッティングは画期的なアプローチとして登場し、高忠実度再構成とリアルタイムレンダリングの能力に注目が集まっている。
しかし、ガウス属性内のシーンの外観と幾何学が混在しており、テクスチャスワップのような編集操作の柔軟性を妨げている。
この問題に対処するために,テクスチュア-GSという新しいアプローチを提案し,それを3次元表面上にマッピングした2次元テクスチャとして表現し,外観編集を容易にする。
技術的には、3次元ガウス中心のUV座標を学習するためのUVマッピング MLPと、レイ・ガウス交叉のUV座標を効率的に近似するためのローカルテイラー展開と、きめ細かい外観を捉えるための学習可能なテクスチャから構成される。
DTUデータセットの大規模な実験により、我々の手法は高精細な外観の編集を容易にするだけでなく、単一のRTX 2080 Ti GPUのようなコンシューマレベルのデバイスでのリアルタイムレンダリングも実現している。
3D Gaussian splatting, emerging as a groundbreaking approach, has drawn increasing attention for its capabilities of high-fidelity reconstruction and real-time rendering. However, it couples the appearance and geometry of the scene within the Gaussian attributes, which hinders the flexibility of editing operations, such as texture swapping. To address this issue, we propose a novel approach, namely Texture-GS, to disentangle the appearance from the geometry by representing it as a 2D texture mapped onto the 3D surface, thereby facilitating appearance editing. Technically, the disentanglement is achieved by our proposed texture mapping module, which consists of a UV mapping MLP to learn the UV coordinates for the 3D Gaussian centers, a local Taylor expansion of the MLP to efficiently approximate the UV coordinates for the ray-Gaussian intersections, and a learnable texture to capture the fine-grained appearance. Extensive experiments on the DTU dataset demonstrate that our method not only facilitates high-fidelity appearance editing but also achieves real-time rendering on consumer-level devices, e.g. a single RTX 2080 Ti GPU. | 翻訳日:2024-03-18 18:29:12 公開日:2024-03-15 |
# T4P: マスク付きオートエンコーダとアクタ固有のトーケンメモリによる軌道予測の試験時間トレーニング
T4P: Test-Time Training of Trajectory Prediction via Masked Autoencoder and Actor-specific Token Memory ( http://arxiv.org/abs/2403.10052v1 ) ライセンス: Link先を確認 | Daehee Park, Jaeseok Jeong, Sung-Hoon Yoon, Jaewoo Jeong, Kuk-Jin Yoon, | (参考訳) 軌道予測は、複数のアクターと周囲環境間の相互作用を考慮することを必要とする難しい問題である。
データ駆動型アプローチは、この複雑な問題に対処するために使われてきたが、テスト期間中に分散シフトの下では信頼性の低い予測に悩まされている。
そこで, トラジェクティブ予測タスクの自己ラベル付け特性を利用した観測データの真実から回帰損失を用いたオンライン学習手法が提案されている。
主に以下の2つの課題に対処する。
まず、モーションデコーダの最後の層だけを最適化するため、以前の作業は不適合で過度に適合する。
この目的のために、我々は表現学習にマスク付きオートエンコーダ(MAE)を用い、より深い層を更新するためのシフトテスト分布における複雑な相互作用モデリングを促進する。
次に,アクタ固有のトークンメモリを提案し,アクタの動作特性の試験時間学習を可能にする。
提案手法は、nuScenes、Lyft、Waymo、Interactionなど、さまざまな挑戦的なデータセット間の分散シフトシナリオで検証されている。
提案手法は,予測精度と計算効率の両方の観点から,既存の最先端オンライン学習手法の性能を超越した手法である。
コードはhttps://github.com/daeheepark/T4Pで公開されている。
Trajectory prediction is a challenging problem that requires considering interactions among multiple actors and the surrounding environment. While data-driven approaches have been used to address this complex problem, they suffer from unreliable predictions under distribution shifts during test time. Accordingly, several online learning methods have been proposed using regression loss from the ground truth of observed data leveraging the auto-labeling nature of trajectory prediction task. We mainly tackle the following two issues. First, previous works underfit and overfit as they only optimize the last layer of the motion decoder. To this end, we employ the masked autoencoder (MAE) for representation learning to encourage complex interaction modeling in shifted test distribution for updating deeper layers. Second, utilizing the sequential nature of driving data, we propose an actor-specific token memory that enables the test-time learning of actor-wise motion characteristics. Our proposed method has been validated across various challenging cross-dataset distribution shift scenarios including nuScenes, Lyft, Waymo, and Interaction. Our method surpasses the performance of existing state-of-the-art online learning methods in terms of both prediction accuracy and computational efficiency. The code is available at https://github.com/daeheepark/T4P. | 翻訳日:2024-03-18 18:29:12 公開日:2024-03-15 |
# Group-Mix SAM:産業組立ライン応用のための軽量ソリューション
Group-Mix SAM: Lightweight Solution for Industrial Assembly Line Applications ( http://arxiv.org/abs/2403.10053v1 ) ライセンス: Link先を確認 | Wu Liang, X. -G. Ma, | (参考訳) SAM(Segment Anything Model)の出現から約1年が経ち、学術的な関心を集め、様々な観点から多くの研究や出版物を生み出してきた。
しかし、SAMの実際の組立ラインシナリオへの展開は、その大きな画像エンコーダによって実現されていない。
本研究では,重厚画像エンコーダを軽量画像エンコーダに置き換え,SAMを実用的な組立ラインのシナリオに展開できるようにする。
具体的には, 資源制限条件下でMobileSAMのエンコーダを訓練するために, 分離蒸留を用いている。
知識蒸留実験は、単一のRTX 4090で1日で完了することができる。
その結果、Group-Mix SAMと呼ばれる軽量SAMのパラメータは37.63% (2.16M)、パラメータは42.5%(15614.7M)、浮動小数点演算はMobileSAMより少ない。
しかし,構築した産業データセットであるMALSDでは,mIoUはMobileSAMの0.615よりわずかに低かった。
最後に, 産業領域における Group-Mix SAM の優位性を示すための総合的な比較実験を行った。
例外的な性能で、我々のGroup-Mix SAMは実用的なアセンブリラインアプリケーションに適している。
Since the advent of the Segment Anything Model(SAM) approximately one year ago, it has engendered significant academic interest and has spawned a large number of investigations and publications from various perspectives. However, the deployment of SAM in practical assembly line scenarios has yet to materialize due to its large image encoder, which weighs in at an imposing 632M. In this study, we have replaced the heavyweight image encoder with a lightweight one, thereby enabling the deployment of SAM in practical assembly line scenarios. Specifically, we have employed decoupled distillation to train the encoder of MobileSAM in a resource-limited setting. The entire knowledge distillation experiment can be completed in a single day on a single RTX 4090. The resulting lightweight SAM, referred to as Group-Mix SAM, had 37.63% (2.16M) fewer parameters and 42.5% (15614.7M) fewer floating-point operations compared to MobileSAM. However, on our constructed industrial dataset, MALSD, its mIoU was only marginally lower than that of MobileSAM, at 0.615. Finally, we conducted a comprehensive comparative experiment to demonstrate the superiority of Group-Mix SAM in the industrial domain. With its exceptional performance, our Group-Mix SAM is more suitable for practical assembly line applications. | 翻訳日:2024-03-18 18:19:27 公開日:2024-03-15 |
# 産業生産貯蔵ゾーンの制御と自動化:画像処理による最適経路の生成
Control and Automation for Industrial Production Storage Zone: Generation of Optimal Route Using Image Processing ( http://arxiv.org/abs/2403.10054v1 ) ライセンス: Link先を確認 | Bejamin A. Huerfano, Fernando Jimenez, | (参考訳) ディジタル画像処理(DIP)は、大量生産品の品質を保証するためのパラメータの検証と保証において非常に重要である。
そこで本稿では,DIPを用いた生産ラインモデルのゾーンにおける産業自動化手法の開発に焦点をあてる。
ネオカスケードの手法は各ステージを適切な方法で定義し、その開発に必要なメソッドを確実に組み込むことを可能にし、最終的に倉庫エリアの最適経路生成システムのモデリング、設計、実装、テストにおいて、組み込みプラットフォームとプログラム可能なロジックコントローラ(PLC)への接続とともに最適化ガイドラインのDIPを使用した。
システムはOpenCVライブラリをベースとしており、Java言語に基づいたオブジェクト指向プログラミング(OOP)プラットフォーム上に実装された人工視覚に焦点を当てたツールである。
大規模倉庫エリアにおけるプロセスの自動化のための最適経路を生成し、オブジェクトのセグメンテーションとネットワーク内のフローを柱として最適化し、PLCとの接続を動作の方法とすることで、実装時にはプロセスの非効率性、これらのタスクを実行するための人力の使用、リソースの使用の不適切な使用などの制約を排除した。
Digital image processing (DIP) is of great importance in validating and guaranteeing parameters that ensure the quality of mass-produced products. Therefore, this article focused on developing an industrial automation method for a zone of a production line model using the DIP. The neo-cascade methodology employed allowed for defining each of the stages in an adequate way, ensuring the inclusion of the relevant methods for its development, which finally incurred in the modeling, design, implementation, and testing of an optimal route generation system for a warehouse area, using DIP with optimization guidelines, in conjunction with an embedded platform and the connection to programmable logic controllers (PLCs) for its execution. The system was based on the OpenCV library; tool focused on artificial vision, which was implemented on an object-oriented programming (OOP) platform based on Java language. It generated the optimal route for the automation of processes in a scale warehouse area, using the segmentation of objects and the optimization of flow in networks as pillars, ending with the connection to PLCs as a method of action, which in case of implementation would eliminate constraints such as process inefficiency, the use of manpower to perform these tasks, inadequate use of resources, among others | 翻訳日:2024-03-18 18:19:27 公開日:2024-03-15 |
# Don't half-listen: 連続的なインストラクションチューニングにおけるキーパート情報の取得
Don't Half-listen: Capturing Key-part Information in Continual Instruction Tuning ( http://arxiv.org/abs/2403.10056v1 ) ライセンス: Link先を確認 | Yongquan He, Xuancheng Huang, Minghao Tang, Lingxun Meng, Xiang Li, Wei Lin, Wenyuan Zhang, Yifu Gao, | (参考訳) 大規模言語モデル(LLM)のインストラクションチューニングは、特定の下流タスクにおける人間の目標と整合した結果を生み出すことができる。
しかし、LCMの連続的指導チューニング(CIT)のプロセスは、それまでの学習能力が劣化していた大惨な忘れ(CF)問題を引き起こす可能性がある。
最近の手法では、モデルの変更やデータ再生によってCF問題を緩和しようとするが、これは命令の表面レベルのパターンのみを記憶し、ホールドアウトタスクで混乱する可能性がある。
本稿では,キーパート情報ゲイン(KPIG)に基づく新しい連続的命令チューニング手法を提案する。
本手法は,マスク部分の情報ゲインを計算し,データを動的に再生し,トレーニング対象を洗練することにより,LCMが正しい応答に関連するタスク認識情報を捕捉し,命令の一般的な記述への過度な適合を緩和する。
さらに,LLMの一般化と命令追従能力を測定するために,PスコアとVスコアという2つの指標を提案する。
実験により,本手法は観察タスクと保留タスクの両方において優れた性能を発揮することが示された。
Instruction tuning for large language models (LLMs) can drive them to produce results consistent with human goals in specific downstream tasks. However, the process of continual instruction tuning (CIT) for LLMs may bring about the catastrophic forgetting (CF) problem, where previously learned abilities are degraded. Recent methods try to alleviate the CF problem by modifying models or replaying data, which may only remember the surface-level pattern of instructions and get confused on held-out tasks. In this paper, we propose a novel continual instruction tuning method based on Key-part Information Gain (KPIG). Our method computes the information gain on masked parts to dynamically replay data and refine the training objective, which enables LLMs to capture task-aware information relevant to the correct response and alleviate overfitting to general descriptions in instructions. In addition, we propose two metrics, P-score and V-score, to measure the generalization and instruction-following abilities of LLMs. Experiments demonstrate our method achieves superior performance on both seen and held-out tasks. | 翻訳日:2024-03-18 18:19:27 公開日:2024-03-15 |
# RID-TWIN:ビデオにおける顔の自動識別のためのエンドツーエンドパイプライン
RID-TWIN: An end-to-end pipeline for automatic face de-identification in videos ( http://arxiv.org/abs/2403.10058v1 ) ライセンス: Link先を確認 | Anirban Mukherjee, Monjoy Narayan Choudhury, Dinesh Babu Jayagopi, | (参考訳) ビデオにおける顔の特定は、主にプライバシー保護アプリケーションで使用されるコンピュータビジョンの領域において難しい課題である。
生成的視覚モデルによって達成されたかなりの進歩にもかかわらず、最新のアプローチにはいくつかの課題がある。
現実主義、時間的コヒーレンス、識別できない特徴の保存といった側面の包括的な議論と評価は欠如している。
本研究では,現在最先端の生成モデルを活用する新しいパイプラインであるRID-Twinを提案する。
この課題を総合的な視点から検討し、この領域における既存の課題に対して我々のアプローチがどのように対処するかを議論する。
我々は,VoxCeleb2データセットで広く使用されているVoxCeleb2データセットと,VoxCeleb2データセットに存在しない特定の行動変動の制限に対応するために設計されたカスタムデータセットの性能を評価する。
本研究の意義とメリットを論じ,今後の研究の方向性を提案する。
Face de-identification in videos is a challenging task in the domain of computer vision, primarily used in privacy-preserving applications. Despite the considerable progress achieved through generative vision models, there remain multiple challenges in the latest approaches. They lack a comprehensive discussion and evaluation of aspects such as realism, temporal coherence, and preservation of non-identifiable features. In our work, we propose RID-Twin: a novel pipeline that leverages the state-of-the-art generative models, and decouples identity from motion to perform automatic face de-identification in videos. We investigate the task from a holistic point of view and discuss how our approach addresses the pertinent existing challenges in this domain. We evaluate the performance of our methodology on the widely employed VoxCeleb2 dataset, and also a custom dataset designed to accommodate the limitations of certain behavioral variations absent in the VoxCeleb2 dataset. We discuss the implications and advantages of our work and suggest directions for future research. | 翻訳日:2024-03-18 18:19:27 公開日:2024-03-15 |
# Repoformer: Repository-Levelコード補完のための選択的な検索
Repoformer: Selective Retrieval for Repository-Level Code Completion ( http://arxiv.org/abs/2403.10059v1 ) ライセンス: Link先を確認 | Di Wu, Wasi Uddin Ahmad, Dejiao Zhang, Murali Krishna Ramanathan, Xiaofei Ma, | (参考訳) 検索強化生成(RAG)の最近の進歩は、リポジトリレベルのコード補完の新たな時代が始まった。
しかし、既存の手法における検索の不変な使用は、効率性と堅牢性の両方の問題を明らかにし、検索されたコンテキストの大部分が、コード言語モデル(コードLM)に有害または有害であることを示す。
そこで本研究では,不要な場合の検索を回避できる選択的なRAGフレームワークを提案する。
このフレームワークを活用するために、コードLMは、検索が出力品質を向上できるかどうかを正確に自己評価し、潜在的にノイズの多い検索コンテキストをしっかりと活用できる自己教師付き学習アプローチを設計する。
このLMを選択的検索ポリシーと生成モデルの両方として使用することにより、RepoEval、CrossCodeEval、および新しいベンチマークを含む多様なベンチマークに対して、不変な検索アプローチにより、最先端のプロンプトを一貫して上回ります。
一方,我々の選択的検索戦略は,性能を損なうことなく,最大70%の推論高速化を実現した。
我々のフレームワークは、異なる世代モデル、レトリバー、プログラミング言語に効果的に対応できることを実証する。
これらの進歩は、より正確で効率的なリポジトリレベルのコード補完に向けた重要なステップとして、私たちのフレームワークを位置づけています。
Recent advances in retrieval-augmented generation (RAG) have initiated a new era in repository-level code completion. However, the invariable use of retrieval in existing methods exposes issues in both efficiency and robustness, with a large proportion of the retrieved contexts proving unhelpful or harmful to code language models (code LMs). To tackle the challenges, this paper proposes a selective RAG framework where retrieval is avoided when unnecessary. To power this framework, we design a self-supervised learning approach that enables a code LM to accurately self-evaluate whether retrieval can improve its output quality and robustly leverage the potentially noisy retrieved contexts. Using this LM as both the selective retrieval policy and the generation model, our framework consistently outperforms the state-of-the-art prompting with an invariable retrieval approach on diverse benchmarks including RepoEval, CrossCodeEval, and a new benchmark. Meanwhile, our selective retrieval strategy results in strong efficiency improvements by as much as 70% inference speedup without harming the performance. We demonstrate that our framework effectively accommodates different generation models, retrievers, and programming languages. These advancements position our framework as an important step towards more accurate and efficient repository-level code completion. | 翻訳日:2024-03-18 18:19:27 公開日:2024-03-15 |
# PAME: 参照不要なクラウド品質評価のための自己監督型マスクオートエンコーダ
PAME: Self-Supervised Masked Autoencoder for No-Reference Point Cloud Quality Assessment ( http://arxiv.org/abs/2403.10061v1 ) ライセンス: Link先を確認 | Ziyu Shan, Yujie Zhang, Qi Yang, Haichen Yang, Yiling Xu, Shan Liu, | (参考訳) No-Reference Point Cloud Quality Assessment (NR-PCQA) は、参照なしでポイントクラウドの知覚的品質を自動予測することを目的としており、ディープラーニングベースのモデルの利用により、優れたパフォーマンスを実現している。
しかし、これらのデータ駆動モデルはラベル付きデータの不足に悩まされ、データセット間の評価において不満足に実行する。
この問題に対処するために,マスク付きオートエンコーダ(PAME)を用いた自己教師付き事前学習フレームワークを提案する。
具体的には、画像に点雲を投影した後、PAMEはデュアルブランチオートエンコーダを使用し、歪んだ画像から元のパッチへの参照および歪んだ画像にマスクされたパッチを再構成する。
このようにして、2つのブランチは、投影された画像からコンテンツ認識特徴と歪み認識特徴を別々に学習することができる。
さらに、モデル微調整の段階では、学習されたコンテンツ認識機能は、異なる視点から抽出されたポイントクラウド品質機能を融合するためのガイドとして機能する。
大規模な実験により,提案手法は予測精度と一般化可能性の観点から,最先端のNR-PCQA法よりも高い性能を示した。
No-reference point cloud quality assessment (NR-PCQA) aims to automatically predict the perceptual quality of point clouds without reference, which has achieved remarkable performance due to the utilization of deep learning-based models. However, these data-driven models suffer from the scarcity of labeled data and perform unsatisfactorily in cross-dataset evaluations. To address this problem, we propose a self-supervised pre-training framework using masked autoencoders (PAME) to help the model learn useful representations without labels. Specifically, after projecting point clouds into images, our PAME employs dual-branch autoencoders, reconstructing masked patches from distorted images into the original patches within reference and distorted images. In this manner, the two branches can separately learn content-aware features and distortion-aware features from the projected images. Furthermore, in the model fine-tuning stage, the learned content-aware features serve as a guide to fuse the point cloud quality features extracted from different perspectives. Extensive experiments show that our method outperforms the state-of-the-art NR-PCQA methods on popular benchmarks in terms of prediction accuracy and generalizability. | 翻訳日:2024-03-18 18:19:27 公開日:2024-03-15 |
# 逆DR-サブモジュール最適化のための統一射影自由アルゴリズム
Unified Projection-Free Algorithms for Adversarial DR-Submodular Optimization ( http://arxiv.org/abs/2403.10063v1 ) ライセンス: Link先を確認 | Mohammad Pedramfar, Yididiya Y. Nadew, Christopher J. Quinn, Vaneet Aggarwal, | (参考訳) 本稿では,予測自由なFrank-Wolfe型アルゴリズムを導入し,全情報や半帯域フィードバック,モノトーンおよび非モノトーン関数,制約の相違,確率的クエリのタイプといったシナリオを網羅する。
非単調な設定で考慮されたすべての問題に対して、提案アルゴリズムは、証明済みのサブ線形$\alpha$-regret境界を持つか、あるいは、オフライン設定における対応する近似である$\alpha$-regret境界を持つよりも良い$\alpha$-regret境界を持つかのいずれかである。
モノトーン設定では、提案手法は、残りのケースの結果と一致しながら、提案した8つのケースのうち7つのプロジェクションフリーアルゴリズムにおいて、最先端のサブ線形$\alpha$-regret境界を与える。
さらに,逆DR-サブモジュラー最適化のための半帯域フィードバックと帯域フィードバックについて検討し,この最適化領域の理解を推し進める。
This paper introduces unified projection-free Frank-Wolfe type algorithms for adversarial continuous DR-submodular optimization, spanning scenarios such as full information and (semi-)bandit feedback, monotone and non-monotone functions, different constraints, and types of stochastic queries. For every problem considered in the non-monotone setting, the proposed algorithms are either the first with proven sub-linear $\alpha$-regret bounds or have better $\alpha$-regret bounds than the state of the art, where $\alpha$ is a corresponding approximation bound in the offline setting. In the monotone setting, the proposed approach gives state-of-the-art sub-linear $\alpha$-regret bounds among projection-free algorithms in 7 of the 8 considered cases while matching the result of the remaining case. Additionally, this paper addresses semi-bandit and bandit feedback for adversarial DR-submodular optimization, advancing the understanding of this optimization area. | 翻訳日:2024-03-18 18:19:27 公開日:2024-03-15 |
# 加速MRIのサブサンプリング分解による進行性分枝コンバータ
Progressive Divide-and-Conquer via Subsampling Decomposition for Accelerated MRI ( http://arxiv.org/abs/2403.10064v1 ) ライセンス: Link先を確認 | Chong Wang, Lanqing Guo, Yufei Wang, Hao Cheng, Yi Yu, Bihan Wen, | (参考訳) ディープ・アンフォールディング・ネットワーク (DUN) は、MRI (Accelerated Magnetic resonance Imaging) 再構成のための一般的な反復的枠組みとして登場した。
しかし、従来のDUNは、各イテレーションでヌル空間全体の欠落した情報を再構築することを目的としている。
したがって、非常に不適切な劣化に対処する場合、通常は不満足な再建につながる可能性がある。
本研究では,本研究で提案するPDAC(Progressive Divide-And-Conquer)戦略を提案する。
今回提案したPDACフレームワークの厳密な導出を行い,さらにエンドツーエンドのトレーニング可能なネットワークに展開する。
具体的には、PDACの各反復段階は、分解に応じて顕著な中等度劣化を回復することに焦点を当てる。
さらに、PDACイテレーションの一部として、分解されたサンプリングマスクを推定する劣化予測器を介して、そのような分解を補助タスクとして適応的に学習する。
この予測の後、サンプリングマスクは重度条件モジュールを介してさらに統合され、各ステージにおける劣化重度を確実に認識する。
広汎な実験により,提案手法は,マルチコイルおよび単一コイル設定の両方において,公開されている高速MRIおよびスタンフォード2D FSEデータセット上で優れた性能を発揮することが示された。
Deep unfolding networks (DUN) have emerged as a popular iterative framework for accelerated magnetic resonance imaging (MRI) reconstruction. However, conventional DUN aims to reconstruct all the missing information within the entire null space in each iteration. Thus it could be challenging when dealing with highly ill-posed degradation, usually leading to unsatisfactory reconstruction. In this work, we propose a Progressive Divide-And-Conquer (PDAC) strategy, aiming to break down the subsampling process in the actual severe degradation and thus perform reconstruction sequentially. Starting from decomposing the original maximum-a-posteriori problem of accelerated MRI, we present a rigorous derivation of the proposed PDAC framework, which could be further unfolded into an end-to-end trainable network. Specifically, each iterative stage in PDAC focuses on recovering a distinct moderate degradation according to the decomposition. Furthermore, as part of the PDAC iteration, such decomposition is adaptively learned as an auxiliary task through a degradation predictor which provides an estimation of the decomposed sampling mask. Following this prediction, the sampling mask is further integrated via a severity conditioning module to ensure awareness of the degradation severity at each stage. Extensive experiments demonstrate that our proposed method achieves superior performance on the publicly available fastMRI and Stanford2D FSE datasets in both multi-coil and single-coil settings. | 翻訳日:2024-03-18 18:19:27 公開日:2024-03-15 |
# Triple GNNs:会話型四重項知覚分析のための構文情報と意味情報の導入
Triple GNNs: Introducing Syntactic and Semantic Information for Conversational Aspect-Based Quadruple Sentiment Analysis ( http://arxiv.org/abs/2403.10065v1 ) ライセンス: Link先を確認 | Binbin Li, Yuqing Li, Siyu Jia, Bingnan Ma, Yu Ding, Zisen Qi, Xingbang Tan, Menghan Guo, Shenghui Liu, | (参考訳) Conversational Aspect-Based Sentiment Analysis (DiaASQ) は、与えられた対話から四重項 \{target, aspects, opinion, sentiment polarity\} を検出することを目的としている。
DiaASQでは、これらの四重項を構成する要素は必ずしも個々の文に限られるのではなく、対話の中で複数の発話にまたがる可能性がある。
これは、個々の発話の統語的情報とそれら間の意味的相互作用の両方に重きを置く必要がある。
しかし、従来の研究では、発話間の粗粒度の関係に主に焦点を合わせており、詳細な発話内構文情報の潜在的な利点と、発話間関係の粒度を見極めている。
本稿では、DiaAsQを強化するために、Triple GNNsネットワークを導入する。
発話内の構文依存をモデル化するためにGCN(Graph Convolutional Network)と、発話間の相互作用を構築するためにDual Graph Attention Network(DualGAT)を採用している。
2つの標準データセットの実験により、我々のモデルは最先端のベースラインを大きく上回っていることが明らかとなった。
コードは \url{https://github.com/nlperi2b/Triple-GNNs-} で公開されている。
Conversational Aspect-Based Sentiment Analysis (DiaASQ) aims to detect quadruples \{target, aspect, opinion, sentiment polarity\} from given dialogues. In DiaASQ, elements constituting these quadruples are not necessarily confined to individual sentences but may span across multiple utterances within a dialogue. This necessitates a dual focus on both the syntactic information of individual utterances and the semantic interaction among them. However, previous studies have primarily focused on coarse-grained relationships between utterances, thus overlooking the potential benefits of detailed intra-utterance syntactic information and the granularity of inter-utterance relationships. This paper introduces the Triple GNNs network to enhance DiaAsQ. It employs a Graph Convolutional Network (GCN) for modeling syntactic dependencies within utterances and a Dual Graph Attention Network (DualGATs) to construct interactions between utterances. Experiments on two standard datasets reveal that our model significantly outperforms state-of-the-art baselines. The code is available at \url{https://github.com/nlperi2b/Triple-GNNs-}. | 翻訳日:2024-03-18 18:19:27 公開日:2024-03-15 |
# No-Reference Point Cloud Quality Assessmentのためのマルチビューフュージョンによる対照的な事前訓練
Contrastive Pre-Training with Multi-View Fusion for No-Reference Point Cloud Quality Assessment ( http://arxiv.org/abs/2403.10066v1 ) ライセンス: Link先を確認 | Ziyu Shan, Yujie Zhang, Qi Yang, Haichen Yang, Yiling Xu, Jenq-Neng Hwang, Xiaozhong Xu, Shan Liu, | (参考訳) No-Reference Point Cloud Quality Assessment (NR-PCQA)は、利用可能な参照のない歪んだ点雲の知覚的品質を自動評価することを目的としており、ディープニューラルネットワークの利用により大幅に改善されている。
しかし、学習に基づくNR-PCQA法はラベル付きデータの不足に悩まされ、通常、一般化の観点からは準最適に実行される。
そこで本研究では,PCQA(CoPA)に適した新しいコントラスト付き事前学習フレームワークを提案する。
表現空間のアンカーを得るために、異なる歪みの点雲を画像に投影し、局所パッチをランダムに混合して複数の歪みの混合画像を生成する。
生成したアンカーを利用することで、知覚品質が内容と歪みの両方に密接に関連しているという哲学に従って、品質に配慮したコントラスト損失を通じて事前学習プロセスを制約する。
さらに、モデル微調整段階において、複数の視点から投影された画像の特徴を効果的に統合する意味誘導多視点融合モジュールを提案する。
実験結果から,提案手法はPCQA法よりも高い性能を示した。
さらなる調査は、CoPAが既存の学習ベースのPCQAモデルにも役立つことを実証している。
No-reference point cloud quality assessment (NR-PCQA) aims to automatically evaluate the perceptual quality of distorted point clouds without available reference, which have achieved tremendous improvements due to the utilization of deep neural networks. However, learning-based NR-PCQA methods suffer from the scarcity of labeled data and usually perform suboptimally in terms of generalization. To solve the problem, we propose a novel contrastive pre-training framework tailored for PCQA (CoPA), which enables the pre-trained model to learn quality-aware representations from unlabeled data. To obtain anchors in the representation space, we project point clouds with different distortions into images and randomly mix their local patches to form mixed images with multiple distortions. Utilizing the generated anchors, we constrain the pre-training process via a quality-aware contrastive loss following the philosophy that perceptual quality is closely related to both content and distortion. Furthermore, in the model fine-tuning stage, we propose a semantic-guided multi-view fusion module to effectively integrate the features of projected images from multiple perspectives. Extensive experiments show that our method outperforms the state-of-the-art PCQA methods on popular benchmarks. Further investigations demonstrate that CoPA can also benefit existing learning-based PCQA models. | 翻訳日:2024-03-18 18:19:27 公開日:2024-03-15 |
# ハイパースペクトル画像復調のためのハイブリッド畳み込み・アテンションネットワーク
Hybrid Convolutional and Attention Network for Hyperspectral Image Denoising ( http://arxiv.org/abs/2403.10067v1 ) ライセンス: Link先を確認 | Shuai Hu, Feng Gao, Xiaowei Zhou, Junyu Dong, Qian Du, | (参考訳) ハイパースペクトル画像(HSI)は、ハイパースペクトルデータの効果的な解析と解釈に重要である。
しかし,グローバルな特徴と局所的な特徴を同時にモデル化することで,HSIの認知度を高めることは稀である。
本稿では,畳み込みニューラルネットワーク(CNN)とトランスフォーマーの両方の長所を利用するハイブリッド畳み込み・アテンションネットワーク(HCANet)を提案する。
グローバルな特徴と局所的な特徴のモデリングを強化するため,長距離依存と近傍のスペクトル相関を捉えることを目的とした畳み込み・注意融合モジュールを考案した。
さらに、マルチスケール情報集約を改善するために、異なるスケールで特徴を抽出することでデノナイジング性能を向上させるために、マルチスケールフィードフォワードネットワークを設計する。
主流HSIデータセットに対する実験結果は,提案したHCANetの合理性と有効性を示す。
提案手法は, 各種複合雑音の除去に有効である。
我々のコードは \url{https://github.com/summitgao/HCANet} で利用可能です。
Hyperspectral image (HSI) denoising is critical for the effective analysis and interpretation of hyperspectral data. However, simultaneously modeling global and local features is rarely explored to enhance HSI denoising. In this letter, we propose a hybrid convolution and attention network (HCANet), which leverages both the strengths of convolution neural networks (CNNs) and Transformers. To enhance the modeling of both global and local features, we have devised a convolution and attention fusion module aimed at capturing long-range dependencies and neighborhood spectral correlations. Furthermore, to improve multi-scale information aggregation, we design a multi-scale feed-forward network to enhance denoising performance by extracting features at different scales. Experimental results on mainstream HSI datasets demonstrate the rationality and effectiveness of the proposed HCANet. The proposed model is effective in removing various types of complex noise. Our codes are available at \url{https://github.com/summitgao/HCANet}. | 翻訳日:2024-03-18 18:19:27 公開日:2024-03-15 |
# 良質な協調的視点は何か : マルチエージェント知覚のための対比的相互情報の最大化
What Makes Good Collaborative Views? Contrastive Mutual Information Maximization for Multi-Agent Perception ( http://arxiv.org/abs/2403.10068v1 ) ライセンス: Link先を確認 | Wanfang Su, Lixing Chen, Yang Bai, Xi Lin, Gaolei Li, Zhe Qu, Pan Zhou, | (参考訳) マルチエージェント認識(MAP)は、複数のソースからのデータを解釈することで、自律システムが複雑な環境を理解することを可能にする。
本稿では,共同作業におけるMAPの「良い」特性(協調作業後の特徴)と,それに基づく個別の視点(協調作業前特徴)を探索することに焦点を当てた中間的共同作業について検討し,既存の作業において不透明な手続きとして扱われた。
CMiMC (Contrastive Mutual Information Maximization for Collaborative Perception) という新たなフレームワークを提案する。
CMiMCの中核となる理念は、下流タスクの損失関数を最小化して協調ビューの有効性を高めつつ、協調ビューの事前と後の共同作業の特徴間の相互情報を最大化することで、協調ビューにおける個人ビューの差別的情報を保存することである。
特に,多視点相互情報(MVMI)を定義し,協調的な視点とグローバルスケールとローカルスケールの個人ビューの相関性を評価する。
我々は,Voxelレベルの特徴融合のための協調エンコーダのトレーニングを支援するMVMIの推定と最大化を実現するために,マルチビューコントラスト学習に基づくCMiMNetを確立する。
We evaluate CMiMC on V2X-Sim 1.0, it is improves the SOTA averagecision by 3.08% and 4.44% at 0.5 and 0.7 IoU (Intersection-over-Union) thresholds。
さらに、CMiMCはSOTAに匹敵する性能を保ちながら通信量を1/32に削減できる。
CodeとAppendixはhttps://github.com/77SWF/CMiMCで公開されている。
Multi-agent perception (MAP) allows autonomous systems to understand complex environments by interpreting data from multiple sources. This paper investigates intermediate collaboration for MAP with a specific focus on exploring "good" properties of collaborative view (i.e., post-collaboration feature) and its underlying relationship to individual views (i.e., pre-collaboration features), which were treated as an opaque procedure by most existing works. We propose a novel framework named CMiMC (Contrastive Mutual Information Maximization for Collaborative Perception) for intermediate collaboration. The core philosophy of CMiMC is to preserve discriminative information of individual views in the collaborative view by maximizing mutual information between pre- and post-collaboration features while enhancing the efficacy of collaborative views by minimizing the loss function of downstream tasks. In particular, we define multi-view mutual information (MVMI) for intermediate collaboration that evaluates correlations between collaborative views and individual views on both global and local scales. We establish CMiMNet based on multi-view contrastive learning to realize estimation and maximization of MVMI, which assists the training of a collaboration encoder for voxel-level feature fusion. We evaluate CMiMC on V2X-Sim 1.0, and it improves the SOTA average precision by 3.08% and 4.44% at 0.5 and 0.7 IoU (Intersection-over-Union) thresholds, respectively. In addition, CMiMC can reduce communication volume to 1/32 while achieving performance comparable to SOTA. Code and Appendix are released at https://github.com/77SWF/CMiMC. | 翻訳日:2024-03-18 18:19:27 公開日:2024-03-15 |
# 境界事項: 双方向のアクティブなファインタニングフレームワーク
Boundary Matters: A Bi-Level Active Finetuning Framework ( http://arxiv.org/abs/2403.10069v1 ) ライセンス: Link先を確認 | Han Lu, Yichen Xie, Xiaokang Yang, Junchi Yan, | (参考訳) 事前学習ファインタニングのパラダイムは、視覚タスクやその他の分野に広く採用されているが、高いサンプルアノテーションコストの重大な課題に直面している。
これを軽減するために、限られた予算内でモデル微調整に最も適したサンプルを選択することを目的としたアクティブ微調整の概念が登場した。
従来のアクティブな学習手法は、バッチ選択に固有のバイアスがあるため、この設定で苦労することが多い。
さらに、最近のアクティブな微調整アプローチは、主に多様性にのみ焦点を絞った、選択されたサブセットの分布と全体データプールとの整合に集中しています。
本稿では,1ショットでアノテーションのサンプルを選択するためのバイレベルアクティブ・ファインタニング・フレームワークを提案し,このフレームワークには,多様性のためのコアサンプル選択と不確実性のための境界サンプル選択という2つのステージが含まれる。
このプロセスは擬似クラス中心の同定から始まり、続いて革新的なデノナイジング法と高次元特徴空間における境界サンプル選択の反復的戦略が続く。
我々の総合的な実験は、我々の方法の有効性の質的および定量的な証拠を提供し、既存のベースラインをすべて上回っている。
The pretraining-finetuning paradigm has gained widespread adoption in vision tasks and other fields, yet it faces the significant challenge of high sample annotation costs. To mitigate this, the concept of active finetuning has emerged, aiming to select the most appropriate samples for model finetuning within a limited budget. Traditional active learning methods often struggle in this setting due to their inherent bias in batch selection. Furthermore, the recent active finetuning approach has primarily concentrated on aligning the distribution of selected subsets with the overall data pool, focusing solely on diversity. In this paper, we propose a Bi-Level Active Finetuning framework to select the samples for annotation in one shot, which includes two stages: core sample selection for diversity, and boundary sample selection for uncertainty. The process begins with the identification of pseudo-class centers, followed by an innovative denoising method and an iterative strategy for boundary sample selection in the high-dimensional feature space, all without relying on ground-truth labels. Our comprehensive experiments provide both qualitative and quantitative evidence of our method's efficacy, outperforming all the existing baselines. | 翻訳日:2024-03-18 18:19:27 公開日:2024-03-15 |
# ハミルトニアン系学習のための構造保存カーネル法
A Structure-Preserving Kernel Method for Learning Hamiltonian Systems ( http://arxiv.org/abs/2403.10070v1 ) ライセンス: Link先を確認 | Jianyu Hu, Juan-Pablo Ortega, Daiying Yin, | (参考訳) 構造保存されたカーネルリッジ回帰法は、ハミルトンベクトル場のノイズ観測から得られたデータセットから、潜在的に高次元かつ非線形なハミルトン関数の復元を可能にする。
本手法では,本手法で提案した他の手法を上回り,優れた数値性能が得られる閉形式解を提案する。
本稿では,勾配の線形関数を含む損失関数が要求される問題,特に微分再生特性とRepresenter Theoremをこの文脈で証明する問題に対して,カーネル回帰法を拡張した。
構造保存カーネル推定器とガウス後部平均推定器の関係を解析する。
固定正則化パラメータと適応正則化パラメータを用いて収束率を提供する完全誤差解析を行う。
提案した推定器の性能は, 様々な数値実験で示されている。
A structure-preserving kernel ridge regression method is presented that allows the recovery of potentially high-dimensional and nonlinear Hamiltonian functions out of datasets made of noisy observations of Hamiltonian vector fields. The method proposes a closed-form solution that yields excellent numerical performances that surpass other techniques proposed in the literature in this setup. From the methodological point of view, the paper extends kernel regression methods to problems in which loss functions involving linear functions of gradients are required and, in particular, a differential reproducing property and a Representer Theorem are proved in this context. The relation between the structure-preserving kernel estimator and the Gaussian posterior mean estimator is analyzed. A full error analysis is conducted that provides convergence rates using fixed and adaptive regularization parameters. The good performance of the proposed estimator is illustrated with various numerical experiments. | 翻訳日:2024-03-18 18:19:27 公開日:2024-03-15 |
# ベクトル量子化画像モデリングのためのパート・オブ・音声によるコードブック転送
Codebook Transfer with Part-of-Speech for Vector-Quantized Image Modeling ( http://arxiv.org/abs/2403.10071v1 ) ライセンス: Link先を確認 | Baoquan Zhang, Huaibin Wang, Luo Chuyao, Xutao Li, Liang Guotao, Yunming Ye, Xiaochen Qi, Yao He, | (参考訳) Vector-Quantized Image Modeling (VQIM)は、画像合成における基本的な研究課題であり、離散トークンシーケンスを持つ画像を表現することを目的としている。
既存の研究では、離散コードブックをスクラッチから学習し、コードに依存しない方法で、連続表現を離散トークンに定量化することで、この問題に効果的に対処している。
しかし、コードブックをスクラッチから学習し、コードに依存しない方法で学ぶことは非常に困難であり、コードブックが崩壊する鍵となる理由である可能性がある。
本稿では,事前学習された言語モデルにインスパイアされたこれらの言語モデルは,多数のテキストコーパスを通じて,実際に優れたコードブックを事前学習していることがわかったが,VQIMではそのような情報が活用されることはめったにない。
そこで本研究では,事前学習した言語モデルから,堅牢なコードブック学習のためのVQIMへ,十分に訓練されたコードブックを転送することを目的とした,VQCTというパート・オブ・スペルによる新しいコードブック転送フレームワークを提案する。
具体的には、まず、言語モデルから事前学習したコードブックと、音声の知識を先行として紹介する。
そこで我々は,コードブック転送を実現するために,これらの先行情報を用いた視覚関連コードブックを構築した。
最後に、新しいコードブック転送ネットワークは、トレーニング済みのコードブックに含まれるコード間の豊富な意味的関係を利用して、堅牢なVQIMコードブック学習を行うように設計されている。
4つのデータセットに対する実験結果から,VQCT法は従来の最先端手法よりも優れたVQIM性能が得られることが示された。
Vector-Quantized Image Modeling (VQIM) is a fundamental research problem in image synthesis, which aims to represent an image with a discrete token sequence. Existing studies effectively address this problem by learning a discrete codebook from scratch and in a code-independent manner to quantize continuous representations into discrete tokens. However, learning a codebook from scratch and in a code-independent manner is highly challenging, which may be a key reason causing codebook collapse, i.e., some code vectors can rarely be optimized without regard to the relationship between codes and good codebook priors such that die off finally. In this paper, inspired by pretrained language models, we find that these language models have actually pretrained a superior codebook via a large number of text corpus, but such information is rarely exploited in VQIM. To this end, we propose a novel codebook transfer framework with part-of-speech, called VQCT, which aims to transfer a well-trained codebook from pretrained language models to VQIM for robust codebook learning. Specifically, we first introduce a pretrained codebook from language models and part-of-speech knowledge as priors. Then, we construct a vision-related codebook with these priors for achieving codebook transfer. Finally, a novel codebook transfer network is designed to exploit abundant semantic relationships between codes contained in pretrained codebooks for robust VQIM codebook learning. Experimental results on four datasets show that our VQCT method achieves superior VQIM performance over previous state-of-the-art methods. | 翻訳日:2024-03-18 18:19:27 公開日:2024-03-15 |
# 長期配電環境下における対人訓練の見直し
Revisiting Adversarial Training under Long-Tailed Distributions ( http://arxiv.org/abs/2403.10073v1 ) ライセンス: Link先を確認 | Xinli Yue, Ningping Mou, Qian Wang, Lingchen Zhao, | (参考訳) ディープニューラルネットワークは敵の攻撃に弱いため、しばしば誤った出力につながる。
敵の訓練は、このような攻撃に対抗する最も効果的な方法の1つとして認識されている。
しかし、既存の敵の訓練技術は、主にバランスの取れたデータセットでテストされているのに対し、実世界のデータはしばしば長い尾の分布を示しており、実際的なシナリオにおけるこれらの手法の有効性に疑問を呈している。
本稿では,長期分布下での対人訓練について検討する。
以前の研究 "RoBal" の分析により,バランスド・ソフトマックス・ロスのみを用いることで,トレーニングのオーバーヘッドを大幅に削減しつつ,完全なRoBalアプローチに匹敵するパフォーマンスを達成できることが判明した。
さらに、一様分布と同様に、長い尾分布下での敵の訓練も頑健なオーバーフィッティングに苦しむことが明らかとなった。
これを解決するために,データ拡張をソリューションとして検討し,バランスの取れたデータと異なり,データ拡張は頑健なオーバーフィッティングを効果的に軽減するだけでなく,ロバスト性も著しく改善することを示した。
さらに,データ拡張によるロバスト性向上の背景にある理由を考察し,それが事例の多様性の増大に起因することを明らかにする。
大規模な実験は、データ拡張だけでロバスト性を大幅に改善できることをさらに裏付ける。
最後に、これらの結果に基づいて、RoBalと比較して、BSLとデータ拡張の組み合わせは、CIFAR-10-LT上でAutoAttackの下でモデルロバスト性を+6.66%向上させることを示した。
私たちのコードはhttps://github.com/NISPLab/AT-BSL で利用可能です。
Deep neural networks are vulnerable to adversarial attacks, often leading to erroneous outputs. Adversarial training has been recognized as one of the most effective methods to counter such attacks. However, existing adversarial training techniques have predominantly been tested on balanced datasets, whereas real-world data often exhibit a long-tailed distribution, casting doubt on the efficacy of these methods in practical scenarios. In this paper, we delve into adversarial training under long-tailed distributions. Through an analysis of the previous work "RoBal", we discover that utilizing Balanced Softmax Loss alone can achieve performance comparable to the complete RoBal approach while significantly reducing training overheads. Additionally, we reveal that, similar to uniform distributions, adversarial training under long-tailed distributions also suffers from robust overfitting. To address this, we explore data augmentation as a solution and unexpectedly discover that, unlike results obtained with balanced data, data augmentation not only effectively alleviates robust overfitting but also significantly improves robustness. We further investigate the reasons behind the improvement of robustness through data augmentation and identify that it is attributable to the increased diversity of examples. Extensive experiments further corroborate that data augmentation alone can significantly improve robustness. Finally, building on these findings, we demonstrate that compared to RoBal, the combination of BSL and data augmentation leads to a +6.66% improvement in model robustness under AutoAttack on CIFAR-10-LT. Our code is available at https://github.com/NISPLab/AT-BSL . | 翻訳日:2024-03-18 18:09:44 公開日:2024-03-15 |
# コンピュータビジョンにおける合成データ拡張手法の検討
A survey of synthetic data augmentation methods in computer vision ( http://arxiv.org/abs/2403.10075v1 ) ライセンス: Link先を確認 | Alhassan Mumuni, Fuseini Mumuni, Nana Kobina Gerrar, | (参考訳) コンピュータビジョン問題に対処するための標準的なアプローチは、ターゲットタスクを表す大規模な画像データセットを使用して、ディープ畳み込みニューラルネットワーク(CNN)モデルを訓練することである。
しかし、多くのシナリオにおいて、ターゲットタスクに十分な画像データを取得することはしばしば困難である。
データ拡張は、この課題を軽減する方法です。
一般的な実践は、既存の画像を望ましい方法で明示的に変換して、優れた一般化性能を達成するために必要なトレーニングデータのボリュームと可変性を作成することである。
対象ドメインのデータにアクセスできない状況において、実行可能な回避策は、スクラッチからトレーニングデータを合成することである。
本稿では,合成データ拡張技術について概観する。
リアルな3Dグラフィックモデリング、ニューラルスタイル転送(NST)、ディファレンシャル・ニューラルレンダリング、生成的対向ネットワーク(GAN)や可変オートエンコーダ(VAE)といった生成的人工知能(AI)技術に基づくデータ合成アプローチをカバーしている。
これらのメソッドのクラスごとに、重要なデータ生成と拡張技術、アプリケーションと特定のユースケースの一般的なスコープ、既存の制限や回避策に焦点を当てます。
さらに、コンピュータビジョンモデルをトレーニングするための一般的な合成データセットの要約を提供し、主な特徴、アプリケーションドメイン、サポートされたタスクを強調します。
最後に,合成データ拡張手法の有効性について論じる。
本論文は,合成データ拡張手法を詳細に探求する最初の論文であるため,既存の手法の背景情報や詳細な知識を読者に提供することを望む。
The standard approach to tackling computer vision problems is to train deep convolutional neural network (CNN) models using large-scale image datasets which are representative of the target task. However, in many scenarios, it is often challenging to obtain sufficient image data for the target task. Data augmentation is a way to mitigate this challenge. A common practice is to explicitly transform existing images in desired ways so as to create the required volume and variability of training data necessary to achieve good generalization performance. In situations where data for the target domain is not accessible, a viable workaround is to synthesize training data from scratch--i.e., synthetic data augmentation. This paper presents an extensive review of synthetic data augmentation techniques. It covers data synthesis approaches based on realistic 3D graphics modeling, neural style transfer (NST), differential neural rendering, and generative artificial intelligence (AI) techniques such as generative adversarial networks (GANs) and variational autoencoders (VAEs). For each of these classes of methods, we focus on the important data generation and augmentation techniques, general scope of application and specific use-cases, as well as existing limitations and possible workarounds. Additionally, we provide a summary of common synthetic datasets for training computer vision models, highlighting the main features, application domains and supported tasks. Finally, we discuss the effectiveness of synthetic data augmentation methods. Since this is the first paper to explore synthetic data augmentation methods in great detail, we are hoping to equip readers with the necessary background information and in-depth knowledge of existing methods and their attendant issues. | 翻訳日:2024-03-18 18:09:44 公開日:2024-03-15 |
# シャドウ適応アタックによる画像シャドウ除去の逆ロバスト性評価
Benchmarking Adversarial Robustness of Image Shadow Removal with Shadow-adaptive Attacks ( http://arxiv.org/abs/2403.10076v1 ) ライセンス: Link先を確認 | Chong Wang, Yi Yu, Lanqing Guo, Bihan Wen, | (参考訳) シャドウ除去は、画像に存在する地域影を消し去り、一貫した照明で自然の風景を再生するタスクである。
最近のディープラーニング技術は、画像シャドウ除去において顕著な性能を示しているが、敵の攻撃に対する堅牢性はほとんど解明されていない。
さらに、多くの既存の攻撃フレームワークは、通常、入力画像全体にわたる摂動の均一な予算を割り当てるが、それはシャドウ画像の攻撃には適さないかもしれない。
これは主に、影画像内の空間的に異なる照明の特徴によるものである。
本稿では,シャドーアダプティブ・アダプティブ・アタック(シャドウアダプティブ・アタック)と呼ばれる新しい手法を提案する。
標準的な敵攻撃と異なり、影画像の異なる領域の画素強度に基づいて攻撃予算を調整する。
その結果、非シャドウ領域の摂動に対する耐性を高めつつ、シャドウ領域の最適化された対向ノイズは視覚的に知覚されにくくなった。
提案したシャドウ適応攻撃は、シャドウ画像の様々な照明分布と自然に一致し、乱れは目立たなくなる。
これに基づいて、既存のシャドウ除去手法の総合的な実証評価を行い、公開されているデータセットに対する様々なレベルの攻撃を受ける。
Shadow removal is a task aimed at erasing regional shadows present in images and reinstating visually pleasing natural scenes with consistent illumination. While recent deep learning techniques have demonstrated impressive performance in image shadow removal, their robustness against adversarial attacks remains largely unexplored. Furthermore, many existing attack frameworks typically allocate a uniform budget for perturbations across the entire input image, which may not be suitable for attacking shadow images. This is primarily due to the unique characteristic of spatially varying illumination within shadow images. In this paper, we propose a novel approach, called shadow-adaptive adversarial attack. Different from standard adversarial attacks, our attack budget is adjusted based on the pixel intensity in different regions of shadow images. Consequently, the optimized adversarial noise in the shadowed regions becomes visually less perceptible while permitting a greater tolerance for perturbations in non-shadow regions. The proposed shadow-adaptive attacks naturally align with the varying illumination distribution in shadow images, resulting in perturbations that are less conspicuous. Building on this, we conduct a comprehensive empirical evaluation of existing shadow removal methods, subjecting them to various levels of attack on publicly available datasets. | 翻訳日:2024-03-18 18:09:44 公開日:2024-03-15 |
# 量子化ラマン顕微鏡による高速生体イメージング
Fast biological imaging with quantum-enhanced Raman microscopy ( http://arxiv.org/abs/2403.10077v1 ) ライセンス: Link先を確認 | Alex Terrasson, Nicolas P. Mauranyapin, Catxere A. Casacio, Joel Q. Grim, Kai Barnscheidt, Boris Hage, Michael A. Taylor, W. P. Bowen, | (参考訳) 刺激ラマン散乱(SRS)顕微鏡は、高い特異性と感度で化学物質の振動応答をプローブする強力なラベルフリーイメージング技術である。
高分子や生物試料に高出力で量子増強されたSRS顕微鏡が最近実証され応用されている。
量子相関は、圧縮光の形で、顕微鏡がショットノイズ限界以下で動作し、照明強度を増大させることなく性能を向上させることができる。
これは、ショットノイズ制限顕微鏡において、信号対雑音比(SNR)と光損傷によって引き起こされる速度制約に対処する。
以前の顕微鏡ではシングルビーム・スクイーズを使用していたが、最大SNRのポンプ・ストークス強度の最適比に達するには明るさが不十分であったり、ツインビーム・スクイーズを使用して3dBのノイズペナルティを被ったりしていた。
本稿では,SRSプロセスの最適効率で動作可能な,明るい圧縮シングルビームを用いた量子化ラマン顕微鏡について報告する。
明るさの増加は、空間フィルタリングによって部分的に克服したスケズレベルを低下させる多重モード効果をもたらす。
生体試料に量子強調SRS顕微鏡を適用し,生体細胞の量子強調マルチスペクトルイメージングを実証した。
18秒で100×100ピクセルの撮像速度はセルオルガンのダイナミックスを解消する。
達成されたSNRは、ビデオレートイメージングと互換性があり、量子相関は、ショットノイズ制限動作と比較して、撮像速度が20%向上する。
Stimulated Raman scattering (SRS) microscopy is a powerful label-free imaging technique that probes the vibrational response of chemicals with high specificity and sensitivity. High-power, quantum-enhanced SRS microscopes have been recently demonstrated and applied to polymers and biological samples. Quantum correlations, in the form of squeezed light, enable the microscopes to operate below the shot noise limit, enhancing their performance without increasing the illumination intensity. This addresses the signal-to-noise ratio (SNR) and speed constraints introduced by photodamage in shot noise-limited microscopes. Previous microscopes have either used single-beam squeezing, but with insufficient brightness to reach the optimal ratio of pump-to-Stokes intensity for maximum SNR, or have used twin-beam squeezing and suffered a 3 dB noise penalty. Here we report a quantum-enhanced Raman microscope that uses a bright squeezed single-beam, enabling operation at the optimal efficiency of the SRS process. The increase in brightness leads to multimode effects that degrade the squeezing level, which we partially overcome using spatial filtering. We apply our quantum-enhanced SRS microscope to biological samples, and demonstrate quantum-enhanced multispectral imaging of living cells. The imaging speed of 100x100 pixels in 18 seconds allows the dynamics of cell organelles to be resolved. The SNR achieved is compatible with video rate imaging, with the quantum correlations yielding a 20% improvement in imaging speed compared to shot noise limited operation. | 翻訳日:2024-03-18 18:09:44 公開日:2024-03-15 |
# 一次元における非中心相互作用を持つ量子粒子の定常特性に対する暗黒状態の影響
Impact of dark states on the stationary properties of quantum particles with off-centered interactions in one dimension ( http://arxiv.org/abs/2403.10078v1 ) ライセンス: Link先を確認 | G. Bougas, N. L. Harshman, P. Schmelcher, | (参考訳) 一次元に閉じ込められた非相対論的粒子に対する2体接触相互作用の一般化を提案する。
粒子は距離cが離れているときにのみ相互作用する。
相互作用長スケールと振動子長の競合は、エネルギースペクトルから同定される3つのレギュレーションをもたらす。
c が振動子長より小さい場合、粒子は互いに避けるが、逆の場合、束縛が発生する。
発振器長がcに匹敵する中間領域では、排除と束縛の両方が現れる。
これらの領域は全て、相互作用の影響を受けない暗黒状態、すなわちボゾン状態またはフェルミオン状態によって分離される。
We present a generalization of the two-body contact interaction for non-relativistic particles trapped in one dimension. The particles interact only when they are a distance c apart. The competition of the interaction length scale with the oscillator length leads to three regimes identified from the energy spectra. When c is less than the oscillator length, particles avoid each other, whereas in the opposite case bunching occurs. In the intermediate region where the oscillator length is comparable to c, both exclusion and bunching are manifested. All of these regions are separated by dark states, i.e. bosonic or fermionic states which are not affected by the interactions. | 翻訳日:2024-03-18 18:09:44 公開日:2024-03-15 |
# 物体中心の視覚予測のための物理ダイナミクスの学習
Learning Physical Dynamics for Object-centric Visual Prediction ( http://arxiv.org/abs/2403.10079v1 ) ライセンス: Link先を確認 | Huilin Xu, Tao Chen, Feng Xu, | (参考訳) 視覚シーンの基盤となるダイナミクスをモデル化し、未来についての理屈をモデル化する能力は、人間の知性の中心である。
このような物理的理解と予測能力を持つインテリジェントシステムを強化するために、多くの試みがなされている。
しかし、既存のほとんどの手法は、ビデオの背後にある物理力学の深い理解を欠きながら、計算コストの重いピクセル間予測に重点を置いている。
近年,オブジェクト中心の予測手法が登場し,関心が高まっている。
そこで本研究では,オブジェクト間の視覚的ダイナミクスを学習することによって,将来予測を行う,教師なしオブジェクト中心予測モデルを提案する。
私たちのモデルは、知覚モジュールと動的モジュールの2つのモジュールで構成されています。
知覚モジュールは、画像を複数のオブジェクトに分解し、オブジェクト中心の表現セットで画像を合成するために使用される。
動的モジュールはコンテキスト情報を融合し、環境オブジェクトとオブジェクトオブジェクトの相互作用を考慮に入れ、将来のオブジェクトの軌跡を予測する。
提案手法の有効性を検証するため, 広範囲な実験を行った。
定量的および定性的な実験の結果から,我々のモデルは最先端の手法と比較して,高い視覚的品質とより物理的に信頼性の高い予測を生成することが示された。
The ability to model the underlying dynamics of visual scenes and reason about the future is central to human intelligence. Many attempts have been made to empower intelligent systems with such physical understanding and prediction abilities. However, most existing methods focus on pixel-to-pixel prediction, which suffers from heavy computational costs while lacking a deep understanding of the physical dynamics behind videos. Recently, object-centric prediction methods have emerged and attracted increasing interest. Inspired by it, this paper proposes an unsupervised object-centric prediction model that makes future predictions by learning visual dynamics between objects. Our model consists of two modules, perceptual, and dynamic module. The perceptual module is utilized to decompose images into several objects and synthesize images with a set of object-centric representations. The dynamic module fuses contextual information, takes environment-object and object-object interaction into account, and predicts the future trajectory of objects. Extensive experiments are conducted to validate the effectiveness of the proposed method. Both quantitative and qualitative experimental results demonstrate that our model generates higher visual quality and more physically reliable predictions compared to the state-of-the-art methods. | 翻訳日:2024-03-18 18:09:44 公開日:2024-03-15 |
# DRAGIN:大規模言語モデルのリアルタイム情報要求に基づく動的検索拡張生成
DRAGIN: Dynamic Retrieval Augmented Generation based on the Real-time Information Needs of Large Language Models ( http://arxiv.org/abs/2403.10081v1 ) ライセンス: Link先を確認 | Weihang Su, Yichen Tang, Qingyao Ai, Zhijing Wu, Yiqun Liu, | (参考訳) 動的検索拡張生成(RAG)パラダイムは,Large Language Models(LLMs)のテキスト生成プロセスにおいて,いつ,何を検索するかを積極的に決定する。
このパラダイムには2つの重要な要素がある: 検索モジュールをアクティベートする最適なモーメントを識別する(検索するタイミングを決定する)ことと、検索が起動したら適切なクエリを作成する(検索する項目を決定する)ことである。
しかし、現在の動的RAGメソッドはどちらの面においても不足している。
まず、いつ取得するかを決める戦略は、しばしば静的なルールに依存します。
さらに、何を取得するかを決める戦略は、通常、LLMの最新の文や最後のいくつかのトークンに制限されるが、LLMのリアルタイム情報要求は、コンテキスト全体にまたがる可能性がある。
これらの制約を克服するために,LLMのリアルタイム情報要求に基づく動的検索拡張生成(DRAGIN)という新しいフレームワークを導入する。
本フレームワークは,テキスト生成プロセスにおいて,LLMのリアルタイム情報要求に基づいて,いつ,何を取得するかを決定するように設計されている。
DRAGINと既存の4つの知識集約型生成データセットを包括的に比較した。
実験の結果,DRAGINは全タスクにおいて優れた性能を示し,本手法の有効性を実証した。
https://github.com/oneal2000/DRAGIN/tree/main
Dynamic retrieval augmented generation (RAG) paradigm actively decides when and what to retrieve during the text generation process of Large Language Models (LLMs). There are two key elements of this paradigm: identifying the optimal moment to activate the retrieval module (deciding when to retrieve) and crafting the appropriate query once retrieval is triggered (determining what to retrieve). However, current dynamic RAG methods fall short in both aspects. Firstly, the strategies for deciding when to retrieve often rely on static rules. Moreover, the strategies for deciding what to retrieve typically limit themselves to the LLM's most recent sentence or the last few tokens, while the LLM's real-time information needs may span across the entire context. To overcome these limitations, we introduce a new framework, DRAGIN, i.e., Dynamic Retrieval Augmented Generation based on the real-time Information Needs of LLMs. Our framework is specifically designed to make decisions on when and what to retrieve based on the LLM's real-time information needs during the text generation process. We evaluate DRAGIN along with existing methods comprehensively over 4 knowledge-intensive generation datasets. Experimental results show that DRAGIN achieves superior performance on all tasks, demonstrating the effectiveness of our method. We have open-sourced all the code, data, and models in GitHub: https://github.com/oneal2000/DRAGIN/tree/main | 翻訳日:2024-03-18 18:09:44 公開日:2024-03-15 |
# CrossGLG: LLM Guides One-shot Skeleton-based 3D Action Recognition in a Cross-level Manner
CrossGLG: LLM Guides One-shot Skeleton-based 3D Action Recognition in a Cross-level Manner ( http://arxiv.org/abs/2403.10082v1 ) ライセンス: Link先を確認 | Tingbing Yan, Wenzheng Zeng, Yang Xiao, Xingyu Tong, Bo Tan, Zhiwen Fang, Zhiguo Cao, Joey Tianyi Zhou, | (参考訳) 既存のワンショットスケルトンに基づくアクション認識のほとんどは、生の低レベル情報(例えば、関節位置)に焦点を当てており、局所的な情報損失と一般化能力の低下に悩まされている。
これらの課題を解決するため,多言語モデル(LLM)から生成された高レベルの人間の知識を含むテキスト記述を活用し,グローバル・ローカル・グローバルな方法で特徴学習を導くことを提案する。
特に、トレーニング中に、LLMから各アクションのグローバルおよびローカルなテキスト記述を得るために、2ドルのプロンプトを設計します。
まず、グローバルテキスト記述を用いて、情報的関節(グロバル・トゥ・ローカル)に焦点を当てたスケルトンエンコーダを誘導する。
そして、局所的なテキストと共同特徴の間の非局所的な相互作用を構築し、最終的なグローバル表現(すなわち、地域からグローバル)を形成する。
トレーニングと推論フェーズ間の非対称性問題を緩和するため,テキスト入力を伴わずに新しいクラス推論を行うことができるデュアルブランチアーキテクチャを設計し,ベーススケルトンエンコーダと比較して追加の推論コストを無視できるようにする。
3つの異なるベンチマークでの大規模な実験により、CrossGLGは既存のSOTA法を常に大きなマージンで上回り、推論コスト(モデルサイズ)は以前のSOTAよりもわずか2.8$\%であることがわかった。
CrossGLGは、様々なSOTAスケルトンエンコーダの性能を大幅に向上するプラグイン・アンド・プレイモジュールとしても機能する。
ソースコードはまもなくリリースされる予定だ。
Most existing one-shot skeleton-based action recognition focuses on raw low-level information (e.g., joint location), and may suffer from local information loss and low generalization ability. To alleviate these, we propose to leverage text description generated from large language models (LLM) that contain high-level human knowledge, to guide feature learning, in a global-local-global way. Particularly, during training, we design $2$ prompts to gain global and local text descriptions of each action from an LLM. We first utilize the global text description to guide the skeleton encoder focus on informative joints (i.e.,global-to-local). Then we build non-local interaction between local text and joint features, to form the final global representation (i.e., local-to-global). To mitigate the asymmetry issue between the training and inference phases, we further design a dual-branch architecture that allows the model to perform novel class inference without any text input, also making the additional inference cost neglectable compared with the base skeleton encoder. Extensive experiments on three different benchmarks show that CrossGLG consistently outperforms the existing SOTA methods with large margins, and the inference cost (model size) is only $2.8$\% than the previous SOTA. CrossGLG can also serve as a plug-and-play module that can substantially enhance the performance of different SOTA skeleton encoders with a neglectable cost during inference. The source code will be released soon. | 翻訳日:2024-03-18 18:09:44 公開日:2024-03-15 |
# 量子多体プローブを用いた逐次温度測定
Sequential measurements thermometry with quantum many-body probes ( http://arxiv.org/abs/2403.10084v1 ) ライセンス: Link先を確認 | Yaoling Yang, Victor Montenegro, Abolfazl Bayat, | (参考訳) 量子システムの温度を測定することは、量子技術のほとんど全ての面において重要な課題である。
理論的には、温度測定の最適戦略は、システム全体の完全なアクセシビリティと複雑な絡み合った測定基準を必要とするエネルギーを測定することを必要とする。
本稿では,多体系の高精度な温度測定を可能にするだけでなく,理論的な境界を超える精度を達成でき,平衡エネルギー測定の要求を回避できることを示す。
このような精度を得るためには、次の2つの測定間の時間は、プローブが加熱されないように熱化時間よりも小さくすべきである。
したがって、系の非平衡ダイナミクスは、プローブの状態の温度に関する情報を継続的にインプリントする。
これにより、逐次測定スキームは平衡プローブの複雑なエネルギー測定によって達成できる精度を超える精度に達することができる。
Measuring the temperature of a quantum system is an essential task in almost all aspects of quantum technologies. Theoretically, an optimal strategy for thermometry requires measuring energy which demands full accessibility over the entire system as well as complex entangled measurement basis. In this paper, we take a different approach and show that single qubit sequential measurements in the computational basis not only allows precise thermometry of a many-body system but may also achieve precision beyond the theoretical bound, avoiding demanding energy measurements at equilibrium. To obtain such precision, the time between the two subsequent measurements should be smaller than the thermalization time so that the probe never thermalizes. Therefore, the non-equilibrium dynamics of the system continuously imprint information about temperature in the state of the probe. This allows the sequential measurement scheme to reach precision beyond the accuracy achievable by complex energy measurements on equilibrium probes. | 翻訳日:2024-03-18 18:09:44 公開日:2024-03-15 |
# VRHCF: Voxel表現と階層対応フィルタリングによるクロスソースポイントクラウド登録
VRHCF: Cross-Source Point Cloud Registration via Voxel Representation and Hierarchical Correspondence Filtering ( http://arxiv.org/abs/2403.10085v1 ) ライセンス: Link先を確認 | Guiyu Zhao, Zewen Du, Zhentao Guo, Hongbin Ma, | (参考訳) 多様なセンサから収集されるポイントクラウドデータの大きなギャップによって引き起こされる課題に対処する上で、堅牢なクロスソースポイントクラウド登録を実現することは、非常に大きな課題となる。
これに対し,同種およびクロスソースの登録シナリオに適した広い適用性を有するポイントクラウド登録のための新しいフレームワークを提案する。
クロスソース・ポイント・クラウド・データにおける様々な密度や分布から生じる問題に対処するため,球面ボクセルに基づく特徴表現を導入する。
さらに、ソース間登録における多くの外れ値やミスマッチの課題に対処し、階層型対応フィルタリング手法を提案する。
この方法は次第にミスマッチを除去し、高品質な対応を与える。
提案手法は,従来のホモロジー登録とクロスソース登録の両シナリオにおいて,多種多様な適用性を示す。
具体的には,3DMatchデータセットを用いたホモログ登録では,95.1%,イリヤ比87.8%が最も高い登録リコールを達成した。
クロスソースのクラウド登録では、3DCSRデータセット上で最高のRRを獲得し、9.3%の改善率を示す。
コードはhttps://github.com/GuiyuZhao/VRHCFで公開されている。
Addressing the challenges posed by the substantial gap in point cloud data collected from diverse sensors, achieving robust cross-source point cloud registration becomes a formidable task. In response, we present a novel framework for point cloud registration with broad applicability, suitable for both homologous and cross-source registration scenarios. To tackle the issues arising from different densities and distributions in cross-source point cloud data, we introduce a feature representation based on spherical voxels. Furthermore, addressing the challenge of numerous outliers and mismatches in cross-source registration, we propose a hierarchical correspondence filtering approach. This method progressively filters out mismatches, yielding a set of high-quality correspondences. Our method exhibits versatile applicability and excels in both traditional homologous registration and challenging cross-source registration scenarios. Specifically, in homologous registration using the 3DMatch dataset, we achieve the highest registration recall of 95.1% and an inlier ratio of 87.8%. In cross-source point cloud registration, our method attains the best RR on the 3DCSR dataset, demonstrating a 9.3 percentage points improvement. The code is available at https://github.com/GuiyuZhao/VRHCF. | 翻訳日:2024-03-18 18:09:44 公開日:2024-03-15 |
# 非機能特性を目標としたシステムレベルテストプログラムを生成するための大規模言語モデル
Large Language Models to Generate System-Level Test Programs Targeting Non-functional Properties ( http://arxiv.org/abs/2403.10086v1 ) ライセンス: Link先を確認 | Denis Schwachhofer, Peter Domanski, Steffen Becker, Stefan Wagner, Matthias Sauer, Dirk Pflüger, Ilia Polian, | (参考訳) System-Level Test (SLT) は10年以上にわたって集積回路のテストフローの一部であり、依然として重要になっている。
しかしながら、テストプログラム生成のための体系的なアプローチは存在せず、特にテスト対象デバイス(DUT)の非機能特性をターゲットにしている。
現在、テストエンジニアは、DUTのエンドユーザ環境を近似して、既製のソフトウェアからテストスイートを手作業で作成している。
これは、機能しないプロパティに対する十分な制御を保証しない、困難で退屈なタスクです。
本稿では,テストプログラムを生成するためのLarge Language Models (LLM)を提案する。
我々は、DUTの非機能特性を最適化するために、事前訓練されたLLMがテストプログラム生成でどのように機能するかを、一目で見てみる。
したがって、シミュレーションにおいて超スカラー・アウト・オブ・オーダーアーキテクチャのサイクル当たりの命令を最大化するCコードスニペットを生成するプロンプトを記述する。
さらに,さらなるトレーニングを行なわずに最適な結果を得るために,プロンプトとハイパーパラメータの最適化を適用した。
System-Level Test (SLT) has been a part of the test flow for integrated circuits for over a decade and still gains importance. However, no systematic approaches exist for test program generation, especially targeting non-functional properties of the Device under Test (DUT). Currently, test engineers manually compose test suites from off-the-shelf software, approximating the end-user environment of the DUT. This is a challenging and tedious task that does not guarantee sufficient control over non-functional properties. This paper proposes Large Language Models (LLMs) to generate test programs. We take a first glance at how pre-trained LLMs perform in test program generation to optimize non-functional properties of the DUT. Therefore, we write a prompt to generate C code snippets that maximize the instructions per cycle of a super-scalar, out-of-order architecture in simulation. Additionally, we apply prompt and hyperparameter optimization to achieve the best possible results without further training. | 翻訳日:2024-03-18 18:09:44 公開日:2024-03-15 |
# SE-InceptionV3の改良に基づくサルポックス病の認識モデル
Monkeypox disease recognition model based on improved SE-InceptionV3 ( http://arxiv.org/abs/2403.10087v1 ) ライセンス: Link先を確認 | Junzhuo Chen, Zonghan Lu, Shitong Kang, | (参考訳) サルポックスの世界的な普及に伴い、正確な疾患認識が重要になっている。
本研究はSE-InceptionV3モデルを改良し,SENetモジュールを組み込み,インセプションV3フレームワークにL2正規化を組み込むことでサルポックス病の検出を向上する。
サルポックスと類似した皮膚条件の画像を含むKaggleMonkeypoxデータセットを用いて、テストセット上で96.71%の精度を示し、従来の手法やディープラーニングモデルよりも優れていた。
SENetモジュールのアテンション機構は特徴表現を著しく高め、L2正規化は堅牢な一般化を保証する。
広範囲にわたる実験は、モデルの精度、リコール、F1スコアにおける優越性を検証し、多種多様な複雑な症例におけるサルポックス病変の鑑別における効果を強調した。
この研究は、医学診断における先進的なCNNアーキテクチャの適用に関する洞察を提供するだけでなく、モデル最適化と高パラメータチューニングのさらなる研究の道を開く。
https://github.com/jzc777/SE-inceptionV3-L2
In the wake of the global spread of monkeypox, accurate disease recognition has become crucial. This study introduces an improved SE-InceptionV3 model, embedding the SENet module and incorporating L2 regularization into the InceptionV3 framework to enhance monkeypox disease detection. Utilizing the Kaggle monkeypox dataset, which includes images of monkeypox and similar skin conditions, our model demonstrates a noteworthy accuracy of 96.71% on the test set, outperforming conventional methods and deep learning models. The SENet modules channel attention mechanism significantly elevates feature representation, while L2 regularization ensures robust generalization. Extensive experiments validate the models superiority in precision, recall, and F1 score, highlighting its effectiveness in differentiating monkeypox lesions in diverse and complex cases. The study not only provides insights into the application of advanced CNN architectures in medical diagnostics but also opens avenues for further research in model optimization and hyperparameter tuning for enhanced disease recognition. https://github.com/jzc777/SE-inceptionV3-L2 | 翻訳日:2024-03-18 18:09:44 公開日:2024-03-15 |
# RLAIFを用いたマルチタスクインストラクションチューニングによるインテントコンディショニングと非有毒音声生成
Intent-conditioned and Non-toxic Counterspeech Generation using Multi-Task Instruction Tuning with RLAIF ( http://arxiv.org/abs/2403.10088v1 ) ライセンス: Link先を確認 | Amey Hengle, Aswini Kumar, Sahajpreet Singh, Anil Bandhakavi, Md Shad Akhtar, Tanmoy Chakroborty, | (参考訳) Counterspeechは、オンラインヘイトスピーチを緩和する反応として定義されており、センセーショナルでないソリューションとしてますます使われている。
ヘイトスピーチに対処するには、ステレオタイプ、偏見、偏見を効果的に排除し、しばしば簡潔で単文の言論や虐待に微妙に含められる。
これらの暗黙の表現は言語モデル、特にSeq2seqタスクに挑戦する。
ヘイトフルステートメントにおける社会的バイアスの背景にある実践的意味をモデル化し,反音声生成を促進させる新しいフレームワークであるCoARLを紹介した。
CoARLの最初の2つのフェーズは、連続的なマルチインストラクションチューニング、インテント、反応、攻撃的ステートメントの害を理解するためのモデルを教えること、そしてインテント条件付き逆音声を生成するためのタスク固有の低ランクアダプタ重みを学習することである。
最終フェーズでは、強化学習を使用して、効果と非毒性のアウトプットを微調整する。
CoARLは、意図条件付き逆音声生成における既存のベンチマークよりも優れており、意図整合性の3ポイントと引数品質のメトリクスの4ポイントの平均的な改善を示している。
広範囲な人的評価は、ChatGPTのような著名なLLMを含む既存のシステムと比較して、CoARLの優れた、よりコンテキストに適合した応答を生成する効果を支持する。
Counterspeech, defined as a response to mitigate online hate speech, is increasingly used as a non-censorial solution. Addressing hate speech effectively involves dispelling the stereotypes, prejudices, and biases often subtly implied in brief, single-sentence statements or abuses. These implicit expressions challenge language models, especially in seq2seq tasks, as model performance typically excels with longer contexts. Our study introduces CoARL, a novel framework enhancing counterspeech generation by modeling the pragmatic implications underlying social biases in hateful statements. CoARL's first two phases involve sequential multi-instruction tuning, teaching the model to understand intents, reactions, and harms of offensive statements, and then learning task-specific low-rank adapter weights for generating intent-conditioned counterspeech. The final phase uses reinforcement learning to fine-tune outputs for effectiveness and non-toxicity. CoARL outperforms existing benchmarks in intent-conditioned counterspeech generation, showing an average improvement of 3 points in intent-conformity and 4 points in argument-quality metrics. Extensive human evaluation supports CoARL's efficacy in generating superior and more context-appropriate responses compared to existing systems, including prominent LLMs like ChatGPT. | 翻訳日:2024-03-18 18:09:44 公開日:2024-03-15 |
# フィッシャー・ラオ距離の近似と有界化
Approximation and bounding techniques for the Fisher-Rao distances ( http://arxiv.org/abs/2403.10089v1 ) ライセンス: Link先を確認 | Frank Nielsen, | (参考訳) 統計モデルの2つの確率分布間のフィッシャー・ラオ距離は、フィッシャー情報計量によって誘導されるリーマン測地距離として定義される。
クローズド形式のフィッシャー・ラオ距離を計算するためには、(1)フィッシャー・ラオ測地線の式を導出し、(2)フィッシャー長要素をそれらの測地線に沿って積分する必要がある。
我々はフィッシャー・ラオ距離の数値的ロバストな近似とバウンディング手法について考察する: まず, サブモデルの閉形式1Dフィッシャー・ラオ距離に基づくフィッシャー・ラオ距離の一般上界について報告する。
第二に、フィッシャー・ラオ測地学やプレジオデシクスがクローズド形式で利用できるかどうかによって、いくつかの一般的な近似スキームを記述する。
特に,フィッシャー・ラオ・プレジェデシクスとタイト・ロウアー・アッパー・バウンドが利用できると仮定して,任意に小さな加法誤差を保証できる汎用的手法を得る。
第3に,フィッシャー測度がヘッセン測度である場合を考察し,情報幾何学の手法を用いて,フィッシャー・ラオ距離の総称的上界を報告する。
単パラメトリックおよび双パラメトリック統計モデルは、常にフィッシャー・ヘッセン計量を持ち、一般に、フィッシャー情報行列がヘッセン計量を生成するかどうかを確認するための単純なテストが可能である。
第4に、楕円分布系を考察し、上記の手法をこれらのモデルに適用する方法を示す。
また、フィッシャー・ラオ測地線のプロキシとして機能する曲線のフィッシャー・ラオ長に基づく2つの新しい距離や、バーコフ/ヒルベルト射影円錐距離に基づく2つの新しい距離を提案する。
最後に、フィッシャー・ラオ距離式の構造に関する洞察を得られる最大不変量の概念に基づいて、統計変換モデルに対する別の群論的アプローチを考える。
The Fisher-Rao distance between two probability distributions of a statistical model is defined as the Riemannian geodesic distance induced by the Fisher information metric. In order to calculate the Fisher-Rao distance in closed-form, we need (1) to elicit a formula for the Fisher-Rao geodesics, and (2) to integrate the Fisher length element along those geodesics. We consider several numerically robust approximation and bounding techniques for the Fisher-Rao distances: First, we report generic upper bounds on Fisher-Rao distances based on closed-form 1D Fisher-Rao distances of submodels. Second, we describe several generic approximation schemes depending on whether the Fisher-Rao geodesics or pregeodesics are available in closed-form or not. In particular, we obtain a generic method to guarantee an arbitrarily small additive error on the approximation provided that Fisher-Rao pregeodesics and tight lower and upper bounds are available. Third, we consider the case of Fisher metrics being Hessian metrics, and report generic tight upper bounds on the Fisher-Rao distances using techniques of information geometry. Uniparametric and biparametric statistical models always have Fisher Hessian metrics, and in general a simple test allows to check whether the Fisher information matrix yields a Hessian metric or not. Fourth, we consider elliptical distribution families and show how to apply the above techniques to these models. We also propose two new distances based either on the Fisher-Rao lengths of curves serving as proxies of Fisher-Rao geodesics, or based on the Birkhoff/Hilbert projective cone distance. Last, we consider an alternative group-theoretic approach for statistical transformation models based on the notion of maximal invariant which yields insights on the structures of the Fisher-Rao distance formula which may be used fruitfully in applications. | 翻訳日:2024-03-18 18:09:44 公開日:2024-03-15 |
# PQDynamicISP: 知覚品質の高い画像センサのための動的制御された画像信号処理装置
PQDynamicISP: Dynamically Controlled Image Signal Processor for Any Image Sensors Pursuing Perceptual Quality ( http://arxiv.org/abs/2403.10091v1 ) ライセンス: Link先を確認 | Masakazu Yoshimura, Junji Otsuka, Takeshi Ohashi, | (参考訳) フルDNNベースの画像信号プロセッサ(ISP)は,従来のISPと比較して画像品質が向上している。
この傾向とは対照的に,従来の単純なISP関数からなる軽量ISPを提案するが,表現性を高めて高画質を実現する。
具体的には,ISPのパラメータをチューニングするのではなく,各環境,さらにはローカルでも動的に制御することを提案する。
その結果、DNNベースのISPよりも軽量であるにもかかわらず、トーンマッピングや画像強調などのタスクを含む様々なデータセットで最先端の精度が達成された。
さらに,従来の手法では各センサのトレーニングが必要であったのに対し,本手法は動的制御により1つのISPで異なるイメージセンサを処理できる。
Full DNN-based image signal processors (ISPs) have been actively studied and have achieved superior image quality compared to conventional ISPs. In contrast to this trend, we propose a lightweight ISP that consists of simple conventional ISP functions but achieves high image quality by increasing expressiveness. Specifically, instead of tuning the parameters of the ISP, we propose to control them dynamically for each environment and even locally. As a result, state-of-the-art accuracy is achieved on various datasets, including other tasks like tone mapping and image enhancement, even though ours is lighter than DNN-based ISPs. Additionally, our method can process different image sensors with a single ISP through dynamic control, whereas conventional methods require training for each sensor. | 翻訳日:2024-03-18 18:09:43 公開日:2024-03-15 |
# XACMLを用いたアクティビティ依存ポリシーの仕様と施行
Specification and Enforcement of Activity Dependency Policies using XACML ( http://arxiv.org/abs/2403.10092v1 ) ライセンス: Link先を確認 | Tanjila Mawla, Maanak Gupta, Ravi Sandhu, | (参考訳) 進化するスマートで相互接続されたシステムは、人間の介入を最小限に抑えて動作するように設計されている。
これらのスマートシステム内のデバイスは、センサーデータとコンテキスト要素に基づいて長時間の操作を行うことが多い。
近年,活動中心アクセス制御 (ACAC) モデルが導入され,長期にわたる状態変化を制御している。
異なるアクティビティ間の依存関係は、セキュリティ違反を防ぐためにアクティビティ間の依存関係をアクティブかつリアルタイムに監視する必要があるため、お互いの実行に影響を与えて制限する可能性がある。
ACACモデルでは、要求されたアクティビティを制御するための決定パラメータとして、"D"と表記されるアクティビティ依存が考慮されている。
これらの依存関係は、アクティビティのライフサイクルのすべてのフェーズを通じて評価されなければなりません。
さまざまなドメインやアプリケーションにまたがるアクセス制御ルールの整合性を確保するためには、標準ポリシー言語が不可欠である。
本稿では、広く使われているeXtensible Access Control Markup Language (XACML) を $\mathrm{XACML_{AD}}$ として適用し、アクティビティ依存ポリシーを規定するポリシーフレームワークを提案する。
この作業には、依存するアクティビティの状態をチェックし、依存するアクティビティの状態を処理するための新しい要素を導入することで、XACMLの構文とセマンティクスを拡張することが含まれる。
言語拡張に加えて、アクティビティ依存のポリシーを評価するための実行アーキテクチャとデータフローモデルも提示する。
提案された$\mathrm{XACML_{AD}}$ポリシーフレームワークの統合とポリシーの実施は、依存性の評価、必要な更新、ライフサイクルを通してアクティビティを制御するポリシーの継続的な実施をサポートする。
我々は、$\mathrm{XACML_{AD}}$ポリシーフレームワークを利用した実行アーキテクチャを実装し、性能評価結果について議論する。
The evolving smart and interconnected systems are designed to operate with minimal human intervention. Devices within these smart systems often engage in prolonged operations based on sensor data and contextual factors. Recently, an Activity-Centric Access Control (ACAC) model has been introduced to regulate these prolonged operations, referred to as activities, which undergo state changes over extended duration of time. Dependencies among different activities can influence and restrict the execution of one another, necessitating active and real-time monitoring of the dependencies between activities to prevent security violation. In the ACAC model, the activity dependencies, denoted as "D", is considered as a decision parameter for controlling a requested activity. These dependencies must be evaluated throughout all phases of an activity's life cycle. To ensure the consistency of access control rules across diverse domains and applications, a standard policy language is essential. We propose a policy framework adapting the widely-used eXtensible Access Control Markup Language (XACML) , referred to as $\mathrm{XACML_{AD}}$, to specify the activity dependency policies. This work involves extending the syntax and semantics of XACML by introducing new elements to check dependent activities' states and handle state updates on dependent activities. In addition to the language extension, we present the enforcement architecture and data flow model of evaluating policies for activity dependencies. The integration of the proposed $\mathrm{XACML_{AD}}$ policy framework and the enforcement of the policies supports dependency evaluation, necessary updates and continuous enforcement of policies to control an activity throughout its life cycle. We implement the enforcement architecture exploiting the $\mathrm{XACML_{AD}}$ policy framework and discuss the performance evaluation results. | 翻訳日:2024-03-18 17:59:52 公開日:2024-03-15 |
# RangeLDM: 高速リアルなLiDARポイントクラウド生成
RangeLDM: Fast Realistic LiDAR Point Cloud Generation ( http://arxiv.org/abs/2403.10094v1 ) ライセンス: Link先を確認 | Qianjiang Hu, Zhimin Zhang, Wei Hu, | (参考訳) 自動運転は高品質なLiDARデータを必要とするが、物理的LiDARセンサーのコストは、大きなスケールアップ課題をもたらす。
近年、この問題に対処するための深層生成モデルの研究が行われているが、現実主義の欠如に悩まされながら、生成速度の遅い計算資源をしばしば消費している。
これらの制約に対処するために、潜伏拡散モデルを用いて高品質のLiDAR点雲を高速に生成するための新しいアプローチであるRangeLDMを導入する。
本研究では,点雲からHough投票による範囲画像への正確な投影のための範囲ビューデータ分布を補正し,生成学習に重要な影響を及ぼす。
次に、変分オートエンコーダを用いてレンジ画像を潜在空間に圧縮し、拡散モデルを利用して表現性を高める。
さらに、レンジ誘導型判別器を考案し、3次元構造的忠実性を維持するようモデルに指示する。
KITTI-360とnuScenesデータセットの実験結果は、当社のLiDAR点雲生成の堅牢性および高速性を実証している。
Autonomous driving demands high-quality LiDAR data, yet the cost of physical LiDAR sensors presents a significant scaling-up challenge. While recent efforts have explored deep generative models to address this issue, they often consume substantial computational resources with slow generation speeds while suffering from a lack of realism. To address these limitations, we introduce RangeLDM, a novel approach for rapidly generating high-quality range-view LiDAR point clouds via latent diffusion models. We achieve this by correcting range-view data distribution for accurate projection from point clouds to range images via Hough voting, which has a critical impact on generative learning. We then compress the range images into a latent space with a variational autoencoder, and leverage a diffusion model to enhance expressivity. Additionally, we instruct the model to preserve 3D structural fidelity by devising a range-guided discriminator. Experimental results on KITTI-360 and nuScenes datasets demonstrate both the robust expressiveness and fast speed of our LiDAR point cloud generation. | 翻訳日:2024-03-18 17:59:52 公開日:2024-03-15 |
# 微調整深層ニューラルネットワークにおける適応ランダム特徴正規化
Adaptive Random Feature Regularization on Fine-tuning Deep Neural Networks ( http://arxiv.org/abs/2403.10097v1 ) ライセンス: Link先を確認 | Shin'ya Yamaguchi, Sekitoshi Kanai, Kazuki Adachi, Daiki Chijiwa, | (参考訳) ファインチューニングはディープニューラルネットワークをトレーニングするデファクトスタンダードな方法だが、小さなターゲットデータセットを使用するとオーバーフィッティングに悩まされる。
従来の手法では、ソースデータセットの知識を維持したり、対照的な損失などの正規化用語を導入することにより、微調整性能を向上させる。
しかし、これらの方法は補助的なソース情報(例えば、ソースラベルやデータセット)や重い追加計算を必要とする。
本稿では,適応的ランダム特徴正規化(AdaRand)と呼ばれる簡単な手法を提案する。
AdaRandは、訓練モデルの特徴抽出器が、補助的なソース情報や適切な計算コストを伴わずに、下流の分類タスクのための特徴ベクトルの分布を適応的に変更するのに役立つ。
この目的のために、AdaRandは、クラス条件ガウス分布からサンプリングされる特徴ベクトルとランダム参照ベクトルの間のギャップを最小化する。
さらに、AdaRandは条件分布を動的に更新し、現在更新されている特徴抽出器に従い、特徴空間内のクラス間の距離をバランスさせる。
実験の結果、AdaRandは他の微調整正規化よりも優れており、補助的な情報源情報と重い計算コストが要求されることがわかった。
While fine-tuning is a de facto standard method for training deep neural networks, it still suffers from overfitting when using small target datasets. Previous methods improve fine-tuning performance by maintaining knowledge of the source datasets or introducing regularization terms such as contrastive loss. However, these methods require auxiliary source information (e.g., source labels or datasets) or heavy additional computations. In this paper, we propose a simple method called adaptive random feature regularization (AdaRand). AdaRand helps the feature extractors of training models to adaptively change the distribution of feature vectors for downstream classification tasks without auxiliary source information and with reasonable computation costs. To this end, AdaRand minimizes the gap between feature vectors and random reference vectors that are sampled from class conditional Gaussian distributions. Furthermore, AdaRand dynamically updates the conditional distribution to follow the currently updated feature extractors and balance the distance between classes in feature spaces. Our experiments show that AdaRand outperforms the other fine-tuning regularization, which requires auxiliary source information and heavy computation costs. | 翻訳日:2024-03-18 17:59:52 公開日:2024-03-15 |
# DiffMAC:高一般化ブラインド顔修復のための拡散マニフォールド幻覚矯正法
DiffMAC: Diffusion Manifold Hallucination Correction for High Generalization Blind Face Restoration ( http://arxiv.org/abs/2403.10098v1 ) ライセンス: Link先を確認 | Nan Gao, Jia Li, Huaibo Huang, Zhi Zeng, Ke Shang, Shuwu Zhang, Ran He, | (参考訳) ブラインドフェース修復(BFR)は, 劣化パターンの不確実性のため, 極めて困難な問題である。
現在の手法は、フォトリアリスティック領域とヘテロジニアス領域にまたがる低い一般化を持つ。
本稿では拡散多様体幻覚補正(DiffMAC)に取り組むための拡散情報拡散(DID)フレームワークを提案する。
具体的には、第1拡散段階は、復元された顔と、劣化除去結果を合成するAdaINに基づく低品質顔の空間的特徴埋め込みとを、ハードケースでは制御不能な人工物と整合させる。
ステージIに基づいて、ステージIIでは、多様体情報ボトルネック(MIB)を用いた情報圧縮を検討し、顔の忠実度を改善するための最初の拡散モデルとして微調整を行う。
DiffMACは、ブラインド劣化パターンに効果的に対抗し、属性とアイデンティティの相違による高品質な顔の合成を行う。
実験により、実世界および異種環境における高度な一般化により、最先端手法よりもDiffMACの方が優れていることが示された。
ソースコードとモデルは公開されます。
Blind face restoration (BFR) is a highly challenging problem due to the uncertainty of degradation patterns. Current methods have low generalization across photorealistic and heterogeneous domains. In this paper, we propose a Diffusion-Information-Diffusion (DID) framework to tackle diffusion manifold hallucination correction (DiffMAC), which achieves high-generalization face restoration in diverse degraded scenes and heterogeneous domains. Specifically, the first diffusion stage aligns the restored face with spatial feature embedding of the low-quality face based on AdaIN, which synthesizes degradation-removal results but with uncontrollable artifacts for some hard cases. Based on Stage I, Stage II considers information compression using manifold information bottleneck (MIB) and finetunes the first diffusion model to improve facial fidelity. DiffMAC effectively fights against blind degradation patterns and synthesizes high-quality faces with attribute and identity consistencies. Experimental results demonstrate the superiority of DiffMAC over state-of-the-art methods, with a high degree of generalization in real-world and heterogeneous settings. The source code and models will be public. | 翻訳日:2024-03-18 17:59:52 公開日:2024-03-15 |
# KP-RED:ジョイント3次元形状検索と変形のためのセマンティックキーポイントの爆発
KP-RED: Exploiting Semantic Keypoints for Joint 3D Shape Retrieval and Deformation ( http://arxiv.org/abs/2403.10099v1 ) ライセンス: Link先を確認 | Ruida Zhang, Chenyangguang Zhang, Yan Di, Fabian Manhardt, Xingyu Liu, Federico Tombari, Xiangyang Ji, | (参考訳) 本稿では,KP-REDについて述べる。KP-REDは,オブジェクトスキャンを入力として取り込んで,その対象と密に一致させるために,事前処理されたデータベースから最も幾何学的に類似したCADモデルを抽出・変形する,統合されたキーポイント駆動型レトリーバル・変形フレームワークである。
通常、ノイズのある部分的スキャンに苦しむ既存の密マッチング法とは異なり、本研究では、全対象スキャンと部分的スキャンの両方を自然に扱うために、カテゴリ一貫性のスパースキーポイントを活用することを提案する。
具体的には、まず、軽量な検索モジュールを用いてキーポイントベースの埋め込み空間を構築し、抽出されたキーポイントの周辺に変形認識された局所的特徴を動的に集約することにより、オブジェクト間の類似性を計測する。
埋め込み空間に近接する対象は幾何学において類似していると考えられる。
次に, 局所支持領域内のケージ頂点に対する各キーポイントの影響ベクトルを推定し, 取得した形状の変形を制御するニューラルケージに基づく変形モジュールを提案する。
合成データセットPartNetと実世界のデータセットScan2CADに関する大規模な実験は、KP-REDが既存の最先端アプローチをはるかに上回っていることを示している。
コードとトレーニングされたモデルはhttps://github.com/lolrudy/KP-REDでリリースされる。
In this paper, we present KP-RED, a unified KeyPoint-driven REtrieval and Deformation framework that takes object scans as input and jointly retrieves and deforms the most geometrically similar CAD models from a pre-processed database to tightly match the target. Unlike existing dense matching based methods that typically struggle with noisy partial scans, we propose to leverage category-consistent sparse keypoints to naturally handle both full and partial object scans. Specifically, we first employ a lightweight retrieval module to establish a keypoint-based embedding space, measuring the similarity among objects by dynamically aggregating deformation-aware local-global features around extracted keypoints. Objects that are close in the embedding space are considered similar in geometry. Then we introduce the neural cage-based deformation module that estimates the influence vector of each keypoint upon cage vertices inside its local support region to control the deformation of the retrieved shape. Extensive experiments on the synthetic dataset PartNet and the real-world dataset Scan2CAD demonstrate that KP-RED surpasses existing state-of-the-art approaches by a large margin. Codes and trained models will be released in https://github.com/lolrudy/KP-RED. | 翻訳日:2024-03-18 17:59:52 公開日:2024-03-15 |
# 対戦型ロバストニューラルネットワーク探索のための効率的なマルチプレイヤーバトルゲーム最適化
Efficient Multiplayer Battle Game Optimizer for Adversarial Robust Neural Architecture Search ( http://arxiv.org/abs/2403.10100v1 ) ライセンス: Link先を確認 | Rui Zhong, Yuefeng Xu, Chao Zhang, Jun Yu, | (参考訳) 本稿では,複雑な数値最適化タスクに特化して設計された,効率的なマルチプレイヤーバトルゲームオプティマイザ(EMBGO)と呼ばれるメタヒューリスティックアルゴリズムを提案する。
この研究の背後にある動機は、アブレーション実験で明らかになったように、元のMBGO、特に運動期における探索オペレーターの欠点を正す必要があることにある。
EMBGOは、移動と戦闘フェーズを統合することでこれらの制限を緩和し、元の最適化フレームワークを簡素化し、探索効率を向上させる。
さらに、差分突然変異とL''evyフライトという2つの効率的な探索演算子を導入し、個体数の多様性を高める。
EMBGOの性能を包括的かつ公平に評価するために,CEC2017,CEC2020,CEC2022などのベンチマーク関数および工学的問題に対して数値実験を行った。
12の確立されたMAアプローチは、比較のための競合アルゴリズムとして機能する。
さらに,提案したEMBGOを,ARNASタスクに応用し,その堅牢性と拡張性について検討する。
実験結果と統計的解析により,様々な最適化タスクにおけるEMBGOの有効性と有効性を確認した。
潜在的な最適化手法として、EMBGOは現実世界の問題やディープラーニングのシナリオにおける多様な応用を約束している。
EMBGOのソースコードは \url{https://github.com/RuiZhong961230/EMBGO} で公開されている。
This paper introduces a novel metaheuristic algorithm, known as the efficient multiplayer battle game optimizer (EMBGO), specifically designed for addressing complex numerical optimization tasks. The motivation behind this research stems from the need to rectify identified shortcomings in the original MBGO, particularly in search operators during the movement phase, as revealed through ablation experiments. EMBGO mitigates these limitations by integrating the movement and battle phases to simplify the original optimization framework and improve search efficiency. Besides, two efficient search operators: differential mutation and L\'evy flight are introduced to increase the diversity of the population. To evaluate the performance of EMBGO comprehensively and fairly, numerical experiments are conducted on benchmark functions such as CEC2017, CEC2020, and CEC2022, as well as engineering problems. Twelve well-established MA approaches serve as competitor algorithms for comparison. Furthermore, we apply the proposed EMBGO to the complex adversarial robust neural architecture search (ARNAS) tasks and explore its robustness and scalability. The experimental results and statistical analyses confirm the efficiency and effectiveness of EMBGO across various optimization tasks. As a potential optimization technique, EMBGO holds promise for diverse applications in real-world problems and deep learning scenarios. The source code of EMBGO is made available in \url{https://github.com/RuiZhong961230/EMBGO}. | 翻訳日:2024-03-18 17:59:52 公開日:2024-03-15 |
# 非線形シュレーディンガー方程式に対する非線形アンシラ支援量子アルゴリズム
Nonlinear-ancilla aided quantum algorithm for nonlinear Schrödinger equations ( http://arxiv.org/abs/2403.10102v1 ) ライセンス: Link先を確認 | André Großardt, | (参考訳) 本研究では,非局所ハートリー方程式やナヴィエ・ストークス方程式を含む一般非線形シュリンガー方程式の非局所的非粘性流に対する解法について,非線形に進化可能な単一アンシラ量子ビットを用いたアルゴリズムを提案する。
我々は、中性原子量子ビットとボース=アインシュタイン凝縮体とのスピンスピンカップリングによるそのような非線形量子ビットの実現を提案する。
その結果, 非線形アンシラの使用は, 専ら線形量子ビットデバイスと比較して, かなりのスピードアップを達成できることが示唆された。
We present an algorithm that uses a single ancilla qubit that can evolve nonlinearly, and show how to use it to efficiently solve generic nonlinear Schr\"odinger equations, including nonlocal Hartree equations and the Navier-Stokes equation for an irrotational, non-viscous flow. We propose a realization of such nonlinear qubits via spin-spin coupling of neutral atom qubits to a Bose-Einstein condensate. The results suggest that the use of nonlinear ancillas can provide substantial speedups compared to exclusively linear qubit devices. | 翻訳日:2024-03-18 17:59:52 公開日:2024-03-15 |
# DyBluRF:Blury Monocular Videoによる動的神経放射場
DyBluRF: Dynamic Neural Radiance Fields from Blurry Monocular Video ( http://arxiv.org/abs/2403.10103v1 ) ライセンス: Link先を確認 | Huiqiang Sun, Xingyi Li, Liao Shen, Xinyi Ye, Ke Xian, Zhiguo Cao, | (参考訳) 近年, 動的神経放射場法が進歩し, 顕著な結果が得られた。
しかし、これらのアプローチはシャープな入力画像の仮定に依存している。
動きのぼやけに直面した場合、既存の動的NeRF法は、しばしば高品質な新しいビューを生成するのに苦労する。
本稿では,動きのぼかしに影響を受ける単眼映像から鋭い新しい視点を合成する動的放射場アプローチであるDyBluRFを提案する。
入力画像中の動きのぼかしを考慮し、シーン内のカメラ軌跡とオブジェクト離散コサイン変換(DCT)トラジェクトリを同時にキャプチャする。
さらに、シーン全体にわたって一貫した時間的コヒーレンスを確保するために、グローバルなクロスタイムレンダリングアプローチを採用しています。
タスクに適した多様な動的シーンからなるデータセットをキュレートする。
提案手法は,映像の空間的・時間的一貫性を維持しつつ,動色入力から鮮明な新規ビューを生成する上で,既存の手法よりも優れていることを示す。
Recent advancements in dynamic neural radiance field methods have yielded remarkable outcomes. However, these approaches rely on the assumption of sharp input images. When faced with motion blur, existing dynamic NeRF methods often struggle to generate high-quality novel views. In this paper, we propose DyBluRF, a dynamic radiance field approach that synthesizes sharp novel views from a monocular video affected by motion blur. To account for motion blur in input images, we simultaneously capture the camera trajectory and object Discrete Cosine Transform (DCT) trajectories within the scene. Additionally, we employ a global cross-time rendering approach to ensure consistent temporal coherence across the entire scene. We curate a dataset comprising diverse dynamic scenes that are specifically tailored for our task. Experimental results on our dataset demonstrate that our method outperforms existing approaches in generating sharp novel views from motion-blurred inputs while maintaining spatial-temporal consistency of the scene. | 翻訳日:2024-03-18 17:59:52 公開日:2024-03-15 |
# CSDNet:軽量クロスシャローとディープ・パーセプション・ネットワークによる深部熱湯中の塩物検出
CSDNet: Detect Salient Object in Depth-Thermal via A Lightweight Cross Shallow and Deep Perception Network ( http://arxiv.org/abs/2403.10104v1 ) ライセンス: Link先を確認 | Xiaotong Yu, Ruihan Xie, Zhihe Zhao, Chang-Wen Chen, | (参考訳) 我々はマルチモーダルデータの豊かさと情報提供性を楽しむ一方で、情報の干渉や冗長性ももたらします。
限られたリソースで最適なドメイン解釈を実現するために、CSDNet(軽量な \textbf{C}ross \textbf{S}hallow と \textbf{D}eep Perception \textbf{Net}work)を提案する。
CSDNet for Salient Object Detection (SOD) タスクをロボット認識に適用する。
提案手法は,深部熱水層 (D-T) の浅層および深層を横断する空間情報事前スクリーニングと暗黙のコヒーレンスナビゲーションに着目し,融合を優先してシーン解釈を最大化する手法である。
あまり知られていないD-Tモダリティに対するエンコーダの記述能力をさらに向上するため,一般化された特徴空間への効率的な特徴マッピングを導くために,SAMAEPを提案する。
我々のアプローチはVDT-2048データセット上でテストされ、D-Tモダリティは初めてRGB-TまたはRGB-Dモダリティを用いたSOTA法よりも優れ、実行時に5.97倍高速でFLOPが0.0036倍少ないRGB-D-T三次モダリティベンチマーク手法で同等の性能を達成した。
提案したCSDNetは、D-Tモダリティからの情報を効果的に統合する。
コードは受理時にリリースされます。
While we enjoy the richness and informativeness of multimodal data, it also introduces interference and redundancy of information. To achieve optimal domain interpretation with limited resources, we propose CSDNet, a lightweight \textbf{C}ross \textbf{S}hallow and \textbf{D}eep Perception \textbf{Net}work designed to integrate two modalities with less coherence, thereby discarding redundant information or even modality. We implement our CSDNet for Salient Object Detection (SOD) task in robotic perception. The proposed method capitalises on spatial information prescreening and implicit coherence navigation across shallow and deep layers of the depth-thermal (D-T) modality, prioritising integration over fusion to maximise the scene interpretation. To further refine the descriptive capabilities of the encoder for the less-known D-T modalities, we also propose SAMAEP to guide an effective feature mapping to the generalised feature space. Our approach is tested on the VDT-2048 dataset, leveraging the D-T modality outperforms those of SOTA methods using RGB-T or RGB-D modalities for the first time, achieves comparable performance with the RGB-D-T triple-modality benchmark method with 5.97 times faster at runtime and demanding 0.0036 times fewer FLOPs. Demonstrates the proposed CSDNet effectively integrates the information from the D-T modality. The code will be released upon acceptance. | 翻訳日:2024-03-18 17:59:52 公開日:2024-03-15 |
# ベージアン強化学習を用いた盲点の回避支援ナビゲーション
Belief Aided Navigation using Bayesian Reinforcement Learning for Avoiding Humans in Blind Spots ( http://arxiv.org/abs/2403.10105v1 ) ライセンス: Link先を確認 | Jinyeob Kim, Daewon Kwak, Hyunwoo Rim, Donghan Kim, | (参考訳) 移動ロボットナビゲーションに関する最近の研究は、混み合った環境における社会的に意識されたナビゲーションに焦点を当てている。
しかし、既存の手法では人間のロボットのインタラクションを適切に考慮せず、全方位センサーから正確な位置情報を要求するため、実用化には適さない。
本研究は, 可観測領域におけるリスク評価と不確実性条件下での移動戦略の定式化を目的とした, 部分的に観測可能なマルコフ決定プロセスに基づく新しいアルゴリズムBNBRL+を提案する。
BNBRL+は、信念アルゴリズムをベイズニューラルネットワークと統合し、人間の位置データに基づいて信念を確率的に推論する。
さらに、ロボット、人間、推論された信念の間のダイナミクスを統合して、ナビゲーションパスを決定し、報酬関数内に社会的規範を埋め込むことにより、社会的に認識されたナビゲーションを容易にする。
本研究は,種々のリスクラデンシナリオの実験を通じて,視覚障害者の混在環境におけるBNBRL+の有効性を検証した。
このモデルでは、視認性に限界があり、障害物を動的に回避できるため、自動運転車の安全性と信頼性を大幅に向上させることができる。
Recent research on mobile robot navigation has focused on socially aware navigation in crowded environments. However, existing methods do not adequately account for human robot interactions and demand accurate location information from omnidirectional sensors, rendering them unsuitable for practical applications. In response to this need, this study introduces a novel algorithm, BNBRL+, predicated on the partially observable Markov decision process framework to assess risks in unobservable areas and formulate movement strategies under uncertainty. BNBRL+ consolidates belief algorithms with Bayesian neural networks to probabilistically infer beliefs based on the positional data of humans. It further integrates the dynamics between the robot, humans, and inferred beliefs to determine the navigation paths and embeds social norms within the reward function, thereby facilitating socially aware navigation. Through experiments in various risk laden scenarios, this study validates the effectiveness of BNBRL+ in navigating crowded environments with blind spots. The model's ability to navigate effectively in spaces with limited visibility and avoid obstacles dynamically can significantly improve the safety and reliability of autonomous vehicles. | 翻訳日:2024-03-18 17:59:52 公開日:2024-03-15 |
# 複数LLM協調推論による人間中心動的シーン理解の強化
Enhancing Human-Centered Dynamic Scene Understanding via Multiple LLMs Collaborated Reasoning ( http://arxiv.org/abs/2403.10107v1 ) ライセンス: Link先を確認 | Hang Zhang, Wenxiao Zhang, Haoxuan Qu, Jun Liu, | (参考訳) ビデオベースのヒューマンオブジェクトインタラクション(V-HOI)検出は、ビデオ内のHOI関係を包括的に理解して、移動ロボットや自律運転システムの行動決定の恩恵を受けることを目的とした、セマンティックシーン理解において重要なタスクである。
これまでのV-HOI検出モデルは、特定のデータセットの正確な検出に大きく貢献してきたが、HOIの関係を効果的に誘導する人間のような一般的な推論能力はいまだに欠如している。
本研究では,V-HOI MLCR(V-HOI Multi-LLMs Collaborated Reasoning, V-HOI MLCR)を提案する。
V-HOIタスクのための異なるLLMの2段階協調システムを設計する。
特に第1段階では,異なる側面からLLMの導電率を推定するクロスエージェント推論方式を設計する。
第2段階では、異なるLLMの異なる知識に基づいて最終推論の答えを得るために、マルチLLMを議論する。
さらに,大規模な視覚言語モデルであるCLIPを用いて,LLMとよりよく連携するV-HOIモデルの識別能力を高めるための補助訓練戦略を考案した。
複数の視点から推測することで,基本V-HOIモデルの予測精度を向上させる上での有効性を示すことによって,設計の優位性を検証した。
Human-centered dynamic scene understanding plays a pivotal role in enhancing the capability of robotic and autonomous systems, in which Video-based Human-Object Interaction (V-HOI) detection is a crucial task in semantic scene understanding, aimed at comprehensively understanding HOI relationships within a video to benefit the behavioral decisions of mobile robots and autonomous driving systems. Although previous V-HOI detection models have made significant strides in accurate detection on specific datasets, they still lack the general reasoning ability like human beings to effectively induce HOI relationships. In this study, we propose V-HOI Multi-LLMs Collaborated Reasoning (V-HOI MLCR), a novel framework consisting of a series of plug-and-play modules that could facilitate the performance of current V-HOI detection models by leveraging the strong reasoning ability of different off-the-shelf pre-trained large language models (LLMs). We design a two-stage collaboration system of different LLMs for the V-HOI task. Specifically, in the first stage, we design a Cross-Agents Reasoning scheme to leverage the LLM conduct reasoning from different aspects. In the second stage, we perform Multi-LLMs Debate to get the final reasoning answer based on the different knowledge in different LLMs. Additionally, we devise an auxiliary training strategy that utilizes CLIP, a large vision-language model to enhance the base V-HOI models' discriminative ability to better cooperate with LLMs. We validate the superiority of our design by demonstrating its effectiveness in improving the prediction accuracy of the base V-HOI model via reasoning from multiple perspectives. | 翻訳日:2024-03-18 17:59:52 公開日:2024-03-15 |
# 知識グラフを用いた複雑な問合せ応答のためのメタ演算子
Meta Operator for Complex Query Answering on Knowledge Graphs ( http://arxiv.org/abs/2403.10110v1 ) ライセンス: Link先を確認 | Hang Yin, Zihao Wang, Yangqiu Song, | (参考訳) 知識グラフは情報的事実知識を含むが、不完全とみなされる。
不完全知識下での複雑なクエリに答えるために,不完全グラフデータの直接トラバースを回避するために,質問応答サンプルから直接学習する学習ベース複雑クエリアンサーリング(CQA)モデルを提案する。
既存の作業は、複雑なクエリ応答モデルのトレーニングをマルチタスク学習として定式化し、多数のトレーニングサンプルを必要とする。
本研究では、複素クエリの構成構造について検討し、複素クエリの異なる型ではなく、異なる論理演算子型が一般化可能性向上の鍵であると主張する。
そこで本稿では,メタ演算子を限られたデータで学習するメタ学習アルゴリズムを提案する。
実験結果から,メタオペレータの学習は,従来のCQAモデルやメタCQAモデルよりも効果的であることが示唆された。
Knowledge graphs contain informative factual knowledge but are considered incomplete. To answer complex queries under incomplete knowledge, learning-based Complex Query Answering (CQA) models are proposed to directly learn from the query-answer samples to avoid the direct traversal of incomplete graph data. Existing works formulate the training of complex query answering models as multi-task learning and require a large number of training samples. In this work, we explore the compositional structure of complex queries and argue that the different logical operator types, rather than the different complex query types, are the key to improving generalizability. Accordingly, we propose a meta-learning algorithm to learn the meta-operators with limited data and adapt them to different instances of operators under various complex queries. Empirical results show that learning meta-operators is more effective than learning original CQA or meta-CQA models. | 翻訳日:2024-03-18 17:59:52 公開日:2024-03-15 |
# 単一・多エージェントアクティブセンシング : 深部神経進化的アプローチ
Single- and Multi-Agent Private Active Sensing: A Deep Neuroevolution Approach ( http://arxiv.org/abs/2403.10112v1 ) ライセンス: Link先を確認 | George Stamatelis, Angelos-Nikolaos Kanatas, Ioannis Asprogerakas, George C. Alexandropoulos, | (参考訳) 本稿では,eavesdropperの存在下でのアクティブ仮説テストにおいて,一元的かつ一元的な問題に焦点をあてる。
単一正規エージェントを含む集中型問題に対して,ニューロエボリューション(NE)に基づく新しいフレームワークを提案する一方,分散化問題に対して,単一エージェントNEの計算的利点をすべて維持する,協調型マルチエージェントタスクを解く新しいNEベースの手法を開発する。
無線センサネットワーク上での異常検出を例に,従来のアクティブな仮説テストポリシや学習に基づく手法よりもEAHTアプローチの方が優れていることを検証する。
In this paper, we focus on one centralized and one decentralized problem of active hypothesis testing in the presence of an eavesdropper. For the centralized problem including a single legitimate agent, we present a new framework based on NeuroEvolution (NE), whereas, for the decentralized problem, we develop a novel NE-based method for solving collaborative multi-agent tasks, which interestingly maintains all computational benefits of single-agent NE. The superiority of the proposed EAHT approaches over conventional active hypothesis testing policies, as well as learning-based methods, is validated through numerical investigations in an example use case of anomaly detection over wireless sensor networks. | 翻訳日:2024-03-18 17:59:52 公開日:2024-03-15 |
# 差分プライバシーシャッフルモデルにおけるサミネーション問題に対するインスタンス最適クリッピング
Instance-optimal Clipping for Summation Problems in the Shuffle Model of Differential Privacy ( http://arxiv.org/abs/2403.10116v1 ) ライセンス: Link先を確認 | Wei Dong, Qiyao Luo, Giulia Fanti, Elaine Shi, Ke Yi, | (参考訳) 最悪ケースの最適誤差境界(例:古典的なラプラス機構)を達成するための異なるプライベートなメカニズムは、文献でよく研究されている。
しかし、典型的なデータが最悪のケースから遠く離れた場合、データセットの最大の値に依存する \emph{instance-specific} エラー境界の方が有意義である。
例えば、各ユーザが領域 $\{0,1,\dots,U\}$ から整数 $x_i$ を持ち、$\sum_i x_i$ を見積もる和推定問題を考える。
これは$O(U/\varepsilon)$の最悪の最適誤差を持つが、最近の研究では、クリッピング機構が$O(\max_i x_i \cdot \log\log U /\varepsilon)$のインスタンス最適誤差を達成できることが示されている。
シャッフルモデルでは、既知のインスタンス最適化プロトコルは通信効率が低い。
クリッピング機構はシャッフルモデルでも機能するが、ラウンド1はクリッピングしきい値を見つけ、ラウンド2はクリッピングを行い、クリッピングデータのノイズ和を計算する。
本稿では,この2つの連続的なステップを1ラウンドで同時に行う方法について,インスタンス-最適エラーバウンダリを維持しながら,ユーザ1人あたり1+o(1)$メッセージで示す。
また、この手法を高次元和推定問題とスパースベクトル集約(すなわち、ユーザレベルの差分プライバシーの下での周波数推定)に拡張する。
提案実験では, 従来よりも誤差の点において, プロトコルの次数-次数の改善が見られた。
Differentially private mechanisms achieving worst-case optimal error bounds (e.g., the classical Laplace mechanism) are well-studied in the literature. However, when typical data are far from the worst case, \emph{instance-specific} error bounds -- which depend on the largest value in the dataset -- are more meaningful. For example, consider the sum estimation problem, where each user has an integer $x_i$ from the domain $\{0,1,\dots,U\}$ and we wish to estimate $\sum_i x_i$. This has a worst-case optimal error of $O(U/\varepsilon)$, while recent work has shown that the clipping mechanism can achieve an instance-optimal error of $O(\max_i x_i \cdot \log\log U /\varepsilon)$. Under the shuffle model, known instance-optimal protocols are less communication-efficient. The clipping mechanism also works in the shuffle model, but requires two rounds: Round one finds the clipping threshold, and round two does the clipping and computes the noisy sum of the clipped data. In this paper, we show how these two seemingly sequential steps can be done simultaneously in one round using just $1+o(1)$ messages per user, while maintaining the instance-optimal error bound. We also extend our technique to the high-dimensional sum estimation problem and sparse vector aggregation (a.k.a. frequency estimation under user-level differential privacy). Our experiments show order-of-magnitude improvements of our protocols in terms of error compared with prior work. | 翻訳日:2024-03-18 17:59:52 公開日:2024-03-15 |
# URS-NeRF:ニューラルラジアンスフィールド用無秩序転がりシャッターバンドル調整
URS-NeRF: Unordered Rolling Shutter Bundle Adjustment for Neural Radiance Fields ( http://arxiv.org/abs/2403.10119v1 ) ライセンス: Link先を確認 | Bo Xu, Ziao Liu, Mengqi Guo, Jiancheng Li, Gim Hee Li, | (参考訳) 本稿では,非秩序なローリングシャッター (RS) 画像を用いて暗黙の3次元表現を得るニューラルレイディアンスフィールド (NeRF) の新しいローリングシャッターバンドル調整法を提案する。
既存のNeRF法は、画像中のRS効果により、画質の悪い画像や不正確な初期カメラのポーズに悩まされているが、RSをNeRFに組み込んだ従来の手法では、厳密な逐次データ入力が必要であり、適用範囲が限られている。
本手法は,カメラのポーズと速度を推定することにより,RS画像の物理的生成を一定に復元し,逐次データに対する入力制約を除去する。
さらに,シーングラフ内の一対のフレームのRSエピポーラ制約を用いて,局所的なミニマに陥るカメラのポーズを検出する,粗大な訓練戦略を採用する。
外れ値として検出されたポーズは、隣り合うポーズとの補間法によって補正される。
実験により,本手法の最先端技術に対する有効性を検証するとともに,映像シーケンス入力の要求により3次元表現の再構成が制約されないことを示す。
We propose a novel rolling shutter bundle adjustment method for neural radiance fields (NeRF), which utilizes the unordered rolling shutter (RS) images to obtain the implicit 3D representation. Existing NeRF methods suffer from low-quality images and inaccurate initial camera poses due to the RS effect in the image, whereas, the previous method that incorporates the RS into NeRF requires strict sequential data input, limiting its widespread applicability. In constant, our method recovers the physical formation of RS images by estimating camera poses and velocities, thereby removing the input constraints on sequential data. Moreover, we adopt a coarse-to-fine training strategy, in which the RS epipolar constraints of the pairwise frames in the scene graph are used to detect the camera poses that fall into local minima. The poses detected as outliers are corrected by the interpolation method with neighboring poses. The experimental results validate the effectiveness of our method over state-of-the-art works and demonstrate that the reconstruction of 3D representations is not constrained by the requirement of video sequence input. | 翻訳日:2024-03-18 17:59:52 公開日:2024-03-15 |
# 状態空間モデルにおける正規化に基づく効率的な連続学習
Regularization-Based Efficient Continual Learning in Deep State-Space Models ( http://arxiv.org/abs/2403.10123v1 ) ライセンス: Link先を確認 | Yuanhang Zhang, Zhidi Lin, Yiyong Sun, Feng Yin, Carsten Fritsche, | (参考訳) 近年,動的システムに強力なモデリング能力を持つDSSM(Deep State-space Model)が普及している。
しかし、既存のDSSMの作業はシングルタスクのモデリングに限られており、フォアパスされたタスクを再考する際には、過去のタスクデータで再トレーニングする必要がある。
この制限に対処するために,大惨な忘れをすることなく,進化するタスクに適応できる連続学習DSSM(CLDSSM)を提案する。
提案するCLDSSMは、主流正規化に基づく連続学習(CL)手法を統合し、複数の動的システムのモデリングに一定の計算とメモリコストで効率的な更新を実現する。
また,各CLDSSMに適用したCL手法の包括的コスト解析を行い,実世界のデータセットを用いた実験によるCLDSSMの有効性を実証する。
その結果、様々な競合するCL手法は異なるメリットを示すが、提案されたCLDSSMは破滅的な忘れを効果的に解決し、新しいタスクへの迅速かつ正確なパラメータ転送を可能にするという点で、従来のDSSMよりも一貫して優れていた。
Deep state-space models (DSSMs) have gained popularity in recent years due to their potent modeling capacity for dynamic systems. However, existing DSSM works are limited to single-task modeling, which requires retraining with historical task data upon revisiting a forepassed task. To address this limitation, we propose continual learning DSSMs (CLDSSMs), which are capable of adapting to evolving tasks without catastrophic forgetting. Our proposed CLDSSMs integrate mainstream regularization-based continual learning (CL) methods, ensuring efficient updates with constant computational and memory costs for modeling multiple dynamic systems. We also conduct a comprehensive cost analysis of each CL method applied to the respective CLDSSMs, and demonstrate the efficacy of CLDSSMs through experiments on real-world datasets. The results corroborate that while various competing CL methods exhibit different merits, the proposed CLDSSMs consistently outperform traditional DSSMs in terms of effectively addressing catastrophic forgetting, enabling swift and accurate parameter transfer to new tasks. | 翻訳日:2024-03-18 17:50:08 公開日:2024-03-15 |
# 視覚刺激と眼球運動の同時解析によるアルツハイマー病診断のための深さ依存性唾液価比較ネットワーク
Depth-induced Saliency Comparison Network for Diagnosis of Alzheimer's Disease via Jointly Analysis of Visual Stimuli and Eye Movements ( http://arxiv.org/abs/2403.10124v1 ) ライセンス: Link先を確認 | Yu Liu, Wenlin Zhang, Shaochu Wang, Fangyu Zuo, Peiguang Jing, Yong Ji, | (参考訳) アルツハイマー病(AD)の早期診断は治療に極めて重要であり,特に視覚刺激による眼球運動は,AD患者の認知異常を診断するための非侵襲的バイオマーカーとして機能する可能性がある。
本稿では,アルツハイマー病の診断に用いられる眼球運動解析のためのDepth-induced saliency comparison Network (DISCN)を提案する。
DISCNでは、視覚刺激と正常眼球運動の両方からの情報を含む総合的な視力マップを評価するために、SAA(Hierarchical Salient attention)を用いて、正常眼球運動とRGBの深度マップとを融合させる。
さらに、より堅牢な結果を得るために、個人の偏見を減らすために、最も異常な眼球運動行動を強調するシリアルアテンションモジュール(SEA)を導入する。
以上の結果から,DECNはAD患者と正常コントロールの眼球運動の分類において一貫した妥当性が得られた。
Early diagnosis of Alzheimer's Disease (AD) is very important for following medical treatments, and eye movements under special visual stimuli may serve as a potential non-invasive biomarker for detecting cognitive abnormalities of AD patients. In this paper, we propose an Depth-induced saliency comparison network (DISCN) for eye movement analysis, which may be used for diagnosis the Alzheimers disease. In DISCN, a salient attention module fuses normal eye movements with RGB and depth maps of visual stimuli using hierarchical salient attention (SAA) to evaluate comprehensive saliency maps, which contain information from both visual stimuli and normal eye movement behaviors. In addition, we introduce serial attention module (SEA) to emphasis the most abnormal eye movement behaviors to reduce personal bias for a more robust result. According to our experiments, the DISCN achieves consistent validity in classifying the eye movements between the AD patients and normal controls. | 翻訳日:2024-03-18 17:50:08 公開日:2024-03-15 |
# TransLandSeg:ビジョン基礎モデルに基づく地すべりセマンティックセマンティックセグメンテーションのための伝達学習手法
TransLandSeg: A Transfer Learning Approach for Landslide Semantic Segmentation Based on Vision Foundation Model ( http://arxiv.org/abs/2403.10127v1 ) ライセンス: Link先を確認 | Changhong Hou, Junchuan Yu, Daqing Ge, Liu Yang, Laidian Xi, Yunxuan Pang, Yi Wen, | (参考訳) 地すべりは世界でも最も破壊的な自然災害の1つであり、人間の生命と安全に深刻な脅威をもたらしている。
基礎モデルの開発は、大規模な地すべり検出のための新しい研究パラダイムを提供してきた。
Segment Anything Model (SAM) は画像セグメンテーションの分野で広く注目を集めている。
しかし,本実験では,地すべりのセグメンテーションにおいてSAMが不十分であった。
本稿では,視覚基盤モデル(VFM)に基づく地すべりセマンティックセグメンテーションのためのトランスラーニング手法であるTransLandSegを提案する。
TransLandSegは、Landslide4SenseデータセットとBijie地すべりデータセットの両方で、従来のセマンティックセグメンテーションモデルより優れている。
提案した適応転写学習(ATL)アーキテクチャにより,SAMの強力なセグメンテーション能力はSAMのパラメータの1.3%のトレーニングで地すべり検出に伝達され,モデルのトレーニング効率が大幅に向上する。
最後に,異なるATL構造を持つモデルに対するアブレーション実験を行い,ATLの配置位置と残差接続がTransLandSegの精度向上に重要な役割を果たしていると結論付けた。
Landslides are one of the most destructive natural disasters in the world, posing a serious threat to human life and safety. The development of foundation models has provided a new research paradigm for large-scale landslide detection. The Segment Anything Model (SAM) has garnered widespread attention in the field of image segmentation. However, our experiment found that SAM performed poorly in the task of landslide segmentation. We propose TransLandSeg, which is a transfer learning approach for landslide semantic segmentation based on a vision foundation model (VFM). TransLandSeg outperforms traditional semantic segmentation models on both the Landslide4Sense dataset and the Bijie landslide dataset. Our proposed adaptive transfer learning (ATL) architecture enables the powerful segmentation capability of SAM to be transferred to landslide detection by training only 1.3% of the number of the parameters of SAM, which greatly improves the training efficiency of the model. Finally we also conducted ablation experiments on models with different ATL structures, concluded that the deployment location and residual connection of ATL play an important role in TransLandSeg accuracy improvement. | 翻訳日:2024-03-18 17:50:08 公開日:2024-03-15 |
# RAFT:言語モデルをドメイン固有RAGに適用する
RAFT: Adapting Language Model to Domain Specific RAG ( http://arxiv.org/abs/2403.10131v1 ) ライセンス: Link先を確認 | Tianjun Zhang, Shishir G. Patil, Naman Jain, Sheng Shen, Matei Zaharia, Ion Stoica, Joseph E. Gonzalez, | (参考訳) 大規模なテキストデータのコーパス上でのLLM(Large Language Models)の事前学習は、現在では標準パラダイムとなっている。
下流の多くのアプリケーションでこれらのLCMを使用する場合、RAGベースのプロンプティングや微調整によって、事前訓練されたモデルに新しい知識(例えば、時間クリティカルニュースやプライベートドメイン知識)を焼くことが一般的である。
しかし、そのような新しい知識を得るためのモデルのための最適な方法論は、未解決の問題である。
本稿では、ドメイン内の「オープンブック」設定において、モデルが質問に答える能力を改善するためのトレーニングレシピであるRetrieval Augmented FineTuning(RAFT)を提案する。
RAFTでは、質問に答えるのに役に立たない文書を無視するようにモデルを訓練します。
RAFTは、質問に答える助けとなる関連文書から正しいシーケンスを冗長に引用することで、これを達成します。
RAFTの連鎖型応答と組み合わせることで、モデルの推論能力が向上する。
ドメイン固有のRAGでは、RAFTは、PubMed、HotpotQA、Gorillaデータセット全体にわたるモデルのパフォーマンスを一貫して改善し、事前トレーニングされたLMをドメイン内のRAGに改善するためのトレーニング後のレシピを提供する。
RAFTのコードとデモはgithub.com/ShishirPatil/gorillaでオープンソース化されている。
Pretraining Large Language Models (LLMs) on large corpora of textual data is now a standard paradigm. When using these LLMs for many downstream applications, it is common to additionally bake in new knowledge (e.g., time-critical news, or private domain knowledge) into the pretrained model either through RAG-based-prompting, or fine-tuning. However, the optimal methodology for the model to gain such new knowledge remains an open question. In this paper, we present Retrieval Augmented FineTuning (RAFT), a training recipe that improves the model's ability to answer questions in a "open-book" in-domain settings. In RAFT, given a question, and a set of retrieved documents, we train the model to ignore those documents that don't help in answering the question, which we call, distractor documents. RAFT accomplishes this by citing verbatim the right sequence from the relevant document that would help answer the question. This coupled with RAFT's chain-of-thought-style response helps improve the model's ability to reason. In domain-specific RAG, RAFT consistently improves the model's performance across PubMed, HotpotQA, and Gorilla datasets, presenting a post-training recipe to improve pre-trained LLMs to in-domain RAG. RAFT's code and demo are open-sourced at github.com/ShishirPatil/gorilla. | 翻訳日:2024-03-18 17:50:08 公開日:2024-03-15 |
# カオス多体量子状態における普遍的相関:ベリーズランダム波モデルのフォック空間定式化
Universal correlations in chaotic many-body quantum states: Fock-space formulation of Berrys random wave model ( http://arxiv.org/abs/2403.10132v1 ) ライセンス: Link先を確認 | Florian Schoeppl, Remy Dubertrand, Juan-Diego Urbina, Klaus Richter, | (参考訳) 相互作用量子系におけるカオス固有状態の明らかなランダム性は、粒子当たりの有限エネルギーによって動的に課される微妙な相関を隠蔽する。
これらの相関関係は、単粒子系におけるカオス固有関数に対するベリーズアプローチが多体空間に持ち上げられるときに明らかとなる。
多数の粒子のメソスコピックな状態に適合する多体半古典解析によりこれを達成した。
次に、相互相関の普遍性と拡張係数のガウス分布をカオス固有状態の符号として同定する。
これら2つの側面が組み合わさって、広範囲な量子シミュレーションに対してチェックする固有状態の形態に固有のバックボーンを印加する。
固定エネルギー密度に対する固有状態相関の普遍性は、固有状態熱化仮説と矛盾しないが、ランダム行列理論を超えた多体量子カオスのさらなるサインとなる。
The apparent randomness of chaotic eigenstates in interacting quantum systems hides subtle correlations dynamically imposed by their finite energy per particle. These correlations are revealed when Berrys approach for chaotic eigenfunctions in single-particle systems is lifted into many-body space. We achieve this by a many-body semiclassics analysis, appropriate for the mesoscopic regime of large but finite number of particles. We then identify the universality of both the cross-correlations and the Gaussian distribution of expansion coefficients as the signatures of chaotic eigenstates. Combined, these two aspects imprint a distinctive backbone to the morphology of eigenstates that we check against extensive quantum simulations. The universality of eigenstate correlations for fixed energy density is then a further signature of many-body quantum chaos that, while consistent with the eigenstate thermalization hypothesis, lies beyond random matrix theory. | 翻訳日:2024-03-18 17:50:08 公開日:2024-03-15 |
# E4C: 効率的なCLIPガイダンスのハーネス化によるテキストベースの画像編集のための編集性向上
E4C: Enhance Editability for Text-Based Image Editing by Harnessing Efficient CLIP Guidance ( http://arxiv.org/abs/2403.10133v1 ) ライセンス: Link先を確認 | Tianrui Huang, Pu Cao, Lu Yang, Chun Liu, Mengjie Hu, Zhiwei Liu, Qing Song, | (参考訳) 拡散ベースの画像編集は、ソースイメージコンテンツを保存し、新しいコンテンツを生成したり、修正を加えたりする複合プロセスである。
現在の編集アプローチはテキスト指導下で改善されているが、そのほとんどは入力画像の情報を保存することに集中しており、編集性の重要性やターゲットのプロンプトへのアライメントは無視されている。
本稿では、テキストベースの画像に対して、ゼロショット画像編集法である \textbf{E}nhance \textbf{E}ditability を提案することにより、編集性を優先する。
具体的には、ソース画像の構造やテクスチャの保存を可能とし、一方が編集タスクに基づいて適応できるように、統合されたデュアルブランチ機能共有パイプラインを開発する。
我々は、新たなランダムゲートウェイ最適化機構を利用して、CLIPガイダンスをパイプラインに統合し、ターゲットプロンプトとのセマンティックアライメントを効率的に向上する。
包括的定量的・定性的な実験により,本手法は,既存の手法が抱えるテキストアライメントの問題を効果的に解決し,画像の忠実性を維持しつつ,幅広い編集作業において良好に機能することを示した。
Diffusion-based image editing is a composite process of preserving the source image content and generating new content or applying modifications. While current editing approaches have made improvements under text guidance, most of them have only focused on preserving the information of the input image, disregarding the importance of editability and alignment to the target prompt. In this paper, we prioritize the editability by proposing a zero-shot image editing method, named \textbf{E}nhance \textbf{E}ditability for text-based image \textbf{E}diting via \textbf{E}fficient \textbf{C}LIP guidance (\textbf{E4C}), which only requires inference-stage optimization to explicitly enhance the edibility and text alignment. Specifically, we develop a unified dual-branch feature-sharing pipeline that enables the preservation of the structure or texture of the source image while allowing the other to be adapted based on the editing task. We further integrate CLIP guidance into our pipeline by utilizing our novel random-gateway optimization mechanism to efficiently enhance the semantic alignment with the target prompt. Comprehensive quantitative and qualitative experiments demonstrate that our method effectively resolves the text alignment issues prevalent in existing methods while maintaining the fidelity to the source image, and performs well across a wide range of editing tasks. | 翻訳日:2024-03-18 17:50:08 公開日:2024-03-15 |
# 全体はサムより優れている:逐次勧告のための文脈内学習における集約的記述を用いた
The Whole is Better than the Sum: Using Aggregated Demonstrations in In-Context Learning for Sequential Recommendation ( http://arxiv.org/abs/2403.10135v1 ) ライセンス: Link先を確認 | Lei Wang, Ee-Peng Lim, | (参考訳) 大規模言語モデル(LLM)は、様々なNLPタスクにおいて優れた性能を示している。
LLMを強力なシーケンシャルレコメンデータとして利用するには、逐次レコメンデーションのためのコンテキスト内学習アプローチを検討する。
本稿では,命令形式,タスク整合性,デモ選択,デモ数の影響について検討する。
ICLにおける実演数の増加は、長いプロンプトを用いても精度が向上しないため、複数の実演ユーザを1つの集約された実演に組み込む LLMSRec-Syn という新しい手法を提案する。
3つのレコメンデーションデータセットを用いた実験により,LLMSRec-Synは最先端のLLMに基づくシーケンシャルレコメンデーション手法よりも優れていることが示された。
場合によっては、LLMSRec-Synは教師あり学習法と同等かそれ以上に機能する。
私たちのコードはhttps://github.com/demoleiwang/LLMSRec_Synで公開されています。
Large language models (LLMs) have shown excellent performance on various NLP tasks. To use LLMs as strong sequential recommenders, we explore the in-context learning approach to sequential recommendation. We investigate the effects of instruction format, task consistency, demonstration selection, and number of demonstrations. As increasing the number of demonstrations in ICL does not improve accuracy despite using a long prompt, we propose a novel method called LLMSRec-Syn that incorporates multiple demonstration users into one aggregated demonstration. Our experiments on three recommendation datasets show that LLMSRec-Syn outperforms state-of-the-art LLM-based sequential recommendation methods. In some cases, LLMSRec-Syn can perform on par with or even better than supervised learning methods. Our code is publicly available at https://github.com/demoleiwang/LLMSRec_Syn. | 翻訳日:2024-03-18 17:50:08 公開日:2024-03-15 |
# 視覚的対話尺度を用いた繰り返し尺度の応答型評価
Response Style Characterization for Repeated Measures Using the Visual Analogue Scale ( http://arxiv.org/abs/2403.10136v1 ) ライセンス: Link先を確認 | Shunsuke Minusa, Tadayuki Matsumura, Kanako Esaki, Yang Shao, Chihiro Yoshimura, Hiroyuki Mizuno, | (参考訳) 自己申告尺度(例:Likert scales)は主観的健康認知を評価するために広く用いられている。
近年,視覚的アナログ尺度 (VAS) が普及している。
これらのデータは、アンケートの指示によらず、ユーザ依存の体系的傾向である応答スタイル(RS)の影響を受けることができる。
特に個人間分析において重要であるにもかかわらず、主に個人内モニタリングに使われ、RPの影響を受けないため、VAS(Re response profile, RP)におけるRSの扱いにはほとんど注意が払われていない。
しかしながら、VAS測定では、同じアンケート項目を何度も自己報告する必要があることが多く、従来の手法をLikertスケールで適用することは困難である。
本研究では,様々な種類の繰り返し測定されたVASデータに対する新しいRP特性評価法を開発した。
このアプローチでは、RSのような分布を混合してRPを分布パラメータとして${\theta}$としてモデル化し、ブートストラップサンプリングによる不均衡なデータの問題に対処する。
本手法の有効性を擬似データと実データを用いて実証実験により検証した。
パラメータ回復評価の結果,RPパラメータ${\theta}$を正確に推定し,その堅牢性を示した。
さらに,本手法を実際のVASデータセットに適用することにより,各RPの不均一性の存在が明らかとなった。
提案手法は, RPの不均一性を考慮したVASデータ解析を可能にする。
Self-report measures (e.g., Likert scales) are widely used to evaluate subjective health perceptions. Recently, the visual analog scale (VAS), a slider-based scale, has become popular owing to its ability to precisely and easily assess how people feel. These data can be influenced by the response style (RS), a user-dependent systematic tendency that occurs regardless of questionnaire instructions. Despite its importance, especially in between-individual analysis, little attention has been paid to handling the RS in the VAS (denoted as response profile (RP)), as it is mainly used for within-individual monitoring and is less affected by RP. However, VAS measurements often require repeated self-reports of the same questionnaire items, making it difficult to apply conventional methods on a Likert scale. In this study, we developed a novel RP characterization method for various types of repeatedly measured VAS data. This approach involves the modeling of RP as distributional parameters ${\theta}$ through a mixture of RS-like distributions, and addressing the issue of unbalanced data through bootstrap sampling for treating repeated measures. We assessed the effectiveness of the proposed method using simulated pseudo-data and an actual dataset from an empirical study. The assessment of parameter recovery showed that our method accurately estimated the RP parameter ${\theta}$, demonstrating its robustness. Moreover, applying our method to an actual VAS dataset revealed the presence of individual RP heterogeneity, even in repeated VAS measurements, similar to the findings of the Likert scale. Our proposed method enables RP heterogeneity-aware VAS data analysis, similar to Likert-scale data analysis. | 翻訳日:2024-03-18 17:50:08 公開日:2024-03-15 |
# ノイズ前処理と後選択によるデバイス非依存型量子秘密共有
Device-independent quantum secret sharing with noise pre-processing and post-selection ( http://arxiv.org/abs/2403.10137v1 ) ライセンス: Link先を確認 | Qi Zhang, Wei Zhong, Ming-Ming Du, Shu-Ting Shen, Xi-Yun Li, An-Lei Zhang, Lan Zhou, Yu-Bo Sheng, | (参考訳) 量子秘密共有(QSS)は、ディーラーが秘密鍵をプレイヤーのセットに配布できる基本的な量子セキュア通信プリミティブである。
デバイス非依存(DI) QSSは、デバイスの内部動作に関するセキュリティ仮定を緩和し、実用的な実験条件下でのQSSのセキュリティを効果的に強化することができる。
本稿では,グリーンベルガー・ホーネ・ザイリンガー状態に基づくDI-QSSプロトコルを提案する。
本稿では,本プロトコルの性能を,その鍵発生率,耐雑音閾値,検出効率閾値をシミュレートすることで,現実的な雑音の多い通信シナリオにおけるDI-QSSプロトコルの性能を推定する。
また、DI-QSSプロトコルにはノイズ前処理戦略や後選択戦略などのアクティブな改善戦略が導入されており、ノイズ耐性の閾値を7.148%から8.072%に引き上げ、検出効率の閾値を96.32%から94.30%に下げることができる。
アクティブ改善戦略の採用により、ノイズや光子損失に対するDI-QSSの堅牢性が向上し、実験の難しさを低減し、DI-QSSの実験的実現を促進することが示唆された。
我々の研究は、将来のDI-QSSの実験のための有望なガイダンスになるかもしれない。
Quantum secret sharing (QSS) is a fundamental quantum secure communication primitive, which enables a dealer to distribute secret keys to a set of players. Device-independent (DI) QSS can relax the security assumptions about the devices' internal working, and effectively enhance QSS's security under practical experimental conditions. Here, we propose a DI-QSS protocol based on Greenberger-Horne-Zeilinger state, which guarantees the security of keys by the observation of the data conclusively violating the Svetlichny inequality. We estimate the performance of our DI-QSS protocol in practical noisy communication scenarios by simulating its key generation rate, noise tolerance threshold, and detection efficiency threshold. Moreover, some active improvement strategies, such as the noise pre-processing strategy and post-selection strategy are introduced into the DI-QSS protocol, which can increase its noise tolerance threshold from 7.148% to 8.072%, and reduce the detection efficiency threshold from 96.32% to 94.30%. It indicates that the adoption of the active improvement strategies can enhance DI-QSS's robustness against the noise and photon loss, which can reduce the experimental difficulty and promote DI-QSS's experimental realization. Our work may be a promising guidance for future DI-QSS's experiments. | 翻訳日:2024-03-18 17:50:08 公開日:2024-03-15 |
# NLP検証:ロバスト性認証のための一般的な方法論を目指して
NLP Verification: Towards a General Methodology for Certifying Robustness ( http://arxiv.org/abs/2403.10144v1 ) ライセンス: Link先を確認 | Marco Casadio, Tanvi Dinkar, Ekaterina Komendantskaya, Luca Arnaboldi, Omri Isac, Matthew L. Daggitt, Guy Katz, Verena Rieser, Oliver Lemon, | (参考訳) ディープニューラルネットワークは、自然言語処理(NLP)の分野で大きな成功を収め、その安全性と信頼性の確保が不可欠である。
コンピュータビジョンとは異なり、NLPには統一的な検証手法がなく、近年の文献の進歩にもかかわらず、NLP検証の実用的問題に光を当てることが多い。
本稿では,NLP検証パイプラインの一般的なコンポーネントを消耗し,評価しようとする試みについて述べる。
私たちの貢献は2倍です。
まず、文を連続空間に埋め込んだ結果の検証可能な部分空間を一般化する。
我々は、検証された部分空間のセマンティック・ジェネリシビリティに関する技術的課題を同定し、対処する効果的な方法を提供し、NLP検証パイプラインの標準指標として提案する(モデル精度とモデル検証可能性の標準指標に加えて)。
第2に,埋め込みギャップの効果を解析するための一般的な手法を提案する。これは,幾何学的部分空間の検証と,幾何学的部分空間が表すはずの文の意味的意味の相違に言及する問題である。
極端な場合、文章を埋め込む際の不適切な選択は、検証結果を無効にする可能性がある。
特に,NLP検証パイプラインの一部として報告すべき他の基本的な指標として,意味的部分空間のフェルシフィビリティの尺度を提案する。
これらの一般的な原則が組み合わさって、この新しいドメインをより統合し、効果的に開発するための道を開いたと信じています。
Deep neural networks have exhibited substantial success in the field of Natural Language Processing (NLP) and ensuring their safety and reliability is crucial: there are safety critical contexts where such models must be robust to variability or attack, and give guarantees over their output. Unlike Computer Vision, NLP lacks a unified verification methodology and, despite recent advancements in literature, they are often light on the pragmatical issues of NLP verification. In this paper, we make an attempt to distil and evaluate general components of an NLP verification pipeline, that emerges from the progress in the field to date. Our contributions are two-fold. Firstly, we give a general characterisation of verifiable subspaces that result from embedding sentences into continuous spaces. We identify, and give an effective method to deal with, the technical challenge of semantic generalisability of verified subspaces; and propose it as a standard metric in the NLP verification pipelines (alongside with the standard metrics of model accuracy and model verifiability). Secondly, we propose a general methodology to analyse the effect of the embedding gap, a problem that refers to the discrepancy between verification of geometric subpspaces on the one hand, and semantic meaning of sentences which the geometric subspaces are supposed to represent, on the other hand. In extreme cases, poor choices in embedding of sentences may invalidate verification results. We propose a number of practical NLP methods that can help to identify the effects of the embedding gap; and in particular we propose the metric of falsifiability of semantic subpspaces as another fundamental metric to be reported as part of the NLP verification pipeline. We believe that together these general principles pave the way towards a more consolidated and effective development of this new domain. | 翻訳日:2024-03-18 17:50:08 公開日:2024-03-15 |
# RCooper: 道路沿いの協調知覚のための実世界の大規模データセット
RCooper: A Real-world Large-scale Dataset for Roadside Cooperative Perception ( http://arxiv.org/abs/2403.10145v1 ) ライセンス: Link先を確認 | Ruiyang Hao, Siqi Fan, Yingru Dai, Zhenlin Zhang, Chenxi Li, Yuntian Wang, Haibao Yu, Wenxian Yang, Jirui Yuan, Zaiqing Nie, | (参考訳) 自動運転と交通管理の境界を広げる道路側の認識の価値は、近年徐々に顕著になり、認識されるようになった。
しかし,既存の道路側認識手法は,センサ範囲や盲点が限られているため,交通領域の包括的理解が不可能な単一インフラセンサシステムにのみ焦点をあてている。
道路側認知の質を高めるためには,道路側協調知覚(RCooper)が必要であり,交通量制限による道路側認識の実現が期待できる。
Rcooperには独自のドメイン固有の課題があるが、データセットの欠如によりさらなる探索が妨げられている。
そこで我々は、実世界の大規模なRCooperデータセットをリリースし、検出と追跡を含む実用的な道路側協調認識の研究を華々しくした。
手動で注釈付けされたデータセットは、50kイメージと30kポイントの雲で構成され、2つの代表的な交通シーン(すなわち交差点と廊下)を含む。
構築されたベンチマークは、道路側協調認識の有効性を証明し、さらなる研究の方向性を示す。
コードとデータセットは、https://github.com/AIR-THU/DAIR-RCooper.comでアクセスすることができる。
The value of roadside perception, which could extend the boundaries of autonomous driving and traffic management, has gradually become more prominent and acknowledged in recent years. However, existing roadside perception approaches only focus on the single-infrastructure sensor system, which cannot realize a comprehensive understanding of a traffic area because of the limited sensing range and blind spots. Orienting high-quality roadside perception, we need Roadside Cooperative Perception (RCooper) to achieve practical area-coverage roadside perception for restricted traffic areas. Rcooper has its own domain-specific challenges, but further exploration is hindered due to the lack of datasets. We hence release the first real-world, large-scale RCooper dataset to bloom the research on practical roadside cooperative perception, including detection and tracking. The manually annotated dataset comprises 50k images and 30k point clouds, including two representative traffic scenes (i.e., intersection and corridor). The constructed benchmarks prove the effectiveness of roadside cooperation perception and demonstrate the direction of further research. Codes and dataset can be accessed at: https://github.com/AIR-THU/DAIR-RCooper. | 翻訳日:2024-03-18 17:50:08 公開日:2024-03-15 |
# GGRt:3Dガウシアンをリアルタイムに活用する
GGRt: Towards Generalizable 3D Gaussians without Pose Priors in Real-Time ( http://arxiv.org/abs/2403.10147v1 ) ライセンス: Link先を確認 | Hao Li, Yuanyuan Gao, Dingwen Zhang, Chenming Wu, Yalun Dai, Chen Zhao, Haocheng Feng, Errui Ding, Jingdong Wang, Junwei Han, | (参考訳) 本稿では,GGRtを提案する。GGRtは,現実のシナリオにおいて,現実のカメラのポーズ,高解像度画像処理の複雑さ,および長大な最適化プロセスの必要性を軽減し,より強力な3Dガウススティング(3D-GS)の適用性を実現する。
具体的には,反復型Pose Optimization Network(IPO-Net)と一般化可能な3D-Gaussian(G-3DG)モデルで構成される新しい共同学習フレームワークを設計する。
共同学習機構により、画像観察から頑健な相対ポーズ情報を本質的に推定し、実際のカメラポーズの要求を緩和することができる。
さらに,従来の手法の解法制約を克服し,高分解能トレーニングと推論を可能にする遅延バックプロパゲーション機構を実装した。
高速化と効率化のために,トレーニングや推論中に動的に調整するプログレッシブガウスキャッシュモジュールを導入する。
最初のポーズフリーの一般化可能な3D-GSフレームワークとして、GGRtは$$$ge$ 5 FPSで、リアルタイムレンダリングは$$$ge$ 100 FPSで、推論を達成している。
大規模な実験を通じて,提案手法は既存のNeRFベースのポーズフリー手法よりも推論速度と有効性において優れていることを示す。
リアルなポーズベースの3D-GSメソッドにもアプローチできる。
私たちのコントリビューションは、コンピュータビジョンとコンピュータグラフィックスを実用的なアプリケーションに統合し、LLFF、KITTI、Waymo Openデータセットの最先端結果を提供し、没入感のあるエクスペリエンスのためのリアルタイムレンダリングを可能にします。
This paper presents GGRt, a novel approach to generalizable novel view synthesis that alleviates the need for real camera poses, complexity in processing high-resolution images, and lengthy optimization processes, thus facilitating stronger applicability of 3D Gaussian Splatting (3D-GS) in real-world scenarios. Specifically, we design a novel joint learning framework that consists of an Iterative Pose Optimization Network (IPO-Net) and a Generalizable 3D-Gaussians (G-3DG) model. With the joint learning mechanism, the proposed framework can inherently estimate robust relative pose information from the image observations and thus primarily alleviate the requirement of real camera poses. Moreover, we implement a deferred back-propagation mechanism that enables high-resolution training and inference, overcoming the resolution constraints of previous methods. To enhance the speed and efficiency, we further introduce a progressive Gaussian cache module that dynamically adjusts during training and inference. As the first pose-free generalizable 3D-GS framework, GGRt achieves inference at $\ge$ 5 FPS and real-time rendering at $\ge$ 100 FPS. Through extensive experimentation, we demonstrate that our method outperforms existing NeRF-based pose-free techniques in terms of inference speed and effectiveness. It can also approach the real pose-based 3D-GS methods. Our contributions provide a significant leap forward for the integration of computer vision and computer graphics into practical applications, offering state-of-the-art results on LLFF, KITTI, and Waymo Open datasets and enabling real-time rendering for immersive experiences. | 翻訳日:2024-03-18 17:50:08 公開日:2024-03-15 |
# エキスパートアノテーションによる医用マルチモーダルコントラスト学習の改善
Improving Medical Multi-modal Contrastive Learning with Expert Annotations ( http://arxiv.org/abs/2403.10153v1 ) ライセンス: Link先を確認 | Yogesh Kumar, Pekka Marttinen, | (参考訳) そこで我々は,CLIPモデルの強化版であるeCLIPを紹介した。
対照的なマルチモーダルな医療画像分析において、特にデータ不足と"モダリティギャップ" -- 表現の質を低下させ、モダリティ間の相互運用性を損なうような、画像とテキストの埋め込みとの大きな相違 -- に対処する。
eCLIPは、ヒートマッププロセッサを統合し、ミックスアップ拡張を利用して、不足する専門家アノテーションを効率的に活用することで、モデルの学習効率を向上する。
eCLIPは、コアアーキテクチャの変更を必要とせずに、CLIPのあらゆる変種に適用できるように設計されている。
ゼロショット推論、線形探索、クロスモーダル検索、凍結したLarge Language Modelを用いた放射線学レポートの検索拡張生成(RAG)など、様々なタスクの詳細な評価を通じて、eCLIPは埋め込み品質を一貫した改善を示す。
その結果, 医用画像領域における高次マルチモーダル分析のために, 高品質なアノテーションを活用するeCLIPの能力が確認された。
We introduce eCLIP, an enhanced version of the CLIP model that integrates expert annotations in the form of radiologist eye-gaze heatmaps. It tackles key challenges in contrastive multi-modal medical imaging analysis, notably data scarcity and the "modality gap" -- a significant disparity between image and text embeddings that diminishes the quality of representations and hampers cross-modal interoperability. eCLIP integrates a heatmap processor and leverages mixup augmentation to efficiently utilize the scarce expert annotations, thus boosting the model's learning effectiveness. eCLIP is designed to be generally applicable to any variant of CLIP without requiring any modifications of the core architecture. Through detailed evaluations across several tasks, including zero-shot inference, linear probing, cross-modal retrieval, and Retrieval Augmented Generation (RAG) of radiology reports using a frozen Large Language Model, eCLIP showcases consistent improvements in embedding quality. The outcomes reveal enhanced alignment and uniformity, affirming eCLIP's capability to harness high-quality annotations for enriched multi-modal analysis in the medical imaging domain. | 翻訳日:2024-03-18 17:50:08 公開日:2024-03-15 |
# 深部学習と三面記録を用いた心エコー図における心弁イベントのタイミング
Cardiac valve event timing in echocardiography using deep learning and triplane recordings ( http://arxiv.org/abs/2403.10156v1 ) ライセンス: Link先を確認 | Benjamin Strandli Fermann, John Nyberg, Espen W. Remme, Jahn Frederik Grue, Helén Grue, Roger Håland, Lasse Lovstakken, Håvard Dalen, Bjørnar Grenne, Svein Arne Aase, Sten Roar Snar, Andreas Østvik, | (参考訳) 心臓弁イベントのタイミングは、心エコー法を用いて臨床測定を行う際に重要な役割を果たす。
しかしながら、確立された自動アプローチは、外部心電図センサーの必要性によって制限されており、手動計測は、しばしば異なる心周期からのタイミングに依存する。
近年, 深層学習は心のタイミングに応用されているが, 主にエンドジストール (ED) とエンドジストール (ES) の2つの重要な点のみを検出することに制限されている。
本研究では, 心エコー法において, 三面体記録を利用した深層学習手法を提案する。
本手法は,従来のEDおよびESに関連付けられた弁イベントを含む,6つの異なる事象を検出する性能の向上を実証する。
平均絶対フレーム差 (aFD) は, 平均1.4フレーム (29ms) , 僧帽弁開放用0.6フレーム (12ms) で, 240人の三面体データに対して10倍のクロスバリデーションを行い, 平均絶対フレーム差 (aFD) を達成した。
他の180例の根尖長軸データからなる外部独立試験では,最悪の事象検出は1.8(30ms)であった。
提案手法は,より正確で迅速かつ包括的な事象検出を可能にすることによって臨床実践に大きな影響を与える可能性があり,臨床測定の精度が向上する。
Cardiac valve event timing plays a crucial role when conducting clinical measurements using echocardiography. However, established automated approaches are limited by the need of external electrocardiogram sensors, and manual measurements often rely on timing from different cardiac cycles. Recent methods have applied deep learning to cardiac timing, but they have mainly been restricted to only detecting two key time points, namely end-diastole (ED) and end-systole (ES). In this work, we propose a deep learning approach that leverages triplane recordings to enhance detection of valve events in echocardiography. Our method demonstrates improved performance detecting six different events, including valve events conventionally associated with ED and ES. Of all events, we achieve an average absolute frame difference (aFD) of maximum 1.4 frames (29 ms) for start of diastasis, down to 0.6 frames (12 ms) for mitral valve opening when performing a ten-fold cross-validation with test splits on triplane data from 240 patients. On an external independent test consisting of apical long-axis data from 180 other patients, the worst performing event detection had an aFD of 1.8 (30 ms). The proposed approach has the potential to significantly impact clinical practice by enabling more accurate, rapid and comprehensive event detection, leading to improved clinical measurements. | 翻訳日:2024-03-18 17:50:08 公開日:2024-03-15 |
# 機能グラフ畳み込みネットワーク:健康・社会・ケアの洞察を促進するための統合型マルチタスク・マルチモーダル学習フレームワーク
Functional Graph Convolutional Networks: A unified multi-task and multi-modal learning framework to facilitate health and social-care insights ( http://arxiv.org/abs/2403.10158v1 ) ライセンス: Link先を確認 | Tobia Boschi, Francesca Bonin, Rodrigo Ordonez-Hurtado, Cécile Rosseau, Alessandra Pascale, John Dinsmore, | (参考訳) 本稿では,デジタル健康・縦断研究におけるマルチタスク・マルチモーダル学習の複雑さに対処するため,関数型データ解析とグラフ型畳み込みネットワークを組み合わせた新しい関数型グラフ畳み込みネットワーク(funGCN)を提案する。
医療と社会的支援を改善するための医療ソリューションの重要性の高まり、健康な生活の確保、あらゆる年齢での幸福感の促進により、 funGCNは複数のエンティティの多変量長大データを扱う統一的なアプローチを提供し、小さなサンプルサイズでも解釈可能である。
主なイノベーションは、異なるデータタイプを管理するタスク固有の埋め込みコンポーネント、分類、回帰、予測を行う機能、洞察に富んだデータ解釈のための知識グラフの作成である。
funGCNの有効性はシミュレーション実験と実データ応用によって検証される。
This paper introduces a novel Functional Graph Convolutional Network (funGCN) framework that combines Functional Data Analysis and Graph Convolutional Networks to address the complexities of multi-task and multi-modal learning in digital health and longitudinal studies. With the growing importance of health solutions to improve health care and social support, ensure healthy lives, and promote well-being at all ages, funGCN offers a unified approach to handle multivariate longitudinal data for multiple entities and ensures interpretability even with small sample sizes. Key innovations include task-specific embedding components that manage different data types, the ability to perform classification, regression, and forecasting, and the creation of a knowledge graph for insightful data interpretation. The efficacy of funGCN is validated through simulation experiments and a real-data application. | 翻訳日:2024-03-18 17:50:08 公開日:2024-03-15 |
# オフラインにおけるオンライン政策学習
Online Policy Learning from Offline Preferences ( http://arxiv.org/abs/2403.10160v1 ) ライセンス: Link先を確認 | Guoxi Zhang, Han Bao, Hisashi Kashima, | (参考訳) 嗜好に基づく強化学習(PbRL)では、嗜好と呼ばれる人間のフィードバックから報酬関数が学習される。
選好収集の迅速化のために、最近の作業では、オフラインデータのために収集された選好である \emph{offline preferences} を活用している。
このシナリオでは、学習した報酬関数がオフラインデータに適合する。
学習エージェントがオフラインデータと重複しない動作を示す場合、学習された報酬関数は一般化可能性の問題に遭遇する可能性がある。
この問題に対処するため,本研究では,エージェントの行動とオフラインデータの比較であるPbRLのオフライン嗜好と「emph{virtual preferences}」を統合したフレームワークを提案する。
重要な点として、報酬関数は仮想的嗜好を用いてエージェントの行動を追跡することができ、エージェントに適切に整合したガイダンスを提供する。
本研究では,PbRLに仮想的嗜好を組み込むことの有効性を実証した。
In preference-based reinforcement learning (PbRL), a reward function is learned from a type of human feedback called preference. To expedite preference collection, recent works have leveraged \emph{offline preferences}, which are preferences collected for some offline data. In this scenario, the learned reward function is fitted on the offline data. If a learning agent exhibits behaviors that do not overlap with the offline data, the learned reward function may encounter generalizability issues. To address this problem, the present study introduces a framework that consolidates offline preferences and \emph{virtual preferences} for PbRL, which are comparisons between the agent's behaviors and the offline data. Critically, the reward function can track the agent's behaviors using the virtual preferences, thereby offering well-aligned guidance to the agent. Through experiments on continuous control tasks, this study demonstrates the effectiveness of incorporating the virtual preferences in PbRL. | 翻訳日:2024-03-18 17:40:24 公開日:2024-03-15 |
# CoReEcho:2次元+時間心エコー解析のための連続表現学習
CoReEcho: Continuous Representation Learning for 2D+time Echocardiography Analysis ( http://arxiv.org/abs/2403.10164v1 ) ライセンス: Link先を確認 | Fadillah Adamsyah Maani, Numan Saeed, Aleksandr Matsun, Mohammad Yaqub, | (参考訳) 深層学習(DL)モデルは、総合的なエンドツーエンドのトレーニングパイプラインを提供することで、心エコー法を含む様々なモードの自動医療画像解析を推進してきた。
このアプローチにより、DLモデルは2D+時間心エコー図から直接放出率(EF)を抑えることができ、性能が向上する。
しかし、エンドツーエンドのトレーニングパイプラインは、学習した表現をより説明しにくくする。
これらの表現は、心エコー画像クリップ間の連続的な関係を捉えることにも失敗し、一般化に悪影響を及ぼす急激な相関の存在を示す。
この問題を軽減するために,直接EF回帰に適した連続表現を強調する新しいトレーニングフレームワークであるCoReEchoを提案する。
私たちの大規模な実験は、CoReEchoを実証しています。
1) エコーNet-Dynamic (EchoNet-Dynamic) における現在最先端のSOTA(State-of-the-art) を、82.44の3.90&R2のMAEで上回ります。
2.2は、関連する下流タスクをより効果的に転送する堅牢で一般化可能な機能を提供する。
コードはhttps://github.com/fadamsyah/CoReEchoで公開されている。
Deep learning (DL) models have been advancing automatic medical image analysis on various modalities, including echocardiography, by offering a comprehensive end-to-end training pipeline. This approach enables DL models to regress ejection fraction (EF) directly from 2D+time echocardiograms, resulting in superior performance. However, the end-to-end training pipeline makes the learned representations less explainable. The representations may also fail to capture the continuous relation among echocardiogram clips, indicating the existence of spurious correlations, which can negatively affect the generalization. To mitigate this issue, we propose CoReEcho, a novel training framework emphasizing continuous representations tailored for direct EF regression. Our extensive experiments demonstrate that CoReEcho: 1) outperforms the current state-of-the-art (SOTA) on the largest echocardiography dataset (EchoNet-Dynamic) with MAE of 3.90 & R2 of 82.44, and 2) provides robust and generalizable features that transfer more effectively in related downstream tasks. The code is publicly available at https://github.com/fadamsyah/CoReEcho. | 翻訳日:2024-03-18 17:40:24 公開日:2024-03-15 |
# セマンティックHuman-HD:高分解能セマンティックディスタングル型3Dヒューマンジェネレーション
SemanticHuman-HD: High-Resolution Semantic Disentangled 3D Human Generation ( http://arxiv.org/abs/2403.10166v1 ) ライセンス: Link先を確認 | Peng Zheng, Tao Liu, Zili Yi, Rui Ma, | (参考訳) 神経放射場と生成モデルの開発により、2次元画像から3次元人間の生成を学習するための多くの手法が提案されている。
これらの方法は、生成された3D人間のポーズを制御し、異なる視点からレンダリングを可能にする。
しかしながら、これらの手法は、人間の画像合成における意味的ゆがみ、すなわち、体、トップ、ボトムなどの異なる意味的部分の生成を歪めることはできない。
さらに,既存の手法は,高計算コストのニューラルラジアンス場により,512^2$の解像度で画像の合成に制限されている。
これらの制約に対処するため,セマンティックHuman-HDを導入する。
特に,SemanticHuman-HDは,提案した3D対応超解像モジュールを利用して,1024^2$で3D対応画像合成を実現する最初の方法である。
深度マップとセマンティックマスクを3D対応超解像のガイダンスとして活用することにより,ボリュームレンダリング時のサンプリング点数を著しく削減し,計算コストを削減した。
比較実験により,本手法の優位性を実証した。
また, 各成分の有効性をアブレーション研究により検証した。
さらに,本手法は, 3次元衣料生成, 意味認識画像合成, 制御可能な画像合成, ドメイン外画像合成など, 様々な用途にエキサイティングな可能性を開く。
With the development of neural radiance fields and generative models, numerous methods have been proposed for learning 3D human generation from 2D images. These methods allow control over the pose of the generated 3D human and enable rendering from different viewpoints. However, none of these methods explore semantic disentanglement in human image synthesis, i.e., they can not disentangle the generation of different semantic parts, such as the body, tops, and bottoms. Furthermore, existing methods are limited to synthesize images at $512^2$ resolution due to the high computational cost of neural radiance fields. To address these limitations, we introduce SemanticHuman-HD, the first method to achieve semantic disentangled human image synthesis. Notably, SemanticHuman-HD is also the first method to achieve 3D-aware image synthesis at $1024^2$ resolution, benefiting from our proposed 3D-aware super-resolution module. By leveraging the depth maps and semantic masks as guidance for the 3D-aware super-resolution, we significantly reduce the number of sampling points during volume rendering, thereby reducing the computational cost. Our comparative experiments demonstrate the superiority of our method. The effectiveness of each proposed component is also verified through ablation studies. Moreover, our method opens up exciting possibilities for various applications, including 3D garment generation, semantic-aware image synthesis, controllable image synthesis, and out-of-domain image synthesis. | 翻訳日:2024-03-18 17:40:24 公開日:2024-03-15 |
# 因子グラフにおける交換可能な因子の効率的な検出
Efficient Detection of Exchangeable Factors in Factor Graphs ( http://arxiv.org/abs/2403.10167v1 ) ライセンス: Link先を確認 | Malte Luttermann, Johann Machemer, Marcel Gehrke, | (参考訳) ドメインサイズに関するトラクタブルな確率的推論を可能にするために、リフトされた確率的推論は確率的グラフィカルモデルにおいて対称性を利用する。
しかし、2つの因子が等価なセマンティクスを符号化しているかどうかを確認することは、計算コストが高い。
本稿では,因子グラフにおける交換可能な因子を検出する問題を効率的に解決する。
特に,交換可能因子(DEFT)検出アルゴリズムを導入し,実際に2つの因子が交換可能かどうかの計算労力を大幅に削減する。
これまでのアプローチでは、すべての$O(n!)$ permutations of a factor's argument list in the worst case (ここで$n$は係数の引数の数)を繰り返すが、DEFTは効率よく制限を識別し、置換数を劇的に減らし、経験的評価におけるDEFTの有効性を検証する。
To allow for tractable probabilistic inference with respect to domain sizes, lifted probabilistic inference exploits symmetries in probabilistic graphical models. However, checking whether two factors encode equivalent semantics and hence are exchangeable is computationally expensive. In this paper, we efficiently solve the problem of detecting exchangeable factors in a factor graph. In particular, we introduce the detection of exchangeable factors (DEFT) algorithm, which allows us to drastically reduce the computational effort for checking whether two factors are exchangeable in practice. While previous approaches iterate all $O(n!)$ permutations of a factor's argument list in the worst case (where $n$ is the number of arguments of the factor), we prove that DEFT efficiently identifies restrictions to drastically reduce the number of permutations and validate the efficiency of DEFT in our empirical evaluation. | 翻訳日:2024-03-18 17:40:24 公開日:2024-03-15 |
# 不確実性による説明可能性:ニューラルネットワークによる信頼できる意思決定
Explainability through uncertainty: Trustworthy decision-making with neural networks ( http://arxiv.org/abs/2403.10168v1 ) ライセンス: Link先を確認 | Arthur Thuy, Dries F. Benoit, | (参考訳) 不確実性は、あらゆる機械学習モデルの主要な特徴であり、ニューラルネットワークにおいて特に重要であり、過信される傾向がある。
データ分布がトレーニングデータ分布から分岐するにつれて、モデルの性能は静かに低下する。
不確実性推定は、アウトプットが信頼できる(そうでない)ときに通信する、過信モデルに対するソリューションを提供する。
不確実性推定法は開発されているが、説明可能な人工知能(XAI)の分野と明確に関連付けられていない。
さらに、運用研究における文献は、不確実性推定の動作可能性成分を無視し、分布シフトを考慮しない。
この研究は、貢献が3倍になる一般的な不確実性フレームワークを提案する。
i) MLモデルの不確実性をXAI手法として位置づけ、局所的及びモデル固有の説明を与える。
二 否定を伴う分類は、不確実な観察のために人的専門家をループに入れ、誤分類を減らすために用いられる。
三 この枠組みは、分散シフトを考慮した教育データマイニングにおけるニューラルネットワークのケーススタディに適用する。
XAIとしての不確実性は、下流の意思決定タスクにおけるモデルの信頼性を改善し、オペレーション研究においてより実用的な、堅牢な機械学習システムを生み出します。
Uncertainty is a key feature of any machine learning model and is particularly important in neural networks, which tend to be overconfident. This overconfidence is worrying under distribution shifts, where the model performance silently degrades as the data distribution diverges from the training data distribution. Uncertainty estimation offers a solution to overconfident models, communicating when the output should (not) be trusted. Although methods for uncertainty estimation have been developed, they have not been explicitly linked to the field of explainable artificial intelligence (XAI). Furthermore, literature in operations research ignores the actionability component of uncertainty estimation and does not consider distribution shifts. This work proposes a general uncertainty framework, with contributions being threefold: (i) uncertainty estimation in ML models is positioned as an XAI technique, giving local and model-specific explanations; (ii) classification with rejection is used to reduce misclassifications by bringing a human expert in the loop for uncertain observations; (iii) the framework is applied to a case study on neural networks in educational data mining subject to distribution shifts. Uncertainty as XAI improves the model's trustworthiness in downstream decision-making tasks, giving rise to more actionable and robust machine learning systems in operations research. | 翻訳日:2024-03-18 17:40:24 公開日:2024-03-15 |
# 新しいデータセットと学習フレームワーク
Computer User Interface Understanding. A New Dataset and a Learning Framework ( http://arxiv.org/abs/2403.10170v1 ) ライセンス: Link先を確認 | Andrés Muñoz, Daniel Borrajo, | (参考訳) ユーザインターフェース(UI)の理解は、ここ数年でますます人気が高まっているトピックです。
これまでのところ、Webやモバイルアプリケーションだけに重点を置いてきた。
本稿では,コンピュータUI理解の難しさについて紹介する。
この分野での研究を可能にするために、ユーザが一連のアクションを実行しているビデオと、その時点で各画像がデスクトップコンテンツを表示する一連のデータセットを作成した。
また、関連する特徴を持つデータセットを増強する合成サンプル生成パイプラインと、ビデオ内の画像の分類を行うコントラスト学習方法からなるフレームワークを提案する。
複数の部分的なタスクを同時に処理することで、画像の特徴と自然な条件、木のような関係を利用して表現の学習を規則化する。
実験結果から,提案したフレームワークは,これまで提案されていた階層型マルチラベル・コントラストのUI分類における損失よりも優れていた。
User Interface (UI) understanding has been an increasingly popular topic over the last few years. So far, there has been a vast focus solely on web and mobile applications. In this paper, we introduce the harder task of computer UI understanding. With the goal of enabling research in this field, we have generated a dataset with a set of videos where a user is performing a sequence of actions and each image shows the desktop contents at that time point. We also present a framework that is composed of a synthetic sample generation pipeline to augment the dataset with relevant characteristics, and a contrastive learning method to classify images in the videos. We take advantage of the natural conditional, tree-like, relationship of the images' characteristics to regularize the learning of the representations by dealing with multiple partial tasks simultaneously. Experimental results show that the proposed framework outperforms previously proposed hierarchical multi-label contrastive losses in fine-grain UI classification. | 翻訳日:2024-03-18 17:40:24 公開日:2024-03-15 |
# AUTONODE:認知的GUI自動化のための神経グラフ型自己学習エンジン
AUTONODE: A Neuro-Graphic Self-Learnable Engine for Cognitive GUI Automation ( http://arxiv.org/abs/2403.10171v1 ) ライセンス: Link先を確認 | Arkajit Datta, Tushar Verma, Rajat Chawla, | (参考訳) 近年,Large Language Models (LLMs) の領域内では,認知能力の向上と高度な推論を通じて,ロボットプロセス自動化(RPA)の課題に対処できるエージェントが出現している。
この開発は、ゴール達成におけるスケーラビリティと人間ライクな適応性の新しい時代を物語っている。
本稿では,AUTONODE(Online Neuro-graphic Operations and Deep Exploration)を紹介する。
AUTONODEは、Webインターフェース上での自律的なナビゲーションとタスク実行を容易にするために、高度な神経グラフィック技術を採用しており、事前に定義されたスクリプトや手動による介入の必要性を回避している。
我々のエンジンは、エージェントが複雑なワークフローを理解し実装し、非並列効率で動的Web環境に適応できるようにします。
本手法は,AUTONODEに経験から学習する能力を持たせることにより,認知機能とロボットの自動化を連携させる。
我々は,探索モジュールであるDoRA(Recovery and mapping Operation for graph Retrieval Agent)を統合した。これは,エンジンが動作を最適化し,最小限の監視で目的を達成するための知識グラフの構築に有効である。
AUTONODEの汎用性と有効性は一連の実験を通じて実証され、データ抽出からトランザクション処理まで、さまざまなWebベースのタスクを管理する能力を強調している。
In recent advancements within the domain of Large Language Models (LLMs), there has been a notable emergence of agents capable of addressing Robotic Process Automation (RPA) challenges through enhanced cognitive capabilities and sophisticated reasoning. This development heralds a new era of scalability and human-like adaptability in goal attainment. In this context, we introduce AUTONODE (Autonomous User-interface Transformation through Online Neuro-graphic Operations and Deep Exploration). AUTONODE employs advanced neuro-graphical techniques to facilitate autonomous navigation and task execution on web interfaces, thereby obviating the necessity for predefined scripts or manual intervention. Our engine empowers agents to comprehend and implement complex workflows, adapting to dynamic web environments with unparalleled efficiency. Our methodology synergizes cognitive functionalities with robotic automation, endowing AUTONODE with the ability to learn from experience. We have integrated an exploratory module, DoRA (Discovery and mapping Operation for graph Retrieval Agent), which is instrumental in constructing a knowledge graph that the engine utilizes to optimize its actions and achieve objectives with minimal supervision. The versatility and efficacy of AUTONODE are demonstrated through a series of experiments, highlighting its proficiency in managing a diverse array of web-based tasks, ranging from data extraction to transaction processing. | 翻訳日:2024-03-18 17:40:24 公開日:2024-03-15 |
# 空間的・時間的注意を伴うイベントベース物体検出のためのハイブリッドSNN-ANNネットワーク
A Hybrid SNN-ANN Network for Event-based Object Detection with Spatial and Temporal Attention ( http://arxiv.org/abs/2403.10173v1 ) ライセンス: Link先を確認 | Soikat Hasan Ahmed, Jan Finkbeiner, Emre Neftci, | (参考訳) イベントカメラは、時間分解能が高く、動きのぼやけが少ないダイナミックレンジを提供し、オブジェクト検出タスクを約束する。
Spiking Neural Networks(SNN)は、イベントベースの知覚データと自然に一致し、ニューロモルフィックハードウェア上で超高効率で低レイテンシな推論を可能にする一方で、Artificial Neural Networks(ANN)はより安定したトレーニングダイナミックスを示し、より高速な収束によってタスクパフォーマンスが向上する傾向にある。
ハイブリッドSNN-ANNアプローチは有望な代替手段であり、SNNとANNアーキテクチャの長所を活用できる。
本研究では,イベントカメラを用いたオブジェクト検出のためのハイブリッドアテンションベースのSNN-ANNバックボーンを提案する。
本研究では,SNN層から疎空間的・時間的関係を捕捉し,それらを背骨のANN部分の高密度特徴写像に変換するための新しいアテンションベースのSNN-ANNブリッジモジュールを提案する。
実験の結果,提案手法はベースラインハイブリッドとSNNベースのアプローチをはるかに上回り,既存のANN方式に匹敵する結果が得られた。
大規模なアブレーション研究は,提案したモジュールの有効性と設計上の選択を裏付けるものである。
これらの結果は,パラメータ予算を大幅に削減したANNのような性能を実現するハイブリッドSNN-ANNアーキテクチャへの道を開いた。
我々は,SNNブロックをデジタルニューロモルフィックハードウェアに実装し,レイテンシと消費電力を調査し,本手法の有効性を実証した。
Event cameras offer high temporal resolution and dynamic range with minimal motion blur, making them promising for object detection tasks. While Spiking Neural Networks (SNNs) are a natural match for event-based sensory data and enable ultra-energy efficient and low latency inference on neuromorphic hardware, Artificial Neural Networks (ANNs) tend to display more stable training dynamics and faster convergence resulting in greater task performance. Hybrid SNN-ANN approaches are a promising alternative, enabling to leverage the strengths of both SNN and ANN architectures. In this work, we introduce the first Hybrid Attention-based SNN-ANN backbone for object detection using event cameras. We propose a novel Attention-based SNN-ANN bridge module to capture sparse spatial and temporal relations from the SNN layer and convert them into dense feature maps for the ANN part of the backbone. Experimental results demonstrate that our proposed method surpasses baseline hybrid and SNN-based approaches by significant margins, with results comparable to existing ANN-based methods. Extensive ablation studies confirm the effectiveness of our proposed modules and architectural choices. These results pave the way toward a hybrid SNN-ANN architecture that achieves ANN like performance at a drastically reduced parameter budget. We implemented the SNN blocks on digital neuromorphic hardware to investigate latency and power consumption and demonstrate the feasibility of our approach. | 翻訳日:2024-03-18 17:40:24 公開日:2024-03-15 |
# 機械学習における重要度重み付けに関する短い調査
A Short Survey on Importance Weighting for Machine Learning ( http://arxiv.org/abs/2403.10175v1 ) ライセンス: Link先を確認 | Masanari Kimura, Hideitsu Hino, | (参考訳) 重要性重み付けは、ある意味でのインスタンスの重要性に基づいて目的関数や確率分布を重み付けする統計学と機械学習の基本的な手順である。
このアイデアの単純さと有用性は、重要度重み付けの多くの応用に繋がった。
例えば、分布シフトと呼ばれる、トレーニングとテストの分布の違いに関する仮定に基づく教師あり学習は、その密度比による重み付けによって統計的に望ましい特性を保証できることが知られている。
この調査は、機械学習と関連する研究における重み付けの幅広い応用について要約する。
Importance weighting is a fundamental procedure in statistics and machine learning that weights the objective function or probability distribution based on the importance of the instance in some sense. The simplicity and usefulness of the idea has led to many applications of importance weighting. For example, it is known that supervised learning under an assumption about the difference between the training and test distributions, called distribution shift, can guarantee statistically desirable properties through importance weighting by their density ratio. This survey summarizes the broad applications of importance weighting in machine learning and related research. | 翻訳日:2024-03-18 17:40:24 公開日:2024-03-15 |
# 静止画をダイナミックビデオに変える「Animate Your Motion」
Animate Your Motion: Turning Still Images into Dynamic Videos ( http://arxiv.org/abs/2403.10179v1 ) ライセンス: Link先を確認 | Mingxiao Li, Bo Wan, Marie-Francine Moens, Tinne Tuytelaars, | (参考訳) 近年、拡散モデルはテキスト・ビデオ生成において顕著な進歩を遂げており、ユーザの意図をより正確に反映するために、ビデオ出力の制御を強化しようと試みている。
従来の取り組みは主に、画像や深度マップのようなセマンティックな手がかりや、スケッチやオブジェクト境界ボックスの移動といったモーションベースの条件の採用に重点を置いている。
セマンティックな入力はリッチなシーンコンテキストを提供するが、詳細な動きの特異性は欠く; 逆に、モーションインプットは正確な軌跡情報を提供するが、より広いセマンティックな物語を見逃す。
図1に示すように、ビデオ生成のための拡散モデルにおいて、セマンティックキューとモーションキューの両方を初めて統合する。
この目的のために,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介した。
認識された動作条件モジュールを組み込み、シーン条件を統合する様々なアプローチを調査し、異なるモーダル間のシナジーを促進する。
モデルトレーニングでは、2つのモードの条件を分離し、2段階のトレーニングパイプラインを導入します。
実験により,映像品質,動作精度,セマンティックコヒーレンスを著しく向上させることが示された。
In recent years, diffusion models have made remarkable strides in text-to-video generation, sparking a quest for enhanced control over video outputs to more accurately reflect user intentions. Traditional efforts predominantly focus on employing either semantic cues, like images or depth maps, or motion-based conditions, like moving sketches or object bounding boxes. Semantic inputs offer a rich scene context but lack detailed motion specificity; conversely, motion inputs provide precise trajectory information but miss the broader semantic narrative. For the first time, we integrate both semantic and motion cues within a diffusion model for video generation, as demonstrated in Fig 1. To this end, we introduce the Scene and Motion Conditional Diffusion (SMCD), a novel methodology for managing multimodal inputs. It incorporates a recognized motion conditioning module and investigates various approaches to integrate scene conditions, promoting synergy between different modalities. For model training, we separate the conditions for the two modalities, introducing a two-stage training pipeline. Experimental results demonstrate that our design significantly enhances video quality, motion precision, and semantic coherence. | 翻訳日:2024-03-18 17:40:24 公開日:2024-03-15 |
# 安価なニューラルネットワークアンサンブルによる信頼性の不確実性:工業部品分類における事例研究
Reliable uncertainty with cheaper neural network ensembles: a case study in industrial parts classification ( http://arxiv.org/abs/2403.10182v1 ) ライセンス: Link先を確認 | Arthur Thuy, Dries F. Benoit, | (参考訳) オペレーションリサーチ(OR)では、予測モデルは、データ分布とトレーニングデータ分布が異なる場合の、アウト・オブ・ディストリビューション(OOD)のシナリオに遭遇することが多い。
近年、ニューラルネットワーク(NN)は、画像分類などの分野での例外的な性能のために、ORにおいて勢いを増している。
しかし、NNはOODデータに直面すると、自信はあるが誤った予測をする傾向がある。
不確実性推定は、アウトプットが信頼できる(そうでない)ときに通信する、過信モデルに対するソリューションを提供する。
したがって、NNにおける確実な不確実性定量化はOR領域において重要である。
複数の独立したNNで構成されたディープアンサンブルは、強い予測精度だけでなく、信頼性の高い不確実性推定を提供する、有望なアプローチとして現れている。
しかし、実際の計算要求のため、その展開は困難である。
最近の基礎研究により、より効率的なNNアンサンブル、すなわちスナップショット、バッチ、マルチインプットマルチアウトプットアンサンブルが提案されている。
本研究は,1つのNNと1つのディープアンサンブル,および3つの効率的なNNアンサンブルを総合的に比較した最初のものである。
さらに,1つの測度において,分布内およびOOD集合上でのアンサンブルのパフォーマンスを定量化するための多様性品質指標を提案する。
ORケーススタディでは,工場のタイムリーメンテナンスにおいて重要なスペア部品の特定と管理を行う産業部品分類について論じている。
その結果、バッチアンサンブルは、ディープアンサンブルのコスト効率と競争力のある代替品として強調された。
トレーニングタイムの7倍、テストタイムの8倍、メモリの9倍のスピードアップを示しながら、不確実性と正確性の両方でディープアンサンブルを上回っている。
In operations research (OR), predictive models often encounter out-of-distribution (OOD) scenarios where the data distribution differs from the training data distribution. In recent years, neural networks (NNs) are gaining traction in OR for their exceptional performance in fields such as image classification. However, NNs tend to make confident yet incorrect predictions when confronted with OOD data. Uncertainty estimation offers a solution to overconfident models, communicating when the output should (not) be trusted. Hence, reliable uncertainty quantification in NNs is crucial in the OR domain. Deep ensembles, composed of multiple independent NNs, have emerged as a promising approach, offering not only strong predictive accuracy but also reliable uncertainty estimation. However, their deployment is challenging due to substantial computational demands. Recent fundamental research has proposed more efficient NN ensembles, namely the snapshot, batch, and multi-input multi-output ensemble. This study is the first to provide a comprehensive comparison of a single NN, a deep ensemble, and the three efficient NN ensembles. In addition, we propose a Diversity Quality metric to quantify the ensembles' performance on the in-distribution and OOD sets in one single metric. The OR case study discusses industrial parts classification to identify and manage spare parts, important for timely maintenance of industrial plants. The results highlight the batch ensemble as a cost-effective and competitive alternative to the deep ensemble. It outperforms the deep ensemble in both uncertainty and accuracy while exhibiting a training time speedup of 7x, a test time speedup of 8x, and 9x memory savings. | 翻訳日:2024-03-18 17:40:24 公開日:2024-03-15 |
# リレーショナルドメインにおけるリフテッド因果推論
Lifted Causal Inference in Relational Domains ( http://arxiv.org/abs/2403.10184v1 ) ライセンス: Link先を確認 | Malte Luttermann, Mattis Hartwig, Tanya Braun, Ralf Möller, Marcel Gehrke, | (参考訳) Lifted Inferenceは確率的グラフィカルモデルの対称性を利用して、不明瞭なオブジェクトの表現を使い、正確な答えを維持しながらクエリ応答を高速化する。
昇降は関係領域における確率的推論のタスクに対して確立された手法であるが、因果推論のタスクにはまだ適用されていない。
本稿では,リレーショナルドメインの因果効果を効率的に計算するために,リフトの適用方法を示す。
具体的には、因果知識を取り入れたパラメトリック因子グラフの拡張としてパラメトリック因果因子グラフを導入し、介入の形式的意味論を与える。
さらに,昇降レベルの因果効果を計算するために,昇降因果推論アルゴリズムを提案し,因果ベイズネットワークにおける因果推論よりも格段に因果推論を高速化する。
経験的評価では、我々のアプローチの有効性を実証する。
Lifted inference exploits symmetries in probabilistic graphical models by using a representative for indistinguishable objects, thereby speeding up query answering while maintaining exact answers. Even though lifting is a well-established technique for the task of probabilistic inference in relational domains, it has not yet been applied to the task of causal inference. In this paper, we show how lifting can be applied to efficiently compute causal effects in relational domains. More specifically, we introduce parametric causal factor graphs as an extension of parametric factor graphs incorporating causal knowledge and give a formal semantics of interventions therein. We further present the lifted causal inference algorithm to compute causal effects on a lifted level, thereby drastically speeding up causal inference compared to propositional inference, e.g., in causal Bayesian networks. In our empirical evaluation, we demonstrate the effectiveness of our approach. | 翻訳日:2024-03-18 17:40:24 公開日:2024-03-15 |
# 事実は欺くか?-DeFaBel Corpus of Belief-based Deception
Can Factual Statements be Deceptive? The DeFaBel Corpus of Belief-based Deception ( http://arxiv.org/abs/2403.10185v1 ) ライセンス: Link先を確認 | Aswathy Velutharambath, Amelie Wührl, Roman Klinger, | (参考訳) もしある人が「地球は平らだ」といった事実でない言明を固く信じ、その好意で主張するならば、欺くという本質的な意図は存在しない。
議論は真の信念に由来するため、偽りや嘘に関連する言語的性質を示すことはありそうにない。
この事実性、個人的な信念、欺く意図の相互作用は、まだ未調査の領域である。
議論においてこれらの変数の影響を遠ざけることは、それぞれの変数が持つ言語的特性をより深く理解するために重要である。
虚偽と事実性の関係を考察するため,信条に基づく虚偽のクラウドソース資源であるDeFaBel corpusを提示する。
このコーパスを作成するために、参加者に「スイカの種を食べることは消化不良を引き起こす」といった主張を支持する議論を書くよう指示する研究を考案した。
生成タスクに加えて、声明に対する彼らの信念を開示するよう求めます。
収集された事例は、議論が参加者の個人的な信念と矛盾している場合、偽りとしてラベル付けされる。
したがって、コーパスの各インスタンスは、著者の個人的な信念、陳述の事実性、意図された虚偽性によって注釈付け(または暗黙的にラベル付け)される。
DeFaBel corpus にはドイツ語 1031 のテキストが含まれており、そのうち643 は偽造、388 は非偽造である。
ドイツ語で偽装を研究するための最初の公的なコーパスである。
分析の結果,主張が信念と一致している場合には議論の説得力に自信が持てるが,事実を優先して議論を行う場合の自信は驚くほど低いことがわかった。
DeFaBel corpus は https://www.ims.uni-stuttgart.de/data/defabel から取得できる。
If a person firmly believes in a non-factual statement, such as "The Earth is flat", and argues in its favor, there is no inherent intention to deceive. As the argumentation stems from genuine belief, it may be unlikely to exhibit the linguistic properties associated with deception or lying. This interplay of factuality, personal belief, and intent to deceive remains an understudied area. Disentangling the influence of these variables in argumentation is crucial to gain a better understanding of the linguistic properties attributed to each of them. To study the relation between deception and factuality, based on belief, we present the DeFaBel corpus, a crowd-sourced resource of belief-based deception. To create this corpus, we devise a study in which participants are instructed to write arguments supporting statements like "eating watermelon seeds can cause indigestion", regardless of its factual accuracy or their personal beliefs about the statement. In addition to the generation task, we ask them to disclose their belief about the statement. The collected instances are labelled as deceptive if the arguments are in contradiction to the participants' personal beliefs. Each instance in the corpus is thus annotated (or implicitly labelled) with personal beliefs of the author, factuality of the statement, and the intended deceptiveness. The DeFaBel corpus contains 1031 texts in German, out of which 643 are deceptive and 388 are non-deceptive. It is the first publicly available corpus for studying deception in German. In our analysis, we find that people are more confident in the persuasiveness of their arguments when the statement is aligned with their belief, but surprisingly less confident when they are generating arguments in favor of facts. The DeFaBel corpus can be obtained from https://www.ims.uni-stuttgart.de/data/defabel | 翻訳日:2024-03-18 17:40:24 公開日:2024-03-15 |
# Grasp Anything: 教師強化型政策グラディエント学習とインスタンスセグメンテーションを組み合わせたGrasp任意オブジェクト
Grasp Anything: Combining Teacher-Augmented Policy Gradient Learning with Instance Segmentation to Grasp Arbitrary Objects ( http://arxiv.org/abs/2403.10187v1 ) ライセンス: Link先を確認 | Malte Mosbach, Sven Behnke, | (参考訳) クラッタからの対話的把握は、人間の器用さに似ており、ロボット学習における長年の課題の1つだ。
課題は、視覚的知覚の複雑さ、正確な運動スキルの需要、そして両者の複雑な相互作用から生じる。
本研究では,強化学習と政策蒸留を相乗化する2段階学習フレームワークであるTAPG(Teacher-Augmented Policy Gradient)を提案する。
TAPGは、オブジェクトポーズ情報に基づいて、運動制御をマスターする教師のポリシーを訓練した後、オブジェクトセグメンテーションに基づいて、ガイド付きで、適応的で、知覚的ポリシーの学習を促進する。
シミュレーションから実ロボットへのゼロショットトランスファーを,物体分割の高速化にセグメンテーションモデルを用いて行う。
トレーニングされたポリシーは、シミュレーションにおける散らかったシナリオや、人間の理解可能なプロンプトに基づいて現実世界から、多種多様なオブジェクトを順応的に把握する。
さらに, 新規物体への強靭なゼロショット転送を示す。
実験のビデオは \url{https://maltemosbach.github.io/grasp_anything} で公開されている。
Interactive grasping from clutter, akin to human dexterity, is one of the longest-standing problems in robot learning. Challenges stem from the intricacies of visual perception, the demand for precise motor skills, and the complex interplay between the two. In this work, we present Teacher-Augmented Policy Gradient (TAPG), a novel two-stage learning framework that synergizes reinforcement learning and policy distillation. After training a teacher policy to master the motor control based on object pose information, TAPG facilitates guided, yet adaptive, learning of a sensorimotor policy, based on object segmentation. We zero-shot transfer from simulation to a real robot by using Segment Anything Model for promptable object segmentation. Our trained policies adeptly grasp a wide variety of objects from cluttered scenarios in simulation and the real world based on human-understandable prompts. Furthermore, we show robust zero-shot transfer to novel objects. Videos of our experiments are available at \url{https://maltemosbach.github.io/grasp_anything}. | 翻訳日:2024-03-18 17:40:24 公開日:2024-03-15 |
# Taiyi: 完全同型暗号化のための高性能CKKSアクセラレータ
Taiyi: A high-performance CKKS accelerator for Practical Fully Homomorphic Encryption ( http://arxiv.org/abs/2403.10188v1 ) ライセンス: Link先を確認 | Shengyu Fan, Xianglong Deng, Zhuoyu Tian, Zhicheng Hu, Liang Chang, Rui Hou, Dan Meng, Mingzhe Zhang, | (参考訳) FHE(Fully Homomorphic Encryption)は、暗号データ上で直接計算を可能にする新しい暗号理論である。
近年、FHEアプリケーションの性能が大幅に向上し、現実の応用に近づいた。
しかし、これらのアクセラレーターは、大きなオンチップメモリと領域に関連する課題に直面している。
さらに、FHEアルゴリズムは急速に開発され、以前の加速器の設計は最適化されたFHEアプリケーションの進化する状況に適合しない。
本稿では,新しいFHE法を用いて既存アプリケーションの詳細な解析を行い,2つの重要な観察を行った。
1)FHEアプリケーションのボトルネックはNTTから内積操作に移行し、
2) KeySwitchの最適条件は乗算レベルの低下とともに変化する。
これらの観測に基づいて,内積演算のためのハードウェアを具備し,アルゴリズム的導出によるNTTおよびBConv操作を最適化する,Taiyiというアクセラレータを設計した。
従来の最先端設計との比較評価では1.5倍の性能向上を示し、オーバヘッドを15.7%削減している。
Fully Homomorphic Encryption (FHE), a novel cryptographic theory enabling computation directly on ciphertext data, offers significant security benefits but is hampered by substantial performance overhead. In recent years, a series of accelerator designs have significantly enhanced the performance of FHE applications, bringing them closer to real-world applicability. However, these accelerators face challenges related to large on-chip memory and area. Additionally, FHE algorithms undergo rapid development, rendering the previous accelerator designs less perfectly adapted to the evolving landscape of optimized FHE applications. In this paper, we conducted a detailed analysis of existing applications with the new FHE method, making two key observations: 1) the bottleneck of FHE applications shifts from NTT to the inner-product operation, and 2) the optimal {\alpha} of KeySwitch changes with the decrease in multiplicative level. Based on these observations, we designed an accelerator named Taiyi, which includes specific hardware for the inner-product operation and optimizes the NTT and BConv operations through algorithmic derivation. A comparative evaluation of Taiyi against previous state-of-the-art designs reveals an average performance improvement of 1.5x and reduces the area overhead by 15.7%. | 翻訳日:2024-03-18 17:40:24 公開日:2024-03-15 |
# アノテーションラベルの不確実性を考慮した知覚的品質ベースモデルトレーニング
Perceptual Quality-based Model Training under Annotator Label Uncertainty ( http://arxiv.org/abs/2403.10190v1 ) ライセンス: Link先を確認 | Chen Zhou, Mohit Prabhushankar, Ghassan AlRegib, | (参考訳) アノテーションは、アノテータラベルの不確実性と呼ばれるデータラベリング中に不一致を示す。
アノテーションラベルの不確実性はラベル品質のバリエーションに現れる。
サンプル毎に1つの低品質アノテーションでトレーニングすることで、モデルの信頼性が低下する。
本研究ではまず,アノテータラベルの不確かさがモデルの一般化可能性および予測不確かさに与える影響について検討する。
モデルの一般化性と予測の不確実性は,低品質ノイズラベルの存在によって低下する。
一方,既存の不確実性推定アルゴリズムの評価は,アノテータラベルの不確実性に対する不確実性を示す。
性能劣化を軽減するために、先行手法では、複数の独立アノテータから収集したラベルを用いたトレーニングモデルにより、一般化性を高めることができる。
しかし、それらは大量のアノテーションを必要とする。
そこで本研究では,信頼性を高めるため,大量のアノテーションを回避しつつ,複数のラベルを客観的に生成する,新しい品質ベースモデルトレーニングフレームワークを提案する。
具体的には、視覚信号の統計的規則性によってランク付けされた知覚品質スコアの低いサンプルのサブセットを選択する。
次に、このサブセットの各サンプルに非集約ラベルを割り当て、複数のラベルを持つトレーニングセットを得る。
実験と分析により,アノテータラベルの不確実性に起因する一般化可能性の低下と予測の不確実性を軽減することが確認された。
Annotators exhibit disagreement during data labeling, which can be termed as annotator label uncertainty. Annotator label uncertainty manifests in variations of labeling quality. Training with a single low-quality annotation per sample induces model reliability degradations. In this work, we first examine the effects of annotator label uncertainty in terms of the model's generalizability and prediction uncertainty. We observe that the model's generalizability and prediction uncertainty degrade with the presence of low-quality noisy labels. Meanwhile, our evaluation of existing uncertainty estimation algorithms indicates their incapability in response to annotator label uncertainty. To mitigate performance degradation, prior methods show that training models with labels collected from multiple independent annotators can enhance generalizability. However, they require massive annotations. Hence, we introduce a novel perceptual quality-based model training framework to objectively generate multiple labels for model training to enhance reliability, while avoiding massive annotations. Specifically, we first select a subset of samples with low perceptual quality scores ranked by statistical regularities of visual signals. We then assign de-aggregated labels to each sample in this subset to obtain a training set with multiple labels. Our experiments and analysis demonstrate that training with the proposed framework alleviates the degradation of generalizability and prediction uncertainty caused by annotator label uncertainty. | 翻訳日:2024-03-18 17:30:38 公開日:2024-03-15 |
# オープンエンディング対象検出のための生成領域言語事前学習
Generative Region-Language Pretraining for Open-Ended Object Detection ( http://arxiv.org/abs/2403.10191v1 ) ライセンス: Link先を確認 | Chuang Lin, Yi Jiang, Lizhen Qu, Zehuan Yuan, Jianfei Cai, | (参考訳) 近年の研究では、学習中にラベル付けされたクラス数を超えて一般化し、推論時に任意のカテゴリ名で記述されたオブジェクトを検出することを目的として、オープン語彙オブジェクト検出タスクに注目が集まっている。
従来のオブジェクト検出と比較して、オープン語彙オブジェクト検出は、オブジェクト検出カテゴリを大きく拡張する。
しかし、事前に訓練された視覚・言語モデルを用いて、画像領域と任意のカテゴリ名の集合との類似性を計算することに依存する。
これは、その開集合の性質にもかかわらず、そのタスクは推論段階でも定義済みのオブジェクトカテゴリが必要であることを意味する。
もし推論中にオブジェクトカテゴリの正確な知識がなければどうでしょう?
本稿では、このような新しい設定を生成的オープンエンドオブジェクト検出と呼び、より汎用的で実用的な問題である。
そこで我々は,オブジェクト検出を生成問題として定式化し,高密度なオブジェクトを検出し,その名前を自由形式の方法で生成するGenerateUというシンプルなフレームワークを提案する。
特に,視覚領域をオブジェクト名に翻訳する言語モデルを備えた領域提案生成器としてDeformable DETRを用いる。
自由形オブジェクト検出タスクを評価するために,生成結果の性能を定量的に測定する評価手法を提案する。
大規模な実験では、GenerateUのゼロショット検出性能が強かった。
例えば、LVISデータセットでは、GenerateUは推論中にカテゴリ名が見えないにもかかわらず、オープン語彙オブジェクト検出メソッドGLIPと同等の結果を得る。
コードは、https:// github.com/FoundationVision/GenerateUで入手できる。
In recent research, significant attention has been devoted to the open-vocabulary object detection task, aiming to generalize beyond the limited number of classes labeled during training and detect objects described by arbitrary category names at inference. Compared with conventional object detection, open vocabulary object detection largely extends the object detection categories. However, it relies on calculating the similarity between image regions and a set of arbitrary category names with a pretrained vision-and-language model. This implies that, despite its open-set nature, the task still needs the predefined object categories during the inference stage. This raises the question: What if we do not have exact knowledge of object categories during inference? In this paper, we call such a new setting as generative open-ended object detection, which is a more general and practical problem. To address it, we formulate object detection as a generative problem and propose a simple framework named GenerateU, which can detect dense objects and generate their names in a free-form way. Particularly, we employ Deformable DETR as a region proposal generator with a language model translating visual regions to object names. To assess the free-form object detection task, we introduce an evaluation method designed to quantitatively measure the performance of generative outcomes. Extensive experiments demonstrate strong zero-shot detection performance of our GenerateU. For example, on the LVIS dataset, our GenerateU achieves comparable results to the open-vocabulary object detection method GLIP, even though the category names are not seen by GenerateU during inference. Code is available at: https:// github.com/FoundationVision/GenerateU . | 翻訳日:2024-03-18 17:30:38 公開日:2024-03-15 |
# 時間・周波数分解分光のオープン量子系シミュレーション
Open quantum system simulation of time and frequency resolved spectroscopy ( http://arxiv.org/abs/2403.10192v1 ) ライセンス: Link先を確認 | Tobias Kramer, | (参考訳) レーザーパルスとの相互作用によって引き起こされる分子複合体における励起エネルギー移動のダイナミクスは、基礎となる物理過程に固有の窓を与える。
吸収エネルギーは結合した色素のネットワークを通って移動し、光合成錯体は反応中心に達する。
効率性と時間スケールは励起結合に依存するだけでなく、分子の振動モードへのエネルギーの放出にも影響される。
オープン量子システム記述は、関連するプロセスを記述するのに適したツールを提供し、デコヒーレンスと緩和ダイナミクスを時間依存分極の測定に接続する。
The dynamics of excitonic energy transfer in molecular complexes triggered by interaction with laser pulses offers a unique window into the underlying physical processes. The absorbed energy moves through the network of interlinked pigments and in photosynthetic complexes reaches a reaction center. The efficiency and time-scale depend not only on the excitonic couplings, but are also affected by the dissipation of energy to vibrational modes of the molecules. An open quantum system description provides a suitable tool to describe the involved processes and connects the decoherence and relaxation dynamics to measurements of the time-dependent polarization. | 翻訳日:2024-03-18 17:30:38 公開日:2024-03-15 |
# 内部量子テレポーテーションによる量子臨界点の有限温度検出
Finite temperature detection of quantum critical points via internal quantum teleportation ( http://arxiv.org/abs/2403.10193v1 ) ライセンス: Link先を確認 | G. A. P. Ribeiro, Gustavo Rigolin, | (参考訳) 本研究では,その実装に必要なリソースがすべてシステム内にある場合でも,有限温度データを用いて量子臨界点を効率的に検出することができることを示す。
以前の提案とは対照的に、外部キュービットを入力状態として使用する必要はなく、システム内のキュービットの1つにテレポートする。
ここでは、量子テレポーテーションプロトコルの絡み合った資源として、熱浴と平衡な無限スピン-1/2鎖から最も近い隣り合うスピンの対と、チェーン自体内の第3の隣接量子ビットを、テレポーテーションされる入力状態として使用する。
外部磁場を受けるスピンチェインモデルでは、これらのスピンチェインに関連する量子臨界点を横切ると、テレポーテーションプロトコルの効率が著しく影響を受けることが示されている。
この急激な効率の変化は、量子相転移の明確な兆候を与える。
We show that the teleportation protocol can be efficiently used to detect quantum critical points using finite temperature data even if all resources needed to its implementation lie within the system under investigation. Contrary to a previous proposal, there is no need to use an external qubit as the input state to be teleported to one of the qubits within the system. Here, we use a pair of nearest neighbor spins from an infinite spin-1/2 chain in equilibrium with a heat bath as the entangled resource of the quantum teleportation protocol and a third adjacent qubit within the chain itself as the input state to be teleported. For several spin chain models subjected to an external magnetic field, we show that the efficiency of the teleportation protocol is severely affected as we cross the quantum critical points associated with those spin chains. This abrupt change in efficiency gives us a clear indication of a quantum phase transition. | 翻訳日:2024-03-18 17:30:38 公開日:2024-03-15 |
# ダイナミクス, 局所性, 弱測定--簡易なダブルスリット設定の場合の軌跡と双方向情報
Dynamics, locality and weak measurements: trajectories and which-way information in the case of a simplified double-slit setup ( http://arxiv.org/abs/2403.10197v1 ) ライセンス: Link先を確認 | F. Daem, A. Matzkin, | (参考訳) 量子力学の「唯一のミステリー」である、ヤングの二重スリット構成における量子粒子による干渉パターンの作り方を理解することは、まだ議論と憶測の問題である。
近年の研究では、弱い測定に基づく一方的な情報取得の可能性を再考している。
弱測定は、最小限の摂動特性による干渉パターンを保ちながら、最終的な位置検出に繋がる。
ここでは、弱結合ポインタを組み込むことにより、単純化されたダブルスリット構成について検討する。
弱ポインタによって提供される情報がどのように解釈され、「弱軌跡」を通して局所画像内のダイナミクスを推測するかを検討する。
弱値に対するモジュラー運動量アプローチや、ド・ブロリー=ボーム図で定義される軌跡など、我々のアプローチは非局所的力学的な説明と対照的である。
Understanding how the interference pattern produced by a quantum particle in Young's double-slit setup builds up -- the "only mystery" of quantum mechanics according to Feynman -- is still a matter of discussion and speculation. Recent works have revisited the possibility of acquiring which-way information based on weak measurements. Weak measurements preserve the interference pattern due to their minimally perturbing character while still leading to a final position detection. Here we investigate a simplified double-slit setup by including weakly coupled pointers. We examine how the information provided by the weak pointers can be interpreted to infer the dynamics within a local picture through "weak trajectories". We contrast our approach with non-local dynamical accounts, such as the modular momentum approach to weak values and the trajectories defined by the de Broglie-Bohm picture. | 翻訳日:2024-03-18 17:30:38 公開日:2024-03-15 |
# JPEG-LDPC圧縮画像の学習:シンドロームを用いた分類
Learning on JPEG-LDPC Compressed Images: Classifying with Syndromes ( http://arxiv.org/abs/2403.10202v1 ) ライセンス: Link先を確認 | Ahcen Aliouat, Elsa Dupraz, | (参考訳) ゴール指向通信では、受信機の目的は、元のデータを再構成するのではなく、ディープラーニングモデルを適用することである。
この文脈では、圧縮データによる直接学習は、事前の復号化なしに、受信機における推論モデルの時間効率の向上を約束する。
しかし、Huffman や Arithmetic のような従来のエントロピー符号化手法はデータ構造を破り、復号化せずに学習するには適さない。
本稿では,低密度パリティチェック(LDPC)符号を用いてエントロピー符号化を実現する方法を提案する。
我々は、ディープラーニングモデルがLDPCコードの内部コード構造をより効果的に活用できると仮定する。
受信機では、画像分類のために訓練された特定のRecurrent Neural Networks(RNN)、特にGated Recurrent Unit(GRU)を利用する。
数値計算の結果,LDPC符号化ビットプレーンの分類はHuffmanやArithmeticよりはるかに少ない学習モデルを必要とすることがわかった。
これにより、LDPC符号化データから直接分類の効率性が示され、学習モデルを適用する前に、何らかの形での非圧縮が不要になる。
In goal-oriented communications, the objective of the receiver is often to apply a Deep-Learning model, rather than reconstructing the original data. In this context, direct learning over compressed data, without any prior decoding, holds promise for enhancing the time-efficient execution of inference models at the receiver. However, conventional entropic-coding methods like Huffman and Arithmetic break data structure, rendering them unsuitable for learning without decoding. In this paper, we propose an alternative approach in which entropic coding is realized with Low-Density Parity Check (LDPC) codes. We hypothesize that Deep Learning models can more effectively exploit the internal code structure of LDPC codes. At the receiver, we leverage a specific class of Recurrent Neural Networks (RNNs), specifically Gated Recurrent Unit (GRU), trained for image classification. Our numerical results indicate that classification based on LDPC-coded bit-planes surpasses Huffman and Arithmetic coding, while necessitating a significantly smaller learning model. This demonstrates the efficiency of classification directly from LDPC-coded data, eliminating the need for any form of decompression, even partial, prior to applying the learning model. | 翻訳日:2024-03-18 17:30:38 公開日:2024-03-15 |
# 行間の読み書き -- READMEからの機能抽出
Read between the lines -- Functionality Extraction From READMEs ( http://arxiv.org/abs/2403.10205v1 ) ライセンス: Link先を確認 | Prince Kumar, Srikanth Tamilselvam, Dinesh Garg, | (参考訳) テキスト要約はNLPタスクとしてよく知られているが,本論文では,Git READMEファイルから機能抽出と呼ばれる,新規かつ有用なバージョンを紹介する。
このタスクは、抽象レベルでのtext2text生成であるが、既存のtext2text生成システムがあまり役に立たないように、独自の特質と課題が伴う。
このタスクの背後にあるモチベーションは、コードリファクタリングやコードの要約など、コード関連のタスクに大規模な言語モデルを使用することに関する、最近の研究と開発活動の増加に端を発している。
また、FuncReadと呼ばれる人間による注釈付きデータセットをリリースし、タスクのためのモデルのバッテリーを開発しました。
我々の徹底的な実験により、小型の微調整モデルが、ChatGPTやBardのような一般的なブラックボックスやホワイトボックスの大規模言語モデル(LLM)を使って設計できるベースラインモデルに勝っていることが示された。
最高の微調整された70億コードラマモデルは、それぞれChatGPTとBardに対するF1スコアに対して70%と20%の利得を示している。
While text summarization is a well-known NLP task, in this paper, we introduce a novel and useful variant of it called functionality extraction from Git README files. Though this task is a text2text generation at an abstract level, it involves its own peculiarities and challenges making existing text2text generation systems not very useful. The motivation behind this task stems from a recent surge in research and development activities around the use of large language models for code-related tasks, such as code refactoring, code summarization, etc. We also release a human-annotated dataset called FuncRead, and develop a battery of models for the task. Our exhaustive experimentation shows that small size fine-tuned models beat any baseline models that can be designed using popular black-box or white-box large language models (LLMs) such as ChatGPT and Bard. Our best fine-tuned 7 Billion CodeLlama model exhibit 70% and 20% gain on the F1 score against ChatGPT and Bard respectively. | 翻訳日:2024-03-18 17:30:38 公開日:2024-03-15 |
# 宇宙望遠鏡用複合金属酸化物半導体カメラにおける暗電流ノイズと悪い画素の緩和のためのデータ駆動アプローチ
A Data-Driven Approach for Mitigating Dark Current Noise and Bad Pixels in Complementary Metal Oxide Semiconductor Cameras for Space-based Telescopes ( http://arxiv.org/abs/2403.10206v1 ) ライセンス: Link先を確認 | Peng Jia, Chao Lv, Yushan Li, Yongyang Sun, Shu Niu, Zhuoxiao Wang, | (参考訳) 近年,Complementary Metal oxide Semiconductor (CMOS) カメラの性能が徐々に向上している。
これらのカメラは、広範囲のアプリケーションにおいて、チャージカップリングデバイス(CCD)カメラに代わる有効な代替品として人気を集めている。
一つの応用例は、小型の宇宙望遠鏡に搭載されたCMOSカメラである。
しかし、衛星上で利用可能な限られた電力と空間資源は、温度や放射環境を含む理想的な観測条件を維持する上での課題である。
その結果、CMOSカメラが捉えた画像は、暗電流ノイズや欠陥画素などの問題の影響を受けやすい。
本稿では,CMOSカメラの暗電流ノイズと悪い画素を緩和する,データ駆動型フレームワークを提案する。
私たちのアプローチには、ピクセルクラスタリングと関数フィッティングという2つの重要なステップがあります。
画素クラスタリングのステップでは、同様の暗電流ノイズ特性を示す画素を特定し、グループ化する。
その後、関数フィッティングステップにおいて、アレニウス法則によって規定される暗流と温度の関係を捉える関数を定式化する。
本フレームワークは,異なるクラスタ内の画素に対して,異なる温度-暗流関係を確立するために,地上試験データを活用する。
クラスターの結果を利用して暗電流ノイズレベルを推定し、実際の観測データから悪いピクセルを検出する。
提案手法の有効性を評価するため,近紫外線望遠鏡と光学望遠鏡を備えたヤンワン1衛星から得られた実観測データを用いて実験を行った。
その結果,宇宙望遠鏡の検出効率は大幅に向上した。
In recent years, there has been a gradual increase in the performance of Complementary Metal Oxide Semiconductor (CMOS) cameras. These cameras have gained popularity as a viable alternative to charge-coupled device (CCD) cameras in a wide range of applications. One particular application is the CMOS camera installed in small space telescopes. However, the limited power and spatial resources available on satellites present challenges in maintaining ideal observation conditions, including temperature and radiation environment. Consequently, images captured by CMOS cameras are susceptible to issues such as dark current noise and defective pixels. In this paper, we introduce a data-driven framework for mitigating dark current noise and bad pixels for CMOS cameras. Our approach involves two key steps: pixel clustering and function fitting. During pixel clustering step, we identify and group pixels exhibiting similar dark current noise properties. Subsequently, in the function fitting step, we formulate functions that capture the relationship between dark current and temperature, as dictated by the Arrhenius law. Our framework leverages ground-based test data to establish distinct temperature-dark current relations for pixels within different clusters. The cluster results could then be utilized to estimate the dark current noise level and detect bad pixels from real observational data. To assess the effectiveness of our approach, we have conducted tests using real observation data obtained from the Yangwang-1 satellite, equipped with a near-ultraviolet telescope and an optical telescope. The results show a considerable improvement in the detection efficiency of space-based telescopes. | 翻訳日:2024-03-18 17:30:38 公開日:2024-03-15 |
# ノイズ多光子スピン-ボソン相互作用による原子の光と量子コヒーレンスにおけるガウス的非ガウス的絡み合い
Genuine non-Gaussian entanglement of light and quantum coherence for an atom from noisy multiphoton spin-boson interactions ( http://arxiv.org/abs/2403.10207v1 ) ライセンス: Link先を確認 | Pradip Laha, P. A. Ameen Yasir, Peter van Loock, | (参考訳) ハーネスングの絡み合いと量子コヒーレンスは、量子技術の進歩において中心的な役割を果たす。
量子光-原子プラットフォームでは、これらの2つの基本資源はしばしば、光共振器モードと2レベルスピンの間の光子のコヒーレントな交換を記述するJaynes-Cummingsモデルに関連付けられている。
一般的な非線形スピンボソン系では、より多くの光子や多くのモードが相互作用に関与する。
ここでは、2モード多光子Jaynes-Cummings(MPJC)モデルについて、そのような一般化を考える。
本研究では, エンタングルメントと量子コヒーレンスを最適に生成し, その後, 実験的に利用できるパラメータ構造で操作する方法を示す。
このモデルの詳細な比較分析により、MPJC相互作用内の非線形性は、うるさい資源からガウス的貢献を欠いた真に非ガウス的絡みを生じることが明らかになった。
より具体的には、強いコヒーレントソースは、より弱く非コヒーレントなソースに置き換えられ、効率の低下を犠牲にしながら、リソースオーバーヘッドを大幅に削減することができる。
同時に、MPJC相互作用の多重光子次数が増加すると、絡み合い生成プロセスが速くなり、生成方式全体がより効率的で堅牢になる。
さらに、不整合源からのみスピンコヒーレンスを発生させ、それぞれ量子相関を強化するために、分散スピン-ボソン相互作用とKerr非線形性の利用について検討する。
後者については、やや意外なことに、強化された非線形性のために量子相関が必ずしも増加するとは限らない。
我々はMPJCモデルの応用に向けて、適切に選択された実験パラメータを用いて任意のNOON状態を設計する方法を実証する。
Harnessing entanglement and quantum coherence plays a central role in advancing quantum technologies. In quantum optical light-atom platforms, these two fundamental resources are often associated with a Jaynes-Cummings model description describing the coherent exchange of a photon between an optical resonator mode and a two-level spin. In a generic nonlinear spin-boson system, more photons and more modes will take part in the interactions. Here we consider such a generalisation -- the two-mode multiphoton Jaynes-Cummings (MPJC) model. We show how entanglement and quantum coherence can be optimally generated and subsequently manipulated with it in experimentally accessible parameter regimes. A detailed comparative analysis of this model reveals that nonlinearities within the MPJC interactions produce genuinely non-Gaussian entanglement, devoid of Gaussian contributions, from noisy resources. More specifically, strong coherent sources may be replaced by weaker, incoherent ones, significantly reducing the resource overhead, though at the expense of reduced efficiency. At the same time, increasing the multiphoton order of the MPJC interactions expedites the entanglement generation process, thus rendering the whole generation scheme again more efficient and robust. We further explore the use of additional dispersive spin-boson interactions and Kerr nonlinearities in order to create spin coherence solely from incoherent sources and to enhance the quantum correlations, respectively. As for the latter, somewhat unexpectedly, there is not necessarily an increase in quantum correlations due to the augmented nonlinearity. Towards possible applications of the MPJC model, we demonstrate how to engineer arbitrary NOON states with appropriately chosen experimental parameters. | 翻訳日:2024-03-18 17:30:38 公開日:2024-03-15 |
# BlindDiff: Blind Image Super-Resolutionのための拡散モデルにおける劣化モデル
BlindDiff: Empowering Degradation Modelling in Diffusion Models for Blind Image Super-Resolution ( http://arxiv.org/abs/2403.10211v1 ) ライセンス: Link先を確認 | Feng Li, Yixuan Wu, Zichao Liang, Runmin Cong, Huihui Bai, Yao Zhao, Meng Wang, | (参考訳) 拡散モデル (DM) は画像超解像 (SR) において顕著な可能性を達成している。
しかし、そのほとんどは、未知の複雑な劣化を伴う現実世界のアプリケーションへの適応性を制限し、固定された既知の劣化設定で非盲検逆問題の解決に適合している。
本研究では, SISR におけるブラインド劣化対策のための DM ベースのブラインドSR 手法である BlindDiff を提案する。
BlindDiffはMAPベースの最適化をDMにシームレスに統合し、低分解能(LR)観測、高分解能(HR)データ、データおよびカーネル前の分解カーネルの連成分布を構築し、逆プロセスとともにMAPアプローチを展開することで盲点SR問題を解決する。
多くのDMとは異なり、BlindDiffは最初、ノイズとカーネルの制約で事前訓練された変調された条件変換器(MCFormer)を提示し、さらに両方の前処理を同時に行う後部サンプリング器として機能する。
次に, 並列化モデルを誘導し, 分解整合性知識を学習するために, 隣り合うサンプリング繰り返しの間には, 単純かつ効果的なカーネル認識勾配項を挿入する。
これにより, 劣化モデルとHR画像との連成化が可能となる。
MAPに基づく逆拡散法により,BlindDiffは相互強化方式でカーネル推定とHR画像復元を代替的に最適化することを提唱する。
合成データセットと実世界のデータセットの両方の実験により、BlindDiffは最近のDMベースの手法と比較して、モデルの複雑さを著しく減らし、最先端のパフォーマンスを達成することが示された。
コードは \url{https://github.com/lifengcs/BlindDiff} で入手できる。
Diffusion models (DM) have achieved remarkable promise in image super-resolution (SR). However, most of them are tailored to solving non-blind inverse problems with fixed known degradation settings, limiting their adaptability to real-world applications that involve complex unknown degradations. In this work, we propose BlindDiff, a DM-based blind SR method to tackle the blind degradation settings in SISR. BlindDiff seamlessly integrates the MAP-based optimization into DMs, which constructs a joint distribution of the low-resolution (LR) observation, high-resolution (HR) data, and degradation kernels for the data and kernel priors, and solves the blind SR problem by unfolding MAP approach along with the reverse process. Unlike most DMs, BlindDiff firstly presents a modulated conditional transformer (MCFormer) that is pre-trained with noise and kernel constraints, further serving as a posterior sampler to provide both priors simultaneously. Then, we plug a simple yet effective kernel-aware gradient term between adjacent sampling iterations that guides the diffusion model to learn degradation consistency knowledge. This also enables to joint refine the degradation model as well as HR images by observing the previous denoised sample. With the MAP-based reverse diffusion process, we show that BlindDiff advocates alternate optimization for blur kernel estimation and HR image restoration in a mutual reinforcing manner. Experiments on both synthetic and real-world datasets show that BlindDiff achieves the state-of-the-art performance with significant model complexity reduction compared to recent DM-based methods. Code will be available at \url{https://github.com/lifengcs/BlindDiff} | 翻訳日:2024-03-18 17:30:38 公開日:2024-03-15 |
# 階層的絡み合うコヒーレンス・アウェアネットワークによるアスペクト・カテゴリ感覚分析
Enhanced Coherence-Aware Network with Hierarchical Disentanglement for Aspect-Category Sentiment Analysis ( http://arxiv.org/abs/2403.10214v1 ) ライセンス: Link先を確認 | Jin Cui, Fumiyo Fukumoto, Xinfeng Wang, Yoshimi Suzuki, Jiyi Li, Noriko Tomuro, Wanzeng Kong, | (参考訳) アスペクト分類に基づく感情分析(ACSA:Aspect-category-based sentiment analysis)は、その幅広いNLP応用のために、アスペクトカテゴリを特定し、その感情を予測することを目的としている。
殆どのアプローチは、主に文内的特徴を利用する。
しかしながら、レビューには複数の異なる側面のカテゴリが含まれており、そのいくつかは明示的にレビューに現れていない。
文中でさえ、その感情には複数の側面のカテゴリーがあり、それらは文内で絡み合っており、そのモデルがすべての感情特性を識別的に保存することができない。
本稿では,ACSAタスクの階層的非絡み合い(ECAN)を考慮したコヒーレンス対応ネットワークを提案する。
具体的には、コヒーレンスモデリングについて検討し、レビュー全体を通してコンテキストをキャプチャし、暗黙の側面と感情の識別を支援する。
複数側面のカテゴリーや感情の絡み合いの問題に対処するため,階層的な絡み合いモジュールを提案し,異なるカテゴリや感情の特徴を抽出する。
実験および可視化の結果から,ECANはコヒーレンス表現に絡み合った複数のカテゴリや感情を効果的に分離し,SOTA(State-of-the-art)のパフォーマンスを達成できた。
私たちのコードとデータはオンラインで利用可能です。
Aspect-category-based sentiment analysis (ACSA), which aims to identify aspect categories and predict their sentiments has been intensively studied due to its wide range of NLP applications. Most approaches mainly utilize intrasentential features. However, a review often includes multiple different aspect categories, and some of them do not explicitly appear in the review. Even in a sentence, there is more than one aspect category with its sentiments, and they are entangled intra-sentence, which makes the model fail to discriminately preserve all sentiment characteristics. In this paper, we propose an enhanced coherence-aware network with hierarchical disentanglement (ECAN) for ACSA tasks. Specifically, we explore coherence modeling to capture the contexts across the whole review and to help the implicit aspect and sentiment identification. To address the issue of multiple aspect categories and sentiment entanglement, we propose a hierarchical disentanglement module to extract distinct categories and sentiment features. Extensive experimental and visualization results show that our ECAN effectively decouples multiple categories and sentiments entangled in the coherence representations and achieves state-of-the-art (SOTA) performance. Our codes and data are available online: \url{https://github.com/cuijin-23/ECAN}. | 翻訳日:2024-03-18 17:30:38 公開日:2024-03-15 |
# 手術機器セグメンテーションのためのnnU-Netフレームワークへの光フロー包有物探索
Exploring Optical Flow Inclusion into nnU-Net Framework for Surgical Instrument Segmentation ( http://arxiv.org/abs/2403.10216v1 ) ライセンス: Link先を確認 | Marcos Fernández-Rodríguez, Bruno Silva, Sandro Queirós, Helena R. Torres, Bruno Oliveira, Pedro Morais, Lukas R. Buschle, Jorge Correia-Pinto, Estevão Lima, João L. Vilaça, | (参考訳) 腹腔鏡における手術器具のセグメンテーションはコンピュータ支援手術システムに不可欠である。
近年のDeep Learningの進歩にもかかわらず、腹腔鏡下手術のダイナミックな設定は、正確なセグメンテーションの課題を呈している。
nnU-Netフレームワークは、時間情報なしで単一のフレームを分析するセマンティックセグメンテーションに優れていた。
フレームワークの使いやすさ、自動設定機能、専門知識の低い要件などにより、比較のための一般的な基盤フレームワークとなっている。
オプティカルフロー(OF)は、ビデオタスクでよく使われるツールで、動きを推定し、時間情報を含む単一のフレームで表現する。
本研究は,nU-Netアーキテクチャを付加的な入力として活用し,手術領域における楽器が主要な移動物体であるという事実を生かして,手術機器セグメンテーションタスクのパフォーマンスを向上させることを目的とする。
この新たな入力では、アーキテクチャを変更することなく、テンポラリコンポーネントを間接的に追加する。
CholecSeg8kデータセットを用いて、3つの異なる動きの表現を推定し、新しい入力として使用し、ベースラインモデルと比較した。
その結果,OFマップを用いた場合,データセットが不足している場合でも,高移動度クラスの検出が向上することがわかった。
パフォーマンスをさらに向上するために、将来の作業は、他の保存された拡張を実装することに集中するかもしれない。
Surgical instrument segmentation in laparoscopy is essential for computer-assisted surgical systems. Despite the Deep Learning progress in recent years, the dynamic setting of laparoscopic surgery still presents challenges for precise segmentation. The nnU-Net framework excelled in semantic segmentation analyzing single frames without temporal information. The framework's ease of use, including its ability to be automatically configured, and its low expertise requirements, have made it a popular base framework for comparisons. Optical flow (OF) is a tool commonly used in video tasks to estimate motion and represent it in a single frame, containing temporal information. This work seeks to employ OF maps as an additional input to the nnU-Net architecture to improve its performance in the surgical instrument segmentation task, taking advantage of the fact that instruments are the main moving objects in the surgical field. With this new input, the temporal component would be indirectly added without modifying the architecture. Using CholecSeg8k dataset, three different representations of movement were estimated and used as new inputs, comparing them with a baseline model. Results showed that the use of OF maps improves the detection of classes with high movement, even when these are scarce in the dataset. To further improve performance, future work may focus on implementing other OF-preserving augmentations. | 翻訳日:2024-03-18 17:30:38 公開日:2024-03-15 |
# フラグ量子ビットを用いたシンドローム抽出回路のIBM量子ハードウェアへの応用
Effectiveness of the syndrome extraction circuit with flag qubits on IBM quantum hardware ( http://arxiv.org/abs/2403.10217v1 ) ライセンス: Link先を確認 | Younghun Kim, Hansol Kim, Jeongsoo Kang, Wonjae Choi, Younghun Kwon, | (参考訳) 量子コンピュータの利点を利用するには大規模量子回路が必要である。
現在の量子コンピュータは、量子回路の深さが増加するにつれて信頼性が低下している。
この制限を克服するため、量子誤り訂正符号が導入された。
Google[1, 2]と中性原子[3]量子コンピュータで量子エラー訂正符号が成功したことは発表されているが、IBMの量子コンピュータでは独自の重六角形構造による誤りの抑制が報告されていない。
この構造は接続を制限し、IBM量子コンピュータ上の量子エラー訂正符号はフラグ量子ビットを必要とする。
本稿では,IBM量子コンピュータ上でフラグ量子ビットを用いたシンドローム抽出回路の実装に成功したことを報告する。
さらに,量子誤り訂正符号の繰り返しコードをテストコードとして検討し,その有効性を示す。
データキュービットはシンドロームキュービットに隣接していないが、繰り返し符号の距離が3から9に増加するにつれて論理誤差は指数関数的に減少する。
データとシンドロームの量子ビットの間に2つのフラグ量子ビットが存在するとしても、距離が同様に増加するにつれて論理誤差は減少する。
これは、IBM量子コンピュータ上のフラグ量子ビットを用いたシンドローム抽出回路の実装が成功したことを確認する。
Large-scale quantum circuits are required to exploit the advantages of quantum computers. Present-day quantum computers have become less reliable with increasing depths of quantum circuits. To overcome this limitation, quantum error-correction codes have been introduced. Although the success of quantum error correction codes has been announced in Google[1, 2] and neutral atom[3] quantum computers, there have been no reports on IBM quantum computers showing error suppression owing to its unique heavy-hexagon structure. This structure restricts connectivity, and quantum error-correction codes on IBM quantum computers require flag qubits. Here, we report the successful implementation of a syndrome extraction circuit with flag qubits on IBM quantum computers. Moreover, we demonstrate its effectiveness by considering the repetition code as a test code among the quantum error-correcting codes. Even though the data qubit is not adjacent to the syndrome qubit, logical error rates diminish exponentially as the distance of the repetition code increases from three to nine. Even when two flag qubits exist between the data and syndrome qubits, the logical error rates decrease as the distance increases similarly. This confirms the successful implementation of the syndrome extraction circuit with flag qubits on the IBM quantum computer. | 翻訳日:2024-03-18 17:30:38 公開日:2024-03-15 |
# カオスから明度へ:天文観測における時系列異常検出
From Chaos to Clarity: Time Series Anomaly Detection in Astronomical Observations ( http://arxiv.org/abs/2403.10220v1 ) ライセンス: Link先を確認 | Xinli Hao, Yile Chen, Chen Yang, Zhihui Du, Chaohong Ma, Chao Wu, Xiaofeng Meng, | (参考訳) 天文学施設の発展に伴い、これらの施設で観測された大規模時系列データが収集されている。
これらの天体観測における異常を分析することは、潜在的な天体現象や物理現象を明らかにするために重要であり、科学的な研究プロセスを進める。
しかし、既存の時系列異常検出法は、それぞれの恒星が本質的に独立しているがランダムな同時ノイズによって干渉される天体観測のユニークな特徴に対処するに足りず、偽のアラームの頻度が高い。
この課題を克服するために、天文観測における教師なし異常検出に適した新しい2段階フレームワークであるAEROを提案する。
第1段階では,変圧器を用いたエンコーダデコーダアーキテクチャを用いて,変圧器の独立特性に合わせて各変圧器(スター)の通常の時間パターンを学習する。
第2段階では,空間的・時間的ランダム性に特徴付けられる同時ノイズの発生に対処するために,ウィンドウワイズグラフ構造学習を用いてグラフニューラルネットワークを強化する。
このようにして、AEROは通常の時間パターンを潜在的な異常と区別するだけでなく、並列ノイズを効果的に区別し、誤報の回数を減らすことができる。
3つの合成データセットと3つの実世界のデータセットについて広範な実験を行った。
その結果, AEROは比較ベースラインよりも優れていた。
特に、最先端モデルと比較して、AEROは合成データセットと実世界のデータセットで最大8.76%、F1スコアを2.63%改善している。
With the development of astronomical facilities, large-scale time series data observed by these facilities is being collected. Analyzing anomalies in these astronomical observations is crucial for uncovering potential celestial events and physical phenomena, thus advancing the scientific research process. However, existing time series anomaly detection methods fall short in tackling the unique characteristics of astronomical observations where each star is inherently independent but interfered by random concurrent noise, resulting in a high rate of false alarms. To overcome the challenges, we propose AERO, a novel two-stage framework tailored for unsupervised anomaly detection in astronomical observations. In the first stage, we employ a Transformer-based encoder-decoder architecture to learn the normal temporal patterns on each variate (i.e., star) in alignment with the characteristic of variate independence. In the second stage, we enhance the graph neural network with a window-wise graph structure learning to tackle the occurrence of concurrent noise characterized by spatial and temporal randomness. In this way, AERO is not only capable of distinguishing normal temporal patterns from potential anomalies but also effectively differentiating concurrent noise, thus decreasing the number of false alarms. We conducted extensive experiments on three synthetic datasets and three real-world datasets. The results demonstrate that AERO outperforms the compared baselines. Notably, compared to the state-of-the-art model, AERO improves the F1-score by up to 8.76% and 2.63% on synthetic and real-world datasets respectively. | 翻訳日:2024-03-18 17:30:38 公開日:2024-03-15 |
# Sr/Yb原子に対する単一光子大分子移動原子干渉法と微細構造定数決定への応用
A single-photon large-momentum-transfer atom interferometry scheme for Sr/Yb atoms with application to determining the fine-structure constant ( http://arxiv.org/abs/2403.10225v1 ) ライセンス: Link先を確認 | Jesse S. Schelfhout, Thomas M. Hird, Kenneth M. Hughes, Christopher J. Foot, | (参考訳) 微細構造定数である$\alpha$の実験的な決定は、現在、絶対質量測定を提供するために大きな運動量移動を持つラムゼー・ボーデ原子干渉計による原子光子-反コイル測定に依存している。
本研究では、中性原子種の光子反動を1光子光時計遷移で測定する中間スケール原子干渉計の実験手法を提案する。
適切な初期条件で2つの超低温原子雲を独立に打ち上げることにより、所望の重力勾配位相を無効化しつつ、リコイル位相を最適化する手法の軌道を計算する。
Sr と Yb では、現在の技術で絶対質量測定精度が $\Delta m / m \sim 1\times 10^{-11}$ の原子干渉計が十分である。
このような正確な測定(Sr または Yb に対する最初の)は、絶対質量測定によって制限されない不確実性である $\alpha$ の2つの不確かさを減少させる。
この境界の除去は、相対的な質量測定の改善により、$\alpha$の不確かさを10倍に減らし、粒子物理学の標準模型の高精度な試験の道を開いた。
The leading experimental determinations of the fine-structure constant, $\alpha$, currently rely on atomic photon-recoil measurements from Ramsey-Bord\'e atom interferometry with large momentum transfer to provide an absolute mass measurement. We propose an experimental scheme for an intermediate-scale differential atom interferometer to measure the photon-recoil of neutral atomic species with a single-photon optical clock transition. We calculate trajectories for our scheme that optimise the recoil phase while nullifying the undesired gravity gradient phase by considering independently launching two clouds of ultracold atoms with the appropriate initial conditions. For Sr and Yb, we find an atom interferometer of height 3m to be sufficient for an absolute mass measurement precision of $\Delta m / m \sim 1\times 10^{-11}$ with current technology. Such a precise measurement (the first of its kind for Sr or Yb) would yield a factor of two reduction in the uncertainty of $\alpha$ -- an uncertainty that would no longer be limited by an absolute mass measurement. The removal of this bound facilitates reducing the uncertainty in $\alpha$ by a factor of 10 with improvements in relative mass measurements, thus paving the way for higher-precision tests of the Standard Model of particle physics. | 翻訳日:2024-03-18 17:30:38 公開日:2024-03-15 |
# 自動販売機における液状化トークン
Liquid Staking Tokens in Automated Market Makers ( http://arxiv.org/abs/2403.10226v1 ) ライセンス: Link先を確認 | Krzysztof Gogol, Robin Fritsch, Malte Schlosser, Johnnatan Messias, Benjamin Kraner, Claudio Tessone, | (参考訳) 本稿では, 自動市場メーカ (AMM) における液状ステイキングトークン (LST) について理論的および実験的に検討する。
LSTは、ステークオブテイクブロックチェーン上のステークされた資産のトークン化表現である。
まず,AMM上でのLST液状度を理論的にモデル化する。
この中には、LST流動性のための適切なAMMタイプを分類することや、LSTの特定の価格軌跡の下で流動性プロバイダを適切に補償するために取引手数料から必要なリターンの式を導出することが含まれる。
関連する2つの指標が検討されている。
第一に、損失はAMMの外の流動性(ロス・ヴァーサス・ホールディング(ロス・ヴァーサス・ホールディング)、即時損失)と比較される。
第二に、LSTリキディティ(LST-quidity)の場合に特別に導入された指標である資本(ロス・ヴァーサス・ステーク)を完全に獲得するのと比べて、相対的な収益性がある。
続いて、最も関連するAMMプールにわたるEthereum LSTに対して、これらのメトリクスを実証的に測定する。
取引手数料は、しばしば不恒久的な損失を補うが、多くのプールにとって完全な取引はより利益を上げており、現在のLSTのAMMへの配分の持続可能性に疑問を呈している。
This paper studies liquid staking tokens (LSTs) on automated market makers (AMMs), both theoretically and empirically. LSTs are tokenized representations of staked assets on proof-of-stake blockchains. First, we theoretically model LST-liquidity on AMMs. This includes categorizing suitable AMM types for LST liquidity, as well as deriving formulas for the necessary returns from trading fees to adequately compensate liquidity providers under the particular price trajectories of LSTs. Two relevant metrics are considered. Firstly, losses compared to holding the liquidity outside the AMM (loss-versus-holding, or impermanent loss). Secondly, the relative profitability compared to fully staking the capital (loss-versus-staking) which is a metric specifically introduced for the case of LST-liquidity. Subsequently, we empirically measure these metrics for Ethereum LSTs across the most relevant AMM pools. We find that, while trading fees often compensate for impermanent loss, fully staking is more profitable for many pools, putting the sustainability of current LST allocation to AMMs into question. | 翻訳日:2024-03-18 17:20:54 公開日:2024-03-15 |
# HawkEye:ビデオのテキストをグラウンディングするためのビデオテキストLLMのトレーニング
HawkEye: Training Video-Text LLMs for Grounding Text in Videos ( http://arxiv.org/abs/2403.10228v1 ) ライセンス: Link先を確認 | Yueqian Wang, Xiaojun Meng, Jianxin Liang, Yuxuan Wang, Qun Liu, Dongyan Zhao, | (参考訳) ビデオテキスト大言語モデル(ビデオテキストLLM)は、質問に答え、単純なビデオで会話を行う際に顕著なパフォーマンスを示した。
しかし、ビデオと画像の最も根本的な違いである時間的情報を理解し、推論する能力がほとんどない、長く複雑なビデオにおけるテキストクエリのグラウンド化において、ランダムに実行するのとほとんど同じである。
本稿では,HawkEyeを提案する。HawkEyeは,時間的ビデオグラウンドディングをテキストからテキストまで完全に行う最初のビデオテキストLLMの1つである。
時間的ビデオグラウンドティングに適用可能なトレーニングデータを収集するために,セグメントレベルのキャプションと負のスパンを持つ大規模ビデオテキストコーパスであるInternVid-Gを構築し,ビデオテキストLLMに2つの新たなタイムアウェアトレーニング目標を導入する。
また,ビデオ中のセグメントを粗い粒度で表現する手法を提案する。
大規模な実験により、HawkEyeは時間的ビデオグラウンドニングに優れており、既存のビデオテキストLLMによる他のビデオテキストタスクに匹敵する性能を示し、その優れたビデオテキストマルチモーダル理解能力を検証している。
Video-text Large Language Models (video-text LLMs) have shown remarkable performance in answering questions and holding conversations on simple videos. However, they perform almost the same as random on grounding text queries in long and complicated videos, having little ability to understand and reason about temporal information, which is the most fundamental difference between videos and images. In this paper, we propose HawkEye, one of the first video-text LLMs that can perform temporal video grounding in a fully text-to-text manner. To collect training data that is applicable for temporal video grounding, we construct InternVid-G, a large-scale video-text corpus with segment-level captions and negative spans, with which we introduce two new time-aware training objectives to video-text LLMs. We also propose a coarse-grained method of representing segments in videos, which is more robust and easier for LLMs to learn and follow than other alternatives. Extensive experiments show that HawkEye is better at temporal video grounding and comparable on other video-text tasks with existing video-text LLMs, which verifies its superior video-text multi-modal understanding abilities. | 翻訳日:2024-03-18 17:20:54 公開日:2024-03-15 |
# より少ないもの:大規模知識グラフのワンショットサブグラフ推論
Less is More: One-shot Subgraph Reasoning on Large-scale Knowledge Graphs ( http://arxiv.org/abs/2403.10231v1 ) ライセンス: Link先を確認 | Zhanke Zhou, Yongqi Zhang, Jiangchao Yao, Quanming Yao, Bo Han, | (参考訳) リンク予測器は、知識グラフ(KG)上で新たな事実を推論し、グラフ構造から学習し、局所的な証拠を収集して、与えられたクエリに対する回答を求める。
しかし,既存の手法は,大規模なKGへの期待を妨げ,バニラサンプリング法では直接対応できないような,KG全体の予測利用によるスケーラビリティの深刻な問題に悩まされている。
本研究では,効率的な適応予測を実現するために,ワンショットサブグラフリンク予測を提案する。
設計原理は、KG全体に直接作用する代わりに、予測手順を2つのステップ、すなわち2つのステップに分離するものである。
i)クエリに従って1つのサブグラフのみを抽出し、
(ii)この単一のクエリ依存サブグラフに基づいて予測する。
PPR(Personized PageRank)は,非パラメトリックかつ計算効率の高いヒューリスティックスであり,潜在的回答を効果的に識別し,証拠を裏付ける。
さらに,データ空間とモデル空間の両方において最適な構成の自動探索を導入する。
実験により,5つの大規模ベンチマークにおいて,高速化と先行性能を実現した。
コードはhttps://github.com/tmlr-group/one-shot-subgraph.comで公開されている。
To deduce new facts on a knowledge graph (KG), a link predictor learns from the graph structure and collects local evidence to find the answer to a given query. However, existing methods suffer from a severe scalability problem due to the utilization of the whole KG for prediction, which hinders their promise on large scale KGs and cannot be directly addressed by vanilla sampling methods. In this work, we propose the one-shot-subgraph link prediction to achieve efficient and adaptive prediction. The design principle is that, instead of directly acting on the whole KG, the prediction procedure is decoupled into two steps, i.e., (i) extracting only one subgraph according to the query and (ii) predicting on this single, query dependent subgraph. We reveal that the non-parametric and computation-efficient heuristics Personalized PageRank (PPR) can effectively identify the potential answers and supporting evidence. With efficient subgraph-based prediction, we further introduce the automated searching of the optimal configurations in both data and model spaces. Empirically, we achieve promoted efficiency and leading performances on five large-scale benchmarks. The code is publicly available at: https://github.com/tmlr-group/one-shot-subgraph. | 翻訳日:2024-03-18 17:20:54 公開日:2024-03-15 |
# 完全連結ニューラルネットワークの非平滑正規化による行列補完
Matrix Completion via Nonsmooth Regularization of Fully Connected Neural Networks ( http://arxiv.org/abs/2403.10232v1 ) ライセンス: Link先を確認 | Sajad Faramarzi, Farzan Haddadi, Sajjad Amini, Masoud Ahookhosh, | (参考訳) 従来の行列補完法では、行列が低ランクであると仮定することで、欠落値の線形近似が導かれる。
ディープニューラルネットワークのような非線形推定器を使うことで、性能の向上が達成できることが示されている。
行列補完に最も適したアーキテクチャの1つである深層完全連結ニューラルネットワーク(FCNN)は、高容量のため過度に適合し、一般化性が低下する。
本稿では,中間表現の$\ell_{1}$ノルムと重み行列の核ノルムの観点から,FCNNモデルの正規化によるオーバーフィット制御を行う。
したがって、得られた正規化対象関数は非滑らかで非凸となり、つまり、既存の勾配に基づく手法は我々のモデルには適用できない。
近位勾配法の変種を提案し,その臨界点への収束について検討する。
FCNNトレーニングの初期のエポックでは、正規化用語は無視され、エポックを通じてその効果が増加する。
非平滑正規化項の段階的な追加は、非平滑正規化項(DNN-NSR)アルゴリズムによるディープニューラルネットワークの性能向上の主な理由である。
本シミュレーションは,既存の線形および非線形アルゴリズムと比較して,提案アルゴリズムの優位性を示す。
Conventional matrix completion methods approximate the missing values by assuming the matrix to be low-rank, which leads to a linear approximation of missing values. It has been shown that enhanced performance could be attained by using nonlinear estimators such as deep neural networks. Deep fully connected neural networks (FCNNs), one of the most suitable architectures for matrix completion, suffer from over-fitting due to their high capacity, which leads to low generalizability. In this paper, we control over-fitting by regularizing the FCNN model in terms of the $\ell_{1}$ norm of intermediate representations and nuclear norm of weight matrices. As such, the resulting regularized objective function becomes nonsmooth and nonconvex, i.e., existing gradient-based methods cannot be applied to our model. We propose a variant of the proximal gradient method and investigate its convergence to a critical point. In the initial epochs of FCNN training, the regularization terms are ignored, and through epochs, the effect of that increases. The gradual addition of nonsmooth regularization terms is the main reason for the better performance of the deep neural network with nonsmooth regularization terms (DNN-NSR) algorithm. Our simulations indicate the superiority of the proposed algorithm in comparison with existing linear and nonlinear algorithms. | 翻訳日:2024-03-18 17:20:54 公開日:2024-03-15 |
# 統一型prompt-based Countingへの固定点アプローチ
A Fixed-Point Approach to Unified Prompt-Based Counting ( http://arxiv.org/abs/2403.10236v1 ) ライセンス: Link先を確認 | Wei Lin, Antoni B. Chan, | (参考訳) 既存のクラスに依存しないカウントモデルは通常、1つのタイプのプロンプト、例えばボックスアノテーションに依存します。
本研究の目的は,ボックス,ポイント,テキストなど,さまざまなプロンプト型で示される対象の密度マップを生成できる包括的プロンプトベースのカウンティングフレームワークを確立することである。
この目的を達成するために、異なるモードからのプロンプトをトレーニングを必要とせずにプロンプトマスクに変換することから始める。
これらのマスクは、密度マップを予測するためのクラスに依存しないカウント手法に統合される。
さらに、固定点推論と関連する損失関数を導入し、新しいパラメータを導入することなく、カウント精度を向上させる。
この方法の有効性は理論的にも実験的にも実証される。
さらに,現在クラスに依存しないカウントデータセットに固有のデータセットバイアスを軽減するために,コントラッシブトレーニング方式を実装した。
本モデルは,クラスに依存しない顕著なデータセットに優れ,データセット間の適応タスクにおいて優れた性能を示す。
Existing class-agnostic counting models typically rely on a single type of prompt, e.g., box annotations. This paper aims to establish a comprehensive prompt-based counting framework capable of generating density maps for concerned objects indicated by various prompt types, such as box, point, and text. To achieve this goal, we begin by converting prompts from different modalities into prompt masks without requiring training. These masks are then integrated into a class-agnostic counting methodology for predicting density maps. Furthermore, we introduce a fixed-point inference along with an associated loss function to improve counting accuracy, all without introducing new parameters. The effectiveness of this method is substantiated both theoretically and experimentally. Additionally, a contrastive training scheme is implemented to mitigate dataset bias inherent in current class-agnostic counting datasets, a strategy whose effectiveness is confirmed by our ablation study. Our model excels in prominent class-agnostic datasets and exhibits superior performance in cross-dataset adaptation tasks. | 翻訳日:2024-03-18 17:20:54 公開日:2024-03-15 |
# ペルシャ語テキストストリームにおけるトピック検出のための周波数パターンマイニングとクラスタリングのカテゴリに関する総合的研究
A comprehensive study on Frequent Pattern Mining and Clustering categories for topic detection in Persian text stream ( http://arxiv.org/abs/2403.10237v1 ) ライセンス: Link先を確認 | Elnaz Zafarani-Moattar, Mohammad Reza Kangavari, Amir Masoud Rahmani, | (参考訳) トピック検出は複雑なプロセスであり、何らかの理由でテキストを分析する必要があるため、言語に依存する。
ペルシャ語におけるトピック検出の研究はほとんどなく、既存のアルゴリズムは目立ってはいない。
そこで,ペルシャ語における話題の検出について検討した。
本研究の目的は次のとおりである。
1)話題検出のための最良のアルゴリズムについて広範な研究を行う。
2)これらのアルゴリズムをペルシア語に適合させるために必要な適応を識別し、
3)ペルシャのソーシャル・ネットワーク・テキスト上でのパフォーマンスを評価する。
第一に、ペルシア語における研究の欠如を考えると、既存のフレームワーク、特に英語で開発されたフレームワークに、ペルシア語と互換性を持たせるためにどんな修正を加えるべきか?
第2に、これらのアルゴリズムはどのように機能し、どちらが優れているか?
様々なカテゴリに分類できるトピック検出方法がある。
本研究では, 頻繁なパターンとクラスタリングが選択され, 両者のハイブリッドが新たなカテゴリとして提案されている。
そして、これら3つのカテゴリから10の方法が選択される。
これらはすべてスクラッチから再実装され、変更され、ペルシア語で適応される。
これらの10種類の手法は、異なる種類のトピック検出方法を含み、英語で優れた性能を示している。
ペルシアのソーシャルネットワーク投稿のテキストがデータセットとして使用される。
また,トピック検出の分野では,FSと呼ばれる新しいマルチクラス評価基準が初めて用いられる。
約140億個のトークンが実験中に処理される。
以上の結果から,人間が容易に理解できるキーワードトピックを探索する場合には,ハイブリッドカテゴリーの方が優れていることが示唆された。
しかし、さらなる分析のためにポストをクラスタ化することが目的ならば、頻繁なパターンカテゴリの方がより適している。
Topic detection is a complex process and depends on language because it somehow needs to analyze text. There have been few studies on topic detection in Persian, and the existing algorithms are not remarkable. Therefore, we aimed to study topic detection in Persian. The objectives of this study are: 1) to conduct an extensive study on the best algorithms for topic detection, 2) to identify necessary adaptations to make these algorithms suitable for the Persian language, and 3) to evaluate their performance on Persian social network texts. To achieve these objectives, we have formulated two research questions: First, considering the lack of research in Persian, what modifications should be made to existing frameworks, especially those developed in English, to make them compatible with Persian? Second, how do these algorithms perform, and which one is superior? There are various topic detection methods that can be categorized into different categories. Frequent pattern and clustering are selected for this research, and a hybrid of both is proposed as a new category. Then, ten methods from these three categories are selected. All of them are re-implemented from scratch, changed, and adapted with Persian. These ten methods encompass different types of topic detection methods and have shown good performance in English. The text of Persian social network posts is used as the dataset. Additionally, a new multiclass evaluation criterion, called FS, is used in this paper for the first time in the field of topic detection. Approximately 1.4 billion tokens are processed during experiments. The results indicate that if we are searching for keyword-topics that are easily understandable by humans, the hybrid category is better. However, if the aim is to cluster posts for further analysis, the frequent pattern category is more suitable. | 翻訳日:2024-03-18 17:20:54 公開日:2024-03-15 |
# アフリカにおけるFDIの非国家的決定要因を理解するためのビッグデータアプローチ
A Big Data Approach to Understand Sub-national Determinants of FDI in Africa ( http://arxiv.org/abs/2403.10239v1 ) ライセンス: Link先を確認 | A. Fronzetti Colladon, R. Vestrelli, S. Bait, M. M. Schiraldi, | (参考訳) 様々なマクロ経済や制度的な要因は、汚職、貿易の開放性、金融へのアクセス、政治的不安定性など、FDIの流入を妨げる。
既存の研究は、主に国レベルのデータに焦点を当てており、特に発展途上国でのファームレベルのデータの調査は限られている。
このギャップを認識して、最近の研究の要求は、特に地域レベルでFDI決定要因を掘り下げる定性的データ分析の必要性を強調している。
本稿では、アフリカ企業におけるFDIの所有に影響を与える地域レベル(サブ国家)の属性を定量化するために、16万7000以上のオンラインニュース記事から情報を得るための、テキストマイニングとソーシャルネットワーク分析に基づく新しい手法を提案する。
我々の分析は、世界銀行エンタープライズサーベイで示されたように、産業開発への障害に関する情報を拡張します。
地域的(準国家的な)構造的特徴と制度的特徴が、外国の所有権を決定する上で重要な役割を担っていることが示唆されている。
Various macroeconomic and institutional factors hinder FDI inflows, including corruption, trade openness, access to finance, and political instability. Existing research mostly focuses on country-level data, with limited exploration of firm-level data, especially in developing countries. Recognizing this gap, recent calls for research emphasize the need for qualitative data analysis to delve into FDI determinants, particularly at the regional level. This paper proposes a novel methodology, based on text mining and social network analysis, to get information from more than 167,000 online news articles to quantify regional-level (sub-national) attributes affecting FDI ownership in African companies. Our analysis extends information on obstacles to industrial development as mapped by the World Bank Enterprise Surveys. Findings suggest that regional (sub-national) structural and institutional characteristics can play an important role in determining foreign ownership. | 翻訳日:2024-03-18 17:20:54 公開日:2024-03-15 |
# FDGaussian:Geometric-Aware Diffusion Modelによる単一画像からの高速ガウス散乱
FDGaussian: Fast Gaussian Splatting from Single Image via Geometric-aware Diffusion Model ( http://arxiv.org/abs/2403.10242v1 ) ライセンス: Link先を確認 | Qijun Feng, Zhen Xing, Zuxuan Wu, Yu-Gang Jiang, | (参考訳) シングルビュー画像から詳細な3Dオブジェクトを再構築することは、利用可能な情報が限られているため、依然として難しい課題である。
本稿ではFDGaussianについて紹介する。FDGaussianはシングルイメージ3D再構成のための新しい2段階フレームワークである。
最近の手法では、通常、事前学習された2次元拡散モデルを用いて入力画像から可塑性な新しいビューを生成するが、多視点不整合や幾何学的忠実性の欠如に直面する。
これらの課題を克服するために,2次元入力から3次元幾何学的特徴を抽出する直交平面分解機構を提案し,一貫した多視点画像を生成する。
さらに、異なる視点からのヒューズ画像にエピポーラ的注意を取り入れた最先端のガウススプラッティングをさらに加速する。
我々は、FDGaussianが様々な視点で高一貫性の画像を生成し、質的にも定量的にも高品質な3Dオブジェクトを再構成することを示した。
私たちのWebサイト https://qjfeng.net/FDGaussian/ でさらに例を挙げることができます。
Reconstructing detailed 3D objects from single-view images remains a challenging task due to the limited information available. In this paper, we introduce FDGaussian, a novel two-stage framework for single-image 3D reconstruction. Recent methods typically utilize pre-trained 2D diffusion models to generate plausible novel views from the input image, yet they encounter issues with either multi-view inconsistency or lack of geometric fidelity. To overcome these challenges, we propose an orthogonal plane decomposition mechanism to extract 3D geometric features from the 2D input, enabling the generation of consistent multi-view images. Moreover, we further accelerate the state-of-the-art Gaussian Splatting incorporating epipolar attention to fuse images from different viewpoints. We demonstrate that FDGaussian generates images with high consistency across different views and reconstructs high-quality 3D objects, both qualitatively and quantitatively. More examples can be found at our website https://qjfeng.net/FDGaussian/. | 翻訳日:2024-03-18 17:20:54 公開日:2024-03-15 |
# CoLeCLIP: 共同タスクプロンプトと語彙学習によるオープンドメイン連続学習
CoLeCLIP: Open-Domain Continual Learning via Joint Task Prompt and Vocabulary Learning ( http://arxiv.org/abs/2403.10245v1 ) ライセンス: Link先を確認 | Yukun Li, Guansong Pang, Wei Suo, Chenchen Jing, Yuling Xi, Lingqiao Liu, Hao Chen, Guoqiang Liang, Peng Wang, | (参考訳) 本稿では,オープンドメインにおける視覚言語モデル(VLM)の連続的学習(CL)の問題について考察する。
このような能力は、オープンな環境、例えばAIアシスタント、自律運転システム、ロボット工学など、様々なアプリケーションに欠かせない。
現在のCL研究は主に、既知のクラスを持つ単一のドメインにおけるクローズド・セットのシナリオに焦点を当てている。
CLIPのような大規模な事前学習されたVLMは、ゼロショット認識能力に優れており、近年の多くの研究では、CLにおける破滅的な忘れを緩和する能力を活用しているが、それらは単一のドメインデータセットにおけるクローズドセットCLに焦点を当てている。
大きなVLMのオープンドメインCLは、より困難である。
1)データセット間の大きなクラス相関とドメインギャップ
2) 事前学習VLMにおけるゼロショット知識の忘れ, 新たに適応したデータセットから学習した知識に加えて, ゼロショット知識の忘れ方について検討した。
本稿では、CLIPに基づくオープンドメインCLモデルを学ぶ、CoLeCLIPと呼ばれる新しいアプローチを紹介する。
一連のタスクプロンプトとドメイン間のクラスボキャブラリを共同で学習することで、これらの課題に対処する。
11のドメインデータセットに対する大規模な実験は、CoLeCLIPがタスクとクラスインクリメンタルな学習設定の両方で、オープンドメインCLの最先端メソッドよりも優れていることを示している。
This paper explores the problem of continual learning (CL) of vision-language models (VLMs) in open domains, where the models need to perform continual updating and inference on a streaming of datasets from diverse seen and unseen domains with novel classes. Such a capability is crucial for various applications in open environments, e.g., AI assistants, autonomous driving systems, and robotics. Current CL studies mostly focus on closed-set scenarios in a single domain with known classes. Large pre-trained VLMs like CLIP have demonstrated superior zero-shot recognition ability, and a number of recent studies leverage this ability to mitigate catastrophic forgetting in CL, but they focus on closed-set CL in a single domain dataset. Open-domain CL of large VLMs is significantly more challenging due to 1) large class correlations and domain gaps across the datasets and 2) the forgetting of zero-shot knowledge in the pre-trained VLMs in addition to the knowledge learned from the newly adapted datasets. In this work we introduce a novel approach, termed CoLeCLIP, that learns an open-domain CL model based on CLIP. It addresses these challenges by a joint learning of a set of task prompts and a cross-domain class vocabulary. Extensive experiments on 11 domain datasets show that CoLeCLIP outperforms state-of-the-art methods for open-domain CL under both task- and class-incremental learning settings. | 翻訳日:2024-03-18 17:20:54 公開日:2024-03-15 |
# 量子ゼノ効果によるイオンの反復閉じ込め--パラドキカルエネルギー系列の探索
Iterative Confinement of Ions via the Quantum Zeno Effect: Probing Paradoxical Energy Consequences ( http://arxiv.org/abs/2403.10246v1 ) ライセンス: Link先を確認 | Varqa Abyaneh, | (参考訳) これまでに導入した量子ゼノ効果(QZE)に基づくイオントラップ機構を基礎として,量子計測のみでイオンを体系的に近接させる手法を提案する。
提案手法では, 導体板の囲い面にイオンが作用する電磁力の繰り返し測定を行い, その境界における波動関数の挙動を利用して, より小さな空間領域にイオンを閉じ込める。
2プロトン系をケーススタディとして、連続QZE測定によるシステムのエネルギー利得と、そのような測定を行うエネルギーのダイナミクスを考察する。
その結果、特定の状況下では、陽子がシステムに導入されるよりも多くのエネルギーを蓄積しているように見えるパラドックスが明らかとなった。
この特異性は、量子力学におけるエネルギー保存の課題を強調する以前の研究と一致している。
これらの観測を検証するために,現在の技術的能力で実現可能な反復的閉じ込め機構を提案する。
これらの発見の確認は、核融合研究を含む量子物理学への応用に新たな洞察を与える可能性がある。
そこで, 本提案手法は, 多様な用途に有意な可能性を秘めているだけでなく, 基礎的な疑問を解くための追加のツールも備えている。
Building upon our previously introduced mechanism for ion trapping based on the quantum Zeno effect (QZE), we propose a novel approach to systematically draw ions closer together, solely via quantum measurements. The proposed method involves repeated measurements of the electromagnetic force exerted by ions on an enclosure of conductor plates to confine the ions within an incrementally smaller spatial region, achieved by exploiting the behaviour of the wavefunction at its boundaries. Taking a two-proton system as a case study, we explore the dynamics between the energy gain of the system, attributed to successive QZE measurements, and the energy expended making such measurements. The results reveal a paradox wherein, under specific circumstances, protons appear to accumulate more energy than is seemingly introduced into the system. This peculiarity aligns with prior studies that highlight challenges in energy conservation within quantum mechanics. To verify these observations, we propose an iterative confinement setup that is feasible with current technological capabilities. Confirmation of these findings could offer new insights for applications in quantum physics, including fusion research. Therefore, the proposed novel method of manipulating ions not only harbours considerable potential for diverse applications but also furnishes an additional tool for probing fundamental questions in the field. | 翻訳日:2024-03-18 17:20:54 公開日:2024-03-15 |
# 漁業情報による相互情報
Mutual Information Bounded by Fisher Information ( http://arxiv.org/abs/2403.10248v1 ) ライセンス: Link先を確認 | Wojciech Górecki, Xi Lu, Chiara Macchiavello, Lorenzo Maccone, | (参考訳) 我々は、フィッシャー情報の観点から、相互情報に対する一般的な上限を導出する。
この境界は、ベイズ二次コストの低い境界を導出するためにさらに用いられるかもしれない。
これら2つは、エフロイモビッチとファン・ツリーの不等式に代わるもので、後者が自明な有界を与える前の分布のクラスにも有用である。
本稿では, 量子位相推定のケーススタディを用いて, 境界値の有用性について述べる。
ここでは、ノイズの存在下でのフィッシャー情報に対する既知の非自明な境界の相互情報への適応を可能にする。
フィッシャー情報は局所的な推定戦略を測るのに有用であるが、相互情報はグローバルな戦略に有用である。
We derive a general upper bound to mutual information in terms of the Fisher information. The bound may be further used to derive a lower bound for Bayesian quadratic cost. These two provide alternatives to the Efroimovich and to the van Trees inequality that are useful also for classes of prior distributions where the latter ones give trivial bounds. We illustrate the usefulness of our bounds with a case study in quantum phase estimation. Here, they allow us to adapt to mutual information the known and highly nontrivial bounds for Fisher information in the presence of noise. This nicely complements quantum metrology, since Fisher information is useful to gauge local estimation strategies, whereas mutual information is useful for global strategies. | 翻訳日:2024-03-18 17:20:54 公開日:2024-03-15 |
# ゲームプレイングエージェントと大規模モデル:方法,応用,課題
A Survey on Game Playing Agents and Large Models: Methods, Applications, and Challenges ( http://arxiv.org/abs/2403.10249v1 ) ライセンス: Link先を確認 | Xinrun Xu, Yuxin Wang, Chaoyi Xu, Ziluo Ding, Jiechuan Jiang, Zhiming Ding, Börje F. Karlsson, | (参考訳) 大規模モデル(LM)の急速な進化は、言語やマルチモーダルに焦点を絞ったものであり、アカデミーと産業の両方で広く注目を集めている。
しかし、この急速に発展する領域への関心が高まりつつあるにもかかわらず、その能力と、異なるインパクトのあるシナリオにおける可能性に関する体系的なレビューは少ない。
本稿では,このギャップを埋めるために,複雑なゲームプレイシナリオや課題のオープン化に関して,現在のLM使用状況について徹底的に検討する。
本稿では,ゲーム用のLMA(LM-based Agents)の既存アーキテクチャを体系的にレビューし,それらの共通点,課題,その他の知見を要約する。
さらに,ゲームにおけるLMの進歩に向けた将来的な研究の道のりについて,今後の展望を述べる。
我々は、研究者がこの分野の明確な理解を得るのを支援し、この非常に影響力のある研究方向性への関心を高めることを望んでいる。
継続的に更新された対応するリソースは、GitHubリポジトリにある。
The swift evolution of Large-scale Models (LMs), either language-focused or multi-modal, has garnered extensive attention in both academy and industry. But despite the surge in interest in this rapidly evolving area, there are scarce systematic reviews on their capabilities and potential in distinct impactful scenarios. This paper endeavours to help bridge this gap, offering a thorough examination of the current landscape of LM usage in regards to complex game playing scenarios and the challenges still open. Here, we seek to systematically review the existing architectures of LM-based Agents (LMAs) for games and summarize their commonalities, challenges, and any other insights. Furthermore, we present our perspective on promising future research avenues for the advancement of LMs in games. We hope to assist researchers in gaining a clear understanding of the field and to generate more interest in this highly impactful research direction. A corresponding resource, continuously updated, can be found in our GitHub repository. | 翻訳日:2024-03-18 17:20:54 公開日:2024-03-15 |
# 生存分析のための解釈可能な機械学習
Interpretable Machine Learning for Survival Analysis ( http://arxiv.org/abs/2403.10250v1 ) ライセンス: Link先を確認 | Sophie Hanna Langbein, Mateusz Krzyziński, Mikołaj Spytek, Hubert Baniecki, Przemysław Biecek, Marvin N. Wright, | (参考訳) ブラックボックス機械学習モデルの普及と急速な進歩により、この10年間で、解釈可能な機械学習(IML)や説明可能な人工知能(XAI)の分野がますます重要になっている。
IML技術の採用は、臨床的意思決定プロセス、標的療法の開発、介入、その他の医療または医療関連文脈など、センシティブな領域における透明性、説明責任、公正性を促進する。
より具体的には、説明可能性は生存モデルの潜在的なバイアスと制限を明らかにすることができ、どのようにしてどの特徴がリスク要因に影響を及ぼすかを理解する数学的に健全な方法を提供する。
しかし、簡単に利用できるIML手法が欠如していることは、医療従事者や政策立案者が機械学習の潜在能力を最大限活用して、時間から時間までのデータを予測することを妨げた可能性がある。
一般のIML分類学の文脈において、生存分析のためのIML法に関する限られた既存の研究の総括的なレビューを行う。
さらに、個別条件予測(ICE)、部分依存プロット(PDP)、蓄積局所効果(ALE)、異なる特徴重要度尺度、フリードマンのH-相互作用統計値などの一般的なIML手法が生存結果に適用可能であることを正式に明らかにした。
デモグラフィック・ヘルス・サーベイス・プログラム(DHS)プログラムは、ガーナ人の5歳未満の子どもの死亡率に関するデータにいくつかのIML手法を適用し、モデル決定や予測の理解を容易にするために、実際にこの手法を利用する方法のチュートリアルやガイドとして機能する。
With the spread and rapid advancement of black box machine learning models, the field of interpretable machine learning (IML) or explainable artificial intelligence (XAI) has become increasingly important over the last decade. This is particularly relevant for survival analysis, where the adoption of IML techniques promotes transparency, accountability and fairness in sensitive areas, such as clinical decision making processes, the development of targeted therapies, interventions or in other medical or healthcare related contexts. More specifically, explainability can uncover a survival model's potential biases and limitations and provide more mathematically sound ways to understand how and which features are influential for prediction or constitute risk factors. However, the lack of readily available IML methods may have deterred medical practitioners and policy makers in public health from leveraging the full potential of machine learning for predicting time-to-event data. We present a comprehensive review of the limited existing amount of work on IML methods for survival analysis within the context of the general IML taxonomy. In addition, we formally detail how commonly used IML methods, such as such as individual conditional expectation (ICE), partial dependence plots (PDP), accumulated local effects (ALE), different feature importance measures or Friedman's H-interaction statistics can be adapted to survival outcomes. An application of several IML methods to real data on data on under-5 year mortality of Ghanaian children from the Demographic and Health Surveys (DHS) Program serves as a tutorial or guide for researchers, on how to utilize the techniques in practice to facilitate understanding of model decisions or predictions. | 翻訳日:2024-03-18 17:20:54 公開日:2024-03-15 |
# 相互作用を持つオープン量子ドット系における励起時間進化散乱状態:時間進化共鳴状態の発見
Exact time-evolving scattering states in open quantum-dot systems with an interaction: Discovery of time-evolving resonant states ( http://arxiv.org/abs/2403.10251v1 ) ライセンス: Link先を確認 | Akinori Nishino, Naomichi Hatano, | (参考訳) クーロン相互作用を持つオープンダブル量子ドット系の時間進化多電子状態について検討する。
任意の初期条件に対する時間進化状態の体系的構成を提案する。
導波路上の1電子および2電子平面波の初期状態について、時間進化する散乱状態の正確な解を得る。
量子ドット上の局在電子の初期状態について、我々は新しいタイプの正確な時間進化状態を見つけ、これを時間進化共鳴状態と呼ぶ。
波動関数が空間的にばらつき、正規化できない定常共振状態とは異なり、波動関数は因果性によって有限空間間隔に制限されるため、時変共振状態は正規化可能である。
正確な時間進化共鳴状態により、線形化された分散を持つ系の量子ドット上の電子の生存確率の時間依存性を計算することができる。
共鳴エネルギーの指数点の一方の側で指数関数的に減衰する一方、他方の側では2つの共鳴エネルギーの干渉によって崩壊中に振動する。
We study exact time-evolving many-electron states of an open double quantum-dot system with an interdot Coulomb interaction. A systematic construction of the time-evolving states for arbitrary initial conditions is proposed. For any initial states of one- and two-electron plane waves on the electrical leads, we obtain exact solutions of the time-evolving scattering states, which converge to known stationary scattering eigenstates in the long-time limit. For any initial states of localized electrons on the quantum dots, we find exact time-evolving states of a new type, which we refer to as time-evolving resonant states. In contrast to stationary resonant states, whose wave functions spatially diverge and not normalizable, the time-evolving resonant states are normalizable since their wave functions are restricted to a finite space interval due to causality. The exact time-evolving resonant states enable us to calculate the time-dependence of the survival probability of electrons on the quantum dots for the system with the linearized dispersions. It decays exponentially in time on one side of an exponential point of resonance energies while, on the other side, it oscillates during the decay as a result of the interference of the two resonance energies. | 翻訳日:2024-03-18 17:20:54 公開日:2024-03-15 |
# 地域対応型分散コントラスト:マルチタスク部分教師付き学習への新しいアプローチ
Region-aware Distribution Contrast: A Novel Approach to Multi-Task Partially Supervised Learning ( http://arxiv.org/abs/2403.10252v1 ) ライセンス: Link先を確認 | Meixuan Li, Tianyu Li, Guoqing Wang, Peng Wang, Yang Yang, Heng Tao Shen, | (参考訳) 本研究では,意味的セグメンテーション,深度推定,表面正規推定といったタスクを包含するマルチタスク密度予測の複雑な課題,特に部分的に注釈付きデータ(MTPSL)を扱う場合の課題に対処する。
複雑さは、トレーニングイメージごとに完全なタスクラベルがないことから生じます。
ピクセル単位の高密度なタスクの関連性を考えると、私たちはマイニングとタスク間の関係の取得に重点を置いています。
既存のソリューションは通常、グローバルなクロスタスク画像マッチングのためのグローバルなイメージ表現の学習に依存しており、残念ながら、画像内のより微細な構造を犠牲にする制約を課している。
治療としての局所的マッチングの試みは、正確な地域監督の欠如によりハードルに直面し、局所的なアライメントが困難な作業となる。
Segment Anything Model (SAM)の導入は、地域検出のための自由で高品質なソリューションを提供することによって、局所的なアライメントの問題に対処することに光を当てている。
SAM検出された領域を活用することで、その後の課題は、これらの領域内の表現の整合性にある。
本提案では,モノリシック画像表現を直接学習する従来の手法と異なり,ガウス分布を用いた領域表現をモデル化する。
異なるタスクから対応する領域間の分散を調整することは、より柔軟性と領域内構造を捕捉する能力を与え、幅広いタスクを収容する。
この革新的なアプローチは、クロスタスク関係を効果的にキャプチャする能力を大幅に向上させ、部分的に教師付きマルチタスクの高密度予測シナリオにおける全体的なパフォーマンスを向上させる。
広範に使用されている2つのベンチマーク実験により,提案手法の有効性を実証し,完全教師付き手法と比較しても最先端性能を示す。
In this study, we address the intricate challenge of multi-task dense prediction, encompassing tasks such as semantic segmentation, depth estimation, and surface normal estimation, particularly when dealing with partially annotated data (MTPSL). The complexity arises from the absence of complete task labels for each training image. Given the inter-related nature of these pixel-wise dense tasks, our focus is on mining and capturing cross-task relationships. Existing solutions typically rely on learning global image representations for global cross-task image matching, imposing constraints that, unfortunately, sacrifice the finer structures within the images. Attempting local matching as a remedy faces hurdles due to the lack of precise region supervision, making local alignment a challenging endeavor. The introduction of Segment Anything Model (SAM) sheds light on addressing local alignment challenges by providing free and high-quality solutions for region detection. Leveraging SAM-detected regions, the subsequent challenge lies in aligning the representations within these regions. Diverging from conventional methods that directly learn a monolithic image representation, our proposal involves modeling region-wise representations using Gaussian Distributions. Aligning these distributions between corresponding regions from different tasks imparts higher flexibility and capacity to capture intra-region structures, accommodating a broader range of tasks. This innovative approach significantly enhances our ability to effectively capture cross-task relationships, resulting in improved overall performance in partially supervised multi-task dense prediction scenarios. Extensive experiments conducted on two widely used benchmarks underscore the superior effectiveness of our proposed method, showcasing state-of-the-art performance even when compared to fully supervised methods. | 翻訳日:2024-03-18 17:20:54 公開日:2024-03-15 |
# 粒界知識伝達による開連続特徴選択
Open Continual Feature Selection via Granular-Ball Knowledge Transfer ( http://arxiv.org/abs/2403.10253v1 ) ライセンス: Link先を確認 | Xuemei Cao, Xin Yang, Shuyin Xia, Guoyin Wang, Tianrui Li, | (参考訳) 本稿では,データ前処理における連続的特徴選択(CFS)の枠組みについて述べる。
CFSは、未知の知識の発見と既知の知識の伝達という、2つの主要な課題に直面している。
この目的のために提案したCFS法は,未知のクラスを検知し,事前学習した知識の伝達を容易にするグラニュラーボール知識ベースを構築することを目的とした,連続学習(CL)とグラニュラーボールコンピューティング(GBC)の強みを組み合わせたものである。
CFSは、初期学習とオープン学習の2つのステージで構成されている。
前者は,グラニュラーボールを用いた多粒度表現により,初期知識基盤を確立することを目的としている。
後者は、事前の粒界知識を利用して未知を識別し、粒界知識伝達のための知識基盤を更新し、古い知識を強化し、新しい知識を統合する。
その後、最小限の新機能を既存の最適サブセットに組み込んだ最適な機能サブセット機構を考案し、各期間に優れた結果が得られるようにした。
提案手法の有効性と効率の両面から,提案手法の優位性を示す。
This paper presents a novel framework for continual feature selection (CFS) in data preprocessing, particularly in the context of an open and dynamic environment where unknown classes may emerge. CFS encounters two primary challenges: the discovery of unknown knowledge and the transfer of known knowledge. To this end, the proposed CFS method combines the strengths of continual learning (CL) with granular-ball computing (GBC), which focuses on constructing a granular-ball knowledge base to detect unknown classes and facilitate the transfer of previously learned knowledge for further feature selection. CFS consists of two stages: initial learning and open learning. The former aims to establish an initial knowledge base through multi-granularity representation using granular-balls. The latter utilizes prior granular-ball knowledge to identify unknowns, updates the knowledge base for granular-ball knowledge transfer, reinforces old knowledge, and integrates new knowledge. Subsequently, we devise an optimal feature subset mechanism that incorporates minimal new features into the existing optimal subset, often yielding superior results during each period. Extensive experimental results on public benchmark datasets demonstrate our method's superiority in terms of both effectiveness and efficiency compared to state-of-the-art feature selection methods. | 翻訳日:2024-03-18 17:11:11 公開日:2024-03-15 |
# マジックトークン:マルチモーダルオブジェクト再識別のための多目的トークンの選択
Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification ( http://arxiv.org/abs/2403.10254v1 ) ライセンス: Link先を確認 | Pingping Zhang, Yuhao Wang, Yang Liu, Zhengzheng Tu, Huchuan Lu, | (参考訳) 単一モードオブジェクト再識別(ReID)は、複雑な視覚シナリオ内で堅牢性を維持する上で大きな課題に直面します。
対照的に、マルチモーダルオブジェクトReIDは様々なモーダルから補完的な情報を利用しており、実用的な応用の可能性を示している。
しかし、従来の手法は無関係な背景の影響を受けやすく、通常モダリティギャップを無視する。
上記の課題に対処するため,マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための新しい学習フレームワーク「textbf{EDITOR}」を提案する。
我々は、異なる入力モードからトークン化された特徴を抽出する共有視覚変換器から始める。
次に,空間周波数トークン選択(SFTS)モジュールを導入し,空間情報と周波数情報の両方でオブジェクト中心トークンを適応的に選択する。
その後,階層型マスケアグリゲーション (HMA) モジュールを用いて,モダリティ間の特徴的相互作用を促進する。
最後に,背景制約 (BCC) とオブジェクト指向特徴再構成 (OCFR) を提案する。
それらは2つの新しい損失関数として定式化され、背景抑圧による特徴識別を改善する。
その結果、我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な特徴を生成できる。
3つのマルチモーダルReIDベンチマークの大規模な実験により,本手法の有効性が検証された。
コードはhttps://github.com/924973292/EDITORで公開されている。
Single-modal object re-identification (ReID) faces great challenges in maintaining robustness within complex visual scenarios. In contrast, multi-modal object ReID utilizes complementary information from diverse modalities, showing great potentials for practical applications. However, previous methods may be easily affected by irrelevant backgrounds and usually ignore the modality gaps. To address above issues, we propose a novel learning framework named \textbf{EDITOR} to select diverse tokens from vision Transformers for multi-modal object ReID. We begin with a shared vision Transformer to extract tokenized features from different input modalities. Then, we introduce a Spatial-Frequency Token Selection (SFTS) module to adaptively select object-centric tokens with both spatial and frequency information. Afterwards, we employ a Hierarchical Masked Aggregation (HMA) module to facilitate feature interactions within and across modalities. Finally, to further reduce the effect of backgrounds, we propose a Background Consistency Constraint (BCC) and an Object-Centric Feature Refinement (OCFR). They are formulated as two new loss functions, which improve the feature discrimination with background suppression. As a result, our framework can generate more discriminative features for multi-modal object ReID. Extensive experiments on three multi-modal ReID benchmarks verify the effectiveness of our methods. The code is available at https://github.com/924973292/EDITOR. | 翻訳日:2024-03-18 17:11:11 公開日:2024-03-15 |
# 潜時拡散モデルと入射ニューラルデコーダを用いた任意スケール画像生成とアップサンプリング
Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder ( http://arxiv.org/abs/2403.10255v1 ) ライセンス: Link先を確認 | Jinseok Kim, Tae-Kyun Kim, | (参考訳) 超解像度(SR)と画像生成はコンピュータビジョンにおいて重要なタスクであり、現実世界のアプリケーションで広く採用されている。
しかし、既存のほとんどの手法は、固定スケールの倍率でのみ画像を生成し、過度なスムーシングやアーティファクトに悩まされている。
さらに、出力画像の十分な多様性や、異なるスケールでのイメージ一貫性を提供していません。
Inlicit Neural Representation (INR) をデノナイジング拡散モデルに適用し、連続分解能で多種多様で高品質なSR結果を得た。
このモデルが画像空間で動作するため、画像の解像度が大きくなるほど、メモリと推論時間が増加し、スケール固有の一貫性も維持できない。
任意のスケールで入力画像の超解像やランダムノイズから生成できる新しいパイプラインを提案する。
この方法は、事前訓練されたオートエンコーダ、潜伏拡散モデル、暗黙のニューラルデコーダと学習戦略からなる。
提案手法は遅延空間における拡散過程を効率よく適用するが、任意のスケールでMPPによってデコードされた出力画像空間と整合する。
より具体的には、任意のスケールのデコーダは、事前訓練されたオートエンコーダからの対称デコーダw/oアップスケーリングと、連続したローカルインプリシットイメージ関数(LIIF)によって設計されている。
遅延拡散過程は、デノナイジングとアライメント損失とを併用して学習する。
出力画像の誤差は固定デコーダを介して逆伝搬され、出力画像の品質が向上する。
任意のスケールでの画像超解像と新しい画像生成という2つのタスクに関する複数の公開ベンチマークを用いた広範囲な実験において,提案手法は画像品質,多様性,スケールの整合性の指標において,関連する手法よりも優れていた。
推論速度とメモリ使用量において、関連する先行技術よりもはるかに優れている。
Super-resolution (SR) and image generation are important tasks in computer vision and are widely adopted in real-world applications. Most existing methods, however, generate images only at fixed-scale magnification and suffer from over-smoothing and artifacts. Additionally, they do not offer enough diversity of output images nor image consistency at different scales. Most relevant work applied Implicit Neural Representation (INR) to the denoising diffusion model to obtain continuous-resolution yet diverse and high-quality SR results. Since this model operates in the image space, the larger the resolution of image is produced, the more memory and inference time is required, and it also does not maintain scale-specific consistency. We propose a novel pipeline that can super-resolve an input image or generate from a random noise a novel image at arbitrary scales. The method consists of a pretrained auto-encoder, a latent diffusion model, and an implicit neural decoder, and their learning strategies. The proposed method adopts diffusion processes in a latent space, thus efficient, yet aligned with output image space decoded by MLPs at arbitrary scales. More specifically, our arbitrary-scale decoder is designed by the symmetric decoder w/o up-scaling from the pretrained auto-encoder, and Local Implicit Image Function (LIIF) in series. The latent diffusion process is learnt by the denoising and the alignment losses jointly. Errors in output images are backpropagated via the fixed decoder, improving the quality of output images. In the extensive experiments using multiple public benchmarks on the two tasks i.e. image super-resolution and novel image generation at arbitrary scales, the proposed method outperforms relevant methods in metrics of image quality, diversity and scale consistency. It is significantly better than the relevant prior-art in the inference speed and memory usage. | 翻訳日:2024-03-18 17:11:11 公開日:2024-03-15 |
# 翻訳は必要か? 大規模言語モデルを用いた多言語課題の解法に関する研究
Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models ( http://arxiv.org/abs/2403.10258v1 ) ライセンス: Link先を確認 | Chaoqun Liu, Wenxuan Zhang, Yiran Zhao, Anh Tuan Luu, Lidong Bing, | (参考訳) 大規模言語モデル(LLM)は、強い多言語能力を示しているが、トレーニングコーパスの不均衡のため、主に英語中心である。
既存の研究はこの現象を利用して、NLPタスクにおける多言語のパフォーマンスを改善する。
本研究では,NLPタスクから実際のユーザクエリへの評価を拡張する。
英語への翻訳は多言語NLPタスクの性能向上に寄与するが,全てのシナリオにおいて最適ではない。
深い言語理解を必要とする文化関連のタスクでは、文化や言語に関連するニュアンスをキャプチャできるため、ネイティブ言語でのプロンプトがより有望であることが証明されている。
したがって、英語中心のLLMではなく、より強力な多言語LLMの開発への取り組みを提唱する。
Large language models (LLMs) have demonstrated strong multilingual capabilities; yet, they are mostly English-centric due to the imbalanced training corpora. Existing works leverage this phenomenon to improve their multilingual performances on NLP tasks. In this work, we extend the evaluation from NLP tasks to real user queries. We find that even though translation into English can help improve the performance of multilingual NLP tasks for English-centric LLMs, it may not be optimal for all scenarios. For culture-related tasks that need deep language understanding, prompting in the native language proves to be more promising since it can capture the nuances related to culture and language. Therefore, we advocate for more efforts towards the development of strong multilingual LLMs instead of just English-centric LLMs. | 翻訳日:2024-03-18 17:11:11 公開日:2024-03-15 |
# 分類モデルとLSTMモデルを用いた産業における予測保守の総合的研究
Comprehensive Study Of Predictive Maintenance In Industries Using Classification Models And LSTM Model ( http://arxiv.org/abs/2403.10259v1 ) ライセンス: Link先を確認 | Saket Maheshwari, Sambhav Tiwari, Shyam Rai, Satyam Vinayak Daman Pratap Singh, | (参考訳) 今日の技術主導の時代には、予測的メンテナンスと高度な診断の義務は航空機を超えて、回転および移動機械の損傷、故障、運用上の欠陥の特定にまで及んでいる。
このようなサービスを実装することで、メンテナンスコストを削減できるだけでなく、マシン寿命を延長し、運用効率を高めることができる。
さらに、潜在的な事故や破滅的な出来事に対する予防措置として機能する。
人工知能(AI)の出現は、業界全体のメンテナンスに革命をもたらし、マシン障害のより正確で効率的な予測と分析を可能にし、時間とリソースの保存を可能にした。
本研究では,SVM(Support Vector Machine),ランダムフォレスト(Random Forest),ロジスティック回帰(Logistic Regression),畳み込みニューラルネットワークLSTM(Convolutional Neural Network LSTM-based)など,機械学習のさまざまな分類手法を探索し,マシン性能を予測・解析することを目的とする。
SVMはデータを多次元空間における位置に基づいて異なるカテゴリに分類する一方、ランダムフォレストは複数の決定木を作成するためにアンサンブル学習を使用している。
ロジスティック回帰は、入力データを用いてバイナリ結果の確率を予測する。
本研究の主な目的は、精度、精度、リコール、F1スコアなどの要因を考慮して、これらのアルゴリズムの性能を評価し、機械性能を予測・解析することである。
この発見は、マシン性能の効果的な予測と分析に最適な機械学習アルゴリズムを選択する上で、メンテナンスの専門家を支援する。
In today's technology-driven era, the imperative for predictive maintenance and advanced diagnostics extends beyond aviation to encompass the identification of damages, failures, and operational defects in rotating and moving machines. Implementing such services not only curtails maintenance costs but also extends machine lifespan, ensuring heightened operational efficiency. Moreover, it serves as a preventive measure against potential accidents or catastrophic events. The advent of Artificial Intelligence (AI) has revolutionized maintenance across industries, enabling more accurate and efficient prediction and analysis of machine failures, thereby conserving time and resources. Our proposed study aims to delve into various machine learning classification techniques, including Support Vector Machine (SVM), Random Forest, Logistic Regression, and Convolutional Neural Network LSTM-Based, for predicting and analyzing machine performance. SVM classifies data into different categories based on their positions in a multidimensional space, while Random Forest employs ensemble learning to create multiple decision trees for classification. Logistic Regression predicts the probability of binary outcomes using input data. The primary objective of the study is to assess these algorithms' performance in predicting and analyzing machine performance, considering factors such as accuracy, precision, recall, and F1 score. The findings will aid maintenance experts in selecting the most suitable machine learning algorithm for effective prediction and analysis of machine performance. | 翻訳日:2024-03-18 17:11:11 公開日:2024-03-15 |
# Thumbnail Layout と Graph Reasoning による一般化可能なディープフェイク映像検出に向けて
Towards Generalizable Deepfake Video Detection with Thumbnail Layout and Graph Reasoning ( http://arxiv.org/abs/2403.10261v1 ) ライセンス: Link先を確認 | Yuting Xu, Jian Liang, Lijun Sheng, Xiao-Yu Zhang, | (参考訳) 社会とサイバーセキュリティに対するディープフェイクの脅威は、ディープフェイクビデオ検出の領域内での努力を激化させ、重大な公衆の不安を引き起こしている。
現在のビデオレベル法は主に3D CNNに基づいており、高い計算要求が生じるが、性能は良好である。
本稿では,ビデオクリップを予め定義されたレイアウトに変換することによって,空間的および時間的依存関係の保存を実現する,Thumbnail Layout (TALL) というエレガントでシンプルだが効果的な戦略を提案する。
この変換プロセスは、各フレーム内の同じ位置にあるフレームを順次マスキングする。
これらのフレームをサブフレームにリサイズし、所定のレイアウトに再編成し、サムネイルを形成する。
TALLはモデルに依存しず、驚くほどシンプルで、最小限のコード修正しか必要としない。
さらに,グラフ推論ブロック (GRB) と意味整合性 (SC) の損失を導入し,TALL++ に終止符を打つ。
GRBはセマンティック領域間の相互作用を強化し、セマンティックレベルの不整合の手がかりをキャプチャする。
セマンティックな一貫性の喪失は、モデルの一般化能力を改善するためにセマンティックな特徴に一貫性の制約を課します。
データベース内, クロスデータセット, 拡散生成画像検出, およびディープフェイク生成法認識に関する広範囲な実験により, TALL++は, 最先端の手法に匹敵する結果を達成し, 様々なディープフェイク検出問題に対する我々のアプローチの有効性を実証した。
コードはhttps://github.com/rainy-xu/TALL4Deepfake.comで公開されている。
The deepfake threats to society and cybersecurity have provoked significant public apprehension, driving intensified efforts within the realm of deepfake video detection. Current video-level methods are mostly based on {3D CNNs} resulting in high computational demands, although have achieved good performance. This paper introduces an elegantly simple yet effective strategy named Thumbnail Layout (TALL), which transforms a video clip into a pre-defined layout to realize the preservation of spatial and temporal dependencies. This transformation process involves sequentially masking frames at the same positions within each frame. These frames are then resized into sub-frames and reorganized into the predetermined layout, forming thumbnails. TALL is model-agnostic and has remarkable simplicity, necessitating only minimal code modifications. Furthermore, we introduce a graph reasoning block (GRB) and semantic consistency (SC) loss to strengthen TALL, culminating in TALL++. GRB enhances interactions between different semantic regions to capture semantic-level inconsistency clues. The semantic consistency loss imposes consistency constraints on semantic features to improve model generalization ability. Extensive experiments on intra-dataset, cross-dataset, diffusion-generated image detection, and deepfake generation method recognition show that TALL++ achieves results surpassing or comparable to the state-of-the-art methods, demonstrating the effectiveness of our approaches for various deepfake detection problems. The code is available at https://github.com/rainy-xu/TALL4Deepfake. | 翻訳日:2024-03-18 17:11:11 公開日:2024-03-15 |
# DSP: 多次元変圧器の動的シーケンス並列性
DSP: Dynamic Sequence Parallelism for Multi-Dimensional Transformers ( http://arxiv.org/abs/2403.10266v1 ) ライセンス: Link先を確認 | Xuanlei Zhao, Shenggan Cheng, Zangwei Zheng, Zheming Yang, Ziming Liu, Yang You, | (参考訳) 言語生成、ビデオ生成、マルチモーダルタスクといったアプリケーションにまたがって長いシーケンスを持つ大規模モデルをスケールするには、効率的なシーケンス並列性が必要である。
しかし、既存のシーケンス並列化法は、すべて単一のシーケンス次元を仮定し、異なる次元にわたる注意計算を行う多次元トランスフォーマーアーキテクチャに適合しない。
本稿では,多次元トランスモデルに対する効率的なシーケンス並列化を実現するための新しいアプローチである動的シーケンス並列化(DSP)を提案する。
鍵となる考え方は、多次元の注意の潜在的特性を利用して、現在の計算段階に応じて並列性次元を動的に切り替えることである。
この動的次元スイッチングにより、従来の1次元並列処理を多次元モデルに適用するよりも、通信オーバーヘッドを最小限に抑えたシーケンス並列化が可能となる。
実験の結果、DSPは従来のシーケンス並列化法よりもエンドツーエンドのスループットを42.0%から216.8%改善した。
Scaling large models with long sequences across applications like language generation, video generation and multimodal tasks requires efficient sequence parallelism. However, existing sequence parallelism methods all assume a single sequence dimension and fail to adapt to multi-dimensional transformer architectures that perform attention calculations across different dimensions. This paper introduces Dynamic Sequence Parallelism (DSP), a novel approach to enable efficient sequence parallelism for multi-dimensional transformer models. The key idea is to dynamically switch the parallelism dimension according to the current computation stage, leveraging the potential characteristics of multi-dimensional attention. This dynamic dimension switching allows sequence parallelism with minimal communication overhead compared to applying traditional single-dimension parallelism to multi-dimensional models. Experiments show DSP improves end-to-end throughput by 42.0% to 216.8% over prior sequence parallelism methods. | 翻訳日:2024-03-18 17:11:11 公開日:2024-03-15 |
# ボードゲームダイナミクスの語彙
A Vocabulary of Board Game Dynamics ( http://arxiv.org/abs/2403.10267v1 ) ライセンス: Link先を確認 | Joshua Kritz, Geraldo Xexéo, | (参考訳) 近年はゲーム研究の分野で大きな進歩を遂げている。
しかし、その存在と重要性について研究者の間で広く認識されているにもかかわらず、力学の領域に焦点をあてた学術研究が顕著に廃れた。
本研究の目的は,ボードゲーム力学に特化した語彙を提示することによって,この研究ギャップに対処することである。
この目標を達成するために、我々はフォーカスグループを使用して、その後、調査を通じて検証と改善を受ける一連の動的概念を生成する。
結果として得られる概念は、分類学的構造を用いて語彙に分類され、これらの概念をより広くより一般的な概念にまとめることができる。
In recent years, significant advances have been made in the field of game research. However, there has been a noticeable dearth of scholarly research focused on the domain of dynamics, despite the widespread recognition among researchers of its existence and importance. The objective of this paper is to address this research gap by presenting a vocabulary dedicated to boardgame dynamics. To achieve this goal, we employ a focus group to generate a set of dynamic concepts that are subsequently subjected to validation and refinement through a survey. The resulting concepts are then organized into a vocabulary using a taxonomic structure, allowing the grouping of these concepts into broader and more general ideas. | 翻訳日:2024-03-18 17:11:11 公開日:2024-03-15 |
# フォールトトレラント量子回路の低密度パリティチェック表現
Low-density parity-check representation of fault-tolerant quantum circuits ( http://arxiv.org/abs/2403.10268v1 ) ライセンス: Link先を確認 | Ying Li, | (参考訳) フォールトトレラント量子コンピューティングでは、量子アルゴリズムは誤り訂正が可能な量子回路によって実装される。
これらの回路は通常、基礎となる物理プラットフォームの特性を考慮して、特定の量子誤り訂正符号に基づいて構築される。
これらの回路を今日の量子コンピューティング技術の制約(特にエラー率、量子ビット数、ネットワークトポロジー)の中で最適化することは、近い将来の量子アプリケーションの実現可能性に重大な影響を与える。
本稿では,フォールトトレラント量子回路の設計と解析を行うツールキットを提案する。
古典的低密度パリティチェック(LDPC)符号を用いて安定化回路を表現するためのフレームワークを提案する。
表現中の各コードワードは回路に関する量子力学方程式に対応し、パリティチェックで使用される相関関係を定式化し、回路内の論理演算を記述する。
その結果、LDPCコードはフォールトトレランスを定量化し、論理演算を検証する手段を提供する。
本稿では,従来のLDPC符号からフォールトトレラント量子回路を構築するためのグラフ理論ツールの提案とともに,タナーグラフ記法を用いて回路からLDPC符号を生成する手順について概説する。
これらの知見は,既存のフォールトトレラントプロトコルを最適化し,新しいプロトコルを開発する上で,古典的誤り訂正手法を適用するための体系的なアプローチを提供する。
In fault-tolerant quantum computing, quantum algorithms are implemented through quantum circuits capable of error correction. These circuits are typically constructed based on specific quantum error correction codes, with consideration given to the characteristics of the underlying physical platforms. Optimising these circuits within the constraints of today's quantum computing technologies, particularly in terms of error rates, qubit counts, and network topologies, holds substantial implications for the feasibility of quantum applications in the near future. This paper presents a toolkit for designing and analysing fault-tolerant quantum circuits. We introduce a framework for representing stabiliser circuits using classical low-density parity-check (LDPC) codes. Each codeword in the representation corresponds to a quantum-mechanical equation regarding the circuit, formalising the correlations utilised in parity checks and delineating logical operations within the circuit. Consequently, the LDPC code provides a means of quantifying fault tolerance and verifying logical operations. We outline the procedure for generating LDPC codes from circuits using the Tanner graph notation, alongside proposing graph-theory tools for constructing fault-tolerant quantum circuits from classical LDPC codes. These findings offer a systematic approach to applying classical error correction techniques in optimising existing fault-tolerant protocols and developing new ones. | 翻訳日:2024-03-18 17:11:11 公開日:2024-03-15 |
# ゲームにおける調査要素の分析のための概念モデル
A Conceptual Model for the Analysis of Investigation Elements in Games ( http://arxiv.org/abs/2403.10272v1 ) ライセンス: Link先を確認 | Pedro Marques, Marcus Parreiras, Joshua Kritz, Geraldo Xexeo, | (参考訳) 本稿では,ゲームデザインの観点から,調査ゲームを形式的に解析する4E概念モデルを提案する。
このモデルは、探索、引用、実験、評価の4つのコンポーネントを含んでいる。
基底理論はモデル構築の方法論として用いられ、基礎となる概念の深い理解を可能にした。
結果として得られたモデルは既存の文献と比較され、その貢献は徹底的に議論された。
全体として、4Eモデルは、調査ゲーム要素を理解するための包括的なフレームワークを提供する。
実世界の2つのシナリオに適用すると、その実践的妥当性が示される。
This paper presents the 4E conceptual model, developed to formally analyze investigation games from a game design perspective. The model encompasses four components: Exploration, Elicitation, Experimentation, and Evaluation. Grounded Theory was employed as the methodology for constructing the model, allowing for an in-depth understanding of the underlying concepts. The resulting model was then compared to existing literature, and its contributions were thoroughly discussed. Overall, the 4E model presents a comprehensive framework for understanding investigation games elements. It's application in two real-world scenarios demonstrates its practical relevance. | 翻訳日:2024-03-18 17:11:11 公開日:2024-03-15 |
# 大規模言語モデルの説明可能性と単語レベル一階定性推定に関する一考察
A Question on the Explainability of Large Language Models and the Word-Level Univariate First-Order Plausibility Assumption ( http://arxiv.org/abs/2403.10275v1 ) ライセンス: Link先を確認 | Jeremie Bogaert, Francois-Xavier Standaert, | (参考訳) 大規模言語モデルの説明は、最近、トレーニングに使用されるランダム性に敏感であることが示され、この感度を特徴づける必要性が生じた。
本稿では,そのようなモデルに対して,シンプルかつ情報的な説明を提供する可能性に疑問を呈するキャラクタリゼーションを提案する。
この目的のために、説明者の信号、雑音、信号対雑音比について統計的に定義する。
単語レベルの一変量説明を一階統計ツールで分析する典型的なケーススタディにおいて、単純な特徴ベースモデルの説明はトランスフォーマーモデルよりも信号が多く、ノイズも少ない。
次に、より複雑な説明や分析手法を捉えた信号と雑音の代替定義を用いて、これらの結果を改善する可能性について論じるとともに、読者に対するその可能性とのトレードオフを疑問視する。
The explanations of large language models have recently been shown to be sensitive to the randomness used for their training, creating a need to characterize this sensitivity. In this paper, we propose a characterization that questions the possibility to provide simple and informative explanations for such models. To this end, we give statistical definitions for the explanations' signal, noise and signal-to-noise ratio. We highlight that, in a typical case study where word-level univariate explanations are analyzed with first-order statistical tools, the explanations of simple feature-based models carry more signal and less noise than those of transformer ones. We then discuss the possibility to improve these results with alternative definitions of signal and noise that would capture more complex explanations and analysis methods, while also questioning the tradeoff with their plausibility for readers. | 翻訳日:2024-03-18 17:11:11 公開日:2024-03-15 |
# 個人移動行動における失業の長期的・異質な影響
The long-term and disparate impact of job loss on individual mobility behaviour ( http://arxiv.org/abs/2403.10276v1 ) ライセンス: Link先を確認 | Simone Centellegher, Marco De Nadai, Marco Tonin, Bruno Lepri, Lorenzo Lucchini, | (参考訳) 今日の相互接続型モビリティ、ユビキタスな社会的相互作用、迅速な情報伝達の世界では、個人が迅速に行動に適応する必要性が劇的に高まっている。
タイムリーな意思決定は、時間的に解決された匿名化された個人データを使用して、速いペースの行動変化に対処する必要があるため、新たな課題に直面します。
この問題に対処するために,モバイル端末からのプライバシー強化GPSデータと国勢調査情報を利用して個人雇用状況の経時的推定を行う汎用フレームワークを提案する。
雇用者および失業者の移動パターンを分析することで、訪問地における収縮と失業者の探索行動の全般的な低下を示す2つのグループ間の行動に有意な差が見られた。
注目すべきは、これらの違いは、失業以来の時間とともに、特により脆弱な人口集団の個人に影響を及ぼす。
これらの知見は、長期的苦痛に直面する可能性のある失業者の早期監視の重要性を浮き彫りにした。
総じて、雇用関連行動のダイナミクスに光を当て、失業者や脆弱な人口を支えるため、タイムリーな介入を行うことの重要性を強調した。
In today's interconnected world of widespread mobility, ubiquitous social interaction, and rapid information dissemination, the demand for individuals to swiftly adapt their behaviors has increased dramatically. Timely decision-making faces new challenges due to the necessity of using finely temporal-resolved anonymised individual data to keep up with fast-paced behavioural changes. To tackle this issue, we propose a general framework that leverages privacy-enhanced GPS data from mobile devices alongside census information to infer the employment status of individuals over time. By analysing the mobility patterns of employed and unemployed individuals, we unveil significant differences in behaviours between the two groups, showing a contraction in visited locations and a general decline in the exploratory behaviour of unemployed individuals. Remarkably, these differences intensify over time since job loss, particularly affecting individuals from more vulnerable demographic groups. These findings highlight the importance of early monitoring of unemployed individuals who may face enduring levels of distress. Overall, our findings shed light on the dynamics of employment-related behaviour, emphasizing the importance of implementing timely interventions to support the unemployed and vulnerable populations. | 翻訳日:2024-03-18 17:11:11 公開日:2024-03-15 |
# 感情認識型マルチモーダルフュージョンによる感情検出
Emotion-Aware Multimodal Fusion for Meme Emotion Detection ( http://arxiv.org/abs/2403.10279v1 ) ライセンス: Link先を確認 | Shivam Sharma, Ramaneswaran S, Md. Shad Akhtar, Tanmoy Chakraborty, | (参考訳) 絶え間なく進化するソーシャルメディアの談話は、意見や不満を表現するためにミームの圧倒的な使用を目撃している。
悪口を広めるために悪用されているだけでなく、企業や政党が大衆の意見を集めるために採掘している。
したがって、ミームは、主に社会的精神の把握に対する感情に富んだ洞察を与える。
しかし、現在のアプローチはまだミームで表される感情的な次元を効果的にモデル化していない。
それらは事前学習のために大規模なマルチモーダルデータセットに大きく依存しており、制約のある視覚言語的接地のためにうまく一般化しない。
本稿では,6つの基本的な感情を具現化したMOOD(Meme emOtiOns Dataset)を紹介する。
次に、新しいマルチモーダルニューラルネットワークであるALFRED(emotion-Aware muLtimodal Fusion foR Emotion Detection)を提案する。
(i)感情に富んだ視覚的手がかりを明示的にモデル化し、
(ii) ゲーティング機構を介して効率的なクロスモーダル融合を用いる。
調査の結果,ALFREDの既存ベースラインに対する優位性は4.94%向上した。
さらに、ALFREDは、挑戦的なMemotionタスクに関する以前のベストアプローチと強く競合する。
次に、ALFREDが最近リリースした2つのデータセット(HarMemeとDank Memes)に対して、他のベースラインに対して優位性を示すことによって、ドメインに依存しない一般化性について論じる。
さらに,アテンションマップを用いたALFREDの解釈可能性の解析を行った。
最後に,異なるモダリティ特化課題の複雑な相互作用によって引き起こされる課題を,ミーム分析に焦点をあてる。
The ever-evolving social media discourse has witnessed an overwhelming use of memes to express opinions or dissent. Besides being misused for spreading malcontent, they are mined by corporations and political parties to glean the public's opinion. Therefore, memes predominantly offer affect-enriched insights towards ascertaining the societal psyche. However, the current approaches are yet to model the affective dimensions expressed in memes effectively. They rely extensively on large multimodal datasets for pre-training and do not generalize well due to constrained visual-linguistic grounding. In this paper, we introduce MOOD (Meme emOtiOns Dataset), which embodies six basic emotions. We then present ALFRED (emotion-Aware muLtimodal Fusion foR Emotion Detection), a novel multimodal neural framework that (i) explicitly models emotion-enriched visual cues, and (ii) employs an efficient cross-modal fusion via a gating mechanism. Our investigation establishes ALFRED's superiority over existing baselines by 4.94% F1. Additionally, ALFRED competes strongly with previous best approaches on the challenging Memotion task. We then discuss ALFRED's domain-agnostic generalizability by demonstrating its dominance on two recently-released datasets - HarMeme and Dank Memes, over other baselines. Further, we analyze ALFRED's interpretability using attention maps. Finally, we highlight the inherent challenges posed by the complex interplay of disparate modality-specific cues toward meme analysis. | 翻訳日:2024-03-18 17:11:11 公開日:2024-03-15 |
# Factify5WQAでのチームトリフェクタ - ファクト検証の標準設定と微調整
Team Trifecta at Factify5WQA: Setting the Standard in Fact Verification with Fine-Tuning ( http://arxiv.org/abs/2403.10281v1 ) ライセンス: Link先を確認 | Shang-Hsuan Chiang, Ming-Chih Lo, Lin-Wei Chao, Wen-Chih Peng, | (参考訳) 本稿では,事実検証のための質問回答とテキスト分類コンポーネントからなる包括的フレームワークであるPre-CoFactv3を提案する。
In-Context Learning, Fine-tuned Large Language Models (LLMs), and the FakeNet modelを活用することで,事実検証の課題に対処する。
実験では,事前学習型LLMの比較,FakeNetの導入,各種アンサンブル手法の実装など,多様なアプローチについて検討した。
特に、私たちのチームであるTrifectaは、AAAI-24 Factify 3.0 Workshopで第1位を獲得し、ベースラインの精度を103%上回り、第2の競争相手よりも70%リードを維持しました。
この成功は、我々のアプローチの有効性と、事実検証研究の進展への潜在的貢献を裏付けるものである。
In this paper, we present Pre-CoFactv3, a comprehensive framework comprised of Question Answering and Text Classification components for fact verification. Leveraging In-Context Learning, Fine-tuned Large Language Models (LLMs), and the FakeNet model, we address the challenges of fact verification. Our experiments explore diverse approaches, comparing different Pre-trained LLMs, introducing FakeNet, and implementing various ensemble methods. Notably, our team, Trifecta, secured first place in the AAAI-24 Factify 3.0 Workshop, surpassing the baseline accuracy by 103% and maintaining a 70% lead over the second competitor. This success underscores the efficacy of our approach and its potential contributions to advancing fact verification research. | 翻訳日:2024-03-18 17:11:11 公開日:2024-03-15 |
# データと実行時効率の高い階層的位置認識パイプラインのための局所的位置グラフと注意的局所的特徴
Local positional graphs and attentive local features for a data and runtime-efficient hierarchical place recognition pipeline ( http://arxiv.org/abs/2403.10283v1 ) ライセンス: Link先を確認 | Fangming Yuan, Stefan Schubert, Peter Protzel, Peer Neubert, | (参考訳) 視覚的位置認識(VPR)の大規模応用には、計算効率のよいアプローチが必要である。
さらに、データベースとトレーニング不要なアプローチのバランスの取れた組み合わせは、必要なトレーニングデータと労力を削減し、トレーニングとアプリケーションフェーズ間の分散シフトの影響を低減することができる。
本稿では,既存のアプローチを拡張し,新しいアイデアを提示する,ランタイムとデータ効率のよい階層型VPRパイプラインを提案する。
まず、ローカル画像の特徴の空間的コンテキスト情報をエンコードするためのトレーニング不要で実行効率のよいアプローチであるローカル位置グラフ(LPG)を提案する。
LPGを既存の局所特徴検出器とディスクリプタと組み合わせることで、既存の実験技術と比較して画像マッチングの品質が大幅に向上する。
第2に,Attentive Local SPED (ATLAS) について述べる。Attentive Local SPED (ATLAS) は,データ効率を高く保ちながら,特徴品質を向上するアテンションモジュールを備えた,これまでのローカル機能アプローチの拡張である。
提案法の影響を広範囲にわたるアブレーション研究で評価した。
第3に,超次元計算を利用した階層型パイプラインを提案し,高速な候補選択と候補再評価のために,全体的HDC記述子と同じ局所的特徴を利用する。
ランタイムとデータ効率のよいVPRパイプラインにおけるすべてのコントリビューションを組み合わせて、最先端の手法であるPatch-NetVLADを、VPRの精度が15$$\%、機能比較速度が54$\times$高速、55$\times$低ディスクリプタストレージ占有率といった、標準的な場所認識データセットの大規模なコレクションに対してメリットを示します。
コードは、この論文の公開とともに公開されます。
Large-scale applications of Visual Place Recognition (VPR) require computationally efficient approaches. Further, a well-balanced combination of data-based and training-free approaches can decrease the required amount of training data and effort and can reduce the influence of distribution shifts between the training and application phases. This paper proposes a runtime and data-efficient hierarchical VPR pipeline that extends existing approaches and presents novel ideas. There are three main contributions: First, we propose Local Positional Graphs (LPG), a training-free and runtime-efficient approach to encode spatial context information of local image features. LPG can be combined with existing local feature detectors and descriptors and considerably improves the image-matching quality compared to existing techniques in our experiments. Second, we present Attentive Local SPED (ATLAS), an extension of our previous local features approach with an attention module that improves the feature quality while maintaining high data efficiency. The influence of the proposed modifications is evaluated in an extensive ablation study. Third, we present a hierarchical pipeline that exploits hyperdimensional computing to use the same local features as holistic HDC-descriptors for fast candidate selection and for candidate reranking. We combine all contributions in a runtime and data-efficient VPR pipeline that shows benefits over the state-of-the-art method Patch-NetVLAD on a large collection of standard place recognition datasets with 15$\%$ better performance in VPR accuracy, 54$\times$ faster feature comparison speed, and 55$\times$ less descriptor storage occupancy, making our method promising for real-world high-performance large-scale VPR in changing environments. Code will be made available with publication of this paper. | 翻訳日:2024-03-18 17:11:11 公開日:2024-03-15 |
# 視覚言語モデルを用いた視覚質問応答における画像分類とセグメンテーション
Few-Shot Image Classification and Segmentation as Visual Question Answering Using Vision-Language Models ( http://arxiv.org/abs/2403.10287v1 ) ライセンス: Link先を確認 | Tian Meng, Yang Tao, Ruilin Lyu, Wuliang Yin, | (参考訳) 少数ショット画像分類とセグメンテーション(FS-CS)のタスクは、ターゲットクラスのいくつかの例を考慮すれば、クエリイメージ内のターゲットオブジェクトの分類とセグメンテーションである。
FS-CS問題を視覚質問応答(VQA)問題に変換し,視覚言語モデル(VLM)を活用するVISE法を導入する。
VLMを市販の視覚モデルと対話可能なツールとして利用することにより,画像レベルラベルのみを用いて対象オブジェクトの分類とセグメンテーションを行うことができる。
具体的には、チェーン・オブ・シンセサイティングとイン・コンテクスト・ラーニングは、VLMが人間のような複数の選択の質問に答えるよう誘導する。
提案手法のモジュラー・フレームワークは容易に拡張可能である。
提案手法は,Pascal-5iおよびCOCO-20iデータセットの最先端性能を実現する。
The task of few-shot image classification and segmentation (FS-CS) involves classifying and segmenting target objects in a query image, given only a few examples of the target classes. We introduce the Vision-Instructed Segmentation and Evaluation (VISE) method that transforms the FS-CS problem into the Visual Question Answering (VQA) problem, utilising Vision-Language Models (VLMs), and addresses it in a training-free manner. By enabling a VLM to interact with off-the-shelf vision models as tools, the proposed method is capable of classifying and segmenting target objects using only image-level labels. Specifically, chain-of-thought prompting and in-context learning guide the VLM to answer multiple-choice questions like a human; vision models such as YOLO and Segment Anything Model (SAM) assist the VLM in completing the task. The modular framework of the proposed method makes it easily extendable. Our approach achieves state-of-the-art performance on the Pascal-5i and COCO-20i datasets. | 翻訳日:2024-03-18 17:01:25 公開日:2024-03-15 |
# 連続かつ効率的な時系列モデリングのための粗変換器
Rough Transformers for Continuous and Efficient Time-Series Modelling ( http://arxiv.org/abs/2403.10288v1 ) ライセンス: Link先を確認 | Fernando Moreno-Pino, Álvaro Arroyo, Harrison Waldon, Xiaowen Dong, Álvaro Cartea, | (参考訳) 実世界の医療環境における時系列データは、典型的には長距離依存を示し、一様でない間隔で観察される。
このような文脈では、伝統的なシーケンスベースのリカレントモデルが苦戦する。
これを解決するために、研究者はリカレントアーキテクチャをNeural ODEベースのモデルに置き換え、不規則にサンプリングされたデータをモデル化し、Transformerベースのアーキテクチャを使用して長距離依存関係を考慮している。
これら2つのアプローチの成功にもかかわらず、どちらも適度な長さの入力シーケンスに対して非常に高い計算コストを発生させる。
これを軽減するために,入力シーケンスの連続的な表現を演算し,計算コストを大幅に削減する変換器モデルのバリエーションであるRough Transformerを導入する。
特に,経路シグネチャを用いてバニラアテンションを増大させ,入力データ中の局所的およびグローバル的依存関係を捕捉し,シーケンス長やサンプリング頻度の変化に頑健なままに維持する多視点シグネチャアテンションアテンションを提案する。
Rough Transformersは、合成および実世界の時系列タスクにおいて、計算時間とメモリリソースの一部を使用しながら、Neural ODEベースのモデルの利点を享受しながら、バニラの注意点を一貫して上回ります。
Time-series data in real-world medical settings typically exhibit long-range dependencies and are observed at non-uniform intervals. In such contexts, traditional sequence-based recurrent models struggle. To overcome this, researchers replace recurrent architectures with Neural ODE-based models to model irregularly sampled data and use Transformer-based architectures to account for long-range dependencies. Despite the success of these two approaches, both incur very high computational costs for input sequences of moderate lengths and greater. To mitigate this, we introduce the Rough Transformer, a variation of the Transformer model which operates on continuous-time representations of input sequences and incurs significantly reduced computational costs, critical for addressing long-range dependencies common in medical contexts. In particular, we propose multi-view signature attention, which uses path signatures to augment vanilla attention and to capture both local and global dependencies in input data, while remaining robust to changes in the sequence length and sampling frequency. We find that Rough Transformers consistently outperform their vanilla attention counterparts while obtaining the benefits of Neural ODE-based models using a fraction of the computational time and memory resources on synthetic and real-world time-series tasks. | 翻訳日:2024-03-18 17:01:25 公開日:2024-03-15 |
# バーチャル患者に検証された局所ひずみに基づく多層心筋スカーの深層検出と局所化のための深層学習
Deep Learning for Multi-Level Detection and Localization of Myocardial Scars Based on Regional Strain Validated on Virtual Patients ( http://arxiv.org/abs/2403.10291v1 ) ライセンス: Link先を確認 | Müjde Akdeniz, Claudia Alessandra Manetti, Tijmen Koopsen, Hani Nozari Mirar, Sten Roar Snare, Svein Arne Aase, Joost Lumens, Jurica Šprem, Kristin Sarah McLeod, | (参考訳) 心臓がどれだけ機能しているかは、心エコー法による心筋の変形の測定によって定量化できる。
心臓機能の臨床的評価は、一般的に、相対的短縮のグローバルな指標に焦点を当てているが、領域的および分節的歪みの指標は、傷跡などの心筋疾患の領域で異常であることが示されている。
本研究では、畳み込みニューラルネットワーク(CNN)に基づく分類アルゴリズムの入力として、局所心筋ひずみトレースを用いて、大域、領域、セグメントレベルの心筋疾患の基質を予測するための単一の枠組みを提案する。
臨床標準のブルゼイ表現から多チャンネル2D画像への入力データの解剖学的意味のある表現を提案し、そのタスクを画像分類問題として定式化し、最先端のニューラルネットワーク構成の使用を可能にする。
The Fully Convolutional Network (FCN) is trained to detect and localization myocardial scar from Regional left Venentricular (LV) strain pattern。
心不全の程度や位置の異なる仮想患者の制御されたデータセットから得られた局所ひずみデータをトレーニングと検証に利用した。
提案法は, ストレッチトレースのみを用いて, 305症例の左心室(LV)部分5490例の98%の傷痕を正常に検出し, 局所化する。
傷痕が不足しているため、バーチャル患者コホート内のLVセグメントの10%しか傷を負わない。
不均衡を考慮すると、クラスバランスの正確さは95%と計算される。
パフォーマンスは、グローバル、テリトリー、セグメントレベルで報告されている。
提案手法は, 仮想コホートのストレイントレースに成功し, リアル患者コホートのストレイントレースにおける局所心筋傷検出問題の解決の可能性を提供する。
How well the heart is functioning can be quantified through measurements of myocardial deformation via echocardiography. Clinical assessment of cardiac function is generally focused on global indices of relative shortening, however, territorial, and segmental strain indices have shown to be abnormal in regions of myocardial disease, such as scar. In this work, we propose a single framework to predict myocardial disease substrates at global, territorial, and segmental levels using regional myocardial strain traces as input to a convolutional neural network (CNN)-based classification algorithm. An anatomically meaningful representation of the input data from the clinically standard bullseye representation to a multi-channel 2D image is proposed, to formulate the task as an image classification problem, thus enabling the use of state-of-the-art neural network configurations. A Fully Convolutional Network (FCN) is trained to detect and localize myocardial scar from regional left ventricular (LV) strain patterns. Simulated regional strain data from a controlled dataset of virtual patients with varying degrees and locations of myocardial scar is used for training and validation. The proposed method successfully detects and localizes the scars on 98% of the 5490 left ventricle (LV) segments of the 305 patients in the test set using strain traces only. Due to the sparse existence of scar, only 10% of the LV segments in the virtual patient cohort have scar. Taking the imbalance into account, the class balanced accuracy is calculated as 95%. The performance is reported on global, territorial, and segmental levels. The proposed method proves successful on the strain traces of the virtual cohort and offers the potential to solve the regional myocardial scar detection problem on the strain traces of the real patient cohorts. | 翻訳日:2024-03-18 17:01:25 公開日:2024-03-15 |
# MaiBaam: バイエルン・ユニバーサル依存ツリーバンク
MaiBaam: A Multi-Dialectal Bavarian Universal Dependency Treebank ( http://arxiv.org/abs/2403.10293v1 ) ライセンス: Link先を確認 | Verena Blaschke, Barbara Kovačić, Siyao Peng, Hinrich Schütze, Barbara Plank, | (参考訳) Universal Dependencies (UD) プロジェクトの成功は、その印象的な言語幅によって実証されているが、それでも 'within-Language breadth' は不足している。
ドイツ語でも、UDに最も注釈が付けられた言語は、これまでに1000万人以上の人々が話していた言語のひとつ、バイエルン語には、ツリーバンクは存在しない。
このギャップの解消に寄与するため,我々は,複数のテキストジャンル(wiki, フィクション, 文法例, 社会, ノンフィクション)を網羅したバイエルン語ツリーバンク(MaiBaam)をUDで手動で注釈付けした最初の多言語木バンク(MaiBaam)を提案する。
我々は、近縁なバイエルン語とドイツ語のモルフォシンタクティックな相違を強調し、話者の正書法の豊富な多様性を示す。
私たちのコーパスには15kのトークンが含まれており、3つの国にまたがるバイエルン語を話すすべての地域の方言をカバーしています。
ベースライン解析とPOSタグ付けの結果は、ドイツ語で得られた結果よりも低く、グラフベースのパーサによって大きく異なる。
バイエルン語構文のさらなる研究を支援するため、データセット、言語固有のガイドライン、コードを公開しています。
Despite the success of the Universal Dependencies (UD) project exemplified by its impressive language breadth, there is still a lack in `within-language breadth': most treebanks focus on standard languages. Even for German, the language with the most annotations in UD, so far no treebank exists for one of its language varieties spoken by over 10M people: Bavarian. To contribute to closing this gap, we present the first multi-dialect Bavarian treebank (MaiBaam) manually annotated with part-of-speech and syntactic dependency information in UD, covering multiple text genres (wiki, fiction, grammar examples, social, non-fiction). We highlight the morphosyntactic differences between the closely-related Bavarian and German and showcase the rich variability of speakers' orthographies. Our corpus includes 15k tokens, covering dialects from all Bavarian-speaking areas spanning three countries. We provide baseline parsing and POS tagging results, which are lower than results obtained on German and vary substantially between different graph-based parsers. To support further research on Bavarian syntax, we make our dataset, language-specific guidelines and code publicly available. | 翻訳日:2024-03-18 17:01:25 公開日:2024-03-15 |
# 改良された参照フレーム非依存量子鍵分布の175kmでの実証実験
Experimental demonstration of improved reference-frame-independent quantum key distribution over 175km ( http://arxiv.org/abs/2403.10294v1 ) ライセンス: Link先を確認 | Zhiyu Tian, Ziran Xie, Rong Wang, Chunmei Zhang, Shihai Sun, | (参考訳) 参照フレーム非依存(RFI)量子鍵分布(QKD)は、特にモバイルプラットフォームベースの実装において、アクティブな参照フレームキャリブレーションの必要性を排除し、有望な利点を示す。
RFI-QKDは様々な研究で研究されているが、鍵レートと距離の制限は有限データ収集によって持続している。
本研究では,Zhu \textit{et al } [Opt. Lett. 47, 4219 (2022)]によって提案された改良されたRFI-QKDプロトコルを実験的に実証した。
RFI-QKDは、有限サイズの考慮と潜在的汎用攻撃を考慮して、175 {\displaystyle \si{\kilo\meter} の範囲で実装される。
本研究は,RFI-QKDにより達成可能な通信距離を延長し,その実用化に顕著な進展をもたらすと考えている。
Reference-frame-independent (RFI) quantum key distribution (QKD) presents promising advantages, especially for mobile-platform-based implementations, as it eliminates the need for active reference frame calibration. While RFI-QKD has been explored in various studies, limitations in key rate and distance persist due to finite data collection. In this study, we experimentally demonstrate an improved RFI-QKD protocol proposed by Zhu \textit{et al.} [Opt. Lett. 47, 4219 (2022)], featuring a statistical quantity for bounding information leaked to Eve that exhibits more insensitivity to statistical fluctuations and more robustness to variations in the reference frame. Taking into account finite-size considerations and potential general attacks, RFI-QKD is implemented over a distance of 175 \si{\kilo\meter} in this work. We believe that our study extends the communication distance achievable by RFI-QKD, thereby constituting a notable advancement for its practical application. | 翻訳日:2024-03-18 17:01:25 公開日:2024-03-15 |
# AMD SEV-SNPソフトウェアインタフェースの形式的セキュリティ解析
Formal Security Analysis of the AMD SEV-SNP Software Interface ( http://arxiv.org/abs/2403.10296v1 ) ライセンス: Link先を確認 | Petar Paradžik, Ante Derek, Marko Horvat, | (参考訳) AMD Secure Encrypted Virtualization技術は、仮想マシンをハイパーバイザのような特権の高いソフトウェアから保護することによって、機密計算を可能にする。
本研究では,SEV Secure Nested Paging (SEV-SNP) と呼ばれる,最新のSEVイテレーションにおけるソフトウェアインターフェースの最初の包括的シンボリックモデルを開発する。
我々のモデルは、リモート証明、キー導出、ページスワップ、ライブマイグレーションをカバーしています。
我々は,SEV-SNPのソフトウェアインタフェースのセキュリティを重要機密性,認証,証明,鮮度特性の検証により解析し,SNPゲストとAMDセキュアプロセッサのファームウェア間で交換されるメッセージのプラットフォームに依存しない性質が,設計の弱点を示すことを発見した。
検証レポートの整合性の妥協など、この弱点を悪用する複数の方法を示し、サードパーティが脆弱なプラットフォームへのゲストマイグレーションを検出する設計に少し修正を加えることを提案している。
AMD Secure Encrypted Virtualization technologies enable confidential computing by protecting virtual machines from highly privileged software such as hypervisors. In this work, we develop the first, comprehensive symbolic model of the software interface of the latest SEV iteration called SEV Secure Nested Paging (SEV-SNP). Our model covers remote attestation, key derivation, page swap and live migration. We analyze the security of the software interface of SEV-SNP by verifying critical secrecy, authentication, attestation and freshness properties, and find that the platform-agnostic nature of messages exchanged between SNP guests and the AMD Secure Processor firmware presents a weakness of the design. We show multiple ways of exploiting this weakness, including the compromise of attestation report integrity, and suggest slight modifications to the design which let third parties detect guest migrations to vulnerable platforms | 翻訳日:2024-03-18 17:01:25 公開日:2024-03-15 |
# キーポイント協調回帰のための記述子合成におけるニューラルラジアンスフィールドの活用
Leveraging Neural Radiance Field in Descriptor Synthesis for Keypoints Scene Coordinate Regression ( http://arxiv.org/abs/2403.10297v1 ) ライセンス: Link先を確認 | Huy-Hoang Bui, Bach-Thuan Bui, Dinh-Tuan Tran, Joo-Ho Lee, | (参考訳) 古典的な構造に基づく視覚的ローカライゼーション手法は、高い精度を提供するが、ストレージ、スピード、プライバシの点でトレードオフに直面している。
最近のイノベーションであるキーポイントシーン座標回帰(KSCR)は、グラフアテンションネットワークを活用してキーポイント関係を強化し、単純な多層パーセプトロン(MLP)を用いてそれらの3D座標を予測することで、これらの問題に対処している。
カメラのポーズはPnP+RANSACで決定され、2D-3D対応が確立された。
KSCRは、複数のベンチマークでHLOCのような最先端の画像検索手法と競合する競合するが、ディープラーニングモデルが広範なデータに依存しているため、データサンプルが制限されている場合、そのパフォーマンスは妨げられる。
本稿では,Neural Radiance Field (NeRF) を用いたキーポイント記述子合成のためのパイプラインを提案する。
新たなポーズを生成し,訓練されたNeRFモデルに入力することで,新しいビューを生成することにより,データスカース環境におけるKSCRの一般化能力を向上する。
提案システムでは,最大50%の局所化精度が向上し,データ合成に要するコストはごくわずかであった。
さらに、モジュラー設計は複数のNeRFの統合を可能にし、視覚的ローカライゼーションのための汎用的で効率的なソリューションを提供する。
実装は、https://github.com/ais-lab/DescriptorSynthesis4Feat2Mapで公開されている。
Classical structural-based visual localization methods offer high accuracy but face trade-offs in terms of storage, speed, and privacy. A recent innovation, keypoint scene coordinate regression (KSCR) named D2S addresses these issues by leveraging graph attention networks to enhance keypoint relationships and predict their 3D coordinates using a simple multilayer perceptron (MLP). Camera pose is then determined via PnP+RANSAC, using established 2D-3D correspondences. While KSCR achieves competitive results, rivaling state-of-the-art image-retrieval methods like HLoc across multiple benchmarks, its performance is hindered when data samples are limited due to the deep learning model's reliance on extensive data. This paper proposes a solution to this challenge by introducing a pipeline for keypoint descriptor synthesis using Neural Radiance Field (NeRF). By generating novel poses and feeding them into a trained NeRF model to create new views, our approach enhances the KSCR's generalization capabilities in data-scarce environments. The proposed system could significantly improve localization accuracy by up to 50\% and cost only a fraction of time for data synthesis. Furthermore, its modular design allows for the integration of multiple NeRFs, offering a versatile and efficient solution for visual localization. The implementation is publicly available at: https://github.com/ais-lab/DescriptorSynthesis4Feat2Map. | 翻訳日:2024-03-18 17:01:25 公開日:2024-03-15 |
# 微粒化視覚分類のための文脈意味品質認識ネットワーク
Context-Semantic Quality Awareness Network for Fine-Grained Visual Categorization ( http://arxiv.org/abs/2403.10298v1 ) ライセンス: Link先を確認 | Qin Xu, Sitong Li, Jiahui Wang, Bo Jiang, Jinhui Tang, | (参考訳) 類似した外観を持つサブカテゴリ間の微妙な特徴の探索とマイニングは、きめ細かい視覚分類(FGVC)に不可欠である。
しかし、抽出された視覚的表現の質を評価する努力は少ない。
直感的には、ネットワークは低品質のサンプルから差別的特徴を捉えるのに苦労する可能性があるため、FGVCの性能は著しく低下する。
この課題に対処するために、FGVCのための弱教師付きコンテキスト意味品質意識ネットワーク(CSQA-Net)を提案する。
このネットワークでは、リッチな部分記述子とグローバルな意味論の空間的関係をモデル化し、オブジェクト内のより識別的な詳細を捉えるために、新しいマルチパート・マルチスケール・クロスアテンション(MPMSCA)モジュールを設計する。
MPMSCAモジュールに給餌する前に、この部分ナビゲータを開発し、スケール混乱問題に対処し、局所的な特徴領域を正確に識別する。
さらに、バックボーンネットワークの異なるレベルから階層的セマンティクスを段階的に監視し、拡張する汎用的マルチレベルセマンティクス評価モジュール(MLSQE)を提案する。
最後に、MPMSCAのコンテキスト認識機能とMLSQEのセマンティック強化機能とを対応する品質検証分類器に入力し、その品質をリアルタイムで評価することにより、特徴表現の識別性を高める。
4つの人気かつ高い競争力を持つFGVCデータセットに関する総合的な実験は、提案したCSQA-Netが最先端の手法と比較して優れていることを示す。
Exploring and mining subtle yet distinctive features between sub-categories with similar appearances is crucial for fine-grained visual categorization (FGVC). However, less effort has been devoted to assessing the quality of extracted visual representations. Intuitively, the network may struggle to capture discriminative features from low-quality samples, which leads to a significant decline in FGVC performance. To tackle this challenge, we propose a weakly supervised Context-Semantic Quality Awareness Network (CSQA-Net) for FGVC. In this network, to model the spatial contextual relationship between rich part descriptors and global semantics for capturing more discriminative details within the object, we design a novel multi-part and multi-scale cross-attention (MPMSCA) module. Before feeding to the MPMSCA module, the part navigator is developed to address the scale confusion problems and accurately identify the local distinctive regions. Furthermore, we propose a generic multi-level semantic quality evaluation module (MLSQE) to progressively supervise and enhance hierarchical semantics from different levels of the backbone network. Finally, context-aware features from MPMSCA and semantically enhanced features from MLSQE are fed into the corresponding quality probing classifiers to evaluate their quality in real-time, thus boosting the discriminability of feature representations. Comprehensive experiments on four popular and highly competitive FGVC datasets demonstrate the superiority of the proposed CSQA-Net in comparison with the state-of-the-art methods. | 翻訳日:2024-03-18 17:01:25 公開日:2024-03-15 |
# IoT環境における緊急救助のための多制約多目的配置モデル
A Multi-constraint and Multi-objective Allocation Model for Emergency Rescue in IoT Environment ( http://arxiv.org/abs/2403.10299v1 ) ライセンス: Link先を確認 | Xinrun Xu, Zhanbiao Lian, Yurong Wu, Manying Lv, Zhiming Ding, Jian Yan, Shang Jiang, | (参考訳) 災害後の緊急救助活動は、負の影響を最小限に抑え、利益を最大化するために、効果的な資源配分を必要とする。
長期にわたる危機や大規模な災害では、タイムリーかつインフォームドな意思決定のために、システマティックで多サイクルなアプローチが鍵となる。
IoTと時空間データ分析の進歩を活用して、Multi-Objective Shuffled Gray-Wolf Frog Leaping Model (MSGW-FLM)を開発した。
この多制約・多目的資源割り当てモデルは,NSGA-II, IBEA, MOEA/Dなどの確立したモデルと比較して,28の課題に対して厳格に検証されている。
MSGW-FLMの有効性は、多くの制約や目的を含む複雑な多サイクル緊急救助シナリオにおいて特に顕著である。
このモデルは、緊急対応状況における資源分布の最適化における重要な一歩である。
Emergency relief operations are essential in disaster aftermaths, necessitating effective resource allocation to minimize negative impacts and maximize benefits. In prolonged crises or extensive disasters, a systematic, multi-cycle approach is key for timely and informed decision-making. Leveraging advancements in IoT and spatio-temporal data analytics, we've developed the Multi-Objective Shuffled Gray-Wolf Frog Leaping Model (MSGW-FLM). This multi-constraint, multi-objective resource allocation model has been rigorously tested against 28 diverse challenges, showing superior performance in comparison to established models such as NSGA-II, IBEA, and MOEA/D. MSGW-FLM's effectiveness is particularly notable in complex, multi-cycle emergency rescue scenarios, which involve numerous constraints and objectives. This model represents a significant step forward in optimizing resource distribution in emergency response situations. | 翻訳日:2024-03-18 17:01:25 公開日:2024-03-15 |
# Uni-SMART:Universal Science Multimodal Analysis and Research Transformer
Uni-SMART: Universal Science Multimodal Analysis and Research Transformer ( http://arxiv.org/abs/2403.10301v1 ) ライセンス: Link先を確認 | Hengxing Cai, Xiaochen Cai, Shuwen Yang, Jiankun Wang, Lin Yao, Zhifeng Gao, Junhan Chang, Sihang Li, Mingjun Xu, Changxin Wang, Hongshuai Wang, Yongge Li, Mujie Lin, Yaqi Li, Yuqi Yin, Linfeng Zhang, Guolin Ke, | (参考訳) 科学的研究とその応用において、科学的文献分析は、研究者が他者の業績に基づいて構築できるため、不可欠である。
しかし、科学的知識の急速な成長は学術論文の大幅な増加をもたらし、詳細な文献分析はますます困難で時間を要するものになっている。
LLM(Large Language Models)の出現は、この課題に対処する新しい方法を提供する。
テキストを要約する能力が強いことで知られており、LLMは科学文献の分析を改善するための潜在的なツールと見なされている。
しかし、既存のLLMには独自の制限がある。
科学文献は、しばしば、分子構造、表、チャートのような幅広いマルチモーダル要素を含み、テキスト中心のLLMが理解し分析することが困難である。
この問題は、科学文献におけるマルチモーダルコンテンツを完全に理解し分析できる新しいソリューションが緊急に必要であることを示している。
この要求に応えるために、我々は、マルチモーダル科学文献の詳細な理解を目的とした革新的なモデルであるUni-SMART(Universal Science Multimodal Analysis and Research Transformer)を提案する。
複数の領域にわたる厳密な定量的評価を通じて、Uni-SMARTはテキスト中心のLLMよりも優れた性能を示す。
さらに,本研究は,特許侵害検出やグラフのニュアンス解析など,実用的な応用にまで拡張されている。
これらの応用は、Uni-SMARTの適応性だけでなく、科学文献との相互作用に革命をもたらす可能性も強調している。
In scientific research and its application, scientific literature analysis is crucial as it allows researchers to build on the work of others. However, the fast growth of scientific knowledge has led to a massive increase in scholarly articles, making in-depth literature analysis increasingly challenging and time-consuming. The emergence of Large Language Models (LLMs) has offered a new way to address this challenge. Known for their strong abilities in summarizing texts, LLMs are seen as a potential tool to improve the analysis of scientific literature. However, existing LLMs have their own limits. Scientific literature often includes a wide range of multimodal elements, such as molecular structure, tables, and charts, which are hard for text-focused LLMs to understand and analyze. This issue points to the urgent need for new solutions that can fully understand and analyze multimodal content in scientific literature. To answer this demand, we present Uni-SMART (Universal Science Multimodal Analysis and Research Transformer), an innovative model designed for in-depth understanding of multimodal scientific literature. Through rigorous quantitative evaluation across several domains, Uni-SMART demonstrates superior performance over leading text-focused LLMs. Furthermore, our exploration extends to practical applications, including patent infringement detection and nuanced analysis of charts. These applications not only highlight Uni-SMART's adaptability but also its potential to revolutionize how we interact with scientific literature. | 翻訳日:2024-03-18 17:01:25 公開日:2024-03-15 |
# KIF:Wikidataを用いた異種知識ベース仮想統合フレームワーク
KIF: A Framework for Virtual Integration of Heterogeneous Knowledge Bases using Wikidata ( http://arxiv.org/abs/2403.10304v1 ) ライセンス: Link先を確認 | Guilherme Lima, Marcelo Machado, Elton Soares, Sandro R. Fiorini, Raphael Thiago, Leonardo G. Azevedo, Viviane T. da Silva, Renato Cerqueira, | (参考訳) 我々は、Wikidataを言語フランカとして使用し、異種知識ベースを統合する知識統合フレームワーク(KIF)を提案する。
これらはトリプルストア、リレーショナルデータベース、CSVファイルなどであり、RDFのウィキデータ方言を使用または使用しない可能性がある。
KIFはWikidataのデータモデルと語彙とユーザ定義のマッピングを活用して、統合された基盤の統一されたビューを公開し、それらのステートメントのコンテキストと証明を追跡している。
その結果、仮想知識ベースが"拡張Wikidata"のように動作し、効率的なフィルタインターフェースまたはSPARQLを使用してクエリすることができる。
我々は、KIFの設計と実装について述べ、化学分野における実際の統合問題(Wikidata、PubChem、IBM CIRCAを含む)をどう解決したかについて論じ、KIFの性能とオーバーヘッドに関する実験結果を示す。
We present a knowledge integration framework (called KIF) that uses Wikidata as a lingua franca to integrate heterogeneous knowledge bases. These can be triplestores, relational databases, CSV files, etc., which may or may not use the Wikidata dialect of RDF. KIF leverages Wikidata's data model and vocabulary plus user-defined mappings to expose a unified view of the integrated bases while keeping track of the context and provenance of their statements. The result is a virtual knowledge base which behaves like an "extended Wikidata" and which can be queried either through an efficient filter interface or using SPARQL. We present the design and implementation of KIF, discuss how we have used it to solve a real integration problem in the domain of chemistry (involving Wikidata, PubChem, and IBM CIRCA), and present experimental results on the performance and overhead of KIF. | 翻訳日:2024-03-18 17:01:25 公開日:2024-03-15 |
# オンラインデータ操作攻撃に対するインタラクティブトリミング:ゲーム理論的アプローチ
Interactive Trimming against Evasive Online Data Manipulation Attacks: A Game-Theoretic Approach ( http://arxiv.org/abs/2403.10313v1 ) ライセンス: Link先を確認 | Yue Fu, Qingqing Ye, Rong Du, Haibo Hu, | (参考訳) データの指数的な成長と、それが私たちの生活や意思決定に重大な影響を与えていることから、データの完全性は重要な関心事となっている。
データに偽の値が注入される悪意のあるデータ中毒攻撃は、機械学習のプロセスを妨害し、深刻な結果をもたらす可能性がある。
これらの攻撃を緩和するために、トリミングのような距離ベースの防御法が提案されているが、ホワイトボックス攻撃者によって容易に回避できる。
毒殺攻撃戦略の回避と有効性は同じコインの2つの側面であり、ゲーム理論を有望なアプローチにしている。
しかし、既存のゲーム理論モデルは、しばしば、戦略がデータ収集の動的なプロセスに適応しなければならないオンラインデータ中毒攻撃の複雑さを見落としている。
本稿では,トリミング戦略を用いてオンラインデータ操作攻撃を防御する対話型ゲーム理論モデルを提案する。
我々のモデルは完全な戦略空間に対応しており、強力な回避と衝突する敵に適用できる。
理論物理学から最小作用の原理とオイラー・ラグランジュ方程式を利用すると、ゲーム理論の過程の解析モデルが導かれる。
本稿では,その実用性を示すために,非決定論的ユーティリティ機能を採用するローカル差分プライバシの下でのプライバシ保護データ収集システムにおけるケーススタディを提案する。
この分析モデルから、Tit-for-tatとElasticという2つの戦略が考案された。
この2つの戦略の有効性と正確性を示す実世界のデータセットについて広範な実験を行った。
With the exponential growth of data and its crucial impact on our lives and decision-making, the integrity of data has become a significant concern. Malicious data poisoning attacks, where false values are injected into the data, can disrupt machine learning processes and lead to severe consequences. To mitigate these attacks, distance-based defenses, such as trimming, have been proposed, but they can be easily evaded by white-box attackers. The evasiveness and effectiveness of poisoning attack strategies are two sides of the same coin, making game theory a promising approach. However, existing game-theoretical models often overlook the complexities of online data poisoning attacks, where strategies must adapt to the dynamic process of data collection. In this paper, we present an interactive game-theoretical model to defend online data manipulation attacks using the trimming strategy. Our model accommodates a complete strategy space, making it applicable to strong evasive and colluding adversaries. Leveraging the principle of least action and the Euler-Lagrange equation from theoretical physics, we derive an analytical model for the game-theoretic process. To demonstrate its practical usage, we present a case study in a privacy-preserving data collection system under local differential privacy where a non-deterministic utility function is adopted. Two strategies are devised from this analytical model, namely, Tit-for-tat and Elastic. We conduct extensive experiments on real-world datasets, which showcase the effectiveness and accuracy of these two strategies. | 翻訳日:2024-03-18 17:01:25 公開日:2024-03-15 |
# 量子因果構造に対するデ・フィネッティの定理
A de Finetti theorem for quantum causal structures ( http://arxiv.org/abs/2403.10316v1 ) ライセンス: Link先を確認 | Fabio Costa, Jonathan Barrett, Sally Shrapnel, | (参考訳) 因果構造が'未知'である,という意味は何でしょうか?
因果関係に関する事前の知識のない実験の「繰り返し」についても話せるだろうか?
そして、任意の、あるいは不確定な因果構造を持つプロセスの集合が独立かつ同一に分散されていると、どのような条件で言えるだろうか?
古典的確率、量子状態、量子チャネルに関する同様の質問は、「デ・フィネッティの定理(de Finetti theorems)」と呼ばれる、単純で修正が容易な条件(交換下での対称性)と非常に特殊な多部構造(同じ状態とチャネルの混合)を結びつけて、美しく答えられる。
ここでは、任意の因果構造を持つプロセスに結果を拡張し、不定因果順序や、雑音量子デバイスに適用可能なマルチ時間非マルコフ過程を含む。
この結果はまた、線形制約の大きい量子状態に対する新しいクラスであるデ・フィネッティの定理も意味しており、これは独立な興味を持つことができる。
What does it mean for a causal structure to be `unknown'? Can we even talk about `repetitions' of an experiment without prior knowledge of causal relations? And under what conditions can we say that a set of processes with arbitrary, possibly indefinite, causal structure are independent and identically distributed? Similar questions for classical probabilities, quantum states, and quantum channels are beautifully answered by so-called "de Finetti theorems", which connect a simple and easy-to-justify condition -- symmetry under exchange -- with a very particular multipartite structure: a mixture of identical states/channels. Here we extend the result to processes with arbitrary causal structure, including indefinite causal order and multi-time, non-Markovian processes applicable to noisy quantum devices. The result also implies a new class of de Finetti theorems for quantum states subject to a large class of linear constraints, which can be of independent interest. | 翻訳日:2024-03-18 17:01:25 公開日:2024-03-15 |
# 量子力学における実験設計への機械学習の適用
Application of machine learning to experimental design in quantum mechanics ( http://arxiv.org/abs/2403.10317v1 ) ライセンス: Link先を確認 | Federico Belliardo, Fabio Zoratti, Vittorio Giovannetti, | (参考訳) 機械学習の最近の進歩は、量子センシングと気象学の分野に大きな可能性を秘めている。
強化学習の助けを借りて、量子システムの複雑さを減らし、最適な実験設計の問題を解決することができる。
強化学習(Reinforcement learning)は、エージェント(典型的にはニューラルネットワーク)が、完全に未知の環境で特定の目標に到達するための最善の戦略を学ぶことができる強力なモデルレス技術である。
しかし、一般には、エージェントが相互作用している量子系について、少なくとも量子力学の規則に従うことを知っています。
量子気象学では、通常は系のモデルを持ち、進化のパラメータや初期状態は未知である。
ここでは、量子センサの精度を最適化し、モデル認識強化学習を通じてシステム上の知識を活用する、一般的な機械学習手法を提案する。
このフレームワークはPythonパッケージのqsensoroptで実装されており、量子メトロジーや量子パラメータ推定で見られる幅広い問題のクラスを最適化することができる。
エージェントは、前の結果に基づいて次の測定を行うための最適な適応戦略を学ぶ。
我々は,この手法のNV中心およびフォトニック回路への応用について検討した。
これまでのところ、多くのケースで最先端の制御よりも優れた結果を証明できた。
ここで開発された機械学習技術は、量子システムが十分にキャラクタライズされ、比較的シンプルで小さいすべてのシナリオに適用できる。
これらの場合、トレーニングされたニューラルネットワークで適切に制御することで、量子センサーから最後の全ての情報を抽出することができる。
qsensoroptソフトウェアはPyPIで利用可能で、ipでインストールできる。
The recent advances in machine learning hold great promise for the fields of quantum sensing and metrology. With the help of reinforcement learning, we can tame the complexity of quantum systems and solve the problem of optimal experimental design. Reinforcement learning is a powerful model-free technique that allows an agent, typically a neural network, to learn the best strategy to reach a certain goal in a completely a priori unknown environment. However, in general, we know something about the quantum system with which the agent is interacting, at least that it follows the rules of quantum mechanics. In quantum metrology, we typically have a model for the system, and only some parameters of the evolution or the initial state are unknown. We present here a general machine learning technique that can optimize the precision of quantum sensors, exploiting the knowledge we have on the system through model-aware reinforcement learning. This framework has been implemented in the Python package qsensoropt, which is able to optimize a broad class of problems found in quantum metrology and quantum parameter estimation. The agent learns an optimal adaptive strategy that, based on previous outcomes, decides the next measurements to perform. We have explored some applications of this technique to NV centers and photonic circuits. So far, we have been able to certify better results than the current state-of-the-art controls for many cases. The machine learning technique developed here can be applied in all scenarios where the quantum system is well-characterized and relatively simple and small. In these cases, we can extract every last bit of information from a quantum sensor by appropriately controlling it with a trained neural network. The qsensoropt software is available on PyPI and can be installed with pip. | 翻訳日:2024-03-18 17:01:25 公開日:2024-03-15 |
# タブラルデータを用いたニューラルアーキテクチャ検索
Anytime Neural Architecture Search on Tabular Data ( http://arxiv.org/abs/2403.10318v1 ) ライセンス: Link先を確認 | Naili Xing, Shaofeng Cai, Zhaojing Luo, BengChin Ooi, Jian Pei, | (参考訳) 表形式のデータ分析の需要が高まるにつれ、手動アーキテクチャ設計からニューラルネットワーク検索(NAS)への移行が求められている。
この移行は、任意の時間予算内で現在の最適なアーキテクチャを返却できる効率的で応答性の高いNASアプローチを必要とします。
しかし、表形式のデータに対するAnytime NASの研究領域は未解明のままである。
この目的のために,表データに適したNASアプローチであるATLASを導入する。
ATLASは、トレーニングフリーとトレーニングベースアーキテクチャ評価の両方のパラダイムの長所を組み合わさった、新しい二相フィルタリング/精製最適化スキームを導入している。
具体的には、フィルタフェーズにおいて、ATLASは表データ用に設計された新しいゼロコストプロキシを使用して、候補アーキテクチャの性能を効率的に推定し、将来性のあるアーキテクチャの集合を得る。
その後、改良段階において、ATLASは固定予算探索アルゴリズムを利用して、有望な候補のトレーニングをスケジュールし、最適なアーキテクチャを正確に識別する。
NASの2つのフェーズを常に共同で最適化するために、制約内で高いNAS性能を実現する予算対応コーディネータも考案する。
実験により、ATLASは、事前定義された時間予算内で優れた性能のアーキテクチャを得ることができ、新しい時間予算が利用可能になったときに、より良いアーキテクチャを返却できることが示された。
全体として、既存のNASアプローチと比較して、表データの検索時間を82.75倍に短縮する。
The increasing demand for tabular data analysis calls for transitioning from manual architecture design to Neural Architecture Search (NAS). This transition demands an efficient and responsive anytime NAS approach that is capable of returning current optimal architectures within any given time budget while progressively enhancing architecture quality with increased budget allocation. However, the area of research on Anytime NAS for tabular data remains unexplored. To this end, we introduce ATLAS, the first anytime NAS approach tailored for tabular data. ATLAS introduces a novel two-phase filtering-and-refinement optimization scheme with joint optimization, combining the strengths of both paradigms of training-free and training-based architecture evaluation. Specifically, in the filtering phase, ATLAS employs a new zero-cost proxy specifically designed for tabular data to efficiently estimate the performance of candidate architectures, thereby obtaining a set of promising architectures. Subsequently, in the refinement phase, ATLAS leverages a fixed-budget search algorithm to schedule the training of the promising candidates, so as to accurately identify the optimal architecture. To jointly optimize the two phases for anytime NAS, we also devise a budget-aware coordinator that delivers high NAS performance within constraints. Experimental evaluations demonstrate that our ATLAS can obtain a good-performing architecture within any predefined time budget and return better architectures as and when a new time budget is made available. Overall, it reduces the search time on tabular data by up to 82.75x compared to existing NAS approaches. | 翻訳日:2024-03-18 17:01:25 公開日:2024-03-15 |
# NetBench: ファンデーションモデルのための大規模かつ総合的なネットワークトラフィックベンチマークデータセット
NetBench: A Large-Scale and Comprehensive Network Traffic Benchmark Dataset for Foundation Models ( http://arxiv.org/abs/2403.10319v1 ) ライセンス: Link先を確認 | Chen Qian, Xiaochang Li, Qineng Wang, Gang Zhou, Huajie Shao, | (参考訳) ネットワークトラフィック(ネットワークトラフィック、英: network traffic)は、インターネット上のコンピュータやシステム間でパケットとして送信されるデータの量である。
ネットワークトラフィックの監視と分析は、ネットワークのパフォーマンス、セキュリティ、信頼性を保証するために不可欠である。
しかし、ネットワークトラフィック分析における重要な課題は、暗号文と平文の両方を含む多様なデータパケットを処理することである。
ネットワークトラフィックの分析には多くの方法が採用されているが、パフォーマンス評価には異なるデータセットに依存することが多い。
この矛盾は、実質的な手作業によるデータ処理と不公平な比較をもたらす。
さらに、一部のデータ処理手法は、トレーニングデータとテストデータの分離が不十分なため、データ漏洩を引き起こす可能性がある。
これらの問題に対処するために、トラフィック分類と生成タスクの両方において、機械学習モデル、特に基礎モデルを評価するための大規模かつ包括的なベンチマークデータセットであるNetBenchを紹介する。
NetBenchは7つの公開データセット上に構築されており、15の分類タスクと5つの生成タスクを含む、幅広い20のタスクを含んでいる。
さらに,本ベンチマークを用いて,8つのステートオフ・ザ・アート分類モデルと2つの生成モデルを評価する。
その結果,基盤モデルは交通分類における従来の深層学習法よりも有意に優れていた。
我々は、NetBenchが様々なアプローチの公正な比較を促進し、ネットワークトラフィックのための基盤モデルの開発を進めると信じている。
私たちのベンチマークはhttps://github.com/WM-JayLab/NetBench.comで公開されています。
In computer networking, network traffic refers to the amount of data transmitted in the form of packets between internetworked computers or systems. Monitoring and analyzing network traffic is crucial for ensuring the performance, security, and reliability of a network. However, a significant challenge in network traffic analysis is to process diverse data packets including both ciphertext and plaintext. While many methods have been adopted to analyze network traffic, they often rely on different datasets for performance evaluation. This inconsistency results in substantial manual data processing efforts and unfair comparisons. Moreover, some data processing methods may cause data leakage due to improper separation of training and test data. To address these issues, we introduce NetBench, a large-scale and comprehensive benchmark dataset for assessing machine learning models, especially foundation models, in both traffic classification and generation tasks. NetBench is built upon seven publicly available datasets and encompasses a broad spectrum of 20 tasks, including 15 classification tasks and 5 generation tasks. Furthermore, we evaluate eight State-Of-The-Art (SOTA) classification models and two generative models using our benchmark. The results show that foundation models significantly outperform the traditional deep learning methods in traffic classification. We believe NetBench will facilitate fair comparisons among various approaches and advance the development of foundation models for network traffic. Our benchmark is available at https://github.com/WM-JayLab/NetBench. | 翻訳日:2024-03-18 16:51:41 公開日:2024-03-15 |
# CDGP:事前学習言語モデルに基づく自動クローゼディトラクタ生成
CDGP: Automatic Cloze Distractor Generation based on Pre-trained Language Model ( http://arxiv.org/abs/2403.10326v1 ) ライセンス: Link先を確認 | Shang-Hsuan Chiang, Ssu-Cheng Wang, Yao-Chung Fan, | (参考訳) 手動でクローズテストを設計することは、膨大な時間と労力を消費します。
最大の課題は、間違った選択肢(デストラクタ)の選択です。
注意深い設計の気を散らすことで、学習者の能力評価の有効性が向上する。
その結果、クローズイントラクタを自動生成するアイデアが動機付けられる。
本稿では,事前学習型言語モデル (PLM) の代替として, クローゼイントラクタ生成を探索し, クローゼイントラクタ生成について検討する。
実験により、PLM強化モデルは大幅な性能改善をもたらすことが示された。
私たちの最高のパフォーマンスモデルは、14.94から34.17(NDCG@10スコア)まで、最先端の結果を前進させます。
私たちのコードとデータセットはhttps://github.com/AndyChiangSH/CDGPで公開されています。
Manually designing cloze test consumes enormous time and efforts. The major challenge lies in wrong option (distractor) selection. Having carefully-design distractors improves the effectiveness of learner ability assessment. As a result, the idea of automatically generating cloze distractor is motivated. In this paper, we investigate cloze distractor generation by exploring the employment of pre-trained language models (PLMs) as an alternative for candidate distractor generation. Experiments show that the PLM-enhanced model brings a substantial performance improvement. Our best performing model advances the state-of-the-art result from 14.94 to 34.17 (NDCG@10 score). Our code and dataset is available at https://github.com/AndyChiangSH/CDGP. | 翻訳日:2024-03-18 16:51:41 公開日:2024-03-15 |
# CBOTT(Continuous Bag-of-Terms-and-Time)を用いた教師なし脅威追跡
Unsupervised Threat Hunting using Continuous Bag-of-Terms-and-Time (CBoTT) ( http://arxiv.org/abs/2403.10327v1 ) ライセンス: Link先を確認 | Varol Kayhan, Shivendu Shivendu, Rouzbeh Behnia, Clinton Daniel, Manish Agrawal, | (参考訳) 脅威狩りは、既存のセキュリティ対策を回避した可能性のある悪意のあるアクティビティを検出するために、システムログを精査している。
いくつか方法で実行できるが、そのうちの1つは異常の検出に基づいている。
我々は,CBOTT(Continuous bag-of-terms-and-time)と呼ばれる教師なしのフレームワークを提案し,そのアプリケーションプログラミングインターフェース(API)を公開し,研究者やサイバーセキュリティアナリストがエンドポイントデバイス上でのプロセス監査を目的としたSIEMログ間の異常ベースの脅威追跡を行うのを支援する。
分析によると、我々のフレームワークはベンチマークアプローチを一貫して上回っている。
ログが異常である可能性(最もありそうにない)によってソートされる場合、我々の手法は高いパーセンタイル(1.22-6.46)で異常を識別し、ベンチマーク手法は低いパーセンタイル(3.25-80.92)で同じ異常を識別する。
このフレームワークは、他の研究者がベンチマーク分析やサイバーセキュリティ分析を行い、SIEMログの異常を見つけるために使用することができる。
Threat hunting is sifting through system logs to detect malicious activities that might have bypassed existing security measures. It can be performed in several ways, one of which is based on detecting anomalies. We propose an unsupervised framework, called continuous bag-of-terms-and-time (CBoTT), and publish its application programming interface (API) to help researchers and cybersecurity analysts perform anomaly-based threat hunting among SIEM logs geared toward process auditing on endpoint devices. Analyses show that our framework consistently outperforms benchmark approaches. When logs are sorted by likelihood of being an anomaly (from most likely to least), our approach identifies anomalies at higher percentiles (between 1.82-6.46) while benchmark approaches identify the same anomalies at lower percentiles (between 3.25-80.92). This framework can be used by other researchers to conduct benchmark analyses and cybersecurity analysts to find anomalies in SIEM logs. | 翻訳日:2024-03-18 16:51:41 公開日:2024-03-15 |
# 冷静で残酷な―LWEシークレットの硬い部分を切り離す
The cool and the cruel: separating hard parts of LWE secrets ( http://arxiv.org/abs/2403.10328v1 ) ライセンス: Link先を確認 | Niklas Nolte, Mohamed Malhou, Emily Wenger, Samuel Stevens, Cathy Li, François Charton, Kristin Lauter, | (参考訳) スパースバイナリLWEシークレットは、ホモモルフィック暗号化の標準化とそのプライベート計算への応用について検討されている。
スパースバイナリLWEシークレットに対する攻撃として、スパースデュアルアタック(sparse dual attack)や、大きなメモリを必要とする中間攻撃におけるハイブリッドスパースデュアルミート( hybrid sparse dual-meet)がある。
本稿では,メモリ要求の少ない新しい統計的攻撃を提案する。
この攻撃は、初期の格子の縮小に依存している。
鍵となる観察は、q-aryのような埋め込みランダム行列 $\mathbf A$ の行に格子還元を適用すると、高い分散を持つエントリは抽出された行列の早期列に集中するということである。
これにより、LWEシークレットの"ハード部分"を分離することができます。
まず、初期列の秘密の「クレル」ビットを見つけるというサブ確率を解き、残りの「クール」ビットを線形時間で見つけることができる。
統計的手法を用いて分布を識別し、秘密の残酷な部分とクールな部分の両方を識別する。
シークレットを次元$n=256$,512$,768$で回収するための具体的な攻撃タイミングを提供する。
格子還元段階において、格子還元(例えば平ら化)の最近の改良を並列に適用する。
また、このRLWEインスタンスがLWEよりもはるかに脆弱であることを示すために、RLWE設定に2ドルパワーのサイクロトミックリングを適用した。
Sparse binary LWE secrets are under consideration for standardization for Homomorphic Encryption and its applications to private computation. Known attacks on sparse binary LWE secrets include the sparse dual attack and the hybrid sparse dual-meet in the middle attack which requires significant memory. In this paper, we provide a new statistical attack with low memory requirement. The attack relies on some initial lattice reduction. The key observation is that, after lattice reduction is applied to the rows of a q-ary-like embedded random matrix $\mathbf A$, the entries with high variance are concentrated in the early columns of the extracted matrix. This allows us to separate out the "hard part" of the LWE secret. We can first solve the sub-problem of finding the "cruel" bits of the secret in the early columns, and then find the remaining "cool" bits in linear time. We use statistical techniques to distinguish distributions to identify both the cruel and the cool bits of the secret. We provide concrete attack timings for recovering secrets in dimensions $n=256$, $512$, and $768$. For the lattice reduction stage, we leverage recent improvements in lattice reduction (e.g. flatter) applied in parallel. We also apply our new attack in the RLWE setting for $2$-power cyclotomic rings, showing that these RLWE instances are much more vulnerable to this attack than LWE. | 翻訳日:2024-03-18 16:51:41 公開日:2024-03-15 |
# 非逆アルゴリズムのリコースに向けて
Towards Non-Adversarial Algorithmic Recourse ( http://arxiv.org/abs/2403.10330v1 ) ライセンス: Link先を確認 | Tobias Leemann, Martin Pawelczyk, Bardh Prenkaj, Gjergji Kasneci, | (参考訳) 敵対的な事例と反実的な説明に関する研究の流れは、独立して成長している。
これは、それらの類似点と相違点を解明しようとする最近のいくつかの研究につながっている。
最も顕著な点として、反実的な説明とは対照的に、敵対的な例は、それらが根底的な真実よりも誤分類に繋がるという点で独特の特徴を持っていると論じられている。
しかし、既存の対実的説明や逆例生成手法で用いられる計算目標と方法論は、しばしばこの要件に適合しない。
敵対的事例の形式的定義と反実的説明を用いて、非敵的アルゴリズムの言説を導入し、高い状況下では、敵的特徴を示さない反実的説明を得ることが不可欠である理由を概説する。
その後,対象関数,例えば,距離を測定するために使用される機械学習モデルやコスト関数の相違について検討し,その結果が逆の例であるか否かを判断する。
共通のデータセットに関する我々の実験は、これらの設計選択が、リコースが非敵対的であるかどうかを決定する上で、リコースまたはアタックアルゴリズムが使用されるかどうかを決定する上で、より重要であることを強調している。
さらに,ロバストで正確な機械学習モデルを選択することで,現実的に望まれる対角的リコースがより少なくなることを示す。
The streams of research on adversarial examples and counterfactual explanations have largely been growing independently. This has led to several recent works trying to elucidate their similarities and differences. Most prominently, it has been argued that adversarial examples, as opposed to counterfactual explanations, have a unique characteristic in that they lead to a misclassification compared to the ground truth. However, the computational goals and methodologies employed in existing counterfactual explanation and adversarial example generation methods often lack alignment with this requirement. Using formal definitions of adversarial examples and counterfactual explanations, we introduce non-adversarial algorithmic recourse and outline why in high-stakes situations, it is imperative to obtain counterfactual explanations that do not exhibit adversarial characteristics. We subsequently investigate how different components in the objective functions, e.g., the machine learning model or cost function used to measure distance, determine whether the outcome can be considered an adversarial example or not. Our experiments on common datasets highlight that these design choices are often more critical in deciding whether recourse is non-adversarial than whether recourse or attack algorithms are used. Furthermore, we show that choosing a robust and accurate machine learning model results in less adversarial recourse desired in practice. | 翻訳日:2024-03-18 16:51:41 公開日:2024-03-15 |
# GreedyML: サブモジュール関数の最大化のための並列アルゴリズム
GreedyML: A Parallel Algorithm for Maximizing Submodular Functions ( http://arxiv.org/abs/2403.10332v1 ) ライセンス: Link先を確認 | Shivaram Gopal, S M Ferdous, Hemanta K. Maji, Alex Pothen, | (参考訳) 分散メモリマルチプロセッサ上での遺伝的制約を考慮した単調部分モジュラ関数を最大化するための並列近似アルゴリズムについて述べる。
我々の研究は、データ要約、機械学習、グラフスカラー化といった分野における実践的な応用のために、大規模データセットのサブモジュラー最適化問題を解決する必要性によって動機付けられている。
我々の研究は、Barbosa, Ene, Nguyen, Ward (2015)によって提案されたランダム化された分散RandGreedIアルゴリズムに基づいている。
このアルゴリズムは、すべてのプロセッサ間でデータをランダムにパーティショニングして分散ソリューションを計算し、その後、すべてのプロセッサが部分的なソリューションを1つのプロセッサに送信する単一の集積ステップを使用する。
しかし、大きな問題に対して、集積ステップはプロセッサ上で利用可能なメモリを超える可能性があり、集積を実行するプロセッサは計算ボトルネックとなる可能性がある。
本稿では、複数の累積ステップを用いて必要なメモリを削減するRandGreedIアルゴリズムの一般化を提案する。
アルゴリズムの近似比と時間複雑性を(BSPモデルで)解析する。
また、3種類の問題に対して新しいGreedyMLアルゴリズムを評価し、数百万要素からなる大規模データセットの結果を報告する。
その結果,GreedyMLアルゴリズムはメモリ制約により逐次Greedyアルゴリズムと分散RandGreedIアルゴリズムがフェールする問題を解くことができることがわかった。
ある計算集約的な問題に対して、GreedyMLアルゴリズムはRandGreedIアルゴリズムよりも高速である。
GreedyMLアルゴリズムによって計算された解の近似品質は、これらの問題のRandGreedIアルゴリズムによって得られた解と密接に一致している。
We describe a parallel approximation algorithm for maximizing monotone submodular functions subject to hereditary constraints on distributed memory multiprocessors. Our work is motivated by the need to solve submodular optimization problems on massive data sets, for practical applications in areas such as data summarization, machine learning, and graph sparsification. Our work builds on the randomized distributed RandGreedI algorithm, proposed by Barbosa, Ene, Nguyen, and Ward (2015). This algorithm computes a distributed solution by randomly partitioning the data among all the processors and then employing a single accumulation step in which all processors send their partial solutions to one processor. However, for large problems, the accumulation step could exceed the memory available on a processor, and the processor which performs the accumulation could become a computational bottleneck. Here, we propose a generalization of the RandGreedI algorithm that employs multiple accumulation steps to reduce the memory required. We analyze the approximation ratio and the time complexity of the algorithm (in the BSP model). We also evaluate the new GreedyML algorithm on three classes of problems, and report results from massive data sets with millions of elements. The results show that the GreedyML algorithm can solve problems where the sequential Greedy and distributed RandGreedI algorithms fail due to memory constraints. For certain computationally intensive problems, the GreedyML algorithm can be faster than the RandGreedI algorithm. The observed approximation quality of the solutions computed by the GreedyML algorithm closely matches those obtained by the RandGreedI algorithm on these problems. | 翻訳日:2024-03-18 16:51:41 公開日:2024-03-15 |
# NECA:ニューラルカスタマイズ可能な人間のアバター
NECA: Neural Customizable Human Avatar ( http://arxiv.org/abs/2403.10335v1 ) ライセンス: Link先を確認 | Junjin Xiao, Qing Zhang, Zhan Xu, Wei-Shi Zheng, | (参考訳) アバターは様々な用途で新しいタイプの3Dアセットとなった。
理想的には、人間のアバターは異なる設定や環境に合わせて完全にカスタマイズできるべきだ。
本研究では,モノクラー映像やスパースビュー映像から多目的表現を学習し,ポーズ,シャドウ,形状,照明,テクスチャなど,さまざまな面のきめ細やかなカスタマイズを可能にする手法NECAを紹介する。
我々のアプローチの核となるのは、人間を相補的な双対空間で表現し、幾何学、アルベド、シャドー、および外部照明の非交叉神経場を予測することである。
広汎な実験により,フォトリアリスティックレンダリングにおける最先端手法と,新しいポーズ合成やリライティングといった様々な編集タスクの利点が示された。
コードはhttps://github.com/iSEE-Laboratory/NECAで公開されている。
Human avatar has become a novel type of 3D asset with various applications. Ideally, a human avatar should be fully customizable to accommodate different settings and environments. In this work, we introduce NECA, an approach capable of learning versatile human representation from monocular or sparse-view videos, enabling granular customization across aspects such as pose, shadow, shape, lighting and texture. The core of our approach is to represent humans in complementary dual spaces and predict disentangled neural fields of geometry, albedo, shadow, as well as an external lighting, from which we are able to derive realistic rendering with high-frequency details via volumetric rendering. Extensive experiments demonstrate the advantage of our method over the state-of-the-art methods in photorealistic rendering, as well as various editing tasks such as novel pose synthesis and relighting. The code is available at https://github.com/iSEE-Laboratory/NECA. | 翻訳日:2024-03-18 16:51:41 公開日:2024-03-15 |
# 画像復元における注意力の可能性
How Powerful Potential of Attention on Image Restoration? ( http://arxiv.org/abs/2403.10336v1 ) ライセンス: Link先を確認 | Cong Wang, Jinshan Pan, Yeying Jin, Liyan Wang, Wei Wang, Gang Fu, Wenqi Ren, Xiaochun Cao, | (参考訳) トランスフォーマーは、画像復元タスクにおいて、その効果を実証している。
既存のトランスフォーマーアーキテクチャは通常、マルチヘッド自己注意とフィードフォワードネットワーク(FFN)という2つの重要なコンポーネントから構成される。
前者は長距離画素依存をキャプチャし、後者はモデルがデータの複雑なパターンや関係を学習できるようにする。
以前の研究では、FFNはキーバリューメモリ \cite{geva2020transformer} であることが示されており、現代のトランスフォーマーアーキテクチャにおいて不可欠である。
本稿では,FFNを使わずに注意機構の可能性を探るための実証的研究を行い,FFNの除去が画像復元に柔軟であることを示す新しい構造を提供する。
具体的には,FFNを使わずに3段階にわたって注意を連続的に計算する手法である連続スケーリング注意(\textbf{CSAttn})を提案する。
競争性能を達成するために,注目すべき重要な要素のシリーズを提案する。
我々の設計は、注意機構をよく調べ、いくつかの単純な操作がモデルの性能に大きく影響することを明らかにする。
いくつかの画像復元タスクに対して,我々の \textbf{CSAttn} を適用し,我々のモデルが CNN と Transformer をベースとした画像復元手法より優れていることを示す。
Transformers have demonstrated their effectiveness in image restoration tasks. Existing Transformer architectures typically comprise two essential components: multi-head self-attention and feed-forward network (FFN). The former captures long-range pixel dependencies, while the latter enables the model to learn complex patterns and relationships in the data. Previous studies have demonstrated that FFNs are key-value memories \cite{geva2020transformer}, which are vital in modern Transformer architectures. In this paper, we conduct an empirical study to explore the potential of attention mechanisms without using FFN and provide novel structures to demonstrate that removing FFN is flexible for image restoration. Specifically, we propose Continuous Scaling Attention (\textbf{CSAttn}), a method that computes attention continuously in three stages without using FFN. To achieve competitive performance, we propose a series of key components within the attention. Our designs provide a closer look at the attention mechanism and reveal that some simple operations can significantly affect the model performance. We apply our \textbf{CSAttn} to several image restoration tasks and show that our model can outperform CNN-based and Transformer-based image restoration approaches. | 翻訳日:2024-03-18 16:51:41 公開日:2024-03-15 |
# 新規名詞ジェンダーの少数ショット学習を用いた言語モデルにおける文法的抽象化の検討
Investigating grammatical abstraction in language models using few-shot learning of novel noun gender ( http://arxiv.org/abs/2403.10338v1 ) ライセンス: Link先を確認 | Priyanka Sukumaran, Conor Houghton, Nina Kazanina, | (参考訳) 人間は新しい単語を学び、ごく少数の例から文法的性質を推測することができる。
彼らは文法的な性別や合意規則のような言語特性の抽象的な概念を持ち、新しい構文的文脈や単語に適用できる。
心理言語学からインスピレーションを得て、LSTMとデコーダのみのトランスフォーマーが、フランス語の文法的ジェンダーを人間のように抽象化できるかどうかを評価するための名詞学習実験を行う。
言語モデルは、ある文法的合意文脈におけるいくつかの例から組み込まれた小説の名詞の性別を学習し、別の無意味な文脈における合意を予測することを任務とした。
両言語モデルが一対二の学習例から新しい名詞のジェンダーを効果的に一般化し,男性性カテゴリーの偏りはあるものの,合意文脈にまたがって学習したジェンダーを適用した。
重要な点として、いくつかの更新は埋め込み層にのみ適用され、モデルが単語埋め込み空間内で十分な性別情報をエンコードしていることが証明された。
モデルの一般化行動は、それらが文法的な性別を、人間のような抽象的なカテゴリーとして表現していることを示しているが、どのように実装されているのかを詳細に調べるためには、さらなる作業が必要である。
言語モデルと同様に、母語話者も男性性バイアスを示しており、また優れたワンショット学習者でもないことが判明した。
Humans can learn a new word and infer its grammatical properties from very few examples. They have an abstract notion of linguistic properties like grammatical gender and agreement rules that can be applied to novel syntactic contexts and words. Drawing inspiration from psycholinguistics, we conduct a noun learning experiment to assess whether an LSTM and a decoder-only transformer can achieve human-like abstraction of grammatical gender in French. Language models were tasked with learning the gender of a novel noun embedding from a few examples in one grammatical agreement context and predicting agreement in another, unseen context. We find that both language models effectively generalise novel noun gender from one to two learning examples and apply the learnt gender across agreement contexts, albeit with a bias for the masculine gender category. Importantly, the few-shot updates were only applied to the embedding layers, demonstrating that models encode sufficient gender information within the word embedding space. While the generalisation behaviour of models suggests that they represent grammatical gender as an abstract category, like humans, further work is needed to explore the details of how exactly this is implemented. For a comparative perspective with human behaviour, we conducted an analogous one-shot novel noun gender learning experiment, which revealed that native French speakers, like language models, also exhibited a masculine gender bias and are not excellent one-shot learners either. | 翻訳日:2024-03-18 16:51:41 公開日:2024-03-15 |
# 生成は修正より優れている:グラフ異常検出における高次ホモフィリ変数の圧縮
Generation is better than Modification: Combating High Class Homophily Variance in Graph Anomaly Detection ( http://arxiv.org/abs/2403.10339v1 ) ライセンス: Link先を確認 | Rui Zhang, Dawei Cheng, Xin Liu, Jie Yang, Yi Ouyang, Xian Wu, Yefeng Zheng, | (参考訳) グラフベースの異常検出は、現在、グラフニューラルネットワーク(GNN)分野において重要な研究トピックである。
グラフ異常検出では、異なるクラス間のホモフィリ分布の差は、ホモ親和性グラフやヘテロ親和性グラフよりも著しく大きいことが分かる。
初めて、この現象を定量的に記述した、クラスホモフィリーバリアンスと呼ばれる新しい計量を導入する。
そこで本研究では,その影響を軽減するために,ホモフィリーエッジ生成グラフニューラルネットワーク(HedGe)と呼ばれる新しいGNNモデルを提案する。
従来の研究は、典型的には刈り取り、選択、接続に重点を置いており、これらの手法を修正として言及している。
これらの研究と異なり、本手法は、元の関係を補助的なものとして用いて、低級のホモフィリ分散と新しい関係を創出することを強調する。
HedGeは自己アテンション機構を用いてゼロからホモフィア隣接行列をサンプリングし、特徴空間に関連があるが元のグラフに直結していないノードを利用する。
さらに,不必要な異種縁の発生をモデルによって抑制するために,損失関数を修正した。
大規模な比較実験により、HedGeは異常検出やエッジレスノードの分類など、複数のベンチマークデータセットで最高のパフォーマンスを達成した。
提案モデルは、他のグラフ分類タスクにおけるクラスホモフィリ分散を増大させることにより、新しいヘテロフィイアタックの下でのロバスト性も向上する。
Graph-based anomaly detection is currently an important research topic in the field of graph neural networks (GNNs). We find that in graph anomaly detection, the homophily distribution differences between different classes are significantly greater than those in homophilic and heterophilic graphs. For the first time, we introduce a new metric called Class Homophily Variance, which quantitatively describes this phenomenon. To mitigate its impact, we propose a novel GNN model named Homophily Edge Generation Graph Neural Network (HedGe). Previous works typically focused on pruning, selecting or connecting on original relationships, and we refer to these methods as modifications. Different from these works, our method emphasizes generating new relationships with low class homophily variance, using the original relationships as an auxiliary. HedGe samples homophily adjacency matrices from scratch using a self-attention mechanism, and leverages nodes that are relevant in the feature space but not directly connected in the original graph. Additionally, we modify the loss function to punish the generation of unnecessary heterophilic edges by the model. Extensive comparison experiments demonstrate that HedGe achieved the best performance across multiple benchmark datasets, including anomaly detection and edgeless node classification. The proposed model also improves the robustness under the novel Heterophily Attack with increased class homophily variance on other graph classification tasks. | 翻訳日:2024-03-18 16:51:41 公開日:2024-03-15 |
# 熱-NeRF:赤外線カメラからのニューラル放射場
Thermal-NeRF: Neural Radiance Fields from an Infrared Camera ( http://arxiv.org/abs/2403.10340v1 ) ライセンス: Link先を確認 | Tianxiang Ye, Qi Wu, Junyuan Deng, Guoqing Liu, Liu Liu, Songpengcheng Xia, Liang Pang, Wenxian Yu, Ling Pei, | (参考訳) 近年、Neural Radiance Fields (NeRFs) は、高度に詳細化された3次元形状と環境の外観を符号化する大きな可能性を示しており、従来の3次元シーン再構成の明示的な表現の代替として、自らを有望な存在と位置づけている。
しかし、RGBイメージングに大きく依存していることは、理想的な照明条件を前提としている。
この制限は赤外線(IR)カメラの能力を見落とし、低照度検出に優れ、そのような悪条件下では堅牢な代替手段を提供する。
これらの問題に対処するために、IRイメージングのみからNeRFの形でボリュームシーン表現を推定する最初の方法であるTherial-NeRFを導入する。
赤外線画像の熱的特性から得られた熱マッピングと構造的熱的制約を利用して,RGBをベースとした手法が不足する視覚劣化シーンにおいて,NeRFを回復する際の非並列的習熟度を示す。
本研究では,既存の方法よりも優れた品質が得られることを示すため,広範囲な実験を行った。
さらに、IRベースのNeRFアプリケーションのためのデータセットをコントリビュートし、IR NeRF再構築における今後の研究の道を開く。
In recent years, Neural Radiance Fields (NeRFs) have demonstrated significant potential in encoding highly-detailed 3D geometry and environmental appearance, positioning themselves as a promising alternative to traditional explicit representation for 3D scene reconstruction. However, the predominant reliance on RGB imaging presupposes ideal lighting conditions: a premise frequently unmet in robotic applications plagued by poor lighting or visual obstructions. This limitation overlooks the capabilities of infrared (IR) cameras, which excel in low-light detection and present a robust alternative under such adverse scenarios. To tackle these issues, we introduce Thermal-NeRF, the first method that estimates a volumetric scene representation in the form of a NeRF solely from IR imaging. By leveraging a thermal mapping and structural thermal constraint derived from the thermal characteristics of IR imaging, our method showcasing unparalleled proficiency in recovering NeRFs in visually degraded scenes where RGB-based methods fall short. We conduct extensive experiments to demonstrate that Thermal-NeRF can achieve superior quality compared to existing methods. Furthermore, we contribute a dataset for IR-based NeRF applications, paving the way for future research in IR NeRF reconstruction. | 翻訳日:2024-03-18 16:51:41 公開日:2024-03-15 |
# SCILLA:SurfaCe Implicit Learning for Large Urban Area, a volumetric hybrid solution
SCILLA: SurfaCe Implicit Learning for Large Urban Area, a volumetric hybrid solution ( http://arxiv.org/abs/2403.10344v1 ) ライセンス: Link先を確認 | Hala Djeghim, Nathan Piasco, Moussab Bennehar, Luis Roldão, Dzmitry Tsishkou, Désiré Sidibé, | (参考訳) ニューラルな暗黙的表面表現法は、最近、印象的な3D再構成結果を示している。
しかし、既存のソリューションは、大きな、束縛されていない、そして非常に詳細な性質のために、都市屋外のシーンを再構築するのに苦労している。
したがって、正確な再構築を実現するには、LiDAR、強力な幾何学的事前、長い訓練時間などの追加の監視データが必要である。
このような問題に対処するために,2次元画像から大規模運転シーンを再構成する新しいハイブリッド表面学習手法であるSCILLAを提案する。
SCILLAのハイブリッドアーキテクチャは、2つの異なる暗黙の場をモデル化している。
都市の屋外シナリオを正確に表現するために, 表面近傍のサンプル点に自己教師付き確率密度推定を頼り, 体積から表面表現へ徐々に遷移する新しいボリュームレンダリング戦略を導入する。
提案手法は, 符号付き距離場の適切な初期化を, 同時手法と比較して, シーン上の幾何学的事前に頼らずに実現できる。
4つの屋外運転データセットについて広範な実験を行うことで、SCILLAは、過去の最先端ソリューションに比べて2倍高速で、様々な都市シナリオにおいて、正確で詳細な3次元表面シーン表現を学習できることを示す。
Neural implicit surface representation methods have recently shown impressive 3D reconstruction results. However, existing solutions struggle to reconstruct urban outdoor scenes due to their large, unbounded, and highly detailed nature. Hence, to achieve accurate reconstructions, additional supervision data such as LiDAR, strong geometric priors, and long training times are required. To tackle such issues, we present SCILLA, a new hybrid implicit surface learning method to reconstruct large driving scenes from 2D images. SCILLA's hybrid architecture models two separate implicit fields: one for the volumetric density and another for the signed distance to the surface. To accurately represent urban outdoor scenarios, we introduce a novel volume-rendering strategy that relies on self-supervised probabilistic density estimation to sample points near the surface and transition progressively from volumetric to surface representation. Our solution permits a proper and fast initialization of the signed distance field without relying on any geometric prior on the scene, compared to concurrent methods. By conducting extensive experiments on four outdoor driving datasets, we show that SCILLA can learn an accurate and detailed 3D surface scene representation in various urban scenarios while being two times faster to train compared to previous state-of-the-art solutions. | 翻訳日:2024-03-18 16:51:41 公開日:2024-03-15 |
# 心臓MRIにおけるエンド・ツー・エンド適応動的サブサンプリングと再構成
End-to-end Adaptive Dynamic Subsampling and Reconstruction for Cardiac MRI ( http://arxiv.org/abs/2403.10346v1 ) ライセンス: Link先を確認 | George Yiasemis, Jan-Jakob Sonke, Jonas Teuwen, | (参考訳) 動的MRIの加速は、適応放射線療法や患者の快適性向上など、臨床応用の強化に不可欠である。
動的MRI再構成を高速化するための従来のディープラーニング(DL)アプローチは、通常、すべての時間相にわたって一様に適用される事前定義された、あるいはランダムなサブサンプリングパターンに依存している。
この標準手法は、時間的相関を利用した潜在的な利点を見落とし、ケース固有のサブサンプリング最適化に必要な適応性に欠けており、復元品質を最大化する可能性を秘めている。
このギャップに対処するため,適応型動的MRIサブサンプリングと再構成のための新しいエンドツーエンドフレームワークを提案する。
我々のパイプラインは、DLベースの適応型サンプリング装置を統合し、ケース固有の動的サブサンプリングパターンを生成し、最先端の2D動的再構成ネットワークであるvSHARPでエンドツーエンドにトレーニングを行い、適応型動的サブサンプリングデータを移動画像に効果的に再構成する。
本手法は, 一般的なサブサンプリングトラジェクトリを用いたvSHARPモデルと, vSHARP再構成と並行してデータセット固有のサンプリングスキームを最適化するためのパイプラインを比較し, ダイナミックシン心MRIデータを用いて評価する。
以上の結果から,特に高加速度での再現性は良好であった。
Accelerating dynamic MRI is essential for enhancing clinical applications, such as adaptive radiotherapy, and improving patient comfort. Traditional deep learning (DL) approaches for accelerated dynamic MRI reconstruction typically rely on predefined or random subsampling patterns, applied uniformly across all temporal phases. This standard practice overlooks the potential benefits of leveraging temporal correlations and lacks the adaptability required for case-specific subsampling optimization, which holds the potential for maximizing reconstruction quality. Addressing this gap, we present a novel end-to-end framework for adaptive dynamic MRI subsampling and reconstruction. Our pipeline integrates a DL-based adaptive sampler, generating case-specific dynamic subsampling patterns, trained end-to-end with a state-of-the-art 2D dynamic reconstruction network, namely vSHARP, which effectively reconstructs the adaptive dynamic subsampled data into a moving image. Our method is assessed using dynamic cine cardiac MRI data, comparing its performance against vSHARP models that employ common subsampling trajectories, and pipelines trained to optimize dataset-specific sampling schemes alongside vSHARP reconstruction. Our results indicate superior reconstruction quality, particularly at high accelerations. | 翻訳日:2024-03-18 16:51:41 公開日:2024-03-15 |
# タスク難易度に基づく拡散モデルの学習カリキュラム
Denoising Task Difficulty-based Curriculum for Training Diffusion Models ( http://arxiv.org/abs/2403.10348v1 ) ライセンス: Link先を確認 | Jin-Young Kim, Hyojun Go, Soonwoo Kwon, Hyun-Gyoon Kim, | (参考訳) 拡散に基づく生成モデルは、生成モデリングの領域において強力なツールとして登場した。
様々な時間経過と騒音レベルを横断する認知度に関する広範な研究にもかかわらず、認知度タスクの相対的困難に関する紛争が続いている。
様々な研究が、より低いタイムステップはより困難なタスクをもたらすと主張する一方で、より高いタイムステップはより困難であると主張する者もいる。
この対立に対処するため,本研究では,時間経過間の連続確率分布間の収束挙動と相対エントロピーの変化に着目し,タスクの難易度を総合的に検討した。
以上の結果から, 早期の認知障害は, 緩やかな収束と高い相対エントロピーを特徴とする課題を呈し, より低い時間でのタスクの難易度の増加が示唆された。
本研究は,これらの観察に基づいて,拡散モデルの学習プロセスを強化するため,カリキュラム学習からの学習方法を提案する。
時間ステップやノイズレベルをクラスタに整理し,より難易度の高いトレーニングモデルを構築することにより,オーダーアウェアトレーニング体制の促進と,より容易なタスクから難解なタスクの進行を図り,すべてのタイムステップで同時に拡散モデルをトレーニングするという従来のアプローチから逸脱する。
本手法は,従来の拡散学習技術の改良と直交性を維持しつつ,カリキュラム学習の利点を活用することにより,性能の向上と収束の高速化につながる。
非条件,クラス条件,テキスト・ツー・イメージ生成など,画像生成タスクの総合的な実験を通じて,これらの利点を検証する。
Diffusion-based generative models have emerged as powerful tools in the realm of generative modeling. Despite extensive research on denoising across various timesteps and noise levels, a conflict persists regarding the relative difficulties of the denoising tasks. While various studies argue that lower timesteps present more challenging tasks, others contend that higher timesteps are more difficult. To address this conflict, our study undertakes a comprehensive examination of task difficulties, focusing on convergence behavior and changes in relative entropy between consecutive probability distributions across timesteps. Our observational study reveals that denoising at earlier timesteps poses challenges characterized by slower convergence and higher relative entropy, indicating increased task difficulty at these lower timesteps. Building on these observations, we introduce an easy-to-hard learning scheme, drawing from curriculum learning, to enhance the training process of diffusion models. By organizing timesteps or noise levels into clusters and training models with descending orders of difficulty, we facilitate an order-aware training regime, progressing from easier to harder denoising tasks, thereby deviating from the conventional approach of training diffusion models simultaneously across all timesteps. Our approach leads to improved performance and faster convergence by leveraging the benefits of curriculum learning, while maintaining orthogonality with existing improvements in diffusion training techniques. We validate these advantages through comprehensive experiments in image generation tasks, including unconditional, class-conditional, and text-to-image generation. | 翻訳日:2024-03-18 16:51:41 公開日:2024-03-15 |
# ParaPoint: 3次元点雲のグローバルな自由境界面パラメータ化学習
ParaPoint: Learning Global Free-Boundary Surface Parameterization of 3D Point Clouds ( http://arxiv.org/abs/2403.10349v1 ) ライセンス: Link先を確認 | Qijian Zhang, Junhui Hou, Ying He, | (参考訳) 表面パラメータ化は、下流のリッチアプリケーションにおける基本的な幾何学的処理問題である。
従来のアプローチは、特殊な3Dモデラーによって熱心に生産される高品質な三角測量を備えた、洗練されたメッシュモデルで運用するために設計されており、通常の3Dデータの現在の爆発に対する処理要求を満たすことができない。
本稿では,非構造3次元点雲上でUVアンラッピングを行う。
技術的には、与えられた3D点と適応的に変形した境界を持つ2次元UV座標間のポイントワイズマッピングを構築することにより、グローバルな自由境界面パラメータ化を実現するための教師なしニューラルネットワークパイプラインであるParaPointを提案する。
特定の機能を持つ幾何的に意味のあるサブネットワークを創発的に構築し、それらを双方向のサイクルマッピングフレームワークに組み立てる。
また,ニューラルネットワークの最適化に有効な損失関数と近似微分幾何学的制約を設計する。
我々の知る限りでは、この研究は、グローバルマッピングと自由境界の両方を追求するニューラルポイントクラウドパラメータ化の研究の最初の試みである。
提案した学習パラダイムの有効性と可能性を示す実験を行った。
コードは公開されます。
Surface parameterization is a fundamental geometry processing problem with rich downstream applications. Traditional approaches are designed to operate on well-behaved mesh models with high-quality triangulations that are laboriously produced by specialized 3D modelers, and thus unable to meet the processing demand for the current explosion of ordinary 3D data. In this paper, we seek to perform UV unwrapping on unstructured 3D point clouds. Technically, we propose ParaPoint, an unsupervised neural learning pipeline for achieving global free-boundary surface parameterization by building point-wise mappings between given 3D points and 2D UV coordinates with adaptively deformed boundaries. We ingeniously construct several geometrically meaningful sub-networks with specific functionalities, and assemble them into a bi-directional cycle mapping framework. We also design effective loss functions and auxiliary differential geometric constraints for the optimization of the neural mapping process. To the best of our knowledge, this work makes the first attempt to investigate neural point cloud parameterization that pursues both global mappings and free boundaries. Experiments demonstrate the effectiveness and inspiring potential of our proposed learning paradigm. The code will be publicly available. | 翻訳日:2024-03-18 16:51:41 公開日:2024-03-15 |
# TriSum: 構造化推論を用いた大規模言語モデルからの要約能力の学習
TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale ( http://arxiv.org/abs/2403.10351v1 ) ライセンス: Link先を確認 | Pengcheng Jiang, Cao Xiao, Zifeng Wang, Parminder Bhatia, Jimeng Sun, Jiawei Han, | (参考訳) 大規模言語モデル(LLM)の出現は、テキスト要約のような自然言語処理タスクを大幅に進歩させた。
しかし、その大きなサイズと計算上の要求は、データ転送におけるプライバシーの懸念と相まって、リソース制約やプライバシ中心の設定における使用を制限する。
そこで本研究では,LLMのテキスト要約能力を,コンパクトで局所的なモデルに蒸留するフレームワークであるTriSumを紹介する。
当初、LCMはアスペクトトリプルな有理数と要約の集合を抽出し、品質のためにデュアルスコリング法を用いて洗練する。
次に、より小さなローカルモデルをこれらのタスクで訓練し、単純なタスクから複雑なタスクへと進化するカリキュラム学習戦略を採用する。
提案手法は, 各種ベンチマーク(CNN/DailyMail, XSum, ClinicalTrial)における局所モデル性能を4.5%, 8.5%, 7.4%向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
The advent of large language models (LLMs) has significantly advanced natural language processing tasks like text summarization. However, their large size and computational demands, coupled with privacy concerns in data transmission, limit their use in resource-constrained and privacy-centric settings. To overcome this, we introduce TriSum, a framework for distilling LLMs' text summarization abilities into a compact, local model. Initially, LLMs extract a set of aspect-triple rationales and summaries, which are refined using a dual-scoring method for quality. Next, a smaller local model is trained with these tasks, employing a curriculum learning strategy that evolves from simple to complex tasks. Our method enhances local model performance on various benchmarks (CNN/DailyMail, XSum, and ClinicalTrial), outperforming baselines by 4.5%, 8.5%, and 7.4%, respectively. It also improves interpretability by providing insights into the summarization rationale. | 翻訳日:2024-03-18 16:41:56 公開日:2024-03-15 |
# SimPB:複数カメラからの2次元・3次元物体検出のための単一モデル
SimPB: A Single Model for 2D and 3D Object Detection from Multiple Cameras ( http://arxiv.org/abs/2403.10353v1 ) ライセンス: Link先を確認 | Yingqi Tang, Zhaotie Meng, Guoliang Chen, Erkang Cheng, | (参考訳) 自律運転の分野は、複数のカメラからバードアイビュー(Bird's Eye View, BEV)の3Dオブジェクトを直接推測するアプローチにかなりの関心を集めている。
単一画像からの2次元検出器の利用も検討され、3次元検出の性能が向上した。
しかし、これらのアプローチは異なる検出器を持つ2段階のプロセスに依存しており、2次元検出結果はトークンの選択やクエリ初期化のために1回だけ利用される。
本稿では,BEV空間内の2次元オブジェクトと3次元オブジェクトを同時に検出するSimPBという単一モデルを提案する。
そこで本研究では,複数のマルチビュー2次元デコーダ層と複数の3次元デコーダ層からなるハイブリッドデコーダを提案する。
動的クエリアロケーションモジュールと適応クエリアグリゲーションモジュールは,2Dと3Dの相互作用を周期的な3D-2D-3D方法で継続的に更新・改善するために提案される。
さらに、クエリグループ注意を利用して、各カメラグループ内の2Dクエリ間の相互作用を強化する。
実験では,本手法をnuScenesデータセット上で評価し,2次元および3次元検出タスクにおいて有望な結果を示す。
私たちのコードは、https://github.com/nullmax-vision/SimPBで利用可能です。
The field of autonomous driving has attracted considerable interest in approaches that directly infer 3D objects in the Bird's Eye View (BEV) from multiple cameras. Some attempts have also explored utilizing 2D detectors from single images to enhance the performance of 3D detection. However, these approaches rely on a two-stage process with separate detectors, where the 2D detection results are utilized only once for token selection or query initialization. In this paper, we present a single model termed SimPB, which simultaneously detects 2D objects in the perspective view and 3D objects in the BEV space from multiple cameras. To achieve this, we introduce a hybrid decoder consisting of several multi-view 2D decoder layers and several 3D decoder layers, specifically designed for their respective detection tasks. A Dynamic Query Allocation module and an Adaptive Query Aggregation module are proposed to continuously update and refine the interaction between 2D and 3D results, in a cyclic 3D-2D-3D manner. Additionally, Query-group Attention is utilized to strengthen the interaction among 2D queries within each camera group. In the experiments, we evaluate our method on the nuScenes dataset and demonstrate promising results for both 2D and 3D detection tasks. Our code is available at: https://github.com/nullmax-vision/SimPB. | 翻訳日:2024-03-18 16:41:56 公開日:2024-03-15 |
# エミッタキャビティ系からの有限時間光子抽出の最適化
Optimising finite-time photon extraction from emitter-cavity systems ( http://arxiv.org/abs/2403.10355v1 ) ライセンス: Link先を確認 | William J. Hughes, Joseph F. Goodwin, Peter Horak, | (参考訳) 本研究では,エミッタキャビティシステムから有限時間単一光子抽出限界を求める手法を開発した。
まず、正準$\Lambda$-systemから最大抽出確率を解析上および下限に設定し、複数の基底状態に一般化された$\Lambda$-systemsから一般的な出力確率を最適化する数値法を開発する。
これらの手法を用いて、有限時間光子抽出の限界と、それを満足するウェーブパレットについて検討し、正弦波と指数的に減衰するプロファイルの間で最適化されたウェーブパレットを用いることで、与えられた抽出効率の光子持続時間を著しく低減できることを示した。
さらに、エミッタ-光子相関を必要とする量子プロトコルの速度を最適化し、システムパラメータが成功確率に与える影響について駆動非依存の結論を得る。
これらの結果と手法は、高効率と高速度を組み合わせたキャビティベースの単一光子源の開発に有用なツールと洞察を提供すると信じている。
We develop methods to find the limits to finite-time single photon extraction from emitter-cavity systems. We first establish analytic upper and lower bounds on the maximum extraction probability from a canonical $\Lambda$-system before developing a numeric method to optimise generic output probabilities from $\Lambda$-systems generalised to multiple ground states. We use these methods to study the limits to finite-time photon extraction and the wavepackets that satisfy them, finding that using an optimised wavepacket ranging between a sinusoidal and exponentially decaying profile can considerably reduce photon duration for a given extraction efficiency. We further optimise the rates of quantum protocols requiring emitter-photon correlation to obtain driving-independent conclusions about the effect of system parameters on success probability. We believe that these results and methods will provide valuable tools and insights for the development of cavity-based single photon sources combining high efficiency and high rate. | 翻訳日:2024-03-18 16:41:56 公開日:2024-03-15 |
# ストレスを理解する: ソーシャルストレステストにおける心的算術的タスクのためのWebインターフェース
Understanding Stress: A Web Interface for Mental Arithmetic Tasks in a Trier Social Stress Test ( http://arxiv.org/abs/2403.10356v1 ) ライセンス: Link先を確認 | Manjeet Yadav, Nilesh Kumar Sahu, | (参考訳) ストレスは、脳の反応を反映する動的なプロセスである。
ストレスを測定する従来の方法は、しばしば時間がかかり、バイアスを思い出す可能性がある。
そこで本研究では,Trier Social Stress Test(TSST)における心拍数の変化について検討した。
本研究は、心的算術問題に様々なレベルの複雑さを取り入れた。
被験者のHRは, ストレスがHRに反映されることを示すベースラインや休息段階と比較して, メンタル・算術的タスクの段階で増加した。
Stress is a dynamic process that reflects the responses of the brain. Traditional methods for measuring stress are often time-consuming and susceptible to recall bias. To address this, we investigated changes in heart rate (HR) during the Trier Social Stress Test (TSST). Our study incorporated varying levels of complexity in mental arithmetic problems. Participants' HR increased during the Mental Arithmetic Task phase compared to baseline and resting stages, indicating that stress is reflected in HR. | 翻訳日:2024-03-18 16:41:56 公開日:2024-03-15 |
# ANIM:1枚のRGB-D画像からの人体再構成のための正確なニューラルインシシットモデル
ANIM: Accurate Neural Implicit Model for Human Reconstruction from a single RGB-D image ( http://arxiv.org/abs/2403.10357v1 ) ライセンス: Link先を確認 | Marco Pesavento, Yuanlu Xu, Nikolaos Sarafianos, Robert Maier, Ziyan Wang, Chun-Han Yao, Marco Volino, Edmond Boyer, Adrian Hilton, Tony Tung, | (参考訳) 人間の形状学習の最近の進歩は、ニューラル暗黙のモデルが、限られた数のビューから、さらには単一のRGB画像から3次元の人間の表面を生成するのに効果的であることを示している。
しかし、既存の単分子的アプローチは、顔、手、布のしわなどの細かい幾何学的詳細を回復するのに依然として苦労している。
また、カメラの光学軸に沿って歪んだジオメトリーをもたらす奥行きの曖昧さも容易に生じやすい。
本稿では,単視点RGB-D画像から任意の3次元形状を復元する新しい手法であるANIMを導入することにより,復元過程に深度観測を取り入れることのメリットを検討する。
本モデルでは, 深度情報を活用し, 空間的関係を緩和し, 奥行きの曖昧さを緩和するために, 多解像度画素整列とボクセル整列の両特徴から幾何学的詳細を学習する。
再建面上に位置する点の符号付き距離場推定の精度を向上させる深度スーパービジョン戦略を導入することにより、再建形状の質をさらに向上する。
実験によると、ANIMはRGB、表面正規、ポイントクラウド、RGB-Dデータを入力として使用する最先端の作業よりも優れている。
さらに、コンシューマグレードのRGB-Dカメラと組み合わせた高品質なスキャンを含む新しいマルチモーダルデータセットであるANIM-Realと、ANIMを微調整するためのプロトコルを導入し、現実世界の人間の捕獲から高品質な再構築を可能にする。
Recent progress in human shape learning, shows that neural implicit models are effective in generating 3D human surfaces from limited number of views, and even from a single RGB image. However, existing monocular approaches still struggle to recover fine geometric details such as face, hands or cloth wrinkles. They are also easily prone to depth ambiguities that result in distorted geometries along the camera optical axis. In this paper, we explore the benefits of incorporating depth observations in the reconstruction process by introducing ANIM, a novel method that reconstructs arbitrary 3D human shapes from single-view RGB-D images with an unprecedented level of accuracy. Our model learns geometric details from both multi-resolution pixel-aligned and voxel-aligned features to leverage depth information and enable spatial relationships, mitigating depth ambiguities. We further enhance the quality of the reconstructed shape by introducing a depth-supervision strategy, which improves the accuracy of the signed distance field estimation of points that lie on the reconstructed surface. Experiments demonstrate that ANIM outperforms state-of-the-art works that use RGB, surface normals, point cloud or RGB-D data as input. In addition, we introduce ANIM-Real, a new multi-modal dataset comprising high-quality scans paired with consumer-grade RGB-D camera, and our protocol to fine-tune ANIM, enabling high-quality reconstruction from real-world human capture. | 翻訳日:2024-03-18 16:41:56 公開日:2024-03-15 |
# 人気NFT市場におけるウォッシュトレーディングの展開
Unveiling Wash Trading in Popular NFT Markets ( http://arxiv.org/abs/2403.10361v1 ) ライセンス: Link先を確認 | Yuanzheng Niu, Xiaoqi Li, Hongli Peng, Wenkai Li, | (参考訳) 新興デジタル資産として、NFTは厳格な規制機構の欠如により異常な取引行動に陥り、経済的な損失をもたらす可能性がある。
本稿では,NFT(Non-fungible tokens)市場を最初に体系的に分析する。
具体的には、これらの市場における2500万件以上の取引を分析し、洗浄貿易活動の進化を探求する。
さらに,トランザクションのネットワーク特性と行動分析を統合したヒューリスティックなアルゴリズムを提案し,NFT市場における洗剤取引活動を検出する。
その結果, インセンティブのあるNFT市場は, インセンティブのない市場に比べて, 洗剤取引量の割合が高いことがわかった。
特に、LooksRareとX2Y2市場は、それぞれ94.5%と84.2%の洗剤取引量の割合で検出されている。
As emerging digital assets, NFTs are susceptible to anomalous trading behaviors due to the lack of stringent regulatory mechanisms, potentially causing economic losses. In this paper, we conduct the first systematic analysis of four non-fungible tokens (NFT) markets. Specifically, we analyze more than 25 million transactions within these markets, to explore the evolution of wash trade activities. Furthermore, we propose a heuristic algorithm that integrates the network characteristics of transactions with behavioral analysis, to detect wash trading activities in NFT markets. Our findings indicate that NFT markets with incentivized structures exhibit higher proportions of wash trading volume compared to those without incentives. Notably, the LooksRare and X2Y2 markets are detected with wash trading volume proportions as high as 94.5% and 84.2%, respectively. | 翻訳日:2024-03-18 16:41:56 公開日:2024-03-15 |
# CPGA:圧縮ビデオ品質向上のための符号化先導アグリゲーションネットワーク
CPGA: Coding Priors-Guided Aggregation Network for Compressed Video Quality Enhancement ( http://arxiv.org/abs/2403.10362v1 ) ライセンス: Link先を確認 | Qiang Zhu, Jinhua Hao, Yukang Ding, Yu Liu, Qiao Mo, Ming Sun, Chao Zhou, Shuyuan Zhu, | (参考訳) 近年、圧縮ビデオ品質向上(VQE)において、多くのアプローチが顕著な成功を収めている。
しかし、これらの手法は通常、時間的・空間的な情報を豊富に含む、モーションベクトルや残留フレームのような圧縮ビデオに本質的に埋め込まれた貴重な符号化先の利用を無視する。
この問題を解決するために,コーディング先行情報から時間的・空間的情報を利用するCPGA(Coding Priors-Guided Aggregation)ネットワークを提案する。
CPGAは主にフレーム間時間アグリゲーション(ITA)モジュールとマルチスケール非局所アグリゲーション(MNA)モジュールで構成される。
具体的には、ITAモジュールは連続フレームと符号化前の時間情報を集約し、MNAモジュールは残留フレームによって導かれる空間情報をグローバルにキャプチャする。
さらに,VQEタスクの研究を容易にするために,ビデオ符号化優先(VCP)データセットを新たに構築した。
コーディング情報の欠如について、以前のデータセットの不足を是正する。
実験により,既存の最先端手法と比較して,本手法の優位性を示した。
コードとデータセットはhttps://github.com/CPGA/CPGA.gitで公開される。
Recently, numerous approaches have achieved notable success in compressed video quality enhancement (VQE). However, these methods usually ignore the utilization of valuable coding priors inherently embedded in compressed videos, such as motion vectors and residual frames, which carry abundant temporal and spatial information. To remedy this problem, we propose the Coding Priors-Guided Aggregation (CPGA) network to utilize temporal and spatial information from coding priors. The CPGA mainly consists of an inter-frame temporal aggregation (ITA) module and a multi-scale non-local aggregation (MNA) module. Specifically, the ITA module aggregates temporal information from consecutive frames and coding priors, while the MNA module globally captures spatial information guided by residual frames. In addition, to facilitate research in VQE task, we newly construct the Video Coding Priors (VCP) dataset, comprising 300 videos with various coding priors extracted from corresponding bitstreams. It remedies the shortage of previous datasets on the lack of coding information. Experimental results demonstrate the superiority of our method compared to existing state-of-the-art methods. The code and dataset will be released at https://github.com/CPGA/CPGA.git. | 翻訳日:2024-03-18 16:41:56 公開日:2024-03-15 |
# 個人選好安定クラスタリングのためのスケーラブルアルゴリズム
Scalable Algorithms for Individual Preference Stable Clustering ( http://arxiv.org/abs/2403.10365v1 ) ライセンス: Link先を確認 | Ron Mosenzon, Ali Vakilian, | (参考訳) 本稿では、クラスタリングにおける個人の公正性と安定性を捉える概念である、個人の嗜好(IP)安定性について検討する。
この設定内で、クラスタリングは、各データポイントのクラスタへの平均距離が他のクラスタへの平均距離の$\alpha$-IP 倍以下である場合、$\alpha$-IP 安定である。
本稿では,IP安定クラスタリングのための自然局所探索アルゴリズムについて検討する。
このアルゴリズムでは,$O(\log n)$-IP安定性が保証され,$n$は入力の点数を表す。
さらに、局所的な探索手法を洗練することにより、ほぼ線形時間で、$\tilde{O}(nk)$で実行されることを示す。
In this paper, we study the individual preference (IP) stability, which is an notion capturing individual fairness and stability in clustering. Within this setting, a clustering is $\alpha$-IP stable when each data point's average distance to its cluster is no more than $\alpha$ times its average distance to any other cluster. In this paper, we study the natural local search algorithm for IP stable clustering. Our analysis confirms a $O(\log n)$-IP stability guarantee for this algorithm, where $n$ denotes the number of points in the input. Furthermore, by refining the local search approach, we show it runs in an almost linear time, $\tilde{O}(nk)$. | 翻訳日:2024-03-18 16:41:56 公開日:2024-03-15 |
# 手話における非手話マーカーの言語学的解析のためのメディアパイプホロスティックテスト
Testing MediaPipe Holistic for Linguistic Analysis of Nonmanual Markers in Sign Languages ( http://arxiv.org/abs/2403.10367v1 ) ライセンス: Link先を確認 | Anna Kuznetsova, Vadim Kimmelman, | (参考訳) Deep Learningの進歩は、さまざまなタスクに使用できる人体と顔の信頼できるランドマーク追跡を可能にした。
最近のコンピュータビジョンソリューションであるMediaPipe Holistic (MPH) をテストし、顔の特徴の追跡が手話からのデータの言語学的分析に十分信頼できるかどうかを確認し、それを古いソリューション(OpenFace, OF)と比較する。
我々は、カザフ語とロシア語の手話における既存の文のデータセットと、頭傾きと眼球運動を備えたビデオの小さなデータセットを使用する。
眼球運動の言語学的解析にはMPHが十分ではないことが分かりました。
我々は、これらの制限を克服するために追加の修正モデルをトレーニングする以前の提案を再検討する。
Advances in Deep Learning have made possible reliable landmark tracking of human bodies and faces that can be used for a variety of tasks. We test a recent Computer Vision solution, MediaPipe Holistic (MPH), to find out if its tracking of the facial features is reliable enough for a linguistic analysis of data from sign languages, and compare it to an older solution (OpenFace, OF). We use an existing data set of sentences in Kazakh-Russian Sign Language and a newly created small data set of videos with head tilts and eyebrow movements. We find that MPH does not perform well enough for linguistic analysis of eyebrow movement -- but in a different way from OF, which is also performing poorly without correction. We reiterate a previous proposal to train additional correction models to overcome these limitations. | 翻訳日:2024-03-18 16:41:56 公開日:2024-03-15 |
# 確率論的ロバストなスケーラブル機械学習分類のためのコンフォーマル予測
Conformal Predictions for Probabilistically Robust Scalable Machine Learning Classification ( http://arxiv.org/abs/2403.10368v1 ) ライセンス: Link先を確認 | Alberto Carlevaro, Teodoro Alamo Cantarero, Fabrizio Dabbene, Maurizio Mongelli, | (参考訳) コンフォーマルな予測により、信頼性と堅牢な学習アルゴリズムを定義することができる。
しかし、それらは本質的には、アルゴリズムが実際に使われるのに十分であるかどうかを評価する方法である。
設計当初から信頼性の高い分類用学習フレームワークを定義するために,統計的順序理論と確率論的学習理論にリンクすることで古典的分類器の概念を一般化するために,スケーラブルな分類器の概念を導入した。
本稿では,スケーラブルな分類器とコンフォメーション予測の類似性を,スコア関数の新たな定義を導入し,入力変数の特別なセットを定義することで解析する。例えば,このセットに属する点に対する誤り(おそらく安全でない)ラベルを観測する確率は,予め定義された$\varepsilon$エラーレベルによって制限される。
我々は,DNSトンネリング攻撃を識別するためのサイバーセキュリティの応用を通じて,この枠組みの実践的意義を実証する。
我々の研究は確率論的に堅牢で信頼性の高い機械学習モデルの開発に寄与する。
Conformal predictions make it possible to define reliable and robust learning algorithms. But they are essentially a method for evaluating whether an algorithm is good enough to be used in practice. To define a reliable learning framework for classification from the very beginning of its design, the concept of scalable classifier was introduced to generalize the concept of classical classifier by linking it to statistical order theory and probabilistic learning theory. In this paper, we analyze the similarities between scalable classifiers and conformal predictions by introducing a new definition of a score function and defining a special set of input variables, the conformal safety set, which can identify patterns in the input space that satisfy the error coverage guarantee, i.e., that the probability of observing the wrong (possibly unsafe) label for points belonging to this set is bounded by a predefined $\varepsilon$ error level. We demonstrate the practical implications of this framework through an application in cybersecurity for identifying DNS tunneling attacks. Our work contributes to the development of probabilistically robust and reliable machine learning models. | 翻訳日:2024-03-18 16:41:56 公開日:2024-03-15 |
# Open Stamped Parts Dataset
Open Stamped Parts Dataset ( http://arxiv.org/abs/2403.10369v1 ) ライセンス: Link先を確認 | Sara Antiles, Sachin S. Talathi, | (参考訳) 自動車製造用の切削金属シートの合成および実像を特徴とするオープンスタンプ部品データセット(OSPD)について述べる。
実際の写真は7台のカメラから撮影され、7,980枚の未ラベル画像と1,680枚のラベル画像で構成されている。
さらに, ホールの10%に合成マスクをオーバーレイすることで, 欠陥データセットをコンパイルした。
合成データセットは、実際の製造環境を、カメラに対する照明と部分配置の観点から再現する。
合成データは、訓練用画像7,980枚、検証用画像1,680枚、テスト用画像1,680枚を含む。
合成データの穴の10%は、実際の画像データセットで生成された欠陥を模倣している。
合成OSPDのホール検出モデルを訓練し,67.2%,94.4%の精度でリコールスコアを修正した。
我々はOSPDを用いた自動車製造、より広範な機械学習およびコンピュータビジョンのコミュニティの研究者が、金属シートスタンププロセスにおける切削孔の欠陥検出の最先端を推し進めることを期待している。
データセットは、https://tinyurl.com/hm6xatd7.comでダウンロードできる。
We present the Open Stamped Parts Dataset (OSPD), featuring synthetic and real images of stamped metal sheets for auto manufacturing. The real part images, captured from 7 cameras, consist of 7,980 unlabeled images and 1,680 labeled images. In addition, we have compiled a defect dataset by overlaying synthetically generated masks on 10% of the holes. The synthetic dataset replicates the real manufacturing environment in terms of lighting and part placement relative to the cameras. The synthetic data includes 7,980 training images, 1,680 validation images and 1,680 test images, each with bounding box and segmentation mask annotations around all holes. 10% of the holes in the synthetic data mimic defects generated in the real image dataset. We trained a hole-detection model on the synthetic-OSPD, achieving a modified recall score of 67.2% and a precision of 94.4% . We anticipate researchers in the auto manufacturing and broader machine learning and computer vision communities using OSPD to advance the state of the art in defect detection of stamped holes in the metalsheet stamping process. The dataset is available for download at: https://tinyurl.com/hm6xatd7 | 翻訳日:2024-03-18 16:41:56 公開日:2024-03-15 |
# IoTアプリケーションにおけるデータ不完全性を緩和するためのエネルギー効率の良いアンサンブルアプローチ
An Energy-Efficient Ensemble Approach for Mitigating Data Incompleteness in IoT Applications ( http://arxiv.org/abs/2403.10371v1 ) ライセンス: Link先を確認 | Yousef AlShehri, Lakshmish Ramaswamy, | (参考訳) IoTベースのアプリケーションでは、マシンラーニング(ML)がますます重要になっています。
しかし、多くのIoTエコシステムの動的でアドホックな性質は、MLアルゴリズムの有効性に固有の課題をもたらしている。
このような課題の1つはデータの不完全性であり、センサーの読み取りが不足していることが示される。
センサーの故障やネットワークの破壊など、多くの要因がデータの不完全性を引き起こす可能性がある。
さらに、ほとんどのIoTシステムは、電力制限が厳しい。
同時にエネルギー効率を向上しつつ、データの不完全性に対して堅牢なIoTベースのMLシステムを構築することが重要です。
本稿では,IoTにおけるデータ不完全性を緩和する最近の技術であるSECOEのエネルギーボトルネックに関する実証的研究について述べる。
本研究は,SECOEのエネルギーボトルネックに対処するために,同時欠落データの影響を軽減するための,能動的かつエネルギーに配慮した手法であるENAMLEを提案する。
ENAMLEは、エネルギーを意識したサブモデルのアンサンブルを構築するという意味ではユニークなもので、それぞれが相関関係に基づいて慎重に選択されたセンサーのサブセットで訓練されている。
さらに、推定時にENAMLEは、欠落データ率とエネルギー精度トレードオフに基づいてモデルのアンサンブル数を適応的に変更する。
ENAMLEの設計には、精度を維持しながらエネルギー消費を最小限に抑えるためのいくつかの新しいメカニズムが含まれている。
本研究では,ENAMLEのエネルギー効率とセンサ故障を緩和する能力を示す2つの異なるデータセットについて広範な実験を行った。
Machine Learning (ML) is becoming increasingly important for IoT-based applications. However, the dynamic and ad-hoc nature of many IoT ecosystems poses unique challenges to the efficacy of ML algorithms. One such challenge is data incompleteness, which is manifested as missing sensor readings. Many factors, including sensor failures and/or network disruption, can cause data incompleteness. Furthermore, most IoT systems are severely power-constrained. It is important that we build IoT-based ML systems that are robust against data incompleteness while simultaneously being energy efficient. This paper presents an empirical study of SECOE - a recent technique for alleviating data incompleteness in IoT - with respect to its energy bottlenecks. Towards addressing the energy bottlenecks of SECOE, we propose ENAMLE - a proactive, energy-aware technique for mitigating the impact of concurrent missing data. ENAMLE is unique in the sense that it builds an energy-aware ensemble of sub-models, each trained with a subset of sensors chosen carefully based on their correlations. Furthermore, at inference time, ENAMLE adaptively alters the number of the ensemble of models based on the amount of missing data rate and the energy-accuracy trade-off. ENAMLE's design includes several novel mechanisms for minimizing energy consumption while maintaining accuracy. We present extensive experimental studies on two distinct datasets that demonstrate the energy efficiency of ENAMLE and its ability to alleviate sensor failures. | 翻訳日:2024-03-18 16:41:56 公開日:2024-03-15 |
# 全MDSおよびインボリュートリーMDS行列の構成
Construction of all MDS and involutory MDS matrices ( http://arxiv.org/abs/2403.10372v1 ) ライセンス: Link先を確認 | Yogesh Kumar, P. R. Mishra, Susanta Samanta, Kishan Chand Gupta, Atul Gaur, | (参考訳) 本稿では, 有限体 $\mathbb{F}_{p^m}$ 上のすべての$n\times n$ MDS と involutory MDS のハイブリッド構成のための2つのアルゴリズムを提案する。
提案アルゴリズムは探索空間を効果的に狭め、$(n-1) \times (n-1)$ MDS 行列を同定し、$n \times n$ MDS および $\mathbb{F}_{p^m}$ 上のインボリュートリー MDS 行列を生成する。
我々の知る限り、既存の文献は$n\times n$ MDS と $\mathbb{F}_{p^m}$ 上の不揮発性 MDS 行列を生成する方法が欠けている。
提案手法では,すべての$n\times n$ MDS および $\mathbb{F}_{p^m}$ 上のインボリュートな MDS 行列を生成するための代表行列形式を導入する。
これらの代表的MDS行列の決定は、$(n-1)$ MDS行列を$\mathbb{F}_{p^m}$で探索することを含む。
我々の貢献は、$\mathbb{F}_{2^m}$ 上の$$3\times 3$ MDS行列の数を正確に$(2^m-1)^5(2^m-2)(2^m-3)(2^{2m}-9\cdot 2^m+21)$ とする証明にまで拡張している。
さらに、$4\times 4$ MDS と involutory MDS matrices over $\mathbb{F}_{2^m}$ for $m=2, 3, 4$ を明示的に表す。
In this paper, we propose two algorithms for a hybrid construction of all $n\times n$ MDS and involutory MDS matrices over a finite field $\mathbb{F}_{p^m}$, respectively. The proposed algorithms effectively narrow down the search space to identify $(n-1) \times (n-1)$ MDS matrices, facilitating the generation of all $n \times n$ MDS and involutory MDS matrices over $\mathbb{F}_{p^m}$. To the best of our knowledge, existing literature lacks methods for generating all $n\times n$ MDS and involutory MDS matrices over $\mathbb{F}_{p^m}$. In our approach, we introduce a representative matrix form for generating all $n\times n$ MDS and involutory MDS matrices over $\mathbb{F}_{p^m}$. The determination of these representative MDS matrices involves searching through all $(n-1)\times (n-1)$ MDS matrices over $\mathbb{F}_{p^m}$. Our contributions extend to proving that the count of all $3\times 3$ MDS matrices over $\mathbb{F}_{2^m}$ is precisely $(2^m-1)^5(2^m-2)(2^m-3)(2^{2m}-9\cdot 2^m+21)$. Furthermore, we explicitly provide the count of all $4\times 4$ MDS and involutory MDS matrices over $\mathbb{F}_{2^m}$ for $m=2, 3, 4$. | 翻訳日:2024-03-18 16:41:56 公開日:2024-03-15 |
# XAI法による分類器の性能向上のための汎用フレームワーク
Towards a general framework for improving the performance of classifiers using XAI methods ( http://arxiv.org/abs/2403.10373v1 ) ライセンス: Link先を確認 | Andrea Apicella, Salvatore Giugliano, Francesco Isgrò, Roberto Prevete, | (参考訳) 現代の人工知能(AI)システム、特にディープラーニング(DL)モデルは、AI研究者による内部動作を理解する上での課題を提起している。
eXplainable Artificial Intelligence (XAI)は、AIモデルの内部メカニズムを検査し、その決定についての説明を提供する。
現在のXAI研究は、主にAIシステムの説明に集中しているが、AIシステム自体のパフォーマンスを自動改善するためにXAI技術を使うことへの関心が高まっている。
本稿では,XAI手法を用いて事前学習したDL分類器の性能を自動改善する汎用フレームワークを提案し,複雑なモデルの再学習に伴う計算オーバーヘッドをゼロから回避する。
特に,このアーキテクチャの実装には,オートエンコーダベースとエンコーダデコーダベースという2つの異なる学習戦略の可能性について概説し,その重要な側面について論じる。
Modern Artificial Intelligence (AI) systems, especially Deep Learning (DL) models, poses challenges in understanding their inner workings by AI researchers. eXplainable Artificial Intelligence (XAI) inspects internal mechanisms of AI models providing explanations about their decisions. While current XAI research predominantly concentrates on explaining AI systems, there is a growing interest in using XAI techniques to automatically improve the performance of AI systems themselves. This paper proposes a general framework for automatically improving the performance of pre-trained DL classifiers using XAI methods, avoiding the computational overhead associated with retraining complex models from scratch. In particular, we outline the possibility of two different learning strategies for implementing this architecture, which we will call auto-encoder-based and encoder-decoder-based, and discuss their key aspects. | 翻訳日:2024-03-18 16:41:56 公開日:2024-03-15 |
# 試験時間学習によるプラグアンドプレイ法における配電シフトの克服
Overcoming Distribution Shifts in Plug-and-Play Methods with Test-Time Training ( http://arxiv.org/abs/2403.10374v1 ) ライセンス: Link先を確認 | Edward P. Chandler, Shirin Shoushtari, Jiaming Liu, M. Salman Asif, Ulugbek S. Kamilov, | (参考訳) プラグ・アンド・プレイ優先法 (Plug-and-Play Priors, PnP) は、計算画像における逆問題の解法としてよく知られている。
PnP法は物理フォワードモデルと画像デノイザとして指定された学習前のモデルを組み合わせる。
学習したモデルの一般的な問題は、トレーニングデータとテストデータの間に分散シフトがある場合のパフォーマンス低下である。
テストタイムトレーニング(TTT)は,学習モデルの性能向上のための一般的な戦略として提案されている。
本稿では,PnPにおける分布シフトを克服する新しい手法として,PnP-TTTを提案する。
PnP-TTT は、PnP 反復の固定点における自己教師付き損失を最適化するために、Deep equilibrium learning (DEQ) を用いる。
PnP-TTTは、PnPの一般化を改善するために、1つのテストサンプルに直接適用することができる。
PnP-TTTは、十分な量の計測値が与えられているシミュレーションを通して、自然画像に基づいて訓練された画像プリエントを、MRI(MRI)における画像再構成に利用することができることを示す。
Plug-and-Play Priors (PnP) is a well-known class of methods for solving inverse problems in computational imaging. PnP methods combine physical forward models with learned prior models specified as image denoisers. A common issue with the learned models is that of a performance drop when there is a distribution shift between the training and testing data. Test-time training (TTT) was recently proposed as a general strategy for improving the performance of learned models when training and testing data come from different distributions. In this paper, we propose PnP-TTT as a new method for overcoming distribution shifts in PnP. PnP-TTT uses deep equilibrium learning (DEQ) for optimizing a self-supervised loss at the fixed points of PnP iterations. PnP-TTT can be directly applied on a single test sample to improve the generalization of PnP. We show through simulations that given a sufficient number of measurements, PnP-TTT enables the use of image priors trained on natural images for image reconstruction in magnetic resonance imaging (MRI). | 翻訳日:2024-03-18 16:41:56 公開日:2024-03-15 |
# PASTA: フレキシブルかつ高能率なHDRイメージングを目指して : 時空間アグリゲーションの進歩
PASTA: Towards Flexible and Efficient HDR Imaging Via Progressively Aggregated Spatio-Temporal Aligment ( http://arxiv.org/abs/2403.10376v1 ) ライセンス: Link先を確認 | Xiaoning Liu, Ao Li, Zongwei Wu, Yapeng Du, Le Zhang, Yulun Zhang, Radu Timofte, Ce Zhu, | (参考訳) トランスフォーマーの注目の活用は、HDRデゴーストの大幅な進歩につながった。
しかし、特に2Kのような高解像度画像の場合、既存の最先端の手法ではハイエンドGPUを要求されるか、推論速度が遅いため、自己注意の複雑な性質は現実的な課題をもたらす。
パフォーマンスとレイテンシの最適なバランスを取ることは、依然として重要な問題です。
これに対し,本研究は,HDRデゴスティングのためのプログレッシブ・アグリゲーション・スパノラティカルアライメント・フレームワークであるPASTAを提示する。
提案手法は,特徴分散中の階層的表現を活用することにより,有効性と効率性を実現する。
階層構造における多様な粒度の利用により,計算速度を大幅に向上し,HDR画像のワークフローを最適化する。
さらに,局所的,世界的注目を集める大規模特徴モデリングについても検討し,徐々に融合し,より粗い方法で精錬する。
実験結果から,従来のSOTA法よりも3倍(x3)の推算速度が向上し,視覚的品質と性能の両指標がPASTAの優位性を示した。
Leveraging Transformer attention has led to great advancements in HDR deghosting. However, the intricate nature of self-attention introduces practical challenges, as existing state-of-the-art methods often demand high-end GPUs or exhibit slow inference speeds, especially for high-resolution images like 2K. Striking an optimal balance between performance and latency remains a critical concern. In response, this work presents PASTA, a novel Progressively Aggregated Spatio-Temporal Alignment framework for HDR deghosting. Our approach achieves effectiveness and efficiency by harnessing hierarchical representation during feature distanglement. Through the utilization of diverse granularities within the hierarchical structure, our method substantially boosts computational speed and optimizes the HDR imaging workflow. In addition, we explore within-scale feature modeling with local and global attention, gradually merging and refining them in a coarse-to-fine fashion. Experimental results showcase PASTA's superiority over current SOTA methods in both visual quality and performance metrics, accompanied by a substantial 3-fold (x3) increase in inference speed. | 翻訳日:2024-03-18 16:32:11 公開日:2024-03-15 |
# EXAMS-V:視覚言語モデル評価のための多分野多言語マルチモーダルエクサムベンチマーク
EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models ( http://arxiv.org/abs/2403.10378v1 ) ライセンス: Link先を確認 | Rocktim Jyoti Das, Simeon Emilov Hristov, Haonan Li, Dimitar Iliyanov Dimitrov, Ivan Koychev, Preslav Nakov, | (参考訳) EXAMS-Vは視覚言語モデルを評価するためのマルチディシプリルマルチモーダル多言語試験ベンチマークである。
自然科学、社会科学、その他の雑学(宗教、美術、ビジネスなど)を対象とする20の科目にわたる20,932の質問からなる。
EXAMS-Vには、テキスト、画像、テーブル、図、図、地図、科学記号、方程式など、さまざまなマルチモーダル機能が含まれている。
質問は7つの言語ファミリーから11の言語で行われます。
既存のベンチマークとは異なり、EXAMS-Vは様々な教育システムを備えた様々な国の学校試験の質問を収集することによって、独自にキュレーションされている。
この独特なアプローチは、多言語にわたる複雑な推論を要求し、地域固有の知識に依存している。
データセットの問題を解決するには、テキストと画像の視覚的内容に対する高度な認識と共同推論が必要である。
評価結果は,GPT-4VやGeminiのような高度な視覚テキストモデルにおいても困難なデータセットであることを示す。
We introduce EXAMS-V, a new challenging multi-discipline multimodal multilingual exam benchmark for evaluating vision language models. It consists of 20,932 multiple-choice questions across 20 school disciplines covering natural science, social science, and other miscellaneous studies, e.g., religion, fine arts, business, etc. EXAMS-V includes a variety of multimodal features such as text, images, tables, figures, diagrams, maps, scientific symbols, and equations. The questions come in 11 languages from 7 language families. Unlike existing benchmarks, EXAMS-V is uniquely curated by gathering school exam questions from various countries, with a variety of education systems. This distinctive approach calls for intricate reasoning across diverse languages and relies on region-specific knowledge. Solving the problems in the dataset requires advanced perception and joint reasoning over the text and the visual content of the image. Our evaluation results demonstrate that this is a challenging dataset, which is difficult even for advanced vision-text models such as GPT-4V and Gemini; this underscores the inherent complexity of the dataset and its significance as a future benchmark. | 翻訳日:2024-03-18 16:32:11 公開日:2024-03-15 |
# サドルポイント最適化によるレグレト最小化
Regret Minimization via Saddle Point Optimization ( http://arxiv.org/abs/2403.10379v1 ) ライセンス: Link先を確認 | Johannes Kirschner, Seyed Alireza Bakhtiari, Kushagra Chandak, Volodymyr Tkachuk, Csaba Szepesvári, | (参考訳) 長い一連の研究は、min-maxプログラムによるシーケンシャルな意思決定における後悔の最小化のサンプルの複雑さを特徴づけている。
対応するサドルポイントゲームにおいて、ミニプレイヤは、大きな後悔につながる混乱モデルを選択する敵極大プレーヤに対してサンプリング分布を最適化する。
このアイデアの最も最近のインスタンス化は決定推定係数 (DEC) であり、これは構造的バンディットと強化学習における最悪のケースで予想される後悔に対して、ほぼ確実に下限と上限を提供することを示した。
オフセットDECを信頼半径で再パラメータ化し、対応するmin-maxプログラムを解くことにより、推定-to-Decisions(E2D)アルゴリズムの時変を導出する。
重要な点として、このアルゴリズムは、分析によってではなく、オンラインでの探索と探索のトレードオフを最適化する。
我々の定式化は有限モデルクラスと線形フィードバックモデルのための実用的なアルゴリズムにつながる。
さらに、情報比、疎結合係数、PAC-DECとの接続を指摘し、簡単な例でE2Dの性能を数値的に評価する。
A long line of works characterizes the sample complexity of regret minimization in sequential decision-making by min-max programs. In the corresponding saddle-point game, the min-player optimizes the sampling distribution against an adversarial max-player that chooses confusing models leading to large regret. The most recent instantiation of this idea is the decision-estimation coefficient (DEC), which was shown to provide nearly tight lower and upper bounds on the worst-case expected regret in structured bandits and reinforcement learning. By re-parametrizing the offset DEC with the confidence radius and solving the corresponding min-max program, we derive an anytime variant of the Estimation-To-Decisions (E2D) algorithm. Importantly, the algorithm optimizes the exploration-exploitation trade-off online instead of via the analysis. Our formulation leads to a practical algorithm for finite model classes and linear feedback models. We further point out connections to the information ratio, decoupling coefficient and PAC-DEC, and numerically evaluate the performance of E2D on simple examples. | 翻訳日:2024-03-18 16:32:11 公開日:2024-03-15 |
# BirdSet: 鳥類のバイオ音響学の分類のためのマルチタスクベンチマーク
BirdSet: A Multi-Task Benchmark for Classification in Avian Bioacoustics ( http://arxiv.org/abs/2403.10380v1 ) ライセンス: Link先を確認 | Lukas Rauch, Raphael Schwinger, Moritz Wirth, René Heinrich, Jonas Lange, Stefan Kahl, Bernhard Sick, Sven Tomforde, Christoph Scholz, | (参考訳) 深層学習(DL)モデルは、環境の健康と生物多様性を診断するために、鳥類のバイオ音響学において強力なツールとして登場した。
しかし、研究の不整合は、この分野の進歩を妨げる顕著な課題を招いている。
信頼性の高いDLモデルは、費用対効果の高い受動的音響監視シナリオにおいて生体音響学の可能性を完全に活用するために、様々な種や環境の鳥の鳴き声を柔軟に分析する必要がある。
研究におけるデータの断片化と不透明度は、一般的なモデル性能の包括的評価を複雑にする。
これらの課題を克服するために,鳥の鳴き声の分類のための総合的なアプローチで研究活動を統合する統一的なフレームワークであるBirdSetベンチマークを提案する。
BirdSetはオープンソースのバードレコーディングを、キュレートされたデータセットコレクションに調和させる。
この統一されたアプローチは、モデルパフォーマンスの深い理解を提供し、異なるタスクにまたがる潜在的な欠点を特定する。
BirdSetは、現在のモデルのベースライン結果を確立することによって、コンパラビリティの促進、その後のデータ収集のガイド、鳥のバイオ音響学への新規参入者へのアクセシビリティの向上を目指している。
Deep learning (DL) models have emerged as a powerful tool in avian bioacoustics to diagnose environmental health and biodiversity. However, inconsistencies in research pose notable challenges hindering progress in this domain. Reliable DL models need to analyze bird calls flexibly across various species and environments to fully harness the potential of bioacoustics in a cost-effective passive acoustic monitoring scenario. Data fragmentation and opacity across studies complicate a comprehensive evaluation of general model performance. To overcome these challenges, we present the BirdSet benchmark, a unified framework consolidating research efforts with a holistic approach for classifying bird vocalizations in avian bioacoustics. BirdSet harmonizes open-source bird recordings into a curated dataset collection. This unified approach provides an in-depth understanding of model performance and identifies potential shortcomings across different tasks. By establishing baseline results of current models, BirdSet aims to facilitate comparability, guide subsequent data collection, and increase accessibility for newcomers to avian bioacoustics. | 翻訳日:2024-03-18 16:32:11 公開日:2024-03-15 |
# 言語モデルにおける数値特性の単調表現
Monotonic Representation of Numeric Properties in Language Models ( http://arxiv.org/abs/2403.10381v1 ) ライセンス: Link先を確認 | Benjamin Heinzerling, Kentaro Inui, | (参考訳) 言語モデル(LM)は、1902年生まれのカール・ポッパーのような数値的な性質に関する事実的な知識を表現することができる。
しかし、この情報をモデルの内部表現にエンコードする方法はよく理解されていない。
本稿では,エンティティの誕生年などの数値特性の表現を簡易に発見・編集する手法を提案する。
経験的に、数値特性を単調に符号化する低次元部分空間を解釈可能かつ編集可能な方法で発見する。
これらの部分空間の方向に沿って表現を編集するとき、LM出力はそれに従って変化する。
カール・ポッパー(Karl Popper)は1929年生まれ、カール・ポッパー(Karl Popper)は1957年生まれ、カール・ポッパー(Karl Popper)は1968年生まれである。
プロパティエンコーディングの方向は、すべてのモデルにおいて考慮されているいくつかの数値特性にまたがって存在し、LM事前学習中に、数値特性の単調表現が一貫して現れる可能性を示唆している。
コード:https://github.com/bheinzerling/numeric-property-repr
Language models (LMs) can express factual knowledge involving numeric properties such as Karl Popper was born in 1902. However, how this information is encoded in the model's internal representations is not understood well. Here, we introduce a simple method for finding and editing representations of numeric properties such as an entity's birth year. Empirically, we find low-dimensional subspaces that encode numeric properties monotonically, in an interpretable and editable fashion. When editing representations along directions in these subspaces, LM output changes accordingly. For example, by patching activations along a "birthyear" direction we can make the LM express an increasingly late birthyear: Karl Popper was born in 1929, Karl Popper was born in 1957, Karl Popper was born in 1968. Property-encoding directions exist across several numeric properties in all models under consideration, suggesting the possibility that monotonic representation of numeric properties consistently emerges during LM pretraining. Code: https://github.com/bheinzerling/numeric-property-repr | 翻訳日:2024-03-18 16:32:11 公開日:2024-03-15 |
# SSHフォトニック格子における位相領域壁を介する非古典光の輸送
Transport of non-classical light mediated by topological domain walls in a SSH photonic lattice ( http://arxiv.org/abs/2403.10387v1 ) ライセンス: Link先を確認 | Gabriel O'Ryan, Joaquín Medina Dueñas, Diego Guzmán-Silva, Luis E. F. Foa Torres, Carla Hermann-Avigliano, | (参考訳) フォトニクス技術の進歩は、室温でも量子光を含む実験を促進する能力を大幅に強化した。
それでも、量子光源、光の効果的な操作、損失の最小化、そして適切な検出システムを含む、完全に統合されたフォトニックチップは、現在も進行中の課題である。
トポロジカル・フォトニック・システムは、単に光の強度を保存するだけでなく、伝播中の量子光特性を保護するための有望なプラットフォームとして登場した。
本研究では、位相領域の壁を持つSu-Schrieffer-Heegerフォトニック格子を横断する非古典的な光のダイナミクスを探索する。
我々の焦点は、トポロジーが光の量子的性質にどのように影響するかに焦点を当てている。
導波路間の間隔を正確に調整することにより、ドメイン壁の動的再配置と相互作用を実現し、効率的なビーム分割操作を容易にする。
本研究は, 格子を横断する非古典光の高忠実輸送を実証し, システムトポロジで保護されている既知結果を再現した。
この保護は、連続的な可変状態を持つ量子通信プロトコルにとって特に有益である。
本研究では、トポロジカルフォトニック系の光力学の理解を深め、高忠実でトポロジに保護された量子通信の道を開く。
Advancements in photonics technologies have significantly enhanced their capability to facilitate experiments involving quantum light, even at room temperature. Nevertheless, fully integrating photonic chips that include quantum light sources, effective manipulation and transport of light minimizing losses, and appropriate detection systems remains an ongoing challenge. Topological photonic systems have emerged as promising platforms to protect quantum light properties during propagation, beyond merely preserving light intensity. In this work, we delve into the dynamics of non-classical light traversing a Su-Schrieffer-Heeger photonic lattice with topological domain walls. Our focus centers on how topology influences the quantum properties of light as it moves across the array. By precisely adjusting the spacing between waveguides, we achieve dynamic repositioning and interaction of domain walls, facilitating effective beam-splitting operations. Our findings demonstrate high-fidelity transport of non-classical light across the lattice, replicating known results that are now safeguarded by the topology of the system. This protection is especially beneficial for quantum communication protocols with continuous variable states. Our study enhances the understanding of light dynamics in topological photonic systems and paves the way for high-fidelity, topology-protected quantum communication. | 翻訳日:2024-03-18 16:32:11 公開日:2024-03-15 |
# 実スペクトルと選択的皮膚効果を持つ非エルミート系
Non-Hermitian systems with a real spectrum and selective skin effect ( http://arxiv.org/abs/2403.10389v1 ) ライセンス: Link先を確認 | Li Ge, | (参考訳) この研究でまず、実スペクトルを持つ非エルミートハミルトニアンを構成するための簡単なアプローチを示し、これは虚ゲージ変換のような非ユニタリ変換によって得られる \textit{not} である。
代わりに、エルミート・ハミルトニアン $H_0$ と正半定値行列 $A$ の積によって与えられる。
A$ が 0 の固有値を持つかどうかによっては、結果として生じる$H$ は 0 エネルギーにおいて例外的な点を持つことができる。
A$ がエルミートエネルギーのみを必要とするとき、結果として生じる$H$ は実かつ複素共役エネルギーレベルを持つ擬エルミートエネルギーである。
A$が対角的である特別な場合、我々は我々のアプローチを虚ゲージ変換と比較し、これは我々のアプローチにおける選択的な非エルミート皮膚効果、すなわちゼロモードのみがスキンモードであり、非ゼロモードがバルクに存在することを示す。
さらに, この選択的非エルミタン皮膚モードは, 局所化境界にポンプを投下した場合, 標準非エルミタン皮膚効果において, 通常の非エルミタン皮膚モードよりも, かなり低い浸漬閾値を有することを示した。
私たちの構成形式は、例えば、異なる質量を持つ結合摩擦のない調和振動子を記述する動的行列でも見られる。
In this work we first show a simple approach to constructing non-Hermitian Hamiltonians with a real spectrum, which are \textit{not} obtained by a non-unitary transformation such as the imaginary gauge transformation. They are given, instead, by the product of a Hermitian Hamiltonian $H_0$ and a positive semi-definite matrix $A$. Depending on whether $A$ has zero eigenvalue(s), the resulting $H$ can possess an exceptional point at zero energy. When $A$ is only required to be Hermitian instead, the resulting $H$ is pseudo-Hermitian that can have real and complex conjugate energy levels. In the special case where $A$ is diagonal, we compare our approach to an imaginary gauge transformation, which reveals a selective non-Hermitian skin effect in our approach, i.e., only the zero mode is a skin mode and the non-zero modes reside in the bulk. We further show that this selective non-Hermitian skin mode has a much lower lasing threshold than its counterpart in the standard non-Hermitian skin effect with the same spatial profile, when we pump at the boundary where they are localized. The form of our construction can also be found, for example, in dynamical matrices describing coupled frictionless harmonic oscillators with different masses. | 翻訳日:2024-03-18 16:32:11 公開日:2024-03-15 |
# 二項分布を2つの交互強制選択データに適合させることによる知覚距離の評価
Evaluating Perceptual Distances by Fitting Binomial Distributions to Two-Alternative Forced Choice Data ( http://arxiv.org/abs/2403.10390v1 ) ライセンス: Link先を確認 | Alexander Hepburn, Raul Santos-Rodriguez, Javier Portilla, | (参考訳) 2-alternative forced choice (2AFC) 実験装置は視覚的知覚文学において、人間の観察者が基準画像と2つの歪んだ画像からなる三重項内の距離をどう知覚するかを理解することを目的としている。
過去には、各参加者が歪んだ画像をランク付けするトーナメントスタイルのアルゴリズムを用いて、制御された環境で実施されていた。
近年、クラウドソーシングされた知覚データセットが登場し、三つ子間で画像を共有することはなく、ランク付けが不可能になっている。
このデータを用いて知覚距離を評価することは簡単ではなく、三重項上の判断の収集を二項決定に還元することに頼っている。
代わりに、二項分布を用いた2AFC実験において、基礎となる意思決定過程を統計的にモデル化する。
我々は、最大推定値を用いて、知覚的判断に分布を適合させ、知覚的距離に条件付きでテストし、その密度の経験的推定値間の一貫性と滑らかさを課す。
このようにして、三重項ごとに異なる判断数を評価することができ、また、ニューラルネットワークが欠落している重要な要素である距離のセットに応じて判断の確率などのメトリクスを計算することができる。
The two-alternative forced choice (2AFC) experimental setup is popular in the visual perception literature, where practitioners aim to understand how human observers perceive distances within triplets that consist of a reference image and two distorted versions of that image. In the past, this had been conducted in controlled environments, with a tournament-style algorithm dictating which images are shown to each participant to rank the distorted images. Recently, crowd-sourced perceptual datasets have emerged, with no images shared between triplets, making ranking impossible. Evaluating perceptual distances using this data is non-trivial, relying on reducing the collection of judgements on a triplet to a binary decision -- which is suboptimal and prone to misleading conclusions. Instead, we statistically model the underlying decision-making process during 2AFC experiments using a binomial distribution. We use maximum likelihood estimation to fit a distribution to the perceptual judgements, conditioned on the perceptual distance to test and impose consistency and smoothness between our empirical estimates of the density. This way, we can evaluate a different number of judgements per triplet, and can calculate metrics such as likelihoods of judgements according to a set of distances -- key ingredients that neural network counterparts lack. | 翻訳日:2024-03-18 16:32:11 公開日:2024-03-15 |
# CDMAD: クラス非バランスな半教師付き学習のためのクラス分散・ミスマッチ・アウェア・デバイアス
CDMAD: Class-Distribution-Mismatch-Aware Debiasing for Class-Imbalanced Semi-Supervised Learning ( http://arxiv.org/abs/2403.10391v1 ) ライセンス: Link先を確認 | Hyuck Lee, Heeyoung Kim, | (参考訳) Pseudo-label-based semi-supervised learning (SSL)アルゴリズムは2つのカスケード課題に直面している。
1)分類者は多数派に偏っている傾向があり、
2) バイアス付き擬似ラベルは、訓練に使用される。
ラベル付けされていない集合のクラス分布がよく知られておらず、ラベル付けされた集合のクラスとミスマッチする可能性があるため、SSLの分類器を適切に再バランスすることは困難である。
本稿では,CDMAD (class-distribution-mismatch-aware debiasing) と呼ばれる新しいクラス不均衡SSLアルゴリズムを提案する。
トレーニングの各イテレーションについて、CDMADはまず、トレーニングセットとは無関係とみなすことのできるパターン(例えば、ソリッドカラー画像)を持たない画像上のロジットを計算することにより、各クラスに対する分類器のバイアス度を評価する。
CDMADは、分類器の中立性を保証することによって、ベースSSLアルゴリズムのバイアス付き擬似ラベルを洗練する。
CDMADは、ベースSSLアルゴリズムのトレーニング中にこれらの洗練された擬似ラベルを使用して、表現の質を向上させる。
テストフェーズでは、CDMADも同様に、テストサンプルの偏りのあるクラス予測を洗練させる。
CDMADは、クラス分布ミスマッチの下でバイアス付き分類器を再バランスする未ラベル集合の未知のクラス分布を組み込むという課題に対処するために、ポストホックロジット調整の拡張と見なすことができる。
CDMADはバランスの取れたエラーに対してフィッシャーの一貫性を保証する。
大規模な実験によりCDMADの有効性が検証された。
Pseudo-label-based semi-supervised learning (SSL) algorithms trained on a class-imbalanced set face two cascading challenges: 1) Classifiers tend to be biased towards majority classes, and 2) Biased pseudo-labels are used for training. It is difficult to appropriately re-balance the classifiers in SSL because the class distribution of an unlabeled set is often unknown and could be mismatched with that of a labeled set. We propose a novel class-imbalanced SSL algorithm called class-distribution-mismatch-aware debiasing (CDMAD). For each iteration of training, CDMAD first assesses the classifier's biased degree towards each class by calculating the logits on an image without any patterns (e.g., solid color image), which can be considered irrelevant to the training set. CDMAD then refines biased pseudo-labels of the base SSL algorithm by ensuring the classifier's neutrality. CDMAD uses these refined pseudo-labels during the training of the base SSL algorithm to improve the quality of the representations. In the test phase, CDMAD similarly refines biased class predictions on test samples. CDMAD can be seen as an extension of post-hoc logit adjustment to address a challenge of incorporating the unknown class distribution of the unlabeled set for re-balancing the biased classifier under class distribution mismatch. CDMAD ensures Fisher consistency for the balanced error. Extensive experiments verify the effectiveness of CDMAD. | 翻訳日:2024-03-18 16:32:11 公開日:2024-03-15 |
# 等方性3D:単一CLIP埋め込みに基づく画像から3D生成
Isotropic3D: Image-to-3D Generation Based on a Single CLIP Embedding ( http://arxiv.org/abs/2403.10395v1 ) ライセンス: Link先を確認 | Pengkun Liu, Yikai Wang, Fuchun Sun, Jiafang Li, Hang Xiao, Hongxiang Xue, Xinzhou Wang, | (参考訳) SDS(Score Distillation Sampling)を利用した2次元拡散モデルの構築により,画像から画像への3次元生成が著しく進展している。
既存の手法の多くは、2次元拡散モデルからの新たなビューリフトと組み合わせており、参照ビューでハードL2イメージを監督しながら、通常、基準イメージを条件として捉えている。
しかし、画像に強く付着することは、2次元拡散モデルの誘導的知識を劣化させ、平坦あるいは歪んだ3次元生成を頻繁に引き起こす傾向にある。
本稿では,新しい視点で画像-to-3Dを再検討し,画像-to-3D生成パイプラインであるIsotropic3Dについて述べる。
等方性3Dは、最適化をSDS損失のみを静止させることで、方位角の等方性w.r.t.にすることができる。
私たちのフレームワークのコアは、2段階の拡散モデル微調整にあります。
まず,テキストエンコーダを画像エンコーダに置き換えることで,テキストから3Dへの拡散モデルを微調整する。
第二に、ノイズのない参照画像とノイズのない参照画像を組み合わせた明示的マルチビュー注意(EMA)を用いて微調整を行う。
CLIP埋め込みはプロセス全体を通して拡散モデルに送信され、参照イメージは微調整後に一度破棄される。
結果として、単一の画像CLIP埋め込みにより、Isotropic3Dは、相互に一貫した多視点画像を生成することができ、また、より対称的で簡潔なコンテンツ、よく表現された幾何学、リッチな色のテクスチャ、および既存の画像から3Dの手法と比較して歪みの少ない3Dモデルを生成することができる。
プロジェクトページはhttps://isotropic3d.github.io/.com/で公開されている。
コードとモデルはhttps://github.com/pkunliu/Isotropic3Dで公開されている。
Encouraged by the growing availability of pre-trained 2D diffusion models, image-to-3D generation by leveraging Score Distillation Sampling (SDS) is making remarkable progress. Most existing methods combine novel-view lifting from 2D diffusion models which usually take the reference image as a condition while applying hard L2 image supervision at the reference view. Yet heavily adhering to the image is prone to corrupting the inductive knowledge of the 2D diffusion model leading to flat or distorted 3D generation frequently. In this work, we reexamine image-to-3D in a novel perspective and present Isotropic3D, an image-to-3D generation pipeline that takes only an image CLIP embedding as input. Isotropic3D allows the optimization to be isotropic w.r.t. the azimuth angle by solely resting on the SDS loss. The core of our framework lies in a two-stage diffusion model fine-tuning. Firstly, we fine-tune a text-to-3D diffusion model by substituting its text encoder with an image encoder, by which the model preliminarily acquires image-to-image capabilities. Secondly, we perform fine-tuning using our Explicit Multi-view Attention (EMA) which combines noisy multi-view images with the noise-free reference image as an explicit condition. CLIP embedding is sent to the diffusion model throughout the whole process while reference images are discarded once after fine-tuning. As a result, with a single image CLIP embedding, Isotropic3D is capable of generating multi-view mutually consistent images and also a 3D model with more symmetrical and neat content, well-proportioned geometry, rich colored texture, and less distortion compared with existing image-to-3D methods while still preserving the similarity to the reference image to a large extent. The project page is available at https://isotropic3d.github.io/. The code and models are available at https://github.com/pkunliu/Isotropic3D. | 翻訳日:2024-03-18 16:32:11 公開日:2024-03-15 |
# SculptDiff: 目標条件拡散政策による人間からのロボットクレーの学習
SculptDiff: Learning Robotic Clay Sculpting from Humans with Goal Conditioned Diffusion Policy ( http://arxiv.org/abs/2403.10401v1 ) ライセンス: Link先を確認 | Alison Bartsch, Arvind Car, Charlotte Avra, Amir Barati Farimani, | (参考訳) 変形可能な物体を操作することは、状態推定、長期計画、そして物体が相互作用によってどのように変形するかを予測することの難しさから、ロボット工学における課題である。
これらの課題は、最も顕著な3Dデフォルマブルオブジェクトである。
SculptDiffは、目標条件付き拡散に基づく模倣学習フレームワークで、点雲状態の観測と連携して、様々な形状の粘土彫刻政策を直接学習する。
我々の知る限りでは、これが3次元変形可能なオブジェクトの操作ポリシーをうまく学習する最初の実世界の方法である。
ビデオの彫刻と、私たちのデータセットとハードウェアCADモデルへのアクセスについては、プロジェクトのWebサイトを参照してください。
Manipulating deformable objects remains a challenge within robotics due to the difficulties of state estimation, long-horizon planning, and predicting how the object will deform given an interaction. These challenges are the most pronounced with 3D deformable objects. We propose SculptDiff, a goal-conditioned diffusion-based imitation learning framework that works with point cloud state observations to directly learn clay sculpting policies for a variety of target shapes. To the best of our knowledge this is the first real-world method that successfully learns manipulation policies for 3D deformable objects. For sculpting videos and access to our dataset and hardware CAD models, see the project website: https://sites.google.com/andrew.cmu.edu/imitation-sculpting/home | 翻訳日:2024-03-18 16:32:11 公開日:2024-03-15 |
# 分布外検出のための特徴空間におけるエネルギー補正モデル
Energy Correction Model in the Feature Space for Out-of-Distribution Detection ( http://arxiv.org/abs/2403.10403v1 ) ライセンス: Link先を確認 | Marc Lafon, Clément Rambour, Nicolas Thome, | (参考訳) 本研究では,事前学習した深層分類器の特徴空間を用いて,分布外検出問題(OOD)について検討する。
エネルギーベースモデル (EBM) を用いて, 分布内分布(ID) の密度を学習すると, 競合検出結果が得られた。
しかし,EMM訓練におけるMCMCサンプリングの非混合は検出性能を損なうことが判明した。
これを解決するために、クラス条件ガウス分布の混合のエネルギーベースの補正を行う。
我々は,CIFAR-10/CIFAR-100 OOD検出ベンチマークにおけるKNN検出器のような強力なベースラインと比較して,良好な結果を得た。
In this work, we study the out-of-distribution (OOD) detection problem through the use of the feature space of a pre-trained deep classifier. We show that learning the density of in-distribution (ID) features with an energy-based models (EBM) leads to competitive detection results. However, we found that the non-mixing of MCMC sampling during the EBM's training undermines its detection performance. To overcome this an energy-based correction of a mixture of class-conditional Gaussian distributions. We obtains favorable results when compared to a strong baseline like the KNN detector on the CIFAR-10/CIFAR-100 OOD detection benchmarks. | 翻訳日:2024-03-18 16:32:11 公開日:2024-03-15 |
# 掘削データを用いた岩盤質量分類のための機械学習手法の比較研究
A comparative study on machine learning approaches for rock mass classification using drilling data ( http://arxiv.org/abs/2403.10404v1 ) ライセンス: Link先を確認 | Tom F. Hansen, Georg H. Erharter, Zhongqiang Liu, Jim Torresen, | (参考訳) 掘削・爆発トンネルにおける現在の岩石工学設計は、主に技術者の観察的評価に依存している。
トンネル掘削時に収集された高分解能センサデータセットであるMWDデータ(英語版)は、主に地質学的可視化に役立ち、未利用である。
本研究の目的は,MWDデータを岩盤工学の実用的な指標に自動変換することである。
特定のエンジニアリング活動にデータをリンクし、トンネル面に先立って地質学的課題を決定的に支援することを目指している。
この研究は、15のトンネルから50万の掘削孔の大規模かつ地質学的に多様なデータセットを活用し、実際のトンネル環境での正確な岩質の分類モデルを導入している。
従来の機械学習と画像に基づくディープラーニングの両方を用いて,MWDデータをQクラスとQ値に分類する。
その結果,K-アネレストアルゴリズムは,表層データを用いた木モデルとのアンサンブルにより,岩盤の質量品質を効果的に分類できることが示唆された。
岩石質量を、A、B、C、D、E1、E2、および0.95のQクラスに分類し、Eと他の2値の2値分類を行う。
CNNとMWD画像の分類は、各ブラストラウンドで2進分類で0.82のバランスの取れた精度となった。
表形式MWDデータからのQ値の回帰は、分類と同様のアンサンブルモデルに対して、クロスバリデーションR2とMSEスコア0.80と0.18を達成した。
回帰と分類の高性能は、自動岩盤質量評価の信頼性を高める。
ユニークなデータセットに高度なモデリングを適用することで、MWDデータの価値がロック質量分類の精度を改善し、データ駆動のロックエンジニアリング設計を推し進め、手作業による介入を減らすことができる。
Current rock engineering design in drill and blast tunnelling primarily relies on engineers' observational assessments. Measure While Drilling (MWD) data, a high-resolution sensor dataset collected during tunnel excavation, is underutilised, mainly serving for geological visualisation. This study aims to automate the translation of MWD data into actionable metrics for rock engineering. It seeks to link data to specific engineering actions, thus providing critical decision support for geological challenges ahead of the tunnel face. Leveraging a large and geologically diverse dataset of 500,000 drillholes from 15 tunnels, the research introduces models for accurate rock mass quality classification in a real-world tunnelling context. Both conventional machine learning and image-based deep learning are explored to classify MWD data into Q-classes and Q-values, examples of metrics describing the stability of the rock mass, using both tabular and image data. The results indicate that the K-nearest neighbours algorithm in an ensemble with tree-based models using tabular data, effectively classifies rock mass quality. It achieves a cross-validated balanced accuracy of 0.86 in classifying rock mass into the Q-classes A, B, C, D, E1, E2, and 0.95 for a binary classification with E versus the rest. Classification using a CNN with MWD-images for each blasting round resulted in a balanced accuracy of 0.82 for binary classification. Regressing the Q-value from tabular MWD-data achieved cross-validated R2 and MSE scores of 0.80 and 0.18 for a similar ensemble model as in classification. High performance in regression and classification boosts confidence in automated rock mass assessment. Applying advanced modelling on a unique dataset demonstrates MWD data's value in improving rock mass classification accuracy and advancing data-driven rock engineering design, reducing manual intervention. | 翻訳日:2024-03-18 16:32:11 公開日:2024-03-15 |
# SocialGenPod: 分散パーソナルデータストアを備えたプライバシフレンドリーに生成するAIソーシャルWebアプリケーション
SocialGenPod: Privacy-Friendly Generative AI Social Web Applications with Decentralised Personal Data Stores ( http://arxiv.org/abs/2403.10408v1 ) ライセンス: Link先を確認 | Vidminas Vizgirda, Rui Zhao, Naman Goel, | (参考訳) 我々は、生成型AI Webアプリケーションをデプロイする分散型でプライバシフレンドリな方法であるSocialGenPodを紹介します。
アプリケーションやサービスプロバイダにユーザデータを結び付ける集中型Webやデータアーキテクチャとは違って、Solid – 分散化されたWeb仕様 – を使用して、生成AIアプリケーションからユーザデータを分離する方法を示します。
ユーザが直接あるいは間接的にアクセスできるSolid Podに格納されている任意のプライベートドキュメントに格納された回答を生成するために、検索拡張生成を利用して、ユーザーが異なる大規模言語モデルと対話できるプロトタイプを使用して、SocialGenPodを実証する。
SocialGenPodはSolidアクセス制御機構を使用して、Podに格納されたデータに誰がアクセスできるかをユーザが完全に制御する。
SocialGenPodは、すべてのユーザデータ(チャット履歴、アプリ構成、個人文書など)をユーザの個人的なPodに安全に保存します。
より優れたプライバシコントロールに加えて、このアプローチはさまざまなサービスやアプリケーション間のポータビリティも可能にします。
最後に,最先端モデルの大規模計算要求によって引き起こされる課題について論じる。
私たちのプロトタイプはオープンソースで、https://github.com/Vidminas/socialgenpod/.comで公開しています。
We present SocialGenPod, a decentralised and privacy-friendly way of deploying generative AI Web applications. Unlike centralised Web and data architectures that keep user data tied to application and service providers, we show how one can use Solid -- a decentralised Web specification -- to decouple user data from generative AI applications. We demonstrate SocialGenPod using a prototype that allows users to converse with different Large Language Models, optionally leveraging Retrieval Augmented Generation to generate answers grounded in private documents stored in any Solid Pod that the user is allowed to access, directly or indirectly. SocialGenPod makes use of Solid access control mechanisms to give users full control of determining who has access to data stored in their Pods. SocialGenPod keeps all user data (chat history, app configuration, personal documents, etc) securely in the user's personal Pod; separate from specific model or application providers. Besides better privacy controls, this approach also enables portability across different services and applications. Finally, we discuss challenges, posed by the large compute requirements of state-of-the-art models, that future research in this area should address. Our prototype is open-source and available at: https://github.com/Vidminas/socialgenpod/. | 翻訳日:2024-03-18 16:32:11 公開日:2024-03-15 |
# ハイブリッド畳み込み変換器によるリアルタイム画像分割
Real-Time Image Segmentation via Hybrid Convolutional-Transformer Architecture Search ( http://arxiv.org/abs/2403.10413v1 ) ライセンス: Link先を確認 | Hongyuan Yu, Cheng Wan, Mengchen Liu, Dongdong Chen, Bin Xiao, Xiyang Dai, | (参考訳) イメージセグメンテーションはコンピュータビジョンにおける最も基本的な問題の1つであり、画像理解と自律運転における膨大な応用のために多くの注目を集めている。
しかし、効果的で効率的なセグメンテーション・ニューラルアーキテクチャの設計は、人間の専門家による多くの試行を必要とする労働集約的なプロセスである。
本稿では,多面的自己意識を高分解能表現CNNに効率的に組み込むという課題に,アーキテクチャ探索を活用して対処する。
畳み込みレイヤをマルチヘッドの自己注意で手作業で置き換えるのは、高解像度を維持するためにメモリのコストがかかるため、簡単ではない。
対照的に,高解像度機能の利点をフル活用するマルチターゲットマルチブランチ・スーパーネット手法を開発した。
探索アルゴリズムは複数の目的(例えば、レイテンシ、mIoU)に最適化され、1つの探索で任意の数の分岐を持つParetoフロンティアのアーキテクチャを見つけることができる。
さらに,Hybrid Convolutional-Transformer Architecture Search (HyCTAS) 法を用いて,異なる解像度のブランチとヒューズ間のメモリ効率の高い自己保持層を最適に組み合わせて探索し,効率と効率の両立を図った。
大規模な実験により,HyCTASはセマンティックセグメンテーションタスクにおいて,従来の手法よりも優れていることが示された。
コードとモデルは \url{https://github.com/MarvinYu1995/HyCTAS} で公開されている。
Image segmentation is one of the most fundamental problems in computer vision and has drawn a lot of attentions due to its vast applications in image understanding and autonomous driving. However, designing effective and efficient segmentation neural architectures is a labor-intensive process that may require lots of trials by human experts. In this paper, we address the challenge of integrating multi-head self-attention into high resolution representation CNNs efficiently, by leveraging architecture search. Manually replacing convolution layers with multi-head self-attention is non-trivial due to the costly overhead in memory to maintain high resolution. By contrast, we develop a multi-target multi-branch supernet method, which not only fully utilizes the advantages of high-resolution features, but also finds the proper location for placing multi-head self-attention module. Our search algorithm is optimized towards multiple objective s (e.g., latency and mIoU) and capable of finding architectures on Pareto frontier with arbitrary number of branches in a single search. We further present a series of model via Hybrid Convolutional-Transformer Architecture Search (HyCTAS) method that searched for the best hybrid combination of light-weight convolution layers and memory-efficient self-attention layers between branches from different resolutions and fuse to high resolution for both efficiency and effectiveness. Extensive experiments demonstrate that HyCTAS outperforms previous methods on semantic segmentation task. Code and models are available at \url{https://github.com/MarvinYu1995/HyCTAS}. | 翻訳日:2024-03-18 16:32:11 公開日:2024-03-15 |
# 量子顕微鏡用ダイヤモンドマイクロチップ
Diamond Micro-Chip for Quantum Microscopy ( http://arxiv.org/abs/2403.10414v1 ) ライセンス: Link先を確認 | Shahidul Asif, Hang Chen, Johannes Cremer, Shantam Ravan, Jeyson Tamara-Isaza, Saurabh Lamsal, Reza Ebadi, Yan Li, Ling-Jie Zhou, Cui-Zu Chang, John Q. Xiao, Amir Yacoby, Ronald L. Walsworth, Mark J. H. Ku, | (参考訳) ダイヤモンド中の窒素空孔(NV)中心は、電流、磁化、スピンの顕微鏡として人気が高まっている。
しかし、堅牢で高品質なインターフェースによる効率的なNVサンプル統合は、スケーラブルで高スループットの顕微鏡を実現する上で、依然として顕著な課題である。
本研究では,111配向NVアンサンブルを含むダイヤモンドマイクロチップ(DMC)を特徴付け,その高分解能量子顕微鏡への応用を実証する。
我々は, DMCのひずみイメージングを行い, 数十マイクロメートルの視野で最小の劣化ひずみの変動を観測した。
DMCのスピンコヒーレンスと光学特性は,高感度磁気計測に適している。
次に、DMCを用いて、電流の広い磁場顕微鏡を示し、回折制限量子顕微鏡が実現可能であることを示す。
また, 次世代電子・スピントロニクスにおいて, 複数の材料を用いたDMCの決定論的移動を示す。
最後に, 高分子を用いたDMC配置法を開発した。
この研究は、DMCがNV量子顕微鏡の材料、装置、地質学、生物医学、化学科学への応用を拡大する可能性を確立している。
The nitrogen vacancy (NV) center in diamond is an increasingly popular quantum sensor for microscopy of electrical current, magnetization, and spins. However, efficient NV-sample integration with a robust, high-quality interface remains an outstanding challenge to realize scalable, high-throughput microscopy. In this work, we characterize a diamond micro-chip (DMC) containing a (111)-oriented NV ensemble; and demonstrate its utility for high-resolution quantum microscopy. We perform strain imaging of the DMC and find minimal detrimental strain variation across a field-of-view of tens of micrometer. We find good ensemble NV spin coherence and optical properties in the DMC, suitable for sensitive magnetometry. We then use the DMC to demonstrate wide-field microscopy of electrical current, and show that diffraction-limited quantum microscopy can be achieved. We also demonstrate the deterministic transfer of DMCs with multiple materials of interest for next-generation electronics and spintronics. Lastly, we develop a polymer-based technique for DMC placement. This work establishes the DMC's potential to expand the application of NV quantum microscopy in materials, device, geological, biomedical, and chemical sciences. | 翻訳日:2024-03-18 16:21:13 公開日:2024-03-15 |
# 説明可能なAIにおけるグラディエントベースの特徴属性:技術レビュー
Gradient based Feature Attribution in Explainable AI: A Technical Review ( http://arxiv.org/abs/2403.10415v1 ) ライセンス: Link先を確認 | Yongjie Wang, Tong Zhang, Xu Guo, Zhiqi Shen, | (参考訳) ブラックボックスAIモデルの急増により、特にヘルスケアや自動運転といった高度なアプリケーションにおいて、内部メカニズムを説明し、信頼性を正当化する必要性が高まっている。
説明可能なAI(XAI)の厳密な定義がないため、さまざまな観点からモデルを説明し分析するために、説明可能性、解釈可能性、透明性に関する多くの研究が開発された。
その結果,全論文を網羅的にリストアップすることで,あらゆる面からXAI研究の概要を概観することが困難になる。
AI研究におけるニューラルネットワークの人気を考えると、我々は、ニューラルネットワークモデルに直接適用可能な勾配に基づく説明という、XAI研究の特定の領域に焦点を絞っている。
本稿では,現在までの勾配に基づく説明手法を体系的に検討し,これらを4つのクラスに分類する新しい分類法を提案する。
そこで,本研究では,時間順の手法の詳細を提示し,アルゴリズムの進化を裏付ける。
次に,アルゴリズムの性能を評価するために,人的評価と定量的評価の両方を導入する。
より重要なことは、XAIにおける一般的な課題と勾配に基づく説明における特定の課題を示すことである。
この調査は、研究者が最先端の進歩とそれに対応する欠点を理解するのに役立つことを期待しており、今後の研究でこれらの問題に対処することへの関心を喚起する可能性がある。
The surge in black-box AI models has prompted the need to explain the internal mechanism and justify their reliability, especially in high-stakes applications, such as healthcare and autonomous driving. Due to the lack of a rigorous definition of explainable AI (XAI), a plethora of research related to explainability, interpretability, and transparency has been developed to explain and analyze the model from various perspectives. Consequently, with an exhaustive list of papers, it becomes challenging to have a comprehensive overview of XAI research from all aspects. Considering the popularity of neural networks in AI research, we narrow our focus to a specific area of XAI research: gradient based explanations, which can be directly adopted for neural network models. In this review, we systematically explore gradient based explanation methods to date and introduce a novel taxonomy to categorize them into four distinct classes. Then, we present the essence of technique details in chronological order and underscore the evolution of algorithms. Next, we introduce both human and quantitative evaluations to measure algorithm performance. More importantly, we demonstrate the general challenges in XAI and specific challenges in gradient based explanations. We hope that this survey can help researchers understand state-of-the-art progress and their corresponding disadvantages, which could spark their interest in addressing these issues in future work. | 翻訳日:2024-03-18 16:21:13 公開日:2024-03-15 |
# ハマー汚染下における最適誤差を持つガウスのロバストスパース推定
Robust Sparse Estimation for Gaussians with Optimal Error under Huber Contamination ( http://arxiv.org/abs/2403.10416v1 ) ライセンス: Link先を確認 | Ilias Diakonikolas, Daniel M. Kane, Sushrut Karmalkar, Ankit Pensia, Thanasis Pittas, | (参考訳) 本研究では, 平均推定, PCA, 線形回帰に着目したハマー汚染モデルにおけるガウススパース推定タスクについて検討した。
これらの各タスクに対して、定数要素内において最適な誤差を保証する最初のサンプルと計算効率の良い頑健な推定器を与える。
これらのタスクに対する全ての事前の効率的なアルゴリズムは、量的に準最適である。
具体的には、ガウスのロバストな$k$-sparse平均推定値が $\mathbb{R}^d$ の崩壊率 $\epsilon>0$ に対して、我々のアルゴリズムはサンプル複雑性 $(k^2/\epsilon^2)\mathrm{polylog}(d/\epsilon)$ を持ち、サンプル多項式時間で実行し、$\ell_2$-error $O(\epsilon)$ 内でターゲット平均値を近似する。
従来の効率的なアルゴリズムは本質的にエラー$\Omega(\epsilon \sqrt{\log(1/\epsilon)})$を発生させる。
技術レベルでは、スパース方式における新しい多次元フィルタリング法を開発し、他の応用を見出すことができる。
We study Gaussian sparse estimation tasks in Huber's contamination model with a focus on mean estimation, PCA, and linear regression. For each of these tasks, we give the first sample and computationally efficient robust estimators with optimal error guarantees, within constant factors. All prior efficient algorithms for these tasks incur quantitatively suboptimal error. Concretely, for Gaussian robust $k$-sparse mean estimation on $\mathbb{R}^d$ with corruption rate $\epsilon>0$, our algorithm has sample complexity $(k^2/\epsilon^2)\mathrm{polylog}(d/\epsilon)$, runs in sample polynomial time, and approximates the target mean within $\ell_2$-error $O(\epsilon)$. Previous efficient algorithms inherently incur error $\Omega(\epsilon \sqrt{\log(1/\epsilon)})$. At the technical level, we develop a novel multidimensional filtering method in the sparse regime that may find other applications. | 翻訳日:2024-03-18 16:21:13 公開日:2024-03-15 |
# 分散最適化におけるサドル点の量子化回避
Quantization Avoids Saddle Points in Distributed Optimization ( http://arxiv.org/abs/2403.10423v1 ) ライセンス: Link先を確認 | Yanan Bo, Yongqiang Wang, | (参考訳) 分散非凸最適化は、電力システム、スマートビル、協調ロボット、車両ネットワーク、センサーネットワークなど、多くの分散システムの主要な機能を支える。
最近では、ディープラーニングにおけるデータとモデルサイズの大きな成長を扱うための、有望なソリューションとして統合されている。
分散非凸最適化の基本的な問題は、サドル点への収束を回避し、最適化精度を著しく低下させることである。
すべてのデジタル通信に必要となる量子化のプロセスは、サドルポイント回避のために利用することができる。
より具体的には、確率的量子化方式を提案し、分散非凸最適化において、サドル点を効果的に回避し、2階定常点への収束を保証することを証明した。
容易に調整可能な量子化の粒度により、ユーザーはイテレーション毎に送信されるビット数を制御できるため、通信オーバーヘッドを積極的に削減することができる。
ベンチマークデータセット上での分散最適化と学習問題を用いた数値実験により,提案手法の有効性が確認された。
Distributed nonconvex optimization underpins key functionalities of numerous distributed systems, ranging from power systems, smart buildings, cooperative robots, vehicle networks to sensor networks. Recently, it has also merged as a promising solution to handle the enormous growth in data and model sizes in deep learning. A fundamental problem in distributed nonconvex optimization is avoiding convergence to saddle points, which significantly degrade optimization accuracy. We discover that the process of quantization, which is necessary for all digital communications, can be exploited to enable saddle-point avoidance. More specifically, we propose a stochastic quantization scheme and prove that it can effectively escape saddle points and ensure convergence to a second-order stationary point in distributed nonconvex optimization. With an easily adjustable quantization granularity, the approach allows a user to control the number of bits sent per iteration and, hence, to aggressively reduce the communication overhead. Numerical experimental results using distributed optimization and learning problems on benchmark datasets confirm the effectiveness of the approach. | 翻訳日:2024-03-18 16:21:13 公開日:2024-03-15 |
# 合成語彙データの構造化評価
Structured Evaluation of Synthetic Tabular Data ( http://arxiv.org/abs/2403.10424v1 ) ライセンス: Link先を確認 | Scott Cheng-Hsin Yang, Baxter Eaves, Michael Schmidt, Ken Swanson, Patrick Shafto, | (参考訳) タブラルデータは一般的には不完全であり、ボリュームは小さく、プライバシー上の懸念からアクセス制限されている。
合成データ生成は潜在的な解決策を提供する。
合成表データの質を評価するために多くの指標が存在するが、多くの指標の客観的かつ一貫性のある解釈は欠如している。
この問題に対処するために,観測データと同じ分布から合成データを抽出すべきとする,単一の数学的目的を持つ評価フレームワークを提案する。
目的のさまざまな構造的分解を通じて、このフレームワークは、任意のメトリクスセットの完全性を初めて推論し、忠実さ、ダウンストリームアプリケーション、モデルベースのアプローチから派生したメトリクスを含む既存のメトリクスを統一することを可能にする。
さらに、このフレームワークはモデルフリーのベースラインと新しいメトリクスのスペクトルを動機付けている。
深層学習を利用した構造情報型シンセサイザーとシンセサイザーの評価を行った。
構造化されたフレームワークを用いて、表構造を明示的に表現する合成データ生成装置が、特に小さなデータセットにおいて、他の手法よりも優れていることを示す。
Tabular data is common yet typically incomplete, small in volume, and access-restricted due to privacy concerns. Synthetic data generation offers potential solutions. Many metrics exist for evaluating the quality of synthetic tabular data; however, we lack an objective, coherent interpretation of the many metrics. To address this issue, we propose an evaluation framework with a single, mathematical objective that posits that the synthetic data should be drawn from the same distribution as the observed data. Through various structural decomposition of the objective, this framework allows us to reason for the first time the completeness of any set of metrics, as well as unifies existing metrics, including those that stem from fidelity considerations, downstream application, and model-based approaches. Moreover, the framework motivates model-free baselines and a new spectrum of metrics. We evaluate structurally informed synthesizers and synthesizers powered by deep learning. Using our structured framework, we show that synthetic data generators that explicitly represent tabular structure outperform other methods, especially on smaller datasets. | 翻訳日:2024-03-18 16:21:13 公開日:2024-03-15 |
# NeuFlow:エッジデバイスを用いたロボットのリアルタイム高精度光フロー推定
NeuFlow: Real-time, High-accuracy Optical Flow Estimation on Robots Using Edge Devices ( http://arxiv.org/abs/2403.10425v1 ) ライセンス: Link先を確認 | Zhiyong Zhang, Huaizu Jiang, Hanumant Singh, | (参考訳) リアルタイムの高精度光フロー推定は、ロボット工学におけるローカライゼーションやマッピング、物体追跡、コンピュータビジョンにおけるアクティビティ認識など、様々なアプリケーションにおいて重要な要素である。
最近の学習ベース光学フロー法は精度が高いが、計算コストが重い場合が多い。
本稿では,高精度・計算コストの両面に対処する,高速な光フローアーキテクチャであるNeuFlowを提案する。
アーキテクチャはグローバルからローカルへのスキームに従っている。
異なる空間分解能で抽出された入力画像の特徴を考慮し、グローバルマッチングを用いて1/16分解能で初期光学フローを推定し、大きな変位を捉え、1/8分解能でより高精度なCNN層で精製する。
我々は,Jetson Orin Nano と RTX 2080 のアプローチを評価し,コンピューティングプラットフォーム間の効率改善を実証した。
我々は、いくつかの最先端手法と比較して10x-80xの高速化を実現し、精度は同等である。
当社のアプローチはエッジコンピューティングプラットフォーム上で約30FPSを実現しており、SLAMのような複雑なコンピュータビジョンタスクをドローンのような小型ロボットに展開する上で大きなブレークスルーとなる。
完全なトレーニングと評価のコードはhttps://github.com/neufieldrobotics/NeuFlowで公開されている。
Real-time high-accuracy optical flow estimation is a crucial component in various applications, including localization and mapping in robotics, object tracking, and activity recognition in computer vision. While recent learning-based optical flow methods have achieved high accuracy, they often come with heavy computation costs. In this paper, we propose a highly efficient optical flow architecture, called NeuFlow, that addresses both high accuracy and computational cost concerns. The architecture follows a global-to-local scheme. Given the features of the input images extracted at different spatial resolutions, global matching is employed to estimate an initial optical flow on the 1/16 resolution, capturing large displacement, which is then refined on the 1/8 resolution with lightweight CNN layers for better accuracy. We evaluate our approach on Jetson Orin Nano and RTX 2080 to demonstrate efficiency improvements across different computing platforms. We achieve a notable 10x-80x speedup compared to several state-of-the-art methods, while maintaining comparable accuracy. Our approach achieves around 30 FPS on edge computing platforms, which represents a significant breakthrough in deploying complex computer vision tasks such as SLAM on small robots like drones. The full training and evaluation code is available at https://github.com/neufieldrobotics/NeuFlow. | 翻訳日:2024-03-18 16:21:13 公開日:2024-03-15 |
# SWAG:外見条件ガウス像におけるスプラッティング
SWAG: Splatting in the Wild images with Appearance-conditioned Gaussians ( http://arxiv.org/abs/2403.10427v1 ) ライセンス: Link先を確認 | Hiba Dahmani, Moussab Bennehar, Nathan Piasco, Luis Roldao, Dzmitry Tsishkou, | (参考訳) 暗黙的なニューラル表現法は、未構造化画像から3Dシーンを学習する際、目覚ましい進歩を見せている。
より最近の3D Gaussian Splattingは、特に小規模およびオブジェクト中心のシナリオにおいて、より優れたレンダリング品質とトレーニング効率を備えた、はるかに高速な代替手段として登場した。
それでも、この手法は、非構造内データの性能の低下に悩まされている。
これを解決するために,非構造化画像コレクションを扱うために3次元ガウススプラッティングを拡張した。
我々は、レンダリングされた画像の光度変化を捉えるために、外観をモデル化することでこれを実現する。
さらに,シーンオブクローダの存在を教師なしで扱うために,過渡ガウシアンを訓練する新たなメカニズムを導入する。
多様な写真収集シーンの実験と屋外ランドマークのマルチパス取得実験により, 従来手法よりも効率よく, 最先端の成果が得られ, 提案手法の有効性が示された。
Implicit neural representation methods have shown impressive advancements in learning 3D scenes from unstructured in-the-wild photo collections but are still limited by the large computational cost of volumetric rendering. More recently, 3D Gaussian Splatting emerged as a much faster alternative with superior rendering quality and training efficiency, especially for small-scale and object-centric scenarios. Nevertheless, this technique suffers from poor performance on unstructured in-the-wild data. To tackle this, we extend over 3D Gaussian Splatting to handle unstructured image collections. We achieve this by modeling appearance to seize photometric variations in the rendered images. Additionally, we introduce a new mechanism to train transient Gaussians to handle the presence of scene occluders in an unsupervised manner. Experiments on diverse photo collection scenes and multi-pass acquisition of outdoor landmarks show the effectiveness of our method over prior works achieving state-of-the-art results with improved efficiency. | 翻訳日:2024-03-18 16:21:13 公開日:2024-03-15 |
# AIを駆使した集団知能:最先端技術と展望
AI-enhanced Collective Intelligence: The State of the Art and Prospects ( http://arxiv.org/abs/2403.10433v1 ) ライセンス: Link先を確認 | Hao Cui, Taha Yasseri, | (参考訳) 現在の社会的課題は、個人や集団の努力だけでの能力を超えている。
AIが進化するにつれて、人間の集団におけるその役割は、補助ツールから参加メンバへと変化する可能性がある。
人間とAIは、相乗化されると、人間またはAIの集団能力を上回るレベルの集団知性を達成することができる補完的な能力を持っている。
しかしながら、人間とAIシステムの相互作用は本質的に複雑であり、複雑なプロセスと相互依存を含んでいる。
本稿では,ネットワーク科学の視点を取り入れ,認知層,物理層,情報層から構成される人間-AI集団知能の多層表現を概念化する。
この多層ネットワークでは、人間とAIエージェントは様々な特性を示しており、人間は表面レベルから深層レベルまで様々である。
これらのエージェント間の相互作用は、システム全体の構造とダイナミクスを形成する。
エージェントの多様性と相互作用がシステムの集合的知性にどのように影響するかを考察する。
さらに,AIによって強化された集団知能の実例の分析を行った。
我々は、AIによって強化された集団知能の潜在的な課題に対処し、この分野の今後の発展について展望を提供する。
The current societal challenges exceed the capacity of human individual or collective effort alone. As AI evolves, its role within human collectives is poised to vary from an assistive tool to a participatory member. Humans and AI possess complementary capabilities that, when synergized, can achieve a level of collective intelligence that surpasses the collective capabilities of either humans or AI in isolation. However, the interactions in human-AI systems are inherently complex, involving intricate processes and interdependencies. This review incorporates perspectives from network science to conceptualize a multilayer representation of human-AI collective intelligence, comprising a cognition layer, a physical layer, and an information layer. Within this multilayer network, humans and AI agents exhibit varying characteristics; humans differ in diversity from surface-level to deep-level attributes, while AI agents range in degrees of functionality and anthropomorphism. The interplay among these agents shapes the overall structure and dynamics of the system. We explore how agents' diversity and interactions influence the system's collective intelligence. Furthermore, we present an analysis of real-world instances of AI-enhanced collective intelligence. We conclude by addressing the potential challenges in AI-enhanced collective intelligence and offer perspectives on future developments in this field. | 翻訳日:2024-03-18 16:21:13 公開日:2024-03-15 |
# LLMを使ってサインスポッティングを音声言語文に変換する
Using an LLM to Turn Sign Spottings into Spoken Language Sentences ( http://arxiv.org/abs/2403.10434v1 ) ライセンス: Link先を確認 | Ozge Mercanoglu Sincan, Necati Cihan Camgoz, Richard Bowden, | (参考訳) 手話翻訳(SLT)は手話ビデオから音声言語文を生成することを目的とした課題である。
本稿では,サインスポッターと事前学習された大言語モデルを用いてSLT性能を向上させるハイブリッドSLTアプローチであるSputter+GPTを提案する。
我々の手法は両方の要素の強みの上に成り立っている。
ビデオはまず、言語手話データセットに基づいて訓練されたスポッターによって処理され、個々のサインを識別する。
これらの標識はその後、強力な言語モデルに渡され、コヒーレントで文脈的に適切な音声言語文へと変換される。
Sign Language Translation (SLT) is a challenging task that aims to generate spoken language sentences from sign language videos. In this paper, we introduce a hybrid SLT approach, Spotter+GPT, that utilizes a sign spotter and a pretrained large language model to improve SLT performance. Our method builds upon the strengths of both components. The videos are first processed by the spotter, which is trained on a linguistic sign language dataset, to identify individual signs. These spotted signs are then passed to the powerful language model, which transforms them into coherent and contextually appropriate spoken language sentences. | 翻訳日:2024-03-18 16:21:13 公開日:2024-03-15 |
# データ倫理緊急ドリル:産業チームのための責任あるAIを語るツールボックス
Data Ethics Emergency Drill: A Toolbox for Discussing Responsible AI for Industry Teams ( http://arxiv.org/abs/2403.10438v1 ) ライセンス: Link先を確認 | Vanessa Aisyahsari Hanschke, Dylan Rees, Merve Alanyali, David Hopkinson, Paul Marshall, | (参考訳) 研究者は、データ科学者のような技術実践者にアルゴリズム決定の影響と倫理的影響を検討するよう促す。
しかし、プログラミングや統計学、データ管理とは異なり、倫理的な意味に関する議論は、標準的なデータサイエンスのトレーニングにはほとんど含まれない。
このギャップに対処するために、私たちは、データサイエンスチームが彼らの仕事の倫理的影響について議論し、反映するのを助けるために、データ倫理緊急訓練(DEED)と呼ばれるツールボックスを設計し、テストしました。
DEEDは、チームの特定の職場やアプリケーションに文脈的に置かれる架空の倫理的緊急シナリオのロールプレイである。
本稿では、DEEDツールボックスの概要と、その設計を反復的に形作る2つの異なるデータサイエンスチームによる3つの研究について述べる。
本研究は,実践者がロールプレイから学んだ教訓を実生活の状況に適用し,DEDが倫理と価値観に関する会話をいかに開かせたかを示すものである。
Researchers urge technology practitioners such as data scientists to consider the impacts and ethical implications of algorithmic decisions. However, unlike programming, statistics, and data management, discussion of ethical implications is rarely included in standard data science training. To begin to address this gap, we designed and tested a toolbox called the data ethics emergency drill (DEED) to help data science teams discuss and reflect on the ethical implications of their work. The DEED is a roleplay of a fictional ethical emergency scenario that is contextually situated in the team's specific workplace and applications. This paper outlines the DEED toolbox and describes three studies carried out with two different data science teams that iteratively shaped its design. Our findings show that practitioners can apply lessons learnt from the roleplay to real-life situations, and how the DEED opened up conversations around ethics and values. | 翻訳日:2024-03-18 16:21:13 公開日:2024-03-15 |
# 投機復号の高速化のための最適ブロックレベルドラフト検証
Optimal Block-Level Draft Verification for Accelerating Speculative Decoding ( http://arxiv.org/abs/2403.10444v1 ) ライセンス: Link先を確認 | Ziteng Sun, Jae Hun Ro, Ahmad Beirami, Ananda Theertha Suresh, | (参考訳) 投機的復号化は,大言語モデル (LLM) の推論時のロスレスアクセラレーションに有効な手法であることが示されている。
各イテレーションにおいて、アルゴリズムはまず小さなモデルを使用してトークンのブロックをドラフトする。
トークンは大きなモデルによって並列に検証され、最後の出力が大きなモデルの分布に従うことを保証するためにトークンのサブセットのみが保持される。
以前の投機的復号処理の全てにおいて、ドラフト検証は独立してトークン・バイ・トークン化される。
本研究では,新たな計算コストやドラフトトークンを発生させることなく,ウォールクロックの高速化を実現する,より優れたドラフト検証アルゴリズムを提案する。
まず、ブロックレベルの最適輸送問題として、ドラフト検証ステップを定式化する。
ブロックレベルの定式化により、より広い範囲のドラフト検証アルゴリズムを検討でき、1つのドラフトブロックで期待されるトークンがより多く取得できる。
ブロックレベルの輸送問題に対して最適な許容長を求める検証アルゴリズムを提案する。
我々は,提案したブロックレベルの検証アルゴリズムを幅広いタスクやデータセットで実証的に評価し,トークンレベルの検証アルゴリズムと比較して,ウォールクロックの高速化が一貫した改善を観察する。
我々の知識を最大限に活用するために、我々の研究は、より良いドラフト検証アルゴリズムを通じて投機的復号化よりも改善した最初のものである。
Speculative decoding has shown to be an effective method for lossless acceleration of large language models (LLMs) during inference. In each iteration, the algorithm first uses a smaller model to draft a block of tokens. The tokens are then verified by the large model in parallel and only a subset of tokens will be kept to guarantee that the final output follows the distribution of the large model. In all of the prior speculative decoding works, the draft verification is performed token-by-token independently. In this work, we propose a better draft verification algorithm that provides additional wall-clock speedup without incurring additional computation cost and draft tokens. We first formulate the draft verification step as a block-level optimal transport problem. The block-level formulation allows us to consider a wider range of draft verification algorithms and obtain a higher number of accepted tokens in expectation in one draft block. We propose a verification algorithm that achieves the optimal accepted length for the block-level transport problem. We empirically evaluate our proposed block-level verification algorithm in a wide range of tasks and datasets, and observe consistent improvements in wall-clock speedup when compared to token-level verification algorithm. To the best of our knowledge, our work is the first to establish improvement over speculative decoding through a better draft verification algorithm. | 翻訳日:2024-03-18 16:21:13 公開日:2024-03-15 |
# LLM Factual accurate with RAG to Counter Hallucinations:A Case Study on Domain-Specific Queries in Private Knowledge-Bases (特集:一般)
Enhancing LLM Factual Accuracy with RAG to Counter Hallucinations: A Case Study on Domain-Specific Queries in Private Knowledge-Bases ( http://arxiv.org/abs/2403.10446v1 ) ライセンス: Link先を確認 | Jiarui Li, Ye Yuan, Zehua Zhang, | (参考訳) 本研究では,Large Language Models (LLMs) の知識ベースに関するドメイン固有および時間依存的なクエリに対する現実的精度を向上させるために,RAG(Retrieval Augmented Generation)を活用するためのエンドツーエンドシステム設計を提案する。
我々のシステムはRAGパイプラインと上流データセット処理と下流性能評価を統合している。
LLM幻覚の課題に対処するために、私たちはCMUの豊富なリソースから派生し、教師モデルに注釈付けされた、キュレートされたデータセットでモデルを微調整する。
本実験は,ドメイン固有で時間に敏感な質問に対して,より正確な回答を生成するシステムの有効性を実証する。
また,小型・スキューデータセットを用いた微調整LDMの限界も明らかにした。
本研究は、知識集約型タスクにおけるパフォーマンス向上のために、外部データセットを用いたLLMの拡張におけるRAGシステムの可能性を強調した。
私たちのコードとモデルはGithubで入手可能です。
We proposed an end-to-end system design towards utilizing Retrieval Augmented Generation (RAG) to improve the factual accuracy of Large Language Models (LLMs) for domain-specific and time-sensitive queries related to private knowledge-bases. Our system integrates RAG pipeline with upstream datasets processing and downstream performance evaluation. Addressing the challenge of LLM hallucinations, we finetune models with a curated dataset which originates from CMU's extensive resources and annotated with the teacher model. Our experiments demonstrate the system's effectiveness in generating more accurate answers to domain-specific and time-sensitive inquiries. The results also revealed the limitations of fine-tuning LLMs with small-scale and skewed datasets. This research highlights the potential of RAG systems in augmenting LLMs with external datasets for improved performance in knowledge-intensive tasks. Our code and models are available on Github. | 翻訳日:2024-03-18 16:21:13 公開日:2024-03-15 |
# 反発束縛対の非相互ダイナミクスと非エルミート皮膚効果
Non-reciprocal dynamics and non-Hermitian skin effect of repulsively bound pairs ( http://arxiv.org/abs/2403.10449v1 ) ライセンス: Link先を確認 | Pietro Brighi, Andreas Nunnenkamp, | (参考訳) 実環境に結合したBose-Hubbardモデルの力学について検討し,その非相互作用限界は,祝賀されたHatano-Nelsonモデルによって記述される。
強い相互作用において、同じ位置を占める2つのボソンは、反発結合対(repulsively bound pair)と呼ばれる二重結合を形成する。
テンソル-ネットワークシミュレーションを用いて、異なるダビロン光錐をはっきりと同定し、ダビロンが単一粒子の非相互性を引き継ぐことを示す。
貯水池工学のアイデアをダブルロンのレベルで適用し、新しい散逸器のセットを導入し、その場合、ダブルロン力学がハタノ・ネルソンモデルによって支配されていることを解析的に示す。
これにより、相互作用によって引き起こされる非エルミート皮膚効果と非相互二重運動がもたらされる。
これら2つのモデルの特徴を組み合わせることで, 単一粒子と二重粒子が反対方向に拡散できることが示され, 相互作用する非相互モデルにおける力学の研究に興味深い可能性が開けた。
We study the dynamics of a Bose-Hubbard model coupled to an engineered environment which in the non-interacting limit is described by the celebrated Hatano-Nelson model. At strong interactions, two bosons occupying the same site form a so-called repulsively bound pair, or doublon. Using tensor-network simulations, we clearly identify a distinct doublon lightcone and show that the doublon inherits non-reciprocity from that of single particles. Applying the idea of reservoir engineering at the level of doublons, we introduce a new set of dissipators and we analytically show that then the doublon dynamics are governed by the Hatano-Nelson model. This brings about an interaction-induced non-Hermitian skin effect and non-reciprocal doublon motion. Combining features of the two models we study, we show that single particles and doublons can be made to spread with opposite directionality, opening intriguing possibilities for the study of dynamics in interacting non-reciprocal models. | 翻訳日:2024-03-18 16:21:13 公開日:2024-03-15 |
# 3次元シーン抽象化のためのロバスト形状フィッティング
Robust Shape Fitting for 3D Scene Abstraction ( http://arxiv.org/abs/2403.10452v1 ) ライセンス: Link先を確認 | Florian Kluger, Eric Brachmann, Michael Ying Yang, Bodo Rosenhahn, | (参考訳) 人間は単純なパラメトリックモデルの配列として世界を理解し、構築する。
特に,キュービドやシリンダーなどのボリュームプリミティブを用いて人為的な環境を記述することができる。
これらのプリミティブを推測することは、ハイレベルで抽象的なシーン記述を実現する上で重要である。
プリミティブに基づく抽象的形状推定のための従来のアプローチは、直接的にパラメーターを推定し、単純なオブジェクトのみを再現できる。
対照的に、我々は、キュービドを用いて複雑な現実世界環境を有意に抽象化するプリミティブフィッティングのためのロバストな推定器を提案する。
ニューラルネットワークで導かれるRANSAC推定器は、これらのプリミティブを深度マップに適合させる。
以前検出したシーンのネットワークを1対1で解析する。
単一RGB画像からcuboidsを得るために,深度推定CNNをエンドツーエンドに最適化する。
ポイント・ツー・プライミティブ距離をわずかに最小化すると、シーンの一部を取り囲む大きなまたは刺激的なキューブが生じる。
そこで我々は,不透明なシーンを正確に処理する改良されたオクルージョン認識距離測定法を提案する。
さらに、推論時間を短縮しつつ、より類似したシーン抽象化を提供するニューラルネットワークベースのキュービイドソルバを提案する。
提案アルゴリズムは、トレーニングのために、キュービドアノテーションのような労働集約的なラベルを必要としない。
NYU Depth v2データセットの結果、提案アルゴリズムは、乱雑な現実世界の3Dシーンレイアウトをうまく抽象化することを示した。
Humans perceive and construct the world as an arrangement of simple parametric models. In particular, we can often describe man-made environments using volumetric primitives such as cuboids or cylinders. Inferring these primitives is important for attaining high-level, abstract scene descriptions. Previous approaches for primitive-based abstraction estimate shape parameters directly and are only able to reproduce simple objects. In contrast, we propose a robust estimator for primitive fitting, which meaningfully abstracts complex real-world environments using cuboids. A RANSAC estimator guided by a neural network fits these primitives to a depth map. We condition the network on previously detected parts of the scene, parsing it one-by-one. To obtain cuboids from single RGB images, we additionally optimise a depth estimation CNN end-to-end. Naively minimising point-to-primitive distances leads to large or spurious cuboids occluding parts of the scene. We thus propose an improved occlusion-aware distance metric correctly handling opaque scenes. Furthermore, we present a neural network based cuboid solver which provides more parsimonious scene abstractions while also reducing inference time. The proposed algorithm does not require labour-intensive labels, such as cuboid annotations, for training. Results on the NYU Depth v2 dataset demonstrate that the proposed algorithm successfully abstracts cluttered real-world 3D scene layouts. | 翻訳日:2024-03-18 16:21:13 公開日:2024-03-15 |
# 不確実性とリスクを意識した部分観測可能なタスクと動作計画
Partially Observable Task and Motion Planning with Uncertainty and Risk Awareness ( http://arxiv.org/abs/2403.10454v1 ) ライセンス: Link先を確認 | Aidan Curtis, George Matheos, Nishad Gothoskar, Vikash Mansinghka, Joshua Tenenbaum, Tomás Lozano-Pérez, Leslie Pack Kaelbling, | (参考訳) 統合型タスク・アンド・モーション・プランニング(TAMP)は、長期のロボット操作とナビゲーションの問題を一般化するための貴重なアプローチであることが証明されている。
しかし、典型的なTAMP問題の定式化は、完全な可観測性と決定論的作用効果を仮定する。
これらの仮定は、プランナーが情報を収集し、リスクを認識した意思決定を行う能力を制限します。
本稿では,不確実性とリスク認識(TAMPURA)を伴うTAMPの戦略を提案する。これは,情報収集や望ましくない,不可逆的な結果の回避といった問題を含む,初期状態および行動結果の不確実性による長期計画問題の解決を効率的に行うことができる。
私たちのプランナーは、抽象的なタスクレベルと継続的コントローラレベルの両方において不確実な理由があります。
プリミティブアクション空間で動作する閉ループ目標条件制御器のセットと,そのプリコンディションと潜在能力を記述した上で,効率よく解き,実行のための連続動作に洗練される高レベルな抽象化を学習する。
我々は、不確実性が重要な要因であるいくつかのロボット問題に対するアプローチを実証し、これらの問題における不確実性に基づく推論が、以前に提案された決定的計画、直接探索、強化学習戦略より優れていることを示す。
最後に、確率論的認識の最近の進歩を利用して、2つの実世界のロボティクス問題に関するプランナーを実演する。
Integrated task and motion planning (TAMP) has proven to be a valuable approach to generalizable long-horizon robotic manipulation and navigation problems. However, the typical TAMP problem formulation assumes full observability and deterministic action effects. These assumptions limit the ability of the planner to gather information and make decisions that are risk-aware. We propose a strategy for TAMP with Uncertainty and Risk Awareness (TAMPURA) that is capable of efficiently solving long-horizon planning problems with initial-state and action outcome uncertainty, including problems that require information gathering and avoiding undesirable and irreversible outcomes. Our planner reasons under uncertainty at both the abstract task level and continuous controller level. Given a set of closed-loop goal-conditioned controllers operating in the primitive action space and a description of their preconditions and potential capabilities, we learn a high-level abstraction that can be solved efficiently and then refined to continuous actions for execution. We demonstrate our approach on several robotics problems where uncertainty is a crucial factor and show that reasoning under uncertainty in these problems outperforms previously proposed determinized planning, direct search, and reinforcement learning strategies. Lastly, we demonstrate our planner on two real-world robotics problems using recent advancements in probabilistic perception. | 翻訳日:2024-03-18 16:21:13 公開日:2024-03-15 |
# 組合せ最適化のための量子・ハイブリッド解法の評価
Evaluation of Quantum and Hybrid Solvers for Combinatorial Optimization ( http://arxiv.org/abs/2403.10455v1 ) ライセンス: Link先を確認 | Amedeo Bertuzzi, Davide Ferrari, Antonio Manzalini, Michele Amoretti, | (参考訳) 学術部門と産業部門は、量子ハードウェアの爆発的な進歩に支えられて、量子技術を開発するための激しい競争に従事している。
量子コンピュータは最大で数百の量子ビットをサポートすることが示されているが、量子アニールのスケールは3桁(すなわち数千の量子ビット)に達した。
したがって、量子アルゴリズムは様々な分野で人気が高まっており、最適化は最も顕著な分野の一つである。
本研究の目的は、D-Wave Systemsが提供する技術を包括的に評価することで、量子最適化のトピックを探求することである。
そのため、ベンチマークとしてデータセンターのエネルギー最適化モデルを提案する。
D-Wave量子およびハイブリッドソルバを比較して、考慮されたアプリケーションに最も適したものを特定する。
選択したD-Waveハイブリットソルバは、その有利な性能能力とそれに伴う解決可能性を強調するために、高効率な古典的ソルバであるCPLEXと対比される。
Academic and industrial sectors have been engaged in a fierce competition to develop quantum technologies, fueled by the explosive advancements in quantum hardware. While universal quantum computers have been shown to support up to hundreds of qubits, the scale of quantum annealers has reached three orders of magnitude (i.e., thousands of qubits). Therefore, quantum algorithms are becoming increasingly popular in a variety of fields, with optimization being one of the most prominent. This work aims to explore the topic of quantum optimization by comprehensively evaluating the technologies provided by D-Wave Systems. To do so, a model for the energy optimization of data centers is proposed as a benchmark. D-Wave quantum and hybrid solvers are compared, in order to identify the most suitable one for the considered application. To highlight its advantageous performance capabilities and associated solving potential, the selected D-Wave hybrid solver is then contrasted with CPLEX, a highly efficient classical solver. | 翻訳日:2024-03-18 16:11:26 公開日:2024-03-15 |
# 深層学習における二重発光現象の理解
Understanding the Double Descent Phenomenon in Deep Learning ( http://arxiv.org/abs/2403.10459v1 ) ライセンス: Link先を確認 | Marc Lafon, Alexandre Thomas, | (参考訳) 経験的リスク最小化とキャパシティコントロールを組み合わせることは、モデルクラスのキャパシティが大きくなるにつれて、一般化ギャップを制御してオーバーフィッティングを回避する機械学習における古典的な戦略である。
しかし、現代のディープラーニングの実践では、非常に大きな過パラメータ化モデル(例えばニューラルネットワーク)が、トレーニングデータに完全に適合するように最適化され、依然として優れた一般化性能が得られる。
補間点を過ぎると、モデル複雑性の増大が実際にテストエラーを減少させるように思える。
本チュートリアルでは、二重降下の概念とそのメカニズムについて説明する。
第1節では、古典的な統計学習の枠組みを設定し、二重降下現象を導入する。
いくつかの例を見て、セクション2では、複数の補間解のうち、スムーズな経験的リスク最小化器を選択することによって、二重降下において重要な役割を果たすと思われる帰納的バイアスを導入している。
最後に、セクション3は2つの線形モデルで二重降下を探索し、最近の関連する研究から他の視点を与える。
Combining empirical risk minimization with capacity control is a classical strategy in machine learning when trying to control the generalization gap and avoid overfitting, as the model class capacity gets larger. Yet, in modern deep learning practice, very large over-parameterized models (e.g. neural networks) are optimized to fit perfectly the training data and still obtain great generalization performance. Past the interpolation point, increasing model complexity seems to actually lower the test error. In this tutorial, we explain the concept of double descent and its mechanisms. The first section sets the classical statistical learning framework and introduces the double descent phenomenon. By looking at a number of examples, section 2 introduces inductive biases that appear to have a key role in double descent by selecting, among the multiple interpolating solutions, a smooth empirical risk minimizer. Finally, section 3 explores the double descent with two linear models, and gives other points of view from recent related works. | 翻訳日:2024-03-18 16:11:26 公開日:2024-03-15 |
# オンラインコンカレントマルチロボット被覆経路計画
Online Concurrent Multi-Robot Coverage Path Planning ( http://arxiv.org/abs/2403.10460v1 ) ライセンス: Link先を確認 | Ratijit Mitra, Indranil Saha, | (参考訳) 近年,大規模で複雑で未知の作業空間を多くのロボットで徹底的に探索する上で,集中型再帰型オンラインマルチロボットカバレッジパス計画アルゴリズムが顕著なスケーラビリティを示している。
地平線では、経路計画と経路実行がインターリーブであり、経路のないロボットに対して経路計画が行われると、優れた経路を持つロボットは実行されず、その後、新しい経路を持つロボットがそれぞれの目標を達成するために実行されると、そのロボットが新たな経路を得るために経路計画がまだ起こらないため、ロボットと計算資源の両方が無駄になる。
本稿では,地平線をベースとしない集中型アルゴリズムを提案する。
事前に割り当てられた目標に到達したロボットのサブセットに対して、いつでもパスを計画し、残りは傑出したパスを実行し、同時に計画と実行を可能にする。
提案アルゴリズムは、未知のワークスペースの完全なカバレッジを保証し、その時間的複雑さを分析することを正式に証明する。
スケーラビリティを実証するため,我々は,最大512個の空中ロボットと地上ロボットで8つの大規模2ドルグリッドベンチマークワークスペースをカバーするアルゴリズムを評価した。
最先端の地平線に基づくアルゴリズムと比較すると、最大1.6倍のスピードアップでカバーを完了する方が優れている。
検証のために,10個のクワッドコプターとTurtleBotsの6つの2次元グリッドベンチマークワークスペースでROS+Gazeboシミュレーションを行う。
また,3基のクワッドコプターと2基のタートルボットを用いた屋内実験を行った。
Recently, centralized receding horizon online multi-robot coverage path planning algorithms have shown remarkable scalability in thoroughly exploring large, complex, unknown workspaces with many robots. In a horizon, the path planning and the path execution interleave, meaning when the path planning occurs for robots with no paths, the robots with outstanding paths do not execute, and subsequently, when the robots with new or outstanding paths execute to reach respective goals, path planning does not occur for those robots yet to get new paths, leading to wastage of both the robotic and the computation resources. As a remedy, we propose a centralized algorithm that is not horizon-based. It plans paths at any time for a subset of robots with no paths, i.e., who have reached their previously assigned goals, while the rest execute their outstanding paths, thereby enabling concurrent planning and execution. We formally prove that the proposed algorithm ensures complete coverage of an unknown workspace and analyze its time complexity. To demonstrate scalability, we evaluate our algorithm to cover eight large $2$D grid benchmark workspaces with up to 512 aerial and ground robots, respectively. A comparison with a state-of-the-art horizon-based algorithm shows its superiority in completing the coverage with up to 1.6x speedup. For validation, we perform ROS + Gazebo simulations in six 2D grid benchmark workspaces with 10 quadcopters and TurtleBots, respectively. We also successfully conducted one outdoor experiment with three quadcopters and one indoor with two TurtleBots. | 翻訳日:2024-03-18 16:11:26 公開日:2024-03-15 |
# アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・トレーニング(ACAT)の導入によるMLロバストネスの促進
Introducing Adaptive Continuous Adversarial Training (ACAT) to Enhance ML Robustness ( http://arxiv.org/abs/2403.10461v1 ) ライセンス: Link先を確認 | Mohamed elShehaby, Aditya Kotha, Ashraf Matrawy, | (参考訳) 機械学習(ML)は、MLモデルを騙すことを目的とした敵攻撃の影響を受けやすく、誤った予測を生成する。
これらの攻撃に対して, MLモデルの堅牢性を高めるために, 対人訓練を行った。
しかし、ネットワークとサイバーセキュリティでは、ラベル付きトレーニングと敵のトレーニングデータを取得することは困難でコストがかかる。
さらに、ネットワークやサイバーセキュリティのような動的ドメインにおいて、コンセプトドリフトは課題をさらに深め、定期的な再トレーニングを行うにはさまざまなモデルが必要である。
このレターでは、Adaptive Continuous Adversarial Training (ACAT)を導入し、現在進行中の学習セッション中に、実際の検出された敵データを使用して、モデルに敵対的なトレーニングサンプルを継続的に統合し、進化する敵の脅威に対するモデルのレジリエンスを高める。
ACATは、周期的再訓練を利用して、破滅的な忘れを軽減しつつ、敵の攻撃を効果的に阻止する適応防御機構である。
また,攻撃の頻度が非常に高いネットワークセキュリティなどの環境において,敵検体検出に要する時間を削減する。
2つの段階を含む従来の検出プロセスは、長い手順をもたらす可能性がある。
SPAM検出データセットを用いた実験の結果、ACATでは、SPAMフィルタの精度はわずか3回のトレーニング後に69%から88%に向上した。
さらに、ACATは従来の対向サンプル検出器よりも優れており、決定時間が速く、場合によっては最大4倍高速である。
Machine Learning (ML) is susceptible to adversarial attacks that aim to trick ML models, making them produce faulty predictions. Adversarial training was found to increase the robustness of ML models against these attacks. However, in network and cybersecurity, obtaining labeled training and adversarial training data is challenging and costly. Furthermore, concept drift deepens the challenge, particularly in dynamic domains like network and cybersecurity, and requires various models to conduct periodic retraining. This letter introduces Adaptive Continuous Adversarial Training (ACAT) to continuously integrate adversarial training samples into the model during ongoing learning sessions, using real-world detected adversarial data, to enhance model resilience against evolving adversarial threats. ACAT is an adaptive defense mechanism that utilizes periodic retraining to effectively counter adversarial attacks while mitigating catastrophic forgetting. Our approach also reduces the total time required for adversarial sample detection, especially in environments such as network security where the rate of attacks could be very high. Traditional detection processes that involve two stages may result in lengthy procedures. Experimental results using a SPAM detection dataset demonstrate that with ACAT, the accuracy of the SPAM filter increased from 69% to over 88% after just three retraining sessions. Furthermore, ACAT outperforms conventional adversarial sample detectors, providing faster decision times, up to four times faster in some cases. | 翻訳日:2024-03-18 16:11:26 公開日:2024-03-15 |
# 安全ケース - 高度なAIシステムの安全性を正当化する
Safety Cases: Justifying the Safety of Advanced AI Systems ( http://arxiv.org/abs/2403.10462v1 ) ライセンス: Link先を確認 | Joshua Clymer, Nick Gabrieli, David Krueger, Thomas Larsen, | (参考訳) AIシステムがより高度化するにつれ、企業や規制機関は、トレーニングとデプロイが安全かどうかという難しい決定を下すことになる。
これらの決定に備えて、我々は、AIシステムが大惨事を引き起こす可能性が低いという構造化された根拠である、開発者がどのようにして「安全ケース」を作ることができるかを調査する。
安全ケースの組織化のための枠組みを提案し、安全を正当化するための4つのカテゴリについて論じる。大惨事を引き起こすことができないこと、十分に強力な制御手段、危害を引き起こす能力に拘わらず信頼感があること、信頼できるAIアドバイザへの言及である。
我々は、各カテゴリにおける議論の具体的な例を評価し、AIシステムが安全にデプロイ可能であることを正当化するために、議論をどのように組み合わせるかを概説する。
As AI systems become more advanced, companies and regulators will make difficult decisions about whether it is safe to train and deploy them. To prepare for these decisions, we investigate how developers could make a 'safety case,' which is a structured rationale that AI systems are unlikely to cause a catastrophe. We propose a framework for organizing a safety case and discuss four categories of arguments to justify safety: total inability to cause a catastrophe, sufficiently strong control measures, trustworthiness despite capability to cause harm, and deference to credible AI advisors. We evaluate concrete examples of arguments in each category and outline how arguments could be combined to justify that AI systems are safe to deploy. | 翻訳日:2024-03-18 16:11:26 公開日:2024-03-15 |
# 信頼された準備・測定を伴わない量子計算の検証
Verification of Quantum Computations without Trusted Preparations or Measurements ( http://arxiv.org/abs/2403.10464v1 ) ライセンス: Link先を確認 | Elham Kashefi, Dominik Leichtle, Luka Music, Harold Ollivier, | (参考訳) サービスとしてのデリゲートされた量子コンピューティングの出現に伴い、量子コンピューティングの検証は、非常に重要な問題となっている。
理論上、既存の情報 Secure Delegated Quantum Computing (SDQC) プロトコルでは、クライアントは信頼できる状態の準備や測定を行う能力を持つ必要がある。
信頼できる準備や測定を行うことなく、情報理論のセキュリティで普遍的な量子計算を検証できるかどうかは、今のところ未解決の問題である。
本稿では,モジュール型で構成可能で効率的な検証スキームを信頼ゲートのみに依存するプロトコルに変換する方法を提案することで,この疑問を肯定的に解決する。
我々の最初の貢献は、Z軸とビットフリップの1量子ビット回転の信頼できる適用に対するBQPの量子検証の問題を非常に軽量に削減することである。
この研究で示された2つ目の構成は、信頼された準備や測定なしに、量子出力による任意の量子計算を情報理論的に検証することは一般的に可能であることを示している。
しかし、この第2のプロトコルでは、委譲された計算のサイズに依存しないレジスタ上で、検証者がマルチキュービットゲートを実行する必要がある。
With the advent of delegated quantum computing as a service, verifying quantum computations is becoming a question of great importance. Existing information theoretically Secure Delegated Quantum Computing (SDQC) protocols require the client to possess the ability to perform either trusted state preparations or measurements. Whether it is possible to verify universal quantum computations with information-theoretic security without trusted preparations or measurements was an open question so far. In this paper, we settle this question in the affirmative by presenting a modular, composable, and efficient way to turn known verification schemes into protocols that rely only on trusted gates. Our first contribution is an extremely lightweight reduction of the problem of quantum verification for BQP to the trusted application of single-qubit rotations around the Z axis and bit flips. The second construction presented in this work shows that it is generally possible to information-theoretically verify arbitrary quantum computations with quantum output without trusted preparations or measurements. However, this second protocol requires the verifier to perform multi-qubit gates on a register whose size is independent of the size of the delegated computation. | 翻訳日:2024-03-18 16:11:26 公開日:2024-03-15 |
# スピンの動的平均場理論によるNMR信号の微視的理解
Microscopic understanding of NMR signals by dynamic mean-field theory for spins ( http://arxiv.org/abs/2403.10465v1 ) ライセンス: Link先を確認 | Timo Gräßer, Thomas Hahn, Götz S. Uhrig, | (参考訳) 最近開発された不規則スピン(spinDMFT)の動的平均場理論は、核スピンのスピンダイナミクスをうまく捉えている。
主要な量はスピン自己相関である。
自由帰納減衰 (FID) を計算するためには, 対相関も必要である。
これらは、スピンDMFTによって第1ステップで決定された動的平均場に結合された中程度の大きさのスピンクラスター上で計算することができる。
非局所スピンDMFT (nl-spinDMFT) を用いた。
Nl-spinDMFTの特定の資産であり、FIDステムへの寄与がどこから来ているかを知っている。
本研究では,CaF$_2$の実験データと比較し,nl-spinDMFTの強度について述べる。
さらに、スピンDMFTは、アダマンタンの$^{13}$Cにおける核スピンのFIDを説明するダイナミック平均場を提供する。
アダマンタンのスピンハーンエコーは静音の影響を受けず、さらに適合することなくスピンDMFT結果と良好に一致する。
A recently developed dynamic mean-field theory for disordered spins (spinDMFT) is shown to capture the spin dynamics of nuclear spins very well. The key quantities are the spin autocorrelations. In order to compute the free induction decay (FID), pair correlations are needed in addition. They can be computed on spin clusters of moderate size which are coupled to the dynamic mean fields determined in a first step by spinDMFT. We dub this versatile approach non-local spinDMFT (nl-spinDMFT). It is a particular asset of nl-spinDMFT that one knows from where the contributions to the FID stem. We illustrate the strengths of nl-spinDMFT in comparison to experimental data for CaF$_2$. Furthermore, spinDMFT provides the dynamic mean-fields explaining the FID of the nuclear spins in $^{13}$C in adamantane up to some static noise. The spin Hahn echo in adamantane is free from effects of static noise and agrees excellently with the spinDMFT results without further fitting. | 翻訳日:2024-03-18 16:11:26 公開日:2024-03-15 |
# GitHubのプルリクエストと課題におけるChatGPTとの会話の共有に関する実証的研究
An Empirical Study on Developers Shared Conversations with ChatGPT in GitHub Pull Requests and Issues ( http://arxiv.org/abs/2403.10468v1 ) ライセンス: Link先を確認 | Huizi Hao, Kazi Amit Hasan, Hong Qin, Marcos Macedo, Yuan Tian, Steven H. H. Ding, Ahmed E. Hassan, | (参考訳) ChatGPTはソフトウェア開発プラクティスに大きな影響を与え、コーディング、テスト、デバッグなど、さまざまなタスクにおいて、開発者に相当な支援を提供する。
広く採用されているにもかかわらず、協調コーディングにおけるアシスタントとしてのChatGPTの影響はほとんど解明されていない。
本稿では、GitHubのプルリクエスト(PR)とイシューでChatGPTと会話した、210と370人の開発者のデータセットを分析します。
会話の内容について手動で検討し、共有行動のダイナミクス、すなわち共有の背後にある理性を理解し、会話が共有された場所を特定し、共有する開発者の役割を判断する。
1) 開発者は16種類のソフトウェアエンジニアリングの質問に対してChatGPTの支援を求めます。
PRとイシューの両方で共有される会話の中で、最も頻繁に遭遇する調査カテゴリは、コード生成、概念的質問、ハウツーガイド、イシュー解決、コードレビューである。
2) 開発者はマルチターン会話を通じてChatGPTに頻繁に関わり,初期タスクや新規タスクの公開,反復フォローアップ,即興改善など,各プロンプトがさまざまな役割を果たすことができる。
マルチターン会話はPRで共有される会話の33.2%、問題36.9%を占める。
(3)コラボレーティブコーディングでは、開発者はChatGPTとの会話を利用して、PRやイシューの著者、コードレビュアー、イシューのコラボレータなど、役割固有のコントリビューションを促進する。
私たちの仕事は、共同ソフトウェア開発における開発者とChatGPTの間のダイナミクスを理解するための第一歩として役立ちます。
ChatGPT has significantly impacted software development practices, providing substantial assistance to developers in a variety of tasks, including coding, testing, and debugging. Despite its widespread adoption, the impact of ChatGPT as an assistant in collaborative coding remains largely unexplored. In this paper, we analyze a dataset of 210 and 370 developers shared conversations with ChatGPT in GitHub pull requests (PRs) and issues. We manually examined the content of the conversations and characterized the dynamics of the sharing behavior, i.e., understanding the rationale behind the sharing, identifying the locations where the conversations were shared, and determining the roles of the developers who shared them. Our main observations are: (1) Developers seek ChatGPT assistance across 16 types of software engineering inquiries. In both conversations shared in PRs and issues, the most frequently encountered inquiry categories include code generation, conceptual questions, how-to guides, issue resolution, and code review. (2) Developers frequently engage with ChatGPT via multi-turn conversations where each prompt can fulfill various roles, such as unveiling initial or new tasks, iterative follow-up, and prompt refinement. Multi-turn conversations account for 33.2% of the conversations shared in PRs and 36.9% in issues. (3) In collaborative coding, developers leverage shared conversations with ChatGPT to facilitate their role-specific contributions, whether as authors of PRs or issues, code reviewers, or collaborators on issues. Our work serves as the first step towards understanding the dynamics between developers and ChatGPT in collaborative software development and opens up new directions for future research on the topic. | 翻訳日:2024-03-18 16:11:26 公開日:2024-03-15 |
# Kirchhoff-Heisenberg方程式を用いた非保守電気回路の量子同期
Quantum Synchronization in Nonconservative Electrical Circuits with Kirchhoff-Heisenberg Equations ( http://arxiv.org/abs/2403.10474v1 ) ライセンス: Link先を確認 | Matteo Mariantoni, Noah Gorgichuk, | (参考訳) 非保存素子を特別に設計した電気回路における量子同期現象について検討する。
古典的および量子化された電気回路の散逸理論はレイリー散逸関数に基づいて展開される。
この枠組みの導入により、ポアソン=レイリーブラケットと呼ばれる古典的なポアソンブラケットの一般化版を定式化することができる。
これらのブラケットを用いることで、与えられた回路の運動方程式を導出することができる。
興味深いことに、これらの方程式は、キルヒホフの電圧法則が位相的制約を課すために用いられるときに、キルヒホフの現在の法則に対応している。
量子環境では、運動方程式はキルヒホフ・ハイゼンベルク方程式と呼ばれ、ハイゼンベルク図中のキルヒホフの法則を表す。
これらのキルヒホフ・ハイゼンベルク方程式は電気回路のネイティブ方程式として機能し、リンドブラッド形式のより抽象的なマスター方程式の代わりに用いられる。
理論的枠組みを検証するため、3つの異なる回路を検証した。
第1回路は、非保存素子を介して結合された2つの共振器からなる。
第2の回路は、トランスモンのような弱い非線形共振器を組み込むように第1の回路を拡張している。
最後に, インダクタを介して直列に接続された2つの共振器を含む回路について検討する。
この最後の回路は、偶然に現実的な実装を表しており、座標の欠如がハミルトン方程式の不定義系につながる特異系の研究を可能にする。
このような病理回路を解析するために、補助回路要素の概念を導入する。
特異点を解いた後、解析の終了時にこの要素を効果的に除去できることを示し、元の回路を回復する。
We investigate quantum synchronization phenomena in electrical circuits that incorporate specifically designed nonconservative elements. A dissipative theory of classical and quantized electrical circuits is developed based on the Rayleigh dissipation function. The introduction of this framework enables the formulation of a generalized version of classical Poisson brackets, which are termed Poisson-Rayleigh brackets. By using these brackets, we are able to derive the equations of motion for a given circuit. Remarkably, these equations are found to correspond to Kirchhoff's current laws when Kirchhoff's voltage laws are employed to impose topological constraints, and vice versa. In the quantum setting, the equations of motion are referred to as the Kirchhoff-Heisenberg equations, as they represent Kirchhoff's laws within the Heisenberg picture. These Kirchhoff-Heisenberg equations, serving as the native equations for an electrical circuit, can be used in place of the more abstract master equations in Lindblad form. To validate our theoretical framework, we examine three distinct circuits. The first circuit consists of two resonators coupled via a nonconservative element. The second circuit extends the first to incorporate weakly nonlinear resonators, such as transmons. Lastly, we investigate a circuit involving two resonators connected through an inductor in series with a resistor. This last circuit, which incidentally represents a realistic implementation, allows for the study of a singular system, where the absence of a coordinate leads to an ill-defined system of Hamilton's equations. To analyze such a pathological circuit, we introduce the concept of auxiliary circuit element. After resolving the singularity, we demonstrate that this element can be effectively eliminated at the conclusion of the analysis, recuperating the original circuit. | 翻訳日:2024-03-18 16:11:26 公開日:2024-03-15 |
# ロバスト・ビジョン・トランスのための近似ヌルスペース強化ファインタニング
Approximate Nullspace Augmented Finetuning for Robust Vision Transformers ( http://arxiv.org/abs/2403.10476v1 ) ライセンス: Link先を確認 | Haoyang Liu, Aditya Singh, Yijiang Li, Haohan Wang, | (参考訳) ディープラーニングモデルの堅牢性、特にビジョントランスフォーマー(ViT)の領域における強化は、彼らの実世界展開に不可欠である。
本研究では、線形代数からのヌル空間の概念に触発された視覚変換器の堅牢性を高めるための微調整手法を提案する。
本研究は、線形写像におけるヌル空間特性に類似した入力変動に対して、視覚変換器がレジリエンスを示すことができるかどうかに着目し、このヌル空間からサンプリングされた摂動が入力に付加された場合のモデル出力に影響を与えないことを示す。
まず、事前訓練された多くのViTに対して、パッチ埋め込み層の存在により、非自明なヌル空間が存在することを示す。
第二に、ヌル空間は線型代数に付随する概念であるため、最適化戦略を用いて、ViT の非線形ブロックに対する近似ヌル空間要素を合成できることが示される。
最後に, 合成した近似ヌル空間雑音によるトレーニングデータを拡張したViTの微調整戦略を提案する。
微調整後,本モデルでは,逆方向や自然像の分布にも頑健性を示すことが判明した。
Enhancing the robustness of deep learning models, particularly in the realm of vision transformers (ViTs), is crucial for their real-world deployment. In this work, we provide a finetuning approach to enhance the robustness of vision transformers inspired by the concept of nullspace from linear algebra. Our investigation centers on whether a vision transformer can exhibit resilience to input variations akin to the nullspace property in linear mappings, implying that perturbations sampled from this nullspace do not influence the model's output when added to the input. Firstly, we show that for many pretrained ViTs, a non-trivial nullspace exists due to the presence of the patch embedding layer. Secondly, as nullspace is a concept associated with linear algebra, we demonstrate that it is possible to synthesize approximate nullspace elements for the non-linear blocks of ViTs employing an optimisation strategy. Finally, we propose a fine-tuning strategy for ViTs wherein we augment the training data with synthesized approximate nullspace noise. After finetuning, we find that the model demonstrates robustness to adversarial and natural image perbutations alike. | 翻訳日:2024-03-18 16:11:26 公開日:2024-03-15 |
# ユニバーサルデザインを用いた学習視点による麺使用性評価手法
Moodle Usability Assessment Methodology using the Universal Design for Learning perspective ( http://arxiv.org/abs/2403.10484v1 ) ライセンス: Link先を確認 | Rosana Montes, Liliana Herrera, Emilio Crisol, | (参考訳) ユニバーサル・デザイン・フォー・ラーニング・フレームワークの応用は、仮想的な教育環境の創出を好んでいる。
アクセス可能なコンテンツを開発し、利用可能なプラットフォームを持ち、常に学生のモチベーションを促進するフレキシブルな実践と評価を使用する必要がある。
本研究の目的は,学習のためのユニバーサルデザインの原則に基づいて,アクセシビリティ,ユーザビリティ,および支援技術の活用性の重要性を認識し,Moodleプラットフォームのユーザビリティを評価する方法論を設計することである。
我々は,Moodleプラットフォームのユーザビリティレベルを評価する方法論を開発,適用し,それらがAssistive Technologiesを統合するか,MOOCコンテキストに使用されるかを考慮して検討した。
我々は、それぞれのMoodle v.2.xとv.3.xファミリーのバージョンの2つのインスタンスを評価するユースケースの結果を提供する。
ユニバーサルデザイン・フォー・ラーニング(Universal Design for Learning)の原則に基づいて考案されたMOOC型教育プログラムを評価するために,混合設計研究の枠組みを採用した。
Moodle v.2.x と v.3.x の評価の結果、国際アクセシビリティ標準に準拠するために、プラットフォームはいくつかの重要な要素(例えば、コントラスト色、代替テキストとリンクの取り込み)を改善しなければならないと結論付けている。
ユーザビリティに関しては,MOOC型仮想学習環境に適用可能なユニバーサルデザインの原則とガイドラインが,学生から肯定的に評価され,認定率に肯定的な影響を与えることが確認できる。
The application of the Universal Design for Learning framework favors the creation of virtual educational environments for all. It requires developing accessible content, having a usable platform, and the use of flexible didactics and evaluations that promote constant student motivation. The present study aims to design a methodology to evaluate the usability of the Moodle platform based on the principles of Universal Design for Learning, recognizing the importance of accessibility, usability and the availability of Assistive Technologies. We developed and applied a methodology to assess the usability level of Moodle platforms, taking into consideration that they integrate Assistive Technologies or are used for MOOC contexts. We provide the results of a use case that assesses two instances for the respective Moodle v.2.x and v.3.x family versions. We employed the framework of mixed design research in order to assess a MOOC-type educational program devised under the principles of Universal Design for Learning. As a result of the assessment of Moodle v.2.x and v.3.x, we conclude that the platforms must improve some key elements (e.g. contrasting colors, incorporation of alternative text and links) in order to comply with international accessibility standards. With respect to usability, we can confirm that the principles and guidelines of Universal Design for Learning are applicable to MOOC-type Virtual Learning Environments, are positively valued by students, and have a positive impact on certification rates. | 翻訳日:2024-03-18 16:11:26 公開日:2024-03-15 |
# マルチモーダル基礎モデルのゼロショットロバスト性ベンチマーク:パイロット実験
Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study ( http://arxiv.org/abs/2403.10499v1 ) ライセンス: Link先を確認 | Chenguang Wang, Ruoxi Jia, Xin Liu, Dawn Song, | (参考訳) 画像に関する原文から画像表現を事前訓練することにより、下流タスクへのゼロショットビジョン転送が可能になる。
インターネットから収集された数百万のサンプルを事前トレーニングすることで、CLIPのようなマルチモーダル基盤モデルは、タスク固有のトレーニングを必要とせずに、完全に教師されたメソッドと競合する、最先端のゼロショット結果を生成する。
分類精度の向上に加えて,これらのモデルが,自然分布シフト下でのImageNetでトレーニングした教師モデルのパフォーマンスをマッチングすることにより,ロバスト性ギャップを埋めることが報告されている。
本稿では, 実世界のアプリケーション, 特に安全クリティカルなアプリケーションにロバスト性は不可欠であるため, 大規模ロバスト性ベンチマークを用いて, 7つの自然, 3つの合成分布シフト, 11個の敵攻撃を網羅的に評価する。
パイロットスタディとしてCLIPを使用します。
今回のベンチマークでは,CLIPは,特に合成分布シフトや対向攻撃において,教師付き ImageNet モデルと比較して大きなロバスト性低下をもたらすことが示された。
さらに、データ重複解析により、自然分布シフトの下で観測されたロバスト性は、少なくとも部分的には、データの重複に起因する可能性があることが示唆された。
結論として, ゼロショットマルチモーダルモデルのロバスト性向上には, 総合的なロバスト性評価が必要であることを示す。
Pre-training image representations from the raw text about images enables zero-shot vision transfer to downstream tasks. Through pre-training on millions of samples collected from the internet, multimodal foundation models, such as CLIP, produce state-of-the-art zero-shot results that often reach competitiveness with fully supervised methods without the need for task-specific training. Besides the encouraging performance on classification accuracy, it is reported that these models close the robustness gap by matching the performance of supervised models trained on ImageNet under natural distribution shift. Because robustness is critical to real-world applications, especially safety-critical ones, in this paper, we present a comprehensive evaluation based on a large-scale robustness benchmark covering 7 natural, 3 synthetic distribution shifts, and 11 adversarial attacks. We use CLIP as a pilot study. We show that CLIP leads to a significant robustness drop compared to supervised ImageNet models on our benchmark, especially under synthetic distribution shift and adversarial attacks. Furthermore, data overlap analysis suggests that the observed robustness under natural distribution shifts could be attributed, at least in part, to data overlap. In summary, our evaluation shows a comprehensive evaluation of robustness is necessary; and there is a significant need to improve the robustness of zero-shot multimodal models. | 翻訳日:2024-03-18 16:11:26 公開日:2024-03-15 |
# LLMによる欠陥コードのデミスティフィケーション:説明可能な故障位置推定のためのステップバイステップ推論
Demystifying Faulty Code with LLM: Step-by-Step Reasoning for Explainable Fault Localization ( http://arxiv.org/abs/2403.10507v1 ) ライセンス: Link先を確認 | Ratnadira Widyasari, Jia Wei Ang, Truong Giang Nguyen, Neil Sharma, David Lo, | (参考訳) フォールトローカライゼーションは、プログラムの障害の原因となる特定のプログラム要素を特定することを含む重要なプロセスである。
障害に関連するクラス、メソッド、ステートメントなど、これらの要素を手動で特定することは、手間と時間を要する。
この課題を克服するために、様々な障害ローカライゼーションツールが開発されている。
これらのツールは典型的には不審なプログラム要素のランキングリストを生成する。
しかし、この情報だけでは不十分である。
以前の研究では、自動障害ローカライゼーションは合理的であるべきだと強調されていた。
本研究では,説明可能な故障位置推定のためのステップバイステップ推論について検討する。
コードを推論する開発者を支援する上で,LLM(Large Language Models)の可能性を探る。
本研究では,複数の情報の組み合わせを用いて,スペクトルベースの障害局所化結果,テストケース実行結果,およびコード記述(例えば,与えられたコードが何を意図しているかの説明)であるLLM結果を強化するFuseFLを提案する。
Refactoryデータセットの欠陥コードを用いて調査を行った。
まず,自動故障局所化の性能を評価する。
以上の結果から,Top-1における局部断層の出現率は,ベースラインに比べて30%以上増加した。
FuseFLが生成した説明を評価するために、特定の行のコードに障害がある理由をステップバイステップで推論する、人間の説明のデータセットを作成します。
このデータセットは、324の欠陥コードファイルと600の欠陥行の説明で構成されている。
また,人間による研究も実施し,その説明について検討した。
ランダムに採取された30例中22例において,FuseFLは正しい説明が得られた。
Fault localization is a critical process that involves identifying specific program elements responsible for program failures. Manually pinpointing these elements, such as classes, methods, or statements, which are associated with a fault is laborious and time-consuming. To overcome this challenge, various fault localization tools have been developed. These tools typically generate a ranked list of suspicious program elements. However, this information alone is insufficient. A prior study emphasized that automated fault localization should offer a rationale. In this study, we investigate the step-by-step reasoning for explainable fault localization. We explore the potential of Large Language Models (LLM) in assisting developers in reasoning about code. We proposed FuseFL that utilizes several combinations of information to enhance the LLM results which are spectrum-based fault localization results, test case execution outcomes, and code description (i.e., explanation of what the given code is intended to do). We conducted our investigation using faulty code from Refactory dataset. First, we evaluate the performance of the automated fault localization. Our results demonstrate a more than 30% increase in the number of successfully localized faults at Top-1 compared to the baseline. To evaluate the explanations generated by FuseFL, we create a dataset of human explanations that provide step-by-step reasoning as to why specific lines of code are considered faulty. This dataset consists of 324 faulty code files, along with explanations for 600 faulty lines. Furthermore, we also conducted human studies to evaluate the explanations. We found that for 22 out of the 30 randomly sampled cases, FuseFL generated correct explanations. | 翻訳日:2024-03-18 16:11:26 公開日:2024-03-15 |
# FeatUp: どんな解像度でも機能のためのモデルに依存しないフレームワーク
FeatUp: A Model-Agnostic Framework for Features at Any Resolution ( http://arxiv.org/abs/2403.10516v1 ) ライセンス: Link先を確認 | Stephanie Fu, Mark Hamilton, Laura Brandt, Axel Feldman, Zhoutong Zhang, William T. Freeman, | (参考訳) ディープ機能はコンピュータビジョン研究の基盤であり、画像意味論を捉え、ゼロショットや少数ショットの体制でもコミュニティが下流のタスクを解決できるようにする。
しかし、これらの特徴は、大きな領域に積極的に情報をプールするため、セグメント化や深度予測といった密集した予測タスクを直接実行する空間分解能に欠けることが多い。
本研究では,タスクとモデルに依存しないフレームワークであるFeatUpを紹介し,失われた空間情報を深い特徴で復元する。
FeatUpの2つのバリエーションを紹介します。1つは、1つのフォワードパスで高分解能信号で特徴を導くもので、もう1つは暗黙のモデルを1つのイメージに適合させて、任意の解像度で特徴を再構成するものです。
どちらのアプローチも、NeRFと深い類似性を持つマルチビュー一貫性損失を使用する。
私たちの機能は、元のセマンティクスを保持しており、既存のアプリケーションに置き換えて、再トレーニングすることなく、解像度とパフォーマンスの向上を得ることができる。
FeatUpは、クラスアクティベーションマップ生成、セグメンテーションとデプス予測のためのトランスファーラーニング、セグメンテーションのためのエンドツーエンドトレーニングにおいて、他の機能アップサンプリングや画像超解像アプローチよりも大幅に優れていることを示す。
Deep features are a cornerstone of computer vision research, capturing image semantics and enabling the community to solve downstream tasks even in the zero- or few-shot regime. However, these features often lack the spatial resolution to directly perform dense prediction tasks like segmentation and depth prediction because models aggressively pool information over large areas. In this work, we introduce FeatUp, a task- and model-agnostic framework to restore lost spatial information in deep features. We introduce two variants of FeatUp: one that guides features with high-resolution signal in a single forward pass, and one that fits an implicit model to a single image to reconstruct features at any resolution. Both approaches use a multi-view consistency loss with deep analogies to NeRFs. Our features retain their original semantics and can be swapped into existing applications to yield resolution and performance gains even without re-training. We show that FeatUp significantly outperforms other feature upsampling and image super-resolution approaches in class activation map generation, transfer learning for segmentation and depth prediction, and end-to-end training for semantic segmentation. | 翻訳日:2024-03-18 16:11:26 公開日:2024-03-15 |
# VideoAgent: エージェントとしての大規模言語モデルによる長めのビデオ理解
VideoAgent: Long-form Video Understanding with Large Language Model as Agent ( http://arxiv.org/abs/2403.10517v1 ) ライセンス: Link先を確認 | Xiaohan Wang, Yuhui Zhang, Orr Zohar, Serena Yeung-Levy, | (参考訳) ロングフォームビデオ理解はコンピュータビジョンにおいて重要な課題であり、長いマルチモーダルシーケンスを推論できるモデルを必要とする。
人間の認知プロセスに動機付けられて、長い視覚的入力を処理する能力に対して、対話的推論と計画を強調した。
本稿では,視覚情報を翻訳・検索するツールとしての視覚言語基盤モデルを用いて,重要な情報を反復的に識別・コンパイルするために,大規模言語モデルを中心エージェントとして利用する新しいエージェントベースシステムであるVideoAgentを紹介する。
挑戦的なEgoSchemaとNEXT-QAベンチマークに基づいて、VideoAgentは平均8.4フレームと8.2フレームしか使用せず、54.1%と71.3%のゼロショット精度を達成した。
これらの結果から,提案手法が現在最先端の手法よりも優れた効果と効率性を示し,長文ビデオ理解の進歩におけるエージェントベースアプローチの可能性を強調した。
Long-form video understanding represents a significant challenge within computer vision, demanding a model capable of reasoning over long multi-modal sequences. Motivated by the human cognitive process for long-form video understanding, we emphasize interactive reasoning and planning over the ability to process lengthy visual inputs. We introduce a novel agent-based system, VideoAgent, that employs a large language model as a central agent to iteratively identify and compile crucial information to answer a question, with vision-language foundation models serving as tools to translate and retrieve visual information. Evaluated on the challenging EgoSchema and NExT-QA benchmarks, VideoAgent achieves 54.1% and 71.3% zero-shot accuracy with only 8.4 and 8.2 frames used on average. These results demonstrate superior effectiveness and efficiency of our method over the current state-of-the-art methods, highlighting the potential of agent-based approaches in advancing long-form video understanding. | 翻訳日:2024-03-18 16:11:26 公開日:2024-03-15 |
# 古典的および量子ガウス関係に対する完全方程式理論
Complete equational theories for classical and quantum Gaussian relations ( http://arxiv.org/abs/2403.10479v1 ) ライセンス: Link先を確認 | Robert I. Booth, Titouan Carette, Cole Comfort, | (参考訳) ガウス関係と正アフィンラグランジュ関係のハイパーグラフプロップに対して生成子と関係を与える。
前者は完全不定形前処理によりガウス確率過程を拡張し、後者は無限にスクイーズされた状態を持つガウス量子力学を拡張する。
これらのプレゼンテーションは、実アフィン関係の表現と実アフィンラグランジアン関係の表現にジェネレータを加えることで得られる。
正のアフィンラグランジアン関係の提示は、無限のスクイーズを含む量子物理学の文献において、多くの一般的な非公式な計算に対して厳密な正当化を与える。
我々のプレゼンテーションは、ガウス変換の表現を伴うガウス量子状態のメニコーッチやアルのグラフ理論的な表現を自然に拡張する。
我々は、正アフィンラグランジアン関係の提示において、受動線形光学量子回路を推論するための図式計算であるLOv-calculusを解釈する。
さらに,本発表では,能動スクイーズなどの光学的操作が可能であることを示す。
We give generators and relations for the hypergraph props of Gaussian relations and positive affine Lagrangian relations. The former extends Gaussian probabilistic processes by completely-uninformative priors, and the latter extends Gaussian quantum mechanics with infinitely-squeezed states. These presentations are given by adding a generator to the presentation of real affine relations and of real affine Lagrangian relations which freely codiscards effects, as well as certain rotations. The presentation of positive affine Lagrangian relations provides a rigorous justification for many common yet informal calculations in the quantum physics literature involving infinite-squeezing. Our presentation naturally extends Menicucci et al.'s graph-theoretic representation of Gaussian quantum states with a representation for Gaussian transformations. We interpret the LOv-calculus, a diagrammatic calculus for reasoning about passive linear-optical quantum circuits in our presentation of positive affine Lagrangian relations. Moreover, we show how our presentation allows for additional optical operations such as active squeezing. | 翻訳日:2024-03-18 16:01:36 公開日:2024-03-15 |
# GPT4ベースのAIエージェントは十分なパフォーマンスの属性分析に役立てられるか?
Can a GPT4-Powered AI Agent Be a Good Enough Performance Attribution Analyst? ( http://arxiv.org/abs/2403.10482v1 ) ライセンス: Link先を確認 | Bruno de Melo, | (参考訳) パフォーマンス属性分析は、投資ポートフォリオのベンチマークに対する過剰なパフォーマンスの要因を説明するプロセスとして定義され、ポートフォリオ管理の重要な側面であり、特にファンド管理業界において、投資決定プロセスにおいて重要な役割を果たす。
この分析手法の重要性と方法論は、多くの学術研究論文や書籍で広く文書化されている。
大規模言語モデル(LLM)とAIエージェントの統合は、この分野における画期的な発展を示している。
これらのエージェントは、ベンチマークに対するポートフォリオパフォーマンスを正確に計算し分析することにより、パフォーマンス属性分析の自動化と強化を目的としている。
本研究では,多段階の属性分析と質問応答(QA)演習の計算エンジンとして,パフォーマンスドライバの分析やLLMの利用など,AIエージェントのさまざまなパフォーマンス属性タスクへの適用について紹介する。
この研究は、Chain-of-Thought(CoT)やPlan and Solve(PS)といった先進的な迅速なエンジニアリング技術を活用し、LangChainの標準エージェントフレームワークを使用して、パフォーマンスドライバの分析において93%を超える精度を実現し、マルチレベルの属性計算で100%に達し、公式な検査基準をシミュレートするQA演習では84%を超える精度を実現している。
これらの結果は、AIエージェントのインパクトある役割、ポートフォリオ管理プロセスの進展におけるエンジニアリングと評価の促進、ドメイン内のAI技術の実践的応用と評価の大幅な進歩を浮き彫りにしている。
Performance attribution analysis, defined as the process of explaining the drivers of the excess performance of an investment portfolio against a benchmark, stands as a significant aspect of portfolio management and plays a crucial role in the investment decision-making process, particularly within the fund management industry. Rooted in a solid financial and mathematical framework, the importance and methodologies of this analytical technique are extensively documented across numerous academic research papers and books. The integration of large language models (LLMs) and AI agents marks a groundbreaking development in this field. These agents are designed to automate and enhance the performance attribution analysis by accurately calculating and analyzing portfolio performances against benchmarks. In this study, we introduce the application of an AI Agent for a variety of essential performance attribution tasks, including the analysis of performance drivers and utilizing LLMs as calculation engine for multi-level attribution analysis and question-answer (QA) exercises. Leveraging advanced prompt engineering techniques such as Chain-of-Thought (CoT) and Plan and Solve (PS), and employing a standard agent framework from LangChain, the research achieves promising results: it achieves accuracy rates exceeding 93% in analyzing performance drivers, attains 100% in multi-level attribution calculations, and surpasses 84% accuracy in QA exercises that simulate official examination standards. These findings affirm the impactful role of AI agents, prompt engineering and evaluation in advancing portfolio management processes, highlighting a significant advancement in the practical application and evaluation of AI technologies within the domain. | 翻訳日:2024-03-18 16:01:36 公開日:2024-03-15 |
# 競争によるロボットの可能性
Stimulate the Potential of Robots via Competition ( http://arxiv.org/abs/2403.10487v1 ) ライセンス: Link先を確認 | Kangyao Huang, Di Guo, Xinyu Zhang, Xiangyang Ji, Huaping Liu, | (参考訳) 競争環境においては,他者や相手と比較して成功を収めたいという願望から生じるプレッシャーを感じることが一般的である。
プレッシャーの下で不安になるかもしれませんが、他の人に追いつくために、私たちのポテンシャルを最善に刺激するきっかけになるかもしれません。
そこで本研究では,個々のロボットが競争から知識を得るのを支援するための,競争力のある学習フレームワークを提案する。
具体的には、競合相手間の競合情報を、有利な行動を学ぶための補助信号として導入する。
さらに,Multiagent-Race環境を構築し,競争環境において訓練されたロボットが,単一ロボット環境でのSoTAアルゴリズムで訓練されたロボットよりも優れていることを示す。
It is common for us to feel pressure in a competition environment, which arises from the desire to obtain success comparing with other individuals or opponents. Although we might get anxious under the pressure, it could also be a drive for us to stimulate our potentials to the best in order to keep up with others. Inspired by this, we propose a competitive learning framework which is able to help individual robot to acquire knowledge from the competition, fully stimulating its dynamics potential in the race. Specifically, the competition information among competitors is introduced as the additional auxiliary signal to learn advantaged actions. We further build a Multiagent-Race environment, and extensive experiments are conducted, demonstrating that robots trained in competitive environments outperform ones that are trained with SoTA algorithms in single robot environment. | 翻訳日:2024-03-18 16:01:36 公開日:2024-03-15 |
# 野生における三次元感情認識のためのマルチモーダル変換器
Joint Multimodal Transformer for Dimensional Emotional Recognition in the Wild ( http://arxiv.org/abs/2403.10488v1 ) ライセンス: Link先を確認 | Paul Waligora, Osama Zeeshan, Haseeb Aslam, Soufiane Belharbi, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric Granger, | (参考訳) ビデオにおける視覚的感情認識(ER)は、一助的なパフォーマンスに対して大きな可能性を秘めている。
視覚的モダリティと聴覚的モダリティの間のモード内依存関係を効果的に活用する。
本研究は,キーベース・クロスアテンションを用いたマルチモーダルトランスフォーマアーキテクチャを用いた,新しい音声視覚感情認識システムを提案する。
本フレームワークは,映像における音声・視覚的手がかり(表情・発声パターン)の相補的な性質を活用することを目的としており,単一のモダリティにのみ依存するよりも優れた性能を実現する。
提案モデルでは,各モーダル(音響と視覚)内のモーダル内時間依存性を捉えるために,異なるバックボーンを利用する。
その後、ジョイントマルチモーダルトランスフォーマーアーキテクチャは個々のモーダル埋め込みを統合し、モデルがモーダル間(音声と視覚の間)とモーダル内(各モーダルを含む)を効果的にキャプチャすることを可能にする。
Affwild2データセットの大規模な評価は、提案モデルがERタスクのベースラインと最先端メソッドを大幅に上回っていることを示している。
Audiovisual emotion recognition (ER) in videos has immense potential over unimodal performance. It effectively leverages the inter- and intra-modal dependencies between visual and auditory modalities. This work proposes a novel audio-visual emotion recognition system utilizing a joint multimodal transformer architecture with key-based cross-attention. This framework aims to exploit the complementary nature of audio and visual cues (facial expressions and vocal patterns) in videos, leading to superior performance compared to solely relying on a single modality. The proposed model leverages separate backbones for capturing intra-modal temporal dependencies within each modality (audio and visual). Subsequently, a joint multimodal transformer architecture integrates the individual modality embeddings, enabling the model to effectively capture inter-modal (between audio and visual) and intra-modal (within each modality) relationships. Extensive evaluations on the challenging Affwild2 dataset demonstrate that the proposed model significantly outperforms baseline and state-of-the-art methods in ER tasks. | 翻訳日:2024-03-18 16:01:36 公開日:2024-03-15 |
# 逆命令チューニングによる大規模マルチモーダルモデルに対する対話幻覚の緩和
Mitigating Dialogue Hallucination for Large Multi-modal Models via Adversarial Instruction Tuning ( http://arxiv.org/abs/2403.10492v1 ) ライセンス: Link先を確認 | Dongmin Park, Zhaofang Qian, Guangxing Han, Ser-Nam Lim, | (参考訳) 大規模マルチモーダルモデル(LMM)の幻覚の緩和は,汎用アシスタントの信頼性向上に不可欠である。
本稿では,従来のユーザ・システム対話によって,このようなLMMの幻覚が著しく悪化することを示す。
これを正確に測定するために、我々はまず、LMMに対する敵対的攻撃を採用することで、画像関連であるが敵対的対話を自動生成できる新しいAdversarial Question Generatorによって生成された幻覚的対話を用いて、人気のあるマルチモーダル・ベンチマーク・データセットを拡張して評価ベンチマークを提示する。
我々のベンチマークでは、最先端のLMMのゼロショット性能はVQAタスクとCaptioningタスクの両方で著しく低下した。
次に、この幻覚は、視覚コンテンツよりも先行する対話に対する予測バイアスが主な原因であることを示す。
このバイアスを軽減するために,幻覚対話付きマルチモーダル命令追従データセットに頑健な微調整を施したAdversarial Instruction Tuningを提案する。
広汎な実験により,提案手法は性能の維持や改善を図りながら,対話幻覚の低減に成功していることがわかった。
Mitigating hallucinations of Large Multi-modal Models(LMMs) is crucial to enhance their reliability for general-purpose assistants. This paper shows that such hallucinations of LMMs can be significantly exacerbated by preceding user-system dialogues. To precisely measure this, we first present an evaluation benchmark by extending popular multi-modal benchmark datasets with prepended hallucinatory dialogues generated by our novel Adversarial Question Generator, which can automatically generate image-related yet adversarial dialogues by adopting adversarial attacks on LMMs. On our benchmark, the zero-shot performance of state-of-the-art LMMs dropped significantly for both the VQA and Captioning tasks. Next, we further reveal this hallucination is mainly due to the prediction bias toward preceding dialogues rather than visual content. To reduce this bias, we propose Adversarial Instruction Tuning that robustly fine-tunes LMMs on augmented multi-modal instruction-following datasets with hallucinatory dialogues. Extensive experiments show that our proposed approach successfully reduces dialogue hallucination while maintaining or even improving performance. | 翻訳日:2024-03-18 16:01:36 公開日:2024-03-15 |
# バリア証明書と条件付き平均埋め込みを用いたデータ駆動型ロバスト安全性検証
Data-Driven Distributionally Robust Safety Verification Using Barrier Certificates and Conditional Mean Embeddings ( http://arxiv.org/abs/2403.10497v1 ) ライセンス: Link先を確認 | Oliver Schön, Zhengang Zhong, Sadegh Soudjani, | (参考訳) 安全性やその他の時間的要求を満たす現実的なシステムのアルゴリズムによる検証は、採用された形式的アプローチのスケーラビリティの低下に悩まされている。
厳格な保証を持つシステムを設計するには、多くのアプローチは依然として基礎となるシステムの正確なモデルに依存している。
この仮定が実際に満たされることは滅多にないため、モデルは測定データから推測されるか、完全にバイパスされる必要がある。
前者は、通常、モデル構造がアプリオリであり、大量のデータが利用可能であることが要求されるが、後者は未知の力学に関する多くの制限的な数学的仮定を引き起こす。
問題を非現実的な仮定にシフトさせることなく,スケーラブルな形式的検証アルゴリズムを開発するために,システムの安全性を保証するバリア証明書の概念を採用し,システムトラジェクトリのコンパクトな集合から証明書を直接学習する。
条件付き平均埋め込みを用いて、システムのデータを再生可能なカーネルヒルベルト空間(RKHS)に埋め込んで、拡張可能なRKHSあいまい性集合を構築し、その結果を可塑性遷移カーネルの集合のように強固にすることができる。
本稿では,2乗法最適化とガウス過程エンベロープを用いて効率よくプログラムを解く方法を示す。
提案手法は, システムの力学と不確実性に対する制約的な仮定の必要性を軽減し, テストケーススタディにおけるシステムの安全性を, 最先端のアプローチと比較して検証する際の, サンプルの複雑さの向上を示唆している。
Algorithmic verification of realistic systems to satisfy safety and other temporal requirements has suffered from poor scalability of the employed formal approaches. To design systems with rigorous guarantees, many approaches still rely on exact models of the underlying systems. Since this assumption can rarely be met in practice, models have to be inferred from measurement data or are bypassed completely. Whilst former usually requires the model structure to be known a-priori and immense amounts of data to be available, latter gives rise to a plethora of restrictive mathematical assumptions about the unknown dynamics. In a pursuit of developing scalable formal verification algorithms without shifting the problem to unrealistic assumptions, we employ the concept of barrier certificates, which can guarantee safety of the system, and learn the certificate directly from a compact set of system trajectories. We use conditional mean embeddings to embed data from the system into a reproducing kernel Hilbert space (RKHS) and construct an RKHS ambiguity set that can be inflated to robustify the result w.r.t. a set of plausible transition kernels. We show how to solve the resulting program efficiently using sum-of-squares optimization and a Gaussian process envelope. Our approach lifts the need for restrictive assumptions on the system dynamics and uncertainty, and suggests an improvement in the sample complexity of verifying the safety of a system on a tested case study compared to a state-of-the-art approach. | 翻訳日:2024-03-18 16:01:36 公開日:2024-03-15 |
# 量子状態、宇宙の領域に部分的痕跡
Quantum States Seen by a Probe: Partial Trace Over a Region of Space ( http://arxiv.org/abs/2403.10501v1 ) ライセンス: Link先を確認 | Quentin Ansel, | (参考訳) 部分的トレース演算は通常、単一のサブシステムの状態を減らすために、複合量子系において考慮される。
この操作は、デコヒーレンス効果と量子測定において重要な役割を果たす。
しかし、部分的トレース演算はより一般的な状況で定義することができる。
特に、空間の特定の領域における量子状態(1つまたは複数の量子実体)を制限するために使用することができ、残りの宇宙は環境として扱われる。
縮小状態は、空間範囲に制限のある理想的なプローブによって検出できる状態として解釈される。
本稿では、フォックヒルベルト空間上で定義された系に対してそのような演算を考察する。
還元密度行列の一般的な式を計算し、数演算子の固有状態、コヒーレント状態、熱状態といったいくつかのケーススタディに適用する。
これらの状態は、非常に異なる振る舞いを許容する。
特に
(i)数値演算子の固有状態にデコヒーレンス効果が発生する
(II)コヒーレント状態または熱状態は、コヒーレント状態または熱状態のままであるが、磁場と関心領域の重なりによって振幅/温度が非自明に減少する。
The partial trace operation is usually considered in composite quantum systems, to reduce the state on a single subsystem. This operation has a key role in the decoherence effect and quantum measurements. However, partial trace operations can be defined in more generic situations. In particular, it can be used to restrict a quantum state (for a single or several quantum entities) on a specific region of space, the rest of the universe being treated as an environment. The reduced state is then interpreted as the state that can be detected by an ideal probe with a limited spatial extent. In this paper, such an operation is investigated for systems defined on a Fock Hilbert space. A generic expression of the reduced density matrix is computed, and it is applied to several case studies: eigenstates of the number operator, coherent states, and thermal states. These states admit very different behaviors. In particular, (i) a decoherence effect happens on eigenstates of the number operator (ii) coherent or thermal states remain coherent or thermal, but with an amplitude/temperature reduced non-trivially by the overlap between the field and the region of interest. | 翻訳日:2024-03-18 16:01:36 公開日:2024-03-15 |
# 知識尺度に基づく信念の変化
Belief Change based on Knowledge Measures ( http://arxiv.org/abs/2403.10502v1 ) ライセンス: Link先を確認 | Umberto Straccia, Giovanni Casini, | (参考訳) 知識尺度 (KMs) は、知識基盤が持つ知識/情報量の定量化を目的としている。
一方、BC(Breief Change)は、新しい知識を考慮に入れた信念(この場合、契約、拡張、改訂)を変える過程であり、おそらく現在の信念と矛盾している。
我々は、情報理論の観点から、変化した信念が持つ驚きを最小化しようとする信念変化演算子を定義することで、KMsに基づく新しい量的BCフレームワークを提案する。
この目的のために、最小の驚きの原理を導入する。
特に私たちの貢献は
i) [1] が特別の場合である KM に対する一般情報理論的アプローチ
(二)いわゆるAGM仮定を満たすKMに基づくBC演算子及び
3) AGM を KM ベースの BC 演算子として仮定する BC 演算子の特徴付け。
また,契約情報の喪失,拡張情報獲得,リビジョン情報変更を考慮に入れた量的尺度も導入する。
また,本フレームワークにおける一連のリビジョン操作の適用に関する反復的リビジョンの問題を簡潔に考察するとともに,いわゆる厳格なリカバリモデルに着目して,我々のKMベースのリカバリ演算子から構築したリカバリの仮定を満たさないリカバリ演算子を例に挙げる。
Knowledge Measures (KMs) aim at quantifying the amount of knowledge/information that a knowledge base carries. On the other hand, Belief Change (BC) is the process of changing beliefs (in our case, in terms of contraction, expansion and revision) taking into account a new piece of knowledge, which possibly may be in contradiction with the current belief. We propose a new quantitative BC framework that is based on KMs by defining belief change operators that try to minimise, from an information-theoretic point of view, the surprise that the changed belief carries. To this end, we introduce the principle of minimal surprise. In particular, our contributions are (i) a general information-theoretic approach to KMs for which [1] is a special case; (ii) KM-based BC operators that satisfy the so-called AGM postulates; and (iii) a characterisation of any BC operator that satisfies the AGM postulates as a KM-based BC operator, i.e., any BC operator satisfying the AGM postulates can be encoded within our quantitative BC framework. We also introduce quantitative measures that account for the information loss of contraction, information gain of expansion and information change of revision. We also give a succinct look into the problem of iterated revision, which deals with the application of a sequence of revision operations in our framework, and also illustrate how one may build from our KM-based contraction operator also one not satisfying the (in)famous recovery postulate, by focusing on the so-called severe withdrawal model as an illustrative example. | 翻訳日:2024-03-18 16:01:36 公開日:2024-03-15 |
# ATOM: 分散環境でのディープラーニングのための大規模モデルの非同期トレーニング
ATOM: Asynchronous Training of Massive Models for Deep Learning in a Decentralized Environment ( http://arxiv.org/abs/2403.10504v1 ) ライセンス: Link先を確認 | Xiaofeng Wu, Jia Rao, Wei Chen, | (参考訳) Transformerアーキテクチャの出現は自然言語処理(NLP)モデルの成長を促し、多くのNLPタスクにおいて顕著な成果をもたらした。
しかし、GPUメモリや高速インターコネクトのような特殊なハードウェアが存在しないことは、大規模なモデルをトレーニングする上での課題となっている。
これにより、多くのユーザが事前トレーニングと微調整の大型言語モデル(LLM)を試すのが大変です。
本研究では,コンシューマグレードのGPUやイーサネットなど,コスト効率の高いハードウェアを用いた分散環境での大規模モデルの非同期トレーニングを目的とした,レジリエントな分散トレーニングフレームワークであるShaatomを紹介する。
GPUにサブモデルを分散する従来のモデルパーティショニング方法とは異なり、Shaatomは、シームレスにモデルスワップを行い、トレーニングスループットを最適化するために複数のコピーを同時にトレーニングすることで、1つのホスト(ピア)に完全なLLMを適合させることを目的としている。
静的解析を通じて、 \atomは最良のモデルのパーティショニング戦略を特定し、モデル実行とスワップを完璧にマージする。
パイプライン並列化メソッドで見られる障害の中心的なポイントを回避する。
遅いネットワークにおいて、密接に統合されたパイプライン並列化よりも優れたパフォーマンスとスケーラビリティを実証する。
異なるGPT-3モデル構成を用いて実験したところ, 最適ネットワーク接続のシナリオでは, 最先端の分散パイプライン並列化アプローチを併用すれば, トレーニング効率を最大20 \times$に向上できることがわかった。
The advent of the Transformer architecture has propelled the growth of natural language processing (NLP) models, leading to remarkable achievements in numerous NLP tasks. Yet, the absence of specialized hardware like expansive GPU memory and high-speed interconnects poses challenges for training large-scale models. This makes it daunting for many users to experiment with pre-training and fine-tuning large language models (LLMs). In this study, we introduce \atom, a resilient distributed training framework designed for asynchronous training of vast models in a decentralized setting using cost-effective hardware, including consumer-grade GPUs and Ethernet. Unlike conventional model partitioning methods that distribute sub-models across GPUs, \atom aims to accommodate a complete LLM on one host (peer) through seamlessly model swapping and concurrently trains multiple copies across various peers to optimize training throughput. Through static analysis, \atom identifies the best model partitioning strategy and flawlessly merges model execution with swapping. Key benefits of \atom include: Avoiding the central point of failure found in pipeline parallelism methods. Demonstrating superior performance and scalability compared to closely-integrated pipeline parallelism in slower networks. Our experiments using different GPT-3 model configurations reveal that, in scenarios with suboptimal network connections, \atom can enhance training efficiency up to $20 \times$ when juxtaposed with the state-of-the-art decentralized pipeline parallelism approaches. | 翻訳日:2024-03-18 16:01:36 公開日:2024-03-15 |
# HumanoidBench: 全身運動と操作のためのヒューマノイドベンチマーク
HumanoidBench: Simulated Humanoid Benchmark for Whole-Body Locomotion and Manipulation ( http://arxiv.org/abs/2403.10506v1 ) ライセンス: Link先を確認 | Carmelo Sferrazza, Dun-Ming Huang, Xingyu Lin, Youngwoon Lee, Pieter Abbeel, | (参考訳) ヒューマノイドロボットは、人間のような形態を活かした柔軟性と適応性のために、様々な環境やタスクで人間を支援することに大いに貢献する。
しかしながら、ヒューマノイドロボットの研究は、高価で脆弱なハードウェア構成によってボトルネックとなることが多い。
人型ロボットのアルゴリズム研究を加速するために,人型ロボットを用いた高次元シミュレーションロボット学習ベンチマーク「HumanoidBench」を提案する。
以上の結果から,現在最先端の強化学習アルゴリズムがほとんどのタスクに支障をきたすのに対して,階層的な学習ベースラインは歩行や到達といったロバストな低レベル政策によって支援された場合,優れたパフォーマンスを達成できることがわかった。
HumanoidBenchでは、ロボットコミュニティに、ヒューマノイドロボットで多様なタスクを解く際に生じる課題を特定するプラットフォームを提供し、アルゴリズムとアイデアの迅速な検証を可能にします。
オープンソースコードはhttps://sferrazza.cc/ Humanoidbench_site.comで公開されている。
Humanoid robots hold great promise in assisting humans in diverse environments and tasks, due to their flexibility and adaptability leveraging human-like morphology. However, research in humanoid robots is often bottlenecked by the costly and fragile hardware setups. To accelerate algorithmic research in humanoid robots, we present a high-dimensional, simulated robot learning benchmark, HumanoidBench, featuring a humanoid robot equipped with dexterous hands and a variety of challenging whole-body manipulation and locomotion tasks. Our findings reveal that state-of-the-art reinforcement learning algorithms struggle with most tasks, whereas a hierarchical learning baseline achieves superior performance when supported by robust low-level policies, such as walking or reaching. With HumanoidBench, we provide the robotics community with a platform to identify the challenges arising when solving diverse tasks with humanoid robots, facilitating prompt verification of algorithms and ideas. The open-source code is available at https://sferrazza.cc/humanoidbench_site. | 翻訳日:2024-03-18 16:01:36 公開日:2024-03-15 |
# マルチパーソン時間的視線追跡と社会的視線予測のための新しい枠組み
A Novel Framework for Multi-Person Temporal Gaze Following and Social Gaze Prediction ( http://arxiv.org/abs/2403.10511v1 ) ライセンス: Link先を確認 | Anshul Gupta, Samy Tafasca, Arya Farkhondeh, Pierre Vuillecard, Jean-Marc Odobez, | (参考訳) 視線追跡と社会的視線予測は、人間のコミュニケーション行動、意図、社会的相互作用に関する洞察を提供する基本的なタスクである。
従来のほとんどのアプローチでは、他の社会的視線タスクに一般化しない高度に専門化された社会的視線モデルを設計するか、社会的視線推論を後続の視線タスクのアドホックな後処理として考慮することで、これらの課題に別々に対処していた。
さらに、以下のアプローチの大多数は、一度に1人しか扱えない静的モデルを提案しており、社会的相互作用や時間的ダイナミクスを生かしていない。
本稿では,これらの制約に対処し,現場のすべての人々の視線目標と社会的視線ラベルを共同で予測する新しい枠組みを提案する。
フレームワークは:
一 画像トークンの他に、各個人に関する視線情報を捉えた人固有のトークンを取り扱う時間的変換型建築
(ii) 新しいデータセットであるVSGazeは、複数のギャンブルフォローとソーシャルギャンブルデータセットにまたがるアノテーションタイプを統一する。
我々は,VSGazeでトレーニングしたモデルで全てのタスクを共同で処理できることを示し,マルチパーソナライズされた視線追跡と社会的視線予測の最先端結果を得た。
Gaze following and social gaze prediction are fundamental tasks providing insights into human communication behaviors, intent, and social interactions. Most previous approaches addressed these tasks separately, either by designing highly specialized social gaze models that do not generalize to other social gaze tasks or by considering social gaze inference as an ad-hoc post-processing of the gaze following task. Furthermore, the vast majority of gaze following approaches have proposed static models that can handle only one person at a time, therefore failing to take advantage of social interactions and temporal dynamics. In this paper, we address these limitations and introduce a novel framework to jointly predict the gaze target and social gaze label for all people in the scene. The framework comprises of: (i) a temporal, transformer-based architecture that, in addition to image tokens, handles person-specific tokens capturing the gaze information related to each individual; (ii) a new dataset, VSGaze, that unifies annotation types across multiple gaze following and social gaze datasets. We show that our model trained on VSGaze can address all tasks jointly, and achieves state-of-the-art results for multi-person gaze following and social gaze prediction. | 翻訳日:2024-03-18 16:01:36 公開日:2024-03-15 |
# Lodge: 特徴的なダンスプリミティブによるロングダンス生成のための粗大な拡散ネットワーク
Lodge: A Coarse to Fine Diffusion Network for Long Dance Generation Guided by the Characteristic Dance Primitives ( http://arxiv.org/abs/2403.10518v1 ) ライセンス: Link先を確認 | Ronghui Li, YuXiang Zhang, Yachao Zhang, Hongwen Zhang, Jie Guo, Yan Zhang, Yebin Liu, Xiu Li, | (参考訳) 与えられた音楽に条件付けされた非常に長いダンスシーケンスを生成することができるネットワークであるLodgeを提案する。
そこで我々は,2つの拡散モデル間の中間表現として有意な表現性を持つ特徴的ダンスプリミティブを提案する。
第1段階はグローバル拡散であり、粗いレベルの音楽距離相関と生産特性のダンスプリミティブの理解に焦点を当てている。
対照的に第2段階は局所拡散であり、ダンスプリミティブや振付規則の指導の下で、詳細な動き列を並列に生成する。
さらに,足と地面の接触を最適化するフットリファインブロックを提案し,運動の物理的現実性を高める。
提案手法は,グローバルな振付パターンと局所的な動きの質,表現性とのバランスを保ちながら,非常に長いダンスシーケンスを並列に生成することができる。
大規模な実験により,本手法の有効性が検証された。
We propose Lodge, a network capable of generating extremely long dance sequences conditioned on given music. We design Lodge as a two-stage coarse to fine diffusion architecture, and propose the characteristic dance primitives that possess significant expressiveness as intermediate representations between two diffusion models. The first stage is global diffusion, which focuses on comprehending the coarse-level music-dance correlation and production characteristic dance primitives. In contrast, the second-stage is the local diffusion, which parallelly generates detailed motion sequences under the guidance of the dance primitives and choreographic rules. In addition, we propose a Foot Refine Block to optimize the contact between the feet and the ground, enhancing the physical realism of the motion. Our approach can parallelly generate dance sequences of extremely long length, striking a balance between global choreographic patterns and local motion quality and expressiveness. Extensive experiments validate the efficacy of our method. | 翻訳日:2024-03-18 16:01:36 公開日:2024-03-15 |
# Few-Shot画像分類のための凍結機能拡張
Frozen Feature Augmentation for Few-Shot Image Classification ( http://arxiv.org/abs/2403.10519v1 ) ライセンス: Link先を確認 | Andreas Bär, Neil Houlsby, Mostafa Dehghani, Manoj Kumar, | (参考訳) 事前訓練された視覚モデル出力の上に線形分類器または軽量モデル(いわゆる「凍結機能」)を訓練すると、下流のいくつかのショットタスクにおいて印象的なパフォーマンスが得られる。
現在、凍結した機能はトレーニング中に変更されていない。
一方、ネットワークが直接画像に基づいてトレーニングされる場合、データ拡張は、大幅なオーバーヘッドを伴わずにパフォーマンスを向上させる標準的なレシピである。
本稿では,凍結機能拡張(FroFA)と呼ばれる凍結機能空間にデータ拡張を適用し,20種類の拡張を網羅した画像分類実験を行った。
本研究は,3つのネットワークアーキテクチャ,3つの大規模事前学習データセット,8つの転送データセットにおいて,可視的に単純なFroFA(輝度など)を採用することにより,ショット性能が一貫的に向上することを示した。
Training a linear classifier or lightweight model on top of pretrained vision model outputs, so-called 'frozen features', leads to impressive performance on a number of downstream few-shot tasks. Currently, frozen features are not modified during training. On the other hand, when networks are trained directly on images, data augmentation is a standard recipe that improves performance with no substantial overhead. In this paper, we conduct an extensive pilot study on few-shot image classification that explores applying data augmentations in the frozen feature space, dubbed 'frozen feature augmentation (FroFA)', covering twenty augmentations in total. Our study demonstrates that adopting a deceptively simple pointwise FroFA, such as brightness, can improve few-shot performance consistently across three network architectures, three large pretraining datasets, and eight transfer datasets. | 翻訳日:2024-03-18 16:01:36 公開日:2024-03-15 |
# 強大かつ制御可能なブラインド画像分解
Strong and Controllable Blind Image Decomposition ( http://arxiv.org/abs/2403.10520v1 ) ライセンス: Link先を確認 | Zeyu Zhang, Junlin Han, Chenhui Gou, Hongdong Li, Liang Zheng, | (参考訳) ブラインド画像分解は、画像に存在する全てのコンポーネントを分解することを目的としており、通常、多重劣化した入力画像の復元に使用される。
クリーンなイメージを完全に回復することは魅力的だが、いくつかのシナリオでは、ユーザーは著作権保護のために、透かしなどの特定の劣化を保ちたいかもしれない。
このニーズに対処するために、視覚的画像分解プロセスに制御性を追加し、ユーザーはどの種類の劣化を除去するか、保持するかを入力できる。
制御可能なブラインド画像分解ネットワークというアーキテクチャを設計する。
提案手法は,U-Net構造中に挿入され,まず入力特徴マップを分解し,ユーザ指示に従って再結合する。
利点として、この機能は最小限の計算コストで実装されている:分解と再結合はすべてパラメータフリーである。
実験により,視覚的画像分解作業に優れ,ユーザの意図を反映した部分的あるいは完全復元画像の出力が可能となった。
さらに、ネットワーク構造と損失関数の異なる選択肢を評価し、構成する。
これは、提案手法と組み合わせることで、現在の最先端手法と比較して、ブラインド画像分解のための効率的かつ競争的なシステムが得られる。
Blind image decomposition aims to decompose all components present in an image, typically used to restore a multi-degraded input image. While fully recovering the clean image is appealing, in some scenarios, users might want to retain certain degradations, such as watermarks, for copyright protection. To address this need, we add controllability to the blind image decomposition process, allowing users to enter which types of degradation to remove or retain. We design an architecture named controllable blind image decomposition network. Inserted in the middle of U-Net structure, our method first decomposes the input feature maps and then recombines them according to user instructions. Advantageously, this functionality is implemented at minimal computational cost: decomposition and recombination are all parameter-free. Experimentally, our system excels in blind image decomposition tasks and can outputs partially or fully restored images that well reflect user intentions. Furthermore, we evaluate and configure different options for the network structure and loss functions. This, combined with the proposed decomposition-and-recombination method, yields an efficient and competitive system for blind image decomposition, compared with current state-of-the-art methods. | 翻訳日:2024-03-18 16:01:36 公開日:2024-03-15 |
# P-MapNet: SDMapとHDMapの両方で強化されたFar-seeing Map Generator
P-MapNet: Far-seeing Map Generator Enhanced by both SDMap and HDMap Priors ( http://arxiv.org/abs/2403.10521v1 ) ライセンス: Link先を確認 | Zhou Jiang, Zhenxin Zhu, Pengfei Li, Huan-ang Gao, Tianyuan Yuan, Yongliang Shi, Hang Zhao, Hao Zhao, | (参考訳) 自動運転車は今日、ハイデフィニションマップ(HDMaps)の助けを借りて、徐々に都市道路に入りつつある。
しかし、HDMapsへの依存は、この高価なデジタルインフラなしで自動運転車が地域に入るのを防ぐ。
この事実は、多くの研究者がオンラインHDMap生成アルゴリズムの研究を加速させるが、これらのアルゴリズムの性能は未だに満足できない。
提案するP-MapNetでは、P文字は、モデル性能を改善するために、マッププリエントの導入に重点を置いているという事実を強調している。
具体的には、SDMapとHDMapの両方のプリミティブを利用しています。
一方、OpenStreetMapから弱い整列SDMapを抽出し、それを追加の条件分岐としてエンコードする。
設計ミスにもかかわらず、注意に基づくアーキテクチャはSDMapスケルトンに適応的に対応し、性能を著しく向上させる。
一方、マスク付きオートエンコーダを用いてHDMapの事前分布をキャプチャし、オクルージョンやアーティファクトを緩和するリファインメントモジュールとして機能する。
nuScenesとArgoverse2データセットをベンチマークします。
1)ラースタ化(最大$+18.73$$\rm mIoU$)とベクター化(最大$+8.50$$\rm mAP$)の2つの出力表現を使用して、SDMapの事前使用により、オンラインマップ生成のパフォーマンスが向上する。
2) HDMap プリミティブは、最大 6.34 %$ のマップ知覚メトリクスを改善できます。
(3) P-MapNetは、精度と効率のトレードオフの異なる領域をカバーする異なる推論モードに切り替えることができる。
(4) P-MapNetは、長い範囲でより大きな改善をもたらす、遠方のソリューションである。
コードとモデルはhttps://jike5.github.io/P-MapNet.comで公開されている。
Autonomous vehicles are gradually entering city roads today, with the help of high-definition maps (HDMaps). However, the reliance on HDMaps prevents autonomous vehicles from stepping into regions without this expensive digital infrastructure. This fact drives many researchers to study online HDMap generation algorithms, but the performance of these algorithms at far regions is still unsatisfying. We present P-MapNet, in which the letter P highlights the fact that we focus on incorporating map priors to improve model performance. Specifically, we exploit priors in both SDMap and HDMap. On one hand, we extract weakly aligned SDMap from OpenStreetMap, and encode it as an additional conditioning branch. Despite the misalignment challenge, our attention-based architecture adaptively attends to relevant SDMap skeletons and significantly improves performance. On the other hand, we exploit a masked autoencoder to capture the prior distribution of HDMap, which can serve as a refinement module to mitigate occlusions and artifacts. We benchmark on the nuScenes and Argoverse2 datasets. Through comprehensive experiments, we show that: (1) our SDMap prior can improve online map generation performance, using both rasterized (by up to $+18.73$ $\rm mIoU$) and vectorized (by up to $+8.50$ $\rm mAP$) output representations. (2) our HDMap prior can improve map perceptual metrics by up to $6.34\%$. (3) P-MapNet can be switched into different inference modes that covers different regions of the accuracy-efficiency trade-off landscape. (4) P-MapNet is a far-seeing solution that brings larger improvements on longer ranges. Codes and models are publicly available at https://jike5.github.io/P-MapNet. | 翻訳日:2024-03-18 16:01:36 公開日:2024-03-15 |
# 物理バックドアデータセットの合成 - 深層生成モデルを活用する自動化フレームワーク
Synthesizing Physical Backdoor Datasets: An Automated Framework Leveraging Deep Generative Models ( http://arxiv.org/abs/2312.03419v2 ) ライセンス: Link先を確認 | Sze Jue Yang, Chinh D. La, Quang H. Nguyen, Eugene Bagdasaryan, Kok-Seng Wong, Anh Tuan Tran, Chee Seng Chan, Khoa D. Doan, | (参考訳) 深層ニューラルネットワークの完全性に対する新たな脅威であるバックドア攻撃は、ディープラーニングシステムを秘密裏に妥協する能力のために、大きな注目を集めている。
多くのバックドア攻撃がデジタル空間内で発生しているが、現実の予測システムにおける実践的実装は、物理世界の混乱に対して制限され、脆弱である。
その結果、この制限により物理的なバックドア攻撃が生まれ、現実世界の物理的実体として現れるトリガーオブジェクトが出現した。
しかし、物理的なバックドアモデルをトレーニングしたり評価したりするために必要なデータセットを作成することは、バックドアの研究者や実践者がそのような物理的な攻撃シナリオを研究するのを制限している、大変な作業である。
本稿では, バックドア研究者が, 生成モデリングの進歩に基づいて, 悪意ある物理的バックドアデータセットを作成できるようにするためのレシピを公開する。
特に、このレシピには3つの自動的なモジュールが含まれる: 適切な物理的トリガーを提案し、毒化された候補サンプルを生成する(新しいサンプルを合成したり、既存のクリーンサンプルを編集することで)。
そのため、物理的なバックドアデータセットを作成することで認識される複雑さを効果的に軽減し、途方もないタスクから達成可能な目標へと変換する。
大規模な実験結果から、我々の「レシピ」によって作成されたデータセットは、実際の物理世界データに対して、敵が印象的な攻撃成功率を達成し、以前の物理バックドアアタック研究と同じような特性を示すことを示唆している。
本稿では,物理バックドアの研究に有用なツールキットを研究者に提供する。
Backdoor attacks, representing an emerging threat to the integrity of deep neural networks, have garnered significant attention due to their ability to compromise deep learning systems clandestinely. While numerous backdoor attacks occur within the digital realm, their practical implementation in real-world prediction systems remains limited and vulnerable to disturbances in the physical world. Consequently, this limitation has given rise to the development of physical backdoor attacks, where trigger objects manifest as physical entities within the real world. However, creating the requisite dataset to train or evaluate a physical backdoor model is a daunting task, limiting the backdoor researchers and practitioners from studying such physical attack scenarios. This paper unleashes a recipe that empowers backdoor researchers to effortlessly create a malicious, physical backdoor dataset based on advances in generative modeling. Particularly, this recipe involves 3 automatic modules: suggesting the suitable physical triggers, generating the poisoned candidate samples (either by synthesizing new samples or editing existing clean samples), and finally refining for the most plausible ones. As such, it effectively mitigates the perceived complexity associated with creating a physical backdoor dataset, transforming it from a daunting task into an attainable objective. Extensive experiment results show that datasets created by our "recipe" enable adversaries to achieve an impressive attack success rate on real physical world data and exhibit similar properties compared to previous physical backdoor attack studies. This paper offers researchers a valuable toolkit for studies of physical backdoors, all within the confines of their laboratories. | 翻訳日:2024-03-18 12:56:06 公開日:2024-03-15 |
# デジタル法医学研究におけるDFRWS EUの10年間の展望と今後の方向性
DFRWS EU 10-Year Review and Future Directions in Digital Forensic Research ( http://arxiv.org/abs/2312.11292v1 ) ライセンス: Link先を確認 | Frank Breitinger, Jan-Niclas Hilgert, Christopher Hargreaves, John Sheppard, Rebekah Overdorf, Mark Scanlon, | (参考訳) 組織的な文献レビューと包括的分析を行い、2014-2023年の第1回実施以来の10年間のDFRWS EU(Digital Forensics Research Conference Europe)で発表された135の査読論文について調査する。
DFRWS EUの記事の包括的な研究は、デジタル法科学、デバイス法科学、技術と基礎、アーティファクト法科学、マルチメディア法科学、メモリ法医学、ネットワーク法学などのサブ分野を含んでいる。
論文の共著者,地理的拡散,引用指標の定量的分析について概説する。
この分析は、この10年間のデジタル法医学研究の進化に関する洞察を与え、将来的な研究の方向性を明らかにしている。
Conducting a systematic literature review and comprehensive analysis, this paper surveys all 135 peer-reviewed articles published at the Digital Forensics Research Conference Europe (DFRWS EU) spanning the decade since its inaugural running (2014-2023). This comprehensive study of DFRWS EU articles encompasses sub-disciplines such as digital forensic science, device forensics, techniques and fundamentals, artefact forensics, multimedia forensics, memory forensics, and network forensics. Quantitative analysis of the articles' co-authorships, geographical spread and citation metrics are outlined. The analysis presented offers insights into the evolution of digital forensic research efforts over these ten years and informs some identified future research directions. | 翻訳日:2024-03-18 11:57:39 公開日:2024-03-15 |
# 正確なレコメンデーションのためのエンドツーエンドグラフシーケンス表現学習
End-to-End Graph-Sequential Representation Learning for Accurate Recommendations ( http://arxiv.org/abs/2403.00895v3 ) ライセンス: Link先を確認 | Vladimir Baikalov, Evgeny Frolov, | (参考訳) 近年のレコメンデータシステムは,シーケンスベースおよびグラフベースアプローチの開発に重点を置いている。
両方のアプローチは、行動データ内の複雑な関係をモデル化するのに有用であることが証明され、優れたスケーラビリティを維持しながら、パーソナライズされたランク付けと次の項目のレコメンデーションタスクにおいて有望な結果をもたらした。
しかし、彼らはデータから非常に異なる信号を捉えている。
前者のアプローチは、最近のアイテムと順序づけられたインタラクションを通じてユーザを直接表現するが、後者は、インタラクショングラフをまたいだ間接的な依存関係をキャプチャすることを目的としている。
本稿では,これら2つのパラダイムの相乗効果を利用した新しい多表現学習フレームワークを提案する。
いくつかのデータセットに対する実験的な評価から,提案フレームワークによる逐次的およびグラフ的コンポーネントの相互学習が推奨性能を大幅に向上させることが示された。
Recent recommender system advancements have focused on developing sequence-based and graph-based approaches. Both approaches proved useful in modeling intricate relationships within behavioral data, leading to promising outcomes in personalized ranking and next-item recommendation tasks while maintaining good scalability. However, they capture very different signals from data. While the former approach represents users directly through ordered interactions with recent items, the latter aims to capture indirect dependencies across the interactions graph. This paper presents a novel multi-representational learning framework exploiting these two paradigms' synergies. Our empirical evaluation on several datasets demonstrates that mutual training of sequential and graph components with the proposed framework significantly improves recommendations performance. | 翻訳日:2024-03-18 11:08:48 公開日:2024-03-15 |
# コンピュータ・ラボラトリー家具のエルゴノミクス設計:大学生の人体計測データを利用したミスマッチ解析
Ergonomic Design of Computer Laboratory Furniture: Mismatch Analysis Utilizing Anthropometric Data of University Students ( http://arxiv.org/abs/2403.05589v3 ) ライセンス: Link先を確認 | Anik Kumar Saha, Md Abrar Jahin, Md. Rafiquzzaman, M. F. Mridha, | (参考訳) 多くの研究では、人間工学的に設計された家具が生産性と幸福をいかに改善するかが示されている。
コンピュータは学生の学問的生活の一部になっているので、今後さらに成長していくだろう。
本稿では,コンピュータ実験用エルゴノミクスを改善するために,大学生に適した人文計測に基づく家具寸法を提案する。
380人の被験者のデータを収集し,11の人文計測値と11の家具寸法を関連づけて分析した。
調整不能な椅子と調整不能なテーブルを備えた調整不能な椅子の2種類の家具について検討した。
ミスマッチ計算では, 家具寸法と人体計測値との間に有意な差が認められた。
また,5%の有意度を有する一方方向ANOVA試験においても,提案した家具寸法と既存家具寸法との有意差が認められた。
提案した寸法は, 既設の家具と比較して, 男女ともに適合性が高く, ミスマッチ率も低かった。
座席高さを調整可能な家具セットの寸法は, 調整不能家具セットと比較してわずかに改善した。
このことから,提案した次元は快適度を向上し,筋骨格障害のリスクを低減することが示唆された。
実世界のコンピュータ実験室環境におけるこれらの課題の実装と長期的影響に関するさらなる研究が推奨されている。
Many studies have shown how ergonomically designed furniture improves productivity and well-being. As computers have become a part of students' academic lives, they will grow further in the future. We propose anthropometric-based furniture dimensions suitable for university students to improve computer laboratory ergonomics. We collected data from 380 participants and analyzed 11 anthropometric measurements, correlating them to 11 furniture dimensions. Two types of furniture were studied: a non-adjustable chair with a non-adjustable table and an adjustable chair with a non-adjustable table. The mismatch calculation showed a significant difference between furniture dimensions and anthropometric measurements. The one-way ANOVA test with a significance level of 5% also showed a significant difference between proposed and existing furniture dimensions. The proposed dimensions were found to be more compatible and reduced mismatch percentages for both males and females compared to existing furniture. The proposed dimensions of the furniture set with adjustable seat height showed slightly improved results compared to the non-adjustable furniture set. This suggests that the proposed dimensions can improve comfort levels and reduce the risk of musculoskeletal disorders among students. Further studies on the implementation and long-term effects of these proposed dimensions in real-world computer laboratory settings are recommended. | 翻訳日:2024-03-18 11:08:48 公開日:2024-03-15 |
# Mipha: 小型言語モデルによるマルチモーダルアシスタントの網羅的オーバーホール
Mipha: A Comprehensive Overhaul of Multimodal Assistant with Small Language Models ( http://arxiv.org/abs/2403.06199v3 ) ライセンス: Link先を確認 | Minjie Zhu, Yichen Zhu, Xin Liu, Ning Liu, Zhiyuan Xu, Chaomin Shen, Yaxin Peng, Zhicai Ou, Feifei Feng, Jian Tang, | (参考訳) MLLM(Multimodal Large Language Models)は、視覚的理解と推論に関連するタスクにおいて、優れたスキルを誇示している。
しかし、彼らの幅広い応用は、トレーニングと推論フェーズの両方において高い計算要求のために障害に直面しており、研究とユーザコミュニティ内の限られた利用者に限られている。
本稿では,Multimodal Small Language Models (MSLM) の設計側面について検討し,視覚表現,言語モデル,最適化戦略など,様々な側面の相乗効果を創出するために設計された,効率的なマルチモーダルアシスタント Mipha を提案する。
トレーニングデータの量を増やすことなく、我々のMipha-3Bは最先端の大規模MLLM(特にLLaVA-1.5-13B)を複数のベンチマークで上回ります。
より詳細な議論を通じて,MLLMの能力に匹敵する強力なMSLMを開発するための洞察とガイドラインを提供する。
私たちのコードはhttps://github.com/zhuyiche/Mipha.comで公開されています。
Multimodal Large Language Models (MLLMs) have showcased impressive skills in tasks related to visual understanding and reasoning. Yet, their widespread application faces obstacles due to the high computational demands during both the training and inference phases, restricting their use to a limited audience within the research and user communities. In this paper, we investigate the design aspects of Multimodal Small Language Models (MSLMs) and propose an efficient multimodal assistant named Mipha, which is designed to create synergy among various aspects: visual representation, language models, and optimization strategies. We show that without increasing the volume of training data, our Mipha-3B outperforms the state-of-the-art large MLLMs, especially LLaVA-1.5-13B, on multiple benchmarks. Through detailed discussion, we provide insights and guidelines for developing strong MSLMs that rival the capabilities of MLLMs. Our code is available at https://github.com/zhuyiche/Mipha. | 翻訳日:2024-03-18 11:08:48 公開日:2024-03-15 |
# CLIcK:韓国における文化的・言語知能のベンチマークデータセット
CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in Korean ( http://arxiv.org/abs/2403.06412v3 ) ライセンス: Link先を確認 | Eunsu Kim, Juyoung Suk, Philhoon Oh, Haneul Yoo, James Thorne, Alice Oh, | (参考訳) 韓国語に対する大規模言語モデル(LLM)の急速な発展にもかかわらず、必要な韓国の文化的・言語的知識をテストするためのベンチマークデータセットは明らかに欠如している。
多くの既存の韓国のベンチマークデータセットは、翻訳によって英語から派生しているため、しばしば異なる文化的文脈を見落としている。
韓国の文化知識を収集するデータから得られた数少ないベンチマークデータセットでは、バイアスやヘイトスピーチ検出といった狭いタスクのみが提供されている。
このギャップに対処するため、韓国の文化・言語知能のベンチマーク(CLIcK)を導入し、1,995のQAペアからなるデータセットについて述べる。
CLIcKは、公式の韓国の試験と教科書からデータを入手し、質問を言語と文化の2つの主要なカテゴリで11のカテゴリに分けている。
CLIcKの各事例について、その疑問に正しく答えるためには、文化的、言語的知識が必要とされる、きめ細かいアノテーションを提供する。
CLIcKを使用して、13の言語モデルをテストし、パフォーマンスを評価します。
評価の結果から,各カテゴリの業績や,理解に影響を及ぼすさまざまな要因が明らかになった。
CLIcKは韓国の文化と言語におけるLLMの習熟度に関する大規模な韓国中心の分析を初めて提供している。
Despite the rapid development of large language models (LLMs) for the Korean language, there remains an obvious lack of benchmark datasets that test the requisite Korean cultural and linguistic knowledge. Because many existing Korean benchmark datasets are derived from the English counterparts through translation, they often overlook the different cultural contexts. For the few benchmark datasets that are sourced from Korean data capturing cultural knowledge, only narrow tasks such as bias and hate speech detection are offered. To address this gap, we introduce a benchmark of Cultural and Linguistic Intelligence in Korean (CLIcK), a dataset comprising 1,995 QA pairs. CLIcK sources its data from official Korean exams and textbooks, partitioning the questions into eleven categories under the two main categories of language and culture. For each instance in CLIcK, we provide fine-grained annotation of which cultural and linguistic knowledge is required to answer the question correctly. Using CLIcK, we test 13 language models to assess their performance. Our evaluation uncovers insights into their performances across the categories, as well as the diverse factors affecting their comprehension. CLIcK offers the first large-scale comprehensive Korean-centric analysis of LLMs' proficiency in Korean culture and language. | 翻訳日:2024-03-18 10:58:56 公開日:2024-03-15 |
# マルチモーダルテスト時間適応のための信頼性のある時空間ボクセル
Reliable Spatial-Temporal Voxels For Multi-Modal Test-Time Adaptation ( http://arxiv.org/abs/2403.06461v2 ) ライセンス: Link先を確認 | Haozhi Cao, Yuecong Xu, Jianfei Yang, Pengyu Yin, Xingyu Ji, Shenghai Yuan, Lihua Xie, | (参考訳) マルチモーダルテストタイム適応 (MM-TTA) は、相補的なマルチモーダル入力をオンライン形式で活用することにより、未ラベルのターゲットドメインにモデルを適応させる。
従来のMM-TTA法では,連続フレーム内の幾何学的近傍の予測は高い相関関係にあるという事実を無視し,時間とともに不安定な予測を導いた。
このギャップを埋めるために,マルチモーダル3次元セグメンテーションのための信頼性の高い相互時空間対応を利用するMM-TTA法であるReliable Spatial-temporal Voxels (Latte)を提案する。
ラッテは、信頼できる予測が空間的時間的対応と一致すべきであるという事実に感銘を受け、連続したフレームをスライドウィンドウで集約し、STボクセルを構築し、各モードの時間的局所的な予測一貫性を捉える。
高いSTエントロピーでSTボクセルをフィルタリングした後、ラッテは空間的にも時間的にも信頼性が高く一貫した予測を行う。
実験結果から,従来のMM-TTA法やTTA法と比較して,3種類のMM-TTAベンチマークの最先端性能が得られた。
Multi-modal test-time adaptation (MM-TTA) is proposed to adapt models to an unlabeled target domain by leveraging the complementary multi-modal inputs in an online manner. Previous MM-TTA methods rely on predictions of cross-modal information in each input frame, while they ignore the fact that predictions of geometric neighborhoods within consecutive frames are highly correlated, leading to unstable predictions across time. To fulfill this gap, we propose ReLiable Spatial-temporal Voxels (Latte), an MM-TTA method that leverages reliable cross-modal spatial-temporal correspondences for multi-modal 3D segmentation. Motivated by the fact that reliable predictions should be consistent with their spatial-temporal correspondences, Latte aggregates consecutive frames in a slide window manner and constructs ST voxel to capture temporally local prediction consistency for each modality. After filtering out ST voxels with high ST entropy, Latte conducts cross-modal learning for each point and pixel by attending to those with reliable and consistent predictions among both spatial and temporal neighborhoods. Experimental results show that Latte achieves state-of-the-art performance on three different MM-TTA benchmarks compared to previous MM-TTA or TTA methods. | 翻訳日:2024-03-18 10:58:56 公開日:2024-03-15 |
# 量子ラビモデルにおける熱輸送:普遍性と超強結合効果
Heat transport in the quantum Rabi model: Universality and ultrastrong coupling effects ( http://arxiv.org/abs/2403.06909v2 ) ライセンス: Link先を確認 | L. Magazzù, E. Paladino, M. Grifoni, | (参考訳) 量子Rabiモデルにおける熱浴との弱い相互作用における熱輸送は、クビット・オシレータ結合によって制御される。
線形伝導率と温度の普遍性は、結合依存の近藤様温度であるT_K$に対して$T\lesssim T_K$で見出される。
低温では、仮想過程によるコヒーレント熱伝達は、スペクトル中の準退化の存在下で破壊的干渉を伴う$\sim T^3$の振る舞いをもたらす。
温度が上がると、非コヒーレント発光と吸収が支配され、最大値はT\sim T_K/2$に達する。
量子ビット上のバイアスの存在下では、コンダクタンスは共振器から広いゼロバイアスピーク状態へ遷移する。
パラレルと差は[K]のスピンボソンモデルと比較される。
Saito and T. Kato, Phys
レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・
内部クビット-オシレータカップリングの代わりにクビット-バスカップリングが熱輸送を規定する。
Heat transport in the quantum Rabi model at weak interaction with the heat baths is controlled by the qubit-oscillator coupling. Universality of the linear conductance versus the temperature is found for $T\lesssim T_K$, with $T_K$ a coupling-dependent Kondo-like temperature. At low temperature, coherent heat transfer via virtual processes yields a $\sim T^3$ behavior with destructive interference in the presence of quasi-degeneracies in the spectrum. As the temperature increases, incoherent emission and absorption dominate and a maximum is reached at $T\sim T_K/2$. In the presence of a bias on the qubit, the conductance makes a transition from a resonant to a broad, zero-bias peak regime. Parallels and differences are found compared to the spin-boson model in [K. Saito and T. Kato, Phys. Rev. Lett. \textbf{111}, 214301 (2013)], where the qubit-bath coupling instead of the internal qubit-oscillator coupling rules thermal transport. | 翻訳日:2024-03-18 10:58:56 公開日:2024-03-15 |
# ソニック貯水池とフェルミオン貯水池の量子輸送に対するリウヴィル空間の統一ダイアグラム的アプローチ
A unified diagrammatic approach in Liouville space to quantum transport for bosonic and fermionic reservoirs ( http://arxiv.org/abs/2403.06923v2 ) ライセンス: Link先を確認 | L. Magazzù, E. Paladino, M. Grifoni, | (参考訳) 我々は、リウヴィル空間におけるマスター方程式の定式化に基づく量子輸送に対する図式的アプローチを提案する。
一般多層接合とボソニックあるいはフェルミオンの貯水池に結合する一般多層接合における線形および非線形輸送に適用でき、貯水池とジャンクションの結合の強さに便利な摂動膨張を与える。
レッドフィールド理論は、部分的および完全な世俗的マスター方程式を議論して、2階に復元される。
スピン-ボソンモデルにおける低温熱伝導の既知式を多層系に一般化する定常ボソン輸送について,解析的,近似式を最大4次に設定する。
この定式化は量子ラビモデルによってモデル化された量子ビット共振器接合における熱輸送問題に適用される。
非自明な輸送特徴は、クビットオシレータの変形と結合強度の相互作用の結果現れる。
準退化スペクトルでは、消滅しない定常コヒーレンスにより熱伝導が抑制される。
We present a diagrammatic approach to quantum transport based on a master equation formalism in Liouville space. It can be applied to linear and nonlinear transport in generic multi-level junctions coupled to bosonic or fermionic reservoirs and presents a convenient perturbation expansion in the strength of the coupling between the reservoirs and the junction. The Redfield theory is recovered at second order, with the partial and full secular master equations discussed. Analytical, approximate expressions are provided up to fourth order for the steady-state boson transport that generalize to multi-level systems the known formula for the low-temperature thermal conductance in the spin-boson model. The formalism is applied to the problem of heat transport in a qubit-resonator junction modeled by the quantum Rabi model. Nontrivial transport features emerge as a result of the interplay between the qubit-oscillator detuning and coupling strength. For quasi-degenerate spectra, nonvanishing steady-state coherences cause a suppression of the thermal conductance. | 翻訳日:2024-03-18 10:58:56 公開日:2024-03-15 |
# SVD-LLM:大規模言語モデル圧縮のためのトランケーション対応特異値分解
SVD-LLM: Truncation-aware Singular Value Decomposition for Large Language Model Compression ( http://arxiv.org/abs/2403.07378v2 ) ライセンス: Link先を確認 | Xin Wang, Yu Zheng, Zhongwei Wan, Mi Zhang, | (参考訳) 大規模言語モデル (LLMs) の進歩は, LLM 圧縮法を実用的展開に必要としていた, 相当なサイズによって妨げられている。
Singular Value Decomposition (SVD)は、LLM圧縮のための有望なソリューションを提供する。
しかし、最先端のSVDベースのLLM圧縮法には、2つの重要な制限がある: より小さな特異値の切り抜きは、圧縮損失を増大させ、SVDの切り抜き後の残りのモデルパラメータの更新が欠如する。
本研究では,既存の手法の制約に対処する新たなSVD-LLM圧縮手法であるSVD-LLMを提案する。
SVD-LLMは、特異値と圧縮損失の直接マッピングを保証するために、トラクション対応のデータホワイトニング戦略を組み込んでいる。
さらに,SVD-LLM では,SVD truncation による精度劣化を補うために,階層単位のクローズドフォームモデル更新戦略を採用している。
SVD-LLMを3つのLLMファミリーの合計11のデータセットと7つのモデルで4つのスケールで評価した。
以上の結果から, SVD-LLMは最先端技術, 特に高モデル圧縮比よりも優れていることが示された。
ソースコードはhttps://github.com/AIoT-MLSys-Lab/SVD-LLMで公開されている。
The advancements in Large Language Models (LLMs) have been hindered by their substantial sizes, which necessitate LLM compression methods for practical deployment. Singular Value Decomposition (SVD) offers a promising solution for LLM compression. However, state-of-the-art SVD-based LLM compression methods have two key limitations: truncating smaller singular values may lead to higher compression loss, and the lack of update on the remaining model parameters after SVD truncation. In this work, we propose SVD-LLM, a new SVD-based LLM compression method that addresses the limitations of existing methods. SVD-LLM incorporates a truncation-aware data whitening strategy to ensure a direct mapping between singular values and compression loss. Moreover, SVD-LLM adopts a layer-wise closed-form model parameter update strategy to compensate for accuracy degradation caused by SVD truncation. We evaluate SVD-LLM on a total of 11 datasets and seven models from three different LLM families at four different scales. Our results demonstrate the superiority of SVD-LLM over state-of-the-arts, especially at high model compression ratios. The source code is available at https://github.com/AIoT-MLSys-Lab/SVD-LLM. | 翻訳日:2024-03-18 10:58:56 公開日:2024-03-15 |
# ViT-CoMer:Dense予測のための畳み込みマルチスケール特徴相互作用を用いた視覚変換器
ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions ( http://arxiv.org/abs/2403.07392v2 ) ライセンス: Link先を確認 | Chunlong Xia, Xinliang Wang, Feng Lv, Xin Hao, Yifeng Shi, | (参考訳) Vision Transformer (ViT) はコンピュータビジョンにおいて大きな成功を収めているが、内部パッチ情報相互作用の欠如や機能スケールの多様性の制限により、密集した予測タスクではうまく機能しない。
既存の研究の多くは、上記の問題を解決するために視覚特異的なトランスフォーマーを設計することに集中しており、追加の事前学習コストがもたらされる。
そこで我々は,CNNとトランスフォーマーの双方向インタラクションを容易にする,畳み込み型マルチスケール機能インタラクションを備えた,平らで事前学習のない,機能強化型VTバックボーンViT-CoMerを提案する。
現状と比較して、VT-CoMerには次のような利点がある: 1) 空間ピラミッドの多受容場畳み込み特性をViTアーキテクチャに注入することで、VTにおける限られた局所情報相互作用や単一機能表現の問題を効果的に軽減する。
2) 階層的特徴にまたがるマルチスケールの融合を行うCNN-Transformer双方向融合モジュールを提案する。
(3)ViT-CoMerの性能は,多種多彩な予測タスク,異なるフレームワーク,複数の先進的な事前学習で評価する。
特に、私たちのViT-CoMer-Lは、余分なトレーニングデータなしでCOCO val2017で64.3%AP、ADE20K valで62.1%mIoUを達成した。
ViT-CoMerは、より密集した予測タスクのための新しいバックボーンとして機能し、将来の研究を促進することを願っている。
コードはhttps://github.com/Traffic-X/ViT-CoMerで公開される。
Although Vision Transformer (ViT) has achieved significant success in computer vision, it does not perform well in dense prediction tasks due to the lack of inner-patch information interaction and the limited diversity of feature scale. Most existing studies are devoted to designing vision-specific transformers to solve the above problems, which introduce additional pre-training costs. Therefore, we present a plain, pre-training-free, and feature-enhanced ViT backbone with Convolutional Multi-scale feature interaction, named ViT-CoMer, which facilitates bidirectional interaction between CNN and transformer. Compared to the state-of-the-art, ViT-CoMer has the following advantages: (1) We inject spatial pyramid multi-receptive field convolutional features into the ViT architecture, which effectively alleviates the problems of limited local information interaction and single-feature representation in ViT. (2) We propose a simple and efficient CNN-Transformer bidirectional fusion interaction module that performs multi-scale fusion across hierarchical features, which is beneficial for handling dense prediction tasks. (3) We evaluate the performance of ViT-CoMer across various dense prediction tasks, different frameworks, and multiple advanced pre-training. Notably, our ViT-CoMer-L achieves 64.3% AP on COCO val2017 without extra training data, and 62.1% mIoU on ADE20K val, both of which are comparable to state-of-the-art methods. We hope ViT-CoMer can serve as a new backbone for dense prediction tasks to facilitate future research. The code will be released at https://github.com/Traffic-X/ViT-CoMer. | 翻訳日:2024-03-18 10:58:56 公開日:2024-03-15 |
# DragAnything:エンティティ表現を用いた任意の物の動作制御
DragAnything: Motion Control for Anything using Entity Representation ( http://arxiv.org/abs/2403.07420v3 ) ライセンス: Link先を確認 | Weijia Wu, Zhuang Li, Yuchao Gu, Rui Zhao, Yefei He, David Junhao Zhang, Mike Zheng Shou, Yan Li, Tingting Gao, Di Zhang, | (参考訳) DragAnythingを導入し、エンティティ表現を利用して、制御可能なビデオ生成における任意のオブジェクトに対するモーション制御を実現する。
既存のモーションコントロール手法と比較して、DragAnythingにはいくつかの利点がある。
第一に、他の誘導信号(マスク、深度マップなど)を取得する場合、トラジェクトリベースの方がインタラクションに親しみやすい。
ユーザはインタラクション中に行(軌道)を描画するだけです。
第二に、私たちのエンティティ表現は、あらゆるオブジェクトを表現できるオープンドメイン埋め込みとして機能し、背景を含む多様なエンティティの動作の制御を可能にします。
最後に、エンティティ表現は複数のオブジェクトに対して同時かつ異なる動作制御を可能にする。
我々のDragAnythingは、FVD, FID, User Studyの最先端性能、特にオブジェクトの動き制御において、従来の手法(例えばDragNUWA)を26%上回る精度で達成している。
We introduce DragAnything, which utilizes a entity representation to achieve motion control for any object in controllable video generation. Comparison to existing motion control methods, DragAnything offers several advantages. Firstly, trajectory-based is more userfriendly for interaction, when acquiring other guidance signals (e.g., masks, depth maps) is labor-intensive. Users only need to draw a line (trajectory) during interaction. Secondly, our entity representation serves as an open-domain embedding capable of representing any object, enabling the control of motion for diverse entities, including background. Lastly, our entity representation allows simultaneous and distinct motion control for multiple objects. Extensive experiments demonstrate that our DragAnything achieves state-of-the-art performance for FVD, FID, and User Study, particularly in terms of object motion control, where our method surpasses the previous methods (e.g., DragNUWA) by 26% in human voting. | 翻訳日:2024-03-18 10:58:56 公開日:2024-03-15 |
# 多段階深部強化学習による血糖コントロールの改善
An Improved Strategy for Blood Glucose Control Using Multi-Step Deep Reinforcement Learning ( http://arxiv.org/abs/2403.07566v2 ) ライセンス: Link先を確認 | Weiwei Gu, Senquan Wang, | (参考訳) 血糖コントロール(BG)は、BGを体外インスリン注入によって健康な範囲に維持することが1型糖尿病患者にとって重要な課題である。
しかし、従来の患者の自己管理は面倒で危険である。
近年,個別化・自動化されたBG制御手法の研究が盛んに行われており,その中でもDeep Reinforcement Learning(DRL)が新たなアプローチの可能性を示唆している。
本稿では,PAE-POMDP(Prolonged Action Effect-Partially Observable Markov Decision Process)からMDP(Prolonged Action Effect-Partially Observable Markov Decision Process)への薬物効果の遅延と長期性を考慮して,薬物濃度の指数関数的減衰モデルを用いてBG制御問題の定式化を行い,その問題を解決するための新しい多段階DRLアルゴリズムを提案する。
プライオリティライズド・エクスペリエンス・リプレイ(PER)サンプリング手法も使用されている。
シングルステップのブートストラップ更新と比較して、マルチステップ学習はより効率的で、偏りのあるターゲットの影響を低減する。
提案手法は,同一トレーニング環境におけるベンチマークと比較して,より早く収束し,高い累積報酬を達成するとともに,患者BGが目標範囲内である時間(TIR)を,評価フェーズにおいて改善する。
本研究は,BGコントロールにおける多段階強化学習の有効性を検証し,最適な血糖コントロールの探索と糖尿病患者の生存率の向上に寄与する可能性がある。
Blood Glucose (BG) control involves keeping an individual's BG within a healthy range through extracorporeal insulin injections is an important task for people with type 1 diabetes. However,traditional patient self-management is cumbersome and risky. Recent research has been devoted to exploring individualized and automated BG control approaches, among which Deep Reinforcement Learning (DRL) shows potential as an emerging approach. In this paper, we use an exponential decay model of drug concentration to convert the formalization of the BG control problem, which takes into account the delay and prolongedness of drug effects, from a PAE-POMDP (Prolonged Action Effect-Partially Observable Markov Decision Process) to a MDP, and we propose a novel multi-step DRL-based algorithm to solve the problem. The Prioritized Experience Replay (PER) sampling method is also used in it. Compared to single-step bootstrapped updates, multi-step learning is more efficient and reduces the influence from biasing targets. Our proposed method converges faster and achieves higher cumulative rewards compared to the benchmark in the same training environment, and improves the time-in-range (TIR), the percentage of time the patient's BG is within the target range, in the evaluation phase. Our work validates the effectiveness of multi-step reinforcement learning in BG control, which may help to explore the optimal glycemic control measure and improve the survival of diabetic patients. | 翻訳日:2024-03-18 10:58:56 公開日:2024-03-15 |
# ポイントクラウドネットワークの高速かつ簡易な説明可能性
Fast and Simple Explainability for Point Cloud Networks ( http://arxiv.org/abs/2403.07706v2 ) ライセンス: Link先を確認 | Meir Yossef Levi, Guy Gilboa, | (参考訳) 本稿では,ポイントクラウドデータのための高速で簡単なAI(XAI)手法を提案する。
トレーニングされたネットワークダウンストリームタスクに関して、ポイントワイズの重要性を計算します。
これにより、安全クリティカルなアプリケーションに欠かせないネットワーク特性をよりよく理解することができる。
デバッグやビジュアライゼーションに加えて、私たちの低計算の複雑さは、推論時にネットワークへのオンラインフィードバックを促進する。
これは不確実性を低減し、堅牢性を高めるために使用することができる。
本研究では,ボトルネック前に機能規範を1ポイントずつ計算する,‘emph{Feature Based Interpretability}’(FBI)を導入する。
本研究では,勾配とポスト・アンド・プレ・ボトルネック戦略の利用を解析し,スムーズさとランキングの観点から,プレ・ボトルネックが好ましいことを示す。
我々は,現在のXAI手法と比較して,少なくとも3桁の速度アップが得られるため,大規模クラウドや大規模アーキテクチャに対してスケーラブルである。
本手法は分類可能性の観点からSOTAの結果を得る。
提案手法は, 回転不変性, アウト・オブ・ディストリビューション(OOD)のアウトレーヤの堅牢性, ドメインシフトやデータセットバイアスなど, 三次元学習の様々な側面を分析し, 特徴付ける上で有効であることを示す。
We propose a fast and simple explainable AI (XAI) method for point cloud data. It computes pointwise importance with respect to a trained network downstream task. This allows better understanding of the network properties, which is imperative for safety-critical applications. In addition to debugging and visualization, our low computational complexity facilitates online feedback to the network at inference. This can be used to reduce uncertainty and to increase robustness. In this work, we introduce \emph{Feature Based Interpretability} (FBI), where we compute the features' norm, per point, before the bottleneck. We analyze the use of gradients and post- and pre-bottleneck strategies, showing pre-bottleneck is preferred, in terms of smoothness and ranking. We obtain at least three orders of magnitude speedup, compared to current XAI methods, thus, scalable for big point clouds or large-scale architectures. Our approach achieves SOTA results, in terms of classification explainability. We demonstrate how the proposed measure is helpful in analyzing and characterizing various aspects of 3D learning, such as rotation invariance, robustness to out-of-distribution (OOD) outliers or domain shift and dataset bias. | 翻訳日:2024-03-18 10:58:56 公開日:2024-03-15 |
# 競争から協力へ:現代組織における多エージェントシステムと言語モデルの革命的役割
Transforming Competition into Collaboration: The Revolutionary Role of Multi-Agent Systems and Language Models in Modern Organizations ( http://arxiv.org/abs/2403.07769v3 ) ライセンス: Link先を確認 | Carlos Jose Xavier Cruz, | (参考訳) 本稿では,多エージェントシステム理論(SMA)と大規模言語モデル(LLM)を併用した計算エンティティの動的影響について考察する。これは,複雑なヒューマンインタラクションをシミュレートする能力によって特徴付けられる。
これまでの調査では、特に人工知能の自律的アプローチにおいて、特に新しい課題や論理的推論や問題解決などの実践的なタスクを扱う場合、制限があることが示されている。
また、思想の連鎖の刺激などの伝統的な技法は、明確な人的指導を必要とすると考えられている。
提案手法では,大規模言語モデル(LLM)から開発されたエージェントを用いて,エージェント間の議論的アプローチを用いて,シナリオ(ロールプレイ)ビジネスで提案されるユースケースに基づいて知識の生成を刺激する戦略により,行動要素を考慮した個別のプロトタイピングを行う。
我々は,多エージェントシステム理論(SMA)と大規模言語モデル(LLM)に基づく革新的利用に基づいて,組織戦略に有用なエージェントを開発する可能性を示す。
This article explores the dynamic influence of computational entities based on multi-agent systems theory (SMA) combined with large language models (LLM), which are characterized by their ability to simulate complex human interactions, as a possibility to revolutionize human user interaction from the use of specialized artificial agents to support everything from operational organizational processes to strategic decision making based on applied knowledge and human orchestration. Previous investigations reveal that there are limitations, particularly in the autonomous approach of artificial agents, especially when dealing with new challenges and pragmatic tasks such as inducing logical reasoning and problem solving. It is also considered that traditional techniques, such as the stimulation of chains of thoughts, require explicit human guidance. In our approach we employ agents developed from large language models (LLM), each with distinct prototyping that considers behavioral elements, driven by strategies that stimulate the generation of knowledge based on the use case proposed in the scenario (role-play) business, using a discussion approach between agents (guided conversation). We demonstrate the potential of developing agents useful for organizational strategies, based on multi-agent system theories (SMA) and innovative uses based on large language models (LLM based), offering a differentiated and adaptable experiment to different applications, complexities, domains, and capabilities from LLM. | 翻訳日:2024-03-18 10:58:56 公開日:2024-03-15 |
# 深層学習対応超広視野レンズレスイメージング
Generative deep learning-enabled ultra-large field-of-view lens-free imaging ( http://arxiv.org/abs/2403.07786v2 ) ライセンス: Link先を確認 | Ronald B. Liu, Zhe Liu, Max G. A. Wolf, Krishna P. Purohit, Gregor Fritz, Yi Feng, Carsten G. Hansen, Pierre O. Bagnaninchi, Xavier Casadevall i Solvas, Yunjie Yang, | (参考訳) 高スループットバイオメディカルアプリケーションの進歩は、リアルタイム、大視野(FOV)イメージング機能を必要とする。
物理レンズの限界に対処する従来のレンズレスイメージング (LFI) システムは、ダイナミックでハード・ツー・モデルの光学場によって制約され、その結果、約20$mm^2$の1ショットFOVとなる。
この制限は、生体医学研究のためのライブセルイメージングやマイクロ流体システムの自動化といった応用において、大きなボトルネックとなっている。
本稿では、ホログラム画像再構成のための生成人工知能(AI)を活用したディープラーニング(DL)ベースのイメージングフレームワーク、GenLFIを提案する。
我々は、GenLFIが550$mm^2$以上のリアルタイムFOVを達成でき、現在のLFIシステムを20倍以上上回り、世界最大規模の共焦点顕微鏡よりも1.76倍大きいことを実証した。
解像度は5.52$\mu m$のサブピクセルレベルで、シフトする光源を必要としない。
教師なし学習に基づく再構成は光学場モデリングを必要としないため、複雑な光学場においてダイナミックな3Dサンプル(例えば、液滴ベースのマイクロ流体学と3Dセルモデル)をイメージングすることができる。
このGenLFIフレームワークはLFIシステムの可能性を解き放ち、薬物発見のような高スループットのバイオメディカル応用において、新しいフロンティアに取り組むための堅牢なツールを提供する。
Advancements in high-throughput biomedical applications necessitate real-time, large field-of-view (FOV) imaging capabilities. Conventional lens-free imaging (LFI) systems, while addressing the limitations of physical lenses, have been constrained by dynamic, hard-to-model optical fields, resulting in a limited one-shot FOV of approximately 20 $mm^2$. This restriction has been a major bottleneck in applications like live-cell imaging and automation of microfluidic systems for biomedical research. Here, we present a deep-learning(DL)-based imaging framework - GenLFI - leveraging generative artificial intelligence (AI) for holographic image reconstruction. We demonstrate that GenLFI can achieve a real-time FOV over 550 $mm^2$, surpassing the current LFI system by more than 20-fold, and even larger than the world's largest confocal microscope by 1.76 times. The resolution is at the sub-pixel level of 5.52 $\mu m$, without the need for a shifting light source. The unsupervised learning-based reconstruction does not require optical field modeling, making imaging dynamic 3D samples (e.g., droplet-based microfluidics and 3D cell models) in complex optical fields possible. This GenLFI framework unlocks the potential of LFI systems, offering a robust tool to tackle new frontiers in high-throughput biomedical applications such as drug discovery. | 翻訳日:2024-03-18 10:58:56 公開日:2024-03-15 |
# MRC-Net:マルチスケール残差相関を用いた6-DoF推定
MRC-Net: 6-DoF Pose Estimation with MultiScale Residual Correlation ( http://arxiv.org/abs/2403.08019v2 ) ライセンス: Link先を確認 | Yuelong Li, Yafei Mao, Raja Bala, Sunil Hadap, | (参考訳) 本稿では,1枚のRGB画像から3次元コンピュータ支援デザイン(CAD)モデルを用いてオブジェクトの6-DoFポーズを決定するための単発アプローチを提案する。
MRC-Netと呼ばれる本手法は,2段階からなる。
1つ目はポーズ分類を行い、3Dオブジェクトを分類されたポーズに描画する。
第2段階は、クラス内のきめ細かい残留ポーズを予測するために回帰を実行する。
2つのステージを接続する新しいマルチスケール残差相関層(MRC)は、入力画像と第1ステージからのレンダリングとの間の高レベルな対応をキャプチャする。
MRC-Netは、入力画像と描画画像の埋め込みを学習するために、両方のステージ間で重みを共有するSiameseネットワークを使用している。
対称オブジェクト上の離散的なポーズクラスラベルを予測する際のあいまいさを軽減するため、第1段階でポーズクラスを定義するためにソフト確率ラベルを用いる。
我々は、T-LESS, LM-O, YCB-V, ITODDの4つの挑戦的ベンチマークデータセットにおいて、競合するRGBベースの手法を全て上回り、最先端の精度を実証する。
提案手法は非定型であり, 複雑な後処理は不要である。
We propose a single-shot approach to determining 6-DoF pose of an object with available 3D computer-aided design (CAD) model from a single RGB image. Our method, dubbed MRC-Net, comprises two stages. The first performs pose classification and renders the 3D object in the classified pose. The second stage performs regression to predict fine-grained residual pose within class. Connecting the two stages is a novel multi-scale residual correlation (MRC) layer that captures high-and-low level correspondences between the input image and rendering from first stage. MRC-Net employs a Siamese network with shared weights between both stages to learn embeddings for input and rendered images. To mitigate ambiguity when predicting discrete pose class labels on symmetric objects, we use soft probabilistic labels to define pose class in the first stage. We demonstrate state-of-the-art accuracy, outperforming all competing RGB-based methods on four challenging BOP benchmark datasets: T-LESS, LM-O, YCB-V, and ITODD. Our method is non-iterative and requires no complex post-processing. | 翻訳日:2024-03-18 10:49:12 公開日:2024-03-15 |
# X線CTのリングアーチファクト除去のための二重領域正規化法
A Dual-domain Regularization Method for Ring Artifact Removal of X-ray CT ( http://arxiv.org/abs/2403.08247v2 ) ライセンス: Link先を確認 | Hongyang Zhu, Xin Lu, Yanwei Qin, Xinran Yu, Tianjiao Sun, Yunsong Zhao, | (参考訳) 検出ユニットの望ましくない応答から生じる計算トモグラフィー画像のリングアーティファクトは、画像品質と診断信頼性を著しく低下させた。
この課題に対処するために、元のCT画像の整合性を維持しつつ、リングアーティファクトを効果的に除去する二重領域正規化モデルを提案する。
提案モデルでは, グループスパース制約と投影方向スパース制約を併用し, 検出ユニットの応答不整合補償係数を革新的に更新することにより, シングラム上の垂直ストライプアーティファクトを補正する。
同時に、再構成画像にスパース制約を適用し、画像領域内のさらなる整形リングアーティファクトに適用する。
提案手法の主な利点は,検出ユニットの応答不整合補償係数と投影ビューの関係を考慮し,検出ユニットの応答のより正確な補正を可能にすることである。
モデルを解くために、交代最小化法が設計されている。
実光子計数検出器データの比較実験により,提案手法は既存のリングアーティファクト除去法を超越するだけでなく,構造の詳細や画像の忠実さの保存にも優れていることが示された。
Ring artifacts in computed tomography images, arising from the undesirable responses of detector units, significantly degrade image quality and diagnostic reliability. To address this challenge, we propose a dual-domain regularization model to effectively remove ring artifacts, while maintaining the integrity of the original CT image. The proposed model corrects the vertical stripe artifacts on the sinogram by innovatively updating the response inconsistency compensation coefficients of detector units, which is achieved by employing the group sparse constraint and the projection-view direction sparse constraint on the stripe artifacts. Simultaneously, we apply the sparse constraint on the reconstructed image to further rectified ring artifacts in the image domain. The key advantage of the proposed method lies in considering the relationship between the response inconsistency compensation coefficients of the detector units and the projection views, which enables a more accurate correction of the response of the detector units. An alternating minimization method is designed to solve the model. Comparative experiments on real photon counting detector data demonstrate that the proposed method not only surpasses existing methods in removing ring artifacts but also excels in preserving structural details and image fidelity. | 翻訳日:2024-03-18 10:49:12 公開日:2024-03-15 |
# 高度特殊化言語モデルを用いたテキスト, コード, 数学の同時習得
Mastering Text, Code and Math Simultaneously via Fusing Highly Specialized Language Models ( http://arxiv.org/abs/2403.08281v2 ) ライセンス: Link先を確認 | Ning Ding, Yulin Chen, Ganqu Cui, Xingtai Lv, Ruobing Xie, Bowen Zhou, Zhiyuan Liu, Maosong Sun, | (参考訳) 自然言語、プログラミングコード、数学的記号のデータ分布は様々であり、大きな言語モデル(LLM)が3つのドメインすべてに対して同時に高いパフォーマンスを達成するための複雑な課題を提示する。
特定のドメイン内のLLMの非常に高い習熟度を達成するには、しばしば関連するコーパスによる広範囲なトレーニングが必要であり、これは通常、他のドメインのパフォーマンスの犠牲を伴う。
本稿では,すでに高度に特殊化されているモデルを融合する手法を提案する。
提案されているハウジングフレームワークであるUltraFuserは、すでに言語、コーディング、数学について十分に訓練されている3つの異なるスペシャリストで構成されている。
専門家の出力をブレンドするためにトークンレベルのゲーティング機構が導入された。
バランスの取れたサンプリングを伴う2段階のトレーニング戦略は、安定性を確保するために設計されている。
融合モデルを効果的に訓練するために,テキスト,コード,数学的内容を含む高品質な教師ありチューニングデータセットであるUltraChat 2を構築した。
このデータセットはおよそ30万の命令で構成され、各ドメインの幅広いトピックをカバーする。
実験により、我々のモデルは3つの重要な領域の習得を同時に達成できることが示された。
Underlying data distributions of natural language, programming code, and mathematical symbols vary vastly, presenting a complex challenge for large language models (LLMs) that strive to achieve high performance across all three domains simultaneously. Achieving a very high level of proficiency for an LLM within a specific domain often requires extensive training with relevant corpora, which is typically accompanied by a sacrifice in performance in other domains. In this paper, we propose to fuse models that are already highly-specialized directly. The proposed fusing framework, UltraFuser, consists of three distinct specialists that are already sufficiently trained on language, coding, and mathematics. A token-level gating mechanism is introduced to blend the specialists' outputs. A two-stage training strategy accompanied by balanced sampling is designed to ensure stability. To effectively train the fused model, we further construct a high-quality supervised instruction tuning dataset, UltraChat 2, which includes text, code, and mathematical content. This dataset comprises approximately 300,000 instructions and covers a wide range of topics in each domain. Experiments show that our model could simultaneously achieve mastery of the three crucial domains. | 翻訳日:2024-03-18 10:49:12 公開日:2024-03-15 |
# OccFiner: ハイブリッドプロパゲーションによるオフボード業務のリファインメント
OccFiner: Offboard Occupancy Refinement with Hybrid Propagation ( http://arxiv.org/abs/2403.08504v2 ) ライセンス: Link先を確認 | Hao Shi, Song Wang, Jiaming Zhang, Xiaoting Yin, Zhongdao Wang, Zhijian Zhao, Guangming Wang, Jianke Zhu, Kailun Yang, Kaiwei Wang, | (参考訳) 3Dセマンティックシーンコンプリート(3D Semantic Scene Completion, SSC)は、コンピュータビジョンにおいて重要な課題である。
従来の手法は、オンボード処理に限られており、同時幾何的および意味的推定、様々な視点における連続性、単一視点の排他性に苦慮していた。
OccFinerは,視覚による占有率予測の精度を高めるために設計された,新しいオフボードフレームワークである。
OccFinerは2つのハイブリッドフェーズで動作します。
1)複数の局所的フレームを暗黙的に整列処理してモデルエラーを訂正し、全距離にわたって占有精度を一貫して向上するマルチ・マルチ・ローカル・プロパゲーションネットワーク。
2) 地域中心のグローバルな伝播は, 明示的なマルチビュー幾何を用いてラベルを精細化し, センサバイアスを統合することに焦点を当てている。
大規模な実験により、OccFinerは様々な種類の粗い占有領域における幾何学的および意味論的精度を向上し、SemanticKITTIデータセットに新しい最先端のパフォーマンスを設定できることを示した。
特に、OccFinerは視覚ベースのSSCモデルをLiDARベースのSSCモデルよりも高いレベルに引き上げている。
Vision-based occupancy prediction, also known as 3D Semantic Scene Completion (SSC), presents a significant challenge in computer vision. Previous methods, confined to onboard processing, struggle with simultaneous geometric and semantic estimation, continuity across varying viewpoints, and single-view occlusion. Our paper introduces OccFiner, a novel offboard framework designed to enhance the accuracy of vision-based occupancy predictions. OccFiner operates in two hybrid phases: 1) a multi-to-multi local propagation network that implicitly aligns and processes multiple local frames for correcting onboard model errors and consistently enhancing occupancy accuracy across all distances. 2) the region-centric global propagation, focuses on refining labels using explicit multi-view geometry and integrating sensor bias, especially to increase the accuracy of distant occupied voxels. Extensive experiments demonstrate that OccFiner improves both geometric and semantic accuracy across various types of coarse occupancy, setting a new state-of-the-art performance on the SemanticKITTI dataset. Notably, OccFiner elevates vision-based SSC models to a level even surpassing that of LiDAR-based onboard SSC models. | 翻訳日:2024-03-18 10:49:12 公開日:2024-03-15 |
# 被着物交換者の再同定
Occluded Cloth-Changing Person Re-Identification ( http://arxiv.org/abs/2403.08557v2 ) ライセンス: Link先を確認 | Zhihao Chen, Yiyuan Ge, | (参考訳) 衣服交換者の再識別は, 衣服交換のシナリオにおいて, 衣服非関連の特徴を用いて, 歩行者の身元を把握し, 識別することを目的としている。
しかし、監視カメラが捉えた歩行者画像は、通常、現実世界のシナリオにおける閉塞を含んでいる。
既存の布質変化者の再識別方法のパーフォーマンスを、閉塞による差別的布質無関係の特徴の低下により、著しく劣化させる。
我々は,隠蔽型布変人再識別(Occ-CC-ReID)として,隠蔽型布変人再識別(Occ-CC-ReID)を定義した。
我々は,Occluded-PRCC と Occluded-LTCC の2つの隠蔽布変化した人物識別データセットを構築した。
da-tasetsは以下のリンクから入手できる。 https://github.com/1024AILab/Occluded-Cloth-Changing-Person-Re-Identification。
Cloth-changing person re-identification aims to retrieve and identify spe-cific pedestrians by using cloth-unrelated features in person cloth-changing scenarios. However, pedestrian images captured by surveillance probes usually contain occlusions in real-world scenarios. The perfor-mance of existing cloth-changing person re-identification methods is sig-nificantly degraded due to the reduction of discriminative cloth-unrelated features caused by occlusion. We define cloth-changing person re-identification in occlusion scenarios as occluded cloth-changing person re-identification (Occ-CC-ReID), and to the best of our knowledge, we are the first to propose occluded cloth-changing person re-identification as a new task. We constructed two occluded cloth-changing person re-identification datasets: Occluded-PRCC and Occluded-LTCC. The da-tasets can be obtained from the following link: https://github.com/1024AILab/Occluded-Cloth-Changing-Person-Re-Identification. | 翻訳日:2024-03-18 10:49:12 公開日:2024-03-15 |
# DevBench: ソフトウェア開発のための総合ベンチマーク
DevBench: A Comprehensive Benchmark for Software Development ( http://arxiv.org/abs/2403.08604v2 ) ライセンス: Link先を確認 | Bowen Li, Wenhan Wu, Ziwei Tang, Lin Shi, John Yang, Jinyang Li, Shunyu Yao, Chen Qian, Binyuan Hui, Qicheng Zhang, Zhiyin Yu, He Du, Ping Yang, Dahua Lin, Chao Peng, Kai Chen, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、そのコーディング能力を著しく向上させた。
しかし、既存のベンチマークは主に、単一ファイルのコード生成やリポジトリのイシューデバッギングなど、プログラミングの単純化または孤立した側面に焦点を当てており、実際のプログラミング活動によって引き起こされる課題の完全な範囲を測るには至っていない。
この目的のために,ソフトウェア設計,環境設定,実装,受け入れテスト,単体テストなど,ソフトウェア開発ライフサイクルのさまざまな段階にわたるLCMを評価する包括的なベンチマークであるDevBenchを提案する。
DevBenchは、幅広いプログラミング言語とドメイン、高品質なデータ収集、各タスクに対して慎重に設計され、検証されたメトリクスを備えている。
GPT-4-Turboを含む現在のLLMは、DevBench内での課題の解決に失敗している。
分析によると、モデルはリポジトリの複雑な構造を理解し、コンパイルプロセスを管理し、高度なプログラミング概念を把握するのに苦労している。
本研究は,LLMを現実のプログラミングアプリケーションに展開する上で,現実的な知見を提供するものである。
私たちのベンチマークはhttps://github.com/open-compass/DevBenchで公開されています。
Recent advancements in large language models (LLMs) have significantly enhanced their coding capabilities. However, existing benchmarks predominantly focused on simplified or isolated aspects of programming, such as single-file code generation or repository issue debugging, falling short of measuring the full spectrum of challenges raised by real-world programming activities. To this end, we propose DevBench, a comprehensive benchmark that evaluates LLMs across various stages of the software development lifecycle, including software design, environment setup, implementation, acceptance testing, and unit testing. DevBench features a wide range of programming languages and domains, high-quality data collection, and carefully designed and verified metrics for each task. Empirical studies show that current LLMs, including GPT-4-Turbo, fail to solve the challenges presented within DevBench. Analyses reveal that models struggle with understanding the complex structures in the repository, managing the compilation process, and grasping advanced programming concepts. Our findings offer actionable insights for the future development of LLMs toward real-world programming applications. Our benchmark is available at https://github.com/open-compass/DevBench | 翻訳日:2024-03-18 10:49:12 公開日:2024-03-15 |
# 階層的軌道表現に基づく容器挙動の予測的クラスタリング
Predictive Clustering of Vessel Behavior Based on Hierarchical Trajectory Representation ( http://arxiv.org/abs/2403.08838v2 ) ライセンス: Link先を確認 | Rui Zhang, Hanyue Wu, Zhenzhong Yin, Zhu Xiao, Yong Xiong, Kezhong Liu, | (参考訳) 同じような軌道パターンを見つけることを目的とした容器軌道クラスタリングは, オーバーウォーター・アプリケーションで広く活用されている。
ほとんどの伝統的な手法では、個別の容器の挙動を特定するために事前定義された規則としきい値を使用する。
それらは高品質なクラスタリングを目標とし、元の軌道またはそのサブ軌道のいずれであっても、その進化を表わさないシーケンス全体をクラスタリングする。
そこで本研究では,階層型容器挙動予測クラスタリング(PC-HiV)を提案する。
PC-HiVはまず階層表現を用いて全ての軌道を行動列に変換する。
そして、その表現に基づいて、シーケンスの各タイムスタンプで進化を予測する。
予測クラスタリングと潜時符号化を適用することで、PC-HiVはクラスタリングと予測を同時に改善する。
実際のAISデータセットの実験では、PC-HiVが既存の手法よりも優れていることが示され、船舶タイプ(トランプ対ライナー)と排出制御領域の間の行動進化の相違を捉える効果が示された。
その結果,NN-KmeansとRobust DAAは純度スコアの3.9%と6.4%より優れていた。
Vessel trajectory clustering, which aims to find similar trajectory patterns, has been widely leveraged in overwater applications. Most traditional methods use predefined rules and thresholds to identify discrete vessel behaviors. They aim for high-quality clustering and conduct clustering on entire sequences, whether the original trajectory or its sub-trajectories, failing to represent their evolution. To resolve this problem, we propose a Predictive Clustering of Hierarchical Vessel Behavior (PC-HiV). PC-HiV first uses hierarchical representations to transform every trajectory into a behavioral sequence. Then, it predicts evolution at each timestamp of the sequence based on the representations. By applying predictive clustering and latent encoding, PC-HiV improves clustering and predictions simultaneously. Experiments on real AIS datasets demonstrate PC-HiV's superiority over existing methods, showcasing its effectiveness in capturing behavioral evolution discrepancies between vessel types (tramp vs. liner) and within emission control areas. Results show that our method outperforms NN-Kmeans and Robust DAA by 3.9% and 6.4% of the purity score. | 翻訳日:2024-03-18 10:49:12 公開日:2024-03-15 |
# CLIPを用いたCT画像におけるロバストなCOVID-19検出
Robust COVID-19 Detection in CT Images with CLIP ( http://arxiv.org/abs/2403.08947v2 ) ライセンス: Link先を確認 | Li Lin, Yamini Sri Krubha, Zhenhuan Yang, Cheng Ren, Thuc Duy Le, Irene Amerini, Xin Wang, Shu Hu, | (参考訳) 医療画像、特に新型コロナウイルス(COVID-19)検出の分野では、ディープラーニングモデルは、広範な計算資源の必要性、よく注釈されたデータセットの質、膨大な量のラベルのないデータなど、重大な課題に直面している。
本研究では,これらの障害を克服し,凍結したCLIP画像エンコーダとトレーニング可能な多層認識(MLP)を利用する,最初の軽量検出器を提案する。
リスクに対する条件付値(CVaR)の強化と、一般化を改善するための損失景観平ら化戦略により、当社のモデルは、COVID-19検出における高い有効性のために調整されている。
さらに,教師による学習フレームワークを統合して,大量の未ラベルデータを活用することにより,本モデルが持つデータ制限にもかかわらず,優れたパフォーマンスを実現することができる。
COV19-CT-DBデータセットによる実験結果から,教師あり学習における「マクロ」F1スコアの10.6%を超えるベースラインを達成できた。
コードはhttps://github.com/Purdue-M2/COVID-19_Detection_M2_PURDUEで公開されている。
In the realm of medical imaging, particularly for COVID-19 detection, deep learning models face substantial challenges such as the necessity for extensive computational resources, the paucity of well-annotated datasets, and a significant amount of unlabeled data. In this work, we introduce the first lightweight detector designed to overcome these obstacles, leveraging a frozen CLIP image encoder and a trainable multilayer perception (MLP). Enhanced with Conditional Value at Risk (CVaR) for robustness and a loss landscape flattening strategy for improved generalization, our model is tailored for high efficacy in COVID-19 detection. Furthermore, we integrate a teacher-student framework to capitalize on the vast amounts of unlabeled data, enabling our model to achieve superior performance despite the inherent data limitations. Experimental results on the COV19-CT-DB dataset demonstrate the effectiveness of our approach, surpassing baseline by up to 10.6% in `macro' F1 score in supervised learning. The code is available at https://github.com/Purdue-M2/COVID-19_Detection_M2_PURDUE. | 翻訳日:2024-03-18 10:49:12 公開日:2024-03-15 |
# NTIRE 2023 Image Shadow removal Challenge Technical Report: Team IIM_TTI
NTIRE 2023 Image Shadow Removal Challenge Technical Report: Team IIM_TTI ( http://arxiv.org/abs/2403.08995v2 ) ライセンス: Link先を確認 | Yuki Kondo, Riku Miyata, Fuma Yasue, Taito Naruki, Norimichi Ukita, | (参考訳) 本稿では,NTIRE2023シャドウ除去チャレンジ [1] の準備として,画像アライメント,知覚的品質損失関数の導入,シャドウ検出のための半自動アノテーション,シャドウ検出と除去に関する共同学習,およびシャドウ除去のための新しいデータ拡張技術「CutShadow」の導入という,5つの重要な改善点について分析・議論する。
LPIPSでは0.196点(19点中3点)、平均オピニオンスコア(MOS)では7.44点(19点中4点)のスコアを得た。
In this paper, we analyze and discuss ShadowFormer in preparation for the NTIRE2023 Shadow Removal Challenge [1], implementing five key improvements: image alignment, the introduction of a perceptual quality loss function, the semi-automatic annotation for shadow detection, joint learning of shadow detection and removal, and the introduction of new data augmentation technique "CutShadow" for shadow removal. Our method achieved scores of 0.196 (3rd out of 19) in LPIPS and 7.44 (4th out of 19) in the Mean Opinion Score (MOS). | 翻訳日:2024-03-18 10:49:12 公開日:2024-03-15 |
# パウリのチャネル学習に適応性は役に立たない
Adaptivity is not helpful for Pauli channel learning ( http://arxiv.org/abs/2403.09033v2 ) ライセンス: Link先を確認 | Xuan Du Trinh, Nengkun Yu, | (参考訳) このノートは、適応戦略が、絡み合った入力でPauliチャネルを学習し、テストするための追加の利点を提供していないことを示している。
まず、一般ノルム$l_p$に対して、絡み合った入力を持つパウリチャネルを学習する際の厳密なクエリ複雑性を確立する。
特に、$l_{1}$, $l_2$, $l_\infty$ノルムの複雑さは、文献の絡み合いを用いた以前の結果と比較して改善または整合する。
Pauliチャネルが$l_p$のホワイトノイズソースであるかどうかをテストするためのクエリの複雑さも解決します。
さらに,誤差分布のエントロピーと非ゼロ確率のカウントを特徴とするPauliチャネルのノイズレベルを推定するクエリの複雑さが$\Theta(4^n/n)$であることを示す。
さらに、$\Theta(4^n/n)$クエリは、2つのパウリチャネル間のダイヤモンドノルムを推定するのに十分である。
This note shows that adaptive strategies do not offer additional advantages for learning and testing Pauli channels with entangled input. First, the tight query complexity of learning Pauli channels with entangled input is established for the general norm $l_p$. In particular, the complexities for the $l_{1}$, $l_2$ and $l_\infty$ norms are improved or matched compared to previous results using entanglement in the literature. We also settle the query complexity to test if Pauli channels are white noise sources across $l_p$. Additionally, we demonstrate that the query complexity of estimating the noise level of a Pauli channel, characterized by the entropy of its error distribution and the count of non-zero probabilities, is $\Theta(4^n/n)$. Further, $\Theta(4^n/n)$ queries are sufficient to estimate the diamond norm between two Pauli channels. | 翻訳日:2024-03-18 10:49:12 公開日:2024-03-15 |
# CardioCaps:クラス不均衡心エコー図分類のための注意型カプセルネットワーク
CardioCaps: Attention-based Capsule Network for Class-Imbalanced Echocardiogram Classification ( http://arxiv.org/abs/2403.09108v2 ) ライセンス: Link先を確認 | Hyunkyung Han, Jihyeon Seong, Jaesik Choi, | (参考訳) Capsule Neural Networks (CapsNets) は、複数のニューロンによって形成されるベクトルワイド表現を利用する新しいアーキテクチャである。
具体的には、Dynamic Routing CapsNets(DR-CapsNets)は、カプセルをトレーニングし、翻訳等価性を取得するためにアフィンマトリックスと動的ルーティング機構を使用し、従来の畳み込みニューラルネットワーク(CNN)と比較して堅牢性を高めている。
心臓の動きを捉えたエコー心電図は、従来の画像分類法に特有の課題を提示する。
本稿では、DR-CapsNetsの可能性を探り、クラス不均衡心エコー図分類のための新しい注目型DR-CapsNetアーキテクチャであるCardioCapsを提案する。
CardioCapsは、回帰補助損失を含む重み付きマージン損失とアテンションメカニズムの2つの重要なコンポーネントから構成される。
第一に、重み付きマージン損失は、心機能の重要な指標である吐出障害(EF)回帰タスクに基づく補助的損失関数によって補足された陽性症例を優先する。
このアプローチは、クラス不均衡に直面してモデルのレジリエンスを高める。
第二に、動的ルーティングの二次的複雑さがトレーニングの非効率性につながることを認識し、より計算的に効率的な代替手段として注意機構を採用する。
その結果,CardioCapsは,ロジスティック回帰,ランダムフォレスト,XGBoostなどの従来の機械学習ベースライン手法を,サンプリング手法とクラス重み行列で超越していることがわかった。
さらに、CNN、ResNets、U-Nets、ViTsといった他のディープラーニングベースラインメソッド、EM-CapsNetsやEfficient-CapsNetsといった高度なCapsNetsメソッドよりも優れています。
特に,クラス不均衡に対するロバスト性を示し,負の場合のかなりの割合のデータセットにおいても高い精度を実現している。
Capsule Neural Networks (CapsNets) is a novel architecture that utilizes vector-wise representations formed by multiple neurons. Specifically, the Dynamic Routing CapsNets (DR-CapsNets) employ an affine matrix and dynamic routing mechanism to train capsules and acquire translation-equivariance properties, enhancing its robustness compared to traditional Convolutional Neural Networks (CNNs). Echocardiograms, which capture moving images of the heart, present unique challenges for traditional image classification methods. In this paper, we explore the potential of DR-CapsNets and propose CardioCaps, a novel attention-based DR-CapsNet architecture for class-imbalanced echocardiogram classification. CardioCaps comprises two key components: a weighted margin loss incorporating a regression auxiliary loss and an attention mechanism. First, the weighted margin loss prioritizes positive cases, supplemented by an auxiliary loss function based on the Ejection Fraction (EF) regression task, a crucial measure of cardiac function. This approach enhances the model's resilience in the face of class imbalance. Second, recognizing the quadratic complexity of dynamic routing leading to training inefficiencies, we adopt the attention mechanism as a more computationally efficient alternative. Our results demonstrate that CardioCaps surpasses traditional machine learning baseline methods, including Logistic Regression, Random Forest, and XGBoost with sampling methods and a class weight matrix. Furthermore, CardioCaps outperforms other deep learning baseline methods such as CNNs, ResNets, U-Nets, and ViTs, as well as advanced CapsNets methods such as EM-CapsNets and Efficient-CapsNets. Notably, our model demonstrates robustness to class imbalance, achieving high precision even in datasets with a substantial proportion of negative cases. | 翻訳日:2024-03-18 10:49:12 公開日:2024-03-15 |
# 医学的異常検出のためのオートエンコーダの再考 : 理論的視点から
Rethinking Autoencoders for Medical Anomaly Detection from A Theoretical Perspective ( http://arxiv.org/abs/2403.09303v2 ) ライセンス: Link先を確認 | Yu Cai, Hao Chen, Kwang-Ting Cheng, | (参考訳) 医学的異常検出は、正常なトレーニングデータのみを用いて異常な発見を識別することを目的としており、健康診断やまれな疾患の認識において重要な役割を担っている。
再構成に基づく手法、特にオートエンコーダ(AE)を利用する手法がこの分野で優位である。
彼らは、通常のデータのみに基づいて訓練されたAEが、見えない異常な領域をうまく再構築できないという仮定の下で作業し、再構成エラーに基づく異常検出を可能にする。
しかし, この仮定は, 再建訓練目標と異常検出タスク目標とのミスマッチのため, 理論上は不正確である。
本研究は, 異常検出におけるAEを用いた再構成手法の理論的基礎を提供することに焦点をあてる。
情報理論を活用することにより,これらの手法の原理を解明し,異常検出におけるAE改善の鍵は潜伏ベクトルの情報エントロピーの最小化にあることを示す。
2つの画像モダリティを持つ4つのデータセットの実験により、我々の理論の有効性が検証された。
我々の知る限りでは、これは異常検出のためのAEの原理と設計哲学を理論的に解明する最初の試みである。
コードは受理後利用可能になる。
Medical anomaly detection aims to identify abnormal findings using only normal training data, playing a crucial role in health screening and recognizing rare diseases. Reconstruction-based methods, particularly those utilizing autoencoders (AEs), are dominant in this field. They work under the assumption that AEs trained on only normal data cannot reconstruct unseen abnormal regions well, thereby enabling the anomaly detection based on reconstruction errors. However, this assumption does not always hold due to the mismatch between the reconstruction training objective and the anomaly detection task objective, rendering these methods theoretically unsound. This study focuses on providing a theoretical foundation for AE-based reconstruction methods in anomaly detection. By leveraging information theory, we elucidate the principles of these methods and reveal that the key to improving AE in anomaly detection lies in minimizing the information entropy of latent vectors. Experiments on four datasets with two image modalities validate the effectiveness of our theory. To the best of our knowledge, this is the first effort to theoretically clarify the principles and design philosophy of AE for anomaly detection. Code will be available upon acceptance. | 翻訳日:2024-03-18 10:49:12 公開日:2024-03-15 |
# VISA:逐次サンプル平均近似による変分推論
VISA: Variational Inference with Sequential Sample-Average Approximations ( http://arxiv.org/abs/2403.09429v2 ) ライセンス: Link先を確認 | Heiko Zimmermann, Christian A. Naesseth, Jan-Willem van de Meent, | (参考訳) 本稿では,数値シミュレーションなどの計算集約モデルにおける近似推論手法として,逐次サンプル平均近似(VISA)を用いた変分推論を提案する。
VISAは、信頼領域内で有効と考えられるサンプル平均近似を用いて、重み付けされたフォワード-KL変量推論を拡張する。
これにより、複数の勾配ステップでモデル評価を再利用し、計算コストを削減できる。
我々は,高次元ガウス,ロトカ・ボルテラダイナミクス,およびピックオーバーアトラクタの実験を行い,VISAが標準重要度重み付きフォワード-KL変量推論に匹敵する近似精度を達成できることを示す。
We present variational inference with sequential sample-average approximation (VISA), a method for approximate inference in computationally intensive models, such as those based on numerical simulations. VISA extends importance-weighted forward-KL variational inference by employing a sequence of sample-average approximations, which are considered valid inside a trust region. This makes it possible to reuse model evaluations across multiple gradient steps, thereby reducing computational cost. We perform experiments on high-dimensional Gaussians, Lotka-Volterra dynamics, and a Pickover attractor, which demonstrate that VISA can achieve comparable approximation accuracy to standard importance-weighted forward-KL variational inference with computational savings of a factor two or more for conservatively chosen learning rates. | 翻訳日:2024-03-18 10:49:12 公開日:2024-03-15 |
# API検出LDMの一次情報漏洩のロジット
Logits of API-Protected LLMs Leak Proprietary Information ( http://arxiv.org/abs/2403.09539v2 ) ライセンス: Link先を確認 | Matthew Finlayson, Xiang Ren, Swabha Swayamdipta, | (参考訳) 大規模言語モデル(LLM)の商用化は、プロプライエタリなモデルへの高レベルのAPIのみアクセスの一般的な実践につながった。
本研究は,モデルアーキテクチャに関する保守的な前提の下でも,比較的少数のAPIクエリ(例えば,OpenAIのgpt-3.5-turboの1,000ドル未満の費用)から,APIで保護されたLSMに関する驚くほど多くの非公開情報を学ぶことができることを示す。
現代のLLMは、モデル出力を全出力空間の線形部分空間に制限するソフトマックスボトルネックに悩まされている。
本研究では,LLMの隠れサイズを効率よく発見し,全語彙の出力を取得し,異なるモデル更新を検出し,曖昧にすること,単一のLLM出力を与えられたソースLLMを特定すること,さらには出力層パラメータを推定すること,といった,安価なコストでいくつかの機能を実現するモデルイメージやモデルシグネチャに自らを適用できることを示す。
実験により,OpenAIのgpt-3.5-turboの埋め込みサイズを約4,096。
最後に、LLMプロバイダがこれらの攻撃を防ぎ、透明性と説明責任を高めることで、これらの機能を(バグではなく)機能と見なすことができる方法について論じる。
The commercialization of large language models (LLMs) has led to the common practice of high-level API-only access to proprietary models. In this work, we show that even with a conservative assumption about the model architecture, it is possible to learn a surprisingly large amount of non-public information about an API-protected LLM from a relatively small number of API queries (e.g., costing under $1,000 for OpenAI's gpt-3.5-turbo). Our findings are centered on one key observation: most modern LLMs suffer from a softmax bottleneck, which restricts the model outputs to a linear subspace of the full output space. We show that this lends itself to a model image or a model signature which unlocks several capabilities with affordable cost: efficiently discovering the LLM's hidden size, obtaining full-vocabulary outputs, detecting and disambiguating different model updates, identifying the source LLM given a single full LLM output, and even estimating the output layer parameters. Our empirical investigations show the effectiveness of our methods, which allow us to estimate the embedding size of OpenAI's gpt-3.5-turbo to be about 4,096. Lastly, we discuss ways that LLM providers can guard against these attacks, as well as how these capabilities can be viewed as a feature (rather than a bug) by allowing for greater transparency and accountability. | 翻訳日:2024-03-18 10:49:12 公開日:2024-03-15 |