このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240410となっている論文です。

PDF登録状況(公開日: 20240410)

TitleAuthorsAbstract論文公表日・翻訳日
# NeuroNet:シングルチャネル脳波を用いた睡眠段階分類のためのハイブリッド自己監督学習フレームワーク

NeuroNet: A Novel Hybrid Self-Supervised Learning Framework for Sleep Stage Classification Using Single-Channel EEG ( http://arxiv.org/abs/2404.17585v1 )

ライセンス: Link先を確認
Cheol-Hui Lee, Hakseung Kim, Hyun-jee Han, Min-Kyung Jung, Byung C. Yoon, Dong-Joo Kim, (参考訳) 睡眠段階の分類は、睡眠障害を診断し、睡眠の質を評価する重要な側面である。 しかし、従来の手動採点プロセスは、臨床医が行うもので、時間がかかり、人間の偏見がちである。 近年の深層学習の進歩は、睡眠段階分類の自動化を著しく促進している。 それでも、ラベル付き大規模なデータセットの必要性や、人為的なアノテーションに固有のバイアスなど、課題は続いている。 コントラスト学習タスクとマスク付き予測タスクを統合することで、ラベルのない単一チャンネル睡眠脳波信号(EEG)を効果的に活用する自己教師型学習(SSL)フレームワークであるNeuroNetを紹介する。 NeuroNetは3つのポリソノグラフィー(PSG)データセットにわたる広範な実験を通じて、既存のSSLメソッドよりも優れたパフォーマンスを示す。 さらに, マンバをベースとした時間的文脈モジュールを提案し, 多様な脳波エポック間の関係を捉える。 NeuroNetとMambaベースの時間的コンテキストモジュールを組み合わせることで、ラベル付きデータの限られた量であっても、最新の教師付き学習方法論のパフォーマンスを達成または超える能力が実証された。 本研究は、睡眠ステージ分類における新たなベンチマークを確立し、睡眠分析の分野における将来の研究と応用を導くことが期待されている。

The classification of sleep stages is a pivotal aspect of diagnosing sleep disorders and evaluating sleep quality. However, the conventional manual scoring process, conducted by clinicians, is time-consuming and prone to human bias. Recent advancements in deep learning have substantially propelled the automation of sleep stage classification. Nevertheless, challenges persist, including the need for large datasets with labels and the inherent biases in human-generated annotations. This paper introduces NeuroNet, a self-supervised learning (SSL) framework designed to effectively harness unlabeled single-channel sleep electroencephalogram (EEG) signals by integrating contrastive learning tasks and masked prediction tasks. NeuroNet demonstrates superior performance over existing SSL methodologies through extensive experimentation conducted across three polysomnography (PSG) datasets. Additionally, this study proposes a Mamba-based temporal context module to capture the relationships among diverse EEG epochs. Combining NeuroNet with the Mamba-based temporal context module has demonstrated the capability to achieve, or even surpass, the performance of the latest supervised learning methodologies, even with a limited amount of labeled data. This study is expected to establish a new benchmark in sleep stage classification, promising to guide future research and applications in the field of sleep analysis.
翻訳日:2024-05-05 18:04:17 公開日:2024-04-10
# 価格変動結合 - 確率論的機械学習アプローチ

Pricing Catastrophe Bonds -- A Probabilistic Machine Learning Approach ( http://arxiv.org/abs/2405.00697v1 )

ライセンス: Link先を確認
Xiaowei Chen, Hong Li, Yufan Lu, Rui Zhou, (参考訳) 本稿では,一次市場におけるカタストロフィ(CAT)結合の価格設定のための確率論的機械学習手法を提案する。 提案手法は、機械学習に基づく予測モデルと、CAT社債価格の分布自由確率予測を生成する革新的なアルゴリズムであるConformal Predictionを組み合わせる。 1999年1月から2021年3月までの一次市場におけるCAT社債取引記録を用いて,提案手法は従来手法よりもより堅牢で,より正確な社債取引の予測が得られた。 さらに, 線形回帰よりも有意な予測区間を生成し, 種々のリスク因子と結合拡散の間の重要な非線形関係を同定し, 線形回帰が結合拡散を誤って推定できることを示唆した。 本稿では,CAT結合の価格改善における機械学習手法の可能性を示す。

This paper proposes a probabilistic machine learning method to price catastrophe (CAT) bonds in the primary market. The proposed method combines machine-learning-based predictive models with Conformal Prediction, an innovative algorithm that generates distribution-free probabilistic forecasts for CAT bond prices. Using primary market CAT bond transaction records between January 1999 and March 2021, the proposed method is found to be more robust and yields more accurate predictions of the bond spreads than traditional regression-based methods. Furthermore, the proposed method generates more informative prediction intervals than linear regression and identifies important nonlinear relationships between various risk factors and bond spreads, suggesting that linear regressions could misestimate the bond spreads. Overall, this paper demonstrates the potential of machine learning methods in improving the pricing of CAT bonds.
翻訳日:2024-05-05 17:54:32 公開日:2024-04-10
# キラルカオスの高感度センシング

Chiral Chaos Enhanced Sensing ( http://arxiv.org/abs/2404.07019v1 )

ライセンス: Link先を確認
Yun-Qiu Ge, Zhe Wang, Qian-Chuan Zhao, Jing Zhang, Yu-xi Liu, (参考訳) キラリティ(Chirality)とは、物体とその鏡像が空間回転と変換によって重なり合うことができない性質であり、様々な研究分野に見られる。 本稿では, 2つの逆の方向に対して, カオスへの経路がキラル性を示すような, 複合振付ギャラリーモード共振器によるカイラルカオスデバイスの構築と, カイラルカオスデバイスの構築について述べる。 この現象の原因となるメカニズムは、進行波光場の時間反転対称性が共振器に挿入されたレイリー散乱器によって破られることである。 リアプノフ指数と組み合わせて、異なるカオス力学間の対称性とキラリティを測定する指標を提案する。 このようなキラルカオスデバイスは、感度が高く、検出可能な範囲が広く、弱い信号の位相と向きのランダム性に対して強い堅牢性を持つことができる。 我々の研究は、オンチップセンシングの有望な候補を示し、量子ネットワークやカオス通信に応用できるかもしれない。

Chirality refers to the property that an object and its mirror image cannot overlap each other by spatial rotation and translation, and can be found in various research fields. We here propose chiral chaos and construct a chiral chaotic device via coupled whispering gallery mode resonators, where routes to chaos exhibit pronounced chirality for two opposite pumping directions. The mechanism responsible for this phenomenon is that time-reversal symmetry of the traveling-wave light fields is broken by the Rayleigh scatterers inserted in resonators. Combining with the Lyapunov exponents, we propose metrics to measure the symmetry and chirality between different chaotic dynamics. We find that such a chiral chaotic device can be applied to achieve sensing with high sensitivity, wide detectable range, and strong robustness to the phase and orientation randomness of weak signals. Our work presents a promising candidate for on-chip sensing and may have applications in quantum networks and chaotic communications.
翻訳日:2024-04-28 11:25:01 公開日:2024-04-10
# 環境設計による人間-ロボット目標状態の多様性の低減

Reducing Human-Robot Goal State Divergence with Environment Design ( http://arxiv.org/abs/2404.15184v1 )

ライセンス: Link先を確認
Kelsey Sikes, Sarah Keren, Sarath Sreedharan, (参考訳) 人間とAIのコラボレーションを成功させる上で最も難しい課題の1つは、ロボットの振る舞いと人間のユーザの期待を一致させることである。 これが起こらなかった場合、ロボットは指定された目標を誤って解釈し、予期しない、潜在的に危険な副作用で行動を起こす。 これを回避するため,Goal State Divergence $\mathcal{(GSD)}$と呼ばれる新しいメトリクスを提案する。 $\mathcal{GSD}$ が直接計算できない場合、極大および極小境界を用いてそれを近似する方法を示す。 次に、新しいヒューマンロボットゴールアライメント(HRGA)設計問題に$\mathcal{GSD}$値を入力する。 ロボットの目標状態の違いを減らすための$\mathcal{GSD}$の有効性を示すため,いくつかの標準ベンチマークにおいて,我々のアプローチを実証的に評価した。

One of the most difficult challenges in creating successful human-AI collaborations is aligning a robot's behavior with a human user's expectations. When this fails to occur, a robot may misinterpret their specified goals, prompting it to perform actions with unanticipated, potentially dangerous side effects. To avoid this, we propose a new metric we call Goal State Divergence $\mathcal{(GSD)}$, which represents the difference between a robot's final goal state and the one a human user expected. In cases where $\mathcal{GSD}$ cannot be directly calculated, we show how it can be approximated using maximal and minimal bounds. We then input the $\mathcal{GSD}$ value into our novel human-robot goal alignment (HRGA) design problem, which identifies a minimal set of environment modifications that can prevent mismatches like this. To show the effectiveness of $\mathcal{GSD}$ for reducing differences between human-robot goal states, we empirically evaluate our approach on several standard benchmarks.
翻訳日:2024-04-28 11:16:37 公開日:2024-04-10
# ANNを用いた屋内無線ネットワークのRSSI推定

RSSI Estimation for Constrained Indoor Wireless Networks using ANN ( http://arxiv.org/abs/2404.15337v1 )

ライセンス: Link先を確認
Samrah Arif, M. Arif Khan, Sabih Ur Rehman, (参考訳) IoT(Internet of Things)の分野では、ワイヤレスチャネル推定が大きな課題である。 これは、効率と精度が極めて重要である低消費電力IoT(LP-IoT)通信に特に当てはまる。 本研究では,Artificial Neural Networks(ANN)モデルとSequence-based ANNモデルという,2つの異なるLP-IoT無線チャネル推定モデルを確立する。 いずれのモデルも、LP-IoT無線チャネルにおける推定誤差を低くすることで、LP-IoT通信を強化するために構築されている。 特徴に基づくモデルは、環境特性を用いて受信信号強度指標(RSSI)データの複雑なパターンをキャプチャすることを目的としている。 シークエンスに基づくアプローチでは、特定の選択された環境特性のRSSIシーケンスを推定するために、所定の分類手法を利用する。 その結果,提案手法はチャネル推定において顕著な精度を達成でき,MSEは機能ベースモデルが8.29.%,Sequenceモデルが9.46.%,MSEが9.7.46.%と改善された。 さらに、従来の他のディープラーニング(DL)ベースの技術との比較分析では、私たちの開発したモデルの優れたパフォーマンスと、実際のIoTアプリケーションにおけるその可能性も強調されています。

In the expanding field of the Internet of Things (IoT), wireless channel estimation is a significant challenge. This is specifically true for low-power IoT (LP-IoT) communication, where efficiency and accuracy are extremely important. This research establishes two distinct LP-IoT wireless channel estimation models using Artificial Neural Networks (ANN): a Feature-based ANN model and a Sequence-based ANN model. Both models have been constructed to enhance LP-IoT communication by lowering the estimation error in the LP-IoT wireless channel. The Feature-based model aims to capture complex patterns of measured Received Signal Strength Indicator (RSSI) data using environmental characteristics. The Sequence-based approach utilises predetermined categorisation techniques to estimate the RSSI sequence of specifically selected environment characteristics. The findings demonstrate that our suggested approaches attain remarkable precision in channel estimation, with an improvement in MSE of $88.29\%$ of the Feature-based model and $97.46\%$ of the Sequence-based model over existing research. Additionally, the comparative analysis of these techniques with traditional and other Deep Learning (DL)-based techniques also highlights the superior performance of our developed models and their potential in real-world IoT applications.
翻訳日:2024-04-28 10:46:58 公開日:2024-04-10
# TimeFlows: 異種情報オブジェクトのVastコレクションからプロセス年表を可視化する

TimeFlows: Visualizing Process Chronologies from Vast Collections of Heterogeneous Information Objects ( http://arxiv.org/abs/2404.16051v1 )

ライセンス: Link先を確認
Max Lonysa Muller, Erik Saaman, Jan Martijn E. M. van der Werf, Charles Jeurgens, Hajo A. Reijers, (参考訳) 多くの事実調査、特に議会の審問において、プロセス・クロノロジーは、議論を呼ぶ政策や決定がいかに成立するかを再構築するために作成される。 タイムラインのような現在のアプローチでは、歴史的出来事が全体の年代と結びつく可能性のある様々な関係を表現するための表現力が欠如している。 これは、イベント間の相互依存の性質と、それらが蒸留されるテキストを曖昧にする。 専門家との爆発的なインタビューに基づいて、我々は、拡張されたリッチな関係セットを提案する。 どのようにしてTimeFlowsとして視覚化できるかを説明します。 オランダの近年の政治に深く影響した「児童養護給付詐欺」を解説し、このような可視化の例を挙げる。 この研究は、構造化されていない情報オブジェクトから反復的でないプロセスを公開する方向について、既存のプロセス発見研究の範囲を広げる。

In many fact-finding investigations, notably parliamentary inquiries, process chronologies are created to reconstruct how a controversial policy or decision came into existence. Current approaches, like timelines, lack the expressiveness to represent the variety of relations in which historic events may link to the overall chronology. This obfuscates the nature of the interdependence among the events, and the texts from which they are distilled. Based on explorative interviews with expert analysts, we propose an extended, rich set of relationships. We describe how these can be visualized as TimeFlows. We provide an example of such a visualization by illustrating the Childcare Benefits Scandal -- an affair that deeply affected Dutch politics in recent years. This work extends the scope of existing process discovery research into the direction of unveiling non-repetitive processes from unstructured information objects.
翻訳日:2024-04-28 10:36:53 公開日:2024-04-10
# 経験的短期シナリオにおけるエピデミック制御のための戦略伝達と意思決定支援アプローチ

A Strategy Transfer and Decision Support Approach for Epidemic Control in Experience Shortage Scenarios ( http://arxiv.org/abs/2404.10004v1 )

ライセンス: Link先を確認
X. Xiao, P. Chen, X. Cao, K. Liu, L. Deng, D. Zhao, Z. Chen, Q. Deng, F. Yu, H. Zhang, (参考訳) 疫病の流行は深刻な健康問題や深刻な世界的な経済危機を引き起こす可能性がある。 感染症が新たに発生した国や地域では、同様のリスクプロファイルを持つ他者からの教訓を学習することで予防戦略を創出することが不可欠である。 プロファイル類似性評価に基づいて戦略伝達決定支援手法(STDSA)を提案する。 1) 類似性評価指標は, 国家疫学予防・コントロール, 社会抵抗性, 感染状況の3次元から決定される。 2)指標に関するデータは収集され、前処理される。 3) 前処理データセットに対する第1ラウンドのスクリーニングは, 感染状況の観点から, 事前類似度を算出するために, 改良された協調フィルタリングアルゴリズムを用いて行われる。 (4) 最後に、K-Meansモデルを用いて第2ラウンドのスクリーニングを行い、最終的な類似度値を得る。 このアプローチは、新型コロナウイルス(COVID-19)の文脈における意思決定支援に適用される。 以上の結果から,STDSAモデルが生成するレコメンデーションは,純粋なK平均モデルよりも精度が高く,実際の状況と整合性が高いことが示された。 本研究は、経験不足地域における疫病の予防と対策に関する新たな知見を提供する。

Epidemic outbreaks can cause critical health concerns and severe global economic crises. For countries or regions with new infectious disease outbreaks, it is essential to generate preventive strategies by learning lessons from others with similar risk profiles. A Strategy Transfer and Decision Support Approach (STDSA) is proposed based on the profile similarity evaluation. There are four steps in this method: (1) The similarity evaluation indicators are determined from three dimensions, i.e., the Basis of National Epidemic Prevention & Control, Social Resilience, and Infection Situation. (2) The data related to the indicators are collected and preprocessed. (3) The first round of screening on the preprocessed dataset is conducted through an improved collaborative filtering algorithm to calculate the preliminary similarity result from the perspective of the infection situation. (4) Finally, the K-Means model is used for the second round of screening to obtain the final similarity values. The approach will be applied to decision-making support in the context of COVID-19. Our results demonstrate that the recommendations generated by the STDSA model are more accurate and aligned better with the actual situation than those produced by pure K-means models. This study will provide new insights into preventing and controlling epidemics in regions that lack experience.
翻訳日:2024-04-17 21:08:17 公開日:2024-04-10
# Apollonion: プロファイル中心のダイアログエージェント

Apollonion: Profile-centric Dialog Agent ( http://arxiv.org/abs/2404.08692v1 )

ライセンス: Link先を確認
Shangyu Chen, Zibo Zhao, Yuanyuan Zhao, Xiang Li, (参考訳) 大規模言語モデル(LLM)の出現は、ダイアログエージェントの開発を革新した。 特に、十分に訓練されたLLMは、中央プロセスユニットとして、ユーザの要求に対して流動的で合理的な応答を提供することができる。 さらに、外部知識検索、鮮明な応答のためのパーソナライズされた文字、超長期のコンテキスト管理のための短期記憶などの補助ツールを開発し、LLMベースのダイアログエージェントの使用経験を完成させた。 しかし, 上記の手法は, 習慣, 興味, 過去の経験といった特徴を考慮せずに, エージェントが異なるユーザに対して同じ方法で応答する, という, ユーザの視点からの「textbf{personalization」という問題の解決には至らない。 言い換えれば、現在のダイアログエージェントの実装は ``knowing the user'' で失敗する。 ユーザを適切に記述し、表現する能力は、現在開発中である。 本研究では,ユーザ・プロファイリング(初期化,更新)を取り入れたダイアログ・エージェントのフレームワークを提案する。 また,パーソナライズのための一連の評価プロトコルの提案を行った。 フレームワークは'method{}'と名付けられ、古代ギリシアのアポロ神殿(別名「method{}」)の「Know Yourself」の碑文に触発された。 パーソナライズをLDMに組み込むための研究はほとんど行われておらず、ダイアログエージェントの応用を通じて、パーソナライズのための評価手法のセットを用いて、LCMの応答を個別化するための先駆的な研究である。

The emergence of Large Language Models (LLMs) has innovated the development of dialog agents. Specially, a well-trained LLM, as a central process unit, is capable of providing fluent and reasonable response for user's request. Besides, auxiliary tools such as external knowledge retrieval, personalized character for vivid response, short/long-term memory for ultra long context management are developed, completing the usage experience for LLM-based dialog agents. However, the above-mentioned techniques does not solve the issue of \textbf{personalization from user perspective}: agents response in a same fashion to different users, without consideration of their features, such as habits, interests and past experience. In another words, current implementation of dialog agents fail in ``knowing the user''. The capacity of well-description and representation of user is under development. In this work, we proposed a framework for dialog agent to incorporate user profiling (initialization, update): user's query and response is analyzed and organized into a structural user profile, which is latter served to provide personal and more precise response. Besides, we proposed a series of evaluation protocols for personalization: to what extend the response is personal to the different users. The framework is named as \method{}, inspired by inscription of ``Know Yourself'' in the temple of Apollo (also known as \method{}) in Ancient Greek. Few works have been conducted on incorporating personalization into LLM, \method{} is a pioneer work on guiding LLM's response to meet individuation via the application of dialog agents, with a set of evaluation methods for measurement in personalization.
翻訳日:2024-04-16 19:11:58 公開日:2024-04-10
# 大規模言語モデルを用いた企業知識ベースに対する質問応答の強化

Enhancing Question Answering for Enterprise Knowledge Bases using Large Language Models ( http://arxiv.org/abs/2404.08695v1 )

ライセンス: Link先を確認
Feihu Jiang, Chuan Qin, Kaichun Yao, Chuyu Fang, Fuzhen Zhuang, Hengshu Zhu, Hui Xiong, (参考訳) 効率的な知識管理は、企業や組織の運用効率と革新的な能力の両方を増強する上で重要な役割を担っている。 ベクトル化による知識の索引付けにより,知識検索手法が出現し,知識管理システムの有効性が著しく向上した。 近年、生成自然言語処理技術の急速な進歩は、ユーザクエリに適合した関連文書を検索した後、正確で一貫性のある回答を生成するための道を開いた。 しかし、企業知識ベースでは、知識検索と生成のためのスクラッチから広範なトレーニングデータを組み立てることは、プライベートデータのプライバシとセキュリティポリシーが大きなコストを伴っているため、非常に難しい課題である。 本稿では,大規模言語モデル(LLM)に基づく新しい検索・生成フレームワークであるEKRGを提案する。 具体的には,まず LLM を用いて,知識検索者の学習に十分な文書検索ペアを生成する命令チューニング手法を提案する。 この方法は、慎重に設計された指示を通じて、事実指向の知識とソリューション指向の知識の両方を含む、企業の知識ベースに対する多様な質問を効率的に生成する。 さらに,学習過程の効率化を図るため,関係性に敏感な教師学生学習戦略を構築した。 提案手法では,新たな思考連鎖(CoT)に基づく微調整手法を提案する。 最後に、実世界のデータセットに関する広範な実験を行い、提案フレームワークの有効性を実証した。

Efficient knowledge management plays a pivotal role in augmenting both the operational efficiency and the innovative capacity of businesses and organizations. By indexing knowledge through vectorization, a variety of knowledge retrieval methods have emerged, significantly enhancing the efficacy of knowledge management systems. Recently, the rapid advancements in generative natural language processing technologies paved the way for generating precise and coherent answers after retrieving relevant documents tailored to user queries. However, for enterprise knowledge bases, assembling extensive training data from scratch for knowledge retrieval and generation is a formidable challenge due to the privacy and security policies of private data, frequently entailing substantial costs. To address the challenge above, in this paper, we propose EKRG, a novel Retrieval-Generation framework based on large language models (LLMs), expertly designed to enable question-answering for Enterprise Knowledge bases with limited annotation costs. Specifically, for the retrieval process, we first introduce an instruction-tuning method using an LLM to generate sufficient document-question pairs for training a knowledge retriever. This method, through carefully designed instructions, efficiently generates diverse questions for enterprise knowledge bases, encompassing both fact-oriented and solution-oriented knowledge. Additionally, we develop a relevance-aware teacher-student learning strategy to further enhance the efficiency of the training process. For the generation process, we propose a novel chain of thought (CoT) based fine-tuning method to empower the LLM-based generator to adeptly respond to user questions using retrieved documents. Finally, extensive experiments on real-world datasets have demonstrated the effectiveness of our proposed framework.
翻訳日:2024-04-16 19:11:57 公開日:2024-04-10
# 適応的N-gram並列デコードによる大規模言語モデルのロスレス高速化

Lossless Acceleration of Large Language Model via Adaptive N-gram Parallel Decoding ( http://arxiv.org/abs/2404.08698v1 )

ライセンス: Link先を確認
Jie Ou, Yueming Chen, Wenhong Tian, (参考訳) 大規模言語モデル(LLM)は、顕著な能力を示す一方で、リソース消費と自動回帰処理によるかなりの遅延によって妨げられている。 本研究では,複数のトークンを同時に生成することで推論を高速化する,革新的でロスレスな手法であるAdaptive N-gram Parallel Decoding (ANPD)を導入する。 ANPDは、2段階のアプローチを取り入れており、N-gramモジュールを使った高速な起草フェーズから始まり、現在の対話的コンテキストに基づいて順応し、検証フェーズで元のLLMが提案されたトークンを評価し、確認する。 従って、ANPDは処理速度を向上しつつ、LLMの元々の出力の完全性を維持する。 さらに、N-gramモジュールのマルチレベルアーキテクチャを活用し、初期ドラフトの精度を高め、推論遅延を低減する。 ANPDは、再トレーニングや余分なGPUメモリの必要性を排除し、効率的でプラグアンドプレイの強化を実現している。 実験では,LLaMAとその微調整モデルを用いて,最大3.67倍の速度向上を実現し,提案したANPDの有効性を検証した。

While Large Language Models (LLMs) have shown remarkable abilities, they are hindered by significant resource consumption and considerable latency due to autoregressive processing. In this study, we introduce Adaptive N-gram Parallel Decoding (ANPD), an innovative and lossless approach that accelerates inference by allowing the simultaneous generation of multiple tokens. ANPD incorporates a two-stage approach: it begins with a rapid drafting phase that employs an N-gram module, which adapts based on the current interactive context, followed by a verification phase, during which the original LLM assesses and confirms the proposed tokens. Consequently, ANPD preserves the integrity of the LLM's original output while enhancing processing speed. We further leverage a multi-level architecture for the N-gram module to enhance the precision of the initial draft, consequently reducing inference latency. ANPD eliminates the need for retraining or extra GPU memory, making it an efficient and plug-and-play enhancement. In our experiments, models such as LLaMA and its fine-tuned variants have shown speed improvements up to 3.67x, validating the effectiveness of our proposed ANPD.
翻訳日:2024-04-16 19:11:57 公開日:2024-04-10
# LLMにおけるデータ選択と微調整が経済・政治リズムに与える影響の分析

Analyzing the Impact of Data Selection and Fine-Tuning on Economic and Political Biases in LLMs ( http://arxiv.org/abs/2404.08699v1 )

ライセンス: Link先を確認
Ahmed Agiza, Mohamed Mostagir, Sherief Reda, (参考訳) 言語モデルが意思決定とコミュニケーションにますます統合される時代において、大規模言語モデル(LLM)内のバイアスを理解することは、特にこれらのモデルが経済と政治の領域に適用される場合に必須となる。 本研究では,LLMにおける微調整とデータ選択が経済的・政治的バイアスに与える影響について検討する。 我々は, LLM を特定のイデオロギーに偏り付ける手法について検討し, 多様なデータセットに対する広範なトレーニングから生じるバイアスを念頭において検討する。 我々のアプローチは、より小さなモデルにフォーカスするか、リソース集約的な事前訓練を行う以前の取り組みと異なり、パラメータ効率の良いファインチューニング(PEFT)技術を採用している。 これらの技術は、パラメータの小さなサブセットを変更することで、目標イデオロギーとLLMのアライメントを可能にする。 我々は,データセットの選択,アノテーション,命令チューニングの体系的手法を導入し,定量評価と定性評価の両面からその有効性を評価する。 我々の研究は、特定のバイアスをLLMに埋め込む可能性を分析し、AIの倫理的応用に関する対話に寄与し、社会的価値に合わせてAIをデプロイすることの重要性を強調します。

In an era where language models are increasingly integrated into decision-making and communication, understanding the biases within Large Language Models (LLMs) becomes imperative, especially when these models are applied in the economic and political domains. This work investigates the impact of fine-tuning and data selection on economic and political biases in LLM. We explore the methodological aspects of biasing LLMs towards specific ideologies, mindful of the biases that arise from their extensive training on diverse datasets. Our approach, distinct from earlier efforts that either focus on smaller models or entail resource-intensive pre-training, employs Parameter-Efficient Fine-Tuning (PEFT) techniques. These techniques allow for the alignment of LLMs with targeted ideologies by modifying a small subset of parameters. We introduce a systematic method for dataset selection, annotation, and instruction tuning, and we assess its effectiveness through both quantitative and qualitative evaluations. Our work analyzes the potential of embedding specific biases into LLMs and contributes to the dialogue on the ethical application of AI, highlighting the importance of deploying AI in a manner that aligns with societal values.
翻訳日:2024-04-16 19:11:57 公開日:2024-04-10
# LLMは時代遅れか? 時間知覚的知識のためのLLMとアライメントアルゴリズムのベンチマーク

Is Your LLM Outdated? Benchmarking LLMs & Alignment Algorithms for Time-Sensitive Knowledge ( http://arxiv.org/abs/2404.08700v1 )

ライセンス: Link先を確認
Seyed Mahed Mousavi, Simone Alghisi, Giuseppe Riccardi, (参考訳) 本稿では,Large Language Models (LLM) の知識リポジトリとしての妥当性について検討する。 我々は,LLMの事実的知識を経時的に最新に保つという課題に焦点をあてる。 LLMにおける時代遅れの知識の同定に関する研究の欠如により、ターゲットの事実問題に対して、最新の真理解を持つ動的ベンチマークを設計・開発する。 Wikidataからリアルタイムに検索した時間感受性知識に基づいて18のオープンソースおよびクローズドソースLCMを評価した。 我々は、政治、スポーツ、組織において時間に敏感なドメイン事実を選択し、事前学習中のモデルが学習した情報の正確さを推定する。 第2のコントリビューションでは、LLMを最新の事実知識と整合させるための知識編集手法の有効性を評価し、その性能をRetrieval Augmented Generationと比較する。 動的ベンチマークは、LCMの最新の状態の評価や、コード、データセット、評価と視覚化スクリプトを共有することで他のドメインに拡張するために使われるように設計されている。

We study the appropriateness of Large Language Models (LLMs) as knowledge repositories. We focus on the challenge of maintaining LLMs' factual knowledge up-to-date over time. Motivated by the lack of studies on identifying outdated knowledge within LLMs, we design and develop a dynamic benchmark with up-to-date ground truth answers for each target factual question. We evaluate eighteen open-source and closed-source state-of-the-art LLMs on time-sensitive knowledge retrieved in real-time from Wikidata. We select time-sensitive domain facts in politics, sports, and organizations, and estimate the recency of the information learned by the model during pre-training\fine-tuning. In the second contribution, we evaluate the effectiveness of knowledge editing methods for aligning LLMs with up-to-date factual knowledge and compare their performance with Retrieval Augmented Generation. The dynamic benchmark is designed to be used as-is to assess LLMs's up-to-dateness, as well as to be extended to other domains by sharing the code, the dataset, as well as evaluation and visualization scripts.
翻訳日:2024-04-16 19:11:57 公開日:2024-04-10
# 最大離散性競争による大規模言語モデルのサンプル効率評価

Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition ( http://arxiv.org/abs/2404.08008v1 )

ライセンス: Link先を確認
Kehua Feng, Keyan Ding, Kede Ma, Zhihua Wang, Qiang Zhang, Huajun Chen, (参考訳) 過去数年間、大きな言語モデル(LLM)が急増しているのを目撃してきた。 しかし、人間の嗜好を反映する標準指標の不正確さと、情報的かつ多様なテスト例を抽出する非効率性のため、LSMの自動化および非バイアス評価は困難である。 人間の評価は依然として金の基準となっているが、特に多数のテストサンプルを扱う場合、高価で時間を要する。 そこで本研究では,MAD(Maximum Discrepancy)コンペティションに基づく,サンプル効率のよい人的評価手法を提案する。 MADは情報的かつ多様な指示を自動的に選択し、それぞれが2つのLSMに適応し、その反応は被験者によって3つの代替的な選択を受ける。 ペア比較の結果は、Eloレーティングシステムを用いてグローバルランキングに集約される。 我々は8つの代表的なLCMを選択し、知識理解、数学的推論、記述、コーディングの4つのスキルの観点から比較する。 実験の結果,提案手法はLLMの能力の信頼性が高く,相対的な強度と弱点を識別し,LLMのさらなる進歩に有意義な洞察を与えることがわかった。

The past years have witnessed a proliferation of large language models (LLMs). Yet, automated and unbiased evaluation of LLMs is challenging due to the inaccuracy of standard metrics in reflecting human preferences and the inefficiency in sampling informative and diverse test examples. While human evaluation remains the gold standard, it is expensive and time-consuming, especially when dealing with a large number of testing samples. To address this problem, we propose a sample-efficient human evaluation method based on MAximum Discrepancy (MAD) competition. MAD automatically selects a small set of informative and diverse instructions, each adapted to two LLMs, whose responses are subject to three-alternative forced choice by human subjects. The pairwise comparison results are then aggregated into a global ranking using the Elo rating system. We select eight representative LLMs and compare them in terms of four skills: knowledge understanding, mathematical reasoning, writing, and coding. Experimental results show that the proposed method achieves a reliable and sensible ranking of LLMs' capabilities, identifies their relative strengths and weaknesses, and offers valuable insights for further LLM advancement.
翻訳日:2024-04-15 16:54:09 公開日:2024-04-10
# 最適量子化戦略探索のための微分可能探索法

Differentiable Search for Finding Optimal Quantization Strategy ( http://arxiv.org/abs/2404.08010v1 )

ライセンス: Link先を確認
Lianqiang Li, Chenqian Yan, Yefei Chen, (参考訳) ディープニューラルネットワーク(DNN)を高速化・圧縮するために、多くのネットワーク量子化アルゴリズムが提案されている。 最先端技術による任意のアルゴリズムの量子化戦略は、一部のネットワークアーキテクチャにおいて他のアルゴリズムよりも優れていますが、その戦略が他のアルゴリズムよりも常に優れていることを証明することは困難です。 言い換えれば、既存の量子化アルゴリズムは、異なる層の異なる特性を無視し、均一な量子化戦略によって全ての層を定量化するため、準最適である。 そこで本研究では,異なる量子化アルゴリズムの利点を生かして,各層に対して最適な量子化戦略を割り当てるための微分可能量子化戦略探索(DQSS)を提案する。 具体的には、DQSSを微分可能なニューラルネットワーク探索問題として定式化し、効率的な畳み込みを導入し、勾配に基づく最適化により、大域的な観点から混合量子化戦略を効率的に探索する。 学習後量子化のためのDQSSを実行し、その性能を完全精度モデルで比較できるようにします。 また、DQSSの有効性をさらに検証するために、量子化対応トレーニングにもDQSSを使用します。 量子化学習にDQSSを用いる場合の高コストな最適化コストを回避するため,超パラメータとネットワークパラメータを1つの前方パスで更新する。 さらに、最適化プロセスを調整することで、潜在的な過度な問題を回避する。 高レベルのコンピュータビジョンタスク、すなわち画像分類と低レベルのコンピュータビジョンタスクに関する総合的な実験、すなわち様々なネットワークアーキテクチャによる画像超解像は、DQSSが最先端技術より優れていることを示している。

To accelerate and compress deep neural networks (DNNs), many network quantization algorithms have been proposed. Although the quantization strategy of any algorithm from the state-of-the-arts may outperform others in some network architectures, it is hard to prove the strategy is always better than others, and even cannot judge that the strategy is always the best choice for all layers in a network. In other words, existing quantization algorithms are suboptimal as they ignore the different characteristics of different layers and quantize all layers by a uniform quantization strategy. To solve the issue, in this paper, we propose a differentiable quantization strategy search (DQSS) to assign optimal quantization strategy for individual layer by taking advantages of the benefits of different quantization algorithms. Specifically, we formulate DQSS as a differentiable neural architecture search problem and adopt an efficient convolution to efficiently explore the mixed quantization strategies from a global perspective by gradient-based optimization. We conduct DQSS for post-training quantization to enable their performance to be comparable with that in full precision models. We also employ DQSS in quantization-aware training for further validating the effectiveness of DQSS. To circumvent the expensive optimization cost when employing DQSS in quantization-aware training, we update the hyper-parameters and the network parameters in a single forward-backward pass. Besides, we adjust the optimization process to avoid the potential under-fitting problem. Comprehensive experiments on high level computer vision task, i.e., image classification, and low level computer vision task, i.e., image super-resolution, with various network architectures show that DQSS could outperform the state-of-the-arts.
翻訳日:2024-04-15 16:54:09 公開日:2024-04-10
# 筆跡認識におけるディープラーニング技術とその適用範囲に関する包括的考察

An inclusive review on deep learning techniques and their scope in handwriting recognition ( http://arxiv.org/abs/2404.08011v1 )

ライセンス: Link先を確認
Sukhdeep Singh, Sudhir Rohilla, Anuj Sharma, (参考訳) ディープラーニングは、生の入力を中間機能層に結合する能力を持つ機械学習アルゴリズムのカテゴリを表現する。 これらの深層学習アルゴリズムは様々な分野で大きな成果を上げている。 ディープラーニングは、コンピュータビジョンとパターン認識において、多くの領域にわたる人間レベルのパフォーマンスの偉大な達成を特に見てきた。 様々な領域における最先端のパフォーマンスを達成するために、ディープラーニングは異なるアーキテクチャを使用し、これらのアーキテクチャはアクティベーション関数を使用して、あらゆるアーキテクチャの隠れ層と出力層の間で様々な計算を行った。 本稿では,筆跡認識分野におけるディープラーニングの研究について述べる。 近年の進歩は, 深層学習手法が筆跡認識の精度向上や証明に有用な手段を提供していることを示しているが, 広範な文献調査の結果, 深層学習はいまだに革新的であり, この分野における最も急進的な課題の多くを解決しなければならないが, 先進的な進歩は先進的な技術であることがわかった。 さらに、ラベル付きデータのトレーニングが不十分なため、この領域では問題が発生する。 それにもかかわらず、現在の手書き認識調査は、画像処理、音声認識、コンピュータビジョン、機械翻訳、ロボットと制御、医療画像、医療情報処理、バイオインフォマティクス、自然言語処理、サイバーセキュリティなど、いくつかの領域を変換する可能性を秘めながら、ベンチとベッドサイドの両方で変化を可能にするディープラーニングを予見している。

Deep learning expresses a category of machine learning algorithms that have the capability to combine raw inputs into intermediate features layers. These deep learning algorithms have demonstrated great results in different fields. Deep learning has particularly witnessed for a great achievement of human level performance across a number of domains in computer vision and pattern recognition. For the achievement of state-of-the-art performances in diverse domains, the deep learning used different architectures and these architectures used activation functions to perform various computations between hidden and output layers of any architecture. This paper presents a survey on the existing studies of deep learning in handwriting recognition field. Even though the recent progress indicates that the deep learning methods has provided valuable means for speeding up or proving accurate results in handwriting recognition, but following from the extensive literature survey, the present study finds that the deep learning has yet to revolutionize more and has to resolve many of the most pressing challenges in this field, but promising advances have been made on the prior state of the art. Additionally, an inadequate availability of labelled data to train presents problems in this domain. Nevertheless, the present handwriting recognition survey foresees deep learning enabling changes at both bench and bedside with the potential to transform several domains as image processing, speech recognition, computer vision, machine translation, robotics and control, medical imaging, medical information processing, bio-informatics, natural language processing, cyber security, and many others.
翻訳日:2024-04-15 16:54:09 公開日:2024-04-10
# 不完全なコミュニケーションを用いた自動運転車の協調認識の強化

Enhanced Cooperative Perception for Autonomous Vehicles Using Imperfect Communication ( http://arxiv.org/abs/2404.08013v1 )

ライセンス: Link先を確認
Ahmad Sarlak, Hazim Alzorgan, Sayed Pedram Haeri Boroujeni, Abolfazl Razi, Rahul Amin, (参考訳) 協調知覚(Cooperative Perception, CP)と呼ばれるカメラフィードとセンサ計測の共有と共同処理が, 高い知覚特性を実現するための新しい手法として登場した。 CPは、個々の視覚的知覚品質が悪天候(霧のような悪天候)、照明の低さ、曲がりくねった道路、混雑した交通によって損なわれている自動運転車(AV)の安全性を高めることができる。 本稿では,従来の手法の限界をカバーするために,制約付き通信下で最適化されたCPを実現するための新しい手法を提案する。 我々のアプローチの核心は、視覚範囲を拡大し、エゴ車両の物体検出(OD)精度を高めるために、フロントカーの利用可能なリストから最高のヘルパーを募集することである。 この2段階のプロセスでは、まず、視覚範囲と最小運動ぼかしに基づいて、CPに最も貢献するヘルパー車を選択する。 次に,候補車間で無線ブロック最適化を実装し,通信効率をさらに向上する。 我々は特に、模範的なシナリオとして歩行者検出に焦点を当てている。 このアプローチを検証するために、私たちはCARLAシミュレータを使用して、視覚を妥協したAVに対して歩行者検出が困難な異なる運転シナリオのための注釈付きビデオのデータセットを作成しました。 本研究は, 課題シナリオにおける協調認識の全体的な性能向上と, 悪条件下での運転安全性向上に有効な2段階最適化プロセスの有効性を実証するものである。 最後に,LTE リリース 14 モード 4 のサイドリンク通信(V2V 通信で一般的に使用される)からネットワーク仮定を採用することに留意する。 しかしながら,本手法は柔軟であり,任意のV2V通信に適用可能である。

Sharing and joint processing of camera feeds and sensor measurements, known as Cooperative Perception (CP), has emerged as a new technique to achieve higher perception qualities. CP can enhance the safety of Autonomous Vehicles (AVs) where their individual visual perception quality is compromised by adverse weather conditions (haze as foggy weather), low illumination, winding roads, and crowded traffic. To cover the limitations of former methods, in this paper, we propose a novel approach to realize an optimized CP under constrained communications. At the core of our approach is recruiting the best helper from the available list of front vehicles to augment the visual range and enhance the Object Detection (OD) accuracy of the ego vehicle. In this two-step process, we first select the helper vehicles that contribute the most to CP based on their visual range and lowest motion blur. Next, we implement a radio block optimization among the candidate vehicles to further improve communication efficiency. We specifically focus on pedestrian detection as an exemplary scenario. To validate our approach, we used the CARLA simulator to create a dataset of annotated videos for different driving scenarios where pedestrian detection is challenging for an AV with compromised vision. Our results demonstrate the efficacy of our two-step optimization process in improving the overall performance of cooperative perception in challenging scenarios, substantially improving driving safety under adverse conditions. Finally, we note that the networking assumptions are adopted from LTE Release 14 Mode 4 side-link communication, commonly used for Vehicle-to-Vehicle (V2V) communication. Nonetheless, our method is flexible and applicable to arbitrary V2V communications.
翻訳日:2024-04-15 16:54:09 公開日:2024-04-10
# ONNXPruner: ONNXベースの汎用モデルプルーニングアダプタ

ONNXPruner: ONNX-Based General Model Pruning Adapter ( http://arxiv.org/abs/2404.08016v1 )

ライセンス: Link先を確認
Dongdong Ren, Wenbin Li, Tianyu Ding, Lei Wang, Qi Fan, Jing Huo, Hongbing Pan, Yang Gao, (参考訳) モデルプルーニングの最近の進歩は、新しいアルゴリズムの開発とベンチマークの改善に焦点を当てている。 しかし、これらのアルゴリズムを様々なモデルやプラットフォームに応用することは依然として大きな課題である。 この課題に対処するために,ONNXフォーマットモデル用に設計された汎用型プルーニングアダプタであるONNXPrunerを提案する。 ONNXPrunerは、さまざまなディープラーニングフレームワークとハードウェアプラットフォーム間で適応プロセスを合理化している。 ONNXPrunerの新たな側面は、様々なモデルアーキテクチャに自動的に適応するノードアソシエーションツリーの利用である。 これらの木はノード間の構造的関係を明確にし、特に相互接続ノードへの影響を強調している。 さらに,木レベル評価手法を提案する。 ノードアソシエーションツリーを利用することで、従来の単一ノード評価以上の包括的な分析を可能にし、余分な操作を必要とせずにプルーニング性能を向上させる。 複数のモデルとデータセットにわたる実験により、ONNXPrunerの強い適応性と有効性の向上が確認された。 本研究は, モデルプルーニングの実用化を推し進めることを目的としている。

Recent advancements in model pruning have focused on developing new algorithms and improving upon benchmarks. However, the practical application of these algorithms across various models and platforms remains a significant challenge. To address this challenge, we propose ONNXPruner, a versatile pruning adapter designed for the ONNX format models. ONNXPruner streamlines the adaptation process across diverse deep learning frameworks and hardware platforms. A novel aspect of ONNXPruner is its use of node association trees, which automatically adapt to various model architectures. These trees clarify the structural relationships between nodes, guiding the pruning process, particularly highlighting the impact on interconnected nodes. Furthermore, we introduce a tree-level evaluation method. By leveraging node association trees, this method allows for a comprehensive analysis beyond traditional single-node evaluations, enhancing pruning performance without the need for extra operations. Experiments across multiple models and datasets confirm ONNXPruner's strong adaptability and increased efficacy. Our work aims to advance the practical application of model pruning.
翻訳日:2024-04-15 16:54:09 公開日:2024-04-10
# 単結晶ダイヤモンド成長の特徴をモデル化するAI誘導機能分割技術

AI-Guided Feature Segmentation Techniques to Model Features from Single Crystal Diamond Growth ( http://arxiv.org/abs/2404.08017v1 )

ライセンス: Link先を確認
Rohan Reddy Mekala, Elias Garratt, Matthias Muehle, Arjun Srinivasan, Adam Porter, Mikael Lindvall, (参考訳) 成長した結晶の広い領域で高品質な材料を一貫して製造し、光学結晶から量子検出器への様々な応用を可能にするプロセスの改良は、ダイヤモンドの成長の目標とされてきた。 マシンラーニングは、この目標に向けて有望なパスを提供するが、データセット内の機能の複雑さ、時間依存性、グロースラン毎に生成されたデータの量といった課題に直面している。 ダイヤモンド成長のリアルタイムモニタリングのための画像から画像への正確な空間的特徴抽出は,データセットの低体積かつ高機能な性質のため,極めて複雑である。 本稿では,ダイヤモンド成長領域における特徴抽出のための従来型および機械学習による様々なアプローチを比較し,ダイヤモンド,ポケットホルダー,背景といった幾何学的特徴の正確な画素マスクを分離・分類する,深層学習によるセマンティックセマンティックセマンティックセマンティクス手法を提案する。 アノテーションに着目したヒューマン・イン・ザ・ループ・ソフトウェアアーキテクチャを用いてデータセットをトレーニングし、アクティブ・ラーニング、データ拡張、モデル支援ラベリングを用いた選択的データラベリングのためのモジュールを用いて、効果的なアノテーション精度を実現し、ラベリングの時間とコストを大幅に削減する。 ディープラーニングアルゴリズムは、多くの特徴を持つデータセットから複雑な表現を正確に学習する上で、非常に効率的である。 DeeplabV3plusアーキテクチャに基づく当社のトップパフォーマンスモデルは、ポケットホルダーの96.31%、ダイヤモンドトップの98.60%、ダイヤモンドサイドの特徴の91.64%という、興味のある特徴の分類において顕著な精度を実現しています。

Process refinement to consistently produce high-quality material over a large area of the grown crystal, enabling various applications from optics crystals to quantum detectors, has long been a goal for diamond growth. Machine learning offers a promising path toward this goal, but faces challenges such as the complexity of features within datasets, their time-dependency, and the volume of data produced per growth run. Accurate spatial feature extraction from image to image for real-time monitoring of diamond growth is crucial yet complicated due to the low-volume and high feature complexity nature of the datasets. This paper compares various traditional and machine learning-driven approaches for feature extraction in the diamond growth domain, proposing a novel deep learning-driven semantic segmentation approach to isolate and classify accurate pixel masks of geometric features like diamond, pocket holder, and background, along with their derivative features based on shape and size. Using an annotation-focused human-in-the-loop software architecture for training datasets, with modules for selective data labeling using active learning, data augmentations, and model-assisted labeling, our approach achieves effective annotation accuracy and drastically reduces labeling time and cost. Deep learning algorithms prove highly efficient in accurately learning complex representations from datasets with many features. Our top-performing model, based on the DeeplabV3plus architecture, achieves outstanding accuracy in classifying features of interest, with accuracies of 96.31% for pocket holder, 98.60% for diamond top, and 91.64% for diamond side features.
翻訳日:2024-04-15 16:54:09 公開日:2024-04-10
# コード要約による大規模言語モデルの性能解析

Analyzing the Performance of Large Language Models on Code Summarization ( http://arxiv.org/abs/2404.08018v1 )

ライセンス: Link先を確認
Rajarshi Haldar, Julia Hockenmaier, (参考訳) Llama 2のような大規模言語モデル(LLM)は、自然言語とソースコードの両方、特にコードの要約とコード生成を含むタスクで非常によく機能する。 コード要約のタスクにおいて、個々の例におけるこれらのモデルの性能は、コードとデータセットの対応する参照自然言語記述との重複する(サブワード)トークンの量に依存することがよく示される。 このトークンの重複は、標準データセットの参照記述(大きなコードベースのドクストリングに対応する)が、しばしばそれらが記述する関数の名前と非常によく似ているためである。 また、このトークン重複はコードの関数名に大きく影響し、関数名とコード構造を取り除いた後、これらのモデルの相対的な性能を比較した。 また、BLEUやBERTScoreのような複数の評価指標を使用することで、これらの指標が互いに非常に相関しているため、さらなる洞察が得られません。

Large language models (LLMs) such as Llama 2 perform very well on tasks that involve both natural language and source code, particularly code summarization and code generation. We show that for the task of code summarization, the performance of these models on individual examples often depends on the amount of (subword) token overlap between the code and the corresponding reference natural language descriptions in the dataset. This token overlap arises because the reference descriptions in standard datasets (corresponding to docstrings in large code bases) are often highly similar to the names of the functions they describe. We also show that this token overlap occurs largely in the function names of the code and compare the relative performance of these models after removing function names versus removing code structure. We also show that using multiple evaluation metrics like BLEU and BERTScore gives us very little additional insight since these metrics are highly correlated with each other.
翻訳日:2024-04-15 16:44:18 公開日:2024-04-10
# 話者認識システムのバージョン制御

Version Control of Speaker Recognition Systems ( http://arxiv.org/abs/2007.12069v6 )

ライセンス: Link先を確認
Quan Wang, Ignacio Lopez Moreno, (参考訳) 本稿では,話者認識システムにおける最も困難な実践的工学的問題の1つとして,モデルとユーザプロファイルのバージョン管理について論じる。 典型的な話者認識システムは、ユーザが提供する登録音声からプロファイルを生成する登録ステージと、格納されたプロファイルに対してランタイムオーディオの音声アイデンティティを比較するランタイムステージの2段階からなる。 技術が進歩するにつれて、より良い性能を得るために話者認識システムが更新される必要がある。 しかし、保存されたユーザープロファイルがそれに従って更新されない場合、バージョンミスマッチは意味のない認識結果をもたらす。 本稿では,Googleにおいて長年の工学的実践から慎重に研究されてきた話者認識システムのバージョン管理戦略について述べる。 これらの戦略は、デバイス側デプロイメント、サーバ側デプロイメント、ハイブリッドデプロイメントという3つのグループに分類される。 様々なネットワーク構成下で異なる戦略と定量的なメトリクスを比較するために,話者認識システムの異なるサーバ側展開戦略のための,容易に拡張可能なPythonベースのシミュレーションフレームワークであるSpeakerVerSimを提案する。

This paper discusses one of the most challenging practical engineering problems in speaker recognition systems - the version control of models and user profiles. A typical speaker recognition system consists of two stages: the enrollment stage, where a profile is generated from user-provided enrollment audio; and the runtime stage, where the voice identity of the runtime audio is compared against the stored profiles. As technology advances, the speaker recognition system needs to be updated for better performance. However, if the stored user profiles are not updated accordingly, version mismatch will result in meaningless recognition results. In this paper, we describe different version control strategies for speaker recognition systems that had been carefully studied at Google from years of engineering practice. These strategies are categorized into three groups according to how they are deployed in the production environment: device-side deployment, server-side deployment, and hybrid deployment. To compare different strategies with quantitative metrics under various network configurations, we present SpeakerVerSim, an easily-extensible Python-based simulation framework for different server-side deployment strategies of speaker recognition systems.
翻訳日:2024-04-14 16:55:44 公開日:2024-04-10
# フーリエ変換ノイズ分光

Fourier Transform Noise Spectroscopy ( http://arxiv.org/abs/2210.00386v4 )

ライセンス: Link先を確認
Arian Vezvaee, Nanako Shitara, Shuo Sun, Andrés Montoya-Castillo, (参考訳) 量子ビットのデコヒーレンスにつながる雑音環境のスペクトル特性は、堅牢な量子技術を開発する上で重要である。 ダイナミックデカップリングはノイズスペクトルを特徴づける最も成功した手法の1つであるが、この手法の複雑さとコストを増大させるためには、大きな$\pi$パルス列を適用する必要がある。 本稿では,自由誘導減衰あるいはスピンエコー測定のフーリエ変換のみを利用する雑音分光法を提案する。 提案手法は, 様々な環境(例えば1/f$型ノイズを含む)における正しいノイズスペクトルを忠実に復元し, 従来の動的デカップリング方式よりも高い性能を示し, 実験オーバーヘッドを大幅に低減する。 また,提案手法の実験的実現可能性についても論じ,統計的測定誤差の存在下でのロバスト性を示す。 提案手法は幅広い量子プラットフォームに適用可能であり,量子デバイスのより正確なスペクトル評価を行うための簡単な経路を提供する。

Spectral characterization of noise environments that lead to the decoherence of qubits is critical to developing robust quantum technologies. While dynamical decoupling offers one of the most successful approaches to characterize noise spectra, it necessitates applying large sequences of $\pi$ pulses that increase the complexity and cost of the method. Here, we introduce a noise spectroscopy method that utilizes only the Fourier transform of free induction decay or spin echo measurements, thus removing the need for the application many $\pi$ pulses. We show that our method faithfully recovers the correct noise spectra for a variety of different environments (including $1/f$-type noise) and outperforms previous dynamical decoupling schemes while significantly reducing their experimental overhead. We also discuss the experimental feasibility of our proposal and demonstrate its robustness in the presence of statistical measurement error. Our method is applicable to a wide range of quantum platforms and provides a simpler path toward a more accurate spectral characterization of quantum devices, thus offering possibilities for tailored decoherence mitigation.
翻訳日:2024-04-12 19:46:03 公開日:2024-04-10
# エンタングルトランスミッタを用いたマルチアクセルチャネル

The Multiple-Access Channel with Entangled Transmitters ( http://arxiv.org/abs/2303.10456v6 )

ライセンス: Link先を確認
Uzi Pereg, Christian Deppe, Holger Boche, (参考訳) 古典的マルチアクセスチャネル(MAC)と絡み合うリソースとの通信を考慮し、通信開始前に2つの送信機が絡み合うリソースを優先的に共有する。 Leditzky et al (2020) は、疑似テレパシーゲームで定義される古典的なMACの例を示した。 ここでは、一般MACのキャパシティ領域の内外界をエンタングル送信器で確立し、その前の結果が特別な場合として得られることを示す。 メッセージ平均誤差基準の下での古典MACの容量領域は最大誤差基準よりも厳密に大きいことが長年知られている(Dueck, 1978)。 我々は、絡み合う資源が与えられた場合、その領域は一致することを観察する。 さらに、エンタングルメントリソースと会議の複合的な設定に対処し、送信機はレート制限リンクを介して相互に通信することができる。 超深度符号化を用いることで、絡み合いは会議レートを2倍にすることができる。

Communication over a classical multiple-access channel (MAC) with entanglement resources is considered, whereby two transmitters share entanglement resources a priori before communication begins. Leditzky et al. (2020) presented an example of a classical MAC, defined in terms of a pseudo telepathy game, such that the sum rate with entangled transmitters is strictly higher than the best achievable sum rate without such resources. Here, we establish inner and outer bounds on the capacity region for the general MAC with entangled transmitters, and show that the previous result can be obtained as a special case. It has long been known that the capacity region of the classical MAC under a message-average error criterion can be strictly larger than with a maximal error criterion (Dueck, 1978). We observe that given entanglement resources, the regions coincide. Furthermore, we address the combined setting of entanglement resources and conferencing, where the transmitters can also communicate with each other over rate-limited links. Using superdense coding, entanglement can double the conferencing rate.
翻訳日:2024-04-12 19:37:39 公開日:2024-04-10
# エンタングルメントエンベジメントの完全評価

Complete Characterization of Entanglement Embezzlement ( http://arxiv.org/abs/2303.17749v3 )

ライセンス: Link先を確認
Elia Zanoni, Thomas Theurer, Gilad Gour, (参考訳) ローカル操作と古典通信(LOCC)を使用して、絡み合いは操作できるが、生成されない。 しかし、絡み合うことはできる。 本研究では,ユニバーサル・エンベジング・ファミリーを完全に特徴付け,ヴァン・ダムとヘイデンが導入したオリジナル・ファミリーをいかに独身化しているかを実証する。 これを実現するために、我々はまず純粋から混合状態のLOCC変換の完全な特徴を与える。 そして、新しい変換距離を導入し、それに対する閉形式表現を導出する。 これらの結果は独立した関心事かもしれない。

Using local operations and classical communication (LOCC), entanglement can be manipulated but not created. However, entanglement can be embezzled. In this work, we completely characterize universal embezzling families and demonstrate how this singles out the original family introduced by van Dam and Hayden. To achieve this, we first give a full characterization of pure to mixed state LOCC-conversions. Then, we introduce a new conversion distance and derive a closed-form expression for it. These results might be of independent interest.
翻訳日:2024-04-12 19:37:39 公開日:2024-04-10
# 単一トラップイオンを用いた臨界印加電界勾配センサ

Criticality-enhanced Electric Field Gradient Sensor with Single Trapped Ions ( http://arxiv.org/abs/2304.02050v2 )

ライセンス: Link先を確認
Theodoros Ilias, Dayou Yang, Susana F. Huelga, Martin B. Plenio, (参考訳) そこで本研究では, 連続的に観測される消散臨界点近傍の量子センサを提案し, 解析する。 このセンサーは、臨界感度を達成するために、単一の閉じ込められたイオンのスピンとフォノン自由度を持つ臨界開Rabiモデルに依存している。 センサの効果的な連続監視は、フォノンの集団の「ジャンプ」で条件付けられた暗く明るい内部状態との間を切り替える、光子収集効率が低いにもかかわらずほぼ完璧なフォノン計数を実現するコトラップされたアンシライオンによって実現される。 このセンサ装置は、消散臨界度と効率のよい連続的な読み出しの両方を利用して、標準量子限界を超える精度で振動する電場勾配を高精度に検出し、実世界の応用における実験的不完全性に対して堅牢であることを示す。

We propose and analyze a driven-dissipative quantum sensor that is continuously monitored close to a dissipative critical point. The sensor relies on the critical open Rabi model with the spin and phonon degrees of freedom of a single trapped ion to achieve criticality-enhanced sensitivity. Effective continuous monitoring of the sensor is realized via a co-trapped ancilla ion that switches between dark and bright internal states conditioned on a `jump' of the phonon population which, remarkably, achieves nearly perfect phonon counting despite a low photon collection efficiency. By exploiting both dissipative criticality and efficient continuous readout, the sensor device achieves highly precise sensing of oscillating electric field gradients at a criticality-enhanced precision scaling beyond the standard quantum limit, which we demonstrate is robust to the experimental imperfections in real-world applications.
翻訳日:2024-04-12 19:37:39 公開日:2024-04-10
# ガウス混合ブロックモデルにおけるスペクトルクラスタリング

Spectral clustering in the Gaussian mixture block model ( http://arxiv.org/abs/2305.00979v3 )

ライセンス: Link先を確認
Shuangping Li, Tselil Schramm, (参考訳) ガウス混合ブロックモデルは、現代のネットワークをモデル化しようとするグラフ上の分布である: そのようなモデルからグラフを生成するために、各頂点 $i$ と遅延特徴ベクトル $u_i \in \mathbb{R}^d$ をガウスの混合からサンプリングし、特徴ベクトルが十分に類似している場合にのみ edge $(i,j)$ を加える。 ガウス混合の異なるコンポーネントは、機能よりも異なる分布を持つ異なるタイプのノードが存在するという事実を表している。 これらのネットワークに関連する自然なアルゴリズムタスクは、埋め込み(潜在特徴ベクトルの復元)とクラスタリング(混合成分によるノードのグループ化)である。 本稿では、高次元ガウス混合ブロックモデルからサンプリングされたクラスタリングと埋め込みグラフの研究を開始し、ネットワークの$n \to \infty$として潜在特徴ベクトルの次元を$d\to \infty$とする。 この高次元設定は、遅延特徴空間を高次元と考える現代のネットワークの文脈において最も適している。 2成分球状ガウス混合の場合の標準スペクトルクラスタリングおよびそのようなグラフの埋め込みアルゴリズムの性能を分析し、これらのモデルにクラスタリングと埋め込みを行うための情報計算環境をスケッチし始める。

Gaussian mixture block models are distributions over graphs that strive to model modern networks: to generate a graph from such a model, we associate each vertex $i$ with a latent feature vector $u_i \in \mathbb{R}^d$ sampled from a mixture of Gaussians, and we add edge $(i,j)$ if and only if the feature vectors are sufficiently similar, in that $\langle u_i,u_j \rangle \ge \tau$ for a pre-specified threshold $\tau$. The different components of the Gaussian mixture represent the fact that there may be different types of nodes with different distributions over features -- for example, in a social network each component represents the different attributes of a distinct community. Natural algorithmic tasks associated with these networks are embedding (recovering the latent feature vectors) and clustering (grouping nodes by their mixture component). In this paper we initiate the study of clustering and embedding graphs sampled from high-dimensional Gaussian mixture block models, where the dimension of the latent feature vectors $d\to \infty$ as the size of the network $n \to \infty$. This high-dimensional setting is most appropriate in the context of modern networks, in which we think of the latent feature space as being high-dimensional. We analyze the performance of canonical spectral clustering and embedding algorithms for such graphs in the case of 2-component spherical Gaussian mixtures, and begin to sketch out the information-computation landscape for clustering and embedding in these models.
翻訳日:2024-04-12 19:27:55 公開日:2024-04-10
# リカレントニューラルネットワークによる薬物分子の副作用予測

Predicting Side Effect of Drug Molecules using Recurrent Neural Networks ( http://arxiv.org/abs/2305.10473v2 )

ライセンス: Link先を確認
Collin Beaudoin, Koustubh Phalak, Swaroop Ghosh, (参考訳) サイドエフェクトなどの分子特性の同定と検証は、分子合成の過程において最も重要かつ時間を要するステップの1つである。 例えば、規制団体への提出前に副作用を特定できない場合、企業への追加調査に数百万ドルと数ヶ月かかる可能性がある。 規制審査中の副作用の特定に失敗しても命がかからない。 このタスクの複雑さと費用は、機械学習ベースのソリューションの候補となっている。 従来のアプローチでは、サイドエフェクト予測のための複雑なモデル設計と過剰なパラメータカウントに依存していた。 複雑なモデルへの依存は、問題を緩和するのではなく、化学者から切り離すのが困難である、と私たちは信じています。 大型モデルの実装も、高性能コンピュータへの事前アクセスなしではコストがかかる。 本稿では,ニューラルネットワーク,特にリカレントニューラルネットワークの利用を可能にするヒューリスティックなアプローチを提案する。

Identification and verification of molecular properties such as side effects is one of the most important and time-consuming steps in the process of molecule synthesis. For example, failure to identify side effects before submission to regulatory groups can cost millions of dollars and months of additional research to the companies. Failure to identify side effects during the regulatory review can also cost lives. The complexity and expense of this task have made it a candidate for a machine learning-based solution. Prior approaches rely on complex model designs and excessive parameter counts for side effect predictions. We believe reliance on complex models only shifts the difficulty away from chemists rather than alleviating the issue. Implementing large models is also expensive without prior access to high-performance computers. We propose a heuristic approach that allows for the utilization of simple neural networks, specifically the recurrent neural network, with a 98+% reduction in the number of required parameters compared to available large language models while still obtaining near identical results as top-performing models.
翻訳日:2024-04-12 19:27:55 公開日:2024-04-10
# 動物性タグを用いた動物行動の計算的分析のためのベンチマーク

A benchmark for computational analysis of animal behavior, using animal-borne tags ( http://arxiv.org/abs/2305.10740v2 )

ライセンス: Link先を確認
Benjamin Hoffman, Maddie Cusimano, Vittorio Baglione, Daniela Canestrari, Damien Chevallier, Dominic L. DeSantis, Lorène Jeantet, Monique A. Ladds, Takuya Maekawa, Vicente Mata-Silva, Víctor Moreno-González, Eva Trapote, Outi Vainio, Antti Vehkaoja, Ken Yoda, Katherine Zacarian, Ari Friedlaender, (参考訳) 動物を媒介とするセンサー(バイオログ)は、動物生態学を解明し、保護活動を改善するための、運動と環境のデータ群を記録できる。 機械学習技術はバイオログによって記録された大量のデータを解釈するために使用されるが、この領域で異なる機械学習技術を比較するための共通の枠組みは存在しない。 これを解決するために,行動アノテーション付きデータセットの集合であるBio-logger Ethogram Benchmark (BEBE) と,モデリングタスクと評価指標を提示する。 BEBEは現在、このタイプの最も大きく、最も多種多様で、一般に公開されているベンチマークであり、9つの分類群で149人の個人から収集された1654時間のデータを含んでいる。 さらに、BEBEを用いて、人間の手首加速度計から収集したデータを自己監督したディープニューラルネットワークを用いて、バイオログデータに基づいて動物行動を特定するための、新しい自己教師型学習手法を試験した。 このアプローチは、特にトレーニングデータが少ない環境では、一般的な選択肢よりも優れています。 データセット、モデル、評価コードはhttps://github.com/earthspecies/BEBEで公開されている。

Animal-borne sensors ('bio-loggers') can record a suite of kinematic and environmental data, which can elucidate animal ecophysiology and improve conservation efforts. Machine learning techniques are used for interpreting the large amounts of data recorded by bio-loggers, but there exists no common framework for comparing the different machine learning techniques in this domain. To address this, we present the Bio-logger Ethogram Benchmark (BEBE), a collection of datasets with behavioral annotations, as well as a modeling task and evaluation metrics. BEBE is to date the largest, most taxonomically diverse, publicly available benchmark of this type, and includes 1654 hours of data collected from 149 individuals across nine taxa. In addition, using BEBE, we test a novel self-supervised learning approach to identifying animal behaviors based on bio-logger data, using a deep neural network pre-trained with self-supervision on data collected from human wrist-worn accelerometers. We show that this approach out-performs common alternatives, especially in a setting with a low amount of training data. Datasets, models, and evaluation code are made publicly available at https://github.com/earthspecies/BEBE, to enable community use of BEBE as a point of comparison in methods development.
翻訳日:2024-04-12 19:27:55 公開日:2024-04-10
# フェデレーションドメイン一般化のためのベンチマークアルゴリズム

Benchmarking Algorithms for Federated Domain Generalization ( http://arxiv.org/abs/2307.04942v2 )

ライセンス: Link先を確認
Ruqi Bai, Saurabh Bagchi, David I. Inouye, (参考訳) 事前ドメイン一般化(DG)ベンチマークでは,データセットの不均一性を考慮しながら,フェデレートDGの評価を行い,Federated Learning(FL)固有の課題について検討した。 さらに、クライアントのローカルデータセットにおけるドメインベースの不均一性(Federated DGの現実的なシナリオ)についても検討する。 事前のフェデレートDG評価は、クライアントの数や不均一性やデータセットの多様性の点で制限されている。 このギャップに対処するために、クライアントの数と不均一性を制御し、データセットの難易度を計測するFederated DGベンチマーク手法を提案する。 そこで本手法を適用し, FLコンテキストに適応した集中型DGメソッド, クライアントの不均一性を扱うFLメソッド, フェデレートDG専用に設計されたメソッドを含む14のフェデレーションDGメソッドを評価する。 以上の結果から,フェデレートDGでは,特に多数のクライアント,高いクライアントの不均一性,あるいはより現実的なデータセットで評価する場合において,若干の進歩にもかかわらず,大きなパフォーマンスギャップが残っていることが示唆された。 拡張可能なベンチマークコードについては、https://github.com/inouye-lab/FedDG_Benchmarkを参照してください。

While prior domain generalization (DG) benchmarks consider train-test dataset heterogeneity, we evaluate Federated DG which introduces federated learning (FL) specific challenges. Additionally, we explore domain-based heterogeneity in clients' local datasets - a realistic Federated DG scenario. Prior Federated DG evaluations are limited in terms of the number or heterogeneity of clients and dataset diversity. To address this gap, we propose an Federated DG benchmark methodology that enables control of the number and heterogeneity of clients and provides metrics for dataset difficulty. We then apply our methodology to evaluate 14 Federated DG methods, which include centralized DG methods adapted to the FL context, FL methods that handle client heterogeneity, and methods designed specifically for Federated DG. Our results suggest that despite some progress, there remain significant performance gaps in Federated DG particularly when evaluating with a large number of clients, high client heterogeneity, or more realistic datasets. Please check our extendable benchmark code here: https://github.com/inouye-lab/FedDG_Benchmark.
翻訳日:2024-04-12 19:27:55 公開日:2024-04-10
# 適応的不正確な二段階最適化法とハイパーパラメータ学習への応用

An adaptively inexact first-order method for bilevel optimization with application to hyperparameter learning ( http://arxiv.org/abs/2308.10098v2 )

ライセンス: Link先を確認
Mohammad Sadegh Salehi, Subhadip Mukherjee, Lindon Roberts, Matthias J. Ehrhardt, (参考訳) データサイエンスにおける様々なタスクは、変分正規化アプローチを用いてモデル化され、手動で正規化パラメータを選択することが課題となる。 多数のハイパーパラメータを含む正規化器を採用すると、困難が増す。 この課題を克服するために、データからそのようなパラメータを学習するためにバイレベル学習を用いることができる。 しかし、高パラメータに関する正確な関数値や正確な勾配は達成不可能であり、そのような量の不正確な評価のみに依存する方法が必要である。 State-of-the-art inexact gradient-based method a priori select a sequence of the required accuracies and cannot identified a appropriate step size because the Lipschitz constant of the hypergradient。 本研究では,不正確な関数評価と過次関数のみに依存するバックトラックライン探索を用いたアルゴリズムを提案し,定常点への収束を示す。 さらに,提案アルゴリズムは,実行前に手動で選択するよりも,必要な精度を動的に決定する。 数値解析実験により, 画像・データ科学における様々な問題に対して, マルチノミカルロジスティック回帰法とマルチノミカルロジスティック回帰法を応用し, ハイパーパラメータ推定法の有効性を実証した。 特に、アルゴリズムは初期精度やステップサイズなど、自身のハイパーパラメータに対して堅牢であることを示す。

Various tasks in data science are modeled utilizing the variational regularization approach, where manually selecting regularization parameters presents a challenge. The difficulty gets exacerbated when employing regularizers involving a large number of hyperparameters. To overcome this challenge, bilevel learning can be employed to learn such parameters from data. However, neither exact function values nor exact gradients with respect to the hyperparameters are attainable, necessitating methods that only rely on inexact evaluation of such quantities. State-of-the-art inexact gradient-based methods a priori select a sequence of the required accuracies and cannot identify an appropriate step size since the Lipschitz constant of the hypergradient is unknown. In this work, we propose an algorithm with backtracking line search that only relies on inexact function evaluations and hypergradients and show convergence to a stationary point. Furthermore, the proposed algorithm determines the required accuracy dynamically rather than manually selected before running it. Our numerical experiments demonstrate the efficiency and feasibility of our approach for hyperparameter estimation on a range of relevant problems in imaging and data science such as total variation and field of experts denoising and multinomial logistic regression. Particularly, the results show that the algorithm is robust to its own hyperparameters such as the initial accuracies and step size.
翻訳日:2024-04-12 19:18:11 公開日:2024-04-10
# 未知質量分布を持つ剛体画像からの3次元回転ダイナミクスの学習

Learning to Predict 3D Rotational Dynamics from Images of a Rigid Body with Unknown Mass Distribution ( http://arxiv.org/abs/2308.14666v2 )

ライセンス: Link先を確認
Justice Mason, Christine Allen-Blanchette, Nicholas Zolman, Elizabeth Davison, Naomi Ehrich Leonard, (参考訳) 多くの実世界の環境では、低次元計測がなければ、自由に回転する3次元剛体の画像観察が可能である。 しかし、画像データの高次元性は、力学を学ぶために古典的推定技術を使うことを妨げている。 標準的な深層学習法の有用性も制限されているが、それは剛体の画像が体内の質量の分布について何も明らかにしていないためであり、最初の角速度とともに、身体がどのように回転するかを決定する。 画像列から3次元回転力学を推定・予測するための物理ベースニューラルネットワークモデルを提案する。 これを実現するための多段階予測パイプラインを用いて、各画像から$\mathbf{SO}(3)$に同型な潜在表現をマッピングし、潜在ペアから角速度を計算し、ハミルトン運動方程式を用いて将来の潜状態を予測する。 本研究では, 立方体, プリズム, 衛星を含む回転物体の合成画像列を, 均一な質量分布と不均一な質量分布を持つ新しい回転剛体データセットに対して, 提案手法の有効性を実証する。 我々のモデルは、我々のデータセット上で競合するベースラインを上回り、より質的な予測をもたらし、最先端のハミルトン生成ネットワークで観測されたエラーを2.5%削減する。

In many real-world settings, image observations of freely rotating 3D rigid bodies may be available when low-dimensional measurements are not. However, the high-dimensionality of image data precludes the use of classical estimation techniques to learn the dynamics. The usefulness of standard deep learning methods is also limited, because an image of a rigid body reveals nothing about the distribution of mass inside the body, which, together with initial angular velocity, is what determines how the body will rotate. We present a physics-based neural network model to estimate and predict 3D rotational dynamics from image sequences. We achieve this using a multi-stage prediction pipeline that maps individual images to a latent representation homeomorphic to $\mathbf{SO}(3)$, computes angular velocities from latent pairs, and predicts future latent states using the Hamiltonian equations of motion. We demonstrate the efficacy of our approach on new rotating rigid-body datasets of sequences of synthetic images of rotating objects, including cubes, prisms and satellites, with unknown uniform and non-uniform mass distributions. Our model outperforms competing baselines on our datasets, producing better qualitative predictions and reducing the error observed for the state-of-the-art Hamiltonian Generative Network by a factor of 2.
翻訳日:2024-04-12 19:18:11 公開日:2024-04-10
# 拡散モデルにおける露光バイアスの解明

Elucidating the Exposure Bias in Diffusion Models ( http://arxiv.org/abs/2308.15321v6 )

ライセンス: Link先を確認
Mang Ning, Mingxiao Li, Jianlin Su, Albert Ali Salah, Itir Onal Ertugrul, (参考訳) 拡散モデルは印象的な生成能力を示してきたが、その \textit{exposure bias} 問題は、トレーニングとサンプリングの入力ミスマッチとして説明され、詳細な探索が欠落している。 本稿では,まずサンプリング分布を解析的にモデル化し,各サンプリングステップにおける予測誤差を露出バイアス問題の根本原因とする拡散モデルにおける露出バイアス問題を系統的に検討する。 さらに,この問題に対する潜在的な解決策について議論し,直感的な計量法を提案する。 露光バイアスの解明とともに,エプシロンスケーリング(Epsilon Scaling)と呼ばれる簡易かつ効果的でトレーニングのない手法を提案し,露光バイアスを緩和する。 Epsilon Scalingは,ネットワーク出力をスケールダウンし,トレーニングとサンプリングの入力ミスマッチを緩和することにより,トレーニング段階で学習したベクトル場に近いサンプリング軌道を明示的に移動させることを示した。 各種拡散フレームワーク(ADM, DDIM, EDM, LDM, DiT, PFGM++)の実験により, 本手法の有効性が検証された。 特筆すべきは,我々のADM-ESは,100ステップの非条件生成の下でCIFAR-10上で2.17 FIDを得る。 コードは \url{https://github.com/forever208/ADM-ES} と \url{https://github.com/forever208/EDM-ES} で入手できる。

Diffusion models have demonstrated impressive generative capabilities, but their \textit{exposure bias} problem, described as the input mismatch between training and sampling, lacks in-depth exploration. In this paper, we systematically investigate the exposure bias problem in diffusion models by first analytically modelling the sampling distribution, based on which we then attribute the prediction error at each sampling step as the root cause of the exposure bias issue. Furthermore, we discuss potential solutions to this issue and propose an intuitive metric for it. Along with the elucidation of exposure bias, we propose a simple, yet effective, training-free method called Epsilon Scaling to alleviate the exposure bias. We show that Epsilon Scaling explicitly moves the sampling trajectory closer to the vector field learned in the training phase by scaling down the network output, mitigating the input mismatch between training and sampling. Experiments on various diffusion frameworks (ADM, DDIM, EDM, LDM, DiT, PFGM++) verify the effectiveness of our method. Remarkably, our ADM-ES, as a state-of-the-art stochastic sampler, obtains 2.17 FID on CIFAR-10 under 100-step unconditional generation. The code is available at \url{https://github.com/forever208/ADM-ES} and \url{https://github.com/forever208/EDM-ES}.
翻訳日:2024-04-12 19:18:11 公開日:2024-04-10
# 最小メッセージ長による多変量ホークプロセスのグランガー因果推論

Granger Causal Inference in Multivariate Hawkes Processes by Minimum Message Length ( http://arxiv.org/abs/2309.02027v2 )

ライセンス: Link先を確認
Katerina Hlavackova-Schindler, Anna Melnykova, Irene Tubikanec, (参考訳) 多変量ホークスプロセス(MHP)は、地震、株式市場での運営、神経活動、ウイルスの伝播など、様々な実生活現象をモデル化するための多用途確率的ツールである。 本稿では,指数減衰核を持つMHPと,それらの成分間のグランガー因果関係を表す接続性グラフを推定する。 我々は,最小メッセージ長(MML)の原理に基づいて,最適化基準とモデル選択アルゴリズムを提案することにより,この推論問題にアプローチする。 MMLは、オッカムのカウンサル原理を用いたグランガー因果関係モデルと比較する: モデルが観測データと同等に適している場合でも、データの最も簡潔な説明を生成するモデルが好まれる。 ラッソ型ペナル化を用いた最先端の手法の多くは、短時間の水平線を持つシナリオでは過度に適合する傾向にあるが、提案手法はこれらの設定において高いF1スコアを達成する。 提案手法を他の古典的, 最先端の手法と比較し, 特定のスパースグラフ設定において最も高いF1スコアを得る。 提案手法は,G7国債データにもとづき,文献で利用可能な専門家の知識と一致する因果関係を得る。

Multivariate Hawkes processes (MHPs) are versatile probabilistic tools used to model various real-life phenomena: earthquakes, operations on stock markets, neuronal activity, virus propagation and many others. In this paper, we focus on MHPs with exponential decay kernels and estimate connectivity graphs, which represent the Granger causal relations between their components. We approach this inference problem by proposing an optimization criterion and model selection algorithm based on the minimum message length (MML) principle. MML compares Granger causal models using the Occam's razor principle in the following way: even when models have a comparable goodness-of-fit to the observed data, the one generating the most concise explanation of the data is preferred. While most of the state-of-art methods using lasso-type penalization tend to overfitting in scenarios with short time horizons, the proposed MML-based method achieves high F1 scores in these settings. We conduct a numerical study comparing the proposed algorithm to other related classical and state-of-art methods, where we achieve the highest F1 scores in specific sparse graph settings. We illustrate the proposed method also on G7 sovereign bond data and obtain causal connections, which are in agreement with the expert knowledge available in the literature.
翻訳日:2024-04-12 19:18:11 公開日:2024-04-10
# 頭蓋内計測統合による全脳セグメント化のための階層変換器の強化

Enhancing Hierarchical Transformers for Whole Brain Segmentation with Intracranial Measurements Integration ( http://arxiv.org/abs/2309.04071v2 )

ライセンス: Link先を確認
Xin Yu, Yucheng Tang, Qi Yang, Ho Hin Lee, Shunxing Bao, Yuankai Huo, Bennett A. Landman, (参考訳) MRIによる全脳セグメント化は、全頭蓋内体積(TICV)や後窩体積(PFV)を含む脳領域の非侵襲的な計測を可能にする。 頭蓋内計測を組み込むために、既存の全脳セグメント化手法の強化は、脳構造の分析における包括性を高める。 その可能性にもかかわらず、頭蓋内測定のためのディープラーニング技術を一般化するタスクは、全脳とTICV/PFVラベルを含む手動の注釈付きアトラスによって、データ可用性の制約に直面している。 本稿では,脳セグメント化のための階層型トランスフォーマーUNesTを拡張し,133クラスとTICV/PFVを同時にセグメンテーションする。 データ不足の問題に対処するため、モデルはまず8つの異なるサイトから得られた4859 T1重み付き(T1w)3Dボリュームで事前訓練される。 これらのボリュームはラベル生成のためのマルチアトラスセグメンテーションパイプラインを通じて処理されるが、TICV/PFVラベルは利用できない。 その後、OASIS(Open Access Series Imaging Studies)から45 T1w 3Dボリュームで微調整され、133の脳クラスとTICV/PFVラベルが利用可能である。 Dice similarity coefficients (DSC) を用いて本手法の評価を行った。 本モデルでは,132脳領域の性能を同等に維持しながら,正確なTICV/PFV推定を行うことができることを示す。 コードとトレーニングされたモデルは、https://github.com/MASILab/UNesT/tree/main/wholebrainSegで利用可能だ。

Whole brain segmentation with magnetic resonance imaging (MRI) enables the non-invasive measurement of brain regions, including total intracranial volume (TICV) and posterior fossa volume (PFV). Enhancing the existing whole brain segmentation methodology to incorporate intracranial measurements offers a heightened level of comprehensiveness in the analysis of brain structures. Despite its potential, the task of generalizing deep learning techniques for intracranial measurements faces data availability constraints due to limited manually annotated atlases encompassing whole brain and TICV/PFV labels. In this paper, we enhancing the hierarchical transformer UNesT for whole brain segmentation to achieve segmenting whole brain with 133 classes and TICV/PFV simultaneously. To address the problem of data scarcity, the model is first pretrained on 4859 T1-weighted (T1w) 3D volumes sourced from 8 different sites. These volumes are processed through a multi-atlas segmentation pipeline for label generation, while TICV/PFV labels are unavailable. Subsequently, the model is finetuned with 45 T1w 3D volumes from Open Access Series Imaging Studies (OASIS) where both 133 whole brain classes and TICV/PFV labels are available. We evaluate our method with Dice similarity coefficients(DSC). We show that our model is able to conduct precise TICV/PFV estimation while maintaining the 132 brain regions performance at a comparable level. Code and trained model are available at: https://github.com/MASILab/UNesT/tree/main/wholebrainSeg.
翻訳日:2024-04-12 19:18:11 公開日:2024-04-10
# 騒音域における政策最適化--連続制御における帰還景観について

Policy Optimization in a Noisy Neighborhood: On Return Landscapes in Continuous Control ( http://arxiv.org/abs/2309.14597v3 )

ライセンス: Link先を確認
Nate Rahn, Pierluca D'Oro, Harley Wiltzer, Pierre-Luc Bacon, Marc G. Bellemare, (参考訳) 連続制御のための深層強化学習剤は、時間とともにその性能に大きな不安定性を示すことが知られている。 本研究では、返却景観(政策と返却のマッピング)を研究することによって、これらの行動に対する新たな視点を提供する。 一般的なアルゴリズムは、この風景のノイズの多い地区を横切り、ポリシーパラメータを1回更新するだけで、幅広いリターンが得られます。 これらのリターンを分布的に見ることによって、ランドスケープをマッピングし、政策空間の障害が発生しやすい領域を特徴づけ、政策品質の隠れた次元を明らかにする。 本研究では,政策の安定性を向上するパラメータ空間の単純な経路を見出すことにより,ランドスケープが驚くべき構造を示すことを示す。 結論として,政策のロバスト性を改善するため,騒音の多い地区から遠ざかって,そのような経路を見つける分散対応手法を開発した。 その結果,エージェントの最適化,評価,設計に関する新たな知見が得られた。

Deep reinforcement learning agents for continuous control are known to exhibit significant instability in their performance over time. In this work, we provide a fresh perspective on these behaviors by studying the return landscape: the mapping between a policy and a return. We find that popular algorithms traverse noisy neighborhoods of this landscape, in which a single update to the policy parameters leads to a wide range of returns. By taking a distributional view of these returns, we map the landscape, characterizing failure-prone regions of policy space and revealing a hidden dimension of policy quality. We show that the landscape exhibits surprising structure by finding simple paths in parameter space which improve the stability of a policy. To conclude, we develop a distribution-aware procedure which finds such paths, navigating away from noisy neighborhoods in order to improve the robustness of a policy. Taken together, our results provide new insight into the optimization, evaluation, and design of agents.
翻訳日:2024-04-12 19:18:11 公開日:2024-04-10
# Mask4Former: 4Dパノプティカルセグメンテーションのためのマスクトランス

Mask4Former: Mask Transformer for 4D Panoptic Segmentation ( http://arxiv.org/abs/2309.16133v2 )

ライセンス: Link先を確認
Kadir Yilmaz, Jonas Schult, Alexey Nekrasov, Bastian Leibe, (参考訳) 動的環境で安全に相互作用する自律エージェントの意思決定プロセスには、時間とともに正確にインスタンスを認識および追跡することが不可欠である。 そこで本研究では,LiDAR点雲の4次元パノプティックセグメンテーションの課題に対してMask4Formerを提案する。 Mask4Formerは、セマンティックインスタンスセグメンテーションと3Dポイントクラウドのスパースシーケンスと不規則シーケンスの追跡を単一のジョイントモデルに統一する最初のトランスフォーマーベースのアプローチである。 本モデルは,確率的クラスタリングや投票に基づく中心予測といった手作りの非学習型アソシエーション戦略に頼ることなく,セマンティック・インスタンスとその時間的関連性を直接予測する。 その代わりに、Mask4Formerは、シーケンス内の各セマンティックトラックレットのセマンティックプロパティと幾何学的性質をエンコードする時空間のインスタンスクエリを導入した。 より詳細な研究では、空間的にコンパクトなインスタンス予測の促進は、空間的に離れた場合であっても、時空間的なインスタンスクエリが複数の意味的に類似したインスタンスをマージする傾向があるため、重要となる。 この目的のために、空間的にコンパクトな予測を促進する補助タスクとして使用される時空間のインスタンスクエリから、6-DOF境界ボックスパラメータを回帰する。 Mask4Formerは68.4 LSTQのスコアでSemanticKITTIテストセットの最先端を達成している。

Accurately perceiving and tracking instances over time is essential for the decision-making processes of autonomous agents interacting safely in dynamic environments. With this intention, we propose Mask4Former for the challenging task of 4D panoptic segmentation of LiDAR point clouds. Mask4Former is the first transformer-based approach unifying semantic instance segmentation and tracking of sparse and irregular sequences of 3D point clouds into a single joint model. Our model directly predicts semantic instances and their temporal associations without relying on hand-crafted non-learned association strategies such as probabilistic clustering or voting-based center prediction. Instead, Mask4Former introduces spatio-temporal instance queries that encode the semantic and geometric properties of each semantic tracklet in the sequence. In an in-depth study, we find that promoting spatially compact instance predictions is critical as spatio-temporal instance queries tend to merge multiple semantically similar instances, even if they are spatially distant. To this end, we regress 6-DOF bounding box parameters from spatio-temporal instance queries, which are used as an auxiliary task to foster spatially compact predictions. Mask4Former achieves a new state-of-the-art on the SemanticKITTI test set with a score of 68.4 LSTQ.
翻訳日:2024-04-12 19:18:11 公開日:2024-04-10
# 強化学習における非エルゴディディティ--エルゴディディティ変換によるロバスト性

Non-ergodicity in reinforcement learning: robustness via ergodicity transformations ( http://arxiv.org/abs/2310.11335v2 )

ライセンス: Link先を確認
Dominik Baumann, Erfaun Noorani, James Price, Ole Peters, Colm Connaughton, Thomas B. Schön, (参考訳) 強化学習(RL)の応用分野には、自律運転、精密農業、金融などが含まれており、実世界での意思決定にはRLエージェントが必要である。 これらの領域におけるRL法の採用を妨げる重要な課題は、従来のアルゴリズムの非ロバスト性である。 本稿では、このロバスト性の欠如に寄与する根本的な問題は、「正しい」最適化の目的として、返却の期待値に焦点が当てられていることを論じる。 期待値は、無限に多くの軌道の統計的アンサンブルの平均である。 非エルゴード的なリターンの場合、この平均は1つのが無限に長い軌道上の平均と異なる。 その結果、期待値の最適化は、確率ゼロで例外的に高いリターンをもたらすが、ほぼ確実に破滅的な結果をもたらすポリシーにつながる。 この問題は、収集されたリターンの時系列をエルゴディックインクリメントの時系列に変換することで回避できる。 この変換により、無限に多くの軌道にまたがる平均よりも、個々のエージェントの長期的なリターンを最適化することで、堅牢なポリシーを学ぶことができる。 本稿では,データからエルゴディディティ変換を学習するアルゴリズムを提案し,その効果を教育的,非エルゴディティな環境と標準RLベンチマークで実証する。

Envisioned application areas for reinforcement learning (RL) include autonomous driving, precision agriculture, and finance, which all require RL agents to make decisions in the real world. A significant challenge hindering the adoption of RL methods in these domains is the non-robustness of conventional algorithms. In this paper, we argue that a fundamental issue contributing to this lack of robustness lies in the focus on the expected value of the return as the sole ``correct'' optimization objective. The expected value is the average over the statistical ensemble of infinitely many trajectories. For non-ergodic returns, this average differs from the average over a single but infinitely long trajectory. Consequently, optimizing the expected value can lead to policies that yield exceptionally high returns with probability zero but almost surely result in catastrophic outcomes. This problem can be circumvented by transforming the time series of collected returns into one with ergodic increments. This transformation enables learning robust policies by optimizing the long-term return for individual agents rather than the average across infinitely many trajectories. We propose an algorithm for learning ergodicity transformations from data and demonstrate its effectiveness in an instructive, non-ergodic environment and on standard RL benchmarks.
翻訳日:2024-04-12 19:08:26 公開日:2024-04-10
# 人間-言語モデル相互作用による自己指導型メンタルヘルス介入 : 認知的再構成を事例として

Facilitating Self-Guided Mental Health Interventions Through Human-Language Model Interaction: A Case Study of Cognitive Restructuring ( http://arxiv.org/abs/2310.15461v2 )

ライセンス: Link先を確認
Ashish Sharma, Kevin Rushton, Inna Wanyin Lin, Theresa Nguyen, Tim Althoff, (参考訳) 自己指導型のメンタルヘルス介入、例えば"do-it-yourself"ツールによる、対処戦略の学習と実践は、メンタルヘルスへのアクセスを改善するという大きな約束を示す。 しかしながら、これらの介入は認知的に要求され、感情的に引き起こされ、アクセシビリティ障壁を形成し、大規模な実装と導入を制限する。 本稿では,人間の言語モデルによるインタラクションが,自己指導型メンタルヘルス介入をどのようにサポートするかを検討する。 我々は,否定的思考を克服する根拠に基づく治療手法である認知的再構成を事例研究として捉えた。 IRBが承認した15,531人の参加者からなる大規模メンタルヘルスウェブサイトにおけるランダム化フィールドスタディにおいて、認知的再構成の様々な段階を通じて言語モデルを用いて人々を支援するシステムの設計と評価を行った。 その結果,本システムは67%の被験者に対して肯定的な感情強度に影響を与え,65%が否定的思考を克服するのに役立つことがわかった。 青年期には比較的悪い結果が報告されるが、言語モデル生成を単純化する調整された介入によって、全体的な効果と株式が向上する。

Self-guided mental health interventions, such as "do-it-yourself" tools to learn and practice coping strategies, show great promise to improve access to mental health care. However, these interventions are often cognitively demanding and emotionally triggering, creating accessibility barriers that limit their wide-scale implementation and adoption. In this paper, we study how human-language model interaction can support self-guided mental health interventions. We take cognitive restructuring, an evidence-based therapeutic technique to overcome negative thinking, as a case study. In an IRB-approved randomized field study on a large mental health website with 15,531 participants, we design and evaluate a system that uses language models to support people through various steps of cognitive restructuring. Our findings reveal that our system positively impacts emotional intensity for 67% of participants and helps 65% overcome negative thoughts. Although adolescents report relatively worse outcomes, we find that tailored interventions that simplify language model generations improve overall effectiveness and equity.
翻訳日:2024-04-12 19:08:26 公開日:2024-04-10
# 変圧器言語モデルにおける構成一般化に対する深度の影響

The Impact of Depth on Compositional Generalization in Transformer Language Models ( http://arxiv.org/abs/2310.19956v2 )

ライセンス: Link先を確認
Jackson Petty, Sjoerd van Steenkiste, Ishita Dasgupta, Fei Sha, Dan Garrette, Tal Linzen, (参考訳) 新しい文を処理するには、言語モデル(LM)が作曲を一般化する必要がある。 モデルの構造のどの側面が構成一般化を促進するか? 変圧器に着目して、より深い変圧器がより構成的に一般化する理論的および経験的な研究によって動機付けられた仮説を検証する。 パラメータの総数(41M, 134M, 374M)が一定となるように, 深さと大きさの相違に対処するため, パラメータの総数が一定となるように, 幅の深さをトレードオフするモデルの3つのクラスを構築した。 我々は、全てのモデルをLMとして事前訓練し、それらを合成一般化のテストタスクで微調整する。 我々は,(1)微調整後,より深いモデルが浅層モデルよりも構成的に一般化するが,追加層の利点は急速に低下する,(2)より深いモデルでは言語モデリング性能が向上する,(3)合成一般化の深層化の利点は言語モデリングの性能の向上にのみ寄与する,という3つの主な結論を報告する。 モデル遅延はレイヤー数でほぼ線形であるため、これらの結果は、与えられたパラメータ予算によって、トランスフォーマーは性能を犠牲にすることなく、通常よりも浅くすることができるという推奨につながります。

To process novel sentences, language models (LMs) must generalize compositionally -- combine familiar elements in new ways. What aspects of a model's structure promote compositional generalization? Focusing on transformers, we test the hypothesis, motivated by theoretical and empirical work, that deeper transformers generalize more compositionally. Simply adding layers increases the total number of parameters; to address this confound between depth and size, we construct three classes of models which trade off depth for width such that the total number of parameters is kept constant (41M, 134M and 374M parameters). We pretrain all models as LMs and fine-tune them on tasks that test for compositional generalization. We report three main conclusions: (1) after fine-tuning, deeper models generalize more compositionally than shallower models do, but the benefit of additional layers diminishes rapidly; (2) within each family, deeper models show better language modeling performance, but returns are similarly diminishing; (3) the benefits of depth for compositional generalization cannot be attributed solely to better performance on language modeling. Because model latency is approximately linear in the number of layers, these results lead us to the recommendation that, with a given total parameter budget, transformers can be made shallower than is typical without sacrificing performance.
翻訳日:2024-04-12 19:08:26 公開日:2024-04-10
# 完全自律ロボットシステムのための定量的自律性定量化フレームワーク

A Quantitative Autonomy Quantification Framework for Fully Autonomous Robotic Systems ( http://arxiv.org/abs/2311.01939v2 )

ライセンス: Link先を確認
Nasser Gyagenda, Hubert Roth, (参考訳) 自律的な機能化は、地球上の人間の監視が制限される領域におけるロボットシステムの展開を促進するが、タスク要求と自律能力の対応を見つけることは、まだオープンな課題である。 その結果、過去30年間に多くの自律性を定量化する手法が提案されてきたが、我々の知る限り、これらは全て自律性の変化のサブモードの特徴を識別するものではなく、グッドハートの法則に反する指標に基づくものもある。 本稿では,全自律モードに着目し,タスク要求に基づく定量的自律性評価フレームワークを提案する。 このフレームワークは、必要な能力セット、信頼性、応答性の3つの自律性指標を導出するロボットタスク特性を確立することから始まる。 これらの特徴は、ロボットが究極的には人間の熟練労働者を置き換えることに着目し、そこから人間の仕事とロボットのタスク特性の関係が確立された。 さらに,メトリクスを自律性にマッピングする数学的関数についても,レベルと自律性の度合いという2段階の尺度を提示する。 自律性のレベルと度合いの区別は、自律性は単に存在の疑問であるだけでなく、必要な能力のパフォーマンスの1つでもある、という認識に起因している。 このフレームワークは2つのケーススタディで実証されている。すなわち、オンロード動的運転タスクにおける自動運転車と、DARPAの地下課題ルール分析である。 このフレームワークは、自律性を定量化するツールを提供するだけでなく、自律システム開発者とユーザのための規制インターフェースと共通言語も提供する。 その最大の機能は、オンライン実装時のシステムの完全性を監視する機能である。

Although autonomous functioning facilitates deployment of robotic systems in domains that admit limited human oversight on our planet and beyond, finding correspondence between task requirements and autonomous capability is still an open challenge. Consequently, a number of methods for quantifying autonomy have been proposed over the last three decades, but to our knowledge all these have no discernment of sub-mode features of variation of autonomy and some are based on metrics that violet the Goodhart's law. This paper focuses on the full autonomous mode and proposes a quantitative autonomy assessment framework based on task requirements. The framework starts by establishing robot task characteristics from which three autonomy metrics, namely requisite capability set, reliability and responsiveness are derived. These characteristics were founded on the realization that robots ultimately replace human skilled workers, from which a relationship between human job and robot task characteristics was established. Additionally, mathematical functions mapping metrics to autonomy as a two-part measure, namely of level and degree of autonomy are also presented. The distinction between level and degree of autonomy stemmed from the acknowledgment that autonomy is not just a question of existence, but also one of performance of requisite capability. The framework has been demonstrated on two case studies, namely autonomous vehicle at an on-road dynamic driving task and the DARPA subterranean challenge rules analysis. The framework provides not only a tool for quantifying autonomy, but also a regulatory interface and common language for autonomous systems developers and users. Its greatest feature is the ability to monitor system integrity when implemented online.
翻訳日:2024-04-12 19:08:26 公開日:2024-04-10
# クラスインクリメンタル・オーディオ・ビジュアル・ビデオ認識のための階層的拡張と拡張

Hierarchical Augmentation and Distillation for Class Incremental Audio-Visual Video Recognition ( http://arxiv.org/abs/2401.06287v2 )

ライセンス: Link先を確認
Yukun Zuo, Hantao Yao, Liansheng Zhuang, Changsheng Xu, (参考訳) オーディオ視覚ビデオ認識(AVVR)は、映像を正確に分類するために、音声と視覚の手がかりを統合することを目的としている。 既存の方法では、提供されたデータセットを使用してAVVRモデルをトレーニングし、満足な結果を得る一方で、現実の状況で新しいクラスに直面する場合、過去のクラス知識を維持するのに苦労する。 現在,この問題に対処するための専用手法は存在しないため,本論文は,CIAVVR(Class Incremental Audio-Visual Video Recognition)の探索に重点を置いている。 CIAVVRにとって、記憶されたデータと過去のクラスの学習モデルの両方が歴史的知識を含んでいるため、重要な課題は過去のデータ知識と過去のモデル知識をキャプチャして破滅的な忘れを防止する方法である。 本稿では,階層拡張モジュール (HAM) と階層拡張モジュール (HDM) を組み合わせた階層拡張蒸留 (HAD) を導入し,データとモデルの階層構造を効率的に活用する。 具体的には,階層的モデル知識を維持するため,HAMは新たな拡張戦略であるセグメント的特徴拡張を実装している。 一方、HDMでは、各データの階層内知識とデータ間の階層間知識をそれぞれ捕捉し、維持するために、新しく設計された階層間論理蒸留(ビデオ配信)と階層間相関蒸留を導入している。 AVE, AVK-100, AVK-200, AVK-400の4つのベンチマークによる評価は、提案HADがデータとモデルの両方において階層的な情報を効果的に取得し、歴史的クラス知識の保存が向上し、性能が向上することを示した。 さらに,部分的特徴増強戦略の必要性を裏付ける理論的分析を行う。

Audio-visual video recognition (AVVR) aims to integrate audio and visual clues to categorize videos accurately. While existing methods train AVVR models using provided datasets and achieve satisfactory results, they struggle to retain historical class knowledge when confronted with new classes in real-world situations. Currently, there are no dedicated methods for addressing this problem, so this paper concentrates on exploring Class Incremental Audio-Visual Video Recognition (CIAVVR). For CIAVVR, since both stored data and learned model of past classes contain historical knowledge, the core challenge is how to capture past data knowledge and past model knowledge to prevent catastrophic forgetting. We introduce Hierarchical Augmentation and Distillation (HAD), which comprises the Hierarchical Augmentation Module (HAM) and Hierarchical Distillation Module (HDM) to efficiently utilize the hierarchical structure of data and models, respectively. Specifically, HAM implements a novel augmentation strategy, segmental feature augmentation, to preserve hierarchical model knowledge. Meanwhile, HDM introduces newly designed hierarchical (video-distribution) logical distillation and hierarchical (snippet-video) correlative distillation to capture and maintain the hierarchical intra-sample knowledge of each data and the hierarchical inter-sample knowledge between data, respectively. Evaluations on four benchmarks (AVE, AVK-100, AVK-200, and AVK-400) demonstrate that the proposed HAD effectively captures hierarchical information in both data and models, resulting in better preservation of historical class knowledge and improved performance. Furthermore, we provide a theoretical analysis to support the necessity of the segmental feature augmentation strategy.
翻訳日:2024-04-12 18:45:46 公開日:2024-04-10
# 誰が言ったか? : 幼児教室における音声分析の自動化手法

Who Said What? An Automated Approach to Analyzing Speech in Preschool Classrooms ( http://arxiv.org/abs/2401.07342v3 )

ライセンス: Link先を確認
Anchen Sun, Juan J Londono, Batya Elbaum, Luis Estrada, Roberto Jose Lazo, Laura Vitale, Hugo Gonzalez Villasanti, Riccardo Fusaroli, Lynn K Perry, Daniel S Messinger, (参考訳) 幼児は、騒音の多い幼稚園の教室で覚醒時間の大部分を過ごします。 これらの環境では、教師との子どもの音声対話は言語の結果に重要な貢献者であるが、手動による対話の翻訳は禁じられている。 児童・教師向けレコーダーの音声を用いて,話者分類(ALICE)と発話書き起こし(Whisper)の両方にオープンソースソフトウェアを利用する自動フレームワークを提案する。 本研究では,110分間の授業記録において,児童語マイクロフォン(n=4児)から85分間,教師・女性マイクロホン(n=2教師)から25分間の成績を比較した。 すなわち、正しく分類された教師と子供の発話の割合は.76であり、誤り訂正されたカッパは.50、重み付けされたF1は.76である。 教師と児童の書き起こしにおける単語エラー率は .15 であり、Whisper と専門家の書き起こしを同等にするためには、15%の単語を削除、追加、あるいは変更する必要がある。 また, 単語の平均発話長, 質問文である教師と児童の発話率, 2.5秒以内で回答した発話の割合などの音声特徴は, 専門家と自動書き起こしとは別々に計算した場合に類似していた。 その結果, 子どもの言語発達を支援する授業音声の分析において, かなり進歩したことが示唆された。 自然言語処理を用いた今後の研究は、話者分類を改善し、自動化されたフレームワークを13人の子供と3人の教師が1年間に17回観察した教室記録を含む大規模データセットに応用することを目的としている。

Young children spend substantial portions of their waking hours in noisy preschool classrooms. In these environments, children's vocal interactions with teachers are critical contributors to their language outcomes, but manually transcribing these interactions is prohibitive. Using audio from child- and teacher-worn recorders, we propose an automated framework that uses open source software both to classify speakers (ALICE) and to transcribe their utterances (Whisper). We compare results from our framework to those from a human expert for 110 minutes of classroom recordings, including 85 minutes from child-word microphones (n=4 children) and 25 minutes from teacher-worn microphones (n=2 teachers). The overall proportion of agreement, that is, the proportion of correctly classified teacher and child utterances, was .76, with an error-corrected kappa of .50 and a weighted F1 of .76. The word error rate for both teacher and child transcriptions was .15, meaning that 15% of words would need to be deleted, added, or changed to equate the Whisper and expert transcriptions. Moreover, speech features such as the mean length of utterances in words, the proportion of teacher and child utterances that were questions, and the proportion of utterances that were responded to within 2.5 seconds were similar when calculated separately from expert and automated transcriptions. The results suggest substantial progress in analyzing classroom speech that may support children's language development. Future research using natural language processing is under way to improve speaker classification and to analyze results from the application of the automated framework to a larger dataset containing classroom recordings from 13 children and 3 teachers observed on 17 occasions over one year.
翻訳日:2024-04-12 18:45:46 公開日:2024-04-10
# バックグラウンド独立テンソルネットワーク

Background independent tensor networks ( http://arxiv.org/abs/2402.05910v2 )

ライセンス: Link先を確認
Chris Akers, Annie Y. Wei, (参考訳) 従来のホログラフィックテンソルネットワークは、多くの小さな線型写像が空間的に局所的に作用し、すべて '`background entanglement'' で連結されたおもちゃのホログラフィック写像として記述できる。 しかし、これらの構造は実際のホログラフィックマップをモデル化するに足らない。 一つの理由は、幾何学が動的である重力とは異なり、それらの `areas'' は自明であり、全ての状態に対して同じ値を取るからである。 近年,「リンク上で生きていく」自由度を付加することで,この問題を改善している。 これにより、背景の絡み合い部分と同等の領域を非自明にし、また、リンクの度合いに依存する新しい正の要素を新たに得ることができる。 それでも、これは背景の絡み合いがあるという欠点があるため、すべての領域が背景の絡み合いによって与えられる最小限の値を持つような、比較的限られたコード部分空間のみをモデル化する。 ここでは、これらの構成の1つのバージョンは、ホログラムマップに背景の絡みが無く、背景の独立性を持つことができる。 これはテンソルネットワークがより大きなコード部分空間のホログラフィックマップをモデル化できるので有利である。 これに加えて、動作させるのにいくつかの微妙な問題に対処し、最近のランダムCFTデータに関する議論に、それがもたらす良いつながりを指摘する。

Conventional holographic tensor networks can be described as toy holographic maps constructed from many small linear maps acting in a spatially local way, all connected together with ``background entanglement'', i.e. links of a fixed state, often the maximally entangled state. However, these constructions fall short of modeling real holographic maps. One reason is that their ``areas'' are trivial, taking the same value for all states, unlike in gravity where the geometry is dynamical. Recently, new constructions have ameliorated this issue by adding degrees of freedom that ``live on the links''. This makes areas non-trivial, equal to the background entanglement piece plus a new positive piece that depends on the state of the link degrees of freedom. Nevertheless, this still has the downside that there is background entanglement, and hence it only models relatively limited code subspaces in which every area has a definite minimum value given by the background entanglement. In this note, we simply point out that a version of these constructions goes one step further: they can be background independent, with no background entanglement in the holographic map. This is advantageous because it allows tensor networks to model holographic maps for larger code subspaces. In addition to pointing this out, we address some subtleties involved in making it work and point out a nice connection it offers to recent discussions of random CFT data.
翻訳日:2024-04-12 18:35:56 公開日:2024-04-10
# 大規模言語モデルポリシー適応による至る所での運転

Driving Everywhere with Large Language Model Policy Adaptation ( http://arxiv.org/abs/2402.05932v2 )

ライセンス: Link先を確認
Boyi Li, Yue Wang, Jiageng Mao, Boris Ivanovic, Sushant Veer, Karen Leung, Marco Pavone, (参考訳) 新しい環境、習慣、法律に運転行動を適用することは、自動運転車(AV)の広範な展開を前にして、自動運転における長年の問題である。 本稿では、人間ドライバーや自動運転車が、新しい場所での交通ルールにタスクや移動計画を適用することで、どこにでも運転できるように、シンプルながら強力なツールであるLLaDAを提案する。 LLaDAは、ローカルドライバハンドブックにおけるトラフィックルールの解釈において、大きな言語モデル(LLM)の印象的なゼロショット一般化性を活用することで、これを実現する。 広範にわたるユーザスタディを通じて、LLaDAの指示は、夢中の予期せぬ状況の明確化に有用であることを示す。 また、実世界のデータセットにAV動作計画ポリシーを適用するLLaDAの能力も示しています。 詳細はWebサイトをご覧ください。

Adapting driving behavior to new environments, customs, and laws is a long-standing problem in autonomous driving, precluding the widespread deployment of autonomous vehicles (AVs). In this paper, we present LLaDA, a simple yet powerful tool that enables human drivers and autonomous vehicles alike to drive everywhere by adapting their tasks and motion plans to traffic rules in new locations. LLaDA achieves this by leveraging the impressive zero-shot generalizability of large language models (LLMs) in interpreting the traffic rules in the local driver handbook. Through an extensive user study, we show that LLaDA's instructions are useful in disambiguating in-the-wild unexpected situations. We also demonstrate LLaDA's ability to adapt AV motion planning policies in real-world datasets; LLaDA outperforms baseline planning approaches on all our metrics. Please check our website for more details: https://boyiliee.github.io/llada.
翻訳日:2024-04-12 18:35:56 公開日:2024-04-10
# 分子型タルボット・ラウ干渉計におけるカイラルカシミール・ポルダー力の探索

Requirements for probing chiral Casimir-Polder forces in a molecular Talbot-Lau interferometer ( http://arxiv.org/abs/2402.10391v2 )

ライセンス: Link先を確認
Fumika Suzuki, S. A. Shah, Diego A. R. Dalvit, Markus Arndt, (参考訳) 3つのナノメカニカルグレーティングに基づくタルボット・ラウ干渉計におけるカイラルカシミール・ポルダー(CP)力の影響を理論的に検討した。 第2グレーティングを直接キラル物質に書き込むか、ナノマスクをキラル物質でコーティングするシナリオについて検討する。 伝送信号における物質波干渉法と干渉スペクトルの可視性において,デブロリー波長と分子キラリティーに依存するエナンチオ特異的効果を示す要件を示す。 提案されたセットアップは、キラル効果が電気的および磁気的効果と等しくなる非遅延状態のCP力に特に敏感である。 第1および第3グレーティングは物質波の位相を変化させないが、それらにキラル物質をコーティングすることで、機器のキラル選択性を高める。

We theoretically investigate the influence of chiral Casimir-Polder (CP) forces in Talbot-Lau interferometry, based on three nanomechanical gratings. We study scenarios where the second grating is either directly written into a chiral material or where the nanomask is coated with chiral substances. We show requirements for probing enantiospecific effects in matter-wave interferometry in the transmission signal and the interference fringe visibility, which depend on the de Broglie wavelength and the molecular chirality. The proposed setup is particularly sensitive to CP forces in the non-retarded regime where chiral effects can be comparable in magnitude to their electric and magnetic counterparts. While the first and third gratings do not change the phase of the matter wave, applying a coating of chiral substances to them enhances the instrument's chiral selectivity.
翻訳日:2024-04-12 18:35:56 公開日:2024-04-10
# 回路上のスケーラブルで一般化可能な学習のためのHop-Wiseグラフアテンション

Less is More: Hop-Wise Graph Attention for Scalable and Generalizable Learning on Circuits ( http://arxiv.org/abs/2403.01317v4 )

ライセンス: Link先を確認
Chenhui Deng, Zichao Yue, Cunxi Yu, Gokce Sarar, Ryan Carey, Rajeev Jain, Zhiru Zhang, (参考訳) グラフニューラルネットワーク(GNN)は、様々な電子設計自動化(EDA)タスクにおける回路表現の学習に人気があるが、大きなグラフに適用するとスケーラビリティの課題に直面し、新しい設計に限定的な一般化性を示す。 これらの制限は、大規模で複雑な回路問題に対処する上で実用的でない。 本研究では,回路表現をスケーラブルで一般化可能な方法で学習するための新しい注意モデルHOGAを提案する。 HOGAはまず、モデルトレーニングの前にノード毎のホップワイズ機能を計算します。 その後、ホップワイズ機能は、グラフトポロジを伴わずに異なるホップ間の重要な特徴を適応的に学習するゲート自己アテンションモジュールを通じてノード表現を生成するためにのみ使用される。 その結果、HOGAは様々な回路の様々な構造に適応し、分散的に効率的に訓練することができる。 HOGAの有効性を示すために,結果の質(QoR)予測と機能的推論という2つの代表的なEDAタスクを検討する。 実験結果は,1)論理合成後のQoR予測における従来のGNNに対する推定誤差を46.76%削減し,2)複雑な技術マッピング後のゲートレベルネットリスト上の機能ブロックを特定するため,GNNに対する推論精度を10.0%改善し,(3)計算資源の増加に伴い,HOGAのトレーニング時間はほぼ直線的に減少することを示した。

While graph neural networks (GNNs) have gained popularity for learning circuit representations in various electronic design automation (EDA) tasks, they face challenges in scalability when applied to large graphs and exhibit limited generalizability to new designs. These limitations make them less practical for addressing large-scale, complex circuit problems. In this work we propose HOGA, a novel attention-based model for learning circuit representations in a scalable and generalizable manner. HOGA first computes hop-wise features per node prior to model training. Subsequently, the hop-wise features are solely used to produce node representations through a gated self-attention module, which adaptively learns important features among different hops without involving the graph topology. As a result, HOGA is adaptive to various structures across different circuits and can be efficiently trained in a distributed manner. To demonstrate the efficacy of HOGA, we consider two representative EDA tasks: quality of results (QoR) prediction and functional reasoning. Our experimental results indicate that (1) HOGA reduces estimation error over conventional GNNs by 46.76% for predicting QoR after logic synthesis; (2) HOGA improves 10.0% reasoning accuracy over GNNs for identifying functional blocks on unseen gate-level netlists after complex technology mapping; (3) The training time for HOGA almost linearly decreases with an increase in computing resources.
翻訳日:2024-04-12 18:26:07 公開日:2024-04-10
# 構文対応型コードフィルインザミドルタスクにおけるLCMの評価

Evaluation of LLMs on Syntax-Aware Code Fill-in-the-Middle Tasks ( http://arxiv.org/abs/2403.04814v2 )

ライセンス: Link先を確認
Linyuan Gong, Sida Wang, Mostafa Elhoushi, Alvin Cheung, (参考訳) 本研究では,SAFIM (Syntax-Aware Fill-in-the-Middle) を導入し,File-in-the-Middle (FIM) タスク上でLLM(Large Language Models) を評価する。 このベンチマークは、コードブロックや条件式などのプログラム構造の構文対応補完に焦点を当てており、データ汚染を最小限に抑えるため、2022年4月以降の最近のコード提出から得られた、複数のプログラミング言語の17,720の例を含んでいる。 SAFIMは、様々なプロンプト設計と新しい構文認識後処理技術を備えた堅牢なフレームワークを提供し、LLM間の正確かつ公正な比較を容易にする。 15個のLLMの総合的な評価から,FIMプレトレーニングはFIMの熟練度を高めるだけでなく,L2R(Left-to-Right)推論を改善することが示唆された。 以上の結果から,事前学習手法やデータ品質がモデルサイズよりも大きな影響を与える可能性が示唆された。 したがって、SAFIMは将来のコードLLMの効果的な事前学習戦略研究の基盤となる。 評価ツールキットとデータセットはhttps://github.com/gonglinyuan/safimで、リーダーボードはhttps://safimbenchmark.comで入手できる。

We introduce Syntax-Aware Fill-In-the-Middle (SAFIM), a new benchmark for evaluating Large Language Models (LLMs) on the code Fill-in-the-Middle (FIM) task. This benchmark focuses on syntax-aware completions of program structures such as code blocks and conditional expressions, and includes 17,720 examples from multiple programming languages, sourced from recent code submissions after April 2022 to minimize data contamination. SAFIM provides a robust framework with various prompt designs and novel syntax-aware post-processing techniques, facilitating accurate and fair comparisons across LLMs. Our comprehensive evaluation of 15 LLMs shows that FIM pretraining not only enhances FIM proficiency but also improves Left-to-Right (L2R) inference using LLMs. Our findings challenge conventional beliefs and suggest that pretraining methods and data quality have more impact than model size. SAFIM thus serves as a foundational platform for future research in effective pretraining strategies for code LLMs. The evaluation toolkit and dataset are available at https://github.com/gonglinyuan/safim, and the leaderboard is available at https://safimbenchmark.com.
翻訳日:2024-04-12 18:26:07 公開日:2024-04-10
# AIとアイデンティティ

AI and Identity ( http://arxiv.org/abs/2403.07924v2 )

ライセンス: Link先を確認
Sri Yash Tadimalla, Mary Lou Maher, (参考訳) AIを活用した技術が世界に与える影響は決定不可能であり、産業を変革し、人間がテクノロジーとどのように相互作用するかを革新し、教育パラダイムを変革し、社会規範を再定義する。 しかし、この急速な成長には、AI分野における多様性の欠如と、AIのディビジョンの拡大という、2つの注目すべき課題が伴っている。 本稿では,AI開発と展開におけるバイアス,不平等,倫理的考察を理解する手段として,AIとアイデンティティの交わりについて考察する。 我々は、AIアイデンティティの定義を多面的に定義し、その作者、アプリケーション、そしてその幅広い影響を包含する。 AIのアイデンティティを理解するには、AIの開発に関わる個人と、生成された技術、そして社会的、倫理的、心理的含意の間の関連を理解する必要がある。 AIアイデンティティエコシステムとその社会的ダイナミクスを探求した後、私たちは、アイデンティティのレンズを通して、創造者、創造者、そしてコンシークエンスという3つの次元にわたるAIの多様性の必要性を強調するフレームワークを提案します。 本稿では、アイデンティティのレンズを通して、より包括的で責任あるAIエコシステムを育むための包括的アプローチの必要性を提案する。

AI-empowered technologies' impact on the world is undeniable, reshaping industries, revolutionizing how humans interact with technology, transforming educational paradigms, and redefining social codes. However, this rapid growth is accompanied by two notable challenges: a lack of diversity within the AI field and a widening AI divide. In this context, This paper examines the intersection of AI and identity as a pathway to understand biases, inequalities, and ethical considerations in AI development and deployment. We present a multifaceted definition of AI identity, which encompasses its creators, applications, and their broader impacts. Understanding AI's identity involves understanding the associations between the individuals involved in AI's development, the technologies produced, and the social, ethical, and psychological implications. After exploring the AI identity ecosystem and its societal dynamics, We propose a framework that highlights the need for diversity in AI across three dimensions: Creators, Creations, and Consequences through the lens of identity. This paper proposes the need for a comprehensive approach to fostering a more inclusive and responsible AI ecosystem through the lens of identity.
翻訳日:2024-04-12 18:26:07 公開日:2024-04-10
# 古典的および量子ガウス関係に対する完全方程式理論

Complete equational theories for classical and quantum Gaussian relations ( http://arxiv.org/abs/2403.10479v3 )

ライセンス: Link先を確認
Robert I. Booth, Titouan Carette, Cole Comfort, (参考訳) ガウス関係と正アフィンラグランジュ関係のハイパーグラフプロップに対して生成子と関係を与える。 前者は完全不定形前処理によりガウス確率過程を拡張し、後者は無限にスクイーズされた状態を持つガウス量子力学を拡張する。 これらのプレゼンテーションは、実アフィン関係の表現と実アフィンラグランジアン関係の表現にジェネレータを加えることで得られる。 正のアフィンラグランジアン関係の提示は、無限のスクイーズを含む量子物理学の文献において、多くの一般的な非公式な計算に対して厳密な正当化を与える。 我々のプレゼンテーションは、ガウス変換の表現を伴うガウス量子状態のメニコーッチやアルのグラフ理論的な表現を自然に拡張する。 このグラフ計算を用いて、ブラウンシュタインとキンブルの連続可変量子テレポーテーションプロトコルのグラフィカルな証明を与える。 我々はまた、図形計算であるLOv-calculusを、我々の図形計算における受動線形光学量子回路を推論するための図式計算として解釈する。 さらに,本発表では,能動スクイーズなどの光学的操作が可能であることを示す。

We give generators and relations for the hypergraph props of Gaussian relations and positive affine Lagrangian relations. The former extends Gaussian probabilistic processes by completely-uninformative priors, and the latter extends Gaussian quantum mechanics with infinitely-squeezed states. These presentations are given by adding a generator to the presentation of real affine relations and of real affine Lagrangian relations which freely codiscards effects, as well as certain rotations. The presentation of positive affine Lagrangian relations provides a rigorous justification for many common yet informal calculations in the quantum physics literature involving infinite-squeezing. Our presentation naturally extends Menicucci et al.'s graph-theoretic representation of Gaussian quantum states with a representation for Gaussian transformations. Using this graphical calculus, we also give a graphical proof of Braunstein and Kimble's continuous-variable quantum teleportation protocol. We also interpret the LOv-calculus, a diagrammatic calculus for reasoning about passive linear-optical quantum circuits in our graphical calculus. Moreover, we show how our presentation allows for additional optical operations such as active squeezing.
翻訳日:2024-04-12 18:16:14 公開日:2024-04-10
# StateFlow: ステート駆動ワークフローによるLLMタスクソルビングの強化

StateFlow: Enhancing LLM Task-Solving through State-Driven Workflows ( http://arxiv.org/abs/2403.11322v3 )

ライセンス: Link先を確認
Yiran Wu, Tianwei Yue, Shaokun Zhang, Chi Wang, Qingyun Wu, (参考訳) 複雑なタスク、例えば一連のアクションや、ツールや外部環境との動的相互作用を必要とするタスクに対処するために、LLM(Large Language Models)を使用することは、注目すべきトレンドである。 本稿では,複雑なタスク解決プロセスをステートマシンとして概念化する,新しいLCMベースのタスク解決パラダイムであるStateFlowを提案する。 StateFlowでは、(状態と状態遷移を介して)「プロセス基盤」と(状態内のアクションを通じて)「サブタスク解決」を区別し、タスク解決手順の制御と解釈性を高めます。 状態は実行中のプロセスの状態を表す。 状態間の遷移は LLM によるヒューリスティックな規則や決定によって制御され、動的かつ適応的な進行を可能にする。 状態に入ると、異なるプロンプトでガイドされたLSMを呼び出すだけでなく、必要に応じて外部ツールの利用を含む一連のアクションが実行される。 その結果, StateFlow は LLM の効率を大幅に向上させることがわかった。 例えば、StateFlowはInterCode SQLとALFWorldベンチマークのReActと比較して13%と28%高い成功率を実現し、それぞれ5倍と3倍のコストがかかる。 また、StateFlowとReflexionのような反復的な精錬メソッドを組み合わせることで、パフォーマンスをさらに向上できることを示す。

It is a notable trend to use Large Language Models (LLMs) to tackle complex tasks, e.g., tasks that require a sequence of actions and dynamic interaction with tools and external environments. In this paper, we propose StateFlow, a novel LLM-based task-solving paradigm that conceptualizes complex task-solving processes as state machines. In StateFlow, we distinguish between "process grounding" (via state and state transitions) and "sub-task solving" (through actions within a state), enhancing control and interpretability of the task-solving procedure. A state represents the status of a running process. The transitions between states are controlled by heuristic rules or decisions made by the LLM, allowing for a dynamic and adaptive progression. Upon entering a state, a series of actions is executed, involving not only calling LLMs guided by different prompts, but also the utilization of external tools as needed. Our results show that StateFlow significantly enhances LLMs' efficiency. For instance, StateFlow achieves 13% and 28% higher success rates compared to ReAct in InterCode SQL and ALFWorld benchmark, with 5x and 3x less cost respectively. We also show that StateFlow can be combined with iterative refining methods like Reflexion to further improve performance.
翻訳日:2024-04-12 18:16:14 公開日:2024-04-10
# 非プロプライエタリなプレプロシージャによる予測可能なプライバシ

Provable Privacy with Non-Private Pre-Processing ( http://arxiv.org/abs/2403.13041v3 )

ライセンス: Link先を確認
Yaxi Hu, Amartya Sanyal, Bernhard Schölkopf, (参考訳) Differentially Private(DP)機械学習パイプラインを分析する場合、データ依存の事前処理の潜在的なプライバシコストは、プライバシ会計においてしばしば見過ごされる。 本研究では,非プライベートなデータ依存型前処理アルゴリズムによって生じる追加のプライバシーコストを評価するための一般的なフレームワークを提案する。 本フレームワークは,Smooth DPと呼ばれるDPの変種と,前処理アルゴリズムの限界感度という,2つの新しい技術的概念を活用することにより,全体的なプライバシー保証の上限を確立する。 汎用フレームワークに加えて、複数のDPアルゴリズムと組み合わせて使用する場合、データ計算、量子化、復号化、PCAなどの複数のデータ依存事前処理アルゴリズムに対して、全体的なプライバシー保証を提供する。 このフレームワークは実装も簡単で、既存のDPパイプラインに直接統合できる。

When analysing Differentially Private (DP) machine learning pipelines, the potential privacy cost of data-dependent pre-processing is frequently overlooked in privacy accounting. In this work, we propose a general framework to evaluate the additional privacy cost incurred by non-private data-dependent pre-processing algorithms. Our framework establishes upper bounds on the overall privacy guarantees by utilising two new technical notions: a variant of DP termed Smooth DP and the bounded sensitivity of the pre-processing algorithms. In addition to the generic framework, we provide explicit overall privacy guarantees for multiple data-dependent pre-processing algorithms, such as data imputation, quantization, deduplication and PCA, when used in combination with several DP algorithms. Notably, this framework is also simple to implement, allowing direct integration into existing DP pipelines.
翻訳日:2024-04-12 18:16:14 公開日:2024-04-10
# RGB以降のテキスト・画像拡散モデルにおける画像属性の検出

Detecting Image Attribution for Text-to-Image Diffusion Models in RGB and Beyond ( http://arxiv.org/abs/2403.19653v2 )

ライセンス: Link先を確認
Katherine Xu, Lingzhi Zhang, Jianbo Shi, (参考訳) 現代のテキスト・ツー・イメージ(T2I)拡散モデルは、顕著なリアリズムと創造性を持った画像を生成することができる。 これらの進歩は、偽画像の検出と帰属の研究に火をつけているが、以前の研究では、この課題の実際的および科学的側面について完全には研究されていない。 12個の最先端T2Iジェネレータに画像を帰属させるだけでなく、どの推論段階のハイパーパラメータと画像修正が識別可能かを広範囲に分析する。 実験により、初期化種子は、画像生成過程の他の微妙な変化とともに、かなり検出可能であることが明らかとなった。 さらに、高頻度の詳細を摂動させ、画像のスタイルと構造を中間レベルに表現することにより、画像の属性に視覚的トレースがどのように活用されるかについても検討する。 特に、高周波情報の変更は、精度をわずかに低下させるだけであり、スタイル表現における属性のトレーニングは、RGB画像のトレーニングよりも優れています。 分析の結果, 偽画像は従来より様々な視界の粒度で検出可能であり, 帰属可能であることが示された。

Modern text-to-image (T2I) diffusion models can generate images with remarkable realism and creativity. These advancements have sparked research in fake image detection and attribution, yet prior studies have not fully explored the practical and scientific dimensions of this task. In addition to attributing images to 12 state-of-the-art T2I generators, we provide extensive analyses on what inference stage hyperparameters and image modifications are discernible. Our experiments reveal that initialization seeds are highly detectable, along with other subtle variations in the image generation process to some extent. We further investigate what visual traces are leveraged in image attribution by perturbing high-frequency details and employing mid-level representations of image style and structure. Notably, altering high-frequency information causes only slight reductions in accuracy, and training an attributor on style representations outperforms training on RGB images. Our analyses underscore that fake images are detectable and attributable at various levels of visual granularity than previously explored.
翻訳日:2024-04-12 18:16:14 公開日:2024-04-10
# ビジョンランゲージモデルによるニューラルネットワークの概念に基づく解析

Concept-based Analysis of Neural Networks via Vision-Language Models ( http://arxiv.org/abs/2403.19837v3 )

ライセンス: Link先を確認
Ravi Mangal, Nina Narodytska, Divya Gopinath, Boyue Caroline Hu, Anirban Roy, Susmit Jha, Corina Pasareanu, (参考訳) ビジョンベースディープニューラルネットワーク(DNN)の分析は非常に望ましいが、ビジョンタスクの正式な仕様や効率的な検証手順の欠如のため、非常に難しい。 本稿では,新たなマルチモーダル,視覚言語,基礎モデル(VLM)をレンズとして活用することを提案する。 VLMは、テキストによる記述を伴う大量の画像に基づいて訓練されており、画像を記述する高レベルで人間に理解可能な概念を暗黙的に認識している。 これらの概念の観点から仕様の記述を容易にするために設計された論理仕様言語 $\textt{Con}_{\textt{spec}}$ を記述します。 仕様を定義するために、与えられたビジョンモデルの内部表現とVLMの間のマップを構築し、視覚モデルに対する自然言語特性の効率的な検証を行う。 マルチモーダルモデルとしてCLIPを用いたRIVAL-10データセットでトレーニングしたResNetベースの分類器について,本手法を実証する。

The analysis of vision-based deep neural networks (DNNs) is highly desirable but it is very challenging due to the difficulty of expressing formal specifications for vision tasks and the lack of efficient verification procedures. In this paper, we propose to leverage emerging multimodal, vision-language, foundation models (VLMs) as a lens through which we can reason about vision models. VLMs have been trained on a large body of images accompanied by their textual description, and are thus implicitly aware of high-level, human-understandable concepts describing the images. We describe a logical specification language $\texttt{Con}_{\texttt{spec}}$ designed to facilitate writing specifications in terms of these concepts. To define and formally check $\texttt{Con}_{\texttt{spec}}$ specifications, we build a map between the internal representations of a given vision model and a VLM, leading to an efficient verification procedure of natural-language properties for vision models. We demonstrate our techniques on a ResNet-based classifier trained on the RIVAL-10 dataset using CLIP as the multimodal model.
翻訳日:2024-04-12 18:16:14 公開日:2024-04-10
# 不完全ループ:大言語モデルにおける帰納的、帰納的、帰納的学習

An Incomplete Loop: Deductive, Inductive, and Abductive Learning in Large Language Models ( http://arxiv.org/abs/2404.03028v2 )

ライセンス: Link先を確認
Emmy Liu, Graham Neubig, Jacob Andreas, (参考訳) 現代の言語モデル(LM)は、異なる方法で新しいタスクを実行することを学習することができる: 命令に従うと、対象のタスクは自然言語で明示的に記述される; 少数ショットのプロンプトでは、タスクは少数の例で暗黙的に指定される; 命令推論では、LMはインコンテキストの例で示され、予測を行う前に自然言語のタスク記述を生成するように促される。 これらの手順は、それぞれ異なる形の推論を呼び起こすと考えることができる: 命令従順は推論的推論を伴い、ほとんどショットプロンプトは帰納的推論を伴い、命令推論は帰納的推論を伴う。 これらの異なる能力はどのように関連しますか? 4つのLM(gpt と llama family)と2つの学習問題(算術関数と機械翻訳を含む)にまたがって、異なるタイプの推論の間に強い解離が生じている。 本稿は,今日の大規模LMにおいてさえ,推論の非体系的な性質を強調し,非常に異なる学習メカニズムが,一見同様のプロンプト手順によって引き起こされる可能性があることを裏付けるものである。

Modern language models (LMs) can learn to perform new tasks in different ways: in instruction following, the target task is described explicitly in natural language; in few-shot prompting, the task is specified implicitly with a small number of examples; in instruction inference, LMs are presented with in-context examples and are then prompted to generate a natural language task description before making predictions. Each of these procedures may be thought of as invoking a different form of reasoning: instruction following involves deductive reasoning, few-shot prompting involves inductive reasoning, and instruction inference involves abductive reasoning. How do these different capabilities relate? Across four LMs (from the gpt and llama families) and two learning problems (involving arithmetic functions and machine translation) we find a strong dissociation between the different types of reasoning: LMs can sometimes learn effectively from few-shot prompts even when they are unable to explain their own prediction rules; conversely, they sometimes infer useful task descriptions while completely failing to learn from human-generated descriptions of the same task. Our results highlight the non-systematic nature of reasoning even in some of today's largest LMs, and underscore the fact that very different learning mechanisms may be invoked by seemingly similar prompting procedures.
翻訳日:2024-04-12 18:06:21 公開日:2024-04-10
# Eagle and Finch: マトリックス値状態と動的再帰を備えたRWKV

Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence ( http://arxiv.org/abs/2404.05892v2 )

ライセンス: Link先を確認
Bo Peng, Daniel Goldstein, Quentin Anthony, Alon Albalak, Eric Alcaide, Stella Biderman, Eugene Cheah, Xingjian Du, Teddy Ferdinan, Haowen Hou, Przemysław Kazienko, Kranthi Kiran GV, Jan Kocoń, Bartłomiej Koptyra, Satyapriya Krishna, Ronald McClelland Jr., Niklas Muennighoff, Fares Obeid, Atsushi Saito, Guangyu Song, Haoqin Tu, Stanisław Woźniak, Ruichong Zhang, Bingchen Zhao, Qihang Zhao, Peng Zhou, Jian Zhu, Rui-Jie Zhu, (参考訳) 本稿では,RWKV(RWKV-4)アーキテクチャを改良したシーケンスモデルであるEagle(RWKV-5)とFinch(RWKV-6)を提案する。 アーキテクチャ設計の進歩には、マルチヘッド行列値状態と、RNNの推論効率特性を維持しつつ、表現性を向上させるダイナミックリカレンス機構が含まれる。 我々は1.12兆のトークンを持つ新しい多言語コーパスと、強化された多言語性のためのgreedyマッチングに基づく高速トークン化器を導入する。 我々は、0.46から7.5億のパラメータを含む4つのイーグルモデルと1.6と310億のパラメータを持つ2つのフィンチモデルを訓練し、それらが様々なベンチマークで競争性能を達成することを発見した。 私たちはすべてのモデルを Apache 2.0 ライセンスの下で HuggingFace でリリースしています。 Models at: https://github.com/RWKV/RWKV-LM Inference code at: https://github.com/RWKV/ChatRWKV Time-parallel training code at: https://github.com/RWKV/RWKV-infctx-trainer

We present Eagle (RWKV-5) and Finch (RWKV-6), sequence models improving upon the RWKV (RWKV-4) architecture. Our architectural design advancements include multi-headed matrix-valued states and a dynamic recurrence mechanism that improve expressivity while maintaining the inference efficiency characteristics of RNNs. We introduce a new multilingual corpus with 1.12 trillion tokens and a fast tokenizer based on greedy matching for enhanced multilinguality. We trained four Eagle models, ranging from 0.46 to 7.5 billion parameters, and two Finch models with 1.6 and 3.1 billion parameters and find that they achieve competitive performance across a wide variety of benchmarks. We release all our models on HuggingFace under the Apache 2.0 license. Models at: https://huggingface.co/RWKV Training code at: https://github.com/RWKV/RWKV-LM Inference code at: https://github.com/RWKV/ChatRWKV Time-parallel training code at: https://github.com/RWKV/RWKV-infctx-trainer
翻訳日:2024-04-12 17:46:48 公開日:2024-04-10
# 多人数活動認識のための生成的住民分離と多ラベル分類

Generative Resident Separation and Multi-label Classification for Multi-person Activity Recognition ( http://arxiv.org/abs/2404.07245v1 )

ライセンス: Link先を確認
Xi Chen, Julien Cumin, Fano Ramparany, Dominique Vaufreydaz, (参考訳) 本稿では,家庭内環境センサを用いた多人数行動認識の課題に対処する2つのモデルを提案する。 最初のモデルであるSeq2Resは、シーケンス生成アプローチを使用して、異なる居住者からセンサイベントを分離する。 第2のモデルであるBiGRU+Q2Lは、Query2Labelのマルチラベル分類器を使用して、複数のアクティビティを同時に予測する。 これらのモデルの性能は、異なる実験シナリオにおける最先端モデルと比較される。 これらの結果から,複数人物の行動認識のための住民分離と多ラベル分類の利点と欠点が議論された。

This paper presents two models to address the problem of multi-person activity recognition using ambient sensors in a home. The first model, Seq2Res, uses a sequence generation approach to separate sensor events from different residents. The second model, BiGRU+Q2L, uses a Query2Label multi-label classifier to predict multiple activities simultaneously. Performances of these models are compared to a state-of-the-art model in different experimental scenarios, using a state-of-the-art dataset of two residents in a home instrumented with ambient sensors. These results lead to a discussion on the advantages and drawbacks of resident separation and multi-label classification for multi-person activity recognition.
翻訳日:2024-04-12 15:48:02 公開日:2024-04-10
# 有限マルコフ長による混合状態量子相の安定性

Stability of mixed-state quantum phases via finite Markov length ( http://arxiv.org/abs/2404.07251v1 )

ライセンス: Link先を確認
Shengqi Sang, Timothy H. Hsieh, (参考訳) ハミルトン基底状態の量子相の場合、エネルギーギャップは、ギャップが有限である限り、位相の安定性を保証する上で中心的な役割を果たす。 混合状態相と遷移を特徴づける等しく重要な量として,量子条件相互情報(CMI)が指数関数的に減衰する長さ尺度であるマルコフ長を提案する。 局所リンドブラディアンの下で進化する状態について、マルコフの長さが進化に沿って有限であるならば、それは同じ相のままであり、つまり、前者の進化を逆転できる別の準局所リンドブラディアン進化が存在するということである。 この診断をデコヒーレンスに基づくトーリックコードに適用し,マルコフ長はデコヒーレンス遷移以外の至る所で有限であることを示す。 この場合、CMIはランダム結合イジングモデルにおける点欠陥の自由エネルギーコストにマッピングできる。 これは混合状態相転移が陰極性転移と一致することを示唆し、準局所復号チャネルも示唆している。

For quantum phases of Hamiltonian ground states, the energy gap plays a central role in ensuring the stability of the phase as long as the gap remains finite. We propose Markov length, the length scale at which the quantum conditional mutual information (CMI) decays exponentially, as an equally essential quantity characterizing mixed-state phases and transitions. For a state evolving under a local Lindbladian, we argue that if its Markov length remains finite along the evolution, then it remains in the same phase, meaning there exists another quasi-local Lindbladian evolution that can reverse the former one. We apply this diagnostic to toric code subject to decoherence and show that the Markov length is finite everywhere except at its decodability transition, at which it diverges. CMI in this case can be mapped to the free energy cost of point defects in the random bond Ising model. This implies that the mixed state phase transition coincides with the decodability transition and also suggests a quasi-local decoding channel.
翻訳日:2024-04-12 15:48:02 公開日:2024-04-10
# 高スピンヤオリーモデルにおける排他的分解ゲージ構造--スピン分数化と非アベリアン異性体を持つ量子スピン軌道液体

Exact deconfined gauge structures in the higher-spin Yao-Lee model: a quantum spin-orbital liquid with spin fractionalization and non-Abelian anyons ( http://arxiv.org/abs/2404.07261v1 )

ライセンス: Link先を確認
Zhengzhi Wu, Jing-yun Zhang, Hong Yao, (参考訳) スピン-S キタエフモデルは最近、半整数スピンに対してスピン液体基底状態を持つ位相秩序を示すことが示されているが、整数スピンに対する自明なギャップを持つ絶縁体である可能性がある。 この興味深い "even-odd" 効果は、主に半整数(整数)スピンに対するフェルミオン(ボソニック)$\mathbb{Z}_2$ゲージ電荷によるものである。 このレターでは、スピン-S ヤオ-リーモデル(SU(2) スピン回転対称性を持つスピン軌道モデル)が、スピン(整数と半整数スピンの両方)に対して正確な分解されたフェルミオン$\mathbb{Z}2$ゲージ電荷を持ち、スピン量子数の価値に関係なく位相的に非自明な量子スピン-軌道液体(QSOL)基底状態を意味することを理論的に示している。 さらに、制御された摂動方法で解けるスピン-1 ヤオリーモデルの易軸限界について検討し、ギャップレスQSOL基底状態を示し、ギャップレスQSOLのディラック円錐をギャップアウトする時間反転相互作用を考慮し、非アベリア位相秩序をホストできることを示す。

The spin-S Kitaev model has recently been shown to definitely exhibit topological order with spin liquid ground states for half-integer spin, but could be trivially gapped insulators for integer spin. This interesting "even-odd" effect is largely due to the fermionic (bosonic) $\mathbb{Z}_2$ gauge charges for half-integer (integer) spin. In this Letter, we theoretically show that a spin-S Yao-Lee model (a spin-orbital model with SU(2) spin-rotation symmetry) possesses exact deconfined fermionic $\mathbb{Z}_2$ gauge charges for any spin (both integer and half integer spin), which implies a topologically-nontrivial quantum spin-orbital liquid (QSOL) ground state regardless of the value of the spin quantum number. We further study the easy-axis limit of the spin-1 Yao-Lee model which can be solved in a controlled perturbative way and show that it exhibits a gapless QSOL ground state, which can even host a non-Abelian topological order by further considering time-reversal breaking interactions to gap out the Dirac cones of the gapless QSOL.
翻訳日:2024-04-12 15:48:02 公開日:2024-04-10
# 観測不能な不均一性の下でのエキスパートによる逐次決定

Sequential Decision Making with Expert Demonstrations under Unobserved Heterogeneity ( http://arxiv.org/abs/2404.07266v1 )

ライセンス: Link先を確認
Vahid Balazadeh, Keertana Chidambaram, Viet Nguyen, Rahul G. Krishnan, Vasilis Syrgkanis, (参考訳) 本研究では,未観測の文脈情報に基づいて意思決定を行った専門家による補助的な実演を行い,オンライン上での逐次意思決定の課題について検討する。 これらのデモンストレーションは、学習者が直面するものとは、関連するが少し異なるタスクを解決していると見なすことができる。 この設定は、自動運転車、ヘルスケア、金融など、多くのアプリケーションドメインで発生し、専門家によるデモンストレーションは、学習エージェントが利用可能なデータに記録されていないコンテキスト情報を使って行われる。 本研究では,未知のタスク分布を持つゼロショットメタ強化学習環境と,未観測タスクを未知の先行パラメータとして符号化したベイズ後悔最小化目標とをモデル化する。 本稿では,最大エントロピーの原理を利用して,学習者の意思決定問題に対する情報的先行性を確立する非パラメトリックなベイズ手法であるExpers-as-Priorsアルゴリズム(ExPerior)を提案する。 この方法では、後続サンプリングのようなオンライン意思決定にベイズ的アプローチを適用することができる。 当社の戦略は,複数武器の盗賊と強化学習のための既存の行動クローニングとオンラインアルゴリズムを超越し,さまざまな意思決定環境における専門家による実演の活用におけるアプローチの有用性を示すものである。

We study the problem of online sequential decision-making given auxiliary demonstrations from experts who made their decisions based on unobserved contextual information. These demonstrations can be viewed as solving related but slightly different tasks than what the learner faces. This setting arises in many application domains, such as self-driving cars, healthcare, and finance, where expert demonstrations are made using contextual information, which is not recorded in the data available to the learning agent. We model the problem as a zero-shot meta-reinforcement learning setting with an unknown task distribution and a Bayesian regret minimization objective, where the unobserved tasks are encoded as parameters with an unknown prior. We propose the Experts-as-Priors algorithm (ExPerior), a non-parametric empirical Bayes approach that utilizes the principle of maximum entropy to establish an informative prior over the learner's decision-making problem. This prior enables the application of any Bayesian approach for online decision-making, such as posterior sampling. We demonstrate that our strategy surpasses existing behaviour cloning and online algorithms for multi-armed bandits and reinforcement learning, showcasing the utility of our approach in leveraging expert demonstrations across different decision-making setups.
翻訳日:2024-04-12 15:48:02 公開日:2024-04-10
# 学習と絡み合いの境界と保証

Bounds and guarantees for learning and entanglement ( http://arxiv.org/abs/2404.07277v1 )

ライセンス: Link先を確認
Evan Peters, (参考訳) 情報理論は、与えられたデータセット上での学習アルゴリズムのパフォーマンスを予測するツールを提供する。 例えば、未知パラメータの学習の精度は、学習タスクを離散確率変数の仮説テストに還元し、ファノの不等式を用いて学習者の観察と未知パラメータの間の小さな条件エントロピーが、成功した推定に必要であることを示すことによって上界化することができる。 この研究は、まず、学習を成功させるためには、小さな条件エントロピーも十分であることを示すことで、この関係を拡大し、学習者の正確性に基づいた情報理論の下限を確立する。 この情報理論と学習の関連性は、量子システムを含む学習タスクを特徴づけるために、同様に量子情報理論を適用することを示唆している。 最大交絡状態(一重項分数)を持つ有限次元量子系の忠実度が離散確率変数を推定する成功確率を一般化するのを見て、同様に古典的な学習を一般化する無限次元量子系の交絡操作タスクを導入する。 我々は、適切な有限次元離散化の最大一重項分数の観点から、このタスクで成功するための情報理論境界を導出する。 この課題の特別な事例として古典的な学習が回収されるにつれて、学習、絡み合い、情報のインターフェースにおいてより深い関係が示唆される。

Information theory provides tools to predict the performance of a learning algorithm on a given dataset. For instance, the accuracy of learning an unknown parameter can be upper bounded by reducing the learning task to hypothesis testing for a discrete random variable, with Fano's inequality then stating that a small conditional entropy between a learner's observations and the unknown parameter is necessary for successful estimation. This work first extends this relationship by demonstrating that a small conditional entropy is also sufficient for successful learning, thereby establishing an information-theoretic lower bound on the accuracy of a learner. This connection between information theory and learning suggests that we might similarly apply quantum information theory to characterize learning tasks involving quantum systems. Observing that the fidelity of a finite-dimensional quantum system with a maximally entangled state (the singlet fraction) generalizes the success probability for estimating a discrete random variable, we introduce an entanglement manipulation task for infinite-dimensional quantum systems that similarly generalizes classical learning. We derive information-theoretic bounds for succeeding at this task in terms of the maximal singlet fraction of an appropriate finite-dimensional discretization. As classical learning is recovered as a special case of this task, our analysis suggests a deeper relationship at the interface of learning, entanglement, and information.
翻訳日:2024-04-12 15:48:02 公開日:2024-04-10
# ランダム行列を用いた貯留層状態記述の生成

Generating Reservoir State Descriptions with Random Matrices ( http://arxiv.org/abs/2404.07278v1 )

ライセンス: Link先を確認
Samuel Tovey, Christian Holm, Michael Spannowsky, (参考訳) 本稿では,量子システムとランダム行列を用いてコンピュータ計測を貯蓄する新しい手法を実証し,原子スケールのデバイスが現実世界のコンピューティングアプリケーションにどのように使われるかを示す。 提案手法では, ランダム行列を用いて貯水池の測定を行い, 簡易でスケーラブルな状態記述手法を提案する。 本研究では, 時系列予測やデータ補間など, 5原子ハイゼンベルクスピンチェーンのような単純なシステムを用いて, いくつかのタスクを遂行する。 測定手法の性能および現状の限界について, ランダムな行列による測定の多様性の探索とともに詳細に考察した。 さらに,スピンチェーンのパラメータの役割を探求し,結合強度と測定次元を調整し,これらの学習機械を異なる問題に対して自動的に調整する方法についての洞察を得る。 本研究は,自然学習装置における単純な量子系の測定におけるランダム行列の利用を強調し,その性能向上と実験的実現に向けての道筋を概説する。

We demonstrate a novel approach to reservoir computer measurements through the use of a simple quantum system and random matrices to motivate how atomic-scale devices might be used for real-world computing applications. In our approach, random matrices are used to construct reservoir measurements, introducing a simple, scalable means for producing state descriptions. In our studies, systems as simple as a five-atom Heisenberg spin chain are used to perform several tasks, including time series prediction and data interpolation. The performance of the measurement technique as well as their current limitations are discussed in detail alongside an exploration of the diversity of measurements yielded by the random matrices. Additionally, we explore the role of the parameters of the spin chain, adjusting coupling strength and the measurement dimension, yielding insights into how these learning machines might be automatically tuned for different problems. This research highlights the use of random matrices as measurements of simple quantum systems for natural learning devices and outlines a path forward for improving their performance and experimental realisation.
翻訳日:2024-04-12 15:48:02 公開日:2024-04-10
# ほとんど全ての量子状態が、わずかに1量子ビットの測定で認証される

Certifying almost all quantum states with few single-qubit measurements ( http://arxiv.org/abs/2404.07281v1 )

ライセンス: Link先を確認
Hsin-Yuan Huang, John Preskill, Mehdi Soleimanifar, (参考訳) 実験室で合成されたn量子状態が目標状態に近いことが、量子情報科学の基本的な課題である。 しかし、既存の厳密なプロトコルは深い量子回路を必要とするか、指数的に多くの単一量子ビットの測定を必要とする。 本研究では、指数回路の複雑さを含むほぼすべてのn-量子目標状態が、O(n^2)単量子測定でのみ証明可能であることを証明した。 この結果は、ランダムウォークの混合時間に認証を関連付ける新しい手法によって確立される。 提案プロトコルは、量子システムのベンチマーク、量子回路の最適化による所望の目標状態の生成、ニューラルネットワーク、テンソルネットワーク、および量子状態の様々な表現の学習と検証に、単一量子ビット測定のみを用いて応用されている。 このような検証された表現は、指数的な測定数を必要とするような高度に非局所的な特性を効率的に予測するために使用できることを示す。 最大120キュービットの数値実験において,これらの応用を実証し,クロスエントロピーベンチマーク(XEB)などの既存手法に対する優位性を観察する。

Certifying that an n-qubit state synthesized in the lab is close to the target state is a fundamental task in quantum information science. However, existing rigorous protocols either require deep quantum circuits or exponentially many single-qubit measurements. In this work, we prove that almost all n-qubit target states, including those with exponential circuit complexity, can be certified from only O(n^2) single-qubit measurements. This result is established by a new technique that relates certification to the mixing time of a random walk. Our protocol has applications for benchmarking quantum systems, for optimizing quantum circuits to generate a desired target state, and for learning and verifying neural networks, tensor networks, and various other representations of quantum states using only single-qubit measurements. We show that such verified representations can be used to efficiently predict highly non-local properties that would otherwise require an exponential number of measurements. We demonstrate these applications in numerical experiments with up to 120 qubits, and observe advantage over existing methods such as cross-entropy benchmarking (XEB).
翻訳日:2024-04-12 15:48:02 公開日:2024-04-10
# 拡散ビジョン変換器を用いた仮面Jigsawパズルの解法

Solving Masked Jigsaw Puzzles with Diffusion Vision Transformers ( http://arxiv.org/abs/2404.07292v1 )

ライセンス: Link先を確認
Jinyang Liu, Wondmgezahu Teshome, Sandesh Ghimire, Mario Sznaier, Octavia Camps, (参考訳) 画像とビデオのジグソーパズルを解くことは、意味のある画像やビデオのシーケンスを復元するために、順序のないシーケンスから画像の断片やビデオフレームを並べ替える難しい作業となる。 既存のアプローチはしばしば、パズル要素の絶対的な位置または元のデータに適用される置換動作の予測を行う識別モデルにヒンジする。 残念なことに、これらの手法は多数の要素を持つパズルを効果的に解くのに限界に直面している。 本稿では,この課題に対処するために拡散変換器を利用する革新的な手法であるJPDVTを提案する。 具体的には、画像パッチやビデオフレームの位置情報を、その基盤となる視覚的内容に基づいて生成する。 この情報を使ってパズルのピースを正しい位置に正確に組み立てる。 提案手法は,複数のデータセットの最先端性能を実現する。

Solving image and video jigsaw puzzles poses the challenging task of rearranging image fragments or video frames from unordered sequences to restore meaningful images and video sequences. Existing approaches often hinge on discriminative models tasked with predicting either the absolute positions of puzzle elements or the permutation actions applied to the original data. Unfortunately, these methods face limitations in effectively solving puzzles with a large number of elements. In this paper, we propose JPDVT, an innovative approach that harnesses diffusion transformers to address this challenge. Specifically, we generate positional information for image patches or video frames, conditioned on their underlying visual content. This information is then employed to accurately assemble the puzzle pieces in their correct positions, even in scenarios involving missing pieces. Our method achieves state-of-the-art performance on several datasets.
翻訳日:2024-04-12 15:48:02 公開日:2024-04-10
# 競争産業における合併と買収の予測--時間的ダイナミクスと産業ネットワークに基づくモデル

Predicting Mergers and Acquisitions in Competitive Industries: A Model Based on Temporal Dynamics and Industry Networks ( http://arxiv.org/abs/2404.07298v1 )

ライセンス: Link先を確認
Dayu Yang, (参考訳) M&A活動は市場統合にとって重要な要素であり、企業が戦略的補完を通じて市場力を増強することができる。 既存の研究はしばしば、企業間のM&A行動の相互影響であるピア効果を見落とし、業界ネットワーク内の複雑な相互依存を捉えるのに失敗する。 一般的なアプローチは、アドホックな機能エンジニアリング、データトランケーション、重大な情報損失、予測精度の低下、現実世界のアプリケーションにおける課題などに依存する。 さらに、M&Aイベントの希少さは、バイアスを導入し、予測信頼性を損なうなど、従来のモデルにおけるデータ再バランスを必要とする。 本稿では,TDIN(Temporal Dynamic Industry Network)を利用して,時間的ポイントプロセスと深層学習を利用して,業界全体のM&Aダイナミクスを効果的に捉える,革新的なM&A予測モデルを提案する。 このモデルは,1997年1月から2020年12月にかけてのM&A症例による評価結果から,任意のデータ操作や再バランスを伴わない,正確かつ詳細な取引レベルの予測を容易にする。 当社のアプローチは、M&A活動に関する詳細な洞察と、特定の企業に対する戦略的レコメンデーションを提供することによって、従来のモデルよりも大幅に改善されている。

M&A activities are pivotal for market consolidation, enabling firms to augment market power through strategic complementarities. Existing research often overlooks the peer effect, the mutual influence of M&A behaviors among firms, and fails to capture complex interdependencies within industry networks. Common approaches suffer from reliance on ad-hoc feature engineering, data truncation leading to significant information loss, reduced predictive accuracy, and challenges in real-world application. Additionally, the rarity of M&A events necessitates data rebalancing in conventional models, introducing bias and undermining prediction reliability. We propose an innovative M&A predictive model utilizing the Temporal Dynamic Industry Network (TDIN), leveraging temporal point processes and deep learning to adeptly capture industry-wide M&A dynamics. This model facilitates accurate, detailed deal-level predictions without arbitrary data manipulation or rebalancing, demonstrated through superior evaluation results from M&A cases between January 1997 and December 2020. Our approach marks a significant improvement over traditional models by providing detailed insights into M&A activities and strategic recommendations for specific firms.
翻訳日:2024-04-12 15:48:02 公開日:2024-04-10
# 二次古典ハミルトニアンをシミュレートする量子アルゴリズムと最適制御

Quantum algorithms to simulate quadratic classical Hamiltonians and optimal control ( http://arxiv.org/abs/2404.07303v1 )

ライセンス: Link先を確認
Hari Krovi, (参考訳) 現実的な古典力学系のシミュレーションは、ロボット工学、回転機械の力学、制御理論など多くの分野において非常に重要である。 本研究では,古典力学系において,摩擦や減衰の存在下での運動エネルギーや,強制あるいは源項の存在下での利害関係を推定する量子アルゴリズムを開発し,実用的な利害関係のアルゴリズムを提案する。 このような系に対して、量子アルゴリズムは系の次元の対数と多項式的にスケールすることを示す。 この問題をハミルトンの運動方程式(ラグランジアンの最初の変分と同値)で表現し、微分方程式の量子アルゴリズムを用いて解いた。 次に、減衰結合型発振器系の運動エネルギーを推定する難しさについて考察する。 この系の所定の時間における運動エネルギーを加法精度で推定することは、減衰項の強さが量子ビット数における逆多項式によって束縛されているとき、BQP硬くなることを示す。 次に、古典システムの最適制御を設計する問題を、ラグランジアンの第2変種とみなすことができる。 この方向では、制御理論においてユビキタスな非線形微分方程式であるリカティ方程式を考える。 我々は、リカティ微分方程式を非線形状態にうまく解くための効率的な量子アルゴリズムを与える。 我々の知る限り、これは非線形性の強さが散逸の量よりも漸近的に大きいときに解ける任意の非線形微分方程式の最初の例である。 次に、このアルゴリズムを用いて、ハミルトン・ヤコビ・ベルマン方程式の例である線形二次規制問題を解く方法を示す。

Simulation of realistic classical mechanical systems is of great importance to many areas of engineering such as robotics, dynamics of rotating machinery and control theory. In this work, we develop quantum algorithms to estimate quantities of interest such as the kinetic energy in a given classical mechanical system in the presence of friction or damping as well as forcing or source terms, which makes the algorithm of practical interest. We show that for such systems, the quantum algorithm scales polynomially with the logarithm of the dimension of the system. We cast this problem in terms of Hamilton's equations of motion (equivalent to the first variation of the Lagrangian) and solve them using quantum algorithms for differential equations. We then consider the hardness of estimating the kinetic energy of a damped coupled oscillator system. We show that estimating the kinetic energy at a given time of this system to within additive precision is BQP hard when the strength of the damping term is bounded by an inverse polynomial in the number of qubits. We then consider the problem of designing optimal control of classical systems, which can be cast as the second variation of the Lagrangian. In this direction, we first consider the Riccati equation, which is a nonlinear differential equation ubiquitous in control theory. We give an efficient quantum algorithm to solve the Riccati differential equation well into the nonlinear regime. To our knowledge, this is the first example of any nonlinear differential equation that can be solved when the strength of the nonlinearity is asymptotically greater than the amount of dissipation. We then show how to use this algorithm to solve the linear quadratic regulator problem, which is an example of the Hamilton-Jacobi-Bellman equation.
翻訳日:2024-04-12 15:48:02 公開日:2024-04-10
# 言語モデル適応を言語学的変化の異なるタイプに近づける「介入」

We're Calling an Intervention: Taking a Closer Look at Language Model Adaptation to Different Types of Linguistic Variation ( http://arxiv.org/abs/2404.07304v1 )

ライセンス: Link先を確認
Aarohi Srivastava, David Chiang, (参考訳) 本稿では,言語的変化を伴うテキストへの言語モデル適応(例えば,非標準テキスト,方言テキスト)を理解するための介入と実験について述べる。 我々の介入は、言語変化のいくつかの特徴に対処し、結果として、文字、サブワード、単語レベルの変化をもたらす。 学習データのサイズや性質の異なる言語モデル適応時の介入を適用することで、言語モデルが特に扱うのがなぜ言語モデルに難しいのか、重要な洞察を得る。 例えば、文字レベルのバリエーションのあるテキストでは、いくつかのトレーニング例でもパフォーマンスが向上するが、プラトーに近づくと、より多くのデータがソリューションではないことが示唆される。 対照的に、新しい単語や意味を含むバリエーションのあるテキストでは、はるかに多くのデータが必要ですが、パフォーマンスに大きなブレークスルーをもたらします。 本研究は,方言NLPに関する今後の研究や,言語モデルが言語学的変化に対してより堅牢になることを示すものである。 我々は、英語のテキストデータに適用可能な介入のためのコードを作成し、公開しています。

We present a suite of interventions and experiments that allow us to understand language model adaptation to text with linguistic variation (e.g., nonstandard or dialectal text). Our interventions address several features of linguistic variation, resulting in character, subword, and word-level changes. Applying our interventions during language model adaptation with varying size and nature of training data, we gain important insights into what makes linguistic variation particularly difficult for language models to deal with. For instance, on text with character-level variation, performance improves with even a few training examples but approaches a plateau, suggesting that more data is not the solution. In contrast, on text with variation involving new words or meanings, far more data is needed, but it leads to a massive breakthrough in performance. Our findings inform future work on dialectal NLP and making language models more robust to linguistic variation overall. We make the code for our interventions, which can be applied to any English text data, publicly available.
翻訳日:2024-04-12 15:48:02 公開日:2024-04-10
# 単結晶ダイヤモンド成長モデルのためのAI誘導欠陥検出技術

AI-Guided Defect Detection Techniques to Model Single Crystal Diamond Growth ( http://arxiv.org/abs/2404.07306v1 )

ライセンス: Link先を確認
Rohan Reddy Mekala, Elias Garratt, Matthias Muehle, Arjun Srinivasan, Adam Porter, Mikael Lindvall, (参考訳) プロセス開発の観点からは、化学気相蒸着によるダイヤモンドの成長が著しく進展した。 しかし、高品質で大面積の材料生産を達成する上での課題は続いている。 これらの困難には、成長面全体の均一な成長率を維持するための制御条件が含まれる。 成長が進むにつれて、様々な要因や欠陥状態が出現し、均一な状態が変化する。 これらの変化は成長速度に影響を与え、その結果ミクロスケールで結晶欠陥が形成される。 しかし、成長過程で撮影された画像を用いて、これらの欠陥状態とそれらの幾何を特定する方法が明らかに欠如している。 本論文は, マクロスケールで見られる欠陥状態を示す特徴を特定するために, その場光学画像を用いた欠陥分割パイプラインに関する基礎研究を詳述する。 本研究で適用した意味的セグメンテーション手法を用いて,これらの欠陥状態とそれに対応する微分特徴を,画素マスクによって分離・分類する。 アノテーションに着目したヒューマン・イン・ザ・ループ・ソフトウェアアーキテクチャを用いてトレーニングデータセットを作成し、アクティブラーニング、データ拡張、モデル支援ラベルを用いた選択的データラベリングのためのモジュールを用いて、効果的なアノテーション精度を実現し、桁違いのラベリングの時間とコストを大幅に削減する。 モデル開発の面では、ディープラーニングベースのアルゴリズムが最も効率的であることが分かりました。 機能豊富なデータセットから複雑な表現を正確に学習することができる。 YOLOV3とDeeplabV3の余剰アーキテクチャをベースとした我々の最高の性能モデルは、興味のある特定の特徴に対して優れた精度を実現した。 具体的には、中心欠陥は93.35%、多結晶欠陥は92.83%、縁欠陥は91.98%に達した。

From a process development perspective, diamond growth via chemical vapor deposition has made significant strides. However, challenges persist in achieving high quality and large-area material production. These difficulties include controlling conditions to maintain uniform growth rates for the entire growth surface. As growth progresses, various factors or defect states emerge, altering the uniform conditions. These changes affect the growth rate and result in the formation of crystalline defects at the microscale. However, there is a distinct lack of methods to identify these defect states and their geometry using images taken during the growth process. This paper details seminal work on defect segmentation pipeline using in-situ optical images to identify features that indicate defective states that are visible at the macroscale. Using a semantic segmentation approach as applied in our previous work, these defect states and corresponding derivative features are isolated and classified by their pixel masks. Using an annotation focused human-in-the-loop software architecture to produce training datasets, with modules for selective data labeling using active learning, data augmentations, and model-assisted labeling, our approach achieves effective annotation accuracy and drastically reduces the time and cost of labeling by orders of magnitude. On the model development front, we found that deep learning-based algorithms are the most efficient. They can accurately learn complex representations from feature-rich datasets. Our best-performing model, based on the YOLOV3 and DeeplabV3plus architectures, achieved excellent accuracy for specific features of interest. Specifically, it reached 93.35% accuracy for center defects, 92.83% for polycrystalline defects, and 91.98% for edge defects.
翻訳日:2024-04-12 15:48:02 公開日:2024-04-10
# PM2.5推定のための潜時依存因子による伝達学習

Transfer Learning via Latent Dependency Factor for Estimating PM 2.5 ( http://arxiv.org/abs/2404.07308v1 )

ライセンス: Link先を確認
Shrey Gupta, Yongbee Park, Jianzhao Bi, Suyash Gupta, Andreas Züfle, Avani Wildani, Yang Liu, (参考訳) 大気汚染、特に粒子状物質2.5(PM 2.5)は公衆衛生への関心が高まり、地上センサーの不足により発展途上国(データ汚染地域)では推定が難しい。 移行学習モデルは、知識を得るために代替データソース(すなわち、データ豊富な領域のデータ)を使用するため、この問題を解決するために利用することができる。 しかし、現在の転送学習手法は、ソースとターゲットドメイン間の依存関係を考慮しない。 我々はこの伝達問題を空間伝達学習として認識し、両方の領域の空間的および意味的依存関係をキャプチャし、その後データセットに追加するLatent Dependency Factor (LDF) という新機能を提案する。 我々は、類似したソースとターゲットドメインデータのクラスタから学習する新しい2段階オートエンコーダモデルを用いてLPFを生成する。 実験の結果, LDFを用いたトランスファーモデルでは, 最高性能のベースラインよりも19.34 %$改善されていることがわかった。 さらに、定性的な結果で実験を支援します。

Air pollution, especially particulate matter 2.5 (PM 2.5), is a pressing concern for public health and is difficult to estimate in developing countries (data-poor regions) due to a lack of ground sensors. Transfer learning models can be leveraged to solve this problem, as they use alternate data sources to gain knowledge (i.e., data from data-rich regions). However, current transfer learning methodologies do not account for dependencies between the source and the target domains. We recognize this transfer problem as spatial transfer learning and propose a new feature named Latent Dependency Factor (LDF) that captures spatial and semantic dependencies of both domains and is subsequently added to the datasets. We generate LDF using a novel two-stage autoencoder model that learns from clusters of similar source and target domain data. Our experiments show that transfer models using LDF have a $19.34\%$ improvement over the best-performing baselines. We additionally support our experiments with qualitative results.
翻訳日:2024-04-12 15:48:02 公開日:2024-04-10
# 無線エッジにおけるメディアストリーミングのための構造化強化学習

Structured Reinforcement Learning for Media Streaming at the Wireless Edge ( http://arxiv.org/abs/2404.07315v1 )

ライセンス: Link先を確認
Archana Bura, Sarat Chandra Bobbili, Shreyas Rameshkumar, Desik Rengarajan, Dileep Kalathil, Srinivas Shakkottai, (参考訳) メディアストリーミングは、無線エッジ(アクセス)ネットワーク上の支配的なアプリケーションである。 このようなネットワークのソフトウォー化の増大は、ユーザエクスペリエンスを高めるためにアプリケーション固有のアクションを動的に取り込む、インテリジェントな制御への取り組みにつながっている。 本研究の目的は、ビデオストリーミング環境でどのクライアントを動的に優先順位付けするかを決定するための最適な意思決定のための学習ベースのポリシーの開発と実証である。 政策設計問題を制約付きマルコフ決定問題 (CMDP) として定式化し、ラグランジアン緩和を用いることで、単一サイクル問題に分解できることを観察する。 さらに,ビデオバッファ長のしきい値を用いて,効率的な制約付き強化学習(CRL)アルゴリズムを設計して学習する。 具体的には,問題の構造を用いて導出される自然ポリシー勾配(NPG)に基づくアルゴリズムが,グローバルな最適ポリシーに収束することを示す。 次に、トレーニングのためのシミュレーション環境と、評価のためのWiFiアクセスポイントにアタッチされた現実世界のインテリジェントコントローラを開発する。 構造化学習アプローチが高速学習を可能にすることを実証的に示す。 さらに、そのような構造化されたポリシーは、計算の複雑さが低いために容易に展開でき、ポリシーの実行には15$\mu$sしかかからない。 リソース制約のあるシナリオでYouTubeストリーミング実験を使用することで、CRLアプローチがQoEを30%以上増加させることができることを示す。

Media streaming is the dominant application over wireless edge (access) networks. The increasing softwarization of such networks has led to efforts at intelligent control, wherein application-specific actions may be dynamically taken to enhance the user experience. The goal of this work is to develop and demonstrate learning-based policies for optimal decision making to determine which clients to dynamically prioritize in a video streaming setting. We formulate the policy design question as a constrained Markov decision problem (CMDP), and observe that by using a Lagrangian relaxation we can decompose it into single-client problems. Further, the optimal policy takes a threshold form in the video buffer length, which enables us to design an efficient constrained reinforcement learning (CRL) algorithm to learn it. Specifically, we show that a natural policy gradient (NPG) based algorithm that is derived using the structure of our problem converges to the globally optimal policy. We then develop a simulation environment for training, and a real-world intelligent controller attached to a WiFi access point for evaluation. We empirically show that the structured learning approach enables fast learning. Furthermore, such a structured policy can be easily deployed due to low computational complexity, leading to policy execution taking only about 15$\mu$s. Using YouTube streaming experiments in a resource constrained scenario, we demonstrate that the CRL approach can increase QoE by over 30%.
翻訳日:2024-04-12 15:48:02 公開日:2024-04-10
# 分極と周波数の間に制御NOTゲートを構築する

Building a controlled-NOT gate between polarization and frequency ( http://arxiv.org/abs/2404.07317v1 )

ライセンス: Link先を確認
Hsuan-Hao Lu, Joseph M. Lukens, Muneer Alshowkan, Brian T. Kirby, Nicholas A. Peters, (参考訳) 単一光子内で複数の自由度(DoF)を利用することにより、2量子制御NOT(CNOT)ゲートのような制御された量子ユニタリは、密度符号化や絡み合い蒸留のような量子通信プロトコルの進展において重要な役割を果たす。 本研究では、ファイバサニャックループ内の方向依存型電気光学位相変調を利用して、偏光と周波数DoF間のCNOT動作を考案し、実現した。 計算ベース測定の他に、単一光子中の4つのベル状態全てを98%以上の忠実度で合成することで、この操作の有効性を検証する。 このデモンストレーションは、これらの2つの重要なDoF間でのハイパーエンタングルメントを操作するための新しい道を開き、将来の量子応用のためにファイバネットワークにおける偏光周波数リソースを活用するための基礎的なステップとなる。

By harnessing multiple degrees of freedom (DoFs) within a single photon, controlled quantum unitaries, such as the two-qubit controlled-NOT (CNOT) gate, play a pivotal role in advancing quantum communication protocols like dense coding and entanglement distillation. In this work, we devise and realize a CNOT operation between polarization and frequency DoFs by exploiting directionally dependent electro-optic phase modulation within a fiber Sagnac loop. Alongside computational basis measurements, we validate the effectiveness of this operation through the synthesis of all four Bell states in a single photon, all with fidelities greater than 98%. This demonstration opens new avenues for manipulating hyperentanglement across these two crucial DoFs, marking a foundational step toward leveraging polarization-frequency resources in fiber networks for future quantum applications.
翻訳日:2024-04-12 15:38:10 公開日:2024-04-10
# 医用画像翻訳における知覚基準の再考

Rethinking Perceptual Metrics for Medical Image Translation ( http://arxiv.org/abs/2404.07318v1 )

ライセンス: Link先を確認
Nicholas Konz, Yuwen Chen, Hanxue Gu, Haoyu Dong, Maciej A. Mazurowski, (参考訳) 現代の医用画像翻訳法では、CT画像からMRIへの変換などのタスクに生成モデルを使用する。 これらのメソッドの評価は通常、セグメンテーションのようなターゲットドメインで選択されたダウンストリームタスクに依存する。 一方、一般的なコンピュータビジョンにおける画像翻訳に共通するネットワーク特徴に基づく知覚的メトリクス(例えば、FID)など、タスク非依存のメトリクスは魅力的である。 本稿では,2つの医用画像翻訳作業(GE breast MRI, Siemens breast MRI, 腰椎MRI, CT)における医用画像翻訳の評価指標について検討した。 本研究は,FIDが特に矛盾していることから,知覚的指標とセグメンテーションの指標との相関が,このサブフィールドの解剖学的制約に乏しいことから,一般的には相関しないことを示す。 しかし, より少ない画素レベルのSWDは, 微妙なモダリティ内翻訳に有用である可能性が示唆された。 以上の結果から,医用画像翻訳に有用な指標のさらなる研究の必要性が示唆された。

Modern medical image translation methods use generative models for tasks such as the conversion of CT images to MRI. Evaluating these methods typically relies on some chosen downstream task in the target domain, such as segmentation. On the other hand, task-agnostic metrics are attractive, such as the network feature-based perceptual metrics (e.g., FID) that are common to image translation in general computer vision. In this paper, we investigate evaluation metrics for medical image translation on two medical image translation tasks (GE breast MRI to Siemens breast MRI and lumbar spine MRI to CT), tested on various state-of-the-art translation methods. We show that perceptual metrics do not generally correlate with segmentation metrics due to them extending poorly to the anatomical constraints of this sub-field, with FID being especially inconsistent. However, we find that the lesser-used pixel-level SWD metric may be useful for subtle intra-modality translation. Our results demonstrate the need for further research into helpful metrics for medical image translation.
翻訳日:2024-04-12 15:38:10 公開日:2024-04-10
# 効率的な量子機械学習のための修正脱分極手法

A Modified Depolarization Approach for Efficient Quantum Machine Learning ( http://arxiv.org/abs/2404.07330v1 )

ライセンス: Link先を確認
Bikram Khanal, Pablo Rivas, (参考訳) Noisy Intermediate-Scale Quantum (NISQ) 時代における量子コンピューティングは、機械学習、最適化、暗号における有望な応用を示している。 進歩にもかかわらず、量子システムのシミュレーションを複雑にするシステムノイズ、エラー、デコヒーレンスにより、課題は継続する。 分極チャネルは量子システムのノイズをシミュレートするための標準ツールである。 しかし, NISQ 時代のように, ハードウェア資源が限られている場合, 実用上そのようなノイズをモデル化するのは計算コストがかかる。 X と Z のパウリ行列のみに基づく2つのクラウス作用素を持つ単一キュービットの分極チャネルに対する変形表現を提案する。 提案手法は,チャネルの実行毎に6つの行列乗算から4つの行列乗算へと計算複雑性を減少させる。 Irisデータセット上での量子機械学習(QML)モデルの実験により、回路深度と偏極速度がモデルの精度を維持しながら効率を向上することを確認した。 この単純化されたノイズモデルにより、非分極下での量子回路のよりスケーラブルなシミュレーションが可能となり、NISQ時代には能力が向上した。

Quantum Computing in the Noisy Intermediate-Scale Quantum (NISQ) era has shown promising applications in machine learning, optimization, and cryptography. Despite the progress, challenges persist due to system noise, errors, and decoherence that complicate the simulation of quantum systems. The depolarization channel is a standard tool for simulating a quantum system's noise. However, modeling such noise for practical applications is computationally expensive when we have limited hardware resources, as is the case in the NISQ era. We propose a modified representation for a single-qubit depolarization channel with two Kraus operators based only on X and Z Pauli matrices. Our approach reduces the computational complexity from six to four matrix multiplications per execution of a channel. Experiments on a Quantum Machine Learning (QML) model on the Iris dataset across various circuit depths and depolarization rates validate that our approach maintains the model's accuracy while improving efficiency. This simplified noise model enables more scalable simulations of quantum circuits under depolarization, advancing capabilities in the NISQ era.
翻訳日:2024-04-12 15:38:10 公開日:2024-04-10
# PEAVS:視聴者の意見スコアに接地した視覚的シンフォニーの知覚的評価

PEAVS: Perceptual Evaluation of Audio-Visual Synchrony Grounded in Viewers' Opinion Scores ( http://arxiv.org/abs/2404.07336v1 )

ライセンス: Link先を確認
Lucas Goncalves, Prashant Mathur, Chandrashekhar Lavania, Metehan Cekic, Marcello Federico, Kyu J. Han, (参考訳) 近年、深層学習の進展とデータリッチなベンチマークの利用可能化により、音声・視覚生成モデリングの進歩が加速している。 しかし、この成長はモデルやベンチマークだけによるものではない。 普遍的に受け入れられた評価指標は、分野を前進させる上でも重要な役割を果たす。 音声と視覚コンテンツを別々に評価するメトリクスはたくさんあるが、ビデオの「野生」における音声と視覚の同期の定量的かつ解釈可能な尺度を提供するメトリクスは不足している。 このギャップに対処するため、私たちはまず、音声・視覚コンテンツにおける9種類の同期エラーと、それを人間がどのように知覚するかを表す大規模な人間の注釈付きデータセット(100時間以上)を作成しました。 PEAVS(Perceptual Evaluation of Audio-Visual Synchrony)スコアを開発した。 我々は,新たに生成されたデータセットを用いてPEAVSを検証し,Pearson相関を設定レベルで0.79,クリップレベルで0.54とした。 実験では、Fr'echetをベースとしたオーディオ・ビジュアル・シンクロニーの自然な拡張に対する相対的なゲイン50%を観察し、ビデオ「野生」における音声・ビジュアル・シンクロの主観的知覚を客観的にモデル化するPEAVSの有効性を確認した。

Recent advancements in audio-visual generative modeling have been propelled by progress in deep learning and the availability of data-rich benchmarks. However, the growth is not attributed solely to models and benchmarks. Universally accepted evaluation metrics also play an important role in advancing the field. While there are many metrics available to evaluate audio and visual content separately, there is a lack of metrics that offer a quantitative and interpretable measure of audio-visual synchronization for videos "in the wild". To address this gap, we first created a large scale human annotated dataset (100+ hrs) representing nine types of synchronization errors in audio-visual content and how human perceive them. We then developed a PEAVS (Perceptual Evaluation of Audio-Visual Synchrony) score, a novel automatic metric with a 5-point scale that evaluates the quality of audio-visual synchronization. We validate PEAVS using a newly generated dataset, achieving a Pearson correlation of 0.79 at the set level and 0.54 at the clip level when compared to human labels. In our experiments, we observe a relative gain 50% over a natural extension of Fr\'echet based metrics for Audio-Visual synchrony, confirming PEAVS efficacy in objectively modeling subjective perceptions of audio-visual synchronization for videos "in the wild".
翻訳日:2024-04-12 15:38:10 公開日:2024-04-10
# LU等価度までの2および3量子状態の密度行列の分類

Classifying Density Matrices of 2 and 3 Qubit States Up To LU Equivalence ( http://arxiv.org/abs/2404.07338v1 )

ライセンス: Link先を確認
Isaac Dobes, Nathan Jing, (参考訳) 本稿では,Jing-Yang-Zhao の論文 "Local Unitary Equivalence of Quantum States and Simultaneous Orthogonal Equivalence" の修正版について述べる。 修正された証明はハイパー行列代数フレームワークを利用しており、このフレームワークを通じてこの対応を3$-qubitsに一般化することができる。 最後に、V. Futorney, R. A. Horn, V. V. Sergeichuk の "Specht's Criterion for Systems of Linear Mappings" で最初に証明された) の一般化を適用し、局所ユニタリ同値(英語版)の問題を3$-qubits の局所ユニタリ同値(英語版)で減らし、トレース恒等性(英語版)やいくつかの簡易チェック特性(英語版)をチェックする。 また、上記の論文で定義されているように、これらの結果はすべて、LU同値の概念を準LU同値に緩和すれば、$2 および$3 qudits に拡張することができることに留意する。

In this paper we present a modified version of the proof given Jing-Yang-Zhao's paper titled "Local Unitary Equivalence of Quantum States and Simultaneous Orthogonal Equivalence," which established the correspondance between local unitary equivalence and simultaneous orthogonal equivalence of $2$-qubits. Our modified proof utilizes a hypermatrix algebra framework, and through this framework we are able to generalize this correspondence to $3$-qubits. Finally, we apply a generalization of Specht's criterion (first proved in "Specht's Criterion for Systems of Linear Mappings" by V. Futorney, R. A. Horn, and V. V. Sergeichuk) to reduce the problem of local unitary equivalence of $3$-qubits to checking trace identities and a few other easy-to-check properties. We also note that all of these results can be extended to $2$ and $3$ qudits if we relax the notion of LU equivalence to quasi-LU equivalence, as defined in the aforementioned paper by Jing et. al.
翻訳日:2024-04-12 15:38:10 公開日:2024-04-10
# RIP Twitter API: 膨大な研究成果に敬意を表して

RIP Twitter API: A eulogy to its vast research contributions ( http://arxiv.org/abs/2404.07340v1 )

ライセンス: Link先を確認
Ryan Murtfeldt, Naomi Alterman, Ihsan Kahveci, Jevin D. West, (参考訳) 2006年以降、Twitterのアプリケーションプログラミングインタフェース(API)は、偽情報の拡散から社会心理学、緊急管理に至るまで、研究者が研究する上で、高品質なデータの宝庫となっている。 しかし2023年春、Twitter(現X)はエンタープライズアクセスレベルで月4万2000ドルを変更し始めた。 毎月の料金を支払うだけの資金が不足しているため、学者たちは、この重要なデータソースなしで研究を続けようとしている。 この研究は、2006年から2023年の間にTwitterのデータを使用した研究の回数、引用回数、日付、主要な規律、および主要なトピック領域を集計し、集計する。 Twitterのデータが費用を禁じている今、何を失うのかは分からないが、その研究価値は、提供開始時から説明できる。 8つのデータベースと3つの関連APIの検索により、2006年以降、14の分野にわたる1,303,142の引用を含む7,432の出版会場で、合計27,453の研究結果が発表された。 主な分野は、計算社会科学、工学、データ科学、ソーシャルメディア研究、公衆衛生、医学である。 主なトピックは、情報拡散、ツイートの信頼性の評価、データ研究の戦略、主要な出来事の検出と分析、人間の行動の研究である。 Twitterのデータ研究は2006年から毎年増加しているが、2023年春にTwitterがデータに対する課金を開始した後、2023年に発表された研究の数は2022年に比べて13%減少した。 2023年に発表された研究データの多くは、Twitterが閉鎖される前に収集されたものだと仮定する。

Since 2006, Twitter's Application Programming Interface (API) has been a treasure trove of high-quality data for researchers studying everything from the spread of misinformation, to social psychology and emergency management. However, in the spring of 2023, Twitter (now called X) began changing $42,000/month for its Enterprise access level, an essential death knell for researcher use. Lacking sufficient funds to pay this monthly fee, academics are now scrambling to continue their research without this important data source. This study collects and tabulates the number of studies, number of citations, dates, major disciplines, and major topic areas of studies that used Twitter data between 2006 and 2023. While we cannot know for certain what will be lost now that Twitter data is cost prohibitive, we can illustrate its research value during the time it was available. A search of 8 databases and 3 related APIs found that since 2006, a total of 27,453 studies have been published in 7,432 publication venues, with 1,303,142 citations, across 14 disciplines. Major disciplines include: computational social science, engineering, data science, social media studies, public health, and medicine. Major topics include: information dissemination, assessing the credibility of tweets, strategies for conducting data research, detecting and analyzing major events, and studying human behavior. Twitter data studies have increased every year since 2006, but following Twitter's decision to begin charging for data in the spring of 2023, the number of studies published in 2023 decreased by 13% compared to 2022. We assume that much of the data used for studies published in 2023 were collected prior to Twitter's shutdown, and thus the number of new studies are likely to decline further in subsequent years.
翻訳日:2024-04-12 15:38:10 公開日:2024-04-10
# Conformer-1:大規模半教師付きブートストラッピングによるロバストASR

Conformer-1: Robust ASR via Large-Scale Semisupervised Bootstrapping ( http://arxiv.org/abs/2404.07341v1 )

ライセンス: Link先を確認
Kevin Zhang, Luka Chkhetiani, Francis McCann Ramirez, Yash Khare, Andrea Vanzo, Michael Liang, Sergio Ramirez Martin, Gabriel Oexle, Ruben Bousbib, Taufiquzzaman Peyash, Michael Nguyen, Dillon Pulliam, Domenic Donato, (参考訳) 本稿では,570k時間の音声データを対象としたエンドツーエンド自動音声認識(ASR)モデルであるConformer-1について述べる。 そこで我々は,強力なコンフォーマーRNN-Tベースラインモデルを用いて,ラベルのない公開データに対して擬似ラベルを生成して,ノイズのある学生訓練を行う。 これらの擬似ラベル付きデータを追加することで、我々の非同期モデルとリアルタイムモデルでは、相対的なワードエラー率(WER)が11.5%向上し、24.3%向上した。 さらに、これらのデータの追加により、モデルはバックグラウンドノイズに対してより堅牢である。 本研究では, 疑似ラベル付き公開データの導入が, ASRの精度と雑音の頑健性を向上させる上で, 極めて効果的な戦略であることを実証した。

This paper presents Conformer-1, an end-to-end Automatic Speech Recognition (ASR) model trained on an extensive dataset of 570k hours of speech audio data, 91% of which was acquired from publicly available sources. To achieve this, we perform Noisy Student Training after generating pseudo-labels for the unlabeled public data using a strong Conformer RNN-T baseline model. The addition of these pseudo-labeled data results in remarkable improvements in relative Word Error Rate (WER) by 11.5% and 24.3% for our asynchronous and realtime models, respectively. Additionally, the model is more robust to background noise owing to the addition of these data. The results obtained in this study demonstrate that the incorporation of pseudo-labeled publicly available data is a highly effective strategy for improving ASR accuracy and noise robustness.
翻訳日:2024-04-12 15:38:10 公開日:2024-04-10
# ロボットマニピュレーションと物体計測データベースによる物体特性の対話的学習

Interactive Learning of Physical Object Properties Through Robot Manipulation and Database of Object Measurements ( http://arxiv.org/abs/2404.07344v1 )

ライセンス: Link先を確認
Andrej Kruzliak, Jiri Hartvich, Shubhan P. Patni, Lukas Rustler, Jan Kristof Behrens, Fares J. Abu-Dakka, Krystian Mikolajczyk, Ville Kyrki, Matej Hoffmann, (参考訳) 本研究は, ロボット操作による材料組成, 質量, 体積, 剛性などの物理的特性を自動的に抽出する枠組みと, 物体計測のデータベースを提供する。 このフレームワークは、テーブル上のオブジェクトに関する学習を最大化する探索的なアクション選択を含む。 ベイズネットワークは、測定行動に関連する事前確率分布と不確実性を組み込んだ、オブジェクト特性間の条件依存をモデル化する。 このアルゴリズムは、期待される情報ゲインに基づいて最適な探索行動を選択し、ベイズ推定によりオブジェクト特性を更新する。 実験による評価は, ベースラインと比較して効果的な行動選択を示し, 学習すべきことがなければ, 実験の正しい終了を示す。 アルゴリズムは、その外観と矛盾する材料特性を持つトリックオブジェクトを提示すると知的に振る舞うことが証明された。 ロボットパイプラインは、ロギングモジュールとオブジェクトのオンラインデータベースと統合されており、グリッパーが異なる63のオブジェクトの24,000以上の計測結果を含んでいる。 すべてのコードとデータは公開されており、探索的な操作を通じてオブジェクトとその物理的プロパティの自動デジタル化を容易にする。

This work presents a framework for automatically extracting physical object properties, such as material composition, mass, volume, and stiffness, through robot manipulation and a database of object measurements. The framework involves exploratory action selection to maximize learning about objects on a table. A Bayesian network models conditional dependencies between object properties, incorporating prior probability distributions and uncertainty associated with measurement actions. The algorithm selects optimal exploratory actions based on expected information gain and updates object properties through Bayesian inference. Experimental evaluation demonstrates effective action selection compared to a baseline and correct termination of the experiments if there is nothing more to be learned. The algorithm proved to behave intelligently when presented with trick objects with material properties in conflict with their appearance. The robot pipeline integrates with a logging module and an online database of objects, containing over 24,000 measurements of 63 objects with different grippers. All code and data are publicly available, facilitating automatic digitization of objects and their physical properties through exploratory manipulations.
翻訳日:2024-04-12 15:38:10 公開日:2024-04-10
# 屋内フィンガープリントプライバシーに関する総合調査

Indoor Location Fingerprinting Privacy: A Comprehensive Survey ( http://arxiv.org/abs/2404.07345v1 )

ライセンス: Link先を確認
Amir Fathalizadeh, Vahideh Moghtadaiee, Mina Alishahi, (参考訳) 屋内測位システム(IPS)の広汎な統合は、屋内環境におけるGNSS(Global Navigation Satellite Systems)の限界から始まり、位置ベースサービス(LBS)が普及した。 具体的には、屋内位置指紋認証は、ユーザデバイスからの多様な信号指紋を使用し、ロケーションサービスプロバイダ(LSP)による正確な位置識別を可能にする。 様々なドメインにまたがる幅広い応用にもかかわらず、屋内位置フィンガープリントは、LSPと潜在的な敵の両方が本質的にこの機密情報にアクセスでき、ユーザーのプライバシーを損なうため、顕著なプライバシーリスクをもたらす。 したがって、この文脈におけるプライバシーの脆弱性に関する懸念は、プライバシー保護機構の焦点を絞った調査を必要とする。 これらの懸念に応えて、本調査では、暗号化、匿名化、差分プライバシー(DP)、フェデレーション学習(FL)技術に基づく、屋内位置フィンガープリントにおけるプライバシ保存メカニズム(ILFPPM)の総合的なレビューを行う。 また,プライバシの脆弱性,敵対モデル,攻撃モデル,屋内指紋認証システムに特有の評価指標など,独特で斬新なグループ化も提案する。 本調査で特定された限界と研究のギャップを考慮し,本分野の進展に関心のある研究者をモチベーションとして,今後の調査に期待できる多くの機会を強調した。 この調査は、研究者にとって貴重な参考資料であり、この特定の研究領域を超えて、明確な概要を提供する。

The pervasive integration of Indoor Positioning Systems (IPS) arises from the limitations of Global Navigation Satellite Systems (GNSS) in indoor environments, leading to the widespread adoption of Location-Based Services (LBS). Specifically, indoor location fingerprinting employs diverse signal fingerprints from user devices, enabling precise location identification by Location Service Providers (LSP). Despite its broad applications across various domains, indoor location fingerprinting introduces a notable privacy risk, as both LSP and potential adversaries inherently have access to this sensitive information, compromising users' privacy. Consequently, concerns regarding privacy vulnerabilities in this context necessitate a focused exploration of privacy-preserving mechanisms. In response to these concerns, this survey presents a comprehensive review of Privacy-Preserving Mechanisms in Indoor Location Fingerprinting (ILFPPM) based on cryptographic, anonymization, differential privacy (DP), and federated learning (FL) techniques. We also propose a distinctive and novel grouping of privacy vulnerabilities, adversary and attack models, and available evaluation metrics specific to indoor location fingerprinting systems. Given the identified limitations and research gaps in this survey, we highlight numerous prospective opportunities for future investigation, aiming to motivate researchers interested in advancing this field. This survey serves as a valuable reference for researchers and provides a clear overview for those beyond this specific research domain.
翻訳日:2024-04-12 15:38:10 公開日:2024-04-10
# 注視条件付き行動予測のための注視型グラフニューラルネットワーク

Gaze-Guided Graph Neural Network for Action Anticipation Conditioned on Intention ( http://arxiv.org/abs/2404.07347v1 )

ライセンス: Link先を確認
Suleyman Ozdel, Yao Rong, Berat Mert Albaba, Yen-Ling Kuo, Xi Wang, (参考訳) 人間は視線を利用して、ビデオの中の意図を理解し、解釈しながら、本質的な情報に集中する。 人間の視線を計算アルゴリズムに組み込むことで、ビデオ理解タスクにおけるモデル性能を大幅に向上させることができる。 本研究では,映像理解における挑戦的で革新的な課題である,部分的映像に基づく映像中のエージェントの動作の予測について述べる。 本稿では,映像入力から視覚意味グラフを構築するGaze-Guided Action Precipationアルゴリズムを提案する。 本手法では,グラフニューラルネットワークを用いてエージェントの意図を認識し,その意図を満たすためにアクションシーケンスを予測する。 提案手法の効率性を評価するため,VirtualHome環境で発生した家庭内活動を含むデータセットを,人間の視線による視聴データとともに収集した。 提案手法は最先端技術より優れ、18種類の意図認識の精度を7倍に向上させる。 このことは、人間の視線データから重要な特徴を学習する際の、我々の手法の効率性を強調している。

Humans utilize their gaze to concentrate on essential information while perceiving and interpreting intentions in videos. Incorporating human gaze into computational algorithms can significantly enhance model performance in video understanding tasks. In this work, we address a challenging and innovative task in video understanding: predicting the actions of an agent in a video based on a partial video. We introduce the Gaze-guided Action Anticipation algorithm, which establishes a visual-semantic graph from the video input. Our method utilizes a Graph Neural Network to recognize the agent's intention and predict the action sequence to fulfill this intention. To assess the efficiency of our approach, we collect a dataset containing household activities generated in the VirtualHome environment, accompanied by human gaze data of viewing videos. Our method outperforms state-of-the-art techniques, achieving a 7\% improvement in accuracy for 18-class intention recognition. This highlights the efficiency of our method in learning important features from human gaze data.
翻訳日:2024-04-12 15:38:10 公開日:2024-04-10
# 映像における人間の視線行動予測のためのトランスフォーマーモデル

A Transformer-Based Model for the Prediction of Human Gaze Behavior on Videos ( http://arxiv.org/abs/2404.07351v1 )

ライセンス: Link先を確認
Suleyman Ozdel, Yao Rong, Berat Mert Albaba, Yen-Ling Kuo, Xi Wang, (参考訳) 映像理解タスクにおける人間の視線を利用した視線追跡アプリケーションの重要性が高まっている。 視線追跡データに基づく映像解析のプロセスを効果的に自動化するためには、人間の視線行動を正確に再現することが重要である。 しかし、この課題は人間の視線パターンの複雑さとあいまいさによって大きな課題を生んでいる。 本研究では,人間の視線行動をシミュレーションする新しい手法を提案する。 我々のアプローチでは、トランスフォーマーに基づく強化学習アルゴリズムを用いて、人間の観察者として働くエージェントを訓練し、ビデオを見たり、人間の視線の振る舞いをシミュレートする役割を担っている。 我々は,VirtualHomeシミュレータが生成したビデオから収集した視線追跡データセットを用いて,活動認識に重点を置いた。 実験の結果,人間の視線行動の再現能力と,実際の視線を入力として使用する下流作業への適用性を強調して,視線予測手法の有効性を実証した。

Eye-tracking applications that utilize the human gaze in video understanding tasks have become increasingly important. To effectively automate the process of video analysis based on eye-tracking data, it is important to accurately replicate human gaze behavior. However, this task presents significant challenges due to the inherent complexity and ambiguity of human gaze patterns. In this work, we introduce a novel method for simulating human gaze behavior. Our approach uses a transformer-based reinforcement learning algorithm to train an agent that acts as a human observer, with the primary role of watching videos and simulating human gaze behavior. We employed an eye-tracking dataset gathered from videos generated by the VirtualHome simulator, with a primary focus on activity recognition. Our experimental results demonstrate the effectiveness of our gaze prediction method by highlighting its capability to replicate human gaze behavior and its applicability for downstream tasks where real human-gaze is used as input.
翻訳日:2024-04-12 15:38:10 公開日:2024-04-10
# 手続き的事例生成による抽象化と推論コーパスの対応

Addressing the Abstraction and Reasoning Corpus via Procedural Example Generation ( http://arxiv.org/abs/2404.07353v1 )

ライセンス: Link先を確認
Michael Hodel, (参考訳) 本研究は、ARCトレーニングタスクの例を手続き的に生成するコードを提示する。 400のタスクごとに、元の例の変換ロジックに従うサンプルジェネレータが作成されました。 事実上、与えられたタスクの例の基本的な分布は、それからサンプリングする手段を実装することで逆エンジニアリングされた。 各タスクの可能な例の妥当なスペースをカバーしようとする試みが行われた。 すなわち、与えられたタスクの元の例が、グリッドの次元を持ち、記号の集合や物体の定数、あるいは厳密な境界内において、例えば多様性において制限される場合、変換がそれを必要とせずともそのような制約は解除された。 ARCの場合のように、タスク毎にいくつかの例にアクセスすることは、ベンチマークの飛躍に向けて重要なステップストーンとなる幅広い実験を可能にするだろう。

This work presents code to procedurally generate examples for the ARC training tasks. For each of the 400 tasks, an example generator following the transformation logic of the original examples was created. In effect, the assumed underlying distribution of examples for any given task was reverse engineered by implementing a means to sample from it. An attempt was made to cover an as large as reasonable space of possible examples for each task. That is, whenever the original examples of a given task may be limited in their diversity e.g. by having the dimensions of the grids, the set of symbols or number of objects constant or within tight bounds, even though the transformation does not require it, such constraints were lifted. Having access to not just a few examples per task, as the case for ARC, but instead very many, should enable a wide range of experiments that may be important stepping stones towards making leaps on the benchmark.
翻訳日:2024-04-12 15:38:10 公開日:2024-04-10
# FairEM360: 責任のあるエンティティマッチングのためのスイート

FairEM360: A Suite for Responsible Entity Matching ( http://arxiv.org/abs/2404.07354v1 )

ライセンス: Link先を確認
Nima Shahbazi, Mahdi Erfanian, Abolfazl Asudeh, Fatemeh Nargesian, Divesh Srivastava, (参考訳) エンティティマッチングは、ビッグデータパイプラインで発生した最も初期のタスクの1つであり、データの品質に影響を与える意図しないバイアスに警鐘を鳴らしている。 この段階でマーカによって導入されたデータに存在するバイアスを識別し緩和することは、下流タスクの公平性を促進するのに役立ちます。 このデモでは、FairEM360というフレームワークを紹介します。 1) 幅広い公正対策及びパラダイムにおいて、エンティティマーカのアウトプットを監査すること。 2 不公平の根底にある理由について、潜在的な説明をすること。 3) マーチャンダーのアンサンブルを利用して, ループ内フィードバックによる探索プロセスを通じて不公平問題の解決を行う。 EMパイプラインの評価において,FairEM360がフェアネスの優先順位付けに寄与することを期待している。

Entity matching is one the earliest tasks that occur in the big data pipeline and is alarmingly exposed to unintentional biases that affect the quality of data. Identifying and mitigating the biases that exist in the data or are introduced by the matcher at this stage can contribute to promoting fairness in downstream tasks. This demonstration showcases FairEM360, a framework for 1) auditing the output of entity matchers across a wide range of fairness measures and paradigms, 2) providing potential explanations for the underlying reasons for unfairness, and 3) providing resolutions for the unfairness issues through an exploratory process with human-in-the-loop feedback, utilizing an ensemble of matchers. We aspire for FairEM360 to contribute to the prioritization of fairness as a key consideration in the evaluation of EM pipelines.
翻訳日:2024-04-12 15:38:10 公開日:2024-04-10
# GANsemble for Small and Un Balanced Data Sets: a Baseline for Synthetic Microplastics Data

GANsemble for Small and Imbalanced Data Sets: A Baseline for Synthetic Microplastics Data ( http://arxiv.org/abs/2404.07356v1 )

ライセンス: Link先を確認
Daniel Platnick, Sourena Khanzadeh, Alireza Sadeghian, Richard Anthony Valenzano, (参考訳) マイクロプラスチック粒子の摂取やヒトによる吸入は、懸念が高まっている問題である。 残念なことに、機械学習を使って潜在的な害を理解している現在の研究手法は、利用可能なデータの不足によって妨げられている。 特にディープラーニング技術は、小さなデータセットや不均衡なデータセットしか利用できないようなドメインによって挑戦されている。 この課題を克服するには、しばしば、未表現のクラスをオーバーサンプリングしたり、モデルパフォーマンスを改善するために既存のデータを増強する。 本稿では,データ拡張と条件付き生成逆数ネットワーク(cGAN)を接続し,クラス条件付き合成データを生成する2モジュールフレームワークであるGANsembleを提案する。 まず、データ選択モジュールは、最適なデータ拡張戦略を探索することにより、拡張戦略選択を自動化する。 次に、cGANモジュールは、この戦略を使用して、強化された合成データを生成するためにcGANを訓練する。 我々は,小かつ不均衡なマイクロプラスチックデータセット上でGANsembleフレームワークを実験した。 マイクロプラスチック-cGAN(MPcGAN)アルゴリズムを導入し、Frechet Inception Distance(FID)およびInception Scores(IS)の観点から、合成マイクロプラスチック(SYMP)データのベースラインを確立する。 また, 合成マイクロプラスチックフィルタ(SYMP-Filter)アルゴリズムにより, 生成したSYMPの品質を向上させる。 さらに,小型マイクロプラスチックデータセットにおいて,クラス不均衡を解消するためのオーバサンプリングの最大値を示す。 我々の知る限り、この研究は、人工的にマイクロプラスチックデータを作成するための生成AIの最初の応用である。

Microplastic particle ingestion or inhalation by humans is a problem of growing concern. Unfortunately, current research methods that use machine learning to understand their potential harms are obstructed by a lack of available data. Deep learning techniques in particular are challenged by such domains where only small or imbalanced data sets are available. Overcoming this challenge often involves oversampling underrepresented classes or augmenting the existing data to improve model performance. This paper proposes GANsemble: a two-module framework connecting data augmentation with conditional generative adversarial networks (cGANs) to generate class-conditioned synthetic data. First, the data chooser module automates augmentation strategy selection by searching for the best data augmentation strategy. Next, the cGAN module uses this strategy to train a cGAN for generating enhanced synthetic data. We experiment with the GANsemble framework on a small and imbalanced microplastics data set. A Microplastic-cGAN (MPcGAN) algorithm is introduced, and baselines for synthetic microplastics (SYMP) data are established in terms of Frechet Inception Distance (FID) and Inception Scores (IS). We also provide a synthetic microplastics filter (SYMP-Filter) algorithm to increase the quality of generated SYMP. Additionally, we show the best amount of oversampling with augmentation to fix class imbalance in small microplastics data sets. To our knowledge, this study is the first application of generative AI to synthetically create microplastics data.
翻訳日:2024-04-12 15:38:10 公開日:2024-04-10
# von Mises-Fisher分布の平均パラメトリゼーションの解

A solution for the mean parametrization of the von Mises-Fisher distribution ( http://arxiv.org/abs/2404.07358v1 )

ライセンス: Link先を確認
Marcel Nonnenmacher, Maneesh Sahani, (参考訳) 指数族としてのvon Mises-Fisher分布は、その自然なパラメータまたはその平均パラメータのどちらかで表すことができる。 しかし、不運なことに、平均パラメーターの分布の正規化関数は閉形式では利用できず、平均パラメトリゼーションの実用性を制限し、より一般に最大類似度推定を複雑化する。 2階の常微分方程式を導出し、その解は平均パラメータ正規化子をその最初の2つの微分とともに生成し、ファミリーの分散関数を導出する。 また、微分方程式の解に対する閉形式近似も提供する。 これにより、平均パラメータの観点から、密度と自然パラメータの両方を迅速に評価できる。 本稿では,Bregman Clustering を用いた von Mises-Fisher 分布の混合によるトピックモデリングへの応用について述べる。

The von Mises-Fisher distribution as an exponential family can be expressed in terms of either its natural or its mean parameters. Unfortunately, however, the normalization function for the distribution in terms of its mean parameters is not available in closed form, limiting the practicality of the mean parametrization and complicating maximum-likelihood estimation more generally. We derive a second-order ordinary differential equation, the solution to which yields the mean-parameter normalizer along with its first two derivatives, as well as the variance function of the family. We also provide closed-form approximations to the solution of the differential equation. This allows rapid evaluation of both densities and natural parameters in terms of mean parameters. We show applications to topic modeling with mixtures of von Mises-Fisher distributions using Bregman Clustering.
翻訳日:2024-04-12 15:38:10 公開日:2024-04-10
# グラディエントネットワーク

Gradient Networks ( http://arxiv.org/abs/2404.07361v1 )

ライセンス: Link先を確認
Shreyas Chaudhari, Srinivasa Pranav, José M. F. Moura, (参考訳) 関数のパラメータ化と学習の勾配は、最適化、生成的モデリング、最適輸送に特に応用されるなど、幅広い意味を持つ。 本稿では,様々な関数クラスの勾配をパラメータ化するニューラルネットワークアーキテクチャについて述べる。 GradNetsは、勾配関数に対応するための特別なアーキテクチャ上の制約を示す。 我々は,GradNetをモノトーン勾配ネットワーク(mGradNet)に変換する手法を含む包括的GradNet設計フレームワークを提供し,凸関数の勾配を表すことを保証している。 提案するGradNetとmGradNetの近似能力を確立する。 その結果、これらのネットワークは、(凸)関数の勾配を普遍的に近似することを示した。 さらに、これらのネットワークは(凸)リッジ関数の変換和の勾配を含む(単調)勾配関数の特定の空間に対応するようにカスタマイズすることができる。 解析の結果,GradNet-CとGradNet-Mの2つの異なるアーキテクチャが導かれ,対応するモノトーンバージョンであるmGradNet-CとmGradNet-Mが記述された。 実験の結果、これらのアーキテクチャは、勾配場学習タスクにおいて、効率的なパラメータ化と優れた手法を提供することが示された。

Directly parameterizing and learning gradients of functions has widespread significance, with specific applications in optimization, generative modeling, and optimal transport. This paper introduces gradient networks (GradNets): novel neural network architectures that parameterize gradients of various function classes. GradNets exhibit specialized architectural constraints that ensure correspondence to gradient functions. We provide a comprehensive GradNet design framework that includes methods for transforming GradNets into monotone gradient networks (mGradNets), which are guaranteed to represent gradients of convex functions. We establish the approximation capabilities of the proposed GradNet and mGradNet. Our results demonstrate that these networks universally approximate the gradients of (convex) functions. Furthermore, these networks can be customized to correspond to specific spaces of (monotone) gradient functions, including gradients of transformed sums of (convex) ridge functions. Our analysis leads to two distinct GradNet architectures, GradNet-C and GradNet-M, and we describe the corresponding monotone versions, mGradNet-C and mGradNet-M. Our empirical results show that these architectures offer efficient parameterizations and outperform popular methods in gradient field learning tasks.
翻訳日:2024-04-12 15:28:21 公開日:2024-04-10
# 合成屋内位置情報作成のための個人別GAN

Differentially Private GANs for Generating Synthetic Indoor Location Data ( http://arxiv.org/abs/2404.07366v1 )

ライセンス: Link先を確認
Vahideh Moghtadaiee, Mina Alishahi, Milad Rabiei, (参考訳) 位置に基づくサービスの出現は、建物などの囲まれた空間内における個人の位置追跡を可能にする屋内ローカライゼーションシステムの普及につながった。 これらのシステムは、セキュリティやパーソナライズされたサービスの改善など、数多くのメリットを提供しているが、プライバシ違反に関する懸念も持ち上がっている。 そのため、屋内ローカライゼーションシステムの機能を引き続き有効にしつつ、ユーザのセンシティブな位置情報を保護できるプライバシー保護ソリューションの必要性が高まっている。 近年,DPGANは,個々のデータポイントのプライバシを保護し,元のデータに似たリアルな合成データを生成するための強力な手法として出現している。 DPGANは、GAN(Generative Adversarial Network)のパワーと、差分プライバシー(DP)のプライバシー保護技術を組み合わせたものである。 本稿では、プライバシー保護のための屋内位置情報データを生成するために、DPGANを用いた屋内ローカライゼーションフレームワークを提案する。 実世界の屋内ローカライゼーションデータセット上でのフレームワークの性能評価を行い,その精度を維持しつつ,プライバシ保護の有効性を実証した。

The advent of location-based services has led to the widespread adoption of indoor localization systems, which enable location tracking of individuals within enclosed spaces such as buildings. While these systems provide numerous benefits such as improved security and personalized services, they also raise concerns regarding privacy violations. As such, there is a growing need for privacy-preserving solutions that can protect users' sensitive location information while still enabling the functionality of indoor localization systems. In recent years, Differentially Private Generative Adversarial Networks (DPGANs) have emerged as a powerful methodology that aims to protect the privacy of individual data points while generating realistic synthetic data similar to original data. DPGANs combine the power of generative adversarial networks (GANs) with the privacy-preserving technique of differential privacy (DP). In this paper, we introduce an indoor localization framework employing DPGANs in order to generate privacy-preserving indoor location data. We evaluate the performance of our framework on a real-world indoor localization dataset and demonstrate its effectiveness in preserving privacy while maintaining the accuracy of the localization system.
翻訳日:2024-04-12 15:28:21 公開日:2024-04-10
# ボソニックSu-Schrieffer-Heeger鎖におけるゲート可変相転移

Gate-tunable phase transition in a bosonic Su-Schrieffer-Heeger chain ( http://arxiv.org/abs/2404.07371v1 )

ライセンス: Link先を確認
Lukas Johannes Splitthoff, Miguel Carrera Belo, Guliuxin Jin, Yu Li, Eliska Greplova, Christian Kraglund Andersen, (参考訳) 制御可能な量子系のトポロジカルな物質状態をホストするために設計されたメタマテリアルは、量子シミュレーションと量子コンピューティング技術の進歩を約束する。 この文脈では、Su-Schrieffer-Heeger (SSH) モデルは、その単純さと実用性により、注目されている。 本稿では,超伝導共振器の一次元格子上にゲート可変5単位セルボソニックSSHチェーンを実装した。 半導体ナノワイヤ接合を用いた誘導性セル間結合の静電気制御を実現し, 工学的メタマテリアルにおける自明な状態から位相的な状態への遷移の分光観察を可能にする。 従来の研究とは対照的に,本手法は結合パラメータの精密かつ独立なその場チューニングを提供する。 最後に、様々な障害実現に対する位相的エッジ状態の堅牢性について論じる。 本研究は, ゲート制御超伝導エレクトロニクスと大きな制御可能なボソニック格子の量子シミュレーションの実現に向けた取り組みを補完するものである。

Metamaterials engineered to host topological states of matter in controllable quantum systems hold promise for the advancement of quantum simulations and quantum computing technologies. In this context, the Su-Schrieffer-Heeger (SSH) model has gained prominence due to its simplicity and practical applications. Here, we present the implementation of a gate-tunable, five-unit-cell bosonic SSH chain on a one-dimensional lattice of superconducting resonators. We achieve electrostatic control over the inductive intra-cell coupling using semiconductor nanowire junctions, which enables the spectroscopic observation of a transition from a trivial to a topological phase in the engineered metamaterial. In contrast to prior work, our approach offers precise and independent in-situ tuning of the coupling parameters. Finally, we discuss the robustness of the topological edge state against various disorder realizations. Our results supplement efforts towards gate-controlled superconducting electronics and large controllable bosonic lattices to enable quantum simulations.
翻訳日:2024-04-12 15:28:21 公開日:2024-04-10
# 閉ループ分散保証を用いたニューラルネットワーク制御器の合成

Synthesizing Neural Network Controllers with Closed-Loop Dissipativity Guarantees ( http://arxiv.org/abs/2404.07373v1 )

ライセンス: Link先を確認
Neelay Junnarkar, Murat Arcak, Peter Seiler, (参考訳) 本稿では,L2ゲインバウンドなどの性能要件を証明し,プラントとコントローラのフィードバックシステムが消散可能であるようにニューラルネットワークコントローラを合成する手法を提案する。 考慮された植物の分類は、解析の利便性の不確実性として扱われる非線形性を含む不確実性と相互接続された線形時間不変系(LTI)である。 植物の不確かさとニューラルネットワークの非線形性は、どちらも積分二次制約(IQCs)を用いて記述される。 まず、不確実なLTI系に対して、解離条件を導出する。 第二に、この条件はニューラルネットワークコントローラの合成に使用できる線形行列不等式(LMI)を構築するために用いられる。 最後に、この凸条件をプロジェクションベースのトレーニング手法で、解離性保証付きニューラルネットワークコントローラを合成する。 本手法の有効性を実証するために, 逆振り子と荷車上のフレキシブルロッドの数値例を示した。

In this paper, a method is presented to synthesize neural network controllers such that the feedback system of plant and controller is dissipative, certifying performance requirements such as L2 gain bounds. The class of plants considered is that of linear time-invariant (LTI) systems interconnected with an uncertainty, including nonlinearities treated as an uncertainty for convenience of analysis. The uncertainty of the plant and the nonlinearities of the neural network are both described using integral quadratic constraints (IQCs). First, a dissipativity condition is derived for uncertain LTI systems. Second, this condition is used to construct a linear matrix inequality (LMI) which can be used to synthesize neural network controllers. Finally, this convex condition is used in a projection-based training method to synthesize neural network controllers with dissipativity guarantees. Numerical examples on an inverted pendulum and a flexible rod on a cart are provided to demonstrate the effectiveness of this approach.
翻訳日:2024-04-12 15:28:21 公開日:2024-04-10
# フェデレーション学習によるGANに基づく脂肪抑制のマルチセンター一般化性の改善

Improving Multi-Center Generalizability of GAN-Based Fat Suppression using Federated Learning ( http://arxiv.org/abs/2404.07374v1 )

ライセンス: Link先を確認
Pranav Kulkarni, Adway Kanhere, Harshita Kukreja, Vivian Zhang, Paul H. Yi, Vishwa S. Parekh, (参考訳) 非FSプロトン密度配列から脂肪抑制(FS)MRIを合成するGAN(Generative Adversarial Network)は、膝関節MRIの獲得を加速する可能性がある。 しかし、単一サイトデータで訓練されたGANは、外部データに対する一般化性が低い。 フェデレートされた学習は、プライバシー保護型多施設共同作業を容易にしながら、FS MRIを合成するためのGANのマルチセンター一般化性を向上させることができることを示す。

Generative Adversarial Network (GAN)-based synthesis of fat suppressed (FS) MRIs from non-FS proton density sequences has the potential to accelerate acquisition of knee MRIs. However, GANs trained on single-site data have poor generalizability to external data. We show that federated learning can improve multi-center generalizability of GANs for synthesizing FS MRIs, while facilitating privacy-preserving multi-institutional collaborations.
翻訳日:2024-04-12 15:28:21 公開日:2024-04-10
# バイオメディシンにおけるLCM : 臨床名称のエンティティ認識に関する研究

LLMs in Biomedicine: A study on clinical Named Entity Recognition ( http://arxiv.org/abs/2404.07376v1 )

ライセンス: Link先を確認
Masoud Monajatipoor, Jiaxin Yang, Joel Stremmel, Melika Emami, Fazlolah Mohaghegh, Mozhdeh Rouhsedaghat, Kai-Wei Chang, (参考訳) 大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な汎用性を示すが、医療言語の複雑さとデータ不足により、バイオメディシンにおいて異なる課題に直面する。 本稿では,NERタスクの性能向上戦略を探求し,医療分野におけるLCMの適用について検討する。 具体的には,バイオメディシンにおける精密に設計されたプロンプトの重要性を明らかにする。 コンテクスト内サンプルの戦略的選択は顕著な改善をもたらし、F1スコアの15~20パーセントが、数ショットの臨床NERのベンチマークデータセット全体にわたって増加していることを示している。 さらに,本研究は, 汎用LSM能力と医療NERの専門的要求とのギャップを埋めるために, プロンプト戦略による外部資源の統合が可能であることを示唆している。 医療知識ベースを活用することで,RAG(Retrieval-Augmented Generation)にインスパイアされた提案手法は,ゼロショット臨床NERのF1スコアを高めることができる。 私たちはそのコードを出版時に公開します。

Large Language Models (LLMs) demonstrate remarkable versatility in various NLP tasks but encounter distinct challenges in biomedicine due to medical language complexities and data scarcity. This paper investigates the application of LLMs in the medical domain by exploring strategies to enhance their performance for the Named-Entity Recognition (NER) task. Specifically, our study reveals the importance of meticulously designed prompts in biomedicine. Strategic selection of in-context examples yields a notable improvement, showcasing ~15-20\% increase in F1 score across all benchmark datasets for few-shot clinical NER. Additionally, our findings suggest that integrating external resources through prompting strategies can bridge the gap between general-purpose LLM proficiency and the specialized demands of medical NER. Leveraging a medical knowledge base, our proposed method inspired by Retrieval-Augmented Generation (RAG) can boost the F1 score of LLMs for zero-shot clinical NER. We will release the code upon publication.
翻訳日:2024-04-12 15:28:21 公開日:2024-04-10
# デュアルディバージェンス空間における深層生成サンプリング:生成AIのためのデータ効率と解釈的アプローチ

Deep Generative Sampling in the Dual Divergence Space: A Data-efficient & Interpretative Approach for Generative AI ( http://arxiv.org/abs/2404.07377v1 )

ライセンス: Link先を確認
Sahil Garg, Anderson Schneider, Anant Raj, Kashif Rasul, Yuriy Nevmyvaka, Sneihil Gopal, Amit Dhurandhar, Guillermo Cecchi, Irina Rish, (参考訳) 自然画像の生成的サンプリングにおいて顕著な成果を生かし、画像に似た多変量時系列全体のサンプルを生成するという、画期的な挑戦を、潜在的に過度に野心的に提案する。 しかし、統計上の課題は小さなサンプルサイズであり、時には数百人の被験者で構成されている。 この問題は、標準分布からサンプルを生成し、真のデータ分布と一致するようにデコードまたはデノケーションする従来のアプローチに従う深層生成モデルに特に問題となる。 対照的に,本手法は情報理論に根ざし,画像の分布,特に画素間の(グローバルかつ局所的な)依存性構造を暗黙的に特徴付けることを目的としている。 我々は、それぞれの辺分布に関して、そのKL偏差を双対形式で経験的に推定することでこれを達成した。 これにより、最適化された1次元双対発散空間で生成的サンプリングを行うことができる。 具体的には、双対空間において、データ分布を表すトレーニングサンプルを2つの終点間の様々なクラスタの形で埋め込む。 理論的には、これらの2つの終点の間に埋め込まれたサンプルは、データ分布の内分布である。 画像の新たなサンプルを生成するための鍵となるアイデアは、データ次元の双対関数の勾配に従って、ウォークを介してクラスタ間を補間することである。 直接サンプリングから得られるデータ効率に加えて,サンプルの複雑さを著しく低減し,データ分布の分散を限界分布に対して推定するアルゴリズムを提案する。 我々は、様々な領域の現実世界のデータセットを用いた広範な経験的評価とともに、強力な理論的保証を提供し、最先端のディープラーニング手法によるアプローチの優位性を確立する。

Building on the remarkable achievements in generative sampling of natural images, we propose an innovative challenge, potentially overly ambitious, which involves generating samples of entire multivariate time series that resemble images. However, the statistical challenge lies in the small sample size, sometimes consisting of a few hundred subjects. This issue is especially problematic for deep generative models that follow the conventional approach of generating samples from a canonical distribution and then decoding or denoising them to match the true data distribution. In contrast, our method is grounded in information theory and aims to implicitly characterize the distribution of images, particularly the (global and local) dependency structure between pixels. We achieve this by empirically estimating its KL-divergence in the dual form with respect to the respective marginal distribution. This enables us to perform generative sampling directly in the optimized 1-D dual divergence space. Specifically, in the dual space, training samples representing the data distribution are embedded in the form of various clusters between two end points. In theory, any sample embedded between those two end points is in-distribution w.r.t. the data distribution. Our key idea for generating novel samples of images is to interpolate between the clusters via a walk as per gradients of the dual function w.r.t. the data dimensions. In addition to the data efficiency gained from direct sampling, we propose an algorithm that offers a significant reduction in sample complexity for estimating the divergence of the data distribution with respect to the marginal distribution. We provide strong theoretical guarantees along with an extensive empirical evaluation using many real-world datasets from diverse domains, establishing the superiority of our approach w.r.t. state-of-the-art deep learning methods.
翻訳日:2024-04-12 15:28:21 公開日:2024-04-10
# 失敗から学ぶ:直観論的命題論理証明のための試行錯誤データを用いた微調整LDM

Learn from Failure: Fine-Tuning LLMs with Trial-and-Error Data for Intuitionistic Propositional Logic Proving ( http://arxiv.org/abs/2404.07382v1 )

ライセンス: Link先を確認
Chenyang An, Zhibo Chen, Qihao Ye, Emily First, Letian Peng, Jiayun Zhang, Zihan Wang, Sorin Lerner, Jingbo Shang, (参考訳) 自動定理証明の最近の進歩は、証明状態の探索に戦術(すなわち証明ステップ)を生成する(より大きな)言語モデルを活用することの有効性を示している。 現在のモデルは、成功した証明パスのみに基づいて訓練されているが、試行錯誤の段階では、失敗からの学習を取り入れないトレーニングとは異なり、成功を見つけるまで、各証明状態で様々な戦術をサンプリングして試さなければならないため、不一致に直面している。 直感的には、探索経路の失敗につながる戦術は、同様の戦術が次の試験においてより少ない注意を払わなければならないことを示している。 本稿では,探索経路の失敗から学習する学習モデルの利点を実証する。 既存のオープンソース定理証明データセットにそのような試行錯誤データが欠如しているにもかかわらず、直観主義的な命題論理定理のデータセットをキュレートし、リーンでそれを形式化し、証明の正しさを確実にチェックできるようにします。 比較的短いトライアル・アンド・エラー情報(TrialMaster)で訓練されたモデルと、正しい経路でのみ訓練されたモデルを比較し、前者が低いトライアル探索でより目に見えない定理を解くことを発見した。

Recent advances in Automated Theorem Proving have shown the effectiveness of leveraging a (large) language model that generates tactics (i.e. proof steps) to search through proof states. The current model, while trained solely on successful proof paths, faces a discrepancy at the inference stage, as it must sample and try various tactics at each proof state until finding success, unlike its training which does not incorporate learning from failed attempts. Intuitively, a tactic that leads to a failed search path would indicate that similar tactics should receive less attention during the following trials. In this paper, we demonstrate the benefit of training models that additionally learn from failed search paths. Facing the lack of such trial-and-error data in existing open-source theorem-proving datasets, we curate a dataset on intuitionistic propositional logic theorems and formalize it in Lean, such that we can reliably check the correctness of proofs. We compare our model trained on relatively short trial-and-error information (TrialMaster) with models trained only on the correct paths and discover that the former solves more unseen theorems with lower trial searches.
翻訳日:2024-04-12 15:28:21 公開日:2024-04-10
# 自動車における信頼と状況認識のためのヒューマン・マシン・インタフェースへの説明の組み入れ

Incorporating Explanations into Human-Machine Interfaces for Trust and Situation Awareness in Autonomous Vehicles ( http://arxiv.org/abs/2404.07383v1 )

ライセンス: Link先を確認
Shahin Atakishiyev, Mohammad Salameh, Randy Goebel, (参考訳) 自動運転車は、収集されたセンサーデータに適用された機械学習ベースの予測モデルを介して複雑な決定をすることが多い。 この組み合わせはリアルタイム行動の基礎を提供するが、自動運転の動作はエンドユーザにとって不透明なままである。 この意味では、リアルタイム意思決定の説明可能性は、自動運転車の信頼性を構築する上で、不可欠かつ自然な要件である。 さらに、自動運転車は、様々な理由で深刻な交通事故を引き起こしているため、道路利用者への危険のタイムリーな搬送は、現場の理解を改善し、潜在的なリスクを防ぐのに役立つ。 そのため、人間と機械の効果的な連携のためのユーザーフレンドリーなインターフェースを備えた自動運転車の供給も必要である。 この問題に触発された我々は、自動車の自律性に対する信頼構築において、説明可能なAIとヒューマン・マシン・インタフェースの役割を共同で研究する。 まず,3W1H (What, who, when, how) のアプローチにより,説明的人間機械システムの幅広い文脈を提示する。 これらの知見に基づき,自動運転行動に対するユーザの信頼度を調整するための状況認識フレームワークを提案する。 最後に,我々のフレームワーク上で実験を行い,ユーザによる研究を行い,仮説テストによる実験結果の検証を行った。

Autonomous vehicles often make complex decisions via machine learning-based predictive models applied to collected sensor data. While this combination of methods provides a foundation for real-time actions, self-driving behavior primarily remains opaque to end users. In this sense, explainability of real-time decisions is a crucial and natural requirement for building trust in autonomous vehicles. Moreover, as autonomous vehicles still cause serious traffic accidents for various reasons, timely conveyance of upcoming hazards to road users can help improve scene understanding and prevent potential risks. Hence, there is also a need to supply autonomous vehicles with user-friendly interfaces for effective human-machine teaming. Motivated by this problem, we study the role of explainable AI and human-machine interface jointly in building trust in vehicle autonomy. We first present a broad context of the explanatory human-machine systems with the "3W1H" (what, whom, when, how) approach. Based on these findings, we present a situation awareness framework for calibrating users' trust in self-driving behavior. Finally, we perform an experiment on our framework, conduct a user study on it, and validate the empirical findings with hypothesis testing.
翻訳日:2024-04-12 15:28:21 公開日:2024-04-10
# BISCUIT:計算ノートにおける一時UIによるLLM生成コードの共有

BISCUIT: Scaffolding LLM-Generated Code with Ephemeral UIs in Computational Notebooks ( http://arxiv.org/abs/2404.07387v1 )

ライセンス: Link先を確認
Ruijia Cheng, Titus Barik, Alan Leung, Fred Hohman, Jeffrey Nichols, (参考訳) 初心者はしばしば計算ノートブックの機械学習チュートリアルに携わり、大規模言語モデル(LLM)に基づいたコード生成技術を採用してきた。 しかし、LLMが生成したコードを理解し、操作することの難しさに直面する。 これらの課題を軽減するため,ユーザプロンプトとコード生成の中間段階としてUIベースの足場を提供するとともに,LLMベースのコード生成を短時間UIステップで強化する新しいワークフローを計算ノートに導入する。 このワークフローは、JupyterLabの拡張機能であるBISCUITで、ユーザに対して、コードと意図のコンテキストに基づいてLLMが生成した短命なUIを提供し、ユーザがLLM生成コードを理解し、ガイドし、探索するための足場を提供する。 初心者が機械学習チュートリアルにBISCUITを使用した10のユーザスタディを通じて、BISCUITは理解を助け、迅速なエンジニアリングの複雑さを減らし、ユーザが異なる変数を探索し、アイデアを反復するための遊び場を作るために、ユーザのセマンティックなコード表現を提供することがわかった。 コード生成LLMにおけるUI中心のインタラクティブパラダイムに対する我々の研究結果の意義について論じる。

Novices frequently engage with machine learning tutorials in computational notebooks and have been adopting code generation technologies based on large language models (LLMs). However, they encounter difficulties in understanding and working with code produced by LLMs. To mitigate these challenges, we introduce a novel workflow into computational notebooks that augments LLM-based code generation with an additional ephemeral UI step, offering users UI-based scaffolds as an intermediate stage between user prompts and code generation. We present this workflow in BISCUIT, an extension for JupyterLab that provides users with ephemeral UIs generated by LLMs based on the context of their code and intentions, scaffolding users to understand, guide, and explore with LLM-generated code. Through 10 user studies where novices used BISCUIT for machine learning tutorials, we discover that BISCUIT offers user semantic representation of code to aid their understanding, reduces the complexity of prompt engineering, and creates a playground for users to explore different variables and iterate on their ideas. We discuss the implications of our findings for UI-centric interactive paradigm in code generation LLMs.
翻訳日:2024-04-12 15:28:21 公開日:2024-04-10
# テキスト・画像拡散モデルにおけるオブジェクト指向エネルギーベースアテンションマップアライメント

Object-Conditioned Energy-Based Attention Map Alignment in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2404.07389v1 )

ライセンス: Link先を確認
Yasi Zhang, Peiyu Yu, Ying Nian Wu, (参考訳) テキスト・ツー・イメージ拡散モデルは高品質なテキスト誘導画像を生成する上で大きな成功を収めている。 しかし、これらのモデルは、提供されるテキストプロンプトと生成した画像を意味的に整合させることができず、誤った属性バインディングや破滅的なオブジェクトの無視といった問題を引き起こします。 テキストプロンプトを基盤とする広汎なオブジェクト指向構造を考えると、上記の問題に対処するための新しいオブジェクト指向エネルギーベース注意マップアライメント(EBAMA)法を導入する。 負のサンプリング手法を用いて,z$パラメータ化エネルギーベースモデルのログ類似度をほぼ最大化することにより,オブジェクト中心の属性結合損失が自然に発生することを示す。 さらに,物体の属性に対する過度な注目の変化を防止するために,物体中心の強度正規化器を提案する。 人間の評価を含む広範囲な定性的・定量的な実験を、いくつかの挑戦的なベンチマークで実施し、我々の手法が従来の強靭な手法よりも優れた性能を示した。 よりアライメントされたアテンションマップにより、拡散モデルのテキスト制御画像編集能力を一層向上させることが期待できる。

Text-to-image diffusion models have shown great success in generating high-quality text-guided images. Yet, these models may still fail to semantically align generated images with the provided text prompts, leading to problems like incorrect attribute binding and/or catastrophic object neglect. Given the pervasive object-oriented structure underlying text prompts, we introduce a novel object-conditioned Energy-Based Attention Map Alignment (EBAMA) method to address the aforementioned problems. We show that an object-centric attribute binding loss naturally emerges by approximately maximizing the log-likelihood of a $z$-parameterized energy-based model with the help of the negative sampling technique. We further propose an object-centric intensity regularizer to prevent excessive shifts of objects attention towards their attributes. Extensive qualitative and quantitative experiments, including human evaluation, on several challenging benchmarks demonstrate the superior performance of our method over previous strong counterparts. With better aligned attention maps, our approach shows great promise in further enhancing the text-controlled image editing ability of diffusion models.
翻訳日:2024-04-12 15:28:21 公開日:2024-04-10
# 政策制約下における最適動的処理割り当て則の推定

Estimation of Optimal Dynamic Treatment Assignment Rules under Policy Constraints ( http://arxiv.org/abs/2106.05031v4 )

ライセンス: Link先を確認
Shosei Sakaguchi, (参考訳) 本稿では,動的処理代入問題に対する統計的決定について検討する。 多くの政策は、治療が複数の段階にわたって個人に順次割り当てられ、各段階における治療の効果は通常、以前の治療、過去の結果、観察された共変量に対して不均一である。 個人の歴史に基づいて各段階毎の最適治療課題を導出する最適動的治療則を推定することを検討する。 本稿では,動的枠組みを用いた実証的福祉最大化手法を提案する。 提案手法は,実験および準実験によるデータを用いて最適動的処理則を推定する。 本稿では,各段階における処理代入問題と,各段階における動的処理代入問題とを同時に解く方法を提案する。 提案手法では, 最悪の場合の平均福祉的後悔に対する有限サンプル上限を導出し, 1/\sqrt{n}$-minimax収束率を示す。 また、時間的予算/容量制約を組み込むために同時推定法を変更した。

This paper studies statistical decisions for dynamic treatment assignment problems. Many policies involve dynamics in their treatment assignments where treatments are sequentially assigned to individuals across multiple stages and the effect of treatment at each stage is usually heterogeneous with respect to the prior treatments, past outcomes, and observed covariates. We consider estimating an optimal dynamic treatment rule that guides the optimal treatment assignment for each individual at each stage based on the individual's history. This paper proposes an empirical welfare maximization approach in a dynamic framework. The approach estimates the optimal dynamic treatment rule using data from an experimental or quasi-experimental study. The paper proposes two estimation methods: one solves the treatment assignment problem at each stage through backward induction, and the other solves the whole dynamic treatment assignment problem simultaneously across all stages. We derive finite-sample upper bounds on worst-case average welfare regrets for the proposed methods and show $1/\sqrt{n}$-minimax convergence rates. We also modify the simultaneous estimation method to incorporate intertemporal budget/capacity constraints.
翻訳日:2024-04-11 20:08:46 公開日:2024-04-10
# 汎用ネットワーク上での分散最適化のための圧縮勾配追従法

Compressed Gradient Tracking for Decentralized Optimization Over General Directed Networks ( http://arxiv.org/abs/2106.07243v4 )

ライセンス: Link先を確認
Zhuoqing Song, Lei Shi, Shi Pu, Ming Yan, (参考訳) 本稿では,汎用マルチエージェントネットワーク上での通信効率のよい分散最適化アルゴリズムを提案する。 最初のアルゴリズムはCompressed Push-Pull (CPP) と呼ばれ、勾配追跡法と通信圧縮を組み合わせたものである。 CPPは非バイアス圧縮作用素の一般クラスに適用可能であることを示し、強凸および滑らかな対象関数に対する線形収束率を達成する。 第2のアルゴリズムはCPP(B-CPP)の放送的バージョンであり、目的関数上の同じ条件下での線形収束率も達成する。 B-CPPは非同期ブロードキャスト設定に適用でき、CPPと比較して通信コストをさらに削減できる。 数値実験は理論解析を補完し,提案手法の有効性を確認する。

In this paper, we propose two communication efficient decentralized optimization algorithms over a general directed multi-agent network. The first algorithm, termed Compressed Push-Pull (CPP), combines the gradient tracking Push-Pull method with communication compression. We show that CPP is applicable to a general class of unbiased compression operators and achieves linear convergence rate for strongly convex and smooth objective functions. The second algorithm is a broadcast-like version of CPP (B-CPP), and it also achieves linear convergence rate under the same conditions on the objective functions. B-CPP can be applied in an asynchronous broadcast setting and further reduce communication costs compared to CPP. Numerical experiments complement the theoretical analysis and confirm the effectiveness of the proposed methods.
翻訳日:2024-04-11 20:08:46 公開日:2024-04-10
# CityNet: 都市コンピューティングにおける高度な研究のための総合的マルチモーダル都市データセット

CityNet: A Comprehensive Multi-Modal Urban Dataset for Advanced Research in Urban Computing ( http://arxiv.org/abs/2106.15802v2 )

ライセンス: Link先を確認
Zhengfei Zheng, Xu Geng, Hai Yang, (参考訳) データ駆動型アプローチは、都市コンピューティングにおける課題に対処するための一般的なツールとして登場した。 しかし、現在の研究は、主に限られたデータソースに焦点を当てており、複数のエンティティとその相互接続から生じる都市データの複雑さを捉えていない。 したがって、都市コンピューティングにおけるより広範な研究を可能にするために、包括的で多面的なデータセットが必要である。 本稿では,タクシーの軌跡,交通速度,関心点(POI),道路網,風,雨,温度など,さまざまなデータを組み込んだマルチモーダル都市データセットであるCityNetを提案する。 この包括的データを,移動データ,地理的データ,気象データという3つのストリームに分類する。 まず、CityNetの生成プロセスと基本特性について詳述する。 さらに,CityNetの利用を促進するために,時空間予測や移動学習,強化学習など,広範なデータマイニングと機械学習の実験を行っている。 実験の結果,様々なタスクと手法のベンチマークが得られた。また,CityNet内の都市とタスク間の内部相関が,時空間予測性能の向上に有効であることがわかった。 このベンチマーク結果と相関関係から,CityNetは先進的なトピックの研究を可能にすることで,都市コンピューティングの分野に大きく貢献できると考えている。

Data-driven approaches have emerged as a popular tool for addressing challenges in urban computing. However, current research efforts have primarily focused on limited data sources, which fail to capture the complexity of urban data arising from multiple entities and their interconnections. Therefore, a comprehensive and multifaceted dataset is required to enable more extensive studies in urban computing. In this paper, we present CityNet, a multi-modal urban dataset that incorporates various data, including taxi trajectory, traffic speed, point of interest (POI), road network, wind, rain, temperature, and more, from seven cities. We categorize this comprehensive data into three streams: mobility data, geographical data, and meteorological data. We begin by detailing the generation process and basic properties of CityNet. Additionally, we conduct extensive data mining and machine learning experiments, including spatio-temporal predictions, transfer learning, and reinforcement learning, to facilitate the use of CityNet. Our experimental results provide benchmarks for various tasks and methods, and also reveal internal correlations among cities and tasks within CityNet that can be leveraged to improve spatiotemporal forecasting performance. Based on our benchmarking results and the correlations uncovered, we believe that CityNet can significantly contribute to the field of urban computing by enabling research on advanced topics.
翻訳日:2024-04-11 20:04:52 公開日:2024-04-10
# 最適かつ効率的な復号化のための量子メッセージパッシングアルゴリズム

Quantum message-passing algorithm for optimal and efficient decoding ( http://arxiv.org/abs/2109.08170v3 )

ライセンス: Link先を確認
Christophe Piveteau, Joseph M. Renes, (参考訳) 近年では、純粋状態CQチャネル(Renes, NJP 19 072001 (2017))を介して伝送される木タナーグラフを持つバイナリ線形コードを用いて符号化された古典的データを復号化するための、BPQMを用いた信念伝播と呼ばれる量子アルゴリズムが提案されている。 このアルゴリズムは、LDPCやTurboコードと組み合わせて使用する場合、古典的符号化理論において広く成功している古典的信念伝播アルゴリズムに基づく復号法と真に相反する量子を提示する。 より最近、Rengaswamy et al [npj Quantum Information 7 97 (2021)] はBPQMが小さなサンプルコードに最適なデコーダを実装していることを観察した。 ここでは,BPQMアルゴリズムの理解,形式性,適用性を大幅に拡張し,次のような貢献を行う。 まず,木タナーグラフを用いた任意のバイナリ線形コードに対してBPQMが最適な復号化を実現することを解析的に証明する。 また、BPQMアルゴリズムの完全かつ曖昧さのない最初の公式記述も提供する。 このようにして、元のアルゴリズムとその後の研究で見落とされた重要な欠陥を特定し、量子回路の実現がコード次元において指数関数的に大きくなることを示唆する。 BPQMは量子メッセージを渡すが、アルゴリズムが必要とする他の情報は世界中で処理される。 我々は、BPQMを近似し、量子回路の複雑性を持つ真にメッセージ通過アルゴリズムを定式化することにより、この問題を解決した。 最後に、近似クローニングを用いてBPQMをサイクルを含むグラフに拡張する新しい手法を提案する。 BPQM がサイクルを持つ因子グラフ上で最も優れた古典デコーダを著しく上回ることを示す有望な数値結果を示す。

Recently, Renes proposed a quantum algorithm called belief propagation with quantum messages (BPQM) for decoding classical data encoded using a binary linear code with tree Tanner graph that is transmitted over a pure-state CQ channel [Renes, NJP 19 072001 (2017)]. The algorithm presents a genuine quantum counterpart to decoding based on the classical belief propagation algorithm, which has found wide success in classical coding theory when used in conjunction with LDPC or Turbo codes. More recently Rengaswamy et al. [npj Quantum Information 7 97 (2021)] observed that BPQM implements the optimal decoder on a small example code. Here we significantly expand the understanding, formalism, and applicability of the BPQM algorithm with the following contributions. First, we prove analytically that BPQM realizes optimal decoding for any binary linear code with tree Tanner graph. We also provide the first formal description of the BPQM algorithm in full detail and without any ambiguity. In so doing, we identify a key flaw overlooked in the original algorithm and subsequent works which implies quantum circuit realizations will be exponentially large in the code dimension. Although BPQM passes quantum messages, other information required by the algorithm is processed globally. We remedy this problem by formulating a truly message-passing algorithm which approximates BPQM and has quantum circuit complexity $\mathcal{O}(\text{poly } n, \text{polylog } \frac{1}{\epsilon})$, where $n$ is the code length and $\epsilon$ is the approximation error. Finally, we also propose a novel method for extending BPQM to factor graphs containing cycles by making use of approximate cloning. We show some promising numerical results that indicate that BPQM on factor graphs with cycles can significantly outperform the best possible classical decoder.
翻訳日:2024-04-11 20:04:52 公開日:2024-04-10
# 最も近い隣人の経験過程

Nearest neighbor empirical processes ( http://arxiv.org/abs/2110.15083v4 )

ライセンス: Link先を確認
François Portier, (参考訳) 回帰フレームワークでは、共変量のうち、隣人から与えられた点x$への応答に基づく経験的測度を導入し、中央統計量として研究する。 まず、関連する経験過程は、近傍のアルゴリズムの局所化の性質を反映した関数の基底クラス上の局所的ブラケットエントロピー条件の下で一様中心極限定理を満たすことが示される。 第二に、一様非漸近境界は、一様エントロピー数上のよく知られた条件の下で成立し、しばしばVapnik-Chervonenkisと呼ばれる。 一様中心極限定理で得られるガウス極限の共分散は、余変数値が与えられた条件共分散作用素に単純に等しい。 これは、標準公式を用いて、全データの代わりに最も近い隣人だけを用いて分散を推定できる可能性を示唆している。 これは条件累積分布関数の推定と局所線形回帰という2つの問題について説明する。

In the regression framework, the empirical measure based on the responses resulting from the nearest neighbors, among the covariates, to a given point $x$ is introduced and studied as a central statistical quantity. First, the associated empirical process is shown to satisfy a uniform central limit theorem under a local bracketing entropy condition on the underlying class of functions reflecting the localizing nature of the nearest neighbor algorithm. Second a uniform non-asymptotic bound is established under a well-known condition, often referred to as Vapnik-Chervonenkis, on the uniform entropy numbers. The covariance of the Gaussian limit obtained in the uniform central limit theorem is simply equal to the conditional covariance operator given the covariate value. This suggests the possibility of using standard formulas to estimate the variance by using only the nearest neighbors instead of the full data. This is illustrated on two problems: the estimation of the conditional cumulative distribution function and local linear regression.
翻訳日:2024-04-11 20:04:52 公開日:2024-04-10
# ソースコードの匿名化の課題について

I still know it's you! On Challenges in Anonymizing Source Code ( http://arxiv.org/abs/2208.12553v2 )

ライセンス: Link先を確認
Micha Horlboge, Erwin Quiring, Roland Meyer, Konrad Rieck, (参考訳) プログラムのソースコードは、セマンティクスを定義するだけでなく、作者を特定する微妙な手がかりも含んでいる。 いくつかの研究によると、これらのヒントは機械学習を使って自動的に抽出され、数百人のプログラマの間でプログラムの作者を決定することができる。 この帰属は、反検閲およびプライバシー強化技術の開発者にとって重大な脅威となる。 この脅威から理想的な保護は、ソースコードの匿名化である。 しかし、このような匿名化の理論的・実践的な原則はこれまでにも検討されていない。 本稿では,この問題に対処し,コードの匿名化を推論するためのフレームワークを開発する。 我々は、$k$匿名プログラム($k$作者の1つに帰属できないプログラム)を生成するタスクは、一般的なケースでは計算不可能であることを示す。 対策として、開発者の保護を測定するために、$k$-uncertaintyという緩和された概念を紹介します。 この概念に基づいて,コード正規化やコーディングスタイルの模倣,コードの難読化など,匿名化の候補手法を実証的に研究する。 攻撃者が匿名化に気付くと、いずれの手法も十分な保護を提供しないことがわかった。 実世界のコードに対する属性性能の顕著な低下を観察する一方で、すべての開発者にとって信頼性の高い保護が達成されるわけではない。 我々は、コード匿名化は、研究コミュニティからさらなる注意を必要とする難しい問題である、と結論付けている。

The source code of a program not only defines its semantics but also contains subtle clues that can identify its author. Several studies have shown that these clues can be automatically extracted using machine learning and allow for determining a program's author among hundreds of programmers. This attribution poses a significant threat to developers of anti-censorship and privacy-enhancing technologies, as they become identifiable and may be prosecuted. An ideal protection from this threat would be the anonymization of source code. However, neither theoretical nor practical principles of such an anonymization have been explored so far. In this paper, we tackle this problem and develop a framework for reasoning about code anonymization. We prove that the task of generating a $k$-anonymous program -- a program that cannot be attributed to one of $k$ authors -- is not computable in the general case. As a remedy, we introduce a relaxed concept called $k$-uncertainty, which enables us to measure the protection of developers. Based on this concept, we empirically study candidate techniques for anonymization, such as code normalization, coding style imitation, and code obfuscation. We find that none of the techniques provides sufficient protection when the attacker is aware of the anonymization. While we observe a notable reduction in attribution performance on real-world code, a reliable protection is not achieved for all developers. We conclude that code anonymization is a hard problem that requires further attention from the research community.
翻訳日:2024-04-11 20:04:52 公開日:2024-04-10
# グラフニューラルネットワークのためのユニバーサルプロンプトチューニング

Universal Prompt Tuning for Graph Neural Networks ( http://arxiv.org/abs/2209.15240v5 )

ライセンス: Link先を確認
Taoran Fang, Yunchao Zhang, Yang Yang, Chunping Wang, Lei Chen, (参考訳) 近年、プロンプトチューニングは、事前訓練されたモデルに適応する研究の急増を引き起こしている。 言語分野における統合事前学習戦略とは異なり、グラフフィールドは様々な事前学習戦略を示し、グラフニューラルネットワークの適切なプロンプトベースのチューニング方法を設計する上での課題を提起する。 いくつかの先駆的な研究は、エッジ予測を事前訓練タスクとして使用するモデルの特別なプロンプト機能を考案しているが、これらの手法は特定の事前訓練されたGNNモデルに限定されており、より広範な適用性に欠ける。 本稿では,任意の事前学習戦略の下で事前学習したGNNモデルに対して,GPF(Graph Prompt Feature)と呼ばれる汎用的なプロンプトベースのチューニング手法を提案する。 GPFは入力グラフの特徴空間上で動作し、理論的には任意の形式のプロンプト関数に等価な効果を達成できる。 その結果、各事前学習戦略に対応するプロンプト関数を明示的に記述する必要がなくなった。 代わりに、我々はGPFを用いて、下流タスクの誘導されたグラフを適応的に取得する。 GPFの普遍性を実証し、その有効性を保証するための厳密な導出を提供する。 様々な事前学習戦略による実験結果から,本手法は微調整よりも優れており,フルショットシナリオでは平均1.4%,少数ショットシナリオでは約3.2%の改善が見られた。 さらに,本手法は,事前学習戦略を応用したモデルに適用した場合,既存のプロンプトベースのチューニング手法よりも優れていた。 これらの多くの利点は、下流適応のための微調整の魅力的な代替手段として、我々の手法を位置づけている。

In recent years, prompt tuning has sparked a research surge in adapting pre-trained models. Unlike the unified pre-training strategy employed in the language field, the graph field exhibits diverse pre-training strategies, posing challenges in designing appropriate prompt-based tuning methods for graph neural networks. While some pioneering work has devised specialized prompting functions for models that employ edge prediction as their pre-training tasks, these methods are limited to specific pre-trained GNN models and lack broader applicability. In this paper, we introduce a universal prompt-based tuning method called Graph Prompt Feature (GPF) for pre-trained GNN models under any pre-training strategy. GPF operates on the input graph's feature space and can theoretically achieve an equivalent effect to any form of prompting function. Consequently, we no longer need to illustrate the prompting function corresponding to each pre-training strategy explicitly. Instead, we employ GPF to obtain the prompted graph for the downstream task in an adaptive manner. We provide rigorous derivations to demonstrate the universality of GPF and make guarantee of its effectiveness. The experimental results under various pre-training strategies indicate that our method performs better than fine-tuning, with an average improvement of about 1.4% in full-shot scenarios and about 3.2% in few-shot scenarios. Moreover, our method significantly outperforms existing specialized prompt-based tuning methods when applied to models utilizing the pre-training strategy they specialize in. These numerous advantages position our method as a compelling alternative to fine-tuning for downstream adaptations.
翻訳日:2024-04-11 20:04:52 公開日:2024-04-10
# ゼロショットコーディネーションのための等変ネットワーク

Equivariant Networks for Zero-Shot Coordination ( http://arxiv.org/abs/2210.12124v2 )

ライセンス: Link先を確認
Darius Muglich, Christian Schroeder de Witt, Elise van der Pol, Shimon Whiteson, Jakob Foerster, (参考訳) Dec-POMDPのコーディネーションを成功させるためには、エージェントは堅牢な戦略と、パートナーのための解釈可能なスタイルを採用する必要がある。 共通の失敗モードは対称性の破れであり、エージェントは等価だが相互に相容れない多くのポリシーのうちの1つに任意に収束する。 一般的にこれらの例には、部分的な可観測性、例えば、秘密のメッセージを伝えるために右手と左手を振ることが含まれる。 本稿では,環境対称性を効果的に活用し,ゼロショットコーディネートを改善する新しいネットワークアーキテクチャを提案する。 提案手法は, 汎用的かつ事前学習されたポリシーに対して ‘Coordination-improvement operator'' として機能するので, 任意のセルフプレイアルゴリズムと組み合わせてテスト時に適用することができる。 我々はハナビのAIベンチマークタスクにおける作業とテストの理論的保証を提供し、ゼロショットコーディネーションにおいて他の対称性を意識したベースラインよりも優れた手法を実証するとともに、さまざまな事前訓練されたポリシーのコーディネーション能力を向上させる。 特に,本手法は,ハナビベンチマークにおけるゼロショットコーディネーションの最先端化に有効であることを示す。

Successful coordination in Dec-POMDPs requires agents to adopt robust strategies and interpretable styles of play for their partner. A common failure mode is symmetry breaking, when agents arbitrarily converge on one out of many equivalent but mutually incompatible policies. Commonly these examples include partial observability, e.g. waving your right hand vs. left hand to convey a covert message. In this paper, we present a novel equivariant network architecture for use in Dec-POMDPs that effectively leverages environmental symmetry for improving zero-shot coordination, doing so more effectively than prior methods. Our method also acts as a ``coordination-improvement operator'' for generic, pre-trained policies, and thus may be applied at test-time in conjunction with any self-play algorithm. We provide theoretical guarantees of our work and test on the AI benchmark task of Hanabi, where we demonstrate our methods outperforming other symmetry-aware baselines in zero-shot coordination, as well as able to improve the coordination ability of a variety of pre-trained policies. In particular, we show our method can be used to improve on the state of the art for zero-shot coordination on the Hanabi benchmark.
翻訳日:2024-04-11 20:04:52 公開日:2024-04-10
# 各種バックボーンニューラルネットワークの汎用的共有注意機構

A Generic Shared Attention Mechanism for Various Backbone Neural Networks ( http://arxiv.org/abs/2210.16101v2 )

ライセンス: Link先を確認
Zhongzhan Huang, Senwei Liang, Mingfu Liang, Liang Lin, (参考訳) 自己認識機構は、様々なバックボーンニューラルネットワークの性能向上に重要な要素として浮上している。 しかし、現在の主流のアプローチは、パラメータのポテンシャルを完全に活用することなく、ネットワークの各層に新しく設計された自己注意モジュール(SAM)を個別に組み込む。 これにより、ネットワークの深さが増加するにつれて、最適以下の性能とパラメータ消費が増加する。 このパラダイムを改善するために,本論文ではまず,直感的だが固有の現象を提示する。SAMは,平均パーソン相関係数0.85で,異なる層に強く相関する注目マップを生成する傾向にある。 本研究は,Dense-and-Implicit Attention (DIA, Dense-and-Implicit Attention)を提案する。これはSAMを直接レイヤ間で共有し,異なるレイヤの高度に相関したアテンションマップを校正・ブリッジするための長期記憶モジュールを用いて,SAMのパラメータ利用効率を向上させる。 DIAのこの設計は、ニューラルネットワークの動的システムの観点からも一致している。 広範にわたる実験により、我々は、画像分類、オブジェクト検出、拡散モデルを用いた画像生成などのタスクにおいて、ResNet、Transformer、UNetを含む、単純で効果的なDIAが一貫して様々なネットワークバックボーンを拡張できることを実証した。

The self-attention mechanism has emerged as a critical component for improving the performance of various backbone neural networks. However, current mainstream approaches individually incorporate newly designed self-attention modules (SAMs) into each layer of the network for granted without fully exploiting their parameters' potential. This leads to suboptimal performance and increased parameter consumption as the network depth increases. To improve this paradigm, in this paper, we first present a counterintuitive but inherent phenomenon: SAMs tend to produce strongly correlated attention maps across different layers, with an average Pearson correlation coefficient of up to 0.85. Inspired by this inherent observation, we propose Dense-and-Implicit Attention (DIA), which directly shares SAMs across layers and employs a long short-term memory module to calibrate and bridge the highly correlated attention maps of different layers, thus improving the parameter utilization efficiency of SAMs. This design of DIA is also consistent with the neural network's dynamical system perspective. Through extensive experiments, we demonstrate that our simple yet effective DIA can consistently enhance various network backbones, including ResNet, Transformer, and UNet, across tasks such as image classification, object detection, and image generation using diffusion models.
翻訳日:2024-04-11 20:04:52 公開日:2024-04-10
# 可視性解析による視覚制御系の閉ループ故障の発見

Discovering Closed-Loop Failures of Vision-Based Controllers via Reachability Analysis ( http://arxiv.org/abs/2211.02736v4 )

ライセンス: Link先を確認
Kaustav Chakraborty, Somil Bansal, (参考訳) 機械学習によるイメージベースコントローラは、ロボットシステムが環境からの視覚的フィードバックに基づいてインテリジェントなアクションを取ることを可能にする。 これらのコントローラがシステム安全違反につながる可能性を理解することは、システムにとって安全クリティカルなアプリケーションとエンジニアリングの修正安全対策を統合する上で重要である。 既存の手法では、シミュレーションベースのテスト(またはファルシフィケーション)を利用して、視覚ベースのコントローラの故障、すなわちクローズドループの安全違反につながる視覚入力を見つける。 しかし、これらの手法はRGB画像のような高次元および複雑な視覚入力を含むシナリオには適していない。 本研究では,ハミルトン・ヤコビ(HJ)の到達可能性問題として,閉ループ型視覚障害の発見を論じる。 提案手法は,シミュレーションに基づく解析とHJリーチビリティ手法を融合して,システムの後方到達管(BRT)の近似を計算する。 BRTを利用することで、システム状態とそれに対応する視覚的入力がクローズドループ障害につながることを、的確に、かつ体系的に見つけることができる。 これらの視覚的な入力はその後分析され、失敗の原因となった可能性のある入力特性を見つけることができる。 高次元視覚入力へのスケーラビリティに加えて、BRTの明示的な計算により、ランダムなシミュレーションによって露呈し難い非自明なシステム障害を捉えることができる。 我々は,RGB画像ベースニューラルネットワークコントローラを用いた2つのケーススタディを実演する。 (a)自律型屋内ナビゲーション、及び (b)自律型航空機タクシー。

Machine learning driven image-based controllers allow robotic systems to take intelligent actions based on the visual feedback from their environment. Understanding when these controllers might lead to system safety violations is important for their integration in safety-critical applications and engineering corrective safety measures for the system. Existing methods leverage simulation-based testing (or falsification) to find the failures of vision-based controllers, i.e., the visual inputs that lead to closed-loop safety violations. However, these techniques do not scale well to the scenarios involving high-dimensional and complex visual inputs, such as RGB images. In this work, we cast the problem of finding closed-loop vision failures as a Hamilton-Jacobi (HJ) reachability problem. Our approach blends simulation-based analysis with HJ reachability methods to compute an approximation of the backward reachable tube (BRT) of the system, i.e., the set of unsafe states for the system under vision-based controllers. Utilizing the BRT, we can tractably and systematically find the system states and corresponding visual inputs that lead to closed-loop failures. These visual inputs can be subsequently analyzed to find the input characteristics that might have caused the failure. Besides its scalability to high-dimensional visual inputs, an explicit computation of BRT allows the proposed approach to capture non-trivial system failures that are difficult to expose via random simulations. We demonstrate our framework on two case studies involving an RGB image-based neural network controller for (a) autonomous indoor navigation, and (b) autonomous aircraft taxiing.
翻訳日:2024-04-11 20:04:52 公開日:2024-04-10
# データ選択によるマルチデバイスフェデレーション学習の効率化

Enhancing Efficiency in Multidevice Federated Learning through Data Selection ( http://arxiv.org/abs/2211.04175v4 )

ライセンス: Link先を確認
Fan Mo, Mohammad Malekzadeh, Soumyajit Chatterjee, Fahim Kawsar, Akhil Mathur, (参考訳) マルチデバイス環境におけるフェデレーション学習(FL)は、膨大な量のプライベートデータから学習する新たな機会を生み出す。 パーソナルデバイスは貴重なデータをキャプチャするが、メモリ、コンピューティング、接続性、バッテリー資源は制限されることが多い。 深層ニューラルネットワーク(DNN)がFLで使用される典型的な機械学習モデルであるため、ユビキタスな制約されたデバイスをDNNのトレーニングプロセスに統合する必要性がある。 本稿では、制約されたデバイスと同一クライアントのリソースフルデバイスとの協調によるDNNのパーティションベーストレーニングを可能にする、デバイス上のデータ選択をそのような制約されたデバイスに組み込むFLフレームワークを開発する。 5つのベンチマークDNNと6つのベンチマークデータセットによる評価から、我々のフレームワークは平均して19%の精度と58%のレイテンシを実現しています。 不均衡なデータ、クライアント参加の不均一性、さまざまなモビリティパターンを扱う際のFLフレームワークの有効性を実証する。 コミュニティのベンチマークとして、私たちのコードはhttps://github.com/dr-bell/data-centric-federated-learningで利用可能です。

Federated learning (FL) in multidevice environments creates new opportunities to learn from a vast and diverse amount of private data. Although personal devices capture valuable data, their memory, computing, connectivity, and battery resources are often limited. Since deep neural networks (DNNs) are the typical machine learning models employed in FL, there are demands for integrating ubiquitous constrained devices into the training process of DNNs. In this paper, we develop an FL framework to incorporate on-device data selection on such constrained devices, which allows partition-based training of a DNN through collaboration between constrained devices and resourceful devices of the same client. Evaluations on five benchmark DNNs and six benchmark datasets across different modalities show that, on average, our framework achieves ~19% higher accuracy and ~58% lower latency; compared to the baseline FL without our implemented strategies. We demonstrate the effectiveness of our FL framework when dealing with imbalanced data, client participation heterogeneity, and various mobility patterns. As a benchmark for the community, our code is available at https://github.com/dr-bell/data-centric-federated-learning
翻訳日:2024-04-11 20:04:52 公開日:2024-04-10
# 説得力のある筆記手法による健康情報の説明と検出

Using Persuasive Writing Strategies to Explain and Detect Health Misinformation ( http://arxiv.org/abs/2211.05985v4 )

ライセンス: Link先を確認
Danial Kamali, Joseph Romain, Huiyi Liu, Wei Peng, Jingbo Meng, Parisa Kordjamshidi, (参考訳) 今日では、誤報の拡散が社会で顕著な問題となっている。 本研究は,テキスト文書に用いられている説得戦略を分析し,誤情報の自動識別を支援することに焦点を当てている。 我々の目的を達成するために、一般的な説得力のある筆記法を含む新しいアノテーションスキームを導入する。 さらに,提案手法を応用した専門家によって完全に注釈付けされた健康情報に関するデータセットも提供する。 私たちのコントリビューションには、テキストに説得力のある書き込み戦略タイプを付加する、新たなタスクの提案が含まれています。 BERT ファミリーの事前学習言語モデルと GPT ファミリーの生成する大言語モデルを用いて,説得戦略を付加情報源として,微調整および迅速なエンジニアリング手法の評価を行った。 我々は,誤情報検出の文脈において,説得的戦略を中間ラベルとして活用する効果を評価する。 以上の結果から,これらの手法は精度を高め,誤情報検出モデルの説明可能性を向上させることが示唆された。 説得的戦略は貴重な洞察や説明として機能し、他のモデルや人間でさえ、情報の信頼性に関するより情報的な決定をすることができる。

Nowadays, the spread of misinformation is a prominent problem in society. Our research focuses on aiding the automatic identification of misinformation by analyzing the persuasive strategies employed in textual documents. We introduce a novel annotation scheme encompassing common persuasive writing tactics to achieve our objective. Additionally, we provide a dataset on health misinformation, thoroughly annotated by experts utilizing our proposed scheme. Our contribution includes proposing a new task of annotating pieces of text with their persuasive writing strategy types. We evaluate fine-tuning and prompt-engineering techniques with pre-trained language models of the BERT family and the generative large language models of the GPT family using persuasive strategies as an additional source of information. We evaluate the effects of employing persuasive strategies as intermediate labels in the context of misinformation detection. Our results show that those strategies enhance accuracy and improve the explainability of misinformation detection models. The persuasive strategies can serve as valuable insights and explanations, enabling other models or even humans to make more informed decisions regarding the trustworthiness of the information.
翻訳日:2024-04-11 20:04:52 公開日:2024-04-10
# 局所ハミルトニアンの正規化群による低境界基底状態エネルギー

Lower Bounding Ground-State Energies of Local Hamiltonians Through the Renormalization Group ( http://arxiv.org/abs/2212.03014v3 )

ライセンス: Link先を確認
Ilya Kull, Norbert Schuch, Ben Dive, Miguel Navascués, (参考訳) 再正規化スキームが与えられた場合、多体量子系の実現可能な局所密度行列の集合のトラクタブル凸緩和を定式化する方法を示す。 この緩和は、成長を続ける格子サイトの集合の減少状態の間の制約階層を導入することによって得られる。 根底にある再正規化手順の粗いグラフ化写像は、これらの制約の多くを排除し、残りの制約を合理的な計算手段で強制することができる。 これは、縮小された量子状態の凸緩和に対して線形最適化を行うことにより、任意の局所ハミルトニアンの基底状態エネルギーの厳密な下界を得るのに使うことができる。 境界の質は特定の再正規化スキームに決定的に依存するが、これは対象のハミルトニアンに合わせる必要がある。 この手法を1次元翻訳不変スピンモデルに適用し、局所翻訳不変状態である$n\gtrsim 100$ スピンを最適化することにより達成したスピンに匹敵するエネルギー境界を求める。 この実証の他に、一般的な方法は、高空間次元のスピン系、電子構造問題、および絡み合いや非局所性検出などの様々な多体最適化問題など、幅広い問題に適用することができる。

Given a renormalization scheme, we show how to formulate a tractable convex relaxation of the set of feasible local density matrices of a many-body quantum system. The relaxation is obtained by introducing a hierarchy of constraints between the reduced states of ever-growing sets of lattice sites. The coarse-graining maps of the underlying renormalization procedure serve to eliminate a vast number of those constraints, such that the remaining ones can be enforced with reasonable computational means. This can be used to obtain rigorous lower bounds on the ground state energy of arbitrary local Hamiltonians, by performing a linear optimization over the resulting convex relaxation of reduced quantum states. The quality of the bounds crucially depends on the particular renormalization scheme, which must be tailored to the target Hamiltonian. We apply our method to 1D translation-invariant spin models, obtaining energy bounds comparable to those attained by optimizing over locally translation-invariant states of $n\gtrsim 100$ spins. Beyond this demonstration, the general method can be applied to a wide range of other problems, such as spin systems in higher spatial dimensions, electronic structure problems, and various other many-body optimization problems, such as entanglement and nonlocality detection.
翻訳日:2024-04-11 20:04:52 公開日:2024-04-10
# 慣性センサアライメントのためのディープラーニング

Deep Learning for Inertial Sensor Alignment ( http://arxiv.org/abs/2212.11120v2 )

ライセンス: Link先を確認
Maxim Freydin, Niv Sfaradi, Nimrod Segol, Areej Eweida, Barak Or, (参考訳) 移動体内の慣性センサーを備えた固定モバイルデバイスの正確なアライメントは、ナビゲーション、アクティビティ認識、その他の用途において重要である。 センサフレームから移動台フレームへの慣性測定を回転させて測定を標準化し、目標タスクの性能を向上させるためには、装置装着角度の正確な推定が必要である。 本研究では,車に装着した慣性測定ユニット(IMU)を備えたスマートフォンのヤウ取付角度を学習するために,ディープニューラルネットワーク(DNN)を用いたデータ駆動方式を提案する。 提案モデルは、IMUからの加速度計とジャイロスコープのみを入力とし、既存のソリューションとは対照的に、グローバルナビゲーション衛星システム(GNSS)からのグローバル位置入力を必要としない。 教師付き方法でモデルをトレーニングするために、既知のヨー取付角度に装着されたセンサを用いてIMUデータをトレーニングし、測定値に有界範囲でランダムな回転を施すことにより、地上の真理ラベルの範囲を生成する。 トレーニングされたモデルは、実回転を持つデータ上でテストされ、合成回転と同様の性能を示す。 トレーニングされたモデルはAndroidデバイスにデプロイされ、推定されたヨー装着角度の精度をテストするためにリアルタイムで評価される。 モデルでは、装着角度は5秒以内で8度、27秒以内では4度となっている。 提案したモデルと既存のオフ・ザ・シェルフ・ソリューションを比較する実験を行った。

Accurate alignment of a fixed mobile device equipped with inertial sensors inside a moving vehicle is important for navigation, activity recognition, and other applications. Accurate estimation of the device mounting angle is required to rotate the inertial measurement from the sensor frame to the moving platform frame to standardize measurements and improve the performance of the target task. In this work, a data-driven approach using deep neural networks (DNNs) is proposed to learn the yaw mounting angle of a smartphone equipped with an inertial measurement unit (IMU) and strapped to a car. The proposed model uses only the accelerometer and gyroscope readings from an IMU as input and, in contrast to existing solutions, does not require global position inputs from global navigation satellite systems (GNSS). To train the model in a supervised manner, IMU data is collected for training and validation with the sensor mounted at a known yaw mounting angle, and a range of ground truth labels is generated by applying a random rotation in a bounded range to the measurements. The trained model is tested on data with real rotations showing similar performance as with synthetic rotations. The trained model is deployed on an Android device and evaluated in real-time to test the accuracy of the estimated yaw mounting angle. The model is shown to find the mounting angle at an accuracy of 8 degrees within 5 seconds, and 4 degrees within 27 seconds. An experiment is conducted to compare the proposed model with an existing off-the-shelf solution.
翻訳日:2024-04-11 20:04:52 公開日:2024-04-10
# 関連部分空間の探索によるニューラルネットワーク予測の遠絡説明

Disentangled Explanations of Neural Network Predictions by Finding Relevant Subspaces ( http://arxiv.org/abs/2212.14855v2 )

ライセンス: Link先を確認
Pattarawat Chormai, Jan Herrmann, Klaus-Robert Müller, Grégoire Montavon, (参考訳) 説明可能なAIは、ニューラルネットワークのような複雑なMLモデルのブラックボックスの性質を克服し、予測の説明を生成することを目的としている。 説明はしばしば、モデルの決定に関連する入力特徴(例えばピクセル)を特定するヒートマップの形をとる。 しかし、これらの説明は、全体的な複雑な意思決定戦略に参入する潜在的に複数の要因を絡ませている。 本稿では,ニューラルネットワークの中間層である部分空間を抽出して,その予測に関係のある複数の,異なるアクティベーションパターン(例えば視覚的概念)を捉えることによって,説明を解き放つことを提案する。 これらの部分空間を自動的に抽出するために,PCA や ICA に見られる原理を説明に拡張する2つの新しい解析法を提案する。 これらの新しい分析は、主成分分析 (PRCA) と解離関連部分空間分析 (DRSA) と呼ばれ、eg分散やクルトシスの代わりに関連性を最大化する。 これにより、モデルが不変であるアクティベーションや概念を予測、無視するためにMLモデルが実際に使用しているものについて、分析のより強力なフォーカスが可能になる。 私たちのアプローチは、Shapley ValueやIntegrated Gradients、LRPといった一般的な属性技術と連携するのに十分です。 提案手法は,ベンチマークや3つのユースケースで示された最先端技術と比較し,実用的に有用であることを示す。

Explainable AI aims to overcome the black-box nature of complex ML models like neural networks by generating explanations for their predictions. Explanations often take the form of a heatmap identifying input features (e.g. pixels) that are relevant to the model's decision. These explanations, however, entangle the potentially multiple factors that enter into the overall complex decision strategy. We propose to disentangle explanations by extracting at some intermediate layer of a neural network, subspaces that capture the multiple and distinct activation patterns (e.g. visual concepts) that are relevant to the prediction. To automatically extract these subspaces, we propose two new analyses, extending principles found in PCA or ICA to explanations. These novel analyses, which we call principal relevant component analysis (PRCA) and disentangled relevant subspace analysis (DRSA), maximize relevance instead of e.g. variance or kurtosis. This allows for a much stronger focus of the analysis on what the ML model actually uses for predicting, ignoring activations or concepts to which the model is invariant. Our approach is general enough to work alongside common attribution techniques such as Shapley Value, Integrated Gradients, or LRP. Our proposed methods show to be practically useful and compare favorably to the state of the art as demonstrated on benchmarks and three use cases.
翻訳日:2024-04-11 19:55:03 公開日:2024-04-10
# 強力な、高品質な顔モフ攻撃のための拡散の活用

Leveraging Diffusion For Strong and High Quality Face Morphing Attacks ( http://arxiv.org/abs/2301.04218v4 )

ライセンス: Link先を確認
Zander W. Blasingame, Chen Liu, (参考訳) 顔形態形成攻撃は、2つの異なるアイデンティティの1つで誤認を誘発することを目的として、2つの異なるIDから生体特性からなる形態像を提示することにより、顔認識(FR)システムを騙そうとする。 モーフィング攻撃の成功は、画像を作成するために使われた両方のアイデンティティの生体特性を表現するために、モーフィング画像の能力に依存する。 画像の視覚的忠実度を改善するために拡散型アーキテクチャを用いた新しいモーフィング攻撃を提案する。 本稿では,Frechet Inception Distance (FID) を用いて視覚的忠実度を評価することで,攻撃の有効性を示す。 また、提案した攻撃に対するFRシステムの脆弱性を測定するために、広範囲な実験を行った。 提案した攻撃を検出するためのモーフィング攻撃検出器の能力を測定し、ランドマークベースの2つの攻撃と共に、最先端の2つのGANベースのモーフィング攻撃と比較した。 さらに、異なるモーフィング攻撃の相対強度を計測する新しい指標を導入し、評価した。

Face morphing attacks seek to deceive a Face Recognition (FR) system by presenting a morphed image consisting of the biometric qualities from two different identities with the aim of triggering a false acceptance with one of the two identities, thereby presenting a significant threat to biometric systems. The success of a morphing attack is dependent on the ability of the morphed image to represent the biometric characteristics of both identities that were used to create the image. We present a novel morphing attack that uses a Diffusion-based architecture to improve the visual fidelity of the image and the ability of the morphing attack to represent characteristics from both identities. We demonstrate the effectiveness of the proposed attack by evaluating its visual fidelity via the Frechet Inception Distance (FID). Also, extensive experiments are conducted to measure the vulnerability of FR systems to the proposed attack. The ability of a morphing attack detector to detect the proposed attack is measured and compared against two state-of-the-art GAN-based morphing attacks along with two Landmark-based attacks. Additionally, a novel metric to measure the relative strength between different morphing attacks is introduced and evaluated.
翻訳日:2024-04-11 19:55:03 公開日:2024-04-10
# SAN: 分別正規化線形層によるGANの誘電性誘導

SAN: Inducing Metrizability of GAN with Discriminative Normalized Linear Layer ( http://arxiv.org/abs/2301.12811v4 )

ライセンス: Link先を確認
Yuhta Takida, Masaaki Imaizumi, Takashi Shibuya, Chieh-Hsin Lai, Toshimitsu Uesaka, Naoki Murata, Yuki Mitsufuji, (参考訳) GAN(Generative Adversarial Network)は、ジェネレータと識別器を極小目標で最適化することにより、ターゲットの確率分布を学習する。 本稿では,そのような最適化が,対象分布に近づいた勾配を持つ生成器を実際に提供するかどうかという問題に対処する。 我々は、GAN定式化とスライスされた最適輸送の概念を結合することにより、判別器が分布間の距離として機能する十分な条件を導出する。 さらに,これらの理論的結果を活用することで,スライシング対角ネットワーク(SAN)と呼ばれる新しいGANトレーニング手法を提案する。 単純な修正だけで、既存のGANの幅広いクラスをSANに変換することができる。 合成および画像データセットの実験は、通常のGANと比較して、我々の理論結果とSANの有効性を支持する。 さらに、SANをStyleGAN-XLに適用し、ImageNet 256$\times$256のクラス条件生成に対して、GAN間の最先端のFIDスコアを導出する。 私たちの実装はhttps://ytakida.github.io/san.comで公開されています。

Generative adversarial networks (GANs) learn a target probability distribution by optimizing a generator and a discriminator with minimax objectives. This paper addresses the question of whether such optimization actually provides the generator with gradients that make its distribution close to the target distribution. We derive metrizable conditions, sufficient conditions for the discriminator to serve as the distance between the distributions by connecting the GAN formulation with the concept of sliced optimal transport. Furthermore, by leveraging these theoretical results, we propose a novel GAN training scheme, called slicing adversarial network (SAN). With only simple modifications, a broad class of existing GANs can be converted to SANs. Experiments on synthetic and image datasets support our theoretical results and the SAN's effectiveness as compared to usual GANs. Furthermore, we also apply SAN to StyleGAN-XL, which leads to state-of-the-art FID score amongst GANs for class conditional generation on ImageNet 256$\times$256. Our implementation is available on https://ytakida.github.io/san.
翻訳日:2024-04-11 19:55:03 公開日:2024-04-10
# 2つの定数共有重み初期化によるニューラルアーキテクチャ探索

Neural Architecture Search via Two Constant Shared Weights Initialisations ( http://arxiv.org/abs/2302.04406v2 )

ライセンス: Link先を確認
Ekaterina Gracheva, (参考訳) 近年、ゼロコストメトリクスはニューラルアーキテクチャサーチ(NAS)の基盤となっている。 メトリクスによって、与えられたタスクに対して最適なニューラルネットワークを素早く見つけ、従来のNASメソッドよりも少ない計算負荷で見つけることができる。 同様に重要なのは、彼らはニューラルアーキテクチャの内部構造にも光を当てていることだ。 本稿では,NAS-Bench-101,NAS-Bench-201,NAS-Bench-NLPベンチマークデータセット間で,列車セットの精度と高い相関性を示すゼロコスト指標を提案する。 2つの一定の共有重み付け初期化後の出力統計に基づいて、ニューラルアキテクチュアのポテンシャルを評価する。 そのためには、未ラベルのミニバッチのみを使用します。 2つの初期化間の出力の分散は、訓練された精度と正に相関している。 平均出力等級による分散の正規化により相関性はさらに向上する。 結果として得られる計量であるepsilonは勾配計算を必要とせず、ハイパーパラメータ、損失メトリクス、人間ラベル付きデータからNAS手順をアンバインドする。 提案手法は既存のNASアルゴリズムに簡単に組み込むことができ,1つのネットワークを評価するのに1秒程度の時間を要する。 この研究をサポートするコードはGitHubのhttps://github.com/egracheva/epsinas.comにある。

In recent years, zero-cost metrics are gaining ground in neural architecture search (NAS). There metrics allow finding the optimal neural network for a given task faster and with a lesser computational load than conventional NAS methods. Equally important is that they also shed some light on the internal workings of neural architectures. This paper presents a zero-cost metric that highly correlated with the train set accuracy across the NAS-Bench-101, NAS-Bench-201 and NAS-Bench-NLP benchmark datasets. We evaluate a neural achitecture's potential based on the outputs' statistics after two constant shared weights initialisations. For this, we only use an unlabelled mini-batch of data. We observe that the dispersion of the outputs between two initialisations positively correlates with trained accuracy. The correlation further improves when we normalise dispersion by average output magnitude. The resulting metric, epsilon, does not require gradients computation and unbinds the NAS procedure from training hyperparameters, loss metrics and human-labelled data. Our method is easy to integrate within existing NAS algorithms and takes a fraction of a second to evaluate a single network. The code supporting this study can be found on GitHub at https://github.com/egracheva/epsinas.
翻訳日:2024-04-11 19:55:03 公開日:2024-04-10
# 因果効果推定のための局所因果発見

Local Causal Discovery for Estimating Causal Effects ( http://arxiv.org/abs/2302.08070v4 )

ライセンス: Link先を確認
Shantanu Gupta, David Childers, Zachary C. Lipton, (参考訳) 我々のデータに基づく因果グラフが未知であっても、平均処理効果(ATE)が得る可能性のある値を、(1)マルコフ同値クラスまで同定し、(2)クラス内の各グラフに対してATEを推定することで、観測データを用いて絞り込むことができる。 PCアルゴリズムは強い忠実性の仮定の下でこのクラスを識別できるが、計算的に禁止することができる。 幸いなことに、この処理の周囲の局所グラフ構造のみが、計算効率を向上させるために局所探索アルゴリズムによって活用される、可能なATE値のセットを特定するために必要である。 本稿では,従来の方法と異なり,非シールド型衝突器を利用した局所因果探索アルゴリズムであるEager Collider Checks (LDECC) を用いた局所発見について紹介する。 LDECCが既存の局所探索アルゴリズムを指数関数的に上回るグラフが存在することを示す。 さらに, LDECC と既存のアルゴリズムは異なる信頼度仮定に依存しており, この知見を活用して ATE 値の集合を同定する仮定を弱めていることを示す。

Even when the causal graph underlying our data is unknown, we can use observational data to narrow down the possible values that an average treatment effect (ATE) can take by (1) identifying the graph up to a Markov equivalence class; and (2) estimating that ATE for each graph in the class. While the PC algorithm can identify this class under strong faithfulness assumptions, it can be computationally prohibitive. Fortunately, only the local graph structure around the treatment is required to identify the set of possible ATE values, a fact exploited by local discovery algorithms to improve computational efficiency. In this paper, we introduce Local Discovery using Eager Collider Checks (LDECC), a new local causal discovery algorithm that leverages unshielded colliders to orient the treatment's parents differently from existing methods. We show that there exist graphs where LDECC exponentially outperforms existing local discovery algorithms and vice versa. Moreover, we show that LDECC and existing algorithms rely on different faithfulness assumptions, leveraging this insight to weaken the assumptions for identifying the set of possible ATE values.
翻訳日:2024-04-11 19:55:03 公開日:2024-04-10
# 指紋のない「クレデンシャル」へ:安全で使用可能なドローン認証

Turning Noises to Fingerprint-Free "Credentials": Secure and Usable Drone Authentication ( http://arxiv.org/abs/2302.09197v2 )

ライセンス: Link先を確認
Chuxiong Wu, Qiang Zeng, (参考訳) ドローンは配達や監視など様々なサービスで広く使われている。 認証は、これらのサービスのセキュリティの基盤を形成する。 しかし、ドローンは高価であり、重要なペイロードを運ぶことができる。 攻撃者によって捕獲されるのを避けるために、ドローンは認証が成功する前に検証者から安全な距離を保つ必要がある。 これにより、非常に近接してしか機能しない認証方法が適用できない。 私たちの仕事は、認証にドローンノイズを活用しています。 認証に音を使うことは非常に有用であるが、音を操作する様々な攻撃をどう扱うかは \emph{unresolved challenge} である。 また、様々な環境音の下で頑健性を確保する方法も不明である。 文献の中では、ドローン騒音のユニークな特徴を利用するという2つの大きな課題に対処する。 これにより、ドローンの音の指紋に頼り、攻撃に対する耐性を保ち、環境音下で堅牢な認証システムを構築する。 広範囲な評価は、そのセキュリティとユーザビリティを示している。

Drones have been widely used in various services, such as delivery and surveillance. Authentication forms the foundation of the security of these services. However, drones are expensive and may carry important payloads. To avoid being captured by attackers, drones should keep a safe distance from the verifier before authentication succeeds. This makes authentication methods that only work in very close proximity not applicable. Our work leverages drone noises for authentication. While using sounds for authentication is highly usable, how to handle various attacks that manipulate sounds is an \emph{unresolved challenge}. It is also unclear how to ensure robustness under various environmental sounds. Being the first in the literature, we address the two major challenges by exploiting unique characteristics of drone noises. We thereby build an authentication system that does \emph{not} rely on any drone sound fingerprints, keeps resilient to attacks, and is robust under environmental sounds. An extensive evaluation demonstrates its security and usability.
翻訳日:2024-04-11 19:55:03 公開日:2024-04-10
# 大規模マルチモード事前学習モデル:包括的調査

Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey ( http://arxiv.org/abs/2302.10035v3 )

ライセンス: Link先を確認
Xiao Wang, Guangyao Chen, Guangwu Qian, Pengcheng Gao, Xiao-Yong Wei, Yaowei Wang, Yonghong Tian, Wen Gao, (参考訳) 一般化された深層モデルの緊急需要により、BERT、ViT、GPTなど多くの事前訓練済みの大型モデルが提案されている。 これらのモデルを単一のドメイン(コンピュータビジョンや自然言語処理など)での成功に触発されて、マルチモーダルで事前訓練された大きなモデルも近年ますます注目を集めている。 本研究は,これらのモデルに関する総合的な調査を行い,本論文が新たな洞察を与え,最新の研究成果の追跡を支援することを期待する。 具体的には、まず、従来のディープラーニング、自然言語処理、コンピュータビジョン、音声における事前学習の背景をレビューすることで、マルチモーダル事前学習の背景を紹介する。 次に,マルチモーダル事前学習モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワークアーキテクチャ,知識強化事前学習に着目して,MM-PTMについて議論する。 その後、生成タスク、分類タスク、回帰タスクを含む大規模MM-PTMの検証に使用される下流タスクを紹介した。 また、モデルパラメータと結果の可視化と分析を下流の代表的なタスクで行います。 最後に,今後の研究に利益をもたらす可能性のある研究の方向性を指摘する。 https://github.com/wangxiao5791509/MultiModal_BigModels_Survey。 この論文は、Machine Intelligence Research (MIR), https://link.springer.com/article/10.1007/s11633-022-1410-8, DOI: 10.1007/s11633-022-1410-8, vol.1007/s11633-022-1410-8によって発表された。 204号, pp. 447-482, 2023。

With the urgent demand for generalized deep models, many pre-trained big models are proposed, such as BERT, ViT, GPT, etc. Inspired by the success of these models in single domains (like computer vision and natural language processing), the multi-modal pre-trained big models have also drawn more and more attention in recent years. In this work, we give a comprehensive survey of these models and hope this paper could provide new insights and helps fresh researchers to track the most cutting-edge works. Specifically, we firstly introduce the background of multi-modal pre-training by reviewing the conventional deep learning, pre-training works in natural language process, computer vision, and speech. Then, we introduce the task definition, key challenges, and advantages of multi-modal pre-training models (MM-PTMs), and discuss the MM-PTMs with a focus on data, objectives, network architectures, and knowledge enhanced pre-training. After that, we introduce the downstream tasks used for the validation of large-scale MM-PTMs, including generative, classification, and regression tasks. We also give visualization and analysis of the model parameters and results on representative downstream tasks. Finally, we point out possible research directions for this topic that may benefit future works. In addition, we maintain a continuously updated paper list for large-scale pre-trained multi-modal big models: https://github.com/wangxiao5791509/MultiModal_BigModels_Survey. This paper has been published by the journal Machine Intelligence Research (MIR), https://link.springer.com/article/10.1007/s11633-022-1410-8, DOI: 10.1007/s11633-022-1410-8, vol. 20, no. 4, pp. 447-482, 2023.
翻訳日:2024-04-11 19:55:03 公開日:2024-04-10
# 深層学習における不確実性定量化に関する包括的調査

A Comprehensive Survey on Uncertainty Quantification for Deep Learning ( http://arxiv.org/abs/2302.13425v4 )

ライセンス: Link先を確認
Wenchong He, Zhe Jiang, (参考訳) ディープニューラルネットワーク(DNN)は、コンピュータビジョン、自然言語処理、科学と工学の領域の正確な予測に成功している。 しかし、DNNが予期せぬ、誤った、しかし自信過剰な予測をすることもあることもよく認識されている。 これは、自律運転、医療診断、災害対応など、高度な応用において深刻な結果をもたらす可能性がある。 不確かさ定量化(UQ)は、予測精度以上のDNN予測の信頼性を推定することを目的としている。 近年,DNN向けに多くのUQ手法が開発されている。 これらのUQ手法を体系的に分類し、それらの利点と欠点を比較することは、非常に実践的な価値である。 しかしながら、既存の調査は主に、ニューラルネットワークアーキテクチャの観点からUQ方法論を分類すること、あるいはベイズ的な視点から分類することに焦点を当て、各方法論が組み込むことのできる不確実性の源を無視し、実際に適切なUQメソッドを選択するのが困難である。 このギャップを埋めるために,不確実性源の種類(データ不確実性とモデル不確実性)に基づいて,DNNのUQ手法の系統的な分類法を提案する。 各カテゴリーにおける手法の長所と短所をまとめた。 我々は、我々のUQ方法論の分類が、異なる機械学習問題(例えば、アクティブラーニング、堅牢性、強化学習)におけるUQ手法の選択を導くのにどのように役立つかを示す。 また,現在の研究ギャップを特定し,今後の研究方向性を提案する。

Deep neural networks (DNNs) have achieved tremendous success in making accurate predictions for computer vision, natural language processing, as well as science and engineering domains. However, it is also well-recognized that DNNs sometimes make unexpected, incorrect, but overconfident predictions. This can cause serious consequences in high-stake applications, such as autonomous driving, medical diagnosis, and disaster response. Uncertainty quantification (UQ) aims to estimate the confidence of DNN predictions beyond prediction accuracy. In recent years, many UQ methods have been developed for DNNs. It is of great practical value to systematically categorize these UQ methods and compare their advantages and disadvantages. However, existing surveys mostly focus on categorizing UQ methodologies from a neural network architecture perspective or a Bayesian perspective and ignore the source of uncertainty that each methodology can incorporate, making it difficult to select an appropriate UQ method in practice. To fill the gap, this paper presents a systematic taxonomy of UQ methods for DNNs based on the types of uncertainty sources (data uncertainty versus model uncertainty). We summarize the advantages and disadvantages of methods in each category. We show how our taxonomy of UQ methodologies can potentially help guide the choice of UQ method in different machine learning problems (e.g., active learning, robustness, and reinforcement learning). We also identify current research gaps and propose several future research directions.
翻訳日:2024-04-11 19:55:03 公開日:2024-04-10
# 極端領域における回帰について

On Regression in Extreme Regions ( http://arxiv.org/abs/2303.03084v2 )

ライセンス: Link先を確認
Nathan Huet, Stephan Clémençon, Anne Sabourin, (参考訳) 統計的学習問題は、$(X,Y)$の独立コピーに基づいて予測関数$\hat{f}$を構築することで、$Y$を最小(二乗)誤差で$\hat{f}(X)$で近似する。 様々な応用によって動機付けられた特別な注意は、極端な(すなわち非常に大きな)観測の場合、$X$である。 それらの希少性のため、(経験的)誤差に対するそのような観測の貢献は無視され、経験的リスク最小化器の予測性能は極端に低くなる可能性がある。 本稿では,極値の回帰のための一般的なフレームワークを開発する。 対 $(X,Y)$ に関する適切な正規変分仮定の下では、危険という漸近的な概念が極端領域における適切な予測性能を要約するように調整できることが示される。 また、この「極度のリスク」の経験的かつ非漸近的なバージョンの最小化は、最も大きな観測のごく一部に基づいて、優れた一般化能力をもたらすことが証明された。 また,提案手法の妥当性を実証的に裏付ける数値的な結果を示す。

The statistical learning problem consists in building a predictive function $\hat{f}$ based on independent copies of $(X,Y)$ so that $Y$ is approximated by $\hat{f}(X)$ with minimum (squared) error. Motivated by various applications, special attention is paid here to the case of extreme (i.e. very large) observations $X$. Because of their rarity, the contributions of such observations to the (empirical) error is negligible, and the predictive performance of empirical risk minimizers can be consequently very poor in extreme regions. In this paper, we develop a general framework for regression on extremes. Under appropriate regular variation assumptions regarding the pair $(X,Y)$, we show that an asymptotic notion of risk can be tailored to summarize appropriately predictive performance in extreme regions. It is also proved that minimization of an empirical and nonasymptotic version of this 'extreme risk', based on a fraction of the largest observations solely, yields good generalization capacity. In addition, numerical results providing strong empirical evidence of the relevance of the approach proposed are displayed.
翻訳日:2024-04-11 19:55:03 公開日:2024-04-10
# トラベリングセールスマン問題の解決のための教師なし学習

Unsupervised Learning for Solving the Travelling Salesman Problem ( http://arxiv.org/abs/2303.10538v2 )

ライセンス: Link先を確認
Yimeng Min, Yiwei Bai, Carla P. Gomes, (参考訳) 本稿では,トラベリングセールスマン問題(TSP)を解決するための,教師なし学習(UL)フレームワークUTSPを提案する。 代理損失を用いてグラフニューラルネットワーク(GNN)を訓練する。 GNNは、各エッジが最適経路の一部である確率を表すヒートマップを出力する。 次に、熱マップに基づいて最終予測を生成するために局所探索を適用する。 我々の損失関数は2つの部分から構成される: 1つは最短経路を見つけるためにモデルをプッシュし、もう1つはルートがハミルトンサイクルを形成するべきであるという制約の代用として機能する。 実験の結果,UTSPは既存のデータ駆動型TSPヒューリスティックよりも優れていた。 我々のアプローチはパラメータ効率とデータ効率である:モデルはパラメータの数を$\sim$10\%、トレーニングサンプルを$\sim$0.2\%、強化学習や教師付き学習法と比較して$\sim$0.2\%を取る。

We propose UTSP, an unsupervised learning (UL) framework for solving the Travelling Salesman Problem (TSP). We train a Graph Neural Network (GNN) using a surrogate loss. The GNN outputs a heat map representing the probability for each edge to be part of the optimal path. We then apply local search to generate our final prediction based on the heat map. Our loss function consists of two parts: one pushes the model to find the shortest path and the other serves as a surrogate for the constraint that the route should form a Hamiltonian Cycle. Experimental results show that UTSP outperforms the existing data-driven TSP heuristics. Our approach is parameter efficient as well as data efficient: the model takes $\sim$ 10\% of the number of parameters and $\sim$ 0.2\% of training samples compared with reinforcement learning or supervised learning methods.
翻訳日:2024-04-11 19:55:03 公開日:2024-04-10
# ルール学習におけるGNNの表現性理解

Understanding Expressivity of GNN in Rule Learning ( http://arxiv.org/abs/2303.12306v2 )

ライセンス: Link先を確認
Haiquan Qiu, Yongqi Zhang, Yong Li, Quanming Yao, (参考訳) ルール学習は、論理的で解釈可能な説明を提供する能力のために知識グラフ(KG)推論を改善するために重要である。 近年、テールエンティティをスコアリングしたグラフニューラルネットワーク(GNN)は、KG推論における最先端のパフォーマンスを実現している。 しかしながら、これらのGNNの理論的理解は、単一関係グラフが欠如しているか、あるいは集中しているかのいずれかであり、これらのGNNがオープンな問題を学ぶことができるルールの種類を残している。 本稿では,上記のギャップを埋めることを提案する。 具体的には、テールエンティティスコアリングを持つGNNを共通のフレームワークに統合する。 そして,学習可能な規則構造を形式的に記述し,その優越性を理論的に示すことによって,その表現性を解析する。 これらの結果から,KG推論におけるルールをより多く学習するための新しいラベリング戦略の提案がもたらされた。 実験結果は理論的な結果と一致し,提案手法の有効性を検証した。 コードはhttps://github.com/LARS-research/Rule-learning- expressivityで公開されている。

Rule learning is critical to improving knowledge graph (KG) reasoning due to their ability to provide logical and interpretable explanations. Recently, Graph Neural Networks (GNNs) with tail entity scoring achieve the state-of-the-art performance on KG reasoning. However, the theoretical understandings for these GNNs are either lacking or focusing on single-relational graphs, leaving what the kind of rules these GNNs can learn an open problem. We propose to fill the above gap in this paper. Specifically, GNNs with tail entity scoring are unified into a common framework. Then, we analyze their expressivity by formally describing the rule structures they can learn and theoretically demonstrating their superiority. These results further inspire us to propose a novel labeling strategy to learn more rules in KG reasoning. Experimental results are consistent with our theoretical findings and verify the effectiveness of our proposed method. The code is publicly available at https://github.com/LARS-research/Rule-learning-expressivity.
翻訳日:2024-04-11 19:55:03 公開日:2024-04-10
# 大規模言語モデルによるオートフォーマライゼーションによるディプロッシュCNLの改良

Improving the Diproche CNL through Autoformalization via Large Language Models ( http://arxiv.org/abs/2303.17513v3 )

ライセンス: Link先を確認
Merlin Carl, (参考訳) Diprocheシステム(ディプロッシュシステム、英: Diproche system)は、ドイツ語の制御された断片で書かれたテキストの自動証明チェッカーである。 システムの最初のバージョンは、Prologの形式化ルーチンが書かれた制御された自然言語を使用していた。 本稿では,Diprocheの文脈において,大規模言語モデルによる自己形式化を促進させる可能性について検討する。

The Diproche system is an automated proof checker for texts written in a controlled fragment of German, designed for didactical applications in classes introducing students to proofs for the first time. The first version of the system used a controlled natural language for which a Prolog formalization routine was written. In this paper, we explore the possibility of prompting large language models for autoformalization in the context of Diproche, with encouraging first results.
翻訳日:2024-04-11 19:55:03 公開日:2024-04-10
# 大規模言語モデルを用いたベギンナーの学生のための(デデ-)形式化と自然な議論演習

Using Large Language Models for (De-)Formalization and Natural Argumentation Exercises for Beginner's Students ( http://arxiv.org/abs/2304.06186v3 )

ライセンス: Link先を確認
Merlin Carl, (参考訳) 現在開発中の2つのシステムについて述べる。 一 自然言語と命題論理及び一階述語論理の言語を前後に翻訳する演習 (ii)非数学的なシナリオで自然言語で簡単な論証を書くための演習。

We describe two systems currently being developed that use large language models for the automatized correction of (i) exercises in translating back and forth between natural language and the languages of propositional logic and first-order predicate logic and (ii) exercises in writing simple arguments in natural language in non-mathematical scenarios.
翻訳日:2024-04-11 19:45:16 公開日:2024-04-10
# クロスドメインテキスト分類のための自己監督蒸留による2段階フレームワーク

A Two-Stage Framework with Self-Supervised Distillation For Cross-Domain Text Classification ( http://arxiv.org/abs/2304.09820v2 )

ライセンス: Link先を確認
Yunlong Feng, Bohan Li, Libo Qin, Xiao Xu, Wanxiang Che, (参考訳) クロスドメインテキスト分類は、ラベル付きデータを持たないターゲットドメインにモデルを適応させることを目的としている。 これは、異なるが関連するソースドメインからのリッチなラベル付きデータと、ターゲットドメインからのラベルなしデータを活用または再利用する。 この目的のために、以前の研究は、ターゲットドメインに存在し、下流タスクに有用なドメイン認識機能を無視し、ドメイン不変機能またはタスク非依存の機能の抽出に重点を置いていた。 本稿では,クロスドメインテキスト分類のための2段階フレームワークを提案する。 最初の段階では、モデルにマスク言語モデリング(MLM)とソースドメインからのラベル付きデータを加えます。 第2段階では、自己監督蒸留(SSD)と対象領域からのラベルなしデータにより、モデルをさらに微調整する。 公開クロスドメインテキスト分類ベンチマークを用いて、その性能を評価し、実験結果から、単一ソースドメイン適応(94.17%$\uparrow$1.03%)とマルチソースドメイン適応(95.09%$\uparrow$1.34%)の両方に対して、新しい最先端結果が得られることを示した。

Cross-domain text classification aims to adapt models to a target domain that lacks labeled data. It leverages or reuses rich labeled data from the different but related source domain(s) and unlabeled data from the target domain. To this end, previous work focuses on either extracting domain-invariant features or task-agnostic features, ignoring domain-aware features that may be present in the target domain and could be useful for the downstream task. In this paper, we propose a two-stage framework for cross-domain text classification. In the first stage, we finetune the model with mask language modeling (MLM) and labeled data from the source domain. In the second stage, we further fine-tune the model with self-supervised distillation (SSD) and unlabeled data from the target domain. We evaluate its performance on a public cross-domain text classification benchmark and the experiment results show that our method achieves new state-of-the-art results for both single-source domain adaptations (94.17% $\uparrow$1.03%) and multi-source domain adaptations (95.09% $\uparrow$1.34%).
翻訳日:2024-04-11 19:45:16 公開日:2024-04-10
# nsパルスレーザーアニールによるシリコン中のテレコムエミッタの高効率活性化

Efficient activation of telecom emitters in silicon upon ns pulsed laser annealing ( http://arxiv.org/abs/2304.10132v2 )

ライセンス: Link先を確認
G. Andrini, G. Zanelli, S. Ditalia Tchernij, E. Corte, E. Nieto Hernandez, A. Verna, M. Cocuzza, E. Bernardi, S. Virzì, P. Traina, I. P. Degiovanni, M. Genovese, P. Olivero, J. Forneris, (参考訳) 近年の光学活性テレコムエミッタの実証は、シリコンを固体量子フォトニックプラットフォームへの説得力のある候補にしている。 特にG中心の製造は、従来の熱アニールによる炭素豊富なシリコンで実証されている。 しかし、ウェハスケールでの高収率制御されたこれらのエミッタの製造には、イオン注入後の活性化を可能にする適切な熱力学的経路の同定が必要である。 ここでは、nsパルスレーザーアニールによる高純度シリコン基板中のG中心の効率的な活性化を示す。 提案手法は, 短時間の非定常パルスの供給によるG中心の非侵襲的局所活性化を可能にし, 発光体の構造転移性に関する従来の急速熱アニールの限界を克服する。 有限要素解析は、この技術の強い非定常性を強調し、従来のより長い熱処理に対して、欠陥工学の能力が根本的に異なることを示し、集積フォトニック回路や導波路に埋め込まれたエミッタの直接的かつ制御された製造への道を開いた。

The recent demonstration of optically active telecom emitters makes silicon a compelling candidate for solid state quantum photonic platforms. Particularly fabrication of the G center has been demonstrated in carbon-rich silicon upon conventional thermal annealing. However, the high-yield controlled fabrication of these emitters at the wafer-scale still requires the identification of a suitable thermodynamic pathway enabling its activation following ion implantation. Here we demonstrate the efficient activation of G centers in high-purity silicon substrates upon ns pulsed laser annealing. The proposed method enables the non-invasive, localized activation of G centers by the supply of short non-stationary pulses, thus overcoming the limitations of conventional rapid thermal annealing related to the structural metastability of the emitters. A finite-element analysis highlights the strong non-stationarity of the technique, offering radically different defect-engineering capabilities with respect to conventional longer thermal treatments, paving the way to the direct and controlled fabrication of emitters embedded in integrated photonic circuits and waveguides.
翻訳日:2024-04-11 19:45:16 公開日:2024-04-10
# 非可換空間における分離性のチューニング

Tuning the separability in noncommutative space ( http://arxiv.org/abs/2304.13035v2 )

ライセンス: Link先を確認
Pinaki Patra, (参考訳) 両立ガウス状態に対する一般化されたペレス・ホロデツキ分離性規準(サイモンの条件)による非可換空間座標自由度(NC)の分離性について検討する。 通常の可換空間とNC空間の間の変換の非シンプレクティックな性質は、NCSにおけるサイモン条件の使用を制限する。 我々は NCS システムを可換空間における等価ハミルトニアンにボップシフトにより変換し、NC 空間における分離性基準の活用を可能にする。 より一般的な研究として、時間依存(TD)パラメータを持つ双線型ハミルトニアンと、フィールドモードで線形なTD外部相互作用を考える。 この系は、固有のシンプレクティック構造(Sp(4,\mathbb{R})$)を保ったまま、正準形式に変換される。 TD-Schr\"{o}dinger 方程式の解はルイス=リースフェルト不変法 (LRIM) の助けを借りて得られる。 観測変数(共分散行列)の期待値は、LRIMから得られた状態から構成される。 発振器におけるNCパラメータの存在は状態の分離性を決定する。 特に等方振動子の場合、二部格子ガウス状態の分離性条件はNCパラメータに依存する。 さらに、発振器の異方性パラメータ値が分離性に影響を与える。 言い換えれば、発振器の変形パラメータ($\theta,\;\eta$)とパラメータ値は、両分極状態の分離性にとって重要である。 したがって、パラメータ値を調整することで、状態の分離性を破壊または再現することができる。 玩具モデルの助けを借りて,TD-NC空間パラメータが分離性に与える影響を実証した。

We study the Separability of the noncommutative (NC) space coordinate degrees of freedom with the generalized Peres-Horodecki separability criterion (Simon's condition) for a bipartite Gaussian state. Non-symplectic nature of the transformation between the usual commutative space and NC space restricts the use of Simon's condition in NCS. We transform the NCS system to an equivalent Hamiltonian in commutative space through Bopp shift, which enables the utilization of the separability criterion in NC space. For afairly general study, we consider a bilinear Hamiltonian with time-dependent (TD) parameters, along with a TD external interaction, which is linear in field modes. The system is transformed into canonical form keeping the intrinsic symplectic structure ($Sp(4,\mathbb{R})$) intact. The solution of the TD-Schr\"{o}dinger equation is obtained with the help of Lewis-Riesenfeld invariant method (LRIM). Expectation values of the observables (thus the covariance matrix ) are constructed from the states obtained from LRIM. It turns out that the existence of the NC parameters in the oscillator determines the separability of the states. In particular, for isotropic oscillators, the separability condition for the bipartite Gaussian states depends on NC parameters. Moreover, anisotropic parameter values for the oscillator affects the separability. In other words, both the deformation parameters ($\theta,\;\eta$) and parameter values of the oscillator are important for the separability of bipartite states. Thus tuning the parameter values, one can destroy or recreate the separability of states. With the help of toy models, we have demonstrated TD-NC space parameters effect on separability.
翻訳日:2024-04-11 19:45:16 公開日:2024-04-10
# 推薦システムのためのリップル知識グラフ畳み込みネットワーク

Ripple Knowledge Graph Convolutional Networks For Recommendation Systems ( http://arxiv.org/abs/2305.01147v2 )

ライセンス: Link先を確認
Chen Li, Yang Cao, Ye Zhu, Debo Cheng, Chengyuan Li, Yasuhiko Morimoto, (参考訳) 深層学習モデルの推薦決定を支援するために知識グラフを用いることで、モデルの解釈可能性と精度を効果的に向上することが最近証明された。 本稿では,各ユーザの好みを動的に分析し,適切な項目を推薦する,RKGCNというエンド・ツー・エンドのディープラーニングモデルを提案する。 アイテム側とユーザ側の知識グラフを組み合わせて表現を充実させ、知識グラフにおける豊富な情報の利用を最大化する。 RKGCNは3つの異なるシナリオにおいて、よりパーソナライズされ、関連するレコメンデーションを提供することができる。 実験の結果,映画,本,音楽を含む実世界の3つのデータセット上で,5つのベースラインモデルよりも優れた効果が得られた。

Using knowledge graphs to assist deep learning models in making recommendation decisions has recently been proven to effectively improve the model's interpretability and accuracy. This paper introduces an end-to-end deep learning model, named RKGCN, which dynamically analyses each user's preferences and makes a recommendation of suitable items. It combines knowledge graphs on both the item side and user side to enrich their representations to maximize the utilization of the abundant information in knowledge graphs. RKGCN is able to offer more personalized and relevant recommendations in three different scenarios. The experimental results show the superior effectiveness of our model over 5 baseline models on three real-world datasets including movies, books, and music.
翻訳日:2024-04-11 19:45:16 公開日:2024-04-10
# 量子状態k-設計検証のためのランダム化データの統計的学習

Statistical learning on randomized data to verify quantum state k-designs ( http://arxiv.org/abs/2305.01465v3 )

ライセンス: Link先を確認
Lorenzo Versini, Karim Alaa El-Din, Florian Mintert, Rick Mukherjee, (参考訳) 純粋状態のランダムアンサンブルは、量子回路の性能のベンチマーク、量子優位性のテスト、多体熱化の新しい洞察の提供、ブラックホール情報パラドックスの研究など、量子物理学の様々な側面において極めて重要であることが証明されている。 完全にランダムなアンサンブルを生成することは実験的に難しいが、その近似は同様に有用であり、Rydbergセットアップを含む様々な物理モデルで自然に現れることが知られている。 これらは近似量子状態設計と呼ばれ、それらのランダム性の度合いを検証することは、多体システム上で完全な量子状態トモグラフィーを実行するのと同様に、高価な作業である可能性がある。 この理論的な研究では、従来の頻繁なアプローチと比較して、データサイズ取得に対する近似量子設計の特徴を効果的に検証する。 これは、複素多体状態にある情報をランダム射影測定ベースを用いて古典データの簡潔な表現に翻訳し、最大推定やニューラルネットワークなどの統計的推測法を用いて処理し、シャドウトモグラフィーの予測に対してベンチマークすることで達成される。 ランダム化測定から得られたデータを後処理して(近似)量子状態 k 設計の効率的なキャラクタリゼーションを行う機械学習手法を,量子設計を生成可能なノイズの多い量子プラットフォームに適用する。

Random ensembles of pure states have proven to be extremely important in various aspects of quantum physics such as benchmarking the performance of quantum circuits, testing for quantum advantage, providing novel insights for many-body thermalization and studying the black hole information paradox. Although generating a fully random ensemble is experimentally challenging, approximations of it are just as useful and are known to emerge naturally in a variety of physical models, including Rydberg setups. These are referred to as approximate quantum state designs, and verifying their degree of randomness can be an expensive task, similar to performing full quantum state tomography on many-body systems. In this theoretical work, we efficiently validate the character of approximate quantum designs with respect to data size acquisition when compared to the conventional frequentist approach. This is achieved by translating the information residing in the complex many-body state into a succinct representation of classical data using a random projective measurement basis, which is then processed using methods of statistical inference such as maximum likelihood estimation and neural networks and benchmarked against the predictions of shadow tomography. Our scheme of combining machine learning methods for postprocessing the data obtained from randomized measurements for efficient characterisation of (approximate) quantum state k designs is applicable to any noisy quantum platform that can generate quantum designs.
翻訳日:2024-04-11 19:45:16 公開日:2024-04-10
# AGILE3D: 対話型多目的3Dセグメンテーション

AGILE3D: Attention Guided Interactive Multi-object 3D Segmentation ( http://arxiv.org/abs/2306.00977v4 )

ライセンス: Link先を確認
Yuanwen Yue, Sabarinath Mahadevan, Jonas Schult, Francis Engelmann, Bastian Leibe, Konrad Schindler, Theodora Kontogianni, (参考訳) インタラクティブなセグメンテーションでは、モデルとユーザが協力して、関心のあるオブジェクトを3Dポイントクラウドに記述する。 反復的なプロセスでは、モデルが各データポイントをオブジェクト(または背景)に割り当て、ユーザが結果のセグメンテーションのエラーを修正してモデルにフィードバックする。 現在のベストプラクティスは、問題をバイナリ分類として定式化し、一度に1つのオブジェクトを分割する。 モデルは、ユーザが背景に正しく割り当てられた領域を示す正のクリックと、オブジェクトに誤って割り当てられた領域の負のクリックを提供することを期待する。 オブジェクト間のシナジーを無視するので、連続的に訪問するオブジェクトは無駄である: あるオブジェクトに対する正のクリックは、定義上、近くのオブジェクトに対する負のクリックとして機能する。 さらに、隣接するオブジェクト間の直接競合は、それらの共通境界の識別を高速化することができる。 我々は,(1)複数の3Dオブジェクトの同時セグメンテーションをサポートし,(2)ユーザクリックが少ない精度の高いセグメンテーションマスクを出力し,(3)より高速な推論を実現する,効率的で注目度の高いモデルAGILE3Dを紹介した。 ユーザクリックを空間的時間的クエリとしてエンコードし、クリックアテンションモジュールを通じてクリッククエリと3Dシーン間の明示的なインタラクションを可能にする。 新しいクリックを追加するたびに、更新されたセグメンテーションマスクを生成する軽量デコーダだけを実行する必要があります。 4つの異なる3Dポイントクラウドデータセットによる実験では、AGILE3Dは新たな最先端技術を設定している。 さらに,実際のユーザ調査による実環境設定の実用性も検証する。

During interactive segmentation, a model and a user work together to delineate objects of interest in a 3D point cloud. In an iterative process, the model assigns each data point to an object (or the background), while the user corrects errors in the resulting segmentation and feeds them back into the model. The current best practice formulates the problem as binary classification and segments objects one at a time. The model expects the user to provide positive clicks to indicate regions wrongly assigned to the background and negative clicks on regions wrongly assigned to the object. Sequentially visiting objects is wasteful since it disregards synergies between objects: a positive click for a given object can, by definition, serve as a negative click for nearby objects. Moreover, a direct competition between adjacent objects can speed up the identification of their common boundary. We introduce AGILE3D, an efficient, attention-based model that (1) supports simultaneous segmentation of multiple 3D objects, (2) yields more accurate segmentation masks with fewer user clicks, and (3) offers faster inference. Our core idea is to encode user clicks as spatial-temporal queries and enable explicit interactions between click queries as well as between them and the 3D scene through a click attention module. Every time new clicks are added, we only need to run a lightweight decoder that produces updated segmentation masks. In experiments with four different 3D point cloud datasets, AGILE3D sets a new state-of-the-art. Moreover, we also verify its practicality in real-world setups with real user studies.
翻訳日:2024-04-11 19:45:16 公開日:2024-04-10
# LLMatic: 大規模言語モデルによるニューラルネットワーク探索と品質多様性の最適化

LLMatic: Neural Architecture Search via Large Language Models and Quality Diversity Optimization ( http://arxiv.org/abs/2306.01102v7 )

ライセンス: Link先を確認
Muhammad U. Nasir, Sam Earle, Julian Togelius, Steven James, Christopher Cleghorn, (参考訳) 大きな言語モデル(LLM)は、幅広いタスクをこなせる強力なツールとして登場した。 それらの能力は、さまざまな領域にまたがっており、コード生成の領域において、それらが大きな影響を与えている分野のひとつです。 本稿では、LLMの符号化機能を用いて、ニューラルネットワークを定義するコードに意味のあるバリエーションを導入することを提案する。 一方、QD(Quality-Diversity)アルゴリズムは、多様で堅牢なソリューションを発見することが知られている。 本稿では,LLMのコード生成能力とQDソリューションの多様性とロバスト性を組み合わせることで,ニューラルネットワーク探索(NAS)アルゴリズムである \texttt{LLMatic} を導入する。 LLMはプロンプトを介してNASを直接実行するのに苦労するが、 \texttt{LLMatic} はプロシージャアプローチを採用し、QD を利用してプロンプトとネットワークアーキテクチャを利用して多様な高性能ネットワークを作成する。 CIFAR-10 と NAS-bench-201 ベンチマークで \texttt{LLMatic} をテストし、ベンチマークドメインの事前知識やベンチマークの過去のトップパフォーマンスモデルへの露出を必要とせずに、2000ドルの候補を評価しながら、競争力のあるネットワークを生成できることを実証した。 オープンソースコードは \url{https://github.com/umair-nasir14/LLMatic} で公開されている。

Large Language Models (LLMs) have emerged as powerful tools capable of accomplishing a broad spectrum of tasks. Their abilities span numerous areas, and one area where they have made a significant impact is in the domain of code generation. Here, we propose using the coding abilities of LLMs to introduce meaningful variations to code defining neural networks. Meanwhile, Quality-Diversity (QD) algorithms are known to discover diverse and robust solutions. By merging the code-generating abilities of LLMs with the diversity and robustness of QD solutions, we introduce \texttt{LLMatic}, a Neural Architecture Search (NAS) algorithm. While LLMs struggle to conduct NAS directly through prompts, \texttt{LLMatic} uses a procedural approach, leveraging QD for prompts and network architecture to create diverse and high-performing networks. We test \texttt{LLMatic} on the CIFAR-10 and NAS-bench-201 benchmarks, demonstrating that it can produce competitive networks while evaluating just $2,000$ candidates, even without prior knowledge of the benchmark domain or exposure to any previous top-performing models for the benchmark. The open-sourced code is available in \url{https://github.com/umair-nasir14/LLMatic}.
翻訳日:2024-04-11 19:45:16 公開日:2024-04-10
# nnMobileNe:網膜症研究のためのCNNを再考

nnMobileNe: Rethinking CNN for Retinopathy Research ( http://arxiv.org/abs/2306.01289v3 )

ライセンス: Link先を確認
Wenhui Zhu, Peijie Qiu, Xiwen Chen, Xin Li, Natasha Lepore, Oana M. Dumitrascu, Yalin Wang, (参考訳) 過去数十年間、畳み込みニューラルネットワーク(CNN)は様々な網膜疾患(RD)の検出と追跡の最前線にあった。 その成功にもかかわらず、2020年代のビジョントランスフォーマー(ViT)の出現はRDモデル開発の軌跡を移した。 RDにおけるViTベースのモデルの最先端のパフォーマンスは、より多くのパラメータを追加して拡張性を改善する能力に大きく貢献する。 結果として、ViTベースのモデルはRDアプリケーションにおいて従来のCNNよりも優れている傾向にある。 ViTはまた、画像処理のアプローチにおいてCNNと異なり、局所的な領域ではなくパッチで作業することで、RD内の小さな可変性病変の正確な局在を複雑にすることができる。 本研究では,CNNモデル,特にMobileNetのアーキテクチャを再検討し,RD診断における実用性の向上を図る。 最適化されたMobileNetは、選択的な修正によって、糖尿病網膜症のグレーディング、複数の基底疾患の検出、糖尿病性黄斑浮腫の分類など、様々なRDベンチマークにおいて、ViTベースのモデルを上回ることが判明した。 コードはhttps://github.com/Retinal-Research/NN-MOBILENETで入手できる。

Over the past few decades, convolutional neural networks (CNNs) have been at the forefront of the detection and tracking of various retinal diseases (RD). Despite their success, the emergence of vision transformers (ViT) in the 2020s has shifted the trajectory of RD model development. The leading-edge performance of ViT-based models in RD can be largely credited to their scalability-their ability to improve as more parameters are added. As a result, ViT-based models tend to outshine traditional CNNs in RD applications, albeit at the cost of increased data and computational demands. ViTs also differ from CNNs in their approach to processing images, working with patches rather than local regions, which can complicate the precise localization of small, variably presented lesions in RD. In our study, we revisited and updated the architecture of a CNN model, specifically MobileNet, to enhance its utility in RD diagnostics. We found that an optimized MobileNet, through selective modifications, can surpass ViT-based models in various RD benchmarks, including diabetic retinopathy grading, detection of multiple fundus diseases, and classification of diabetic macular edema. The code is available at https://github.com/Retinal-Research/NN-MOBILENET
翻訳日:2024-04-11 19:45:16 公開日:2024-04-10
# MiniLLM: 大規模言語モデルの知識蒸留

MiniLLM: Knowledge Distillation of Large Language Models ( http://arxiv.org/abs/2306.08543v4 )

ライセンス: Link先を確認
Yuxian Gu, Li Dong, Furu Wei, Minlie Huang, (参考訳) 知識蒸留 (KD) は, 大規模言語モデル (LLM) の計算負荷を低減させる, 有望な手法である。 しかしながら、従来のKDメソッドは、主にホワイトボックス分類モデルや、ChatGPTのようなブラックボックスモデルAPIを模倣する小さなモデルの訓練に適用される。 ホワイトボックスLSMの知識を小さなモデルに効果的に蒸留する方法はまだ未発見であり、オープンソースLSMの繁栄によりより重要になる。 本研究では,LLMをより小さな言語モデルに蒸留するKD手法を提案する。 我々はまず,教師分布の低確率領域を過大評価しないように,生成言語モデル上でKDに適した逆KLDを用いて,標準KDアプローチにおけるKLL(Kulback-Leibler divergence)目標のフォワードを置き換える。 そして、この目的を学習するための効果的な最適化手法を導出する。 学生モデルはMiniLLMと名付けられている。 命令追従設定における広範囲な実験により、MiniLLMはベースラインよりも高い全体的な品質、低い露出バイアス、キャリブレーション、高い長文生成性能でより正確な応答を生成することが示された。 提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。 私たちのコード、データ、モデルチェックポイントはhttps://github.com/microsoft/LMOps/tree/main/minillm.comで確認できます。

Knowledge Distillation (KD) is a promising technique for reducing the high computational demand of large language models (LLMs). However, previous KD methods are primarily applied to white-box classification models or training small models to imitate black-box model APIs like ChatGPT. How to effectively distill the knowledge of white-box LLMs into small models is still under-explored, which becomes more important with the prosperity of open-source LLMs. In this work, we propose a KD approach that distills LLMs into smaller language models. We first replace the forward Kullback-Leibler divergence (KLD) objective in the standard KD approaches with reverse KLD, which is more suitable for KD on generative language models, to prevent the student model from overestimating the low-probability regions of the teacher distribution. Then, we derive an effective optimization approach to learn this objective. The student models are named MiniLLM. Extensive experiments in the instruction-following setting show that MiniLLM generates more precise responses with higher overall quality, lower exposure bias, better calibration, and higher long-text generation performance than the baselines. Our method is scalable for different model families with 120M to 13B parameters. Our code, data, and model checkpoints can be found in https://github.com/microsoft/LMOps/tree/main/minillm.
翻訳日:2024-04-11 19:45:16 公開日:2024-04-10
# PLAN: 変数対応のプライベート平均推定

PLAN: Variance-Aware Private Mean Estimation ( http://arxiv.org/abs/2306.08745v3 )

ライセンス: Link先を確認
Martin Aumüller, Christian Janos Lebeda, Boel Nelson, Rasmus Pagh, (参考訳) 差分的にプライベートな平均推定は、データ分析と機械学習のためのプライバシ保護アルゴリズムの重要な構成要素である。 プライバシとユーティリティのトレードオフは最悪の場合よく理解されているが、多くのデータセットはより良いアルゴリズムを生み出すために悪用される可能性がある構造を示している。 本稿では、分布 $\mathcal{D}$ over $\mathbf{R}^d$, 座標標準偏差 $\boldsymbol{\sigma} \in \mathbf{R}^d$ から入力を独立にサンプリングする環境での平均推定を行う微分プライベートアルゴリズム群である $\textit{Private Limit Adapted Noise}$ (PLAN)を提案する。 マハラノビス距離での推定と同様、PLANはノイズの形状をデータの形に調整するが、従来のアルゴリズムとは異なり、プライバシー予算は座標に不均一に費やされる。 $\mathcal{D}$ の濃度仮定の下で、ベクトル $\boldsymbol{\sigma}$ のスキューをどのように活用するかを示し、$\ell_2$ 誤差が $\|\boldsymbol{\sigma}\|_1$ に比例した(ゼロ濃度の)微分プライベート平均推定値を得る。 以前の研究は、$\boldsymbol{\sigma}$を考慮に入れなかったり、マハラノビス距離$\unicode{x2013}$で測定された誤差は、どちらの場合も$\ell_2$エラーは$\sqrt{d}\|\boldsymbol{\sigma}\|_2$に比例する。 PLANの有効性を検証するため,合成データと実世界のデータの両方で精度を実証的に評価した。

Differentially private mean estimation is an important building block in privacy-preserving algorithms for data analysis and machine learning. Though the trade-off between privacy and utility is well understood in the worst case, many datasets exhibit structure that could potentially be exploited to yield better algorithms. In this paper we present $\textit{Private Limit Adapted Noise}$ (PLAN), a family of differentially private algorithms for mean estimation in the setting where inputs are independently sampled from a distribution $\mathcal{D}$ over $\mathbf{R}^d$, with coordinate-wise standard deviations $\boldsymbol{\sigma} \in \mathbf{R}^d$. Similar to mean estimation under Mahalanobis distance, PLAN tailors the shape of the noise to the shape of the data, but unlike previous algorithms the privacy budget is spent non-uniformly over the coordinates. Under a concentration assumption on $\mathcal{D}$, we show how to exploit skew in the vector $\boldsymbol{\sigma}$, obtaining a (zero-concentrated) differentially private mean estimate with $\ell_2$ error proportional to $\|\boldsymbol{\sigma}\|_1$. Previous work has either not taken $\boldsymbol{\sigma}$ into account, or measured error in Mahalanobis distance $\unicode{x2013}$ in both cases resulting in $\ell_2$ error proportional to $\sqrt{d}\|\boldsymbol{\sigma}\|_2$, which can be up to a factor $\sqrt{d}$ larger. To verify the effectiveness of PLAN, we empirically evaluate accuracy on both synthetic and real world data.
翻訳日:2024-04-11 19:45:16 公開日:2024-04-10
# 人工知能による芸術実践の変遷

A Shift In Artistic Practices through Artificial Intelligence ( http://arxiv.org/abs/2306.10054v3 )

ライセンス: Link先を確認
Kıvanç Tatar, Petter Ericson, Kelsey Cotton, Paola Torres Núñez del Prado, Roser Batlle-Roca, Beatriz Cabrero-Daniel, Sara Ljungblad, Georgios Diapoulis, Jabbar Hussain, (参考訳) 人工知能(AI)モデルによって生成されたコンテンツの爆発は、芸術、音楽、メディアの文化的な変化を引き起こし、役割が変化し、価値がシフトし、慣習が課題となっている。 インターネットの膨大な、容易に利用できるデータセットは、Web上のあらゆるコンテンツでAIモデルをトレーニングするための環境を作成しました。 AIモデルはオープンに共有され、世界中の多くの人々が利用しているため、この新しいパラダイムシフトは、芸術的実践における現状にどのように挑戦するのだろうか? AI技術が音楽、芸術、新メディアにどのような変化をもたらすのか?

The explosion of content generated by artificial intelligence (AI) models has initiated a cultural shift in arts, music, and media, whereby roles are changing, values are shifting, and conventions are challenged. The vast, readily available dataset of the Internet has created an environment for AI models to be trained on any content on the Web. With AI models shared openly and used by many globally, how does this new paradigm shift challenge the status quo in artistic practices? What kind of changes will AI technology bring to music, arts, and new media?
翻訳日:2024-04-11 19:45:16 公開日:2024-04-10
# ExpPoint-MAE: 自己管理型クラウドトランスの解釈性と性能向上

ExpPoint-MAE: Better interpretability and performance for self-supervised point cloud transformers ( http://arxiv.org/abs/2306.10798v3 )

ライセンス: Link先を確認
Ioannis Romanelis, Vlassis Fotis, Konstantinos Moustakas, Adrian Munteanu, (参考訳) 本稿では,点クラウド領域における自己超越によって達成された変圧器の特性について考察する。 具体的には,Masked Autoencoding の有効性を事前学習方式として評価し,Momentum Contrast を代替として検討する。 本研究では,データ量が学習特徴に与える影響について検討し,変圧器のドメイン間挙動の類似性を明らかにする。 包括的可視化を通して,トランスフォーマーは意味論的意味のある領域への参加を学習し,事前学習が基礎となる幾何学の理解を深めることを示す。 さらに,ファインタニングのプロセスとその学習表現への影響について検討した。 これに基づいて、モデルやトレーニングパイプラインに他の変更を加えることなく、ベースラインを一貫して上回り、トランスフォーマーモデル間の分類タスクにおいて最先端の結果を得る、凍結防止戦略を考案する。

In this paper we delve into the properties of transformers, attained through self-supervision, in the point cloud domain. Specifically, we evaluate the effectiveness of Masked Autoencoding as a pretraining scheme, and explore Momentum Contrast as an alternative. In our study we investigate the impact of data quantity on the learned features, and uncover similarities in the transformer's behavior across domains. Through comprehensive visualiations, we observe that the transformer learns to attend to semantically meaningful regions, indicating that pretraining leads to a better understanding of the underlying geometry. Moreover, we examine the finetuning process and its effect on the learned representations. Based on that, we devise an unfreezing strategy which consistently outperforms our baseline without introducing any other modifications to the model or the training pipeline, and achieve state-of-the-art results in the classification task among transformer models.
翻訳日:2024-04-11 19:45:16 公開日:2024-04-10
# RGB-D画像からの2手再構成のためのピラミッドディープフュージョンネットワーク

Pyramid Deep Fusion Network for Two-Hand Reconstruction from RGB-D Images ( http://arxiv.org/abs/2307.06038v2 )

ライセンス: Link先を確認
Jinwei Ren, Jianke Zhu, (参考訳) モノクローナル画像から両手の密集した3Dメッシュを正確に回収することは、閉塞と投射の曖昧さのためにかなりの困難を生じさせる。 既存の手法のほとんどは、実世界の重要な深度やスケール情報を無視するルートアラインハンドメッシュを推定するために、カラー画像から特徴を抽出する。 解像度が制限されたノイズの多いセンサの測定から、ディープベースの手法では、密度の高いメッシュではなく、3Dキーポイントを予測できる。 これらの制限は、現実のスケールで高密度の手メッシュを取得するために、これらの2つの補完的な入力を活用する動機となります。 本研究では,片視点RGB-D画像ペアを入力として用いた,両手の高密度メッシュを復元するエンドツーエンドフレームワークを提案する。 主な課題は、RGB画像のぼやけた効果と奥行き画像の雑音を緩和するために、2つの異なる入力モードを効果的に活用することである。 深度マップをRGB画像のための追加チャネルとして直接扱うのではなく、不整点雲に深度情報をエンコードして、より幾何学的な詳細を保存する。 具体的には、当社のフレームワークはResNet50とPointNet++を使用して、それぞれRGBとPoint Cloudから機能を派生しています。 さらに,異なるスケールで特徴を集約する新しいピラミッド深層核融合ネットワーク (PDFNet) を導入し,従来の融合戦略よりも優れた有効性を示した。 さらに、GCNベースのデコーダを用いて、融合した特徴を処理し、対応する3Dポーズと高密度メッシュを復元する。 包括的アブレーション実験を通じて,提案した融合アルゴリズムの有効性を実証しただけでなく,公開データセットに対する最先端のアプローチよりも優れていた。 結果を再現するため、ソースコードとモデルをhttps://github.com/zijinxuxu/PDFNet}で公開します。

Accurately recovering the dense 3D mesh of both hands from monocular images poses considerable challenges due to occlusions and projection ambiguity. Most of the existing methods extract features from color images to estimate the root-aligned hand meshes, which neglect the crucial depth and scale information in the real world. Given the noisy sensor measurements with limited resolution, depth-based methods predict 3D keypoints rather than a dense mesh. These limitations motivate us to take advantage of these two complementary inputs to acquire dense hand meshes on a real-world scale. In this work, we propose an end-to-end framework for recovering dense meshes for both hands, which employ single-view RGB-D image pairs as input. The primary challenge lies in effectively utilizing two different input modalities to mitigate the blurring effects in RGB images and noises in depth images. Instead of directly treating depth maps as additional channels for RGB images, we encode the depth information into the unordered point cloud to preserve more geometric details. Specifically, our framework employs ResNet50 and PointNet++ to derive features from RGB and point cloud, respectively. Additionally, we introduce a novel pyramid deep fusion network (PDFNet) to aggregate features at different scales, which demonstrates superior efficacy compared to previous fusion strategies. Furthermore, we employ a GCN-based decoder to process the fused features and recover the corresponding 3D pose and dense mesh. Through comprehensive ablation experiments, we have not only demonstrated the effectiveness of our proposed fusion algorithm but also outperformed the state-of-the-art approaches on publicly available datasets. To reproduce the results, we will make our source code and models publicly available at {https://github.com/zijinxuxu/PDFNet}.
翻訳日:2024-04-11 19:35:31 公開日:2024-04-10
# 工学設計知識を用いた検索拡張生成

Retrieval Augmented Generation using Engineering Design Knowledge ( http://arxiv.org/abs/2307.06985v6 )

ライセンス: Link先を確認
L Siddharth, Jianxi Luo, (参考訳) 大規模言語モデル(LLM)は、設計プロセスにおける知識ベースのアプリケーションに適した事実応答を生成するために、RAG(Retrieval-Augmented Generation)を採用する必要がある。 本稿では,その形態の明示的な事実を識別するデータ駆動手法を提案する。 我々は、44,227文の独自のデータセットを用いて、RoBERTa Transformerベースのシーケンス分類モデルを訓練する。 文中のトークンをエンティティまたはリレーションシップとして分類すると、そのメソッドは、与えられたエンティティのペアの特定のリレーショントークンを識別するために、別の分類器を使用する。 BERT変換器をベースとしたトークン埋め込みを組み込んだ線形分類器とグラフニューラルネットワーク(GNN)の性能を比較し,実体と関係の関連性を予測する。 提案手法をファンシステム関連特許4,870件に適用し,約300万件のファクトを構成する知識ベースを蓄積する。 知識ベースを用いて,LLMのコンテキスト化のための一般知識と特定ドメイン知識の検索を実演する。

Large-language Models (LLMs) need to adopt Retrieval-Augmented Generation (RAG) to generate factual responses that are better suited to knowledge-based applications in the design process. We present a data-driven method to identify explicit facts of the form - head entity :: relationship :: tail entity from patented artefact descriptions. We train roBERTa Transformer-based sequence classification models using our proprietary dataset of 44,227 sentences. Upon classifying tokens in a sentence as entities or relationships, our method uses another classifier to identify specific relationship tokens for a given pair of entities. We compare the performances against linear classifiers and Graph Neural Networks (GNNs) that both incorporate BERT Transformer-based token embeddings to predict associations among the entities and relationships. We apply our method to 4,870 fan system related patents and populate a knowledge base that constitutes around 3 million facts. Using the knowledge base, we demonstrate retrieving generalisable and specific domain knowledge for contextualising LLMs.
翻訳日:2024-04-11 19:35:31 公開日:2024-04-10
# ピア生産プラットフォームにおけるコンテンツギャップ低減のためのレコメンダシステムの活用

Leveraging Recommender Systems to Reduce Content Gaps on Peer Production Platforms ( http://arxiv.org/abs/2307.08669v4 )

ライセンス: Link先を確認
Mo Houtti, Isaac Johnson, Morten Warncke-Wang, Loren Terveen, (参考訳) Wikipediaのようなピアプロダクションプラットフォームは、一般的にコンテンツ格差に悩まされる。 従来の研究では、編集者が表現不足のトピックに導くことによって、推奨システムがこの問題の解決に役立つことを示唆していた。 しかし、このアプローチが関連性の低いレコメンデーションをもたらすかどうかは不明であり、レコメンデーションアイテムへの全体的なエンゲージメントが減少する。 そこで我々はまず,WikipediaのタスクルーティングレコメンデーションシステムであるSuggestBotのオフライン分析(Study 1)を行い,その後3ヶ月の制御実験を行った(Study2)。 本結果より, 記事の提示頻度が低かったため, 記事に対する作業の割合が増加し, 全体としてのレコメンデーションの取込みが著しく低下することが示唆された。 論文の発見過程を無視することで、ピアプロダクションプラットフォームにおける推奨事項を人工的に絞り込むことができるかなど、結果の意味について論じる。

Peer production platforms like Wikipedia commonly suffer from content gaps. Prior research suggests recommender systems can help solve this problem, by guiding editors towards underrepresented topics. However, it remains unclear whether this approach would result in less relevant recommendations, leading to reduced overall engagement with recommended items. To answer this question, we first conducted offline analyses (Study 1) on SuggestBot, a task-routing recommender system for Wikipedia, then did a three-month controlled experiment (Study 2). Our results show that presenting users with articles from underrepresented topics increased the proportion of work done on those articles without significantly reducing overall recommendation uptake. We discuss the implications of our results, including how ignoring the article discovery process can artificially narrow recommendations on peer production platforms.
翻訳日:2024-04-11 19:35:31 公開日:2024-04-10
# プログレッシブ・リジェント・インフォメーションによる高分解能リモートセンシング画像からの建築用フットプリント抽出

Expediting Building Footprint Extraction from High-resolution Remote Sensing Images via progressive lenient supervision ( http://arxiv.org/abs/2307.12220v2 )

ライセンス: Link先を確認
Haonan Guo, Bo Du, Chen Wu, Xin Su, Liangpei Zhang, (参考訳) リモートセンシング画像からのフットプリントセグメンテーションの有効性は、モデル転送の有効性によって妨げられている。 既存のビルディングセグメンテーション手法の多くは、ImageNetで事前訓練された新たに開発されたバックボーンネットワークから、エンコーダを微調整したU-Netのエンコーダデコーダアーキテクチャに基づいて開発された。 しかし、既存のデコーダ設計の計算負荷は、現代のエンコーダネットワークをリモートセンシングタスクに転送することに成功したことを妨げている。 広く採用されている深層監視戦略でさえ、フォアグラウンドと背景画素が混在するハイブリッド領域における無効な損失のために、これらの課題を軽減することができない。 本稿では,既存のデコーダネットワークの設計を包括的に評価し,BFSegと表記される効率的なフレームワークを提案する。 具体的には, 大規模化が容易かつ高速な機能融合を容易にする, 粗結合型機能融合デコーダネットワークを提案する。 さらに, 深層監視過程において, 深層監視過程において, 深層監視から適切な知識を学べる, 高度の深層監視・蒸留戦略を提示する。 これらの進歩を基盤として、我々は、広範囲の新規開発エンコーダネットワークにまたがる性能と効率の優れた先行研究を一貫して超越した、建築セグメンテーションネットワークの新たなファミリーを開発した。

The efficacy of building footprint segmentation from remotely sensed images has been hindered by model transfer effectiveness. Many existing building segmentation methods were developed upon the encoder-decoder architecture of U-Net, in which the encoder is finetuned from the newly developed backbone networks that are pre-trained on ImageNet. However, the heavy computational burden of the existing decoder designs hampers the successful transfer of these modern encoder networks to remote sensing tasks. Even the widely-adopted deep supervision strategy fails to mitigate these challenges due to its invalid loss in hybrid regions where foreground and background pixels are intermixed. In this paper, we conduct a comprehensive evaluation of existing decoder network designs for building footprint segmentation and propose an efficient framework denoted as BFSeg to enhance learning efficiency and effectiveness. Specifically, a densely-connected coarse-to-fine feature fusion decoder network that facilitates easy and fast feature fusion across scales is proposed. Moreover, considering the invalidity of hybrid regions in the down-sampled ground truth during the deep supervision process, we present a lenient deep supervision and distillation strategy that enables the network to learn proper knowledge from deep supervision. Building upon these advancements, we have developed a new family of building segmentation networks, which consistently surpass prior works with outstanding performance and efficiency across a wide range of newly developed encoder networks.
翻訳日:2024-04-11 19:35:31 公開日:2024-04-10
# クロスインタラクションによるリモートセンシング画像からのビルディング・ロード協調抽出

Building-road Collaborative Extraction from Remotely Sensed Images via Cross-Interaction ( http://arxiv.org/abs/2307.12256v2 )

ライセンス: Link先を確認
Haonan Guo, Xin Su, Chen Wu, Bo Du, Liangpei Zhang, (参考訳) 建物は社会生産と人間生活の基本的な担体であり、道路はソーシャルネットワークを繋ぐリンクである。 建築・道路情報は、地域連携開発、防災、自動運転等のフロンティア分野において重要な応用価値を有する。 超高解像度(VHR)リモートセンシング画像からの建物や道路のマッピングがホットな研究トピックとなっている。 しかし、既存の手法は道路と建物の間の強い空間的相関を無視し、孤立して抽出することが多い。 建物と道路の相補的な利点をフル活用するために,マルチタスクとクロススケール機能インタラクションに基づくビル-ロード協調抽出手法を提案し,両タスクの精度を補完的に向上させる。 マルチタスク学習におけるシーソー現象に対処する,タスク間での情報交換と各タスクのユニークな情報保存を行うために,マルチタスクインタラクションモジュールを提案する。 建物と道路の外観や構造の変化を考慮し,異なるタスクに対する最適受信場を自動的に学習するクロススケール相互作用モジュールを設計する。 個別にタスクを訓練する既存の多くの方法と比較して,提案手法は,タスク間および大規模機能間相互作用によって,建物と道路の相補的優位性を活用でき,タスクごとに最適な受信フィールドを自動的に選択できる。 都市・農村の幅広いシナリオにおける実験により,提案アルゴリズムは優れた性能と効率でビルディングロード抽出を実現できることを示した。

Buildings are the basic carrier of social production and human life; roads are the links that interconnect social networks. Building and road information has important application value in the frontier fields of regional coordinated development, disaster prevention, auto-driving, etc. Mapping buildings and roads from very high-resolution (VHR) remote sensing images have become a hot research topic. However, the existing methods often ignore the strong spatial correlation between roads and buildings and extract them in isolation. To fully utilize the complementary advantages between buildings and roads, we propose a building-road collaborative extraction method based on multi-task and cross-scale feature interaction to improve the accuracy of both tasks in a complementary way. A multi-task interaction module is proposed to interact information across tasks and preserve the unique information of each task, which tackle the seesaw phenomenon in multitask learning. By considering the variation in appearance and structure between buildings and roads, a cross-scale interaction module is designed to automatically learn the optimal reception field for different tasks. Compared with many existing methods that train each task individually, the proposed collaborative extraction method can utilize the complementary advantages between buildings and roads by the proposed inter-task and inter-scale feature interactions, and automatically select the optimal reception field for different tasks. Experiments on a wide range of urban and rural scenarios show that the proposed algorithm can achieve building-road extraction with outstanding performance and efficiency.
翻訳日:2024-04-11 19:35:31 公開日:2024-04-10
# Ear-Keeper:Ultrafast ConvNetと大規模耳内視鏡を用いた耳病変のリアルタイム診断

Ear-Keeper: Real-time Diagnosis of Ear Lesions Utilizing Ultralight-Ultrafast ConvNet and Large-scale Ear Endoscopic Dataset ( http://arxiv.org/abs/2308.10610v4 )

ライセンス: Link先を確認
Yubiao Yue, Xinyu Zeng, Xiaoqiang Shi, Meiping Zhang, Fan Zhang, Yunxin Liang, Yan Liu, Zhenzhang Li, Yang Li, (参考訳) 深層学習に基づく耳疾患診断技術は、効果的で安価であることが証明されている。 しかし, 多様な耳内視鏡データセットが欠如しているため, 深層学習モデルの実用化の可能性は十分に研究されていない。 さらに、既存の研究は、モデル推論速度とパラメータサイズの間の良いトレードオフを達成できず、実際の環境ではモデルは適用できない。 これらの課題に対処するため,2つの施設から8種類の耳疾患と無疾患サンプルからなる,最初の大規模耳内視鏡的データセットを構築した。 ShuffleNetV2にインスパイアされた我々は、リアルタイム耳疾患の診断を可能にする超高速で超軽量なネットワークであるBest-EarNetを提案した。 Best-EarNetは、新しいローカル・グローバル空間特徴融合モジュールと、様々なレベルの特徴マップ内のグローバルローカル情報に焦点を当てたモデルを容易にするマルチスケール監視戦略を取り入れている。 転送学習を利用すると、0.77Mパラメータしか持たないBest-EarNetの精度は95.23%(内部22,581枚)と92.14%(外部1,652枚)である。 特に、CPU上の80秒あたりの平均フレームを達成する。 モデル実用性の観点からは、Best-EarNetは耳病変検出タスクにおける最先端のバックボーンモデルよりも優れている。 最も重要なことは、インテリジェント診断システムBest-EarNetをベースにしたEar-keeperが成功し、一般的な電子機器(スマートフォン、タブレットコンピュータ、パーソナルコンピュータ)にデプロイされたことである。 将来的には、Ear-Keeperは、公的および医療機関がリアルタイムで耳管の包括的スキャンと診断を行うことで、耳の病変を迅速に検出する可能性を秘めている。

Deep learning-based ear disease diagnosis technology has proven effective and affordable. However, due to the lack of ear endoscope datasets with diversity, the practical potential of the deep learning model has not been thoroughly studied. Moreover, existing research failed to achieve a good trade-off between model inference speed and parameter size, rendering models inapplicable in real-world settings. To address these challenges, we constructed the first large-scale ear endoscopic dataset comprising eight types of ear diseases and disease-free samples from two institutions. Inspired by ShuffleNetV2, we proposed Best-EarNet, an ultrafast and ultralight network enabling real-time ear disease diagnosis. Best-EarNet incorporates a novel Local-Global Spatial Feature Fusion Module and multi-scale supervision strategy, which facilitates the model focusing on global-local information within feature maps at various levels. Utilizing transfer learning, the accuracy of Best-EarNet with only 0.77M parameters achieves 95.23% (internal 22,581 images) and 92.14% (external 1,652 images), respectively. In particular, it achieves an average frame per second of 80 on the CPU. From the perspective of model practicality, the proposed Best-EarNet is superior to state-of-the-art backbone models in ear lesion detection tasks. Most importantly, Ear-keeper, an intelligent diagnosis system based Best-EarNet, was developed successfully and deployed on common electronic devices (smartphone, tablet computer and personal computer). In the future, Ear-Keeper has the potential to assist the public and healthcare providers in performing comprehensive scanning and diagnosis of the ear canal in real-time video, thereby promptly detecting ear lesions.
翻訳日:2024-04-11 19:35:31 公開日:2024-04-10
# ソフトウェアエンジニアリングのための大規模言語モデル: 体系的な文献レビュー

Large Language Models for Software Engineering: A Systematic Literature Review ( http://arxiv.org/abs/2308.10620v6 )

ライセンス: Link先を確認
Xinyi Hou, Yanjie Zhao, Yue Liu, Zhou Yang, Kailong Wang, Li Li, Xiapu Luo, David Lo, John Grundy, Haoyu Wang, (参考訳) 大規模言語モデル(LLM)は、ソフトウェア工学(SE)を含む多くの領域に大きな影響を与えています。 最近の多くの出版物は、様々なSEタスクに適用されたLSMを探索している。 それでも、SE 上の LLM の応用、効果、および可能な制限に関する包括的な理解は、まだ初期段階にある。 このギャップを埋めるために、我々はLLM4SEの体系的文献レビュー(SLR)を行い、プロセスと結果の最適化にLLMをどのように活用できるかを理解することに焦点をあてた。 我々は、2017年1月から2024年1月までの395件の研究論文を選定、分析し、4つの重要な研究質問(RQ)に答える。 RQ1では、SEタスクに採用された異なるLLMを分類し、その特徴と用途を特徴付ける。 RQ2では、データ収集、前処理、アプリケーションで使用される手法を分析し、SE実装の成功のために、よく計算されたデータセットの役割を強調します。 RQ3 では,SE における LLM の性能を最適化し,評価するための戦略について検討している。 最後に、RQ4は、LLMがこれまで成功してきた特定のSEタスクを調べ、その分野への実践的な貢献を説明する。 これらのRQに対する回答から、現在の最先端とトレンド、既存の研究のギャップの特定、今後の研究に向けた有望な領域のフラグ付けなどについて論じる。 私たちのアーティファクトはhttps://github.com/xinyi-hou/LLM4SE_SLRで公開されています。

Large Language Models (LLMs) have significantly impacted numerous domains, including Software Engineering (SE). Many recent publications have explored LLMs applied to various SE tasks. Nevertheless, a comprehensive understanding of the application, effects, and possible limitations of LLMs on SE is still in its early stages. To bridge this gap, we conducted a systematic literature review (SLR) on LLM4SE, with a particular focus on understanding how LLMs can be exploited to optimize processes and outcomes. We select and analyze 395 research papers from January 2017 to January 2024 to answer four key research questions (RQs). In RQ1, we categorize different LLMs that have been employed in SE tasks, characterizing their distinctive features and uses. In RQ2, we analyze the methods used in data collection, preprocessing, and application, highlighting the role of well-curated datasets for successful LLM for SE implementation. RQ3 investigates the strategies employed to optimize and evaluate the performance of LLMs in SE. Finally, RQ4 examines the specific SE tasks where LLMs have shown success to date, illustrating their practical contributions to the field. From the answers to these RQs, we discuss the current state-of-the-art and trends, identifying gaps in existing research, and flagging promising areas for future study. Our artifacts are publicly available at https://github.com/xinyi-hou/LLM4SE_SLR.
翻訳日:2024-04-11 19:35:31 公開日:2024-04-10
# YAGO 4.5: リッチな分類法を備えた大規模でクリーンな知識基盤

YAGO 4.5: A Large and Clean Knowledge Base with a Rich Taxonomy ( http://arxiv.org/abs/2308.11884v2 )

ライセンス: Link先を確認
Fabian Suchanek, Mehwish Alam, Thomas Bonald, Lihu Chen, Pierre-Henri Paris, Jules Soria, (参考訳) 知識ベース(KB)は多くの知識集約的なタスクや、特に情報検索における応用を見つける。 ウィキデータ(Wikidata)は、公共の汎用KBの一つ。 しかし、その協調性は複雑なスキーマと分類に繋がった。 YAGO 4 KB は Schema.org のオントロジーを組み込むことで分類をきれいにし、その結果、よりクリーンな構造が自動推論に結びつくようになった。 しかし、情報検索に不可欠なウィキデータ分類の大部分を削減した。 本稿では,論理的制約とクラスとインスタンスの区別を尊重しながら,YAGO 4をWikidata分類の大部分に拡張する。 これによって YAGO 4.5 が生成され,論理的に一貫した YAGO の新バージョンで,豊富な情報クラス層が追加される。 内在的および外在的評価は、新しいリソースの価値を示す。

Knowledge Bases (KBs) find applications in many knowledge-intensive tasks and, most notably, in information retrieval. Wikidata is one of the largest public general-purpose KBs. Yet, its collaborative nature has led to a convoluted schema and taxonomy. The YAGO 4 KB cleaned up the taxonomy by incorporating the ontology of Schema.org, resulting in a cleaner structure amenable to automated reasoning. However, it also cut away large parts of the Wikidata taxonomy, which is essential for information retrieval. In this paper, we extend YAGO 4 with a large part of the Wikidata taxonomy - while respecting logical constraints and the distinction between classes and instances. This yields YAGO 4.5, a new, logically consistent version of YAGO that adds a rich layer of informative classes. An intrinsic and an extrinsic evaluation show the value of the new resource.
翻訳日:2024-04-11 19:35:31 公開日:2024-04-10
# アハロノフ・ボーム環の古典的アナローグを通した非対称透過

Asymmetric Transmission Through a Classical Analogue of the Aharonov-Bohm Ring ( http://arxiv.org/abs/2308.14712v2 )

ライセンス: Link先を確認
Lei Chen, Isabella L. Giovannelli, Nadav Shaibe, Steven M. Anlage, (参考訳) 新しい物理学と技術は、コヒーレントな量子進化と非コヒーレントな古典物理学の間の中間範囲において、部分的なデコヒーレンスに苦しむ量子系に対して有効であると予測されている。 Aharonov-Bohm (AB) メソスコピックリングの古典的なアナログを通して非対称な伝送を探索し、伝送時間において3:1の非対称性をサポートし、長周期波に優先的に作用する損失特性で拡張する。 このような装置は、ジャイレータを利用した線形マイクロ波グラフとして実現され、3:1の伝送時間遅延非対称性と、均質な損失と局所的な損失の両方を発生させ、デバイスを通しての波動伝達の不均衡を発生させる。 マイクロ波リンググラフによる非対称伝送をシミュレーションと実験の両方、周波数領域と時間領域の両方における損失関数として示す。 マイクロ波リンググラフの結果を, 減圧誘起輸送非対称性を示唆する最近のモデルの数値シミュレーション結果と比較し, 並列性に注目した。

It has been predicted that new physics and technology are enabled for quantum systems that suffer from partial decoherence, in the intermediate range between coherent quantum evolution and incoherent classical physics. We explore the asymmetric transmission through a classical analogue of the Aharonov-Bohm (AB) mesoscopic ring that supports a 3:1 asymmetry in transmission times, augmented with lossy features that act preferentially on the longer-lingering waves. Such a device is realized as a linear microwave graph utilizing a gyrator to create the 3:1 transmission time delay asymmetry, along with both homogeneous and localized losses, to produce an imbalance in wave transmission through the device. We demonstrate asymmetric transmission through the microwave-ring graph as a function of loss in both simulation and experiment, and in both the frequency- and time-domain. The microwave ring-graph results are compared to a numerical simulation representative of a class of recent models proposing dephasing-induced transport asymmetry in few-channel quantum systems, and parallels are noted.
翻訳日:2024-04-11 19:35:31 公開日:2024-04-10
# 量子変化点と絡み合い蒸留

Quantum change point and entanglement distillation ( http://arxiv.org/abs/2308.15148v3 )

ライセンス: Link先を確認
Abhishek Banerjee, Pratapaditya Bej, Somshubhro Bandyopadhyay, (参考訳) 量子変化点問題において、固定量子状態(デフォルト)の粒子を放出する源は、ある段階で異なる状態に切り替え、その変化がいつ起こったかは、そのような源から放出される粒子の列を測定することによって決定される。 量子情報における絡み合い共有プロトコルによって動機付けられ,局所演算と古典通信(LOCC)のパラダイムの中でこの問題を研究する。 ここでは、アンタングルペアをデフォルト状態で出力するが、後段で別のアンタングル状態(ミューテーション)を生成し始めるソースを考える。 そして、このようなソースから作成され、遠くの観測者間で共有される絡み合ったペアのシーケンスは、各絡み合ったペアのアイデンティティが不明であるため、量子情報処理タスクには使用できない。 LOCCによる変化点の同定は, 対の対の蒸留に繋がることを示す。 特に、デフォルトと突然変異が相互直交であれば、失敗せずに変化点を識別し、十分な数のペアを蒸留する効率的なLOCCプロトコルが存在する。 しかし、直交しない場合、失敗する可能性がある。 この場合、平均して得られる絡み合ったペアの数を計算する。 また、変異が先行性ではなく、既知の集合に属するような2状態問題の緩和も検討する。 ここでは、局所的な区別性が重要な役割を担っていることを示す: デフォルトと可能な突然変異が局所的に区別可能である場合、問題は直交状態の2状態問題に還元されるが、そうでない場合には、具体的な例で示すように、変異、変化点、および蒸留絡み合いを識別することができる。

In a quantum change point problem, a source emitting particles in a fixed quantum state (default) switches to a different state at some stage, and the objective is to identify when the change happened by measuring a sequence of particles emitted from such a source. Motivated by entanglement-sharing protocols in quantum information, we study this problem within the paradigm of local operations and classical communication (LOCC). Here, we consider a source that emits entangled pairs in a default state, but starts producing another entangled state (mutation) at a later stage. Then, a sequence of entangled pairs prepared from such a source and shared between distant observers cannot be used for quantum information processing tasks as the identity of each entangled pair remains unknown. We show that identifying the change point using LOCC leads to the distillation of free entangled pairs. In particular, if the default and the mutation are mutually orthogonal, there exists an efficient LOCC protocol that identifies the change point without fail and distills a sufficiently large number of pairs. However, if they are nonorthogonal, there is a probability of failure. In this case, we compute the number of entangled pairs that may be obtained on average. We also consider a relaxation of the two-state problem where the mutation is not known a priori, but instead belongs to a known set. Here we show that local distinguishability plays a crucial role: if the default and the possible mutations are locally distinguishable, the problem reduces to the two-state problem with orthogonal states, but if not, one may still identify the mutation, the change point, and distill entanglement, as we illustrate with a concrete example.
翻訳日:2024-04-11 19:35:31 公開日:2024-04-10
# 確率勾配Descentに基づく生体ニューラルネットワークの学習 : 確率過程を用いた解析

Is Learning in Biological Neural Networks based on Stochastic Gradient Descent? An analysis using stochastic processes ( http://arxiv.org/abs/2309.05102v3 )

ライセンス: Link先を確認
Sören Christensen, Jan Kallsen, (参考訳) 近年、バイオニューラルネットワーク(BNN)での学習と人工ニューラルネットワークでの学習との違いについて、激しい議論がおこなわれている。 脳内の接続の更新は局所的な情報にのみ依存しているため、確率的勾配差型最適化法は使用できないとしばしば主張されている。 本稿では,BNNにおける教師あり学習のための確率モデルについて検討する。 我々は,各学習機会を多くのローカル更新によって処理した場合に,(連続的な)勾配ステップが生じることを示す。 この結果は,確率勾配降下がBNNを最適化する役割を担っていることを示唆している。

In recent years, there has been an intense debate about how learning in biological neural networks (BNNs) differs from learning in artificial neural networks. It is often argued that the updating of connections in the brain relies only on local information, and therefore a stochastic gradient-descent type optimization method cannot be used. In this paper, we study a stochastic model for supervised learning in BNNs. We show that a (continuous) gradient step occurs approximately when each learning opportunity is processed by many local updates. This result suggests that stochastic gradient descent may indeed play a role in optimizing BNNs.
翻訳日:2024-04-11 19:25:41 公開日:2024-04-10
# CitDet: Citrus Fruit検出のためのベンチマークデータセット

CitDet: A Benchmark Dataset for Citrus Fruit Detection ( http://arxiv.org/abs/2309.05645v2 )

ライセンス: Link先を確認
Jordan A. James, Heather K. Manching, Matthew R. Mattia, Kim D. Bowman, Amanda M. Hulse-Kemp, William J. Beksi, (参考訳) 本稿では,果樹園環境におけるハングロングブリング (HLB) 病に罹患する樹木の収穫量を画像解析により正確に推定する手法を提案する。 果実検出問題の解決において大きな進歩があったにもかかわらず、公開データセットの欠如は結果の複雑な直接比較である。 例えば、キツネ検出は農業研究コミュニティにとって長い間関心があったが、特にHLBに影響されたキツネの公的データセットを含む仕事が欠如している。 この問題に対処するため、我々は典型的な果樹園の設定で使用する最先端のオブジェクト検出手法を強化した。 具体的には,HLBの影響を強く受けている地域に位置するキツネの高分解能画像と,キツネ果実の高品質なバウンディングボックスアノテーションを提供する。 木と地面の両方に果実をラベル付けし,果実の立地を同定し,収量推定の進歩と,果実の落葉によるHLB影響の潜在的評価に寄与する。 データセットは579の高解像度画像に含まれるフルーツインスタンスのための32,000以上のバウンディングボックスアノテーションで構成されている。 まとめると、私たちの貢献は以下のとおりです。 (i)複数の現代オブジェクト検出アルゴリズムのベースライン性能ベンチマークとともに,新しいデータセットを導入する。 (二)木や地上の果実の正確な位置を把握でき、最後に (II) 結果と収量推定との相関を提示する。

In this letter, we present a new dataset to advance the state of the art in detecting citrus fruit and accurately estimate yield on trees affected by the Huanglongbing (HLB) disease in orchard environments via imaging. Despite the fact that significant progress has been made in solving the fruit detection problem, the lack of publicly available datasets has complicated direct comparison of results. For instance, citrus detection has long been of interest to the agricultural research community, yet there is an absence of work, particularly involving public datasets of citrus affected by HLB. To address this issue, we enhance state-of-the-art object detection methods for use in typical orchard settings. Concretely, we provide high-resolution images of citrus trees located in an area known to be highly affected by HLB, along with high-quality bounding box annotations of citrus fruit. Fruit on both the trees and the ground are labeled to allow for identification of fruit location, which contributes to advancements in yield estimation and potential measure of HLB impact via fruit drop. The dataset consists of over 32,000 bounding box annotations for fruit instances contained in 579 high-resolution images. In summary, our contributions are the following: (i) we introduce a novel dataset along with baseline performance benchmarks on multiple contemporary object detection algorithms, (ii) we show the ability to accurately capture fruit location on tree or on ground, and finally (ii) we present a correlation of our results with yield estimations.
翻訳日:2024-04-11 19:25:41 公開日:2024-04-10
# MRIパラレル画像再構成のためのインプシットニューラル表現法

Implicit Neural Representation for MRI Parallel Imaging Reconstruction ( http://arxiv.org/abs/2309.06067v6 )

ライセンス: Link先を確認
Hao Li, Yusheng Zhou, Jianan Liu, Xiling Liu, Tao Huang, Zhihan Lv, Weidong Cai, (参考訳) 磁気共鳴イメージング(MRI)は通常、長い取得時間に直面し、特定のK空間線を周期的にスキップし、次にアンダーサンプリングされたK空間から高品質な画像を再構成することで、並列イメージング(PI)のような戦略を探索する。 Inlicit Neural representation (INR)は近年,多層パーセプトロン(MLP)によってパラメータ化される空間座標の連続関数としてオブジェクトを特徴付ける,有望なディープラーニング技術として登場した。 本研究では,INRを用いたMRI PI再構成手法を提案する。 提案手法は, ボクセル座標の関数として再構成された完全サンプリング画像と, アンダーサンプル画像からの先行特徴ベクトルを表現し, INRの一般化課題に対処する。 具体的には、様々なアンダーサンプリングスケールにわたるMR画像からスケール非依存のボクセル特異な特徴を生成するためのスケール埋め込みエンコーダを提案する。 これらの特徴を座標ベクトルと結合して、完全にサンプリングされたMR画像を再構成し、複数スケールの再構成を容易にする。 提案手法の性能を評価するため, 公開されているMRIデータセットを用いて実験を行い, 代替の再構成手法と比較した。 我々の定量的評価は,提案手法の優位性を示すものである。

Magnetic resonance imaging (MRI) usually faces lengthy acquisition times, prompting the exploration of strategies such as parallel imaging (PI) to alleviate this problem by periodically skipping specific K-space lines and subsequently reconstructing high-quality images from the undersampled K-space. Implicit neural representation (INR) has recently emerged as a promising deep learning technique, characterizing objects as continuous functions of spatial coordinates typically parameterized by a multilayer perceptron (MLP). In this study, we propose a novel MRI PI reconstruction method that uses INR. Our approach represents reconstructed fully-sampled images as functions of voxel coordinates and prior feature vectors from undersampled images, addressing the generalization challenges of INR. Specifically, we introduce a scale-embedded encoder to generate scale-independent, voxel-specific features from MR images across various undersampling scales. These features are then concatenated with coordinate vectors to reconstruct fully-sampled MR images, facilitating multiple-scale reconstructions. To evaluate our method's performance, we conducted experiments using publicly available MRI datasets, comparing it with alternative reconstruction techniques. Our quantitative assessment demonstrates the superiority of our proposed method.
翻訳日:2024-04-11 19:25:41 公開日:2024-04-10
# FedJudge:Federated Legal Large Language Model

FedJudge: Federated Legal Large Language Model ( http://arxiv.org/abs/2309.08173v3 )

ライセンス: Link先を確認
Linan Yue, Qi Liu, Yichao Du, Weibo Gao, Ye Liu, Fangzhou Yao, (参考訳) 大規模言語モデル(LLMs)は、法律専門家や平民を支援するための潜在的な応用を提供する法的な知能の分野で有名になった。 しかしながら、これらの法律LLMの集中的なトレーニングは、機密情報を含む様々な機関に法的データが分散されているため、データのプライバシー上の懸念を提起する。 本稿では,LLMとFL(Federated Learning)方法論の統合を検討することで,この問題に対処する。 FLを使用することで、LLMをデバイスやクライアント上でローカルに微調整し、パラメータを集約して中央サーバに分散することで、生データを直接共有することなくデータのプライバシを保証できる。 しかし、計算と通信のオーバーヘッドは、FL設定下でのLLMの完全な微調整を妨げる。 さらに、法的なデータの分布シフトにより、FL法の有効性が低下する。 そこで本稿では,LLMを効率よく効率的に微調整するFedJudge(Federated Legal Large Language Model)フレームワークを提案する。 特に、FedJudgeはパラメータ効率のよい微調整手法を使用して、FLトレーニング中に追加のパラメータのみを更新する。 さらに,データシフトの問題を軽減するために,ローカルクライアントのトレーニングを行う際に,グローバルモデルの重要なパラメータを保存するための継続的学習手法についても検討する。 実世界の3つのデータセットの大規模な実験結果から,FedJudgeの有効性が明らかとなった。 コードはhttps://github.com/yuelinan/FedJudge.comで公開されている。

Large Language Models (LLMs) have gained prominence in the field of Legal Intelligence, offering potential applications in assisting legal professionals and laymen. However, the centralized training of these Legal LLMs raises data privacy concerns, as legal data is distributed among various institutions containing sensitive individual information. This paper addresses this challenge by exploring the integration of Legal LLMs with Federated Learning (FL) methodologies. By employing FL, Legal LLMs can be fine-tuned locally on devices or clients, and their parameters are aggregated and distributed on a central server, ensuring data privacy without directly sharing raw data. However, computation and communication overheads hinder the full fine-tuning of LLMs under the FL setting. Moreover, the distribution shift of legal data reduces the effectiveness of FL methods. To this end, in this paper, we propose the first Federated Legal Large Language Model (FedJudge) framework, which fine-tunes Legal LLMs efficiently and effectively. Specifically, FedJudge utilizes parameter-efficient fine-tuning methods to update only a few additional parameters during the FL training. Besides, we explore the continual learning methods to preserve the global model's important parameters when training local clients to mitigate the problem of data shifts. Extensive experimental results on three real-world datasets clearly validate the effectiveness of FedJudge. Code is released at https://github.com/yuelinan/FedJudge.
翻訳日:2024-04-11 19:25:41 公開日:2024-04-10
# 局所脱コヒーレンスによるトポロジカル状態の分離性遷移

Separability transitions in topological states induced by local decoherence ( http://arxiv.org/abs/2309.11879v2 )

ライセンス: Link先を確認
Yu-Hsueh Chen, Tarun Grover, (参考訳) 本研究では,局所的脱コヒーレンスを考慮した局所的脱コヒーレンス状態,すなわち脱コヒーレント混合状態が短距離エンタングルド状態(SRE)のアンサンブルとして表現できるか否かを考察する。 我々は,トーリック符号とX-キューブフラクトン状態に着目し,脱コヒーレンスによって引き起こされる分離性遷移の存在が,能動誤り訂正の可能性のしきい値と正確に一致することを示す。 重要な洞察は、これらのモデルの'親'クラスタ状態に作用する局所的なデコヒーレンスがギブス状態をもたらすことである。 例えば、ビットフリップ誤差を受ける2d(3d)トーリック符号の場合、デコヒード密度行列は、SRE状態の凸和として$p > p_c$と書くことができ、$p_c$は西森線に沿った2d(3d)ランダム磁場結合イジングモデルにおける常磁性-強磁性遷移と関連している。

We study states with intrinsic topological order subjected to local decoherence from the perspective of separability, i.e., whether a decohered mixed state can be expressed as an ensemble of short-range entangled (SRE) pure states. We focus on toric codes and the X-cube fracton state and provide evidence for the existence of decoherence-induced separability transitions that precisely coincide with the threshold for the feasibility of active error correction. A key insight is that local decoherence acting on the 'parent' cluster states of these models results in a Gibbs state. As an example, for the 2d (3d) toric code subjected to bit-flip errors, we show that the decohered density matrix can be written as a convex sum of SRE states for $p > p_c$, where $p_c$ is related to the paramagnetic-ferromagnetic transition in the 2d (3d) random-field bond Ising model along the Nishimori line.
翻訳日:2024-04-11 19:25:41 公開日:2024-04-10
# 粒子崩壊における3体絡み合い

Three-body Entanglement in Particle Decays ( http://arxiv.org/abs/2310.01477v2 )

ライセンス: Link先を確認
Kazuki Sakurai, Michael Spannowsky, (参考訳) 量子絡み合いは、長い間、量子力学を理解するための基礎的な柱として機能し、主に2粒子系に焦点を合わせてきた。 我々は絡み合いの研究を3体崩壊の領域に拡張し、量子相関のより複雑な理解を提供する。 エンタングルメントモノトンコンカレンスとモノガミー特性の原理を応用して、3粒子系に新しいアプローチを導入する。 本研究は, 標準モデルからの偏差の研究の可能性を強調し, 粒子現象学におけるその意義を強調した。 この研究は、特に重いフェルミオンやハドロンの崩壊において、多粒子量子絡み合いによる粒子物理学の新しい洞察の道を開く。

Quantum entanglement has long served as a foundational pillar in understanding quantum mechanics, with a predominant focus on two-particle systems. We extend the study of entanglement into the realm of three-body decays, offering a more intricate understanding of quantum correlations. We introduce a novel approach for three-particle systems by utilising the principles of entanglement monotone concurrence and the monogamy property. Our findings highlight the potential of studying deviations from the Standard Model and emphasise its significance in particle phenomenology. This work paves the way for new insights into particle physics through multi-particle quantum entanglement, particularly in decays of heavy fermions and hadrons.
翻訳日:2024-04-11 19:25:41 公開日:2024-04-10
# L2MAC:大規模コード生成のための大規模言語モデル自動計算機

L2MAC: Large Language Model Automatic Computer for Extensive Code Generation ( http://arxiv.org/abs/2310.02003v5 )

ライセンス: Link先を確認
Samuel Holt, Max Ruiz Luyten, Mihaela van der Schaar, (参考訳) トランスフォーマーベースの大規模言語モデル(LLM)は、基盤となるトランスフォーマーアーキテクチャの固定されたコンテキストウィンドウによって制約され、長い一貫性のある出力を生成する能力を妨げる。 メモリ拡張LDMは有望なソリューションであるが,(1)読み出しのみに集中し,新たなメモリの結合への進化を減少させる,あるいは(2)他のドメインに適応できない非常に特殊なメモリを使用するため,現在のアプローチでは長い出力タスクを処理できない。 本稿では,LLMをベースとした汎用自動計算機(von Neumann Architecture)フレームワークであるL2MACについて述べる。 そのメモリには2つのコンポーネントがある: 命令レジストリは、ユーザ登録タスクを解決するプロンプトプログラムで集約され、ファイルストアは、最終的な出力と中間出力を含む。 各命令は別個のLCMエージェントによって実行され、そのコンテキストは、ファイルストアとの効果的な相互作用を確保するために、正確なメモリ読み書きが可能な制御ユニットによって管理される。 これらのコンポーネントにより、L2MACは、複雑なユーザ指定タスクを満たす出力を生成しながら、有限コンテキストウィンドウの制約をバイパスして、広範な出力を生成することができる。 我々は,L2MACがシステム設計タスクの大規模コードベースの生成において最先端のパフォーマンスを実現し,詳細なユーザ指定タスクの実装において,他のコーディング手法を著しく上回っていることを実証的に示す。

Transformer-based large language models (LLMs) are constrained by the fixed context window of the underlying transformer architecture, hindering their ability to produce long and coherent outputs. Memory-augmented LLMs are a promising solution, but current approaches cannot handle long output generation tasks since they (1) only focus on reading memory and reduce its evolution to the concatenation of new memories or (2) use very specialized memories that cannot adapt to other domains. This paper presents L2MAC, the first practical LLM-based general-purpose stored-program automatic computer (von Neumann architecture) framework, an LLM-based multi-agent system, for long and consistent output generation. Its memory has two components: the instruction registry, which is populated with a prompt program to solve the user-given task, and a file store, which will contain the final and intermediate outputs. Each instruction in turn is executed by a separate LLM agent, whose context is managed by a control unit capable of precise memory reading and writing to ensure effective interaction with the file store. These components enable L2MAC to generate extensive outputs, bypassing the constraints of the finite context window while producing outputs that fulfill a complex user-specified task. We empirically demonstrate that L2MAC achieves state-of-the-art performance in generating large codebases for system design tasks, significantly outperforming other coding methods in implementing the detailed user-specified task; we show that L2MAC works for general-purpose extensive text-based tasks, such as writing an entire book; and we provide valuable insights into L2MAC's performance improvement over existing methods.
翻訳日:2024-04-11 19:25:41 公開日:2024-04-10
# DREAM:人間の視覚系を逆転させる視覚デコード

DREAM: Visual Decoding from Reversing Human Visual System ( http://arxiv.org/abs/2310.02265v2 )

ライセンス: Link先を確認
Weihao Xia, Raoul de Charette, Cengiz Öztireli, Jing-Hao Xue, (参考訳) 本研究では,脳活動から視像を再構成するfMRI-to-image法であるDREAMについて述べる。 私たちは、人間が視覚世界をどのように知覚するかという階層的および並列的な性質を模倣する逆経路を構築します。 これらの調整された経路は、fMRIデータから意味、色、深さの手がかりを解読し、視覚刺激からfMRI記録への前方経路を反映する。 2つのコンポーネントは、人間の視覚系内の逆過程を模倣する: この脳領域の経路を逆転させ、fMRIデータから意味を抽出するReverse Visual Association Cortex(R-VAC)、fMRI信号から色と深さを同時に予測するReverse Parallel PKM(R-PKM)である。 提案手法は, 外観, 構造, 意味の整合性の観点から, 現在の最先端モデルよりも優れていることを示す。 この分野でのさらなる研究を促進するために、コードは公開されます。

In this work we present DREAM, an fMRI-to-image method for reconstructing viewed images from brain activities, grounded on fundamental knowledge of the human visual system. We craft reverse pathways that emulate the hierarchical and parallel nature of how humans perceive the visual world. These tailored pathways are specialized to decipher semantics, color, and depth cues from fMRI data, mirroring the forward pathways from visual stimuli to fMRI recordings. To do so, two components mimic the inverse processes within the human visual system: the Reverse Visual Association Cortex (R-VAC) which reverses pathways of this brain region, extracting semantics from fMRI data; the Reverse Parallel PKM (R-PKM) component simultaneously predicting color and depth from fMRI signals. The experiments indicate that our method outperforms the current state-of-the-art models in terms of the consistency of appearance, structure, and semantics. Code will be made publicly available to facilitate further research in this field.
翻訳日:2024-04-11 19:25:41 公開日:2024-04-10
# ドメイン認識フェデレーション学習のためのデュアルプロンプトチューニング

Dual Prompt Tuning for Domain-Aware Federated Learning ( http://arxiv.org/abs/2310.03103v4 )

ライセンス: Link先を確認
Guoyizhe Wei, Feng Wang, Anshul Shah, Rama Chellappa, (参考訳) フェデレートラーニング(Federated Learning)は、複数のクライアントがローカルデータで共有モデルを共同でトレーニングできる分散機械学習パラダイムである。 それでも、従来のフェデレーション学習アルゴリズムは、クライアント間のユビキタスドメインシフトのために、よく一般化するのに苦労することが多い。 本研究では、各クライアントのトレーニングデータが異なるドメインから派生する、挑戦的で現実的なフェデレートされた学習シナリオについて考察する。 本稿では,素早い学習技術を活用したドメインシフトの課題に対処し,Fed-DPT(Federated Dual Prompt Tuning)と呼ばれる新しい手法を提案する。 具体的には、Fed-DPTは事前訓練された視覚言語モデルを使用して、視覚的およびテキスト的プロンプトチューニングを適用して、分散データに対するドメイン適応を容易にする。 Fed-DPTの大規模な実験は、ドメイン対応のフェデレーション学習において、その顕著な効果を示した。 事前トレーニングされたCLIPモデル(イメージエンコーダとしてのViT-Base)により、提案されたFed-DPTは、DomainNetデータセットの6つのドメインの平均精度を68.4%向上し、オリジナルのCLIPを14.8%向上させた。

Federated learning is a distributed machine learning paradigm that allows multiple clients to collaboratively train a shared model with their local data. Nonetheless, conventional federated learning algorithms often struggle to generalize well due to the ubiquitous domain shift across clients. In this work, we consider a challenging yet realistic federated learning scenario where the training data of each client originates from different domains. We address the challenges of domain shift by leveraging the technique of prompt learning, and propose a novel method called Federated Dual Prompt Tuning (Fed-DPT). Specifically, Fed-DPT employs a pre-trained vision-language model and then applies both visual and textual prompt tuning to facilitate domain adaptation over decentralized data. Extensive experiments of Fed-DPT demonstrate its significant effectiveness in domain-aware federated learning. With a pre-trained CLIP model (ViT-Base as image encoder), the proposed Fed-DPT attains 68.4% average accuracy over six domains in the DomainNet dataset, which improves the original CLIP by a large margin of 14.8%.
翻訳日:2024-04-11 19:25:41 公開日:2024-04-10
# 制御変数による共有値の推定の安定化

Stabilizing Estimates of Shapley Values with Control Variates ( http://arxiv.org/abs/2310.07672v3 )

ライセンス: Link先を確認
Jeremy Goldwasser, Giles Hooker, (参考訳) シェープ値は、ブラックボックス機械学習モデルの予測を説明する最も一般的なツールの1つである。 しかし、その高い計算コストはサンプリング近似の使用を動機付け、かなりの不確実性を引き起こす。 これらのモデル説明を安定させるために,モンテカルロ法に基づく制御変分法である制御SHAPを提案する。 我々の方法論はどんな機械学習モデルにも適用でき、余分な計算やモデリングの労力をほとんど必要としない。 いくつかの高次元データセットでは、シェープリー推定のモンテカルロ変動率を劇的に減少させることができる。

Shapley values are among the most popular tools for explaining predictions of blackbox machine learning models. However, their high computational cost motivates the use of sampling approximations, inducing a considerable degree of uncertainty. To stabilize these model explanations, we propose ControlSHAP, an approach based on the Monte Carlo technique of control variates. Our methodology is applicable to any machine learning model and requires virtually no extra computation or modeling effort. On several high-dimensional datasets, we find it can produce dramatic reductions in the Monte Carlo variability of Shapley estimates.
翻訳日:2024-04-11 19:25:41 公開日:2024-04-10
# 信号依存・ロー関連画像ノイズに対する教師なしデノイング

Unsupervised Denoising for Signal-Dependent and Row-Correlated Imaging Noise ( http://arxiv.org/abs/2310.07887v2 )

ライセンス: Link先を確認
Benjamin Salmon, Alexander Krull, (参考訳) 顕微鏡画像の正確な解析はノイズの存在によって妨げられる。 このノイズは通常信号に依存しており、しばしばピクセルの行や列に沿って相関する。 現在の自己制御型および非教師型デノイザは、信号依存ノイズに対処できるが、行または列関連性のあるノイズを確実に除去することはできない。 ここでは、行に関連があり、信号に依存しない画像ノイズを処理できる、教師なしのDenoiserを初めて提示する。 提案手法では,特殊設計の自己回帰デコーダを備えた変分オートエンコーダ(VAE)を用いる。 このデコーダは行関連ノイズと信号依存ノイズをモデル化できるが、基礎となるクリーン信号を独立にモデル化することができない。 したがって、VAEはクリーン信号情報のみを含む潜伏変数を生成し、提案された第2デコーダネットワークを用いて画像空間にマッピングする。 本手法では,事前学習した雑音モデルを必要としないため,雑音のないデータを用いてスクラッチから訓練することができる。 提案手法は,様々なセンサタイプや画像モダリティに適用することで,競争的な結果が得られることを示す。

Accurate analysis of microscopy images is hindered by the presence of noise. This noise is usually signal-dependent and often additionally correlated along rows or columns of pixels. Current self- and unsupervised denoisers can address signal-dependent noise, but none can reliably remove noise that is also row- or column-correlated. Here, we present the first fully unsupervised deep learning-based denoiser capable of handling imaging noise that is row-correlated as well as signal-dependent. Our approach uses a Variational Autoencoder (VAE) with a specially designed autoregressive decoder. This decoder is capable of modeling row-correlated and signal-dependent noise but is incapable of independently modeling underlying clean signal. The VAE therefore produces latent variables containing only clean signal information, and these are mapped back into image space using a proposed second decoder network. Our method does not require a pre-trained noise model and can be trained from scratch using unpaired noisy data. We show that our approach achieves competitive results when applied to a range of different sensor types and imaging modalities.
翻訳日:2024-04-11 19:15:52 公開日:2024-04-10
# BONES:ほぼ最適のニューラル強化ビデオストリーミング

BONES: Near-Optimal Neural-Enhanced Video Streaming ( http://arxiv.org/abs/2310.09920v2 )

ライセンス: Link先を確認
Lingdong Wang, Simran Singh, Jacob Chakareski, Mohammad Hajiesmaili, Ramesh K. Sitaraman, (参考訳) ネットワーク帯域が不十分で不安定なため、高品質なビデオコンテンツへのアクセスは困難である。 ニューラルエンハンスメントの最近の進歩は、ディープラーニングによる劣化したビデオの品質向上に有望な結果を示している。 Neural-Enhanced Streaming(NES)は、この新しいアプローチをビデオストリーミングに取り入れることで、ユーザーは低品質のビデオセグメントをダウンロードし、ビデオストリームの再生に違反することなく高品質なコンテンツを取得することができる。 本稿では,ユーザ体験の質(QoE)を最大化するために,ネットワークと計算資源を共同で管理するNES制御アルゴリズムBONESを紹介する。 BONESは、NESをリアプノフ最適化問題として定式化し、ほぼ最適性能でオンライン的に解決し、理論的な性能保証を提供する最初のNESアルゴリズムとなった。 総合的な実験結果から、BONESは最小限のオーバーヘッドで最先端のアルゴリズムよりもQoEを5\%から20\%増加させることが示された。 私たちのコードはhttps://github.com/UMass-LIDS/bonesで利用可能です。

Accessing high-quality video content can be challenging due to insufficient and unstable network bandwidth. Recent advances in neural enhancement have shown promising results in improving the quality of degraded videos through deep learning. Neural-Enhanced Streaming (NES) incorporates this new approach into video streaming, allowing users to download low-quality video segments and then enhance them to obtain high-quality content without violating the playback of the video stream. We introduce BONES, an NES control algorithm that jointly manages the network and computational resources to maximize the quality of experience (QoE) of the user. BONES formulates NES as a Lyapunov optimization problem and solves it in an online manner with near-optimal performance, making it the first NES algorithm to provide a theoretical performance guarantee. Comprehensive experimental results indicate that BONES increases QoE by 5\% to 20\% over state-of-the-art algorithms with minimal overhead. Our code is available at https://github.com/UMass-LIDS/bones.
翻訳日:2024-04-11 19:15:52 公開日:2024-04-10
# Zipformer: 音声認識のための高速で優れたエンコーダ

Zipformer: A faster and better encoder for automatic speech recognition ( http://arxiv.org/abs/2310.11230v4 )

ライセンス: Link先を確認
Zengwei Yao, Liyong Guo, Xiaoyu Yang, Wei Kang, Fangjun Kuang, Yifan Yang, Zengrui Jin, Long Lin, Daniel Povey, (参考訳) Conformerは自動音声認識(ASR)のための最も人気のあるエンコーダモデルとなっている。 ローカルとグローバルの両方の依存関係を学ぶために、トランスフォーマーに畳み込みモジュールを追加する。 本研究では,Zipformerと呼ばれる高速で,メモリ効率が高く,パフォーマンスも向上したトランスフォーマーについて述べる。 変更のモデル化には以下のものがある。 1) 中間スタックを低いフレームレートで動作させるUネットワーク様エンコーダ構造 2 より多くのモジュールを有する再編成ブロック構造であって、その内部において、効率のために注意重みを再利用すること。 3) BiasNormと呼ばれるLayerNormの修正版は、いくつかの長さ情報を保持できます。 4) 新しいアクティベーション機能 SwooshR と SwooshL は Swish より優れている。 また、各テンソルの現在のスケールで更新をスケールして相対的な変化を保ち、パラメータスケールを明示的に学習するScaledAdamという新しいオプティマイザも提案する。 これはAdamよりも早く収束し、パフォーマンスを向上させる。 LibriSpeech、Aishell-1、WenetSpeechデータセットの大規模な実験は、提案したZipformerが他の最先端のASRモデルに対して有効であることを示す。 私たちのコードはhttps://github.com/k2-fsa/icefall.comで公開されています。

The Conformer has become the most popular encoder model for automatic speech recognition (ASR). It adds convolution modules to a transformer to learn both local and global dependencies. In this work we describe a faster, more memory-efficient, and better-performing transformer, called Zipformer. Modeling changes include: 1) a U-Net-like encoder structure where middle stacks operate at lower frame rates; 2) reorganized block structure with more modules, within which we re-use attention weights for efficiency; 3) a modified form of LayerNorm called BiasNorm allows us to retain some length information; 4) new activation functions SwooshR and SwooshL work better than Swish. We also propose a new optimizer, called ScaledAdam, which scales the update by each tensor's current scale to keep the relative change about the same, and also explictly learns the parameter scale. It achieves faster convergence and better performance than Adam. Extensive experiments on LibriSpeech, Aishell-1, and WenetSpeech datasets demonstrate the effectiveness of our proposed Zipformer over other state-of-the-art ASR models. Our code is publicly available at https://github.com/k2-fsa/icefall.
翻訳日:2024-04-11 19:15:52 公開日:2024-04-10
# Fairret: 差別化可能な公平な正規化用語のためのフレームワーク

fairret: a Framework for Differentiable Fairness Regularization Terms ( http://arxiv.org/abs/2310.17256v2 )

ライセンス: Link先を確認
Maarten Buyl, MaryBeth Defrance, Tijl De Bie, (参考訳) 現在の機械学習におけるフェアネスツールキットは、限定されたフェアネス定義しか認めておらず、これらのライブラリが現代の機械学習パイプラインで果たす中心的な役割にもかかわらず、自動微分ライブラリとはほとんど統合されていない。 偏見をモジュラーでフレキシブルな目的として定量化し、自動微分パイプラインに容易に組み込むフェアネス規則化用語(フェアレット)の枠組みを導入する。 線形屈折統計学の用語でフェアネスの一般的な定義を用いることで、広い種類のフェアレットを効率的に計算することができる。 実験では, ベースラインに比べて予測力の損失が最小限に抑えられた公平性を実現する上で, 勾配の挙動と有効性を示す。 私たちのコントリビューションには、FairretフレームワークのPyTorch実装が含まれています。

Current fairness toolkits in machine learning only admit a limited range of fairness definitions and have seen little integration with automatic differentiation libraries, despite the central role these libraries play in modern machine learning pipelines. We introduce a framework of fairness regularization terms (fairrets) which quantify bias as modular, flexible objectives that are easily integrated in automatic differentiation pipelines. By employing a general definition of fairness in terms of linear-fractional statistics, a wide class of fairrets can be computed efficiently. Experiments show the behavior of their gradients and their utility in enforcing fairness with minimal loss of predictive power compared to baselines. Our contribution includes a PyTorch implementation of the fairret framework.
翻訳日:2024-04-11 19:15:52 公開日:2024-04-10
# 長距離絡み付き有限局所深部回路におけるバレンプラトーの存在

Absence of barren plateaus in finite local-depth circuits with long-range entanglement ( http://arxiv.org/abs/2311.01393v4 )

ライセンス: Link先を確認
Hao-Kai Zhang, Shuo Liu, Shi-Xin Zhang, (参考訳) グランドステートの準備は、ハミルトン将軍にとって古典的に魅力的である。 量子デバイスでは、浅いパラメータ化回路は、変分量子固有解法(英語版)のパラダイムの下で短距離の絡み合った状態を得るために効果的に訓練することができるが、深い回路はバレンプラトー現象のために一般には訓練できない。 このレターでは、局所的な2次元設計からなる任意の量子回路に対して、回路勾配のばらつきに関する一般的な下界を与える。 統一された枠組みに基づいて、局所ハミルトンの基底状態に対する有限局所深度回路(FLDC)のトレーニングにおいてバレンプラトーが存在しないことを証明した。 FLDCは、トポロジカルに順序づけられた状態のような長距離の絡み合った基底状態を生成するために、従来の回路深さの奥深くにあることが許されているが、その局所的な深さは有限であり、すなわち個々のキュービットに作用するゲートは有限である。 この特性は、FLDCを浅い回路とは切り離して設定する: FLDCは、2次元以上の既存のテンソルネットワーク法により、局所的な可観測物を効率的に推定するために古典的にシミュレートすることはできない。 解析結果を広範囲な数値シミュレーションで検証し,一般化トーリック符号モデルを用いた変分学習の有効性を実証する。

Ground state preparation is classically intractable for general Hamiltonians. On quantum devices, shallow parameterized circuits can be effectively trained to obtain short-range entangled states under the paradigm of variational quantum eigensolver, while deep circuits are generally untrainable due to the barren plateau phenomenon. In this Letter, we give a general lower bound on the variance of circuit gradients for arbitrary quantum circuits composed of local 2-designs. Based on our unified framework, we prove the absence of barren plateaus in training finite local-depth circuits (FLDC) for the ground states of local Hamiltonians. FLDCs are allowed to be deep in the conventional circuit depth to generate long-range entangled ground states, such as topologically ordered states, but their local depths are finite, i.e., there is only a finite number of gates acting on individual qubits. This characteristic sets FLDC apart from shallow circuits: FLDC in general cannot be classically simulated to estimate local observables efficiently by existing tensor network methods in two and higher dimensions. We validate our analytical results with extensive numerical simulations and demonstrate the effectiveness of variational training using the generalized toric code model.
翻訳日:2024-04-11 19:15:52 公開日:2024-04-10
# ポストセレクト量子メトロロジーのための圧縮チャネルの理論

Theory of Compression Channels for Post-selected Quantum Metrology ( http://arxiv.org/abs/2311.06679v2 )

ライセンス: Link先を確認
Jing Yang, (参考訳) 選択後の量子メロジカルスキームは、実験において最終的な測定が非常にうるさいか高価である場合に特に有利である。 本研究では,ポストセレクトメトロジーにおける圧縮チャネルに関する一般的な理論を提唱する。 圧縮品質を特徴付ける基本概念を定義し,損失のない圧縮チャネルの構造を照らし出す。 選択後の光位相推定と弱値増幅に関する以前の実験は、この一般理論の特別な例である。 さらに, 両分割系の2つのカテゴリにおいて, 圧縮チャネルが1つのサブシステムにのみ作用する場合でも, 圧縮損失を任意に小さくすることができることを示す。 これらの知見は、測定ノイズとコストが劇的に低減されるように、量子測定を分散するために利用することができる。

Post-selected quantum metrological scheme is especially advantageous when the final measurements are either very noisy or expensive in practical experiments. In this work, we put forward a general theory on the compression channels in post-selected metrology. We define the basic notions characterizing the compression quality and illuminate the underlying structure of lossless compression channels. Previous experiments on post-selected optical phase estimation and weak-value amplification are shown to be particular cases of this general theory. Furthermore, for two categories of bipartite systems, we show that the compression loss can be made arbitrarily small even when the compression channel acts only on one subsystem. These findings can be employed to distribute quantum measurements so that the measurement noise and cost are dramatically reduced.
翻訳日:2024-04-11 19:15:52 公開日:2024-04-10
# 文脈内学習が一般化するが、必ずしもロバストではない:構文のケース

In-context Learning Generalizes, But Not Always Robustly: The Case of Syntax ( http://arxiv.org/abs/2311.07811v2 )

ライセンス: Link先を確認
Aaron Mueller, Albert Webson, Jackson Petty, Tal Linzen, (参考訳) インコンテキスト学習(ICL)は、大規模言語モデル(LLM)に新しいタスクを教える一般的な方法である:入力コンテキストのラベル付き例が与えられたら、LLMは重み付けをせずにタスクを実行することを学習する。 ICLによって導かれるモデルは、文脈によって定義されたタスクの基盤構造を推測するか、あるいは、同じ分散例にのみ一般化する表面的ヒューリスティックに依存しているのか? 変換タスクと構文に対する感受性を評価するNLIタスクを使ってこの問題に対処する。 さらに,このモデルには,タスクの実行方法を示す中間計算ステップのシーケンスが設けられているので,チェーン・オブ・ファシリテート・プロンプトを通じて,アウト・オブ・ディストリビューションの一般化を改善できるかどうかについても検討する。 GPT, PaLM, および Llama 2 ファミリーのモデルを用いた実験では, LM 間で大きなばらつきが認められた。 この分散は、モデルサイズよりも事前訓練されたコーパスと監督方法の構成によって説明され、特に、コード上で事前訓練されたモデルはより一般化され、チェーン・オブ・シンセサイティングの恩恵を受ける。

In-context learning (ICL) is now a common method for teaching large language models (LLMs) new tasks: given labeled examples in the input context, the LLM learns to perform the task without weight updates. Do models guided via ICL infer the underlying structure of the task defined by the context, or do they rely on superficial heuristics that only generalize to identically distributed examples? We address this question using transformations tasks and an NLI task that assess sensitivity to syntax - a requirement for robust language understanding. We further investigate whether out-of-distribution generalization can be improved via chain-of-thought prompting, where the model is provided with a sequence of intermediate computation steps that illustrate how the task ought to be performed. In experiments with models from the GPT, PaLM, and Llama 2 families, we find large variance across LMs. The variance is explained more by the composition of the pre-training corpus and supervision methods than by model size; in particular, models pre-trained on code generalize better, and benefit more from chain-of-thought prompting.
翻訳日:2024-04-11 19:15:52 公開日:2024-04-10
# 空間深度高分解能3次元イメージングのための位相誘導光場

Phase Guided Light Field for Spatial-Depth High Resolution 3D Imaging ( http://arxiv.org/abs/2311.10568v2 )

ライセンス: Link先を確認
Geyou Zhang, Ce Zhu, Kai Liu, Yipeng Liu, (参考訳) 3Dイメージングでは、通常は単発で撮影されるが、空間分解能の低下と深度精度の低下に悩まされている。 本稿では,光プロジェクタを用いて単一高周波位相シフト正弦波パターンを投影することにより,オフザシェルフ光場カメラの空間分解能と深度の両方を著しく向上させる位相誘導光場アルゴリズムを提案する。 まず、光界カメラの主レンズによる軸方向収差を補正するために、構造体光界系の校正のための変形円錐モデルを提案する。 第2に、パターン付き画像から計算したオーバーラップ位相、すなわち絶対差の位相誘導和を提案する。 最後に,光電場画像の基本的幾何学的光学値に基づいて仮想カメラを導入することにより,空間深度高分解能で3次元点雲を再構成する再構成戦略を提案する。 実験結果から, 現状の能動電界法と比較して, 空間分解能が1280$\times$720, 係数が10$\times$720の3次元点群を再構成し, 同一の深度分解能を維持し, 高周波パターンの単一グループのみを必要とすることがわかった。

On 3D imaging, light field cameras typically are of single shot, and however, they heavily suffer from low spatial resolution and depth accuracy. In this paper, by employing an optical projector to project a group of single high-frequency phase-shifted sinusoid patterns, we propose a phase guided light field algorithm to significantly improve both the spatial and depth resolutions for off-the-shelf light field cameras. First, for correcting the axial aberrations caused by the main lens of our light field camera, we propose a deformed cone model to calibrate our structured light field system. Second, over wrapped phases computed from patterned images, we propose a stereo matching algorithm, i.e. phase guided sum of absolute difference, to robustly obtain the correspondence for each pair of neighbored two lenslets. Finally, by introducing a virtual camera according to the basic geometrical optics of light field imaging, we propose a reorganization strategy to reconstruct 3D point clouds with spatial-depth high resolution. Experimental results show that, compared with the state-of-the-art active light field methods, the proposed reconstructs 3D point clouds with a spatial resolution of 1280$\times$720 with factors 10$\times$ increased, while maintaining the same high depth resolution and needing merely a single group of high-frequency patterns.
翻訳日:2024-04-11 19:15:52 公開日:2024-04-10
# 医療における信頼を高めるための解釈可能なMLシステムの設計--責任ある臨床医-AI連携フレームワークの提案への体系的レビュー

Designing Interpretable ML System to Enhance Trust in Healthcare: A Systematic Review to Proposed Responsible Clinician-AI-Collaboration Framework ( http://arxiv.org/abs/2311.11055v2 )

ライセンス: Link先を確認
Elham Nasarian, Roohallah Alizadehsani, U. Rajendra Acharya, Kwok-Leung Tsui, (参考訳) 本稿では, ウェアラブル, 遠隔医療, 大規模言語モデル, デジタル双生児などのAIベースの医療機器が臨床意思決定支援システムに与える影響について検討する。 それは、正確であるだけでなく、臨床医に解釈可能で理解可能な結果を生み出すことの重要性を強調し、解釈可能性の欠如が医療にこれらの技術を採用することへの不信と反感のリスクに対処する。 論文は、AIシステムと臨床医間の責任あるコミュニケーションを促進するための品質管理に焦点を当て、解釈可能なAIプロセス、方法、応用、および医療における実装の課題についてレビューする。 これは、解釈可能性プロセスをデータ前処理、モデル選択、後処理に分解し、医療における堅牢な解釈可能性アプローチの重要な役割を包括的に理解し、この分野における将来の研究を導くことを目的としている。 医療のための責任ある臨床医とAIツールを作るための洞察と、彼らが直面している課題のより深い理解を提供する。 研究課題, 適格基準, 主目的は, 事前報告項目とメタ分析ガイドライン, PICO法を用いて同定し, PubMed, Scopus, Web of Scienceデータベースを, センシティブで特定の検索文字列を用いて体系的に検索した。 最終的に、既存の8つのレビューと44の関連する実験研究を含む52の論文がデータ抽出のために選択された。 この論文は、医療における解釈可能なAIの一般的な概念を提供し、3段階の解釈可能性プロセスについて議論する。 さらに、医療における堅牢な解釈可能性AIを評価するための包括的な議論も提供する。 さらに、この調査では、医療に責任あるAIを実装するためのステップバイステップのロードマップを紹介している。

This paper explores the significant impact of AI-based medical devices, including wearables, telemedicine, large language models, and digital twins, on clinical decision support systems. It emphasizes the importance of producing outcomes that are not only accurate but also interpretable and understandable to clinicians, addressing the risk that lack of interpretability poses in terms of mistrust and reluctance to adopt these technologies in healthcare. The paper reviews interpretable AI processes, methods, applications, and the challenges of implementation in healthcare, focusing on quality control to facilitate responsible communication between AI systems and clinicians. It breaks down the interpretability process into data pre-processing, model selection, and post-processing, aiming to foster a comprehensive understanding of the crucial role of a robust interpretability approach in healthcare and to guide future research in this area. with insights for creating responsible clinician-AI tools for healthcare, as well as to offer a deeper understanding of the challenges they might face. Our research questions, eligibility criteria and primary goals were identified using Preferred Reporting Items for Systematic reviews and Meta-Analyses guideline and PICO method; PubMed, Scopus and Web of Science databases were systematically searched using sensitive and specific search strings. In the end, 52 publications were selected for data extraction which included 8 existing reviews and 44 related experimental studies. The paper offers general concepts of interpretable AI in healthcare and discuss three-levels interpretability process. Additionally, it provides a comprehensive discussion of evaluating robust interpretability AI in healthcare. Moreover, this survey introduces a step-by-step roadmap for implementing responsible AI in healthcare.
翻訳日:2024-04-11 19:15:52 公開日:2024-04-10
# 物理誘導型形状テンプレート:ニューラルサロゲートモデルによる単眼映像知覚

Physics-guided Shape-from-Template: Monocular Video Perception through Neural Surrogate Models ( http://arxiv.org/abs/2311.12796v2 )

ライセンス: Link先を確認
David Stotko, Nils Wandel, Reinhard Klein, (参考訳) 動的シーンの3D再構成は、コンピュータグラフィックスにおける長年の問題であり、情報が少ないほど困難になる。 Shape-from-Template (SfT) 法は、RGB画像やビデオシーケンスからテンプレートベースの幾何学を再構築することを目的としており、通常のスマートフォン記録のような深度情報を持たない単一の単眼カメラを利用することが多い。 残念なことに、既存の再構成手法は非物理的でノイズが多いか最適化が遅いかのいずれかである。 そこで本研究では, トレーニング済みニューラルネットワークを用いた布のSfT再構成アルゴリズムを提案する。 シミュレーションメッシュの異なるレンダリングにより、再構成と、グラデーションベースの最適化手順で使用可能な対象映像シーケンスとの画素ワイズ比較を可能にし、形状情報だけでなく、伸縮、せん断、曲げ剛性などの物理的パラメータを抽出する。 これにより、最先端物理ベースのSfTアプローチである$\phi$-SfTと比較して、400-500の係数でランタイムを削減しつつ、正確で安定で滑らかに再構成された幾何を維持することができる。

3D reconstruction of dynamic scenes is a long-standing problem in computer graphics and increasingly difficult the less information is available. Shape-from-Template (SfT) methods aim to reconstruct a template-based geometry from RGB images or video sequences, often leveraging just a single monocular camera without depth information, such as regular smartphone recordings. Unfortunately, existing reconstruction methods are either unphysical and noisy or slow in optimization. To solve this problem, we propose a novel SfT reconstruction algorithm for cloth using a pre-trained neural surrogate model that is fast to evaluate, stable, and produces smooth reconstructions due to a regularizing physics simulation. Differentiable rendering of the simulated mesh enables pixel-wise comparisons between the reconstruction and a target video sequence that can be used for a gradient-based optimization procedure to extract not only shape information but also physical parameters such as stretching, shearing, or bending stiffness of the cloth. This allows to retain a precise, stable, and smooth reconstructed geometry while reducing the runtime by a factor of 400-500 compared to $\phi$-SfT, a state-of-the-art physics-based SfT approach.
翻訳日:2024-04-11 19:15:52 公開日:2024-04-10
# 人-ロボットインタラクションにおけるWebカメラを用いたUltra-Range Gesture Recognition

Ultra-Range Gesture Recognition using a Web-Camera in Human-Robot Interaction ( http://arxiv.org/abs/2311.15361v2 )

ライセンス: Link先を確認
Eran Bamani, Eden Nissinman, Inbar Meir, Lisa Koenigsberg, Avishai Sintov, (参考訳) ハンドジェスチャは、非言語的意図、思考、命令が伝達される人間の相互作用において重要な役割を果たす。 HRI(Human-Robot Interaction)では、ハンドジェスチャはロボットエージェントに明確で迅速な指示を伝達するための類似した、効率的な媒体を提供する。 しかし、現在最先端の視覚に基づくジェスチャー認識法は、ユーザ・カメラ距離が7mまでしか有効でないことが示されている。 例えば、サービスロボット、捜索救助ロボット、ドローンなどである。 本研究では,最大25mの認識距離とHRIの文脈で,Ultra-Range Gesture Recognition (URGR)問題に対処する。 本稿では,シンプルなRGBカメラを用いた新しいディープラーニングフレームワークURGRを提案する。 ジェスチャー推論は単一の画像に基づいている。 まず、ハイクオリティネットワーク(HQ-Net)と呼ばれる新しい超解像モデルが、ユーザの低解像度画像を強化するために、自己注意層と畳み込み層を用いている。 そこで我々は,GViT (Graph Vision Transformer) と呼ばれる新しいURGR分類器を提案する。 GViTは、グラフ畳み込みネットワーク(GCN)と修正されたビジョントランスフォーマー(ViT)の利点を組み合わせたものである。 種々のテストデータに対するフレームワークの評価は98.1%という高い認識率が得られる。 このフレームワークは、超距離での人間の認識よりも優れた性能を示した。 このフレームワークを用いて、複雑な屋内・屋外環境における人間のジェスチャーによる自律的な四足歩行ロボットの性能を解析、実証し、平均96%の認識率を得た。

Hand gestures play a significant role in human interactions where non-verbal intentions, thoughts and commands are conveyed. In Human-Robot Interaction (HRI), hand gestures offer a similar and efficient medium for conveying clear and rapid directives to a robotic agent. However, state-of-the-art vision-based methods for gesture recognition have been shown to be effective only up to a user-camera distance of seven meters. Such a short distance range limits practical HRI with, for example, service robots, search and rescue robots and drones. In this work, we address the Ultra-Range Gesture Recognition (URGR) problem by aiming for a recognition distance of up to 25 meters and in the context of HRI. We propose the URGR framework, a novel deep-learning, using solely a simple RGB camera. Gesture inference is based on a single image. First, a novel super-resolution model termed High-Quality Network (HQ-Net) uses a set of self-attention and convolutional layers to enhance the low-resolution image of the user. Then, we propose a novel URGR classifier termed Graph Vision Transformer (GViT) which takes the enhanced image as input. GViT combines the benefits of a Graph Convolutional Network (GCN) and a modified Vision Transformer (ViT). Evaluation of the proposed framework over diverse test data yields a high recognition rate of 98.1%. The framework has also exhibited superior performance compared to human recognition in ultra-range distances. With the framework, we analyze and demonstrate the performance of an autonomous quadruped robot directed by human gestures in complex ultra-range indoor and outdoor environments, acquiring 96% recognition rate on average.
翻訳日:2024-04-11 19:15:52 公開日:2024-04-10
# 深層学習における幾何適応勾配勾配による一様指数速度での大域的$\mathcal{L}^2$最小化

Global $\mathcal{L}^2$ minimization at uniform exponential rate via geometrically adapted gradient descent in Deep Learning ( http://arxiv.org/abs/2311.15487v4 )

ライセンス: Link先を確認
Thomas Chen, (参考訳) 本稿では、ディープラーニング(DL)ネットワークにおける教師あり学習のシナリオを考察し、勾配降下フローが定義できるリーマン計量における選択の任意性を利用する(微分幾何学の一般的な事実)。 DLに対する標準的なアプローチでは、パラメータ(重みとバイアス)の空間上の勾配フローはユークリッド計量に関して定義される。 ここでは、DLネットワークの出力層におけるユークリッド計量に対する勾配流を選択する。 これにより、パラメータ空間における勾配降下流の2つの修正版が自然に誘導され、一方は過度にパラメータ化された設定に、もう一方は過度にパラメータ化された設定に適合する。 過度パラメータ化の場合、階数条件が成り立つと、修正勾配降下のすべての軌道が、一様指数収束速度で${\mathcal L}^2$のコストを大域最小に駆動する。 後者と非リーマン幾何学との関係を指摘する。 さらに、上記の枠組みを、ランク条件が成り立たない状況に一般化し、特に、ランク損失が発生した場合にのみ局所平衡が存在し、一般論として、それらは孤立点ではなくパラメータ空間の臨界部分多様体の元であることを示す。

We consider the scenario of supervised learning in Deep Learning (DL) networks, and exploit the arbitrariness of choice in the Riemannian metric relative to which the gradient descent flow can be defined (a general fact of differential geometry). In the standard approach to DL, the gradient flow on the space of parameters (weights and biases) is defined with respect to the Euclidean metric. Here instead, we choose the gradient flow with respect to the Euclidean metric in the output layer of the DL network. This naturally induces two modified versions of the gradient descent flow in the parameter space, one adapted for the overparametrized setting, and the other for the underparametrized setting. In the overparametrized case, we prove that, provided that a rank condition holds, all orbits of the modified gradient descent drive the ${\mathcal L}^2$ cost to its global minimum at a uniform exponential convergence rate; one thereby obtains an a priori stopping time for any prescribed proximity to the global minimum. We point out relations of the latter to sub-Riemannian geometry. Moreover, we generalize the above framework to the situation in which the rank condition does not hold; in particular, we show that local equilibria can only exist if a rank loss occurs, and that generically, they are not isolated points, but elements of a critical submanifold of parameter space.
翻訳日:2024-04-11 19:06:08 公開日:2024-04-10
# フィードバック誘起皮膚効果による動的相転移

Dynamical Phase Transition due to Feedback-induced Skin Effect ( http://arxiv.org/abs/2311.16541v2 )

ライセンス: Link先を確認
Ze-Chuan Liu, Kai Li, Yong Xu, (参考訳) 伝統的な動的位相遷移は、観測可能な状態における特異点の出現を、深夜状態に対する制御パラメータや、時間に関するロシミットエコーの速度関数における特異点を指す。 本稿では,開境界条件下での条件フィードバックを伴う連続監視自由フェルミオン系における多体ダイナミクスについて検討する。 時間の経過とともに、絡み合いエントロピーの対数的スケーリングから領域-法則スケーリングへの新たな動的位相遷移が予想される。 従来の動的相転移と著しく異なる遷移は、バルクダイナミクスと境界皮膚効果の競合から生じる。 さらに, 周期的境界条件下での力学の定常状態に対するエンタングルメント遷移とよく一致する, 時間進化における最大エンタングルメントエントロピーの遷移が生じる。

The traditional dynamical phase transition refers to the appearance of singularities in an observable with respect to a control parameter for a late-time state or singularities in the rate function of the Loschmidt echo with respect to time. Here, we study the many-body dynamics in a continuously monitored free fermion system with conditional feedback under open boundary conditions. We surprisingly find a novel dynamical phase transition from a logarithmic scaling of the entanglement entropy to an area-law scaling as time evolves. The transition, which is noticeably different from the conventional dynamical phase transition, arises from the competition between the bulk dynamics and boundary skin effects. In addition, we find that while quasidisorder or disorder cannot drive a transition for the steady state, a transition occurs for the maximum entanglement entropy during the time evolution, which agrees well with the entanglement transition for the steady state of the dynamics under periodic boundary conditions.
翻訳日:2024-04-11 19:06:08 公開日:2024-04-10
# 非Functional Requirements in ML-Enabled Systems: A Systematic Literature Review

Classification, Challenges, and Automated Approaches to Handle Non-Functional Requirements in ML-Enabled Systems: A Systematic Literature Review ( http://arxiv.org/abs/2311.17483v3 )

ライセンス: Link先を確認
Vincenzo De Martino, Fabio Palomba, (参考訳) コンテキスト: 機械学習(ML)は今や広く普及しており、ほとんど誰もその使用を避けられないほど拡散している。 それでも、その巨大なポテンシャルは、非機能要件を管理して、トレードオフと対照的な圧力をナビゲートする必要があるため、しばしば誘惑される。 目的: この点において、ML対応システムに影響を及ぼす非機能要件の包括的な合成が欠如していることに気付きます。 このような合成は、最先端の総合的な概要を提供するだけでなく、ML集約システムの非機能要件の分析、管理、最適化に関するさらなる研究を促進する。 方法:本論文では,(1)これまで検討されてきた非機能要件の分類,(2)ML対応システムにおけるモデル開発における課題の2つの重要な側面を対象として,体系的な文献レビューを提案する。 体系的な文献レビューの実施ガイドラインと検索基準の追加により,69の論文を総合的に調査した。 結果:本研究は,30種類の非機能要件を同定し,これらを6つの主要クラスに分類した。 また、23以上のソフトウェアエンジニアリング課題のカタログを編集し、機械学習対応システムの非機能要件についてさらなる研究を行ないました。 結論: 本研究の結論は, 含意の蒸留と今後の展望である。

Context: Machine learning (ML) is nowadays so pervasive and diffused that virtually no application can avoid its use. Nonetheless, its enormous potential is often tempered by the need to manage non-functional requirements and navigate pressing, contrasting trade-offs. Objective: In this respect, we notice the lack of a comprehensive synthesis of the non-functional requirements affecting ML-enabled systems, other than the major challenges faced to deal with them. Such a synthesis may not only provide a comprehensive summary of the state of the art, but also drive further research on the analysis, management, and optimization of non-functional requirements of ML-intensive systems. Method: In this paper, we propose a systematic literature review targeting two key aspects such as (1) the classification of the non-functional requirements investigated so far, and (2) the challenges to be faced when developing models in ML-enabled systems. Through the combination of well-established guidelines for conducting systematic literature reviews and additional search criteria, we survey a total amount of 69 research articles. Results: Our findings report that current research identified 30 different non-functional requirements, which can be grouped into six main classes. We also compiled a catalog of more than 23 software engineering challenges, based on which further research should consider the nonfunctional requirements of machine learning-enabled systems. Conclusion: We conclude our work by distilling implications and a future outlook on the topic.
翻訳日:2024-04-11 19:06:08 公開日:2024-04-10
# GLiDR: 疎LiDAR点雲のためのトポロジ的正規化グラフ生成ネットワーク

GLiDR: Topologically Regularized Graph Generative Network for Sparse LiDAR Point Clouds ( http://arxiv.org/abs/2312.00068v2 )

ライセンス: Link先を確認
Prashant Kumar, Kshitij Madhav Bhat, Vedang Bhupesh Shenvi Nadkarni, Prem Kalra, (参考訳) 希少なLiDAR点雲は、静的構造の細部が著しく失われ、ナビゲーションに利用可能な静的点の密度が低下する。 密度の低下は、いくつかのシナリオでナビゲーションに有害である。 空間密度が高いにもかかわらず、ほとんどの場合、静的構造を概説するLiDARのグローバルトポロジーが推測可能である。 我々はこの特性を利用して、LiDARスキャンのバックボーン骨格を、そのグローバルトポロジのプロキシである1つの連結成分の形で取得する。 バックボーンを使用して静的な構造に沿って新しいポイントを拡大し、スパーシリティを克服します。 新しく導入されたポイントは、既存の静的構造や、以前動的オブジェクトによって妨げられていた静的なポイントに対応できる。 私たちの知る限りでは、私たちは、LiDARポイントクラウドを疎結合にするための、このような戦略を最初に使用しています。 我々のアプローチに近い既存のソリューションは、グローバルな静的LiDARトポロジを特定し保存し、準最適点を生成するのに失敗する。 我々は,0次元永続ホモロジー(\mathcal{PH}$)制約を用いてトポロジ的に正規化されたグラフ生成ネットワークGLiDRを提案する。 これにより、GLiDRは、トポロジ的に一貫性のあるグローバルな静的LiDARバックボーンに沿って、より新しい静的ポイントを導入することができる。 GLiDRは32\times$スペーサーダイナミックスキャンを使用して正確な静的ポイントを生成し、3つのデータセットのベースラインよりもパフォーマンスがよい。 GLiDRは価値のある副産物を生成します - 静的および動的オブジェクトの正確なバイナリセグメンテーションマスクで、制約のある環境でのナビゲーション計画と安全性に役立ちます。 新たに導入された静的ポイントにより、GLiDRは複数の設定でSLAMを使用してLiDARベースのナビゲーションより優れている。 ソースコードは$\texttt{https://github.com/GLiDR-CVPR2024/GLiDR}$で入手できる。

Sparse LiDAR point clouds cause severe loss of detail of static structures and reduce the density of static points available for navigation. Reduced density can be detrimental to navigation under several scenarios. We observe that despite high sparsity, in most cases, the global topology of LiDAR outlining the static structures can be inferred. We utilize this property to obtain a backbone skeleton of a LiDAR scan in the form of a single connected component that is a proxy to its global topology. We utilize the backbone to augment new points along static structures to overcome sparsity. Newly introduced points could correspond to existing static structures or to static points that were earlier obstructed by dynamic objects. To the best of our knowledge, we are the first to use such a strategy for sparse LiDAR point clouds. Existing solutions close to our approach fail to identify and preserve the global static LiDAR topology and generate sub-optimal points. We propose GLiDR, a Graph Generative network that is topologically regularized using 0-dimensional Persistent Homology ($\mathcal{PH}$) constraints. This enables GLiDR to introduce newer static points along a topologically consistent global static LiDAR backbone. GLiDR generates precise static points using $32\times$ sparser dynamic scans and performs better than the baselines across three datasets. GLiDR generates a valuable byproduct - an accurate binary segmentation mask of static and dynamic objects that are helpful for navigation planning and safety in constrained environments. The newly introduced static points allow GLiDR to outperform LiDAR-based navigation using SLAM in several settings. Source code is available at $\texttt{https://github.com/GLiDR-CVPR2024/GLiDR}$.
翻訳日:2024-04-11 19:06:08 公開日:2024-04-10
# 例外点周辺における振幅・位相の上昇と低下--散乱行列によるアプローチ

The rise and fall of the amplitude, and phase, around Exceptional Points: a Scattering matrix approach ( http://arxiv.org/abs/2312.02423v2 )

ライセンス: Link先を確認
J. Colín-Gálvez, E. Castaño, G. Báez, V. Domínguez-Rocha, (参考訳) 非エルミート開1次元量子系の振る舞いを$\mathcal{PT}$対称性で解析する。 このシステムは二量体で構築され、パラメータ$\gamma$で表される利得と損失のバランスが取れている。 自然に分離された系共鳴は、$\gamma$の変化により、例外点 (EP) で合体する。 伝送スペクトルは散乱行列(S$行列)フォーマリズムを用いて得られ、共振器に対応する波動関数を$\gamma$の関数として検討する。 具体的には,EPの前後において,$S$行列の位相の挙動と分布を求める。

We analyze the behavior of a non-Hermitian opened one-dimensional quantum system with $\mathcal{PT}$ symmetry. This system is built by a dimer, with balanced gains and losses described by a parameter $\gamma$. By varying $\gamma$ the system resonances, which are naturally separated, coalesce at the exceptional point (EP). The transmission spectrum is obtained by means of the scattering matrix ($S$ matrix) formalism and we examine the wave functions corresponding to the resonances as a function of $\gamma$. Specifically, we look for the behavior and distribution of the phases of the $S$ matrix before, at and after the EP.
翻訳日:2024-04-11 19:06:08 公開日:2024-04-10
# 微弱監督適応による分散シフト下におけるセグメント化基礎モデルの一般化

Improving the Generalization of Segmentation Foundation Model under Distribution Shift via Weakly Supervised Adaptation ( http://arxiv.org/abs/2312.03502v2 )

ライセンス: Link先を確認
Haojie Zhang, Yongyi Su, Xun Xu, Kui Jia, (参考訳) 大規模な言語モデルの成功は、コンピュータビジョンコミュニティにインスピレーションを与え、迅速なエンジニアリングを通じてゼロ/フェーショットの一般化が可能なイメージセグメンテーション基盤モデルを探らせた。 Segment-Anything(SAM)は、強力なゼロ/ファウショットの一般化を示す最先端のイメージセグメンテーション基盤モデルである。 この成功にもかかわらず、近年の研究はSAMの強い分布シフトの下での弱さを明らかにしている。 特にSAMは、破損した自然画像、偽造画像、医療画像等にぎこちなく処理する。 本研究の目的は,SAMを目標分布に適応させる自己学習型戦略を開発することである。 大規模なデータセットの独特な課題,高い計算コスト,不正な擬似ラベルを考慮し,適応の堅牢性と計算効率を向上させるために,アンカー正規化と低ランク微調整を備えた弱教師付き自己学習アーキテクチャを提案する。 本研究では, 自然浄化・破損画像, 医用画像, カモフラージュ画像, ロボット画像など, 5種類の下流セグメンテーションタスクの有効性を検証した。 提案手法はタスク非依存であり、同じテストプロンプト入力を持つほぼすべての下流タスクにおいて、事前訓練されたSAMおよび最先端ドメイン適応法より優れる。

The success of large language models has inspired the computer vision community to explore image segmentation foundation model that is able to zero/few-shot generalize through prompt engineering. Segment-Anything(SAM), among others, is the state-of-the-art image segmentation foundation model demonstrating strong zero/few-shot generalization. Despite the success, recent studies reveal the weakness of SAM under strong distribution shift. In particular, SAM performs awkwardly on corrupted natural images, camouflaged images, medical images, etc. Motivated by the observations, we aim to develop a self-training based strategy to adapt SAM to target distribution. Given the unique challenges of large source dataset, high computation cost and incorrect pseudo label, we propose a weakly supervised self-training architecture with anchor regularization and low-rank finetuning to improve the robustness and computation efficiency of adaptation. We validate the effectiveness on 5 types of downstream segmentation tasks including natural clean/corrupted images, medical images, camouflaged images and robotic images. Our proposed method is task-agnostic in nature and outperforms pre-trained SAM and state-of-the-art domain adaptation methods on almost all downstream tasks with the same testing prompt inputs.
翻訳日:2024-04-11 19:06:08 公開日:2024-04-10
# DG-TTA:ドメインの一般化とテスト時間適応による領域外医療画像分割

DG-TTA: Out-of-domain medical image segmentation through Domain Generalization and Test-Time Adaptation ( http://arxiv.org/abs/2312.06275v3 )

ライセンス: Link先を確認
Christian Weihsbach, Christian N. Kruse, Alexander Bigalke, Mattias P. Heinrich, (参考訳) 領域外画像に事前訓練された医療セグメンテーションモデルを適用すると、品質の不足を予測できることが多い。 微調整や教師なし、ソースフリーなドメイン適応など、モデル性能を維持するためのいくつかの戦略が提案されている。 これらの戦略は、データ可用性の制限的な要件を設定している。 本研究では,ドメインの一般化とテスト時間適応を併用して,未確認対象領域における事前学習モデルの再利用に極めて効果的なアプローチを提案する。 ソースデータに対するドメイン一般化事前トレーニングは、ターゲット領域で最高の初期性能を得るために使用される。 我々は、画像登録タスクで以前使用されていたMIND記述子について、既存の手法と比較して、小型データセットの一般化と優れた性能を実現するためのさらなる手法として紹介する。 テスト時には、画像の増大に応じてモデルの重み付けを最適化することで、1回のスキャン毎に高品質なセグメンテーションが保証される。 このようにして、本手法はソースデータとターゲットデータの分離利用を可能にし、現在のデータ可用性障壁を除去する。 さらに、提案手法は、特定のモデルアーキテクチャや関連するドメインやラベルの事前知識を必要としないため、高度にモジュール化されている。 我々は、現在医療画像セグメンテーションの最もポピュラーで正確なフレームワークであるnnUNetに統合することでこれを実証する。 本研究では,腹部,心臓,腰椎を対象とする複数のデータセットを用い,いくつかの領域外シナリオを構築した。 本手法は, 事前訓練した全身CTモデルと組み合わせることで, 上記すべてのシナリオにおいて, MR画像を高い精度で効果的に分割できることを実証する。 https://github.com/multimodallearning/DG-TTA

Applying pre-trained medical segmentation models on out-of-domain images often yields predictions of insufficient quality. Several strategies have been proposed to maintain model performance, such as finetuning or unsupervised- and source-free domain adaptation. These strategies set restrictive requirements for data availability. In this study, we propose to combine domain generalization and test-time adaptation to create a highly effective approach for reusing pre-trained models in unseen target domains. Domain-generalized pre-training on source data is used to obtain the best initial performance in the target domain. We introduce the MIND descriptor previously used in image registration tasks as a further technique to achieve generalization and present superior performance for small-scale datasets compared to existing approaches. At test-time, high-quality segmentation for every single unseen scan is ensured by optimizing the model weights for consistency given different image augmentations. That way, our method enables separate use of source and target data and thus removes current data availability barriers. Moreover, the presented method is highly modular as it does not require specific model architectures or prior knowledge of involved domains and labels. We demonstrate this by integrating it into the nnUNet, which is currently the most popular and accurate framework for medical image segmentation. We employ multiple datasets covering abdominal, cardiac, and lumbar spine scans and compose several out-of-domain scenarios in this study. We demonstrate that our method, combined with pre-trained whole-body CT models, can effectively segment MR images with high accuracy in all of the aforementioned scenarios. Open-source code can be found here: https://github.com/multimodallearning/DG-TTA
翻訳日:2024-04-11 19:06:08 公開日:2024-04-10
# BOTH2Hands: テキストプロンプトとボディダイナミクスの両方から3Dハンドを推測する

BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics ( http://arxiv.org/abs/2312.07937v5 )

ライセンス: Link先を確認
Wenqian Zhang, Molin Huang, Yuxuan Zhou, Juze Zhang, Jingyi Yu, Jingya Wang, Lan Xu, (参考訳) 最近登場したテキスト・トゥ・モーションの進歩は、便利で対話的な人間のモーション生成に多くの試みを巻き起こした。 しかし、既存の方法は、リッチな両手の動きを考慮せずに身体の動きを生成できるだけに限られている。 データボトルネックを解消するために,両手動生成のための新しいマルチモーダルデータセットBOTH57Mを提案する。 我々のデータセットには、人体と手の動きの正確な追跡が含まれており、一対の指レベルのアノテーションと身体の記述を提供する。 さらに、暗黙の身体力学と明示的なテキストプロンプトから鮮明な両手の動きを生成する、新しいタスクのための強力なベースライン手法BOTH2Handsを提供する。 まず、2つのパラレルボディ・ツー・ハンド拡散モデルとテキスト・ツー・ハンド拡散モデルをウォームアップし、その後、モーション・ブレンディングにクロスアテンション・トランスフォーマーを利用する。 広汎な実験とクロスバリデーションにより,本手法の有効性が実証された。 私たちのデータセットとコードは、将来の研究のためにコミュニティに配布されます。

The recently emerging text-to-motion advances have spired numerous attempts for convenient and interactive human motion generation. Yet, existing methods are largely limited to generating body motions only without considering the rich two-hand motions, let alone handling various conditions like body dynamics or texts. To break the data bottleneck, we propose BOTH57M, a novel multi-modal dataset for two-hand motion generation. Our dataset includes accurate motion tracking for the human body and hands and provides pair-wised finger-level hand annotations and body descriptions. We further provide a strong baseline method, BOTH2Hands, for the novel task: generating vivid two-hand motions from both implicit body dynamics and explicit text prompts. We first warm up two parallel body-to-hand and text-to-hand diffusion models and then utilize the cross-attention transformer for motion blending. Extensive experiments and cross-validations demonstrate the effectiveness of our approach and dataset for generating convincing two-hand motions from the hybrid body-and-textual conditions. Our dataset and code will be disseminated to the community for future research.
翻訳日:2024-04-11 19:06:08 公開日:2024-04-10
# シナリオ最適化と等角予測によるニューラルネットワーク到達管の検証

Verification of Neural Reachable Tubes via Scenario Optimization and Conformal Prediction ( http://arxiv.org/abs/2312.08604v2 )

ライセンス: Link先を確認
Albert Lin, Somil Bansal, (参考訳) 安全クリティカルシステムを制御するための学習ベースのアプローチは急速に普及しており、その性能と安全性を保証することが重要である。 ハミルトン・ヤコビ・リーチビリティ解析(HJ)は、一般的な非線形系力学、有界対向系障害、状態および入力制約を扱えることから、そのような保証を提供するための一般的な形式的検証ツールである。 しかし、その計算とメモリの複雑さは状態次元と指数関数的にスケールし、大規模システムでは難解である。 この課題を克服するために、DeepReachのようなニューラルアプローチは、到達可能なチューブと高次元システムの安全コントローラを合成するために使われてきた。 しかし、これらの神経到達管の検証は依然として困難である。 本研究では,頑健なシナリオ最適化と共形予測に基づく2つの検証手法を提案し,ニューラルリーチブルチューブの確率論的安全性を保証する。 本手法は,学習に基づくアプローチでは避けられないニューラルチューブの誤差を解消するためのレジリエンスと,確率論的安全性の強さとの直接的なトレードオフを可能にする。 さらに,不確実性定量化のための機械学習コミュニティで広く用いられている手法であるスプリットコンフォメーション予測は,シナリオベースアプローチに還元され,ニューラルリーチブルチューブの検証だけでなく,より一般的には2つの手法が等価であることを示す。 我々の知る限り、我々の証明は、共形予測とシナリオ最適化の強い関係を示す最初の文献である。 最後に, ニューラルリーチブルチューブの誤差分布を用いて, より安全なボリュームを復元する, 外部調整型検証手法を提案する。 本研究では,複数車両衝突回避と無着陸ロケット着陸の高次元問題に対する提案手法の有効性を実証する。

Learning-based approaches for controlling safety-critical systems are rapidly growing in popularity; thus, it is important to assure their performance and safety. Hamilton-Jacobi (HJ) reachability analysis is a popular formal verification tool for providing such guarantees, since it can handle general nonlinear system dynamics, bounded adversarial system disturbances, and state and input constraints. However, its computational and memory complexity scales exponentially with the state dimension, making it intractable for large-scale systems. To overcome this challenge, neural approaches, such as DeepReach, have been used to synthesize reachable tubes and safety controllers for high-dimensional systems. However, verifying these neural reachable tubes remains challenging. In this work, we propose two verification methods, based on robust scenario optimization and conformal prediction, to provide probabilistic safety guarantees for neural reachable tubes. Our methods allow a direct trade-off between resilience to outlier errors in the neural tube, which are inevitable in a learning-based approach, and the strength of the probabilistic safety guarantee. Furthermore, we show that split conformal prediction, a widely used method in the machine learning community for uncertainty quantification, reduces to a scenario-based approach, making the two methods equivalent not only for verification of neural reachable tubes but also more generally. To our knowledge, our proof is the first in the literature to show a strong relationship between conformal prediction and scenario optimization. Finally, we propose an outlier-adjusted verification approach that uses the error distribution in neural reachable tubes to recover greater safe volumes. We demonstrate the efficacy of the proposed approaches for the high-dimensional problems of multi-vehicle collision avoidance and rocket landing with no-go zones.
翻訳日:2024-04-11 19:06:08 公開日:2024-04-10
# 単一GPUにおけるデータ効率の良いマルチモーダル融合

Data-Efficient Multimodal Fusion on a Single GPU ( http://arxiv.org/abs/2312.10144v4 )

ライセンス: Link先を確認
Noël Vouitsis, Zhaoyan Liu, Satya Krishna Gorti, Valentin Villecroze, Jesse C. Cresswell, Guangwei Yu, Gabriel Loaiza-Ganem, Maksims Volkovs, (参考訳) マルチモーダルアライメントの目標は、マルチモーダル入力間で共有される単一の潜在空間を学習することである。 この分野でもっとも強力なモデルは、ペア化された入力と大規模な計算資源の膨大なデータセットを使用して訓練されており、多くの実践的なシナリオでトレーニングするのは非常に高価である。 我々は、大量のユニモーダルデータで事前訓練された既存のユニモーダルエンコーダが、より低コストでインモーダルエンコーダからマルチモーダルモデルを作成するための効果的なブートストラップを提供するだろうと推測する。 そこで,本稿では,任意の事前学習されたユニモーダルエンコーダの潜在空間で動作するマルチモーダル拡張スキームであるFuseMixを提案する。 マルチモーダルアライメントにFuseMixを使用することで、画像テキストとオーディオテキストの検索において、競合するパフォーマンス -- と、場合によっては最先端のメソッド -- を、桁違いに少ない計算とデータで上回ります。 600\times$GPUの日数を減らし、$\sim \! 80\times$少ない画像テキストペア。 さらに,本手法を用いて,事前学習したテキストから画像への生成モデルを音声から画像へ変換する方法について述べる。 コードは、https://github.com/layer6ai-labs/fusemix.comで入手できる。

The goal of multimodal alignment is to learn a single latent space that is shared between multimodal inputs. The most powerful models in this space have been trained using massive datasets of paired inputs and large-scale computational resources, making them prohibitively expensive to train in many practical scenarios. We surmise that existing unimodal encoders pre-trained on large amounts of unimodal data should provide an effective bootstrap to create multimodal models from unimodal ones at much lower costs. We therefore propose FuseMix, a multimodal augmentation scheme that operates on the latent spaces of arbitrary pre-trained unimodal encoders. Using FuseMix for multimodal alignment, we achieve competitive performance -- and in certain cases outperform state-of-the art methods -- in both image-text and audio-text retrieval, with orders of magnitude less compute and data: for example, we outperform CLIP on the Flickr30K text-to-image retrieval task with $\sim \! 600\times$ fewer GPU days and $\sim \! 80\times$ fewer image-text pairs. Additionally, we show how our method can be applied to convert pre-trained text-to-image generative models into audio-to-image ones. Code is available at: https://github.com/layer6ai-labs/fusemix.
翻訳日:2024-04-11 19:06:08 公開日:2024-04-10
# CLOVA: ツール使用とアップデートを備えたクローズドループビジュアルアシスタント

CLOVA: A Closed-Loop Visual Assistant with Tool Usage and Update ( http://arxiv.org/abs/2312.10908v3 )

ライセンス: Link先を確認
Zhi Gao, Yuntao Du, Xintong Zhang, Xiaojian Ma, Wenjuan Han, Song-Chun Zhu, Qing Li, (参考訳) 大型言語モデル(LLM)を用いて、市販のビジュアルツールを構成することは、多様なビジュアルタスクに対処できる堅牢なビジュアルアシスタントを開発するための、有望な研究の道のりである。 しかし、これらの手法は、典型的には使用済みツールを凍結することで、継続的な学習の可能性を見落とし、新しい知識を必要とする環境への適応を制限する。 この課題に対処するため、我々は、推論、リフレクション、学習フェーズを含むフレームワーク内で機能するクローズドループビジュアルアシスタントであるCLOVAを提案する。 推論フェーズの間、LLMはプログラムを生成し、割り当てられたタスクを完了させるために対応するツールを実行する。 リフレクションフェーズでは、マルチモーダルなグローバルローカルリフレクションスキームが人間のフィードバックを分析し、更新が必要なツールを決定する。 最後に、学習フェーズでは、トレーニングデータを自動的に収集する3つの柔軟なアプローチを採用し、ツールを更新するための新しいプロンプトチューニングスキームを導入し、CLOVAがより効率的に新しい知識を取得できるようにする。 実験結果から,CLOVAは既存のツール利用手法を5%,知識タグ付けでは10%,画像編集では20%,視覚的質問応答や複数画像推論では5%に上回っていることがわかった。 これらの結果は、一般的な視覚アシスタントにおける連続学習能力の重要性を浮き彫りにしている。

Utilizing large language models (LLMs) to compose off-the-shelf visual tools represents a promising avenue of research for developing robust visual assistants capable of addressing diverse visual tasks. However, these methods often overlook the potential for continual learning, typically by freezing the utilized tools, thus limiting their adaptation to environments requiring new knowledge. To tackle this challenge, we propose CLOVA, a Closed-Loop Visual Assistant, which operates within a framework encompassing inference, reflection, and learning phases. During the inference phase, LLMs generate programs and execute corresponding tools to complete assigned tasks. In the reflection phase, a multimodal global-local reflection scheme analyzes human feedback to determine which tools require updating. Lastly, the learning phase employs three flexible approaches to automatically gather training data and introduces a novel prompt tuning scheme to update the tools, allowing CLOVA to efficiently acquire new knowledge. Experimental findings demonstrate that CLOVA surpasses existing tool-usage methods by 5% in visual question answering and multiple-image reasoning, by 10% in knowledge tagging, and by 20% in image editing. These results underscore the significance of the continual learning capability in general visual assistants.
翻訳日:2024-04-11 19:06:08 公開日:2024-04-10
# 定量的MRIにおけるパラメータ推定のためのバイアス生成ニューラルネットワーク

Bias-Reduced Neural Networks for Parameter Estimation in Quantitative MRI ( http://arxiv.org/abs/2312.11468v3 )

ライセンス: Link先を確認
Andrew Mao, Sebastian Flassbeck, Jakob Assländer, (参考訳) 目的: ニューラルネットワーク(NN)に基づく定量的MRIパラメータ推定器を開発する。 理論と方法: NNの推定値のバイアスと分散を制御するために平均2乗誤差損失を一般化する。 得られたNNのバイアスと分散特性を2つのニューロイメージング応用のために研究した。 結果: シミュレーションにおいて,提案手法はパラメータ空間全体の推定バイアスを低減し,Cram\'er-Rao境界に近い分散を実現する。 In vivoでは,提案したNNから推定したパラメータマップと,非線形最小二乗フィッティングなどの従来の推定値との一致が良好であるのに対し,最先端のNNは偏差が大きい。 結論: 提案したNNは平均二乗誤差を用いて訓練されたものに比べてバイアスを著しく低減し, 従来の推定値と同等あるいはより良い精度で計算効率を大幅に改善した。

Purpose: To develop neural network (NN)-based quantitative MRI parameter estimators with minimal bias and a variance close to the Cram\'er-Rao bound. Theory and Methods: We generalize the mean squared error loss to control the bias and variance of the NN's estimates, which involves averaging over multiple noise realizations of the same measurements during training. Bias and variance properties of the resulting NNs are studied for two neuroimaging applications. Results: In simulations, the proposed strategy reduces the estimates' bias throughout parameter space and achieves a variance close to the Cram\'er-Rao bound. In vivo, we observe good concordance between parameter maps estimated with the proposed NNs and traditional estimators, such as non-linear least-squares fitting, while state-of-the-art NNs show larger deviations. Conclusion: The proposed NNs have greatly reduced bias compared to those trained using the mean squared error and offer significantly improved computational efficiency over traditional estimators with comparable or better accuracy.
翻訳日:2024-04-11 18:56:10 公開日:2024-04-10
# 開発者フォーラムポストの意図による特徴付けと分類

Characterizing and Classifying Developer Forum Posts with their Intentions ( http://arxiv.org/abs/2312.14279v2 )

ライセンス: Link先を確認
Xingfang Wu, Eric Laufer, Heng Li, Foutse Khomh, Santhosh Srinivasan, Jayden Luo, (参考訳) 開発者コミュニティの急速な成長に伴い、オンライン技術フォーラムの投稿数は急速に増加しており、ユーザーが有用な投稿をフィルタリングして重要な情報を見つけるのが困難になっている。 タグはユーザーが興味のある投稿を見つけるための簡潔な機能ディメンションを提供し、検索エンジンはクエリに応じて最も関連性の高い投稿をインデックスする。 しかし、ほとんどのタグは技術的な観点(例えば、プログラム言語、プラットフォーム、ツール)にのみ焦点を当てています。 多くの場合、オンライン開発者コミュニティのフォーラム投稿は、問題の解決やアドバイス、情報共有といった著者の意図を明らかにしている。 ポストの意図をモデル化することは、現在のタグ分類に余分な次元を与えることができる。 従来の研究と産業的観点からの学習を参考に、技術フォーラムの投稿の意図を反映した洗練された分類学を創出する。 オンラインフォーラムから抽出したサンプルポストデータセットのラベリングと分析により,ポストの構成(コード,エラーメッセージ)とそれらの意図との関係を解明する。 さらに,手動による研究に触発されて,姿勢を自動的に予測する事前学習型トランスフォーマーモデルの設計を行った。 マイクロF1スコア0.589、トップ1-3精度62.6%から87.8%、平均AUC0.787は最先端のベースラインアプローチより優れている。 目的に関するフォーラム投稿のキャラクタリゼーションと自動分類は、フォーラムメンテナーやサードパーティのツール開発者が技術フォーラムにおける投稿の組織化と検索を改善するのに役立つかもしれない。 補足資料パッケージに注釈付きデータセットとコードをリリースしました。

With the rapid growth of the developer community, the amount of posts on online technical forums has been growing rapidly, which poses difficulties for users to filter useful posts and find important information. Tags provide a concise feature dimension for users to locate their interested posts and for search engines to index the most relevant posts according to the queries. However, most tags are only focused on the technical perspective (e.g., program language, platform, tool). In most cases, forum posts in online developer communities reveal the author's intentions to solve a problem, ask for advice, share information, etc. The modeling of the intentions of posts can provide an extra dimension to the current tag taxonomy. By referencing previous studies and learning from industrial perspectives, we create a refined taxonomy for the intentions of technical forum posts. Through manual labeling and analysis on a sampled post dataset extracted from online forums, we understand the relevance between the constitution of posts (code, error messages) and their intentions. Furthermore, inspired by our manual study, we design a pre-trained transformer-based model to automatically predict post intentions. The best variant of our intention prediction framework, which achieves a Micro F1-score of 0.589, Top 1-3 accuracy of 62.6% to 87.8%, and an average AUC of 0.787, outperforms the state-of-the-art baseline approach. Our characterization and automated classification of forum posts regarding their intentions may help forum maintainers or third-party tool developers improve the organization and retrieval of posts on technical forums. We have released our annotated dataset and codes in our supplementary material package.
翻訳日:2024-04-11 18:56:10 公開日:2024-04-10
# 国家専用デモから学んだスムースガイダンスによる政策最適化

Policy Optimization with Smooth Guidance Learned from State-Only Demonstrations ( http://arxiv.org/abs/2401.00162v2 )

ライセンス: Link先を確認
Guojian Wang, Faguo Wu, Xiao Zhang, Tianyuan Chen, Zhiming Zheng, (参考訳) 報酬フィードバックの幅は、オンライン深層強化学習(DRL)において依然として難しい問題である。 従来のアプローチでは、オフラインのデモを使用して、複数のハードタスクで印象的な結果を実現しています。 しかしながら、これらのアプローチは、デモ品質に高い要求を課し、専門家のような行動を取得することは、しばしばコストがかかり非現実的である。 これらの問題に対処するために,我々は,国家のみのデモ(デモに状態情報のみが含まれている)の小さなセットを活用して,間接的に近似的かつ実現可能な長期クレジットの割り当てを行い,探索を容易にする,簡易かつ効率的な手法であるPOSG(Policy Optimization with Smooth Guidance)を提案する。 具体的には、まず、実演に対する現在の軌道の質を決定するために、軌道重要度評価機構を設計する。 そして,各状態-作用対の影響を測定するために,軌道重要度に基づくガイダンス報酬計算技術を導入する。 我々は,スムーズな指導報酬による性能改善を理論的に分析し,性能改善に新たな最悪な下限を導出する。 その結果、グリッドワールド迷路、Hopper-v4、HalfCheetah-v4、Ant迷路を含む4つの疎逆環境におけるPOSGの制御性能と収束速度に大きな利点が示された。 特に、POSGの優位性を示すために、特定の測定値と定量化結果について検討した。

The sparsity of reward feedback remains a challenging problem in online deep reinforcement learning (DRL). Previous approaches have utilized offline demonstrations to achieve impressive results in multiple hard tasks. However, these approaches place high demands on demonstration quality, and obtaining expert-like actions is often costly and unrealistic. To tackle these problems, we propose a simple and efficient algorithm called Policy Optimization with Smooth Guidance (POSG), which leverages a small set of state-only demonstrations (where only state information is included in demonstrations) to indirectly make approximate and feasible long-term credit assignments and facilitate exploration. Specifically, we first design a trajectory-importance evaluation mechanism to determine the quality of the current trajectory against demonstrations. Then, we introduce a guidance reward computation technology based on trajectory importance to measure the impact of each state-action pair. We theoretically analyze the performance improvement caused by smooth guidance rewards and derive a new worst-case lower bound on the performance improvement. Extensive results demonstrate POSG's significant advantages in control performance and convergence speed in four sparse-reward environments, including the grid-world maze, Hopper-v4, HalfCheetah-v4, and Ant maze. Notably, the specific metrics and quantifiable results are investigated to demonstrate the superiority of POSG.
翻訳日:2024-04-11 18:56:10 公開日:2024-04-10
# 自動メートル法における機械翻訳基準の品質と量

Quality and Quantity of Machine Translation References for Automatic Metrics ( http://arxiv.org/abs/2401.01283v5 )

ライセンス: Link先を確認
Vilém Zouhar, Ondřej Bojar, (参考訳) 自動機械翻訳メトリクスは通常、システム翻訳の品質を決定するために人間の翻訳に依存する。 この分野の一般的な知恵は、人間の参照は非常に高品質であるべきだと規定している。 しかし,機械翻訳評価の参考資料収集を計画する実践者の指導には,費用対効果分析は使用できない。 より高品質な参照は、セグメントレベルでの人間とのメトリクス相関をより良くすることがわかった。 セグメントごとに7つの参照を持ち、その平均値(または最大値)を取ることは、すべてのメトリクスに役立つ。 興味深いことに、異なる品質のベンダーからの参照を混ぜ合わせることで、メートル法の成功を改善することができる。 しかし、高品質な参照は作成により多くのコストがかかり、これを最適化の問題とみなす:特定の予算が与えられたら、メートル法の成功を最大化するためにどの参照を収集すべきか。 これらの発見は、特定の予算の下で参照を作成する必要がある場合、共有タスクの評価者によって利用することができる。

Automatic machine translation metrics typically rely on human translations to determine the quality of system translations. Common wisdom in the field dictates that the human references should be of very high quality. However, there are no cost-benefit analyses that could be used to guide practitioners who plan to collect references for machine translation evaluation. We find that higher-quality references lead to better metric correlations with humans at the segment-level. Having up to 7 references per segment and taking their average (or maximum) helps all metrics. Interestingly, the references from vendors of different qualities can be mixed together and improve metric success. Higher quality references, however, cost more to create and we frame this as an optimization problem: given a specific budget, what references should be collected to maximize metric success. These findings can be used by evaluators of shared tasks when references need to be created under a certain budget.
翻訳日:2024-04-11 18:56:10 公開日:2024-04-10
# スパースリワードを用いた軌道指向政策最適化

Trajectory-Oriented Policy Optimization with Sparse Rewards ( http://arxiv.org/abs/2401.02225v3 )

ライセンス: Link先を確認
Guojian Wang, Faguo Wu, Xiao Zhang, (参考訳) 深層強化学習(DRL)を習得することは、難解な報酬を含むタスクにおいて困難である。 これらの制限された報酬は、エージェントが有意義なフィードバックを得る前に、そのタスクが部分的に、または完全に完了しているかどうかを示すだけである。 その結果、既存のDRL探索アルゴリズムの大部分は、合理的な時間枠内で実践的なポリシーを取得するのに苦労している。 この課題に対処するために、スパース報酬のある環境において、オフラインのデモトラジェクトリを活用して、より迅速で効率的なオンラインRLを実現するアプローチを提案する。 我々の重要な洞察は、単なる模倣ではなく、オフラインの実証軌道をガイダンスとして扱うことである。 具体的には、距離制約付き最適化問題として、最大平均誤差(MMD)とキャストポリシー最適化に依存する新しい軌道距離を導入する。 次に、この最適化問題は、オフラインのデモンストレーションから得られる洞察によって形作られた報酬を統合することで、ポリシー段階のアルゴリズムに合理化できることを示す。 提案アルゴリズムは、離散的かつ連続的なタスクに対して、スパースとミスリードの報酬を伴う評価を行う。 実験により, 多様な探索法と最適政策の獲得に関して, 提案アルゴリズムの基準法よりも有意な優位性を示した。

Mastering deep reinforcement learning (DRL) proves challenging in tasks featuring scant rewards. These limited rewards merely signify whether the task is partially or entirely accomplished, necessitating various exploration actions before the agent garners meaningful feedback. Consequently, the majority of existing DRL exploration algorithms struggle to acquire practical policies within a reasonable timeframe. To address this challenge, we introduce an approach leveraging offline demonstration trajectories for swifter and more efficient online RL in environments with sparse rewards. Our pivotal insight involves treating offline demonstration trajectories as guidance, rather than mere imitation, allowing our method to learn a policy whose distribution of state-action visitation marginally matches that of offline demonstrations. We specifically introduce a novel trajectory distance relying on maximum mean discrepancy (MMD) and cast policy optimization as a distance-constrained optimization problem. We then illustrate that this optimization problem can be streamlined into a policy-gradient algorithm, integrating rewards shaped by insights from offline demonstrations. The proposed algorithm undergoes evaluation across extensive discrete and continuous control tasks with sparse and misleading rewards. The experimental findings demonstrate the significant superiority of our proposed algorithm over baseline methods concerning diverse exploration and the acquisition of an optimal policy.
翻訳日:2024-04-11 18:56:10 公開日:2024-04-10
# ゼロショット対向ロバストネスのための事前学習モデルによるファインチューニング

Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness ( http://arxiv.org/abs/2401.04350v3 )

ライセンス: Link先を確認
Sibo Wang, Jie Zhang, Zheng Yuan, Shiguang Shan, (参考訳) CLIPのような大規模事前学習型視覚言語モデルは、様々なタスクにまたがって印象的なパフォーマンスを示し、目立ったゼロショットの一般化能力を示している。 既存の作品では、敵の例に対する防御方法として敵の訓練(微調整)が用いられるのが一般的である。 しかし、CLIPモデルへの直接適用は過度に適合し、一般化のためのモデルの能力が損なわれる可能性がある。 本稿では,従来の事前学習モデルからの監督を補助ブランチを慎重に設計することで活用し,ゼロショット対向ロバスト性を向上するPMG-AFT法を提案する。 具体的には, PMG-AFT は, 対象モデルの特徴と事前学習モデルの特徴との間の距離を最小化し, 事前学習モデルが既に取得した一般化特徴の保存を目的としている。 15のゼロショットデータセットに対する大規模な実験により、PMG-AFTは最先端の手法よりも大幅に優れ、平均4.99%の精度でトップ1の堅牢さが向上した。 さらに, 本手法では, 洗浄精度を平均8.72%向上させる。 私たちのコードはhttps://github.com/serendipity1122/Pre-trained-Model-Guided-Fine-Tuning-for-Zero-Shot-Adversarial-Ro bustnessで利用可能です。

Large-scale pre-trained vision-language models like CLIP have demonstrated impressive performance across various tasks, and exhibit remarkable zero-shot generalization capability, while they are also vulnerable to imperceptible adversarial examples. Existing works typically employ adversarial training (fine-tuning) as a defense method against adversarial examples. However, direct application to the CLIP model may result in overfitting, compromising the model's capacity for generalization. In this paper, we propose Pre-trained Model Guided Adversarial Fine-Tuning (PMG-AFT) method, which leverages supervision from the original pre-trained model by carefully designing an auxiliary branch, to enhance the model's zero-shot adversarial robustness. Specifically, PMG-AFT minimizes the distance between the features of adversarial examples in the target model and those in the pre-trained model, aiming to preserve the generalization features already captured by the pre-trained model. Extensive Experiments on 15 zero-shot datasets demonstrate that PMG-AFT significantly outperforms the state-of-the-art method, improving the top-1 robust accuracy by an average of 4.99%. Furthermore, our approach consistently improves clean accuracy by an average of 8.72%. Our code is available at https://github.com/serendipity1122/Pre-trained-Model-Guided-Fine-Tuning-for-Zero-Shot-Adversarial-Ro bustness.
翻訳日:2024-04-11 18:56:10 公開日:2024-04-10
# HVAC制御のための深部強化学習アルゴリズムの実験的検討

An experimental evaluation of Deep Reinforcement Learning algorithms for HVAC control ( http://arxiv.org/abs/2401.05737v2 )

ライセンス: Link先を確認
Antonio Manjavacas, Alejandro Campoy-Nieves, Javier Jiménez-Raboso, Miguel Molina-Solana, Juan Gómez-Romero, (参考訳) 暖房、換気、空調システム(HVAC)は、商業用および住宅用建物におけるエネルギー消費の主要な要因である。 近年の研究では、Deep Reinforcement Learning (DRL)アルゴリズムが従来のリアクティブコントローラより優れていることが示されている。 しかし、DRLベースのソリューションは一般にアドホックなセットアップのために設計されており、比較のための標準化が欠如している。 このギャップを埋めるために,本稿では,HVAC制御のためのいくつかの最先端DRLアルゴリズムの快適性とエネルギー消費の観点から,重要かつ再現可能な評価を行う。 本研究は、シネルギムフレームワークを用いて、最適化目標間のコントローラーの堅牢性、適応性、トレードオフについて検討する。 その結果、複雑なシナリオにおいて、SACやTD3といったDRLアルゴリズムの可能性を確認し、一般化や漸進学習に関連するいくつかの課題を明らかにした。

Heating, Ventilation, and Air Conditioning (HVAC) systems are a major driver of energy consumption in commercial and residential buildings. Recent studies have shown that Deep Reinforcement Learning (DRL) algorithms can outperform traditional reactive controllers. However, DRL-based solutions are generally designed for ad hoc setups and lack standardization for comparison. To fill this gap, this paper provides a critical and reproducible evaluation, in terms of comfort and energy consumption, of several state-of-the-art DRL algorithms for HVAC control. The study examines the controllers' robustness, adaptability, and trade-off between optimization goals by using the Sinergym framework. The results obtained confirm the potential of DRL algorithms, such as SAC and TD3, in complex scenarios and reveal several challenges related to generalization and incremental learning.
翻訳日:2024-04-11 18:56:10 公開日:2024-04-10
# MaskClustering: オープン語彙3Dインスタンスセグメンテーションのためのビューコンセンサスベースのマスクグラフクラスタリング

MaskClustering: View Consensus based Mask Graph Clustering for Open-Vocabulary 3D Instance Segmentation ( http://arxiv.org/abs/2401.07745v2 )

ライセンス: Link先を確認
Mi Yan, Jiazhao Zhang, Yan Zhu, He Wang, (参考訳) オープン語彙の3Dインスタンスセグメンテーションは、事前に定義されたカテゴリなしで3Dインスタンスをセグメンテーションできる能力のために最先端である。 しかし、注釈付き3Dデータに制限があるため、2Dに先立って3Dラグが進行している。 これを解決するために、最近の研究はまず2Dモデルを通して2Dオープン語彙マスクを生成し、次に隣り合う2つのフレーム間で計算されたメトリクスに基づいてそれらを3Dインスタンスにマージする。 これらの局所的な指標とは対照的に,多視点観測の利用率を高めるために,新しい基準であるビューコンセンサスレートを提案する。 重要な洞察は、2つの2Dマスクが2つのマスクを含む他の多くの2Dマスクが2つのマスクを含む場合、同じ3Dマスクの一部と見なされるべきであるということである。 この計量をエッジウェイトとして、各マスクがノードとなるグローバルマスクグラフを構築する。 高視野のコンセンサスを示すマスクの反復的なクラスタリングを通じて、それぞれが異なる3Dインスタンスを表す一連のクラスタを生成します。 特に、私たちのモデルはトレーニングなしです。 ScanNet++、ScanNet200、MatterPort3Dなどの公開データセットに関する広範な実験を通じて、オープンな3Dインスタンスセグメンテーションにおいて、我々の手法が最先端のパフォーマンスを達成することを実証した。 私たちのプロジェクトページはhttps://pku-epic.github.io/MaskClustering.comです。

Open-vocabulary 3D instance segmentation is cutting-edge for its ability to segment 3D instances without predefined categories. However, progress in 3D lags behind its 2D counterpart due to limited annotated 3D data. To address this, recent works first generate 2D open-vocabulary masks through 2D models and then merge them into 3D instances based on metrics calculated between two neighboring frames. In contrast to these local metrics, we propose a novel metric, view consensus rate, to enhance the utilization of multi-view observations. The key insight is that two 2D masks should be deemed part of the same 3D instance if a significant number of other 2D masks from different views contain both these two masks. Using this metric as edge weight, we construct a global mask graph where each mask is a node. Through iterative clustering of masks showing high view consensus, we generate a series of clusters, each representing a distinct 3D instance. Notably, our model is training-free. Through extensive experiments on publicly available datasets, including ScanNet++, ScanNet200 and MatterPort3D, we demonstrate that our method achieves state-of-the-art performance in open-vocabulary 3D instance segmentation. Our project page is at https://pku-epic.github.io/MaskClustering.
翻訳日:2024-04-11 18:56:10 公開日:2024-04-10
# VMamba: Visual State Space Model

VMamba: Visual State Space Model ( http://arxiv.org/abs/2401.10166v2 )

ライセンス: Link先を確認
Yue Liu, Yunjie Tian, Yuzhong Zhao, Hongtian Yu, Lingxi Xie, Yaowei Wang, Qixiang Ye, Yunfan Liu, (参考訳) 畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、視覚表現学習のバックボーンネットワークとして長い間主流であった。 ViTは最近、CNNよりも優れた適合性のために人気を博しているが、そのスケーラビリティは注意計算の二次的な複雑さに大きく制約されている。 長いシーケンスを効率的にモデリングする上で,Mambaの能力に触発されて,ViTの有利な特徴を維持しつつ,計算複雑性を線形化することを目的とした汎用視覚バックボーンモデルVMambaを提案する。 視覚データ処理におけるVMambaの適応性を高めるために,グローバルな受容場を持つ2次元画像空間における1次元選択的走査を可能にするCSM(Cross-Scan Module)を導入する。 さらに,VMambaの性能を高め,推論速度を向上させるため,実装の詳細とアーキテクチャ設計をさらに改善する。 大規模な実験結果は、VMambaが様々な視覚的知覚タスクにまたがる有望なパフォーマンスを示し、既存のベンチマークモデルと比較して、入力スケーリング効率の顕著なアドバンテージを強調している。 ソースコードはhttps://github.com/MzeroMiko/VMamba.comで入手できる。

Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) have long been the predominant backbone networks for visual representation learning. While ViTs have recently gained prominence over CNNs due to their superior fitting capabilities, their scalability is largely constrained by the quadratic complexity of attention computation. Inspired by the capability of Mamba in efficiently modeling long sequences, we propose VMamba, a generic vision backbone model aiming to reduce the computational complexity to linear while retaining ViTs' advantageous features. To enhance VMamba's adaptability in processing vision data, we introduce the Cross-Scan Module (CSM) to enable 1D selective scanning in 2D image space with global receptive fields. Additionally, we make further improvements in implementation details and architectural designs to enhance VMamba's performance and boost its inference speed. Extensive experimental results demonstrate VMamba's promising performance across various visual perception tasks, highlighting its pronounced advantages in input scaling efficiency compared to existing benchmark models. Source code is available at https://github.com/MzeroMiko/VMamba.
翻訳日:2024-04-11 18:56:10 公開日:2024-04-10
# ユニバーサルコンセプトディスカバリによるビデオトランスフォーマーの理解

Understanding Video Transformers via Universal Concept Discovery ( http://arxiv.org/abs/2401.10831v3 )

ライセンス: Link先を確認
Matthew Kowal, Achal Dave, Rares Ambrus, Adrien Gaidon, Konstantinos G. Derpanis, Pavel Tokmakov, (参考訳) 本稿では,ビデオの変圧器表現における概念に基づく解釈可能性の問題について検討する。 具体的には、自動で検出される高レベルな時空間概念に基づいて、ビデオトランスフォーマーの意思決定過程を説明する。 概念に基づく解釈可能性に関する以前の研究は、イメージレベルのタスクにのみ集中してきた。 比較として、ビデオモデルは時間次元を追加し、複雑さを増し、時間とともに動的概念を識別する上での課題を提起する。 本稿では,ビデオトランスフォーマー概念発見(VTCD)アルゴリズムを導入することで,これらの課題に体系的に対処する。 そこで本研究では,ビデオトランスフォーマー表現の単位を教師なしで識別する手法を提案し,その重要性をモデルの出力にランク付けする。 結果として得られる概念は高度に解釈可能であり、非構造化ビデオモデルにおける時空間的推論機構とオブジェクト中心表現を明らかにする。 この分析を多種多様な教師付きおよび自己教師付き表現に対して共同で行うことにより、ビデオトランスにおいてこれらのメカニズムのいくつかが普遍的であることが分かる。 最後に,VTCDを微細な動作認識やビデオオブジェクトのセグメンテーションに利用できることを示す。

This paper studies the problem of concept-based interpretability of transformer representations for videos. Concretely, we seek to explain the decision-making process of video transformers based on high-level, spatiotemporal concepts that are automatically discovered. Prior research on concept-based interpretability has concentrated solely on image-level tasks. Comparatively, video models deal with the added temporal dimension, increasing complexity and posing challenges in identifying dynamic concepts over time. In this work, we systematically address these challenges by introducing the first Video Transformer Concept Discovery (VTCD) algorithm. To this end, we propose an efficient approach for unsupervised identification of units of video transformer representations - concepts, and ranking their importance to the output of a model. The resulting concepts are highly interpretable, revealing spatio-temporal reasoning mechanisms and object-centric representations in unstructured video models. Performing this analysis jointly over a diverse set of supervised and self-supervised representations, we discover that some of these mechanism are universal in video transformers. Finally, we show that VTCD can be used for fine-grained action recognition and video object segmentation.
翻訳日:2024-04-11 18:56:10 公開日:2024-04-10
# AIエージェントへの可視性

Visibility into AI Agents ( http://arxiv.org/abs/2401.13138v4 )

ライセンス: Link先を確認
Alan Chan, Carson Ezell, Max Kaufmann, Kevin Wei, Lewis Hammond, Herbie Bradley, Emma Bluemke, Nitarshan Rajkumar, David Krueger, Noam Kolt, Lennart Heim, Markus Anderljung, (参考訳) 商業的、科学的、政府的、個人的活動をAIエージェントに委任し、限られた監督下で複雑な目標を追求できるシステムに委任することで、既存の社会的リスクが悪化し、新たなリスクがもたらされる可能性がある。 これらのリスクを理解し緩和するには、既存のガバナンス構造を批判的に評価し、必要に応じてこれらの構造を修正し、適応し、主要なステークホルダーの責任を保証することが必要です。 特定のAIエージェントが使われている場所、理由、方法、そして誰が使用されるのかに関する情報は、これらの目的に不可欠である。 本稿では,エージェント識別子,リアルタイム監視,アクティビティログという,AIエージェントの視認性を高めるための3つの尺度を評価する。 それぞれ、侵入性と情報性に異なる潜在的な実装について概説する。 ハードウェアやソフトウェアサービスプロバイダを含むサプライチェーンのさまざまなアクターを考慮し、分散デプロイメントのコンテキストを通じて、この措置が中央集権的な範囲でどのように適用されるかを分析する。 最後に、プライバシと集中力に対する我々の対策がもたらす意味について論じる。 措置の理解と負の影響軽減に関するさらなる取り組みは、AIエージェントのガバナンスのための基盤を構築するのに役立つ。

Increased delegation of commercial, scientific, governmental, and personal activities to AI agents -- systems capable of pursuing complex goals with limited supervision -- may exacerbate existing societal risks and introduce new risks. Understanding and mitigating these risks involves critically evaluating existing governance structures, revising and adapting these structures where needed, and ensuring accountability of key stakeholders. Information about where, why, how, and by whom certain AI agents are used, which we refer to as visibility, is critical to these objectives. In this paper, we assess three categories of measures to increase visibility into AI agents: agent identifiers, real-time monitoring, and activity logging. For each, we outline potential implementations that vary in intrusiveness and informativeness. We analyze how the measures apply across a spectrum of centralized through decentralized deployment contexts, accounting for various actors in the supply chain including hardware and software service providers. Finally, we discuss the implications of our measures for privacy and concentration of power. Further work into understanding the measures and mitigating their negative impacts can help to build a foundation for the governance of AI agents.
翻訳日:2024-04-11 18:56:10 公開日:2024-04-10
# MixedNUTS:非線形混合分類器による学習不要の精度・ロバスト性バランス

MixedNUTS: Training-Free Accuracy-Robustness Balance via Nonlinearly Mixed Classifiers ( http://arxiv.org/abs/2402.02263v2 )

ライセンス: Link先を確認
Yatong Bai, Mo Zhou, Vishal M. Patel, Somayeh Sojoudi, (参考訳) 逆のロバスト性は、しばしば劣化した精度の犠牲を伴い、ロバスト分類モデルの現実の応用を妨げる。 より良いトレードオフのためのトレーニングベースのソリューションは、すでに訓練済みの高性能な大規模モデルとの非互換性によって制限されており、訓練不要のアンサンブルアプローチの探索が必要である。 頑健なモデルが、清潔で敵対的なデータ上の誤ったモデルよりも正確な予測に自信があることを観察し、この「良質な信頼性特性」を増幅することで、アンサンブル設定における精度と頑健さを再現できると推測する。 そこで本研究では,ロバスト分類器と標準非ロバスト分類器の出力ロジットを3つのパラメータのみを効率よく最適化した非線形変換で処理する「MixedNUTS」を提案する。 MixedNUTSは変換されたロジットを確率に変換し、それらを全体の出力として混合する。 CIFAR-10、CIFAR-100、ImageNetデータセットでは、MixedNUTSの大幅な精度向上とほぼSOTAロバスト性を示すカスタムの強力なアダプティブアタックによる実験結果が示されており、CIFAR-100のクリーン精度を7.86ポイント向上させ、ロバストな精度でわずか0.87ポイントを犠牲にしている。

Adversarial robustness often comes at the cost of degraded accuracy, impeding the real-life application of robust classification models. Training-based solutions for better trade-offs are limited by incompatibilities with already-trained high-performance large models, necessitating the exploration of training-free ensemble approaches. Observing that robust models are more confident in correct predictions than in incorrect ones on clean and adversarial data alike, we speculate amplifying this "benign confidence property" can reconcile accuracy and robustness in an ensemble setting. To achieve so, we propose "MixedNUTS", a training-free method where the output logits of a robust classifier and a standard non-robust classifier are processed by nonlinear transformations with only three parameters, which are optimized through an efficient algorithm. MixedNUTS then converts the transformed logits into probabilities and mixes them as the overall output. On CIFAR-10, CIFAR-100, and ImageNet datasets, experimental results with custom strong adaptive attacks demonstrate MixedNUTS's vastly improved accuracy and near-SOTA robustness -- it boosts CIFAR-100 clean accuracy by 7.86 points, sacrificing merely 0.87 points in robust accuracy.
翻訳日:2024-04-11 18:56:10 公開日:2024-04-10
# 自動運転のための予測水平条件:安全・快適・効率の最適化

Prediction Horizon Requirements for Automated Driving: Optimizing Safety, Comfort, and Efficiency ( http://arxiv.org/abs/2402.03893v2 )

ライセンス: Link先を確認
Manuel Muñoz Sánchez, Chris van der Ploeg, Robin Smit, Jos Elfring, Emilia Silvas, René van de Molengraft, (参考訳) 他の道路利用者の移動を予測することは、自動走行車(AV)の性能を改善する上で有益である。 しかし,これらの予測とAV性能との関係は明らかでない。 多くの軌道予測アルゴリズムが存在するにもかかわらず、様々な予測長がAV安全やその他の車両性能指標にどのように影響するかは研究されていない。 本研究は, 安全性, 快適性, 効率性に着目し, 異なる予測地平線がAV性能に及ぼす影響を検討することによって, このギャップに対処する。 最新のリスクベースの予測軌道プランナを用いて複数の実験を行い、最大20秒間予測をシミュレーションした。 シミュレーションに基づいて、特定のAV性能基準とアプリケーションニーズに基づいて、必要最小限かつ最適予測地平線を特定するためのフレームワークを提案する。 その結果,横断歩道との衝突を防ぐために1.6秒までの地平線が必要であり,最大7~8秒の地平線が最適効率を実現し,最大15秒までの地平線が乗客の快適性を向上させることが示唆された。 提案手法は,歩行者を横断するアプリケーションのための一般的なガイドラインとして,11.8秒の予測地平線を目標とすることを推奨する。

Predicting the movement of other road users is beneficial for improving automated vehicle (AV) performance. However, the relationship between the time horizon associated with these predictions and AV performance remains unclear. Despite the existence of numerous trajectory prediction algorithms, no studies have been conducted on how varying prediction lengths affect AV safety and other vehicle performance metrics, resulting in undefined horizon requirements for prediction methods. Our study addresses this gap by examining the effects of different prediction horizons on AV performance, focusing on safety, comfort, and efficiency. Through multiple experiments using a state-of-the-art, risk-based predictive trajectory planner, we simulated predictions with horizons up to 20 seconds. Based on our simulations, we propose a framework for specifying the minimum required and optimal prediction horizons based on specific AV performance criteria and application needs. Our results indicate that a horizon of 1.6 seconds is required to prevent collisions with crossing pedestrians, horizons of 7-8 seconds yield the best efficiency, and horizons up to 15 seconds improve passenger comfort. We conclude that prediction horizon requirements are application-dependent, and recommend aiming for a prediction horizon of 11.8 seconds as a general guideline for applications involving crossing pedestrians.
翻訳日:2024-04-11 18:56:10 公開日:2024-04-10
# カーネルパケットの一般理論:状態空間モデルからコンパクト支持基底へ

A General Theory for Kernel Packets: from state space model to compactly supported basis ( http://arxiv.org/abs/2402.04022v4 )

ライセンス: Link先を確認
Liang Ding, Rui Tuo, (参考訳) 状態空間 (SS) がガウス過程 (GP) の定式化によってトレーニング時間と予測時間をともに$\CalO(n)$ for $n$ データポイントに短縮できることはよく知られている。 GP の $m$-次元 SS モデルの定式化は、一般右の Kernel Packet (KP): $\sum_{i=0}^{m}a_iD_t^{(j)}K(t,t_i)=0$ が任意の $t \leq t_1$, 0$\leq j \leq m-1$, and $m+1$ 連続点 $t_i$ に対して持つような GP 共分散 $K$ の変換で、${D}_t^{(j)}f(t) は $t$ に作用する $j$-番目の微分を表す。 このアイデアを後方 SS モデルの定式化に拡張し、次の$m$連続点に対して左 KP を導いた: $\sum_{i=0}^{m}b_i{D}_t^{(j)}K(t,t_{m+i})=0$ for any $t\geq t_{2m}$。 左右のKPを組合せることで、これらの共分散関数の適当な線型結合が$(t_0,t_{2m})$でコンパクトに支持される$m$KP関数を得ることを示すことができる。 KP は GP 予測時間を $\mathcal{O}(\log n)$ または $\mathcal{O}(1)$ に改善し、GP の微分やカーネル乗算を含むより広範なアプリケーションを可能にし、分散データに対して多次元加法および製品カーネルに一般化することができる。

It is well known that the state space (SS) model formulation of a Gaussian process (GP) can lower its training and prediction time both to $\CalO(n)$ for $n$ data points. We prove that an $m$-dimensional SS model formulation of GP is equivalent to a concept we introduce as the general right Kernel Packet (KP): a transformation for the GP covariance $K$ such that $\sum_{i=0}^{m}a_iD_t^{(j)}K(t,t_i)=0$ holds for any $t \leq t_1$, 0 $\leq j \leq m-1$, and $m+1$ consecutive points $t_i$, where ${D}_t^{(j)}f(t) $ denotes $j$-th derivative acting on $t$. We extend this idea to the backward SS model formulation, leading to the left KP for next $m$ consecutive points: $\sum_{i=0}^{m}b_i{D}_t^{(j)}K(t,t_{m+i})=0$ for any $t\geq t_{2m}$. By combining both left and right KPs, we can prove that a suitable linear combination of these covariance functions yields $m$ KP functions compactly supported on $(t_0,t_{2m})$. KPs improve GP prediction time to $\mathcal{O}(\log n)$ or $\mathcal{O}(1)$, enable broader applications including GP's derivatives and kernel multiplications, and can be generalized to multi-dimensional additive and product kernels for scattered data.
翻訳日:2024-04-11 18:45:39 公開日:2024-04-10
# 複数分布からの因果表現学習:一般設定

Causal Representation Learning from Multiple Distributions: A General Setting ( http://arxiv.org/abs/2402.05052v2 )

ライセンス: Link先を確認
Kun Zhang, Shaoan Xie, Ignavier Ng, Yujia Zheng, (参考訳) 多くの問題において、測定された変数(例えば、画像画素)は、隠れた因果変数(例えば、基礎となる概念や対象)の数学的関数である。 環境の変化を予測したり、システムに適切な変更を加えるためには、隠れた因果変数$Z_i$とその因果関係をグラフ$\mathcal{G}_Z$で表すのに役立つ。 この問題は近年、因果表現学習として知られている。 本稿では,複数分布(異種データや非定常時系列など)からの因果表現学習の一般的な非パラメトリックな設定について,分布変化の背景にある困難な介入を仮定することなく検討する。 製品として、パラメトリック因果モデルやハード介入といった他の仮定によってもたらされる独特な利点を見出すのに役立ちます。 本稿では, 因果関係の因果関係について, 因果関係に適切な変化条件と, 因果関係の因果関係を考慮し, 因果関係の因果関係を考慮し, 因果関係と因果関係の因果関係が関係していることを示す。 場合によっては、各潜伏変数はコンポーネントワイド変換まで復元できる。 実験結果は我々の理論的主張を検証する。

In many problems, the measured variables (e.g., image pixels) are just mathematical functions of the hidden causal variables (e.g., the underlying concepts or objects). For the purpose of making predictions in changing environments or making proper changes to the system, it is helpful to recover the hidden causal variables $Z_i$ and their causal relations represented by graph $\mathcal{G}_Z$. This problem has recently been known as causal representation learning. This paper is concerned with a general, completely nonparametric setting of causal representation learning from multiple distributions (arising from heterogeneous data or nonstationary time series), without assuming hard interventions behind distribution changes. We aim to develop general solutions in this fundamental case; as a by product, this helps see the unique benefit offered by other assumptions such as parametric causal models or hard interventions. We show that under the sparsity constraint on the recovered graph over the latent variables and suitable sufficient change conditions on the causal influences, interestingly, one can recover the moralized graph of the underlying directed acyclic graph, and the recovered latent variables and their relations are related to the underlying causal model in a specific, nontrivial way. In some cases, each latent variable can even be recovered up to component-wise transformations. Experimental results verify our theoretical claims.
翻訳日:2024-04-11 18:45:39 公開日:2024-04-10
# Re-DiffiNet:拡散モデルを用いた腫瘍セグメンテーションにおける相違のモデル化

Re-DiffiNet: Modeling discrepancies in tumor segmentation using diffusion models ( http://arxiv.org/abs/2402.07354v4 )

ライセンス: Link先を確認
Tianyi Ren, Abhishek Sharma, Juampablo Heras Rivera, Harshitha Rebala, Ethan Honey, Agamdeep Chopra, Jacob Ruzevick, Mehmet Kurt, (参考訳) 腫瘍マージンの同定はグリオ芽腫の外科的決定に不可欠であり、神経外科医に信頼できる支援を提供する。 長年にわたって腫瘍セグメンテーションのためのディープラーニングアーキテクチャは改善されてきたが、臨床現場に適した完全自律システムの構築は、まだモデル予測が臨床応用に望まれる精度と一般化のレベルに達していないため、大きな課題である。 生成モデリング技術は近年、大幅に改善されている。 具体的には、GAN(Generative Adversarial Networks)とDDPM(Denoising-Diffusion-based Model)を使用して、より少ないアーティファクトとより微細な属性で高品質な画像を生成する。 本稿では, DDPMを用いて, U-Netのようなセグメンテーションモデルの出力と基底真実との相違をモデル化するRe-Diffinetというフレームワークを紹介する。 差分を明示的にモデル化することにより、最新のU-Netセグメンテーションモデルと比較して、Diceスコアの0.55\%、HD95の16.28\%が5倍以上のクロスバリデーションから平均的に改善されていることを示す。

Identification of tumor margins is essential for surgical decision-making for glioblastoma patients and provides reliable assistance for neurosurgeons. Despite improvements in deep learning architectures for tumor segmentation over the years, creating a fully autonomous system suitable for clinical floors remains a formidable challenge because the model predictions have not yet reached the desired level of accuracy and generalizability for clinical applications. Generative modeling techniques have seen significant improvements in recent times. Specifically, Generative Adversarial Networks (GANs) and Denoising-diffusion-based models (DDPMs) have been used to generate higher-quality images with fewer artifacts and finer attributes. In this work, we introduce a framework called Re-Diffinet for modeling the discrepancy between the outputs of a segmentation model like U-Net and the ground truth, using DDPMs. By explicitly modeling the discrepancy, the results show an average improvement of 0.55\% in the Dice score and 16.28\% in HD95 from cross-validation over 5-folds, compared to the state-of-the-art U-Net segmentation model.
翻訳日:2024-04-11 18:45:39 公開日:2024-04-10
# AI倫理労働における感情力、客観性、ジェンダー - 所在する苦情の合法化

Epistemic Power, Objectivity and Gender in AI Ethics Labor: Legitimizing Located Complaints ( http://arxiv.org/abs/2402.08171v2 )

ライセンス: Link先を確認
David Gray Widder, (参考訳) 正統なAI倫理労働とは何であり、その結果、AI倫理の主張が正当であるという認識論的な用語は何だろうか? 本稿では,研究者,開発者,オープンソースコントリビュータ,活動家など75人の技術者へのインタビューに基づいて,AI倫理について議論し,実践するさまざまな疫学基盤について検討する。 の障害として、AI倫理に対する外部からの攻撃という文脈では、AI倫理の実践が、自動化と定量化から権威に到達し、結果としてある程度の正当性を達成したかを示します。 本稿では,フェミニストの人類学・科学技術研究家Diana Forsythe と Lucy Suchman の業績と,ポストコロニアルフェミニストのSara Ahmed とブラックフェミニストのKristie Dotson の業績を組み合わせて,AI倫理の優越性について考察する。 定量化の疫学的な力、支配的なAI倫理の実践 -- モデルカードや同様の介入 -- を強固にすることで、AI倫理は、同じプロジェクトの正当な部分として、具現化され生きた経験を非合法化し、疎外化する、等しく反対の尺度でプロジェクトとして正当化されるリスクを負う。 これに対し、私は、認識力の階層をフラットにするために、その認識限界を明確にするために、定量化または技術的プラクティスを提案します。

What counts as legitimate AI ethics labor, and consequently, what are the epistemic terms on which AI ethics claims are rendered legitimate? Based on 75 interviews with technologists including researchers, developers, open source contributors, and activists, this paper explores the various epistemic bases from which AI ethics is discussed and practiced. In the context of outside attacks on AI ethics as an impediment to ``progress,'' I show how some AI ethics practices have reached toward authority from automation and quantification, and achieved some legitimacy as a result, while those based on richly embodied and situated lived experience have not. This paper draws together the work of feminist Anthropology and Science and Technology Studies scholars Diana Forsythe and Lucy Suchman with the works of postcolonial feminist theorist Sara Ahmed and Black feminist theorist Kristie Dotson to examine the implications of dominant AI ethics practices. By entrenching the epistemic power of quantification, dominant AI ethics practices -- Model Cards and similar interventions -- risk legitimizing AI ethics as a project in equal and opposite measure to which they delegitimize and marginalize embodied and lived experiences as legitimate parts of the same project. In response, I propose\textit{ humble technical practices}: quantified or technical practices which specifically seek to make their epistemic limits clear in order to flatten hierarchies of epistemic power.
翻訳日:2024-04-11 18:45:39 公開日:2024-04-10
# RGBDセンシングと時間畳み込みネットワークを用いたフレキシブル連続マニピュレータのヒステリシス補償

Hysteresis Compensation of Flexible Continuum Manipulator using RGBD Sensing and Temporal Convolutional Network ( http://arxiv.org/abs/2402.11319v2 )

ライセンス: Link先を確認
Junhyun Park, Seonghyeok Jang, Hyojae Park, Seongjun Bae, Minho Hwang, (参考訳) フレキシブル連続マニピュレータは、非線型経路を介して制限された空間へのアクセスを提供する、最小侵襲の手術に有用である。 しかし、ケーブル駆動マニピュレータは、摩擦、伸長、結合などのキャブリング効果によるヒステリシスによる制御困難に直面している。 これらの効果は, 非線形性によりモデル化が困難であり, 長く結合した多分割マニピュレータを扱う際には, さらに困難が顕在化する。 本稿では,Deep Neural Networks (DNN) に基づくデータ駆動方式を提案する。 提案するマニピュレータのヒステリシスをモデル化するために,RGBDセンシングと7つのフィデューシャルマーカーを用いて,コマンド関節構成に従って物理的関節構成を収集する。 4つのDNNモデルの推定性能を比較した結果,時間的畳み込みネットワーク(TCN)が最も高い予測能力を示した。 トレーニングされたTCNを利用することで、ヒステリシスを補うための制御アルゴリズムを構築します。 未確認軌道を用いたタスク空間における追跡テストの結果、提案した制御アルゴリズムは平均位置と方向誤差を61.39%(13.7mmから5.29mm)、64.04%(31.17{\degから11.21{\degまで)削減している。 この結果から, マニピュレータのヒステリシスを推定することにより, キャリブレーション制御器が所望の形状に効果的に到達できることが示唆された。 この手法を実際の手術シナリオに適用することで、制御精度を高め、手術性能を向上させることができる。

Flexible continuum manipulators are valued for minimally invasive surgery, offering access to confined spaces through nonlinear paths. However, cable-driven manipulators face control difficulties due to hysteresis from cabling effects such as friction, elongation, and coupling. These effects are difficult to model due to nonlinearity and the difficulties become even more evident when dealing with long and coupled, multi-segmented manipulator. This paper proposes a data-driven approach based on Deep Neural Networks (DNN) to capture these nonlinear and previous states-dependent characteristics of cable actuation. We collect physical joint configurations according to command joint configurations using RGBD sensing and 7 fiducial markers to model the hysteresis of the proposed manipulator. Result on a study comparing the estimation performance of four DNN models show that the Temporal Convolution Network (TCN) demonstrates the highest predictive capability. Leveraging trained TCNs, we build a control algorithm to compensate for hysteresis. Tracking tests in task space using unseen trajectories show that the proposed control algorithm reduces the average position and orientation error by 61.39% (from 13.7mm to 5.29 mm) and 64.04% (from 31.17{\deg} to 11.21{\deg}), respectively. This result implies that the proposed calibrated controller effectively reaches the desired configurations by estimating the hysteresis of the manipulator. Applying this method in real surgical scenarios has the potential to enhance control precision and improve surgical performance.
翻訳日:2024-04-11 18:45:39 公開日:2024-04-10
# 量子コンピュータにおける最初のハッティングタイム:トラッキング対ローカルモニタリング、トポロジカルエフェクト、ダークステート

First Hitting Times on a Quantum Computer: Tracking vs. Local Monitoring, Topological Effects, and Dark States ( http://arxiv.org/abs/2402.15843v2 )

ライセンス: Link先を確認
Qingyuan Wang, Silin Ren, Ruoyu Yin, Klaus Ziegler, Eli Barkai, Sabine Tornow, (参考訳) 複雑なエッジ重みを持つ有向三角形グラフで表されるリング上の量子ウォークを、量子ウォークが検出されるまで一定の速度で監視する。 この目的のために、最初のヒットタイム統計は、中回りの読み出しオプションでIBM量子コンピュータに実装された、ストロボスコープで分散されたユニタリダイナミクスを用いて記録される。 古典的な打撃時間とは異なり、問題の統計的側面は、測定された経路を構築する方法に依存する。 まず,対象状態への平均戻り時間が定量化されるという理論的予測を実験的に検証し,特定のサンプリング時間や他の制御パラメータに突然の不連続性を見出した。 第二に、初期状態、システムパラメータ、測定プロトコルに依存すると、検出確率は暗黒状態物理学に関連する1または0以下になる。 帰還時間量子化と暗黒状態の出現は、ユニタリ時間進化作用素の固有値における退化と関連している。 研究中のIBM量子コンピュータでは、監視された量子ウォークの最初のヒット時間はノイズに耐性があることを結論付けている。 しかし、有限個の測度は、位相的量子化と漸近理論のカイラル効果を無限個の測度で修正する拡張効果をもたらす。 本研究は,量子コンピュータにおける測定誘起効果を利用した新しい量子ウォークアルゴリズムの開発方法を示すものである。

We investigate a quantum walk on a ring represented by a directed triangle graph with complex edge weights and monitored at a constant rate until the quantum walker is detected. To this end, the first hitting time statistics is recorded using unitary dynamics interspersed stroboscopically by measurements, which is implemented on IBM quantum computers with a midcircuit readout option. Unlike classical hitting times, the statistical aspect of the problem depends on the way we construct the measured path, an effect that we quantify experimentally. First, we experimentally verify the theoretical prediction that the mean return time to a target state is quantized, with abrupt discontinuities found for specific sampling times and other control parameters, which has a well-known topological interpretation. Second, depending on the initial state, system parameters, and measurement protocol, the detection probability can be less than one or even zero, which is related to dark-state physics. Both, return-time quantization and the appearance of the dark states are related to degeneracies in the eigenvalues of the unitary time evolution operator. We conclude that, for the IBM quantum computer under study, the first hitting times of monitored quantum walks are resilient to noise. Yet, a finite number of measurements leads to broadening effects, which modify the topological quantization and chiral effects of the asymptotic theory with an infinite number of measurements. Our results point the way for the development of novel quantum walk algorithms that exploit measurement-induced effects on quantum computers.
翻訳日:2024-04-11 18:45:39 公開日:2024-04-10
# モデルに基づく深部強化学習による流れシミュレーションからの学習の高速化

Model-based deep reinforcement learning for accelerated learning from flow simulations ( http://arxiv.org/abs/2402.16543v2 )

ライセンス: Link先を確認
Andre Weiner, Janis Geise, (参考訳) 近年,閉ループ流制御問題の解法として深層強化学習が登場している。 強化学習にシミュレーションベースの環境を利用すると、制御システムのエンドツーエンドの最適化が可能になり、安全クリティカルな制御アプリケーションのための仮想テストベッドを提供し、制御機構の深い理解を得ることができる。 多くの比較的単純なフロー制御ベンチマークで強化学習がうまく適用されているが、現実のアプリケーションに対する大きなボトルネックは、フローシミュレーションの計算コストとターンアラウンド時間である。 本稿では,フロー制御アプリケーションにおけるモデルベース強化学習の利点を実証する。 具体的には, 流れシミュレーションから採取した軌道と, 環境モデルのアンサンブルから採取した軌道とを交互に組み合わせることで, 政策を最適化する。 モデルベースの学習は、流動的なピンボールテストケースに対して、トレーニング全体の時間を最大8,5\%削減する。 さらに大きな貯蓄が、より要求の高いフローシミュレーションに期待されている。

In recent years, deep reinforcement learning has emerged as a technique to solve closed-loop flow control problems. Employing simulation-based environments in reinforcement learning enables a priori end-to-end optimization of the control system, provides a virtual testbed for safety-critical control applications, and allows to gain a deep understanding of the control mechanisms. While reinforcement learning has been applied successfully in a number of rather simple flow control benchmarks, a major bottleneck toward real-world applications is the high computational cost and turnaround time of flow simulations. In this contribution, we demonstrate the benefits of model-based reinforcement learning for flow control applications. Specifically, we optimize the policy by alternating between trajectories sampled from flow simulations and trajectories sampled from an ensemble of environment models. The model-based learning reduces the overall training time by up to $85\%$ for the fluidic pinball test case. Even larger savings are expected for more demanding flow simulations.
翻訳日:2024-04-11 18:45:39 公開日:2024-04-10
# 魚眼画像における位置誘導型頭部電位推定

Location-guided Head Pose Estimation for Fisheye Image ( http://arxiv.org/abs/2402.18320v2 )

ライセンス: Link先を確認
Bing Li, Dong Zhang, Cheng Huang, Yun Xian, Ming Li, Dah-Jye Lee, (参考訳) 魚眼レンズや超広視野レンズを備えたカメラは、視野投影によってモデル化できない広い視野をカバーしている。 画像の周辺領域における大きな魚眼レンズ歪みは、歪みのない画像に基づいて訓練された既存の頭部ポーズ推定モデルの劣化性能をもたらす。 本稿では,魚眼歪みの負の効果を低減するために,画像中の頭部位置の知識を用いた頭部ポーズ推定の新しい手法を提案する。 我々は,頭部ポーズと頭部位置のマルチタスク学習を用いて頭部ポーズを推定するエンド・ツー・エンド畳み込みニューラルネットワークを開発した。 提案ネットワークは,魚眼画像から直接頭部のポーズを補正や校正の操作なしに推定する。 また,実験のために,魚眼で歪んだ3つの頭部ポーズ推定データセット,BIWI,300W-LP,AFLW2000の作成を行った。 実験の結果,本ネットワークは,他の最先端の1段階および2段階の手法と比較して,頭部ポーズ推定の精度を著しく向上することが示された。

Camera with a fisheye or ultra-wide lens covers a wide field of view that cannot be modeled by the perspective projection. Serious fisheye lens distortion in the peripheral region of the image leads to degraded performance of the existing head pose estimation models trained on undistorted images. This paper presents a new approach for head pose estimation that uses the knowledge of head location in the image to reduce the negative effect of fisheye distortion. We develop an end-to-end convolutional neural network to estimate the head pose with the multi-task learning of head pose and head location. Our proposed network estimates the head pose directly from the fisheye image without the operation of rectification or calibration. We also created a fisheye-distorted version of the three popular head pose estimation datasets, BIWI, 300W-LP, and AFLW2000 for our experiments. Experiments results show that our network remarkably improves the accuracy of head pose estimation compared with other state-of-the-art one-stage and two-stage methods.
翻訳日:2024-04-11 18:45:39 公開日:2024-04-10
# 語彙的意味的変化検出のための意味的距離距離の学習手法

A Semantic Distance Metric Learning approach for Lexical Semantic Change Detection ( http://arxiv.org/abs/2403.00226v2 )

ライセンス: Link先を確認
Taichi Aida, Danushka Bollegala, (参考訳) 単語の時間的意味変化を検出することは、時間に敏感な予測をしなければならない様々なNLPアプリケーションにとって重要なタスクである。 Lexical Semantic Change Detection (SCD)タスクは、与えられたターゲット語である$w$が2つの異なるテキストコーパス、$C_1$と$C_2$の間で意味を変えるかどうかを予測する。 そこで本研究では,既存のWord-in-Context(WiC)データセットを用いた教師付き2段階SCD手法を提案する。 最初の段階では、ターゲット語である$w$に対して、コーパスから選択した所定の文で$w$の意味を表す2つの感覚認識エンコーダを学習する。 次に、第2段階において、ターゲット語の意味表現を、C_1$ と$C_2$ のすべての事象に対して比較する感覚認識距離計量を学習する。 SCDのための複数のベンチマークデータセットによる実験結果から,提案手法は従来提案されていた複数の言語に対するSCD手法よりも一貫して優れており,SCDの新たな最先端性を確立していることがわかった。 興味深いことに,本研究は,感覚認識埋め込み空間における単語の意味変化に関する情報を伝達する特化次元の存在を示唆している。 ソースコードはhttps://github.com/a1da4/svp-sdml で公開されている。

Detecting temporal semantic changes of words is an important task for various NLP applications that must make time-sensitive predictions. Lexical Semantic Change Detection (SCD) task involves predicting whether a given target word, $w$, changes its meaning between two different text corpora, $C_1$ and $C_2$. For this purpose, we propose a supervised two-staged SCD method that uses existing Word-in-Context (WiC) datasets. In the first stage, for a target word $w$, we learn two sense-aware encoders that represent the meaning of $w$ in a given sentence selected from a corpus. Next, in the second stage, we learn a sense-aware distance metric that compares the semantic representations of a target word across all of its occurrences in $C_1$ and $C_2$. Experimental results on multiple benchmark datasets for SCD show that our proposed method consistently outperforms all previously proposed SCD methods for multiple languages, establishing a novel state-of-the-art for SCD. Interestingly, our findings imply that there are specialised dimensions that carry information related to semantic changes of words in the sense-aware embedding space. Source code is available at https://github.com/a1da4/svp-sdml .
翻訳日:2024-04-11 18:45:39 公開日:2024-04-10
# 環境モニタリングとアクティブフィードバックによる空洞量子ビットの量子コヒーレンス回復

Recovering quantum coherence of a cavity qubit through environment monitoring and active feedback ( http://arxiv.org/abs/2403.02081v2 )

ライセンス: Link先を確認
Uri Goldblatt, Nitzan Kahn, Sergey Hazanov, Ofir Milul, Barkay Guttel, Lalit M. Joshi, Daniel Chausovsky, Fabien Lafont, Serge Rosenblum, (参考訳) ノイズの多い環境との相互作用によって引き起こされる量子ビットのデコヒーレンスは、信頼できる量子プロセッサを開発する上で大きな課題となる。 キュービット環境の監視は、デコヒーレンスイベントを識別するだけでなく、これらのエラーを逆転させ、キュービットコヒーレンスを復元することを可能にする。 このアプローチは、補助的なトランスモンとの避けられない相互作用がコヒーレンスに影響を与える超伝導空洞量子ビットに特に有用である。 本研究では,キャビティの環境として機能するトランスモンのノイズ軌跡を追跡することで,キャビティデコヒーレンスの複雑なダイナミクスを明らかにする。 実時間フィードバックを用いてキャビティ量子ビットの損失コヒーレンスを回復し,その劣化時間の5倍に向上した。 あるいは、トランスモンエラーを検出して消去することにより、キャビティ位相コヒーレンスを1桁以上改善する。 これらの進歩は、高忠実度ゲートを持つ長寿命キャビティ量子ビットの実装に不可欠であり、より効率的なボソニック量子誤り訂正符号を可能にする。

Decoherence in qubits, caused by their interaction with a noisy environment, poses a significant challenge to developing reliable quantum processors. Monitoring the qubit's environment enables not only to identify decoherence events but also to reverse these errors, thereby restoring the qubit coherence. This approach is particularly beneficial for superconducting cavity qubits, whose unavoidable interaction with auxiliary transmons impacts their coherence. In this work, we uncover the intricate dynamics of cavity decoherence by tracking the noisy trajectory of a transmon acting as the cavity's environment. Using real-time feedback, we successfully recover the lost coherence of the cavity qubit, achieving a fivefold increase in its dephasing time. Alternatively, by detecting transmon errors and converting them into erasures, we improve the cavity phase coherence by more than an order of magnitude. These advances are essential for implementing long-lived cavity qubits with high-fidelity gates and can enable more efficient bosonic quantum error correction codes.
翻訳日:2024-04-11 18:45:39 公開日:2024-04-10
# Triple-CFN:抽象推論プロセスの強化のための概念空間の再構築

Triple-CFN: Restructuring Conceptual Spaces for Enhancing Abstract Reasoning process ( http://arxiv.org/abs/2403.03190v5 )

ライセンス: Link先を確認
Ruizhuo Song, Beiming Yuan, (参考訳) 抽象推論問題は、人工知能アルゴリズムに重大な課題をもたらし、知覚タスクに必要なもの以上の認知能力を要求する。 本研究では,競合するインスタンスの概念空間を暗黙的に再編成することにより,ボナード・ローゴ問題に対処するトリプルCFN手法を提案する。 さらに、トリプルCFNパラダイムは、必要な修正を加えてRPM問題に有効であることを証明し、競争結果をもたらす。 RPM問題の性能をさらに向上するため,プログレッシブパターンの解釈可能性を維持しつつ,問題空間を明示的に構造化するMeta Triple-CFNネットワークを開発した。 Meta Triple-CFNの成功は、その概念空間をモデル化するパラダイムが、正規化推論情報と等価であることに起因している。 このイデオロギーに基づいて、Re-space層を導入し、Meta Triple-CFNとTriple-CFNの両方の性能を向上させる。 本稿では、抽象推論問題に対処する革新的なネットワーク設計を探求し、この領域におけるさらなるブレークスルーへの道を開くことにより、機械学習の進歩に貢献することを目的とする。

Abstract reasoning problems pose significant challenges to artificial intelligence algorithms, demanding cognitive capabilities beyond those required for perception tasks. This study introduces the Triple-CFN approach to tackle the Bongard-Logo problem, achieving notable reasoning accuracy by implicitly reorganizing the concept space of conflicting instances. Additionally, the Triple-CFN paradigm proves effective for the RPM problem with necessary modifications, yielding competitive results. To further enhance performance on the RPM issue, we develop the Meta Triple-CFN network, which explicitly structures the problem space while maintaining interpretability on progressive patterns. The success of Meta Triple-CFN is attributed to its paradigm of modeling the conceptual space, equivalent to normalizing reasoning information. Based on this ideology, we introduce the Re-space layer, enhancing the performance of both Meta Triple-CFN and Triple-CFN. This paper aims to contribute to advancements in machine intelligence by exploring innovative network designs for addressing abstract reasoning problems, paving the way for further breakthroughs in this domain.
翻訳日:2024-04-11 18:45:39 公開日:2024-04-10
# 画像ベース異常検出における強化学習を用いた電池駆動TinyMLシステムのシミュレーション

Simulating Battery-Powered TinyML Systems Optimised using Reinforcement Learning in Image-Based Anomaly Detection ( http://arxiv.org/abs/2403.05106v2 )

ライセンス: Link先を確認
Jared M. Ping, Ken J. Nixon, (参考訳) TinyML(Tiny Machine Learning)の進歩は、スマート農業、ヘルスケア、スマートシティなど、スマート産業ソリューションの創造を加速させている。 関連する研究は、制約付きハードウェア上でのTinyMLソリューションの実現に寄与するが、バッテリ駆動システムにおけるエネルギー消費を最適化することで、現実世界のアプリケーションを増幅する必要がある。 この研究は、バッテリー駆動のイメージベースの異常検出(IoT)システムを最適化することで、TinyMLの研究を拡張し、貢献する。 この領域での以前の研究は、デバイス上での推論とトレーニングの能力をもたらしたが、Reinforcement Learning (RL)のような機械学習アプローチを用いて、そのようなシステムのデプロイメントバッテリ寿命を改善するために、そのような機能の管理を最適化する研究はまだ行われていない。 モデル化されたシミュレーションを用いて、RLアルゴリズムのバッテリ寿命効果を静的および動的最適化アプローチとベンチマークし、ハードウェアベンチマークに従うための基礎となる。 TinyML対応IoTシステムでRLを使用して、クラウド異常処理やオンデバイストレーニングを含むシステム操作を最適化すると、静的および動的最適化アプローチと比較して、バッテリー寿命は22.86%と10.86%向上する。 提案したソリューションは、メモリフットプリントが800Bのリソース制約のあるハードウェアにデプロイできる。 これにより、スマート農業などの重要な分野を含む、そのようなシステムの現実的な展開が促進される。

Advances in Tiny Machine Learning (TinyML) have bolstered the creation of smart industry solutions, including smart agriculture, healthcare and smart cities. Whilst related research contributes to enabling TinyML solutions on constrained hardware, there is a need to amplify real-world applications by optimising energy consumption in battery-powered systems. The work presented extends and contributes to TinyML research by optimising battery-powered image-based anomaly detection Internet of Things (IoT) systems. Whilst previous work in this area has yielded the capabilities of on-device inferencing and training, there has yet to be an investigation into optimising the management of such capabilities using machine learning approaches, such as Reinforcement Learning (RL), to improve the deployment battery life of such systems. Using modelled simulations, the battery life effects of an RL algorithm are benchmarked against static and dynamic optimisation approaches, with the foundation laid for a hardware benchmark to follow. It is shown that using RL within a TinyML-enabled IoT system to optimise the system operations, including cloud anomaly processing and on-device training, yields an improved battery life of 22.86% and 10.86% compared to static and dynamic optimisation approaches respectively. The proposed solution can be deployed to resource-constrained hardware, given its low memory footprint of 800 B, which could be further reduced. This further facilitates the real-world deployment of such systems, including key sectors such as smart agriculture.
翻訳日:2024-04-11 18:45:39 公開日:2024-04-10
# ChatASU:LLMの反射を誘発して,対話におけるアスペクト知覚を真に理解する

ChatASU: Evoking LLM's Reflexion to Truly Understand Aspect Sentiment in Dialogues ( http://arxiv.org/abs/2403.05326v4 )

ライセンス: Link先を確認
Yiding Liu, Jingjing Wang, Jiamin Luo, Tao Zeng, Guodong Zhou, (参考訳) 対話型シナリオにおけるアスペクト知覚理解(ASU:Aspect Sentiment Understanding)は,近年ますます関心を集め,重要な進歩を遂げている。 しかしながら、対話型ASUに関する既存の研究は、意見目標(つまりアスペクト)のコア参照問題をほとんど無視しているが、この現象は対話型シナリオ、特に対話型シナリオにおいて広く見られ、ASUのパフォーマンスを制限している。 近年,大規模言語モデル (LLM) は,様々なNLPタスクをチャットパラダイムに統合する強力な能力を示している。 そこで本稿では,対話シナリオにおけるアスペクト感情を理解するLLMの能力を探究する,Chat-based Aspect Sentiment Understanding (ChatASU)タスクを提案する。 特に、このChatASUタスクはアスペクトコア参照問題に対処するためにサブタスク、すなわちアスペクトチェイン推論(ACR)タスクを導入している。 そこで我々は,ChatASUのバックボーンとしてChatGLMを用いた信頼自己回帰アプローチ(TSA)を提案する。 具体的には、このTSAは、ACRタスクを補助タスクとして扱うことにより、ASUタスクの性能を高めるとともに、信頼された学習を反射機構に統合し、TSAのLLM-本質的な事実幻覚問題を緩和する。 さらに,高品質なChatASUデータセットをアノテートしてTSAを評価することにより,提案したTSAは,ChatASUに対するTSAの有効性を正当化し,ChatASUにおけるコア参照と幻覚の問題を考慮し,最先端のベースラインを著しく上回ることを示す。

Aspect Sentiment Understanding (ASU) in interactive scenarios (e.g., Question-Answering and Dialogue) has attracted ever-more interest in recent years and achieved important progresses. However, existing studies on interactive ASU largely ignore the coreference issue for opinion targets (i.e., aspects), while this phenomenon is ubiquitous in interactive scenarios especially dialogues, limiting the ASU performance. Recently, large language models (LLMs) shows the powerful ability to integrate various NLP tasks with the chat paradigm. In this way, this paper proposes a new Chat-based Aspect Sentiment Understanding (ChatASU) task, aiming to explore LLMs' ability in understanding aspect sentiments in dialogue scenarios. Particularly, this ChatASU task introduces a sub-task, i.e., Aspect Chain Reasoning (ACR) task, to address the aspect coreference issue. On this basis, we propose a Trusted Self-reflexion Approach (TSA) with ChatGLM as backbone to ChatASU. Specifically, this TSA treats the ACR task as an auxiliary task to boost the performance of the primary ASU task, and further integrates trusted learning into reflexion mechanisms to alleviate the LLMs-intrinsic factual hallucination problem in TSA. Furthermore, a high-quality ChatASU dataset is annotated to evaluate TSA, and extensive experiments show that our proposed TSA can significantly outperform several state-of-the-art baselines, justifying the effectiveness of TSA to ChatASU and the importance of considering the coreference and hallucination issues in ChatASU.
翻訳日:2024-04-11 18:45:39 公開日:2024-04-10
# 心理学としてのGPT : GPT-4Vの視覚効果コンピューティングにおける予備的評価

GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual Affective Computing ( http://arxiv.org/abs/2403.05916v2 )

ライセンス: Link先を確認
Hao Lu, Xuesong Niu, Jiyao Wang, Yin Wang, Qingyong Hu, Jiaqi Tang, Yuting Zhang, Kaishen Yuan, Bin Huang, Zitong Yu, Dengbo He, Shuiguang Deng, Hao Chen, Yingcong Chen, Shiguang Shan, (参考訳) MLLM(Multimodal large language model)は、テキスト、音声、画像、ビデオなどの複数のソースからの情報を処理し、統合するように設計されている。 言語理解の成功にもかかわらず、より優れた人間中心のアプリケーションのために下流タスクのパフォーマンスを評価することは重要である。 本稿では、視覚的情緒的タスクと推論タスクにまたがる5つの重要な能力を持つMLLMの適用性を評価する。 以上の結果から,顔表情認識性能が不正確であるにもかかわらず,顔動作単位認識と微小表現検出の精度が高いことが明らかとなった。 また, 信号処理による心拍推定などの複雑なタスクに, タスク関連エージェントと統合することにより, 感情認識や関連分野における高度なタスクを扱うために, よりきめ細かなマイクロ表現認識を実現することの課題と, さらなる研究の可能性を強調した。 結論として,人間中心型コンピューティングにおけるMLLMの潜在的な応用と課題について,貴重な知見を提供する。 興味深い例はhttps://github.com/EnVision-Research/GPT4Affectivity.comにある。

Multimodal large language models (MLLMs) are designed to process and integrate information from multiple sources, such as text, speech, images, and videos. Despite its success in language understanding, it is critical to evaluate the performance of downstream tasks for better human-centric applications. This paper assesses the application of MLLMs with 5 crucial abilities for affective computing, spanning from visual affective tasks and reasoning tasks. The results show that \gpt has high accuracy in facial action unit recognition and micro-expression detection while its general facial expression recognition performance is not accurate. We also highlight the challenges of achieving fine-grained micro-expression recognition and the potential for further study and demonstrate the versatility and potential of \gpt for handling advanced tasks in emotion recognition and related fields by integrating with task-related agents for more complex tasks, such as heart rate estimation through signal processing. In conclusion, this paper provides valuable insights into the potential applications and challenges of MLLMs in human-centric computing. Our interesting examples are at https://github.com/EnVision-Research/GPT4Affectivity.
翻訳日:2024-04-11 16:47:58 公開日:2024-04-10
# Gemma: Geminiリサーチと技術に基づくオープンモデル

Gemma: Open Models Based on Gemini Research and Technology ( http://arxiv.org/abs/2403.08295v2 )

ライセンス: Link先を確認
Gemma Team, Thomas Mesnard, Cassidy Hardin, Robert Dadashi, Surya Bhupatiraju, Shreya Pathak, Laurent Sifre, Morgane Rivière, Mihir Sanjay Kale, Juliette Love, Pouya Tafti, Léonard Hussenot, Pier Giuseppe Sessa, Aakanksha Chowdhery, Adam Roberts, Aditya Barua, Alex Botev, Alex Castro-Ros, Ambrose Slone, Amélie Héliou, Andrea Tacchetti, Anna Bulanova, Antonia Paterson, Beth Tsai, Bobak Shahriari, Charline Le Lan, Christopher A. Choquette-Choo, Clément Crepy, Daniel Cer, Daphne Ippolito, David Reid, Elena Buchatskaya, Eric Ni, Eric Noland, Geng Yan, George Tucker, George-Christian Muraru, Grigory Rozhdestvenskiy, Henryk Michalewski, Ian Tenney, Ivan Grishchenko, Jacob Austin, James Keeling, Jane Labanowski, Jean-Baptiste Lespiau, Jeff Stanway, Jenny Brennan, Jeremy Chen, Johan Ferret, Justin Chiu, Justin Mao-Jones, Katherine Lee, Kathy Yu, Katie Millican, Lars Lowe Sjoesund, Lisa Lee, Lucas Dixon, Machel Reid, Maciej Mikuła, Mateo Wirth, Michael Sharman, Nikolai Chinaev, Nithum Thain, Olivier Bachem, Oscar Chang, Oscar Wahltinez, Paige Bailey, Paul Michel, Petko Yotov, Rahma Chaabouni, Ramona Comanescu, Reena Jana, Rohan Anil, Ross McIlroy, Ruibo Liu, Ryan Mullins, Samuel L Smith, Sebastian Borgeaud, Sertan Girgin, Sholto Douglas, Shree Pandya, Siamak Shakeri, Soham De, Ted Klimenko, Tom Hennigan, Vlad Feinberg, Wojciech Stokowiec, Yu-hui Chen, Zafarali Ahmed, Zhitao Gong, Tris Warkentin, Ludovic Peran, Minh Giang, Clément Farabet, Oriol Vinyals, Jeff Dean, Koray Kavukcuoglu, Demis Hassabis, Zoubin Ghahramani, Douglas Eck, Joelle Barral, Fernando Pereira, Eli Collins, Armand Joulin, Noah Fiedel, Evan Senter, Alek Andreev, Kathleen Kenealy, (参考訳) Gemmaは、Geminiモデルを作成するために使用される研究と技術から構築された、軽量で最先端のオープンモデルのファミリーである。 Gemmaモデルは、言語理解、推論、安全性のための学術ベンチマークで強力なパフォーマンスを示している。 モデルのサイズは2つ(20億と70億のパラメータ)、事前訓練されたチェックポイントと微調整されたチェックポイントの両方を提供する。 Gemmaは18のテキストベースタスクのうち11のオープンモデルにおいて、同様のサイズのオープンモデルよりも優れており、モデル開発の詳細な説明とともに、モデルの安全性と責任の側面を包括的に評価する。 LLMの責任あるリリースは、フロンティアモデルの安全性を改善し、LLMイノベーションの次の波を可能にするために重要であると考えています。

This work introduces Gemma, a family of lightweight, state-of-the art open models built from the research and technology used to create Gemini models. Gemma models demonstrate strong performance across academic benchmarks for language understanding, reasoning, and safety. We release two sizes of models (2 billion and 7 billion parameters), and provide both pretrained and fine-tuned checkpoints. Gemma outperforms similarly sized open models on 11 out of 18 text-based tasks, and we present comprehensive evaluations of safety and responsibility aspects of the models, alongside a detailed description of model development. We believe the responsible release of LLMs is critical for improving the safety of frontier models, and for enabling the next wave of LLM innovations.
翻訳日:2024-04-11 16:47:58 公開日:2024-04-10
# ガウス画像:1000 FPS画像表現と2次元ガウススプラッティングによる圧縮

GaussianImage: 1000 FPS Image Representation and Compression by 2D Gaussian Splatting ( http://arxiv.org/abs/2403.08551v3 )

ライセンス: Link先を確認
Xinjie Zhang, Xingtong Ge, Tongda Xu, Dailan He, Yan Wang, Hongwei Qin, Guo Lu, Jing Geng, Jun Zhang, (参考訳) Inlicit Neural representations (INR)は画像表現と圧縮で大成功を収め、十分なGPUリソースが利用できると仮定して、10-1000 FPSで高画質で高速なレンダリング速度を提供する。 しかし、この要件は、メモリが限られているローエンドデバイスでの使用を妨げることが多い。 そこで本研究では,ガウス画像と2次元ガウス画像による画像表現と圧縮の画期的なパラダイムを提案する。 まず、画像を表すために2D Gaussianを導入し、各 Gaussian は位置、共分散、色を含む8つのパラメータを持つ。 その後、累積和に基づく新しいレンダリングアルゴリズムを公表する。 注目すべきは、最低3$\times$GPUメモリ使用量と5$\times$高速適合時間を持つ手法は、表現性能においてINRs(例えば、WIRE、I-NGP)と競合するだけでなく、パラメータサイズに関係なく1500-2000 FPSの高速レンダリング速度を提供する。 さらに,既存のベクトル量子化手法を統合して画像コーデックを構築する。 実験の結果,コーデックはCOINやCOIN++などの圧縮ベースのINRに匹敵する速度歪み性能を示し,約1000FPSの復号速度を実現している。 さらに、予備的な概念実証では、コーデックが部分ビットバック符号を使用する場合、COINとCOIN++を上回る性能を示している。 コードはhttps://github.com/Xinjie-Q/GaussianImageで入手できる。

Implicit neural representations (INRs) recently achieved great success in image representation and compression, offering high visual quality and fast rendering speeds with 10-1000 FPS, assuming sufficient GPU resources are available. However, this requirement often hinders their use on low-end devices with limited memory. In response, we propose a groundbreaking paradigm of image representation and compression by 2D Gaussian Splatting, named GaussianImage. We first introduce 2D Gaussian to represent the image, where each Gaussian has 8 parameters including position, covariance and color. Subsequently, we unveil a novel rendering algorithm based on accumulated summation. Remarkably, our method with a minimum of 3$\times$ lower GPU memory usage and 5$\times$ faster fitting time not only rivals INRs (e.g., WIRE, I-NGP) in representation performance, but also delivers a faster rendering speed of 1500-2000 FPS regardless of parameter size. Furthermore, we integrate existing vector quantization technique to build an image codec. Experimental results demonstrate that our codec attains rate-distortion performance comparable to compression-based INRs such as COIN and COIN++, while facilitating decoding speeds of approximately 1000 FPS. Additionally, preliminary proof of concept shows that our codec surpasses COIN and COIN++ in performance when using partial bits-back coding. Code will be available at https://github.com/Xinjie-Q/GaussianImage.
翻訳日:2024-04-11 16:47:58 公開日:2024-04-10
# 量子期待アイデンティティ:統計力学への応用

A quantum expectation identity: Applications to statistical mechanics ( http://arxiv.org/abs/2403.09860v2 )

ライセンス: Link先を確認
Boris Maulén, Sergio Davis, Daniel Pons, (参考訳) 本稿では、密度行列がシステムに関する知識の状態を表す量子統計力学の言語を用いて、有用な予測IDを導出する。 この恒等式は、連続パラメータに依存する異なる量子オブザーバブル間の関係を確立することができる。 そのようなパラメータは観測変数自身(例えば摂動パラメータ)に含まれるか、密度行列のラグランジュ乗算器(逆温度、化学ポテンシャルなど)として現れ、基底ヒルベルト空間を変更するパラメータを除くことができる。 このようにして、正準および大正準密度行列と特定の量子観測可能量(ハミルトニアン、数演算子など)を用いて、この場に新しいアイデンティティを発見し、その導出だけでなくその意味も示した。 さらに、従来の量子統計学や量子化学の定理、例えば熱力学的ゆらぎ散逸定理、エレンフェスト、ヘルマン・ファインマンの定理などは、前述の量子予想アイデンティティの特別な例であることがわかった。 最後に、最大エントロピー原理から生じる一般化密度行列を用いて、一般化された量子期待アイデンティティを導出する。

In this article, we derive a useful expectation identity using the language of quantum statistical mechanics, where density matrices represent the state of knowledge about the system. This identity allows to establish relations between different quantum observables depending on a continuous parameter. Such a parameter can be contained in the observables itself (e.g. perturbative parameter) or may appear as a Lagrange multiplier (inverse temperature, chemical potential, etc.) in the density matrix, excluding parameters that modify the underlying Hilbert space. In this way, using both canonical and grand canonical density matrices along with certain quantum observables (Hamiltonian, number operator, etc.) we found new identities in the field, showing not only its derivation but also its meaning. Additionally, we found that some theorems of traditional quantum statistics and quantum chemistry, such as the thermodynamical fluctuation-dissipation theorem, the Ehrenfest, and the Hellmann-Feynman theorems, among others, are particular instances of our aforementioned quantum expectation identity. At last, using a generalized density matrix arising from the Maximum-Entropy principle, we derive generalized quantum expectation identities: these generalized identities allow us to group all the previous cases in a unitary scheme.
翻訳日:2024-04-11 16:47:58 公開日:2024-04-10
# ガウス過程による選好と選択から学ぶチュートリアル

A tutorial on learning from preferences and choices with Gaussian Processes ( http://arxiv.org/abs/2403.11782v3 )

ライセンス: Link先を確認
Alessio Benavoli, Dario Azzimonti, (参考訳) 推奨モデリングは、経済学、決定理論、機械学習、統計学の交差点にある。 個人の好みを理解し、どのように選択するかを理解することで、期待にぴったり合う製品を構築することができ、幅広い領域にわたってより効率的でパーソナライズされたアプリケーションを実現することができます。 本チュートリアルの目的は,ガウス的プロセス(GP)による嗜好学習のための包括的で包括的な枠組みを提示し,理性原理(経済学や意思決定理論など)を学習プロセスにシームレスに組み込む方法を示すことである。 このフレームワークは、確率関数を適切に調整することにより、ランダムなユーティリティモデル、識別の限界、およびオブジェクトとラベルの両方に矛盾する複数のユーティリティを持つシナリオを含む嗜好学習モデルの構築を可能にする。 このチュートリアルは、既存の文献の特定のギャップに対処する新しいGPベースのモデルを同時に導入しながら、確立された研究の上に構築されている。

Preference modelling lies at the intersection of economics, decision theory, machine learning and statistics. By understanding individuals' preferences and how they make choices, we can build products that closely match their expectations, paving the way for more efficient and personalised applications across a wide range of domains. The objective of this tutorial is to present a cohesive and comprehensive framework for preference learning with Gaussian Processes (GPs), demonstrating how to seamlessly incorporate rationality principles (from economics and decision theory) into the learning process. By suitably tailoring the likelihood function, this framework enables the construction of preference learning models that encompass random utility models, limits of discernment, and scenarios with multiple conflicting utilities for both object- and label-preference. This tutorial builds upon established research while simultaneously introducing some novel GP-based models to address specific gaps in the existing literature.
翻訳日:2024-04-11 16:47:58 公開日:2024-04-10
# GraphBEV:マルチモード3Dオブジェクト検出のためのロバストなBEV機能アライメントを目指して

GraphBEV: Towards Robust BEV Feature Alignment for Multi-Modal 3D Object Detection ( http://arxiv.org/abs/2403.11848v2 )

ライセンス: Link先を確認
Ziying Song, Lei Yang, Shaoqing Xu, Lin Liu, Dongyang Xu, Caiyan Jia, Feiyang Jia, Li Wang, (参考訳) LiDARとカメラ情報をBird's-Eye-View(BEV)表現に統合することは、自動運転における3Dオブジェクト検出の重要な側面として現れている。 しかし,既存の手法は,LiDARとカメラセンサの不正確な校正関係の影響を受けやすい。 このような不正確さは、カメラブランチの深さ推定の誤差をもたらし、最終的にLiDARとカメラBEVの特徴の不一致を引き起こす。 本研究では,グラフBEVと呼ばれる堅牢な融合フレームワークを提案する。 不正確なポイントクラウドプロジェクションによるエラーに対処するため、グラフマッチングを介して近隣の認識深度機能を利用するLocal Alignモジュールを導入する。 さらに,LiDARとカメラBEVの機能の相違を是正するGlobal Alignモジュールを提案する。 当社のグラフBEVフレームワークは,nuscenes検証セットにおいて,mAPが70.1\%,BEV Fusionが1.6\%を超え,最先端のパフォーマンスを実現している。 重要な点として、我々のグラフBEVは、悪臭のある条件下で、BEV Fusionを8.3%上回っている。

Integrating LiDAR and camera information into Bird's-Eye-View (BEV) representation has emerged as a crucial aspect of 3D object detection in autonomous driving. However, existing methods are susceptible to the inaccurate calibration relationship between LiDAR and the camera sensor. Such inaccuracies result in errors in depth estimation for the camera branch, ultimately causing misalignment between LiDAR and camera BEV features. In this work, we propose a robust fusion framework called Graph BEV. Addressing errors caused by inaccurate point cloud projection, we introduce a Local Align module that employs neighbor-aware depth features via Graph matching. Additionally, we propose a Global Align module to rectify the misalignment between LiDAR and camera BEV features. Our Graph BEV framework achieves state-of-the-art performance, with an mAP of 70.1\%, surpassing BEV Fusion by 1.6\% on the nuscenes validation set. Importantly, our Graph BEV outperforms BEV Fusion by 8.3\% under conditions with misalignment noise.
翻訳日:2024-04-11 16:47:58 公開日:2024-04-10
# M-HOF-Opt:マルチプライヤ誘導ロススケープスケジューリングによる多目的階層出力フィードバック最適化

M-HOF-Opt: Multi-Objective Hierarchical Output Feedback Optimization via Multiplier Induced Loss Landscape Scheduling ( http://arxiv.org/abs/2403.13728v2 )

ライセンス: Link先を確認
Xudong Sun, Nutan Chen, Alexej Gossmann, Yu Xing, Carla Feistner, Emilio Dorigatt, Felix Drost, Daniele Scarcella, Lisa Beer, Carsten Marr, (参考訳) 重み付き乗算器のオンライン組合せ選択は,多目的降着を促進するために多目的降着を促すハイパーボリュームをベースとした多目的降着モデルを用いて,確率的グラフィカルモデル(PGM)を用いてニューラルワークによってパラメータ化される多くの損失項の多目的降着数に対する重み乗算器のオンライン組合せ選択に対処する。 次に、逐次決定過程としての対応するパラメータと乗算器の推定を最適制御問題にキャストし、多目的降下目標を階層的に一連の制約最適化サブプロブレムに配置する。 サブプロブレム制約はパレート支配に従って自動的に適応し、損失項の出力フィードバックを介して損失景観をスケジュールする低レベル乗算器コントローラのセットポイントとして機能する。 提案手法はマルチプライヤフリーであり,エポックの時間スケールで動作するため,フルトレーニングサイクルのマルチプライヤチューニングに比べ,膨大な計算資源を節約できる。 また、既存の多目的ディープラーニング手法の過剰なメモリ要件と重い計算負担を回避する。 PACS領域一般化タスクにおいて6つの損失項を持つドメイン不変変分自動符号化に適用し、様々な制御ハイパーパラメータ、および異なる乗算初期条件におけるロバストな性能を観察し、他の乗算器スケジューリング手法よりも優れた性能を示した。 我々は、多くの損失項のカスタム定義の拡張を認めながら、この手法のモジュラー実装を提供した。

We address the online combinatorial choice of weight multipliers for multi-objective optimization of many loss terms parameterized by neural works via a probabilistic graphical model (PGM) for the joint model parameter and multiplier evolution process, with a hypervolume based likelihood promoting multi-objective descent. The corresponding parameter and multiplier estimation as a sequential decision process is then cast into an optimal control problem, where the multi-objective descent goal is dispatched hierarchically into a series of constraint optimization sub-problems. The subproblem constraint automatically adapts itself according to Pareto dominance and serves as the setpoint for the low level multiplier controller to schedule loss landscapes via output feedback of each loss term. Our method is multiplier-free and operates at the timescale of epochs, thus saves tremendous computational resources compared to full training cycle multiplier tuning. It also circumvents the excessive memory requirements and heavy computational burden of existing multi-objective deep learning methods. We applied it to domain invariant variational auto-encoding with 6 loss terms on the PACS domain generalization task, and observed robust performance across a range of controller hyperparameters, as well as different multiplier initial conditions, outperforming other multiplier scheduling methods. We offered modular implementation of our method, admitting extension to custom definition of many loss terms.
翻訳日:2024-04-11 16:47:58 公開日:2024-04-10
# 脆弱性検出のためのLLMによるマルチロールコンセンサス

Multi-role Consensus through LLMs Discussions for Vulnerability Detection ( http://arxiv.org/abs/2403.14274v2 )

ライセンス: Link先を確認
Zhenyu Mao, Jialong Li, Munan Li, Kenji Tei, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、ソフトウェア品質保証の重要なコンポーネントである脆弱性検出の可能性を強調している。 このような進歩にもかかわらず、ほとんどの研究は、開発者とテスターの両方を含む典型的なソフトウェア開発ライフサイクルにおいて、さまざまな役割からさまざまな視点を欠いているテスターという、単一の役割の観点に限られている。 そこで本研究では,LLMを実生活におけるコードレビュープロセスのシミュレートに活用するためのマルチロールアプローチを提案し,コード内の脆弱性の存在と分類に関するコンセンサスを議論する。 提案手法の予備評価では、精度が4.73%向上し、リコールレートが58.9%上昇し、F1スコアが28.1%上昇した。

Recent advancements in large language models (LLMs) have highlighted the potential for vulnerability detection, a crucial component of software quality assurance. Despite this progress, most studies have been limited to the perspective of a single role, usually testers, lacking diverse viewpoints from different roles in a typical software development life-cycle, including both developers and testers. To this end, this paper introduces a multi-role approach to employ LLMs to act as different roles to simulate real-life code review process, engaging in discussions towards a consensus on the existence and classification of vulnerabilities in the code. Preliminary evaluation of the proposed approach indicates a 4.73% increase in the precision rate, 58.9% increase in the recall rate, and a 28.1% increase in the F1 score.
翻訳日:2024-04-11 16:47:58 公開日:2024-04-10
# 物理における自己分布構造

Self-distributive structures in physics ( http://arxiv.org/abs/2403.14458v2 )

ライセンス: Link先を確認
Tobias Fritz, (参考訳) これは、観測可能群が変換の一パラメータ群を生成するという、既存の物理理論の重要な特徴である。 古典的ハミルトニアン力学や量子力学において、これは可観測物がリー代数を形成するという事実によるものであり、ネーターの定理にそれ自身を表わす。 本稿では,可観測値が変換を生成するという考え方を表現するために必要となる最小の数学的構造として,リー四角形を導入する。 これは結び目理論において最もよく用いられる四つ組の概念に基づいており、その主な定義的性質は自己分布方程式 $x \triangleright (y \triangleright) である。 z) = (x \triangleright y) \triangleright (x \triangleright) z)$. リー四角形はリー代数の非線形一般化と考えることができる。 また、物理的に混合状態に対応するベクトル空間における点の凸結合を取ることは、同じ形の自己分布性を満たす。

It is an important feature of our existing physical theories that observables generate one-parameter groups of transformations. In classical Hamiltonian mechanics and quantum mechanics, this is due to the fact that the observables form a Lie algebra, and it manifests itself in Noether's theorem. In this paper, we introduce Lie quandles as the minimal mathematical structure needed to express the idea that observables generate transformations. This is based on the notion of a quandle used most famously in knot theory, whose main defining property is the self-distributivity equation $x \triangleright (y \triangleright z) = (x \triangleright y) \triangleright (x \triangleright z)$. We argue that Lie quandles can be thought of as nonlinear generalizations of Lie algebras. We also observe that taking convex combinations of points in vector spaces, which physically corresponds to mixing states, satisfies the same form of self-distributivity.
翻訳日:2024-04-11 16:47:58 公開日:2024-04-10
# ポートフォワードサービスはセキュリティリスクを抑える

Port Forwarding Services Are Forwarding Security Risks ( http://arxiv.org/abs/2403.16060v2 )

ライセンス: Link先を確認
Haoyuan Wang, Yue Xue, Xuan Feng, Chao Zhou, Xianghang Mi, (参考訳) 近年出現した代表的ポートフォワードサービス(PFS)に関する最初の総合的なセキュリティ研究を行い、インターネット上の内部ネットワークにデプロイされるWebサービスを、従来の技術(NATトラバーサル技術など)と比較して、ユーザビリティは向上するが、複雑さは少なくなる。 本研究は,PFSの技術的メカニズムを明らかにするため,PFSプロトコルの攻撃シナリオを検証し,大規模にポートフォワードされたWebサイト(PFW)を自動検出・スナップショットし,PFWをよく観察されたカテゴリに分類する,という新しい手法によって実現されている。 これらの手法を活用することで、世界中の数万のISPに分散された数百万のPFWによるPFSの普及が観察された。 さらに32.31%のPFWは、産業用制御システム、IoTコントローラ、コードリポジトリ、オフィス自動化システムなどの重要なデータやインフラへのアクセスを支援するウェブサイトカテゴリに分類されている。 18.57%のPFWは外部からの訪問者に対していかなるアクセス制御も行わなかった。 また、Orayのプロトコルに固有の2種類の攻撃(よく登録されたPFSプロバイダ)と、マルウェアの配布、ボットネット操作、フィッシングといった活動において悪意あるアクターによるPFSの悪用が確認されている。

We conduct the first comprehensive security study on representative port forwarding services (PFS), which emerge in recent years and make the web services deployed in internal networks available on the Internet along with better usability but less complexity compared to traditional techniques (e.g., NAT traversal techniques). Our study is made possible through a set of novel methodologies, which are designed to uncover the technical mechanisms of PFS, experiment attack scenarios for PFS protocols, automatically discover and snapshot port-forwarded websites (PFWs) at scale, and classify PFWs into well-observed categories. Leveraging these methodologies, we have observed the widespread adoption of PFS with millions of PFWs distributed across tens of thousands of ISPs worldwide. Furthermore, 32.31% PFWs have been classified into website categories that serve access to critical data or infrastructure, such as, web consoles for industrial control systems, IoT controllers, code repositories, and office automation systems. And 18.57% PFWs didn't enforce any access control for external visitors. Also identified are two types of attacks inherent in the protocols of Oray (one well-adopted PFS provider), and the notable abuse of PFSes by malicious actors in activities such as malware distribution, botnet operation and phishing.
翻訳日:2024-04-11 16:47:58 公開日:2024-04-10
# 振り返って - システム・オブ・システムのためのソフトウェア工学の振り返りと今後の方向性

Looking back and forward: A retrospective and future directions on Software Engineering for systems-of-systems ( http://arxiv.org/abs/2403.16740v2 )

ライセンス: Link先を確認
Everton Cavalcante, Thais Batista, Flavio Oquendo, (参考訳) 現代のシステムはますます接続され、他の既存のシステムと統合され、 \textit{systems-of-systems} (SoS) が生まれる。 SoSは、新しい機能を提供し、実行時に現れる創発的な振舞いを通じてグローバルなミッションを達成するために相互作用する、独立した異種システムからなる。 SoSの特徴は、従来のシステムとは対照的に、ソフトウェア工学において重要な研究課題を提起している。 これらの課題は、パラダイムシフトの必要性と、これらのシステムを設計、開発、デプロイ、進化するための新しいアプローチの探求を動機付けている。 The \textit{International Workshop on Software Engineering for Systems-of-Systems} (SESoS)シリーズは、ソフトウェア工学の観点からSoSに対処する科学フォーラムのギャップを埋めるために2013年に始まった。 本稿では,SeSoSワークショップ(2013-2023)の11版にまたがる57件の論文をもとに,SoSのためのソフトウェアエンジニアリングの進化と今後の軌道について概説する。 この研究は、スコーピングレビューとサイエントメトリック分析法を組み合わせて、時間的および地理的分布、関心のトピック、採用された研究方法論、応用ドメイン、研究影響に関する研究貢献を分類、分析した。 このような包括的概要に基づいて、この記事ではSoSのためのソフトウェアエンジニアリングの現在と将来の方向性について論じます。

Modern systems are increasingly connected and more integrated with other existing systems, giving rise to \textit{systems-of-systems} (SoS). An SoS consists of a set of independent, heterogeneous systems that interact to provide new functionalities and accomplish global missions through emergent behavior manifested at runtime. The distinctive characteristics of SoS, when contrasted to traditional systems, pose significant research challenges within Software Engineering. These challenges motivate the need for a paradigm shift and the exploration of novel approaches for designing, developing, deploying, and evolving these systems. The \textit{International Workshop on Software Engineering for Systems-of-Systems} (SESoS) series started in 2013 to fill a gap in scientific forums addressing SoS from the Software Engineering perspective, becoming the first venue for this purpose. This article presents a study aimed at outlining the evolution and future trajectory of Software Engineering for SoS based on the examination of 57 papers spanning the 11 editions of the SESoS workshop (2013-2023). The study combined scoping review and scientometric analysis methods to categorize and analyze the research contributions concerning temporal and geographic distribution, topics of interest, research methodologies employed, application domains, and research impact. Based on such a comprehensive overview, this article discusses current and future directions in Software Engineering for SoS.
翻訳日:2024-04-11 16:47:58 公開日:2024-04-10
# 変圧器ネットワークの話題

The Topos of Transformer Networks ( http://arxiv.org/abs/2403.18415v2 )

ライセンス: Link先を確認
Mattia Jacopo Villani, Peter McBurney, (参考訳) トランスフォーマーニューラルネットワークは、大きな言語モデルの背後にあるエンジンとして、他のすべてのニューラルネットワークアーキテクチャを大きく上回っている。 本稿では, トポス理論のレンズを用いて, トランスフォーマーアーキテクチャの表現性に関する理論的解析を行う。 この観点から、畳み込み、再帰、グラフ畳み込みなどの多くの一般的なニューラルネットワークアーキテクチャが、片方向線形関数のプリトポに組み込むことができるが、トランスフォーマーはそのトポス完了に必然的に存在することを示す。 特に、このことは、2つのネットワークファミリーが異なる論理の断片をインスタンス化することを示唆している。 さらに、アーキテクチャ探索と勾配降下とを並列に描画し、サイバネティックエージェントの枠組みに分析を統合する。

The transformer neural network has significantly out-shined all other neural network architectures as the engine behind large language models. We provide a theoretical analysis of the expressivity of the transformer architecture through the lens of topos theory. From this viewpoint, we show that many common neural network architectures, such as the convolutional, recurrent and graph convolutional networks, can be embedded in a pretopos of piecewise-linear functions, but that the transformer necessarily lives in its topos completion. In particular, this suggests that the two network families instantiate different fragments of logic: the former are first order, whereas transformers are higher-order reasoners. Furthermore, we draw parallels with architecture search and gradient descent, integrating our analysis in the framework of cybernetic agents.
翻訳日:2024-04-11 16:47:58 公開日:2024-04-10
# マルチフォールトプログラムのためのマイニングバグリポジトリ

Mining Bug Repositories for Multi-Fault Programs ( http://arxiv.org/abs/2403.19171v2 )

ライセンス: Link先を確認
Dylan Callaghan, Bernd Fischer, (参考訳) Defects4JやBugsInPyのような実際のソフトウェアプロジェクトのバグを含むデータセットは、自動デバッグツールの現実的な評価に必要である。 実際のソフトウェアプロジェクト(Defects4JやBugsInPyで使用されているものを含む)には、通常は複数のバグが同時に含まれている。 この制限を解除し、個々のエントリで複数のバグが識別されるデータセットの拡張を記述します。 テストケースの移植とフォールトロケーションの翻訳をそれぞれ使用して,バグの公開と発見を行います。 これにより、実際のソフトウェアプロジェクトにおいて、元のデータセットの特性とユーザビリティを維持するために、真のマルチフォールトバージョンのデータセットを提供する。

Datasets such as Defects4J and BugsInPy that contain bugs from real-world software projects are necessary for a realistic evaluation of automated debugging tools. However these datasets largely identify only a single bug in each entry, while real-world software projects (including those used in Defects4J and BugsInPy) typically contain multiple bugs at the same time. We lift this limitation and describe an extension to these datasets in which multiple bugs are identified in individual entries. We use test case transplantation and fault location translation, in order to expose and locate the bugs, respectively. We thus provide datasets of true multi-fault versions within real-world software projects, which maintain the properties and usability of the original datasets.
翻訳日:2024-04-11 16:47:58 公開日:2024-04-10
# 時間量子消光器:区別可能な光子を持つ核融合ゲート

Temporal quantum eraser: Fusion gates with distinguishable photons ( http://arxiv.org/abs/2404.01516v2 )

ライセンス: Link先を確認
Ziv Aqua, Barak Dayan, (参考訳) フォトニック量子情報処理の可能なツールである線形光学ゲートは、非線形動作を達成するために量子干渉を利用するため、区別不可能な光子に依存する。 しかし、要求される不明瞭さは多光子波動関数の対称性と関係しており、必ずしも同一の光子を含まない。 ここでは、2光子ゲートの場合、入力フォトニック状態の交換対称性を保証することができれば、理想的なゲート演算が取り出すことができることを示す。 具体的には、時間的量子消去器を用いて、パラメトリック光子対生成と単一量子エミッタによる単一光子抽出という、変調不純光子源との融合ゲートを許容する。 同一光子の要求を解除する能力は、線形光学量子情報処理においてかなりの可能性を秘めている。

Linear-optics gates, the enabling tool of photonic quantum information processing, depend on indistinguishable photons, as they harness quantum interference to achieve nonlinear operations. Yet, the required indistinguishability is related to the symmetry of the multiphoton wavefunction, and does not necessarily imply identical photons. Here, we show for the case of two-photon gates that the ideal gate operation can be retrieved if one can guarantee the exchange symmetry of the input photonic state. Specifically, we employ a temporal quantum eraser to allow fusion gates with sources of modally-impure photons: parametric photon pair generation and single-photon extraction by a single quantum emitter. The ability to lift the requirement for identical photons bears considerable potential in linear-optics quantum information processing.
翻訳日:2024-04-11 16:38:14 公開日:2024-04-10
# 線量認識を伴う2相多段PET画像再構成

Two-Phase Multi-Dose-Level PET Image Reconstruction with Dose Level Awareness ( http://arxiv.org/abs/2404.01563v2 )

ライセンス: Link先を確認
Yuchen Fei, Yanmei Luo, Yan Wang, Jiaqi Cui, Yuanyuan Xu, Jiliu Zhou, Dinggang Shen, (参考訳) 放射線被曝を最小限に抑えつつ、高画質のポジトロンエミッショントモグラフィ(PET)を得るために、対応する低線量PET(LPET)画像から標準線量PET(SPET)を再構成する様々な方法が考案されている。 しかしながら、現在のほとんどの方法は、単線量レベルのPET画像とSPET画像のマッピングを単に学習するだけであるが、臨床シナリオにおけるLPET画像の線量差を省略する。 本稿では,多線量レベルのPET画像から高品質なSPET画像を再構成するために,前訓練フェーズとSPET予測フェーズを含む,線量レベルの認識が可能な2相多線量レベルのPET再構成アルゴリズムを設計する。 特に、事前学習フェーズは、きめ細かい識別特徴と効果的な意味表現の両方を探索するために考案された。 SPET予測フェーズは、事前学習した線量レベルを利用して予備結果を生成する粗い予測ネットワークと、詳細を正確に保存する精細化ネットワークとを採用する。 MICCAI 2022 Ultra-low Dose PET Imaging Challenge Dataset 実験により,本手法の優位性を実証した。

To obtain high-quality positron emission tomography (PET) while minimizing radiation exposure, a range of methods have been designed to reconstruct standard-dose PET (SPET) from corresponding low-dose PET (LPET) images. However, most current methods merely learn the mapping between single-dose-level LPET and SPET images, but omit the dose disparity of LPET images in clinical scenarios. In this paper, to reconstruct high-quality SPET images from multi-dose-level LPET images, we design a novel two-phase multi-dose-level PET reconstruction algorithm with dose level awareness, containing a pre-training phase and a SPET prediction phase. Specifically, the pre-training phase is devised to explore both fine-grained discriminative features and effective semantic representation. The SPET prediction phase adopts a coarse prediction network utilizing pre-learned dose level prior to generate preliminary result, and a refinement network to precisely preserve the details. Experiments on MICCAI 2022 Ultra-low Dose PET Imaging Challenge Dataset have demonstrated the superiority of our method.
翻訳日:2024-04-11 16:38:14 公開日:2024-04-10
# 調和振動子の量子電荷

Quantum charges of harmonic oscillators ( http://arxiv.org/abs/2404.01756v2 )

ライセンス: Link先を確認
Alexander D. Popov, (参考訳) 一次元量子調和振動子のリーマン幾何学について論じる。 その波動関数は複素直線束 $L_{\sf{v}}$ の位相空間 $\mathbb{R}^2$ の正則部分である。 エネルギー固有函数 $\psi_n$ と $n\ge 1$ とすると、エネルギー準位 $E_n$ はオービフォールド $\mathbb{R}^2/\mathbb{Z}_n$ 上の複素座標であり、$L_{\sf{v}}$ に埋め込まれ、$\mathbb{Z}_n$ は位数 $n$ の巡回群である。 実際、$\psi_n (t,z)$ は $\mathbb{R}^2/\mathbb{Z}_n$ 上の定常波であり、$z$ は相空間 $\mathbb{R}^2\cong\mathbb{C}$ 上の複素座標である。 振動子は、2つの量子電荷$(q_l^{}, q_{\sf{v}})=(n,1)$, where $q_l^{}=n$は、$\mathbb{R}^2/\mathbb{Z}_n$と$q_{\sf{v}}^{}=1$は、束 $L_{\sf{v}}\to\mathbb{R}^2$と$E_n=\hbar\omega(q_l^{}+\frac{1}{2} q_{\sf{v}})のファイバー上のU(1)-回転の巻数である。 また、反対の量子電荷と同じ正のエネルギーを持つ「反振動子」についても論じる。

We discuss Riemannian geometry of one-dimensional quantum harmonic oscillator. Its wavefunction is a holomorphic section of the complex line bundle $L_{\sf{v}}$ over the phase space $\mathbb{R}^2$. We show that the energy eigenfunctions $\psi_n$ with $n\ge 1$, corresponding to the energy levels $E_n$, are complex coordinates on orbifolds $\mathbb{R}^2/\mathbb{Z}_n$ embedded into $L_{\sf{v}}$, where $\mathbb{Z}_n$ is the cyclic group of order $n$. In fact, $\psi_n (t,z)$ is a standing wave on $\mathbb{R}^2/\mathbb{Z}_n$, where $z$ is a complex coordinate on the phase space $\mathbb{R}^2\cong\mathbb{C}$. Oscillators are characterized by two quantum charges $(q_l^{}, q_{\sf{v}})=(n,1)$, where $q_l^{}=n$ is the winding number for the group U(1) acting on $\mathbb{R}^2/\mathbb{Z}_n$ and $q_{\sf{v}}^{}=1$ is the winding number for the U(1)-rotations on fibres of the bundle $L_{\sf{v}}\to\mathbb{R}^2$, and $E_n=\hbar\omega(q_l^{}+\frac{1}{2} q_{\sf{v}}).$ We also discuss "antioscillators" with opposite quantum charges and the same positive energy.
翻訳日:2024-04-11 16:38:14 公開日:2024-04-10
# EBUS-TBNAにおける肺がん病変解析の高度化に向けて -- 半監督ビデオオブジェクト検出法-

Towards Enhanced Analysis of Lung Cancer Lesions in EBUS-TBNA -- A Semi-Supervised Video Object Detection Method ( http://arxiv.org/abs/2404.01929v2 )

ライセンス: Link先を確認
Jyun-An Lin, Yun-Chien Cheng, Ching-Kai Lin, (参考訳) 本研究の目的は,気管支内視鏡検査(EBUS)による肺病変の診断システムを構築し,病変部位の同定を支援することである。 EBUS-TBNA (EBUS-transbronchial needle aspiration) 術中、医師は病変の位置をグレースケールの超音波画像に頼っている。 しかし、これらの画像は大きなノイズを伴い、周囲の組織や血管の影響を受けやすいため、解釈は困難である。 これまでの研究では、EBUS-TBNAへのオブジェクト検出モデルの適用が欠けており、EBUS-TBNAデータセットに注釈をつけるための明確な解決策は存在していない。 超音波画像の関連研究では、各タスクのターゲット領域の取得に成功しているが、トレーニングと予測は2次元画像に基づいており、時間的特徴を活用して予測を改善する能力が制限されている。 本研究では3次元画像に基づく物体検出モデルを提案する。 時間的相関を捕捉するアテンション機構を利用して,従来のフレームから関連情報を選択するフィルタ機構を実装する。 その後、教師-学生モデルトレーニングアプローチを用いて、未ラベルデータを活用することにより、モデルをさらに最適化する。 学生モデルに対する質の悪い擬似ラベルの影響を軽減するため、擬似ラベルの品質を確保するため、特殊なガウス混合モデル(GMM)を追加する。

This study aims to establish a computer-aided diagnostic system for lung lesions using bronchoscope endobronchial ultrasound (EBUS) to assist physicians in identifying lesion areas. During EBUS-transbronchial needle aspiration (EBUS-TBNA) procedures, physicians rely on grayscale ultrasound images to determine the location of lesions. However, these images often contain significant noise and can be influenced by surrounding tissues or blood vessels, making interpretation challenging. Previous research has lacked the application of object detection models to EBUS-TBNA, and there has been no well-defined solution for annotating the EBUS-TBNA dataset. In related studies on ultrasound images, although models have been successful in capturing target regions for their respective tasks, their training and predictions have been based on two-dimensional images, limiting their ability to leverage temporal features for improved predictions. This study introduces a three-dimensional image-based object detection model. It utilizes an attention mechanism to capture temporal correlations and we will implements a filtering mechanism to select relevant information from previous frames. Subsequently, a teacher-student model training approach is employed to optimize the model further, leveraging unlabeled data. To mitigate the impact of poor-quality pseudo-labels on the student model, we will add a special Gaussian Mixture Model (GMM) to ensure the quality of pseudo-labels.
翻訳日:2024-04-11 16:38:14 公開日:2024-04-10
# 半教師付きセマンティックセマンティックセグメンテーションのための蒸留性パターンによる多層ラベル補正

Multi-Level Label Correction by Distilling Proximate Patterns for Semi-supervised Semantic Segmentation ( http://arxiv.org/abs/2404.02065v2 )

ライセンス: Link先を確認
Hui Xiao, Yuting Hong, Li Dong, Diqun Yan, Jiayan Zhuang, Junjie Xiong, Dongtai Liang, Chengbin Peng, (参考訳) 半教師付きセマンティックセグメンテーションは、ラベルなしデータを活用することで、大規模ラベル付きデータへの依存を緩和する。 最近の半教師付きセマンティックセグメンテーションアプローチは、主にラベルのないデータを利用する擬似ラベル付け手法を利用している。 しかし、信頼できない擬似ラベルは半超越過程を損なう可能性がある。 本稿では,SLG(Semantic-Level Graphs)とCLG(Class-Level Graphs)の構造的関係を把握し,誤った擬似ラベルの修正を目的としたMLLC(Multi-Level Label Correction)アルゴリズムを提案する。 具体的には、SLGはピクセルの特徴のペア間のセマンティック親和性を表現し、CLGはピクセルラベルのペア間の分類を記述している。 グラフからの近接パターン情報のサポートにより、MLLCは誤った予測された擬似ラベルを修正でき、識別的特徴表現を容易にすることができる。 我々は、この効果的なラベル補正機構を訓練し、実行するためのエンドツーエンドネットワークを設計する。 MLLCは、CityscapesとPASCAL VOC 2012データセットの異なるシナリオにおいて、教師付きベースラインを大幅に改善し、最先端のアプローチを上回ることを実証した。 具体的には、MLLCは、それぞれ異なるパーティションプロトコルの下で、DeepLabV2とDeepLabV3+で、教師付きベースラインを少なくとも5%と2%改善する。

Semi-supervised semantic segmentation relieves the reliance on large-scale labeled data by leveraging unlabeled data. Recent semi-supervised semantic segmentation approaches mainly resort to pseudo-labeling methods to exploit unlabeled data. However, unreliable pseudo-labeling can undermine the semi-supervision processes. In this paper, we propose an algorithm called Multi-Level Label Correction (MLLC), which aims to use graph neural networks to capture structural relationships in Semantic-Level Graphs (SLGs) and Class-Level Graphs (CLGs) to rectify erroneous pseudo-labels. Specifically, SLGs represent semantic affinities between pairs of pixel features, and CLGs describe classification consistencies between pairs of pixel labels. With the support of proximate pattern information from graphs, MLLC can rectify incorrectly predicted pseudo-labels and can facilitate discriminative feature representations. We design an end-to-end network to train and perform this effective label corrections mechanism. Experiments demonstrate that MLLC can significantly improve supervised baselines and outperforms state-of-the-art approaches in different scenarios on Cityscapes and PASCAL VOC 2012 datasets. Specifically, MLLC improves the supervised baseline by at least 5% and 2% with DeepLabV2 and DeepLabV3+ respectively under different partition protocols.
翻訳日:2024-04-11 16:38:14 公開日:2024-04-10
# ビジュアルコンセプトコネクトーム(VCC) - 深層モデルにおけるオープンワールド概念発見とその層間接続

Visual Concept Connectome (VCC): Open World Concept Discovery and their Interlayer Connections in Deep Models ( http://arxiv.org/abs/2404.02233v2 )

ライセンス: Link先を確認
Matthew Kowal, Richard P. Wildes, Konstantinos G. Derpanis, (参考訳) 深層ネットワークモデルが学習した表現で捉えるものを理解することは、コンピュータビジョンにおける根本的な課題である。 本稿では、人間の解釈可能な概念とその層間接続を、完全に教師なしの方法で発見する視覚概念接続(VCC)について理解する新しい手法を提案する。 提案手法は,すべての層にまたがる接続重み付けと,ネットワーク構造(階層的概念集合の分岐パターンなど)のグローバル解析に補正可能である。 従来の研究は、単一層から解釈可能な概念を抽出し、分類への影響を調べる方法を提供していたが、ネットワークアーキテクチャ全体にわたって多層の概念分析を行う余裕はなかった。 画像分類領域におけるVCCの有効性は定量的かつ定性的な実験結果によって示されている。 また、フェールモードデバッギングの適用にはVCCを活用して、ディープネットワークにおけるミスの発生場所を明らかにします。

Understanding what deep network models capture in their learned representations is a fundamental challenge in computer vision. We present a new methodology to understanding such vision models, the Visual Concept Connectome (VCC), which discovers human interpretable concepts and their interlayer connections in a fully unsupervised manner. Our approach simultaneously reveals fine-grained concepts at a layer, connection weightings across all layers and is amendable to global analysis of network structure (e.g., branching pattern of hierarchical concept assemblies). Previous work yielded ways to extract interpretable concepts from single layers and examine their impact on classification, but did not afford multilayer concept analysis across an entire network architecture. Quantitative and qualitative empirical results show the effectiveness of VCCs in the domain of image classification. Also, we leverage VCCs for the application of failure mode debugging to reveal where mistakes arise in deep networks.
翻訳日:2024-04-11 16:38:14 公開日:2024-04-10
# 大容量リモートセンシング画像密度予測のためのRS-Mamba

RS-Mamba for Large Remote Sensing Image Dense Prediction ( http://arxiv.org/abs/2404.02668v2 )

ライセンス: Link先を確認
Sijie Zhao, Hao Chen, Xueliang Zhang, Pengfeng Xiao, Lei Bai, Wanli Ouyang, (参考訳) コンテキストモデリングは、リモートセンシング画像密度予測タスクに不可欠である。 今日では、超高解像度(VHR)リモートセンシング画像の増大が、コンテキストを効果的にモデル化する上での課題となっている。 トランスフォーマーモデルにはグローバルなモデリング機能があるが、その2次複雑さのために大きなVHR画像に適用した場合、計算上の問題が発生する。 大きな画像を小さなパッチにトリミングする従来の慣行は、コンテキスト情報の顕著な損失をもたらす。 これらの課題に対処するために,大規模なVHRリモートセンシング画像における高密度予測タスクのためのリモートセンシング・マンバ(RSM)を提案する。 RSMは、大規模なVHR画像の効率的な処理を容易にするために、線形複雑でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。 リモートセンシングのオーバヘッド画像の特徴により、リモートセンシング画像のランドカバーが任意の空間方向に分布していることを考えると、RSMは全方位選択走査モジュールを組み込んで、複数の方向のイメージのコンテキストをグローバルにモデル化し、様々な方向から大きな空間的特徴を捉えている。 土地被覆における意味的セグメンテーションと変化検出タスクの広範囲にわたる実験により,提案手法の有効性が示された。 我々はRSMをベースとした簡易かつ効果的なモデルの設計を行い、VHRリモートセンシング画像における高密度予測タスクの最先端性能を、豪華なトレーニング戦略なしで実現した。 線形複雑性とグローバルモデリング機能を活用して、RSMは大きなリモートセンシング画像上のトランスフォーマーベースモデルよりも効率と精度を向上する。 興味深いことに、我々のモデルは一般的に、高密度な予測タスクにおいて画像サイズを大きくして、より良く機能することを示した。 私たちのコードはhttps://github.com/walking-shadow/Official_Remote_Sensing_Mambaで利用可能です。

Context modeling is critical for remote sensing image dense prediction tasks. Nowadays, the growing size of very-high-resolution (VHR) remote sensing images poses challenges in effectively modeling context. While transformer-based models possess global modeling capabilities, they encounter computational challenges when applied to large VHR images due to their quadratic complexity. The conventional practice of cropping large images into smaller patches results in a notable loss of contextual information. To address these issues, we propose the Remote Sensing Mamba (RSM) for dense prediction tasks in large VHR remote sensing images. RSM is specifically designed to capture the global context of remote sensing images with linear complexity, facilitating the effective processing of large VHR images. Considering that the land covers in remote sensing images are distributed in arbitrary spatial directions due to characteristics of remote sensing over-head imaging, the RSM incorporates an omnidirectional selective scan module to globally model the context of images in multiple directions, capturing large spatial features from various directions. Extensive experiments on semantic segmentation and change detection tasks across various land covers demonstrate the effectiveness of the proposed RSM. We designed simple yet effective models based on RSM, achieving state-of-the-art performance on dense prediction tasks in VHR remote sensing images without fancy training strategies. Leveraging the linear complexity and global modeling capabilities, RSM achieves better efficiency and accuracy than transformer-based models on large remote sensing images. Interestingly, we also demonstrated that our model generally performs better with a larger image size on dense prediction tasks. Our code is available at https://github.com/walking-shadow/Official_Remote_Sensing_Mamba.
翻訳日:2024-04-11 16:38:14 公開日:2024-04-10
# FPT:Few-shot Readabilityアセスメントのための機能プロンプトチューニング

FPT: Feature Prompt Tuning for Few-shot Readability Assessment ( http://arxiv.org/abs/2404.02772v2 )

ライセンス: Link先を確認
Ziyang Wang, Sanwoo Lee, Hsiu-Yuan Huang, Yunfang Wu, (参考訳) プロンプトに基づく手法は、ほとんどの数発のテキスト分類タスクにおいて有望な結果を得た。 しかし,可読性評価タスクにおいては,従来のプロンプト手法では言語知識が欠如しており,すでに必須であることが証明されている。 さらに,従来の言語機能を活用した研究は,いくつかの場面で非破壊的性能を示し,モデル性能を損なう可能性があり,これらの問題に対処するために,FPT(Feature Prompt Tuning)と呼ばれる,豊富な言語知識を取り入れた新しいプロンプトベースのチューニングフレームワークを提案する。 具体的には,テキストから言語的特徴を抽出し,訓練可能なソフトプロンプトに組み込む。 さらに、カテゴリ間の類似度ランキング順序を調整するための新しい損失関数を考案する。 実験結果から,提案手法のFTPは,事前のプロンプトベースチューニング手法よりも優れた性能向上を示すだけでなく,言語的特徴を取り入れた先行手法よりも優れていることが示された。 また,提案手法は大きな言語モデルであるgpt-3.5-turbo-16kよりも優れている。 提案手法は,言語関連タスクへの言語的特徴の適応方法に光を当てる,即時チューニングのための新しいアーキテクチャを確立する。

Prompt-based methods have achieved promising results in most few-shot text classification tasks. However, for readability assessment tasks, traditional prompt methods lackcrucial linguistic knowledge, which has already been proven to be essential. Moreover, previous studies on utilizing linguistic features have shown non-robust performance in few-shot settings and may even impair model performance.To address these issues, we propose a novel prompt-based tuning framework that incorporates rich linguistic knowledge, called Feature Prompt Tuning (FPT). Specifically, we extract linguistic features from the text and embed them into trainable soft prompts. Further, we devise a new loss function to calibrate the similarity ranking order between categories. Experimental results demonstrate that our proposed method FTP not only exhibits a significant performance improvement over the prior best prompt-based tuning approaches, but also surpasses the previous leading methods that incorporate linguistic features. Also, our proposed model significantly outperforms the large language model gpt-3.5-turbo-16k in most cases. Our proposed method establishes a new architecture for prompt tuning that sheds light on how linguistic features can be easily adapted to linguistic-related tasks.
翻訳日:2024-04-11 16:38:14 公開日:2024-04-10
# 超伝導量子回路における制御可能な非エルミート量子ビット結合

Controllable non-Hermitian qubit-qubit Coupling in Superconducting quantum Circuit ( http://arxiv.org/abs/2404.03397v2 )

ライセンス: Link先を確認
Hui Wang, Yan-Jun Zhao, Xun-Wei Xu, (参考訳) 非ハーミティシティを供給する高損失共振器を用いて、可変結合超伝導量子回路におけるエネルギーレベル縮退と量子状態の進化について検討する。 量子ビットの有効エネルギーレベルと減衰速度は超伝導回路で連続的に調整でき、レベル退化点の位置と数は制御可能である。 量子状態交換の効率と量子状態進化の非対称性は、2つの量子ビット間の非エルミート的および非相互結合で調整することができる。 制御不能な非ハーミティシティは超伝導量子回路における非伝統的な量子効果を探索するための新しい洞察と方法を提供する。

With a high-loss resonator supplying the non-Hermiticity, we study the Energy level degeneracy and quantum state evolution in tunable coupling superconducting quantum circuit. The qubit's effective energy level and damping rate can be continually tuned in superconducting circuit, and the positions and numbers of level degenerate points are controllable. The efficient of quantum state exchange and the asymmetry of quantum state evolution can be tuned with non-hermitian and nonreciprocal coupling between two qubits. The controllable non-Hermiticity provides new insights and methods for exploring the unconventional quantum effects in superconducting quantum circuit.
翻訳日:2024-04-11 16:38:14 公開日:2024-04-10
# クラウド環境における高効率かつ効果的なサイバーインシデント検出・応答のためのAI対応システム

AI-Enabled System for Efficient and Effective Cyber Incident Detection and Response in Cloud Environments ( http://arxiv.org/abs/2404.05602v2 )

ライセンス: Link先を確認
Mohammed Ashfaaq M. Farzaan, Mohamed Chahine Ghanem, Ayman El-Hajjar, Deepthi N. Ratnayake, (参考訳) クラウド環境における高度なサイバー脅威の増大は、戦略のパラダイムシフトを必要とする。 サイバー脅威に対する自動的かつ正確な対応の必要性を認識した本研究では,AIとMLの適用について検討し,クラウド環境に対するAIを活用したサイバーインシデント応答システムを提案する。 このシステムは、ネットワークトラフィックの分類、Web侵入検出、事故後のマルウェア分析(Fraskアプリケーションとして構築)を含むもので、Google CloudやMicrosoft Azureのようなプラットフォーム間でシームレスな統合を実現する。 本研究の結果はランダムフォレストモデルの有効性を強調し,ネットワークトラフィック分類器では90%,Malware Analysis Dual Modelでは96%の精度を達成した。 私たちの研究は、AIによるサイバーセキュリティの強みを強調しています。 Random Forestモデルは、サイバー脅威の分類に優れ、効率的で堅牢なソリューションを提供する。 ディープラーニングモデルは精度を大幅に向上し、そのリソース要求はクラウドベースのTPUとGPUを使用して管理できる。 クラウド環境自体は、これらのAI/MLシステムをホストするための完璧なプラットフォームを提供し、コンテナ技術は効率性とスケーラビリティの両方を保証する。 これらの結果は、クラウドにおける堅牢でスケーラブルなサイバーインシデント対応ソリューションを保証する上で、AI主導のシステムが貢献していることを示している。

The escalating sophistication and volume of cyber threats in cloud environments necessitate a paradigm shift in strategies. Recognising the need for an automated and precise response to cyber threats, this research explores the application of AI and ML and proposes an AI-powered cyber incident response system for cloud environments. This system, encompassing Network Traffic Classification, Web Intrusion Detection, and post-incident Malware Analysis (built as a Flask application), achieves seamless integration across platforms like Google Cloud and Microsoft Azure. The findings from this research highlight the effectiveness of the Random Forest model, achieving an accuracy of 90% for the Network Traffic Classifier and 96% for the Malware Analysis Dual Model application. Our research highlights the strengths of AI-powered cyber security. The Random Forest model excels at classifying cyber threats, offering an efficient and robust solution. Deep learning models significantly improve accuracy, and their resource demands can be managed using cloud-based TPUs and GPUs. Cloud environments themselves provide a perfect platform for hosting these AI/ML systems, while container technology ensures both efficiency and scalability. These findings demonstrate the contribution of the AI-led system in guaranteeing a robust and scalable cyber incident response solution in the cloud.
翻訳日:2024-04-11 16:38:14 公開日:2024-04-10
# $μ$-transferの大規模探索

A Large-Scale Exploration of $μ$-Transfer ( http://arxiv.org/abs/2404.05728v2 )

ライセンス: Link先を確認
Lucas Lingle, (参考訳) 大規模ニューラルネットワークモデルは、自然言語処理とコンピュータビジョンの主要な基盤となっているが、その初期化と学習率は、紙から紙、モデルサイズから次のモデルまで様々に、大きくヒューリスティックな方法で設定されている。 この$\mu$-Parameterization($\mu$P)は、これらの課題に対する潜在的な解決策を提供し、モデルの初期化と学習率のスケーリングルールを与え、さまざまなケースで小さなモデルから大きなモデルへのゼロショットハイパーパラメータ転送を可能にすると伝えられている。 明らかな約束にもかかわらず、$\mu$Pのスケーリングルールはまだ広く採用されていない。 本研究は,ユビキタストランスフォーマーアーキテクチャに着目して,実証的に$\mu$Pを調査し,簡単な質問に答えることを目的としている。 2M から 10B のパラメータを持つモデルから、$\mu$-Transfer が重要なケースの大多数を意図したように機能することを示した。 実験コードベースはhttps://github.com/lucaslingle/mu_transformer/で公開しています。

Large neural network models have become a mainstay of natural language processing and computer vision, yet their initialization and learning rates are set in a largely heuristic fashion, potentially varying from paper to paper and one model size to the next. The $\mu$-Parameterization ($\mu$P) offers a potential solution to these challenges, yielding scaling rules for model initialization and learning rates, and reportedly enabling zero-shot hyperparameter transfer from small to large models in a variety of cases. Despite the evident promise, the $\mu$P scaling rules are not yet widely adopted, perhaps due to higher implementation complexity, many variations, or complex theoretical background. This work investigates $\mu$P empirically, focusing on the ubiquitous transformer architecture, and aims to answer a simple question: does $\mu$-Transfer yield optimal learning rates in practice? From models with 2M to 10B parameters, we show that $\mu$-Transfer works as intended for the majority of important cases, but also identify some surprising cases where it may not. Our experiment codebase is available at https://github.com/lucaslingle/mu_transformer/
翻訳日:2024-04-11 16:38:14 公開日:2024-04-10
# フーリエニューラル演算子を用いた流線形海洋力学モデリング:多目的ハイパーパラメータとアーキテクチャ最適化アプローチ

Streamlining Ocean Dynamics Modeling with Fourier Neural Operators: A Multiobjective Hyperparameter and Architecture Optimization Approach ( http://arxiv.org/abs/2404.05768v2 )

ライセンス: Link先を確認
Yixuan Sun, Ololade Sowunmi, Romain Egele, Sri Hari Krishna Narayanan, Luke Van Roekel, Prasanna Balaprakash, (参考訳) 海洋プロセスを学ぶための効果的なディープラーニングモデルを訓練するには、様々なハイパーパラメータの慎重に選択する必要がある。 我々は、拡張性のあるハイパーパラメータ最適化ソフトウェアであるDeepHyperの多目的最適化に先進的な探索アルゴリズムを活用し、海洋モデリングに適したニューラルネットワークの開発を効率化する。 焦点は、複雑な海洋挙動をシミュレート可能なデータ駆動モデルであるフーリエニューラル演算子(FNO)の最適化である。 正しいモデルを選択し、ハイパーパラメータをチューニングするのは難しい作業です。 DeepHyperは、データ前処理、FNOアーキテクチャ関連のハイパーパラメータ、およびさまざまなモデルトレーニング戦略に関連するハイパーパラメータの効率的な探索を可能にする。 我々は,最も高性能なモデルに導かれる最適なハイパーパラメータの集合を得ることを目指している。 さらに,モデルトレーニングにおいて一般的に使用される平均2乗誤差に加えて,負の異常相関係数を付加損失項として適用してモデル性能を向上し,両項間の潜在的なトレードオフを検討することを提案する。 実験結果から, 単一タイムステッピング予測におけるモデル性能の最適セットは, 30日間の長期予測において, 自己回帰ロールアウトにおけるベースライン構成を大きく上回った。 DeepHyperを利用することで、海洋力学予測におけるFNOの利用を向上し、精度を向上したスケーラブルなソリューションを提供することを実証する。

Training an effective deep learning model to learn ocean processes involves careful choices of various hyperparameters. We leverage the advanced search algorithms for multiobjective optimization in DeepHyper, a scalable hyperparameter optimization software, to streamline the development of neural networks tailored for ocean modeling. The focus is on optimizing Fourier neural operators (FNOs), a data-driven model capable of simulating complex ocean behaviors. Selecting the correct model and tuning the hyperparameters are challenging tasks, requiring much effort to ensure model accuracy. DeepHyper allows efficient exploration of hyperparameters associated with data preprocessing, FNO architecture-related hyperparameters, and various model training strategies. We aim to obtain an optimal set of hyperparameters leading to the most performant model. Moreover, on top of the commonly used mean squared error for model training, we propose adopting the negative anomaly correlation coefficient as the additional loss term to improve model performance and investigate the potential trade-off between the two terms. The experimental results show that the optimal set of hyperparameters enhanced model performance in single timestepping forecasting and greatly exceeded the baseline configuration in the autoregressive rollout for long-horizon forecasting up to 30 days. Utilizing DeepHyper, we demonstrate an approach to enhance the use of FNOs in ocean dynamics forecasting, offering a scalable solution with improved precision.
翻訳日:2024-04-11 16:28:25 公開日:2024-04-10
# マルチ露光画像融合のための階層的特徴の強化

Little Strokes Fell Great Oaks: Boosting the Hierarchical Features for Multi-exposure Image Fusion ( http://arxiv.org/abs/2404.06033v2 )

ライセンス: Link先を確認
Pan Mu, Zhiying Du, Jinyuan Liu, Cong Bai, (参考訳) 近年、深層学習ネットワークはマルチ露光画像融合の領域において顕著な進歩を遂げている。 それでも、広く普及しているアプローチは、しばしば過剰に露呈された画像や未公開画像を直接ネットワークに送り込むことによって、ソース画像に存在する固有情報の未利用につながる。 さらに、教師なしの技法は、主にカラーチャネル処理に初歩重み付け和を用い、全体的な不飽和最終画像のトーンに終止符を打つ。 これらの問題を部分的に緩和するため,本研究では,ソース画像に埋め込まれた潜伏情報を完全に活用するガンマ補正モジュールを提案する。 さらに, 自己アテンション機構を取り入れた変圧器ブロックを導入し, 融合プロセスの最適化を行った。 最終的に、複雑な詳細を保存しながら、彩度を増大させる新しい色強調アルゴリズムが提示される。 ソースコードはhttps://github.com/ZhiyingDu/BHFMEFで入手できる。

In recent years, deep learning networks have made remarkable strides in the domain of multi-exposure image fusion. Nonetheless, prevailing approaches often involve directly feeding over-exposed and under-exposed images into the network, which leads to the under-utilization of inherent information present in the source images. Additionally, unsupervised techniques predominantly employ rudimentary weighted summation for color channel processing, culminating in an overall desaturated final image tone. To partially mitigate these issues, this study proposes a gamma correction module specifically designed to fully leverage latent information embedded within source images. Furthermore, a modified transformer block, embracing with self-attention mechanisms, is introduced to optimize the fusion process. Ultimately, a novel color enhancement algorithm is presented to augment image saturation while preserving intricate details. The source code is available at https://github.com/ZhiyingDu/BHFMEF.
翻訳日:2024-04-11 16:28:25 公開日:2024-04-10
# キャッシングとMTSの予測数削減のためのアルゴリズム

Algorithms for Caching and MTS with reduced number of predictions ( http://arxiv.org/abs/2404.06280v2 )

ライセンス: Link先を確認
Karim Abdel Sadek, Marek Elias, (参考訳) ML拡張アルゴリズムは、予測を利用して、最悪のケース境界を超えるパフォーマンスを達成する。 このIm et al '22は、予測を同義に使用するアルゴリズムの研究を導入する動機となった。 我々は,Antoniadisらによって提案された動作予測を用いたキャッシングとTSの類似アルゴリズムを設計し,一貫性(完全予測性能)と滑らかさ(予測誤差依存性)のパラメータに着目した。 キャッシングのアルゴリズムは, 1-consistent, robust, and its smoothness with the decrease of available predictions。 本稿では, 予測数の減少とともに, 整合性と滑らかさが線形にスケールする一般MTSのアルゴリズムを提案する。 利用可能な予測数の制限がなければ、両方のアルゴリズムはAntoniadisらによる以前の保証と一致している。

ML-augmented algorithms utilize predictions to achieve performance beyond their worst-case bounds. Producing these predictions might be a costly operation -- this motivated Im et al. '22 to introduce the study of algorithms which use predictions parsimoniously. We design parsimonious algorithms for caching and MTS with action predictions, proposed by Antoniadis et al. '20, focusing on the parameters of consistency (performance with perfect predictions) and smoothness (dependence of their performance on the prediction error). Our algorithm for caching is 1-consistent, robust, and its smoothness deteriorates with the decreasing number of available predictions. We propose an algorithm for general MTS whose consistency and smoothness both scale linearly with the decreasing number of predictions. Without the restriction on the number of available predictions, both algorithms match the earlier guarantees achieved by Antoniadis et al. '20.
翻訳日:2024-04-11 16:28:25 公開日:2024-04-10
# MuPT: 再生可能なシンボリック音楽事前学習トランス

MuPT: A Generative Symbolic Music Pretrained Transformer ( http://arxiv.org/abs/2404.06393v2 )

ライセンス: Link先を確認
Xingwei Qu, Yuelin Bai, Yinghao Ma, Ziya Zhou, Ka Man Lo, Jiaheng Liu, Ruibin Yuan, Lejun Min, Xueling Liu, Tianyu Zhang, Xinrun Du, Shuyue Guo, Yiming Liang, Yizhi Li, Shangda Wu, Junting Zhou, Tianyu Zheng, Ziyang Ma, Fengze Han, Wei Xue, Gus Xia, Emmanouil Benetos, Xiang Yue, Chenghua Lin, Xu Tan, Stephen W. Huang, Wenhu Chen, Jie Fu, Ge Zhang, (参考訳) 本稿では,Large Language Models (LLM) の事前学習への応用について検討する。 音楽モデリングにおけるMIDIの利用は確立されているが,本研究の結果から,LLMは本質的にABC Notationとの互換性が強く,その設計と強みがより密に一致し,楽曲におけるモデルの性能が向上することが示唆された。 本研究では,複数トラック間のコヒーレンスを維持することを目的としたSMT-ABC Notation(Synchronized Multi-Track ABC Notation)の開発を提案する。 私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。 さらに,シンボリック・ミュージック・スケーリング法(SMS法)がモデル性能に与える影響についても検討した。 この結果は,コミュニティ主導のコミュニティ主導の研究に,我々のオープンソースコントリビューションを通じて幅広いリソースを提供する,音楽生成における将来的な研究の方向性を示すものである。

In this paper, we explore the application of Large Language Models (LLMs) to the pre-training of music. While the prevalent use of MIDI in music modeling is well-established, our findings suggest that LLMs are inherently more compatible with ABC Notation, which aligns more closely with their design and strengths, thereby enhancing the model's performance in musical composition. To address the challenges associated with misaligned measures from different tracks during generation, we propose the development of a Synchronized Multi-Track ABC Notation (SMT-ABC Notation), which aims to preserve coherence across multiple musical tracks. Our contributions include a series of models capable of handling up to 8192 tokens, covering 90% of the symbolic music data in our training set. Furthermore, we explore the implications of the Symbolic Music Scaling Law (SMS Law) on model performance. The results indicate a promising direction for future research in music generation, offering extensive resources for community-led research through our open-source contributions.
翻訳日:2024-04-11 16:28:25 公開日:2024-04-10
# オープンソースソフトウェア開発における民間資金モデル--Scikit-Lernを事例として

Public-private funding models in open source software development: A case study on scikit-learn ( http://arxiv.org/abs/2404.06484v2 )

ライセンス: Link先を確認
Cailean Osborne, (参考訳) 政府は、ソフトウェアセキュリティ、デジタル主権、科学とイノベーションにおける国家的競争性に関する懸念に対処するために、オープンソースソフトウェア(OSS)開発のための資金をますます割り当てている。 政府資金の発表は一般的にOSS開発者によって好意的に受け入れられていますが、OSS開発者が他のタイプの資金調達と比較して、そのような資金の相対的なメリットと欠点を評価することは、依然として限定的な理解を持っています。 本稿では、研究助成金、商業スポンサーシップ、コミュニティ寄付、フランスの人工知能戦略からの3200万ユーロの助成金を組み合わせた機械学習のためのPythonライブラリであるScikit-learnのケーススタディを通して、この問題を探求する。 本研究は,シキット・ラーンのメンテナと資金提供者に対する25回のインタビューを通じて,研究と実践に2つの重要な貢献をしている。 この研究は、メンテナがデジタルパブリックグッズとしてのシキット・ラーン(Scikit-Lern)の継続的な供給を確保するため、また、プロジェクトのコミュニティの倫理を守るために、資金の多様化とガバナンスのプロトコルの重要性を保証するために、パブリックとプライベートの資金をプロジェクトへ織り込んだ方法を説明する。 第二に、様々な利害関係者に実践的なレコメンデーションを提供する。 OSS開発者コミュニティでは、さまざまな資金源のメリットと欠点のバランスをとる上で、さまざまな資金モデルのメリットを説明している。 企業にとって、開発者やOSSプロジェクトのスポンサーがOSSメンテナを大いにサポートできることを思い出させるのに役立つ。 政府にとって、新しいOSSライブラリや機能の開発に加えて、既存のOSSのメンテナンスに資金を投入することの重要性を強調している。 この論文は今後の研究の方向性を示唆して締めくくっている。

Governments are increasingly allocating funding for open source software (OSS) development to address concerns related to software security, digital sovereignty, and national competitiveness in science and innovation, amongst others. While announcements of governmental funding are generally well-received by OSS developers, we still have a limited understanding of OSS developers evaluate the relative benefits and drawbacks of such funding compared to other types of funding. This paper explores this question through a case study on scikit-learn, a Python library for machine learning, whose funding model combines research grants, commercial sponsorship, community donations, and a 32 million euro grant from the France's artificial intelligence strategy. Through 25 interviews with scikit-learn's maintainers and funders, this study makes two key contributions to research and practice. First, the study illustrates how the maintainers have weaved public and private funding into their project to ensure the continued provision of scikit-learn as a digital public good, as well as the importance of diversified funding and governance protocols for funding to safeguard the community ethos of the project. Second, it offers practical recommendations to various stakeholders. For OSS developer communities, it illustrates the benefits of a diversified funding model in balancing the merits and drawbacks of different funding sources. For companies, it serves as a reminder that sponsoring developers or OSS projects can significantly support OSS maintainers, who often struggle with limited resources and towering workloads. For governments, it emphasises the importance of funding the maintenance of existing OSS in addition to or exclusively funding the development of new OSS libraries or features. The paper concludes with suggestions for future research directions.
翻訳日:2024-04-11 16:28:25 公開日:2024-04-10
# スコアベース拡散モデルにおけるスコア埋め込みを用いた効率的なDenoising

Efficient Denoising using Score Embedding in Score-based Diffusion Models ( http://arxiv.org/abs/2404.06661v1 )

ライセンス: Link先を確認
Andrew S. Na, William Gao, Justin W. L. Wan, (参考訳) スコアベース拡散モデルの学習には数万のエポックとかなりの量の画像データが必要であることはよく知られている。 本稿では,スコアベース拡散モデルの学習効率を向上させることを提案する。 本手法により,拡散モデルの学習に必要なエポック数を削減することができる。 対数密度Fokker-Planck (FP) 方程式を数値的に解き、スコアを演算する。 事前に計算されたスコアを画像に埋め込んで、ワッサースタイン距離でのトレーニングを高速化する。 これにより、正確なスコアを学習するためにニューラルネットワークをトレーニングするために必要な画像の数を削減できます。 本研究では,提案手法の性能向上を,従来のスコアベース拡散モデルと比較した数値実験により実証した。 提案手法は,標準手法に類似した品質を有意に高速化する。

It is well known that training a denoising score-based diffusion models requires tens of thousands of epochs and a substantial number of image data to train the model. In this paper, we propose to increase the efficiency in training score-based diffusion models. Our method allows us to decrease the number of epochs needed to train the diffusion model. We accomplish this by solving the log-density Fokker-Planck (FP) Equation numerically to compute the score \textit{before} training. The pre-computed score is embedded into the image to encourage faster training under slice Wasserstein distance. Consequently, it also allows us to decrease the number of images we need to train the neural network to learn an accurate score. We demonstrate through our numerical experiments the improved performance of our proposed method compared to standard score-based diffusion models. Our proposed method achieves a similar quality to the standard method meaningfully faster.
翻訳日:2024-04-11 15:59:05 公開日:2024-04-10
# 法医学的トレース歪みを用いたマルチモーダル文書提示攻撃検出

Multi-modal Document Presentation Attack Detection With Forensics Trace Disentanglement ( http://arxiv.org/abs/2404.06663v1 )

ライセンス: Link先を確認
Changsheng Chen, Yongyi Deng, Liangwei Lin, Zitong Yu, Zhimao Lai, (参考訳) 文書提示攻撃検出(DPAD)は,文書画像の真正性を保護する重要な手段である。 しかし、最近のDPAD手法では、追加データの収集や取得装置のパラメータの把握など、追加のリソースが要求されている。 本研究では,上記の欠点を伴わないマルチモーダル・ディスタングル・トレース(MMDT)に基づくDPAD法を提案する。 まず、自己教師付き不整合合成ネットワークにより、再構成されたトレースを切断し、異なる内容とレイアウトを持つ文書画像の一般化能力を高める。 そして、RGB領域のデータのみに依存する既存のDPADアプローチとは異なり、RGB/トレース機能を効率的に融合するための適応型マルチモーダルアダプタを通して、トランスフォーマーバックボーンの新たなモダリティとして、不整合したトレースを明示的に採用することを提案する。 歪んだトレースの可視化は,提案手法の有効性を異なる文書内容で確認する。 3つのベンチマークデータセットに対する大規模な実験により、再適応歪みの法医学的痕跡を表すMMDT法が優れていることが示された。

Document Presentation Attack Detection (DPAD) is an important measure in protecting the authenticity of a document image. However, recent DPAD methods demand additional resources, such as manual effort in collecting additional data or knowing the parameters of acquisition devices. This work proposes a DPAD method based on multi-modal disentangled traces (MMDT) without the above drawbacks. We first disentangle the recaptured traces by a self-supervised disentanglement and synthesis network to enhance the generalization capacity in document images with different contents and layouts. Then, unlike the existing DPAD approaches that rely only on data in the RGB domain, we propose to explicitly employ the disentangled recaptured traces as new modalities in the transformer backbone through adaptive multi-modal adapters to fuse RGB/trace features efficiently. Visualization of the disentangled traces confirms the effectiveness of the proposed method in different document contents. Extensive experiments on three benchmark datasets demonstrate the superiority of our MMDT method on representing forensic traces of recapturing distortion.
翻訳日:2024-04-11 15:59:05 公開日:2024-04-10
# 文化チーム:多文化知識の不足に対処するAI支援型インタラクティブレッドチーム

CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge ( http://arxiv.org/abs/2404.06664v1 )

ライセンス: Link先を確認
Yu Ying Chiu, Liwei Jiang, Maria Antoniak, Chan Young Park, Shuyue Stella Li, Mehar Bhatia, Sahithya Ravi, Yulia Tsvetkov, Vered Shwartz, Yejin Choi, (参考訳) 最前線の大規模言語モデル(LLM)は、歪んだ文化的背景を持つ研究者や実践家によって開発され、歪んだ情報源を持つデータセットに基づいている。 しかし、LLMの多文化知識の欠如は、現在のベンチマーク開発手法では効果的に評価できない。 既存の多文化評価は主に、高価で制限された人間のアノテーションや、時代遅れのインターネットリソースに依存している。 したがって、彼らは文化的規範の複雑さ、ダイナミクス、多様性を捉えるのに苦労している。 LLMが生成するベンチマークは有望だが、彼らが測定するのと同じバイアスを伝播するリスクがある。 人間のアノテータの創造性と専門的な文化的知識とLLMベースの自動化のスケーラビリティと標準化性を相乗化するために,我々は,人間とAIのコラボレーションを活用し,LLMの多文化的知識を評価するための真に困難な評価データセットを構築するために,アノテータの能力と経験を改善しつつ,インタラクティブなレッドチームシステムであるCulturalTeamingを紹介した。 我々の研究は、CulturalTeamingのAIアシストの様々なモードが、現代のLSMがゲーミフィケードな方法で失敗する文化的な疑問を生み出すのにアノテータを支援することを明らかにした。 重要なことは、AIアシストのレベルが高まったこと(LLM生成のヒントなど)により、ユーザーは自分自身の創造性を高めて、より難しい質問を作成できるようになる。 CULTURALBENCH-V0.1は、ユーザによるリピートの試みによるコンパクトで高品質な評価データセットであり、現代のLLMのさまざまなファミリーが37.7%から72.2%の精度で実行し、LLMの多文化的習熟度に顕著なギャップがあることを明らかにする。

Frontier large language models (LLMs) are developed by researchers and practitioners with skewed cultural backgrounds and on datasets with skewed sources. However, LLMs' (lack of) multicultural knowledge cannot be effectively assessed with current methods for developing benchmarks. Existing multicultural evaluations primarily rely on expensive and restricted human annotations or potentially outdated internet resources. Thus, they struggle to capture the intricacy, dynamics, and diversity of cultural norms. LLM-generated benchmarks are promising, yet risk propagating the same biases they are meant to measure. To synergize the creativity and expert cultural knowledge of human annotators and the scalability and standardizability of LLM-based automation, we introduce CulturalTeaming, an interactive red-teaming system that leverages human-AI collaboration to build truly challenging evaluation dataset for assessing the multicultural knowledge of LLMs, while improving annotators' capabilities and experiences. Our study reveals that CulturalTeaming's various modes of AI assistance support annotators in creating cultural questions, that modern LLMs fail at, in a gamified manner. Importantly, the increased level of AI assistance (e.g., LLM-generated revision hints) empowers users to create more difficult questions with enhanced perceived creativity of themselves, shedding light on the promises of involving heavier AI assistance in modern evaluation dataset creation procedures. Through a series of 1-hour workshop sessions, we gather CULTURALBENCH-V0.1, a compact yet high-quality evaluation dataset with users' red-teaming attempts, that different families of modern LLMs perform with accuracy ranging from 37.7% to 72.2%, revealing a notable gap in LLMs' multicultural proficiency.
翻訳日:2024-04-11 15:49:13 公開日:2024-04-10
# マルチモーダル設定における深部生成データ同化

Deep Generative Data Assimilation in Multimodal Setting ( http://arxiv.org/abs/2404.06665v1 )

ライセンス: Link先を確認
Yongquan Qu, Juan Nathaniel, Shuolin Li, Pierre Gentine, (参考訳) 物理知識とデータのロバストな統合は、地球系モデルのような計算シミュレーションを改善する鍵となる。 データ同化は、リモートセンシング画像や地上局計測を含む、不確実な定量化を含む、モデル出力を観測で校正するための体系的なフレームワークを提供するため、この目標を達成するために不可欠である。 カルマンフィルタや変分法を含む従来の手法は本質的に線形およびガウス的仮定の単純化に依存しており、計算コストがかかる。 それでも、計算科学の多くの分野でデータ駆動手法が急速に採用され、従来のデータ同化とディープラーニング、特に生成モデルがエミュレートされる可能性がある。 特に拡散に基づく確率的フレームワークは、データ同化原理と大きな重複があり、どちらもベイズ逆フレームワークを用いてサンプルの条件付き生成を可能にする。 これらのモデルは、テキスト条件付き画像生成や画像制御ビデオ合成において顕著な成功を収めている。 同様に、観測条件付き状態キャリブレーションとしてデータ同化をフレーム化することもできる。 本研究では,マルチモーダル・セッティングにおけるスコアベースラテント・アシミレーション(SLAMS)を提案する。 具体的には、気象観測所のデータと元衛星画像とを同化して、垂直温度分布を世界規模で校正する。 広範なアブレーションを通じて、SLAMSは低解像度、ノイズ、スパースなデータ設定でも堅牢であることを示す。 我々の知る限りでは、我々の研究は、実世界のデータセットを用いたマルチモーダルデータ同化に、初めて深層生成フレームワークを適用している。 私たちのコードは、https://github.com/yongquan-qu/SLAMSで利用可能です。

Robust integration of physical knowledge and data is key to improve computational simulations, such as Earth system models. Data assimilation is crucial for achieving this goal because it provides a systematic framework to calibrate model outputs with observations, which can include remote sensing imagery and ground station measurements, with uncertainty quantification. Conventional methods, including Kalman filters and variational approaches, inherently rely on simplifying linear and Gaussian assumptions, and can be computationally expensive. Nevertheless, with the rapid adoption of data-driven methods in many areas of computational sciences, we see the potential of emulating traditional data assimilation with deep learning, especially generative models. In particular, the diffusion-based probabilistic framework has large overlaps with data assimilation principles: both allows for conditional generation of samples with a Bayesian inverse framework. These models have shown remarkable success in text-conditioned image generation or image-controlled video synthesis. Likewise, one can frame data assimilation as observation-conditioned state calibration. In this work, we propose SLAMS: Score-based Latent Assimilation in Multimodal Setting. Specifically, we assimilate in-situ weather station data and ex-situ satellite imagery to calibrate the vertical temperature profiles, globally. Through extensive ablation, we demonstrate that SLAMS is robust even in low-resolution, noisy, and sparse data settings. To our knowledge, our work is the first to apply deep generative framework for multimodal data assimilation using real-world datasets; an important step for building robust computational simulators, including the next-generation Earth system models. Our code is available at: https://github.com/yongquan-qu/SLAMS
翻訳日:2024-04-11 15:49:13 公開日:2024-04-10
# SafeGen: テキスト・ツー・イメージモデルにおける安全でないコンテンツ生成の軽減

SafeGen: Mitigating Unsafe Content Generation in Text-to-Image Models ( http://arxiv.org/abs/2404.06666v1 )

ライセンス: Link先を確認
Xinfeng Li, Yuchen Yang, Jiangyi Deng, Chen Yan, Yanjiao Chen, Xiaoyu Ji, Wenyuan Xu, (参考訳) テキスト・ツー・イメージ(T2I)モデルは,近年,テキスト記述から高品質な画像を生成する上で,顕著な性能を発揮している。 しかし、テキスト・ツー・イメージ・モデルは、特に性的シナリオにおいて、安全でない作業用コンテンツ(NSFW)を生成するために騙される可能性がある。 既存の対策は、主に不適切な入力や出力のフィルタリングや不適切なテキスト埋め込みの抑制に重点を置いている。 本稿では,テキスト・ツー・イメージ・モデルによる安全でないコンテンツ生成をテキストに依存しない方法で軽減するフレームワークであるSafeGenを提案する。 キーとなる考え方は、テキスト入力に関係なく、モデルから安全でない視覚的表現を取り除くことである。 このように、テキスト・ツー・イメージ・モデルは、安全でない視覚表現が内部から妨げられているため、敵のプロンプトに耐性がある。 4つのデータセットで実施された大規模な実験は、良性画像の高忠実性を保ちながら、安全でないコンテンツ生成を緩和するSafeGenの有効性を示している。 SafeGenは8つの最先端のベースラインメソッドを上回り、99.1%の性的なコンテンツ削除性能を達成している。 さらに,我々の構築した対向的プロンプトのベンチマークは,抗NSFW生成法の開発と評価の基盤となる。

Text-to-image (T2I) models, such as Stable Diffusion, have exhibited remarkable performance in generating high-quality images from text descriptions in recent years. However, text-to-image models may be tricked into generating not-safe-for-work (NSFW) content, particularly in sexual scenarios. Existing countermeasures mostly focus on filtering inappropriate inputs and outputs, or suppressing improper text embeddings, which can block explicit NSFW-related content (e.g., naked or sexy) but may still be vulnerable to adversarial prompts inputs that appear innocent but are ill-intended. In this paper, we present SafeGen, a framework to mitigate unsafe content generation by text-to-image models in a text-agnostic manner. The key idea is to eliminate unsafe visual representations from the model regardless of the text input. In this way, the text-to-image model is resistant to adversarial prompts since unsafe visual representations are obstructed from within. Extensive experiments conducted on four datasets demonstrate SafeGen's effectiveness in mitigating unsafe content generation while preserving the high-fidelity of benign images. SafeGen outperforms eight state-of-the-art baseline methods and achieves 99.1% sexual content removal performance. Furthermore, our constructed benchmark of adversarial prompts provides a basis for future development and evaluation of anti-NSFW-generation methods.
翻訳日:2024-04-11 15:49:13 公開日:2024-04-10
# 準周期駆動型可積分量子多体系のスロー緩和

Slow relaxation of quasi-periodically driven integrable quantum many-body systems ( http://arxiv.org/abs/2404.06667v1 )

ライセンス: Link先を確認
Souradeep Ghosh, Sourav Bhattacharjee, Souvik Bandyopadhyay, (参考訳) フィボナッチ駆動を受ける積分多体系における予熱相の出現と安定性について検討した。 周期的でないにもかかわらず、フィボナッチドライブはランダムな駆動プロトコルとは異なり、自己相似構造のために動的制約を導入することが示されている。 摂動解析から、これは駆動の高周波限界において指数関数的に長い予熱相をもたらすと論じられている。 摂動展開における高次項を調べると、摂動記述は、フィボナッチ列の特徴にのみ依存する有限普遍順序で最終的にそのような系において破滅することを示す。 これにより、中低周波および低周波の長時間のエネルギー吸収が開始する。 興味深いことに、摂動解析における効果的なハミルトンの崩壊にもかかわらず、我々は純粋なランダムな駆動とは異なり、遅い対数加熱の時間スケールを観測している。

We study the emergence and stability of a prethermal phase in an integrable many-body system subjected to a Fibonacci drive. Despite not being periodic, Fibonacci drives have been shown to introduce dynamical constraints due to their self-similar structure, unlike random driving protocols. From perturbative analysis, this has been argued to result in an exponentially long prethermal phase in the high frequency limit of driving. Examining higher order terms in the perturbative expansion, we show that the perturbative description breaks down eventually in such systems at a finite universal order, which depends solely on features of the Fibonacci sequence. This leads to an onset of energy absorption at long time scales for intermediate and low driving frequencies. Interestingly, in spite of the breakdown of an effective Hamiltonian in the perturbative analysis, we still observe slow logarithmic heating time-scales, unlike purely random drives.
翻訳日:2024-04-11 15:49:13 公開日:2024-04-10
# 将来予測技術:大規模気象モデルの発展

Forecasting the Future with Future Technologies: Advancements in Large Meteorological Models ( http://arxiv.org/abs/2404.06668v1 )

ライセンス: Link先を確認
Hailong Shu, Yue Wang, Weiwei Song, Huichuang Guo, Zhen Song, (参考訳) 気象予報の分野は、特に深層学習技術を用いた大規模モデルの統合によって大きな変化を遂げている。 本稿では,気象予測におけるこれらのモデルの進歩と応用を概観し,従来の予測手法の転換におけるそれらの役割を強調した。 FourCastNet、Pangu-Weather、GraphCast、ClimaX、FengWuといったモデルは、従来の数値天気予報(NWP)モデルよりも正確で高精度な予測を提供することで、顕著な貢献をしている。 これらのモデルは、畳み込みニューラルネットワーク(CNN)、グラフニューラルネットワーク(GNN)、トランスフォーマーなどの高度なニューラルネットワークアーキテクチャを使用して、さまざまな気象データを処理し、さまざまな時間スケールと空間解像度の予測精度を向上させる。 論文は、データ取得や計算要求を含むこの分野の課題に対処し、モデル最適化とハードウェアの進歩の将来の機会を探る。 これは、人工知能と従来の気象技術の統合を強調し、気象予測の精度を改善し、気候関連の課題に対処するための重要な貢献を約束する。 このシナジーは、気象予報の進化する風景において、大きなモデルを重要なものとして位置づけている。

The field of meteorological forecasting has undergone a significant transformation with the integration of large models, especially those employing deep learning techniques. This paper reviews the advancements and applications of these models in weather prediction, emphasizing their role in transforming traditional forecasting methods. Models like FourCastNet, Pangu-Weather, GraphCast, ClimaX, and FengWu have made notable contributions by providing accurate, high-resolution forecasts, surpassing the capabilities of traditional Numerical Weather Prediction (NWP) models. These models utilize advanced neural network architectures, such as Convolutional Neural Networks (CNNs), Graph Neural Networks (GNNs), and Transformers, to process diverse meteorological data, enhancing predictive accuracy across various time scales and spatial resolutions. The paper addresses challenges in this domain, including data acquisition and computational demands, and explores future opportunities for model optimization and hardware advancements. It underscores the integration of artificial intelligence with conventional meteorological techniques, promising improved weather prediction accuracy and a significant contribution to addressing climate-related challenges. This synergy positions large models as pivotal in the evolving landscape of meteorological forecasting.
翻訳日:2024-04-11 15:49:13 公開日:2024-04-10
# ニュースインタビューのダイアログでコンテキスト依存のパラフレーズを定義し、注釈付けし、検出する

What's Mine becomes Yours: Defining, Annotating and Detecting Context-Dependent Paraphrases in News Interview Dialogs ( http://arxiv.org/abs/2404.06670v1 )

ライセンス: Link先を確認
Anna Wegmann, Tijs van den Broek, Dong Nguyen, (参考訳) カウンセリングやカスタマーサポートといった高いコンフリクトの会話のベストプラクティスには、ほとんど常に前者の講演者を説明するレコメンデーションが含まれています。 パラフレーズ分類はNLPで広く注目されているが、通常、パラフレーズは文脈から独立しており、共通のモデルやデータセットはダイアログ設定には適用されない。 本研究では,対話中のパラフレーズ(例えば,話者1:「本は私のものだ。本はあなたのものだ。」)について検討する。 我々は,文脈に依存した言い回しの運用を行い,対話における言い回しの分類をクラウドワーカーが行うための訓練を開発する。 我々は,NPR と CNN のニュースインタビューから,文脈依存のパラフレーズに注釈を付けた発話ペアを用いたデータセットを提案する。 ラベルのバリエーションの分析を可能にするために、データセットには600の発話ペアに581のアノテーションが含まれている。 In-context Learningとトークン分類モデルを用いた対話における自動パラフレーズ検出の有望な結果を示す。

Best practices for high conflict conversations like counseling or customer support almost always include recommendations to paraphrase the previous speaker. Although paraphrase classification has received widespread attention in NLP, paraphrases are usually considered independent from context, and common models and datasets are not applicable to dialog settings. In this work, we investigate paraphrases in dialog (e.g., Speaker 1: "That book is mine." becomes Speaker 2: "That book is yours."). We provide an operationalization of context-dependent paraphrases, and develop a training for crowd-workers to classify paraphrases in dialog. We introduce a dataset with utterance pairs from NPR and CNN news interviews annotated for context-dependent paraphrases. To enable analyses on label variation, the dataset contains 5,581 annotations on 600 utterance pairs. We present promising results with in-context learning and with token classification models for automatic paraphrase detection in dialog.
翻訳日:2024-04-11 15:49:13 公開日:2024-04-10
# バイオメディカルオープンソースソフトウェア: クルーシアルパッケージと隠れヒーロー

Biomedical Open Source Software: Crucial Packages and Hidden Heroes ( http://arxiv.org/abs/2404.06672v1 )

ライセンス: Link先を確認
Andrew Nesbitt, Boris Veytsman, Daniel Mietchen, Eva Maxfield Brown, James Howison, João Felipe Pimentel, Laurent Hèbert-Dufresne, Stephan Druskat, (参考訳) 研究のための科学ソフトウェアの重要性にもかかわらず、公式には認められず、報酬も与えられないことが多い。 これは、ユーザが目にするソフトウェアパッケージで使われている基礎ライブラリに特に当てはまり、‘hidden’自身である。 資金提供者やその他の組織は、現代の研究が依存する複雑なコンピュータプログラムのネットワークを理解する必要がある。 この作業では、CZ Software Mentions Datasetを使用して、バイオメディカルペーパーで使用されるソフトウェアの依存関係をマッピングし、ソフトウェアエコシステムに不可欠なパッケージを見つけました。 ソフトウェア依存ネットワークの集中度指標を提案し,3つのエコシステム(PyPi,CRAN,Bioconductor)を分析し,最も集中度の高いパッケージを決定する。

Despite the importance of scientific software for research, it is often not formally recognized and rewarded. This is especially true for foundation libraries, which are used by the software packages visible to the users, being ``hidden'' themselves. The funders and other organizations need to understand the complex network of computer programs that the modern research relies upon. In this work we used CZ Software Mentions Dataset to map the dependencies of the software used in biomedical papers and find the packages critical to the software ecosystems. We propose the centrality metrics for the network of software dependencies, analyze three ecosystems (PyPi, CRAN, Bioconductor) and determine the packages with the highest centrality.
翻訳日:2024-04-11 15:49:13 公開日:2024-04-10
# VoiceShop: アイデンティティを保存するゼロショット音声編集のための統一音声合成フレームワーク

VoiceShop: A Unified Speech-to-Speech Framework for Identity-Preserving Zero-Shot Voice Editing ( http://arxiv.org/abs/2404.06674v1 )

ライセンス: Link先を確認
Philip Anastassiou, Zhenyu Tang, Kainan Peng, Dongya Jia, Jiaxin Li, Ming Tu, Yuping Wang, Yuxuan Wang, Mingbo Ma, (参考訳) 入力話者の音色を保ちながら, 年齢, 性別, アクセント, 音声スタイルなどの音声の複数の属性を1つの前方通過で修正できる, 音声音声合成フレームワークであるVoiceShopを提案する。 変換効果の大きさは弱く、分布外話者にはゼロショット能力がない、あるいは合成された出力は、話者の認識するアイデンティティを変える音色リークを示す。 本研究は,フローベースおよびシーケンスツーシーケンスの話者属性編集モジュールを任意に正規化する条件付き拡散バックボーンモデルに基づく,シンプルなモジュラー・フレームワークによる各問題に対する解決策を提案する。 オーディオサンプルはhttps://voiceshopai.github.ioで公開されている。

We present VoiceShop, a novel speech-to-speech framework that can modify multiple attributes of speech, such as age, gender, accent, and speech style, in a single forward pass while preserving the input speaker's timbre. Previous works have been constrained to specialized models that can only edit these attributes individually and suffer from the following pitfalls: the magnitude of the conversion effect is weak, there is no zero-shot capability for out-of-distribution speakers, or the synthesized outputs exhibit timbre leakage which changes the speaker's perceived identity. Our work proposes solutions for each of these issues in a simple modular framework based on a conditional diffusion backbone model with optional normalizing flow-based and sequence-to-sequence speaker attribute-editing modules, whose components can be combined or removed during inference to meet a wide array of tasks without additional model finetuning. Audio samples are available at https://voiceshopai.github.io
翻訳日:2024-04-11 15:49:13 公開日:2024-04-10
# 機械学習システムにおけるクロス層エネルギー最適化に向けて

Toward Cross-Layer Energy Optimizations in Machine Learning Systems ( http://arxiv.org/abs/2404.06675v1 )

ライセンス: Link先を確認
Jae-Won Chung, Mosharaf Chowdhury, (参考訳) 機械学習(ML)と生成AIワークロードの膨大なエネルギー消費は、運用コスト、電力供給、環境サステナビリティに対する負担を減らしている兆候を示さない。 エネルギー効率のハードウェアに関する長い研究にもかかわらず、ZeusとPerseusの2つの最近の研究を通して、MLエネルギー最適化においてソフトウェアが重要な役割を果たすことがわかった。 これは、大規模言語モデル(LLM)には特に当てはまります。 そこで我々は、機械学習システムにおけるエネルギー最適化のための層間アプローチを提案し、ハードウェアは、エネルギー効率の良いソフトウェアをさらに推進するアーキテクチャサポートを提供する一方、ソフトウェアはハードウェアを活用して抽象化し、ハードウェアに依存しないエネルギー効率の向上をもたらす技術を開発する。

The enormous energy consumption of machine learning (ML) and generative AI workloads shows no sign of waning, taking a toll on operating costs, power delivery, and environmental sustainability. Despite a long line of research on energy-efficient hardware, we found that software plays a critical role in ML energy optimization through two recent works: Zeus and Perseus. This is especially true for large language models (LLMs) because their model sizes and, therefore, energy demands are growing faster than hardware efficiency improvements. Therefore, we advocate for a cross-layer approach for energy optimizations in ML systems, where hardware provides architectural support that pushes energy-efficient software further, while software leverages and abstracts the hardware to develop techniques that bring hardware-agnostic energy-efficiency gains.
翻訳日:2024-04-11 15:49:13 公開日:2024-04-10
# 多チャンネル脳波のトポロジカル特徴探索法:ADHD分類への応用

Topological Feature Search Method for Multichannel EEG: Application in ADHD classification ( http://arxiv.org/abs/2404.06676v1 )

ライセンス: Link先を確認
Tianming Cai, Guoying Zhao, Junbin Zang, Chen Zong, Zhidong Zhang, Chenyang Xue, (参考訳) 近年,脳波検査(EEG)による注意欠陥高活動障害(ADHD)の早期診断が研究者の注目を集めている。 脳波は、その迅速性と効率で知られており、ADHDの診断と治療において重要な役割を担っている。 しかし、脳波信号の非定常性と物体間変動は、診断と分類プロセスに困難をもたらす。 トポロジカルデータ分析(TDA)は、従来の時間周波数領域の特徴から切り離されたADHD分類の新しい視点を提供する。 しかし,従来のTDAモデルは単一チャネル時系列に制限されており,ノイズの影響を受けやすいため,永続性図のトポロジ的特徴が失われ,ADHDにおけるマルチチャネル脳波に適用可能な拡張TDAアプローチが提案される。 当初、マルチチャネル脳波の最適入力パラメータが決定される。 その後、各チャネルのEEGは相空間再構成(PSR)を行い、続いてk-Power Distance to Measure(k-PDTM)を用いて理想的な点雲を近似する。 そして、多次元時系列を再埋め込みし、TDAを適用してトポロジ的特徴情報を得る。 ガウス関数に基づく多変量カーネル密度推定(MKDE)は、所望のトポロジ的特徴写像をフィルタリングするために、マージ永続化ダイアグラムで用いられる。 最後に, 持続画像(PI)法を用いてトポロジ的特徴を抽出し, 様々な重み付け関数が結果に与える影響について考察し, IEEE ADHDデータセットを用いて評価した。 その結果、精度、感度、特異性はそれぞれ85.60%、83.61%、88.33%に達した。 従来のTDA法と比較して,本手法は改良され,典型的な非線形記述子よりも優れていた。 以上の結果から,本手法は高い精度とロバスト性を示すことが示唆された。

In recent years, the preliminary diagnosis of Attention Deficit Hyperactivity Disorder (ADHD) using electroencephalography (EEG) has garnered attention from researchers. EEG, known for its expediency and efficiency, plays a pivotal role in the diagnosis and treatment of ADHD. However, the non-stationarity of EEG signals and inter-subject variability pose challenges to the diagnostic and classification processes. Topological Data Analysis (TDA) offers a novel perspective for ADHD classification, diverging from traditional time-frequency domain features. Yet, conventional TDA models are restricted to single-channel time series and are susceptible to noise, leading to the loss of topological features in persistence diagrams.This paper presents an enhanced TDA approach applicable to multi-channel EEG in ADHD. Initially, optimal input parameters for multi-channel EEG are determined. Subsequently, each channel's EEG undergoes phase space reconstruction (PSR) followed by the utilization of k-Power Distance to Measure (k-PDTM) for approximating ideal point clouds. Then, multi-dimensional time series are re-embedded, and TDA is applied to obtain topological feature information. Gaussian function-based Multivariate Kernel Density Estimation (MKDE) is employed in the merger persistence diagram to filter out desired topological feature mappings. Finally, persistence image (PI) method is utilized to extract topological features, and the influence of various weighting functions on the results is discussed.The effectiveness of our method is evaluated using the IEEE ADHD dataset. Results demonstrate that the accuracy, sensitivity, and specificity reach 85.60%, 83.61%, and 88.33%, respectively. Compared to traditional TDA methods, our method was effectively improved and outperforms typical nonlinear descriptors. These findings indicate that our method exhibits higher precision and robustness.
翻訳日:2024-04-11 15:49:13 公開日:2024-04-10
# ニューラルオプティマイザ方程式、減衰関数、学習速度スケジュール共同進化

Neural Optimizer Equation, Decay Function, and Learning Rate Schedule Joint Evolution ( http://arxiv.org/abs/2404.06679v1 )

ライセンス: Link先を確認
Brandon Morgan, Dean Hougen, (参考訳) ディープラーニングモデルの品質に対する主要な貢献は、オプティマイザの選択である。 本稿では,ニューラルオプティマイザサーチ(NOS)の領域における新たな二重結合探索空間と整合性チェックを提案し,深層学習オプティマイザの発見プロセスを自動化する。 我々の二重結合探索空間は、更新方程式だけでなく、内部減衰関数やオプティマイザの学習率スケジュールの最適化も同時に行うことができる。 我々は、提案した突然変異のみに基づく粒子ベースの遺伝的アルゴリズムを用いて、領域固有の問題に対して大規模に並列化できる空間を探索する。 我々は,CIFAR-10データセットの候補オプティマイザを小さなConvNetを用いて評価した。 一般化を評価するため、最終オプティマイザはCIFAR-100とTinyImageNetの大規模な画像分類に転送され、また効率の良いNetV2Smallを使用してFlowers102、Cars196、Caltech101で微調整された。 複数のオプティマイザ、学習率スケジュール、Adamの変種が、画像分類タスク全体にわたって、Adamや他の標準的なディープラーニングオプティマイザよりも優れています。

A major contributor to the quality of a deep learning model is the selection of the optimizer. We propose a new dual-joint search space in the realm of neural optimizer search (NOS), along with an integrity check, to automate the process of finding deep learning optimizers. Our dual-joint search space simultaneously allows for the optimization of not only the update equation, but also internal decay functions and learning rate schedules for optimizers. We search the space using our proposed mutation-only, particle-based genetic algorithm able to be massively parallelized for our domain-specific problem. We evaluate our candidate optimizers on the CIFAR-10 dataset using a small ConvNet. To assess generalization, the final optimizers were then transferred to large-scale image classification on CIFAR- 100 and TinyImageNet, while also being fine-tuned on Flowers102, Cars196, and Caltech101 using EfficientNetV2Small. We found multiple optimizers, learning rate schedules, and Adam variants that outperformed Adam, as well as other standard deep learning optimizers, across the image classification tasks.
翻訳日:2024-04-11 15:49:13 公開日:2024-04-10
# Onco-Retriever: 腫瘍学におけるERHレコード検索のための生成分類器

Onco-Retriever: Generative Classifier for Retrieval of EHR Records in Oncology ( http://arxiv.org/abs/2404.06680v1 )

ライセンス: Link先を確認
Shashi Kant Gupta, Aditya Basu, Bradley Taylor, Anai Kothari, Hrituraj Singh, (参考訳) EHRシステムから情報を取得することは、患者旅行に関する特定の質問に答え、臨床ケアのデリバリを改善するために不可欠である。 この事実にもかかわらず、ほとんどのEHRシステムは依然としてキーワードベースの検索に依存している。 生成型大規模言語モデル(LLM)の出現により、情報を取得することにより、より優れた検索と要約能力が得られる。 このようなレトリバーは、任意のクエリに応答するために、Retrieval-augmented Generation (RAG)パイプラインをフィードすることもできる。 しかし、複数の下流ユースケースを解決するために、EHRシステムに含まれる実世界の臨床データから情報を抽出する作業は、クエリ文書支援ペアを作成するのが困難であるため、難しい。 大規模な言語モデルを用いて,このようなデータセットを手頃な方法で作成するための青写真を提供する。 その結果,Ada や Mistral などの腫瘍学データ要素に比べて30-50 F-1 点の検索精度が向上した。 さらに、Onco-Retrieverと呼ばれるモデルと微調整されたPubMedBERTモデルを比較します。 実世界のERHデータを広範囲に手動で評価し、異なるモデルの遅延解析を行い、医療機関がドメイン固有のレトリバーを構築するための道筋を提供する。

Retrieving information from EHR systems is essential for answering specific questions about patient journeys and improving the delivery of clinical care. Despite this fact, most EHR systems still rely on keyword-based searches. With the advent of generative large language models (LLMs), retrieving information can lead to better search and summarization capabilities. Such retrievers can also feed Retrieval-augmented generation (RAG) pipelines to answer any query. However, the task of retrieving information from EHR real-world clinical data contained within EHR systems in order to solve several downstream use cases is challenging due to the difficulty in creating query-document support pairs. We provide a blueprint for creating such datasets in an affordable manner using large language models. Our method results in a retriever that is 30-50 F-1 points better than propriety counterparts such as Ada and Mistral for oncology data elements. We further compare our model, called Onco-Retriever, against fine-tuned PubMedBERT model as well. We conduct an extensive manual evaluation on real-world EHR data along with latency analysis of the different models and provide a path forward for healthcare organizations to build domain-specific retrievers.
翻訳日:2024-04-11 15:49:13 公開日:2024-04-10
# トラクタブル算術回路を用いた因果単位選択

Causal Unit Selection using Tractable Arithmetic Circuits ( http://arxiv.org/abs/2404.06681v1 )

ライセンス: Link先を確認
Haiying Huang, Adnan Darwiche, (参考訳) ユニット選択問題は、因果的コンテキストにおけるオブジェクトの振る舞いを記述する因果的目的関数を最適化する、ユニットと呼ばれるオブジェクトを見つけることを目的としている(例えば、混乱しようとしている顧客を選択するが、奨励された場合、考えを変える可能性が高い)。 初期の研究は、主にデータを使って特定の対物目的関数のクラスを束縛することに焦点を当てていたが、より最近の研究は、メタモデル上の古典的対象に対する因果的目的を正確に減らし、メタモデルに古典的可変除去(VE)アルゴリズムの変種を適用することで、完全に指定された因果的モデルが利用可能であると仮定することで、最適な単位を見つけることができる。 しかし、実際には、この手法を用いて最適な単位を見つけるのは非常にコストがかかる。なぜなら、使用済みのVEアルゴリズムは、元のモデルよりも大きく密度の高いメタモデルの制約木幅で指数関数的である必要があるからである。 制約木幅によって必ずしも制限されないユニット選択に対する新しいアプローチを導入することで、この計算課題に対処する。 これはメタモデルを特別に計算可能な演算回路にコンパイルすることで実現され、回路サイズに線形な時間で最適な単位の計算が可能となる。 提案手法を応用したランダム因果モデルに対する実験結果について述べる。

The unit selection problem aims to find objects, called units, that optimize a causal objective function which describes the objects' behavior in a causal context (e.g., selecting customers who are about to churn but would most likely change their mind if encouraged). While early studies focused mainly on bounding a specific class of counterfactual objective functions using data, more recent work allows one to find optimal units exactly by reducing the causal objective to a classical objective on a meta-model, and then applying a variant of the classical Variable Elimination (VE) algorithm to the meta-model -- assuming a fully specified causal model is available. In practice, however, finding optimal units using this approach can be very expensive because the used VE algorithm must be exponential in the constrained treewidth of the meta-model, which is larger and denser than the original model. We address this computational challenge by introducing a new approach for unit selection that is not necessarily limited by the constrained treewidth. This is done through compiling the meta-model into a special class of tractable arithmetic circuits that allows the computation of optimal units in time linear in the circuit size. We finally present empirical results on random causal models that show order-of-magnitude speedups based on the proposed method for solving unit selection.
翻訳日:2024-04-11 15:49:13 公開日:2024-04-10
# Pseudo-label CorrectionとModality-level Alignmentによる教師なし可視赤外ReID

Unsupervised Visible-Infrared ReID via Pseudo-label Correction and Modality-level Alignment ( http://arxiv.org/abs/2404.06683v1 )

ライセンス: Link先を確認
Yexin Liu, Weiming Zhang, Athanasios V. Vasilakos, Lin Wang, (参考訳) UVI-ReID (unsupervised visible-infrared person re-identification) が近年注目されている。 従来手法では, UVI-ReIDを実現するためにモダリティ内クラスタリングとクロスモダリティ特徴マッチングが用いられていた。 しかし、課題は2つある。 1)クラスタリングの過程でノイズのある擬似ラベルが生成される可能性があり、 2) 可視光度と赤外光度との差分分布を一致させることにより, 2つの光度から異なる光度を誤る可能性がある。 本稿ではまず,解釈可能な一般化上限を導入する理論解析を行う。 そこで本研究では,非教師付きクロスモダリティ人物再識別フレームワーク(PRAISE)を提案する。 具体的には、まず、誤クラスタリングに基づくネットワークのメモリ効果の確率を予測するために、ベータ混合モデルを用いた擬似ラベル補正戦略を提案し、コントラスト学習に知覚項を追加することで対応を正す。 次に、視覚的特徴と赤外線的特徴のラベル付け関数を整列させて、識別的特徴とモダリティ不変特徴を学習することにより、ペア化された可視赤外潜在特徴を生成し、モダリティギャップを低減するモダリティレベルのアライメント戦略を導入する。 2つのベンチマークデータセットによる実験結果から,本手法は教師なし可視光ReID法よりも最先端の性能を実現することが示された。

Unsupervised visible-infrared person re-identification (UVI-ReID) has recently gained great attention due to its potential for enhancing human detection in diverse environments without labeling. Previous methods utilize intra-modality clustering and cross-modality feature matching to achieve UVI-ReID. However, there exist two challenges: 1) noisy pseudo labels might be generated in the clustering process, and 2) the cross-modality feature alignment via matching the marginal distribution of visible and infrared modalities may misalign the different identities from two modalities. In this paper, we first conduct a theoretic analysis where an interpretable generalization upper bound is introduced. Based on the analysis, we then propose a novel unsupervised cross-modality person re-identification framework (PRAISE). Specifically, to address the first challenge, we propose a pseudo-label correction strategy that utilizes a Beta Mixture Model to predict the probability of mis-clustering based network's memory effect and rectifies the correspondence by adding a perceptual term to contrastive learning. Next, we introduce a modality-level alignment strategy that generates paired visible-infrared latent features and reduces the modality gap by aligning the labeling function of visible and infrared features to learn identity discriminative and modality-invariant features. Experimental results on two benchmark datasets demonstrate that our method achieves state-of-the-art performance than the unsupervised visible-ReID methods.
翻訳日:2024-04-11 15:49:13 公開日:2024-04-10
# Atlas-X Equity Financing: 差分プライバシに基づいたAxeインベントリデータをセキュアに隠蔽する新しい方法

Atlas-X Equity Financing: Unlocking New Methods to Securely Obfuscate Axe Inventory Data Based on Differential Privacy ( http://arxiv.org/abs/2404.06686v1 )

ライセンス: Link先を確認
Antigoni Polychroniadou, Gabriele Cipriani, Richard Hua, Tucker Balch, (参考訳) 銀行は選択した顧客に対して利用可能な証券/資産のリスト(xe list)を毎日発行し、金融金利の低下でロング(購入)またはショート(販売)の取引を効果的に見つける手助けをする。 これにより、リストは、長期の取引だけでなく、全ての顧客に対する資産当たりの銀行内企業在庫を集約するので、銀行のコストを削減できる。 しかし、これは、(1)銀行の在庫が明らかにされ、(2)集約されたリストに貢献する顧客の取引、特に大きいと見なされる取引が他の顧客に開示される、という問題である。 銀行と取引可能な規模の取引を行い、総資産の50\%以上を保有している顧客を集中顧客とみなす。 これにより、取引の集中したクライアントの活動が競合他社に明らかになり、市場に対して不公平な優位性をもたらす可能性がある。 Atlas-X Axe Obfuscationは、新しい微分プライベートな手法によって、銀行が発行した軸リストを継続的に観察しながら日常的に難読化することが可能であり、これにより、クライアントのトレーディングアクティビティの漏洩を低減しつつ、ノイズの多い不正な軸リストに関連する、許容可能な在庫と損失(P&L)コストを維持することができる。 我々の主な差分私的革新は、連続的な観測の下で正整数と負整数の両方のストリーム(時系列データ)に対する差分私的アグリゲータである。 過去2年間、アトラスXシステムは主要な金融機関である米国、欧州、アジア・アット・J・P・モーガンの3つの主要地域で生産され、大きな利益をもたらす。 私たちの知る限り、これは金融セクターで展開される最初の差分プライバシーソリューションです。 また、実データと合成データに基づくアルゴリズムのベンチマークを報告し、難読化の品質と生産成功を示す。

Banks publish daily a list of available securities/assets (axe list) to selected clients to help them effectively locate Long (buy) or Short (sell) trades at reduced financing rates. This reduces costs for the bank, as the list aggregates the bank's internal firm inventory per asset for all clients of long as well as short trades. However, this is somewhat problematic: (1) the bank's inventory is revealed; (2) trades of clients who contribute to the aggregated list, particularly those deemed large, are revealed to other clients. Clients conducting sizable trades with the bank and possessing a portion of the aggregated asset exceeding $50\%$ are considered to be concentrated clients. This could potentially reveal a trading concentrated client's activity to their competitors, thus providing an unfair advantage over the market. Atlas-X Axe Obfuscation, powered by new differential private methods, enables a bank to obfuscate its published axe list on a daily basis while under continual observation, thus maintaining an acceptable inventory Profit and Loss (P&L) cost pertaining to the noisy obfuscated axe list while reducing the clients' trading activity leakage. Our main differential private innovation is a differential private aggregator for streams (time series data) of both positive and negative integers under continual observation. For the last two years, Atlas-X system has been live in production across three major regions-USA, Europe, and Asia-at J.P. Morgan, a major financial institution, facilitating significant profitability. To our knowledge, it is the first differential privacy solution to be deployed in the financial sector. We also report benchmarks of our algorithm based on (anonymous) real and synthetic data to showcase the quality of our obfuscation and its success in production.
翻訳日:2024-04-11 15:49:13 公開日:2024-04-10
# CoVoMix:人間のような多話者会話のためのゼロショット音声生成の改善

CoVoMix: Advancing Zero-Shot Speech Generation for Human-like Multi-talker Conversations ( http://arxiv.org/abs/2404.06690v1 )

ライセンス: Link先を確認
Leying Zhang, Yao Qian, Long Zhou, Shujie Liu, Dongmei Wang, Xiaofei Wang, Midia Yousefi, Yanmin Qian, Jinyu Li, Lei He, Sheng Zhao, Michael Zeng, (参考訳) ゼロショット音声合成(TTS)モデリングの最近の進歩は、高忠実で多様な音声を生成するために大きな進歩をもたらした。 しかし、対話生成は、音声における人間のような自然性を達成するとともに、この分野における課題であり続けている。 本稿では,ゼロショット,ヒューマンライク,マルチスピーカ,マルチラウンド音声生成のための新しいモデルであるCoVoMix: Conversational Voice Mixture Generationを紹介する。 CoVoMixは、まず対話テキストを個別トークンの複数のストリームに変換し、各トークンストリームは個々の話者のセマンティック情報を表す。 これらのトークンストリームは、フローマッチングベースの音響モデルに入力され、混合メル-スペクトログラムを生成する。 最後に、HiFi-GANモデルを用いて音声波形を生成する。 さらに、対話モデリングと生成の有効性を測定するための総合的なメトリクスセットを考案する。 実験の結果,CoVoMixは自然性やコヒーレンスにおいて人間に似た対話を生成できるだけでなく,複数の話者が複数ラウンドの会話を行うことができることがわかった。 これらの対話は、1つのチャンネル内で生成され、重なり合う音声や笑いのような適切なパラ言語的行動を含む、シームレスな音声遷移によって特徴づけられる。 オーディオサンプルはhttps://aka.ms/covomix.comで入手できる。

Recent advancements in zero-shot text-to-speech (TTS) modeling have led to significant strides in generating high-fidelity and diverse speech. However, dialogue generation, along with achieving human-like naturalness in speech, continues to be a challenge in the field. In this paper, we introduce CoVoMix: Conversational Voice Mixture Generation, a novel model for zero-shot, human-like, multi-speaker, multi-round dialogue speech generation. CoVoMix is capable of first converting dialogue text into multiple streams of discrete tokens, with each token stream representing semantic information for individual talkers. These token streams are then fed into a flow-matching based acoustic model to generate mixed mel-spectrograms. Finally, the speech waveforms are produced using a HiFi-GAN model. Furthermore, we devise a comprehensive set of metrics for measuring the effectiveness of dialogue modeling and generation. Our experimental results show that CoVoMix can generate dialogues that are not only human-like in their naturalness and coherence but also involve multiple talkers engaging in multiple rounds of conversation. These dialogues, generated within a single channel, are characterized by seamless speech transitions, including overlapping speech, and appropriate paralinguistic behaviors such as laughter. Audio samples are available at https://aka.ms/covomix.
翻訳日:2024-04-11 15:39:25 公開日:2024-04-10
# プラグイン多目的分子生成のための潜在ケミカルスペース探索

Latent Chemical Space Searching for Plug-in Multi-objective Molecule Generation ( http://arxiv.org/abs/2404.06691v1 )

ライセンス: Link先を確認
Ningfeng Liu, Jie Yu, Siyu Xiu, Xinfang Zhao, Siyu Lin, Bo Qiang, Ruqiu Zheng, Hongwei Jin, Liangren Zhang, Zhenming Liu, (参考訳) 新しい薬物構造を特定するための重要な方法である分子生成は、機械学習と計算技術の進歩によって支持されている。 しかし、多目的生成、モデル適応性、薬物発見への実践的応用には課題が残っている。 本研究では, 標的親和性, 薬物類似性, 合成性に関連する複数の目的を組み込んだ多目的「プラグイン」分子生成モデルを構築し, 様々な薬物開発状況においてその応用を容易にした。 PSO-ENPを多目的分子生成の最適変種として同定し, 比較実験によりPSO-ENPを同定した。 モデルはまた、新しいターゲットリガンド親和性予測器を導入し、3次元情報をサポートし、合成可能性を向上させることでモデルの実用性を向上させる。 医薬品のような大海洋天然物の生成と最適化に焦点をあてたケーススタディが実施され、PSO-ENPの有効性が強調され、実用的な薬物発見応用の可能性が示された。

Molecular generation, an essential method for identifying new drug structures, has been supported by advancements in machine learning and computational technology. However, challenges remain in multi-objective generation, model adaptability, and practical application in drug discovery. In this study, we developed a versatile 'plug-in' molecular generation model that incorporates multiple objectives related to target affinity, drug-likeness, and synthesizability, facilitating its application in various drug development contexts. We improved the Particle Swarm Optimization (PSO) in the context of drug discoveries, and identified PSO-ENP as the optimal variant for multi-objective molecular generation and optimization through comparative experiments. The model also incorporates a novel target-ligand affinity predictor, enhancing the model's utility by supporting three-dimensional information and improving synthetic feasibility. Case studies focused on generating and optimizing drug-like big marine natural products were performed, underscoring PSO-ENP's effectiveness and demonstrating its considerable potential for practical drug discovery applications.
翻訳日:2024-04-11 15:39:25 公開日:2024-04-10
# 非対称ブレンディングによる知覚指向ビデオフレーム補間

Perception-Oriented Video Frame Interpolation via Asymmetric Blending ( http://arxiv.org/abs/2404.06692v1 )

ライセンス: Link先を確認
Guangyang Wu, Xin Tao, Changlin Li, Wenyi Wang, Xiaohong Liu, Qingqing Zheng, (参考訳) ビデオフレーム補間(VFI)の従来の手法は、特にぼやけやゴースト効果の顕在化といった問題に直面している。 これらの問題は、避けられない動きの誤りと監督上のミスアライメントの2つの重要な要因に遡ることができる。 実際には、運動推定はエラーを起こしやすいことをしばしば証明し、不整合性をもたらす。 さらに、再建損失は、特に不整合領域において、ぼやけた結果をもたらす傾向にある。 これらの課題を軽減するために,PerVFI(Perception-oriented Video Frame Interpolation)と呼ばれる新しいパラダイムを提案する。 提案手法は, 両辺の特徴を相乗的にブレンドする非対称相乗的ブレンディングモジュール (ASB) を組み込んだものである。 1つの参照フレームは一次コンテンツを強調し、もう1つは補完情報に寄与する。 ブレンディングプロセスに厳密な制約を課すために,ゴーストやアウトプットのぼやけたアーティファクトを効果的に軽減する,自己学習型スパース準バイナリマスクを導入する。 さらに、正規化フローベースジェネレータを用い、負の対数損失を利用して出力の条件分布を学習し、より明確かつ詳細な情報の生成を容易にする。 実験により,PerVFIの優位性が検証され,既存の手法に比べて知覚品質が有意に向上した。 コードは \url{https://github.com/mulns/PerVFI} で入手できる。

Previous methods for Video Frame Interpolation (VFI) have encountered challenges, notably the manifestation of blur and ghosting effects. These issues can be traced back to two pivotal factors: unavoidable motion errors and misalignment in supervision. In practice, motion estimates often prove to be error-prone, resulting in misaligned features. Furthermore, the reconstruction loss tends to bring blurry results, particularly in misaligned regions. To mitigate these challenges, we propose a new paradigm called PerVFI (Perception-oriented Video Frame Interpolation). Our approach incorporates an Asymmetric Synergistic Blending module (ASB) that utilizes features from both sides to synergistically blend intermediate features. One reference frame emphasizes primary content, while the other contributes complementary information. To impose a stringent constraint on the blending process, we introduce a self-learned sparse quasi-binary mask which effectively mitigates ghosting and blur artifacts in the output. Additionally, we employ a normalizing flow-based generator and utilize the negative log-likelihood loss to learn the conditional distribution of the output, which further facilitates the generation of clear and fine details. Experimental results validate the superiority of PerVFI, demonstrating significant improvements in perceptual quality compared to existing methods. Codes are available at \url{https://github.com/mulns/PerVFI}
翻訳日:2024-04-11 15:39:25 公開日:2024-04-10
# 動的3次元走査における動作誤差の2次元自己補償

Binomial Self-compensation for Motion Error in Dynamic 3D Scanning ( http://arxiv.org/abs/2404.06693v1 )

ライセンス: Link先を確認
Geyou Zhang, Ce Zhu, Kai Liu, (参考訳) 位相シフトプロファイロメトリー (PSP) は, 高精度, 堅牢性, 画素ワイド特性により高精度な3次元走査に好適である。 しかしながら、物体が静的でなければならないというPSPの基本的な仮定は、動的測定において破られ、PSPは物体の動きに敏感になり、点雲のリップルのようなエラーをもたらす。 本研究では,4ステップPSPの動作誤差を効果的かつ柔軟に除去するBSCアルゴリズムを提案する。 数理モデルにより、二項係数で重み付けされた連続的な運動影響相フレームを和らげることで、二項次数が増加するにつれて運動誤差は指数関数的に減少し、中間変数の助けなしに、運動影響相シーケンスによる自動誤差補償が達成されることを示した。 広汎な実験により,BSCはカメラの取得速度(90fps)に匹敵する深度マップのフレームレートを実現し,擬似ショットフレームレートで高精度な3D再構成を実現するとともに,従来の動作誤差低減手法よりも優れた性能を示した。

Phase shifting profilometry (PSP) is favored in high-precision 3D scanning due to its high accuracy, robustness, and pixel-wise property. However, a fundamental assumption of PSP that the object should remain static is violated in dynamic measurement, making PSP susceptible to object moving, resulting in ripple-like errors in the point clouds. We propose a pixel-wise and frame-wise loopable binomial self-compensation (BSC) algorithm to effectively and flexibly eliminate motion error in the four-step PSP. Our mathematical model demonstrates that by summing successive motion-affected phase frames weighted by binomial coefficients, motion error exponentially diminishes as the binomial order increases, accomplishing automatic error compensation through the motion-affected phase sequence, without the assistance of any intermediate variable. Extensive experiments show that our BSC outperforms the existing methods in reducing motion error, while achieving a depth map frame rate equal to the camera's acquisition rate (90 fps), enabling high-accuracy 3D reconstruction with a quasi-single-shot frame rate.
翻訳日:2024-04-11 15:39:25 公開日:2024-04-10
# ラベルのないデータでバックドアを作るには?

How to Craft Backdoors with Unlabeled Data Alone? ( http://arxiv.org/abs/2404.06694v1 )

ライセンス: Link先を確認
Yifei Wang, Wenhan Ma, Yisen Wang, (参考訳) ラベルのないデータのみに基づいて、セルフ教師付き学習(SSL)は、経済的かつスケーラブルな方法でリッチな機能を学ぶことができる。 基盤モデル構築の原動力として、SSLは最近広範囲のアプリケーションで注目を集めており、バックドア攻撃が大きな脅威となるというセキュリティ上の懸念も浮き彫りになっている。 この研究の目的は、この潜在的なリスクを調査することである。 既存のバックドアはすべて、SSLでは利用できないかもしれない大量の \emph{labeled} データが必要です。 この制限を回避するために、ラベルなしのバックドアと呼ばれる、ラベルなしのデータのみにアクセス可能な、より制限のある設定を探索する。 本稿では, 疑似ラベルを用いたクラスタリングに基づく選別と, 相互情報原理に基づくコントラスト選択の2つの方法を提案する。 CIFAR-10とImageNet-100の実験では、ラベルなしバックドアは多くのSSLメソッドで有効であり、ランダムな毒を大きなマージンで上回っている。 コードはhttps://github.com/PKU-ML/nlb.comから入手できる。

Relying only on unlabeled data, Self-supervised learning (SSL) can learn rich features in an economical and scalable way. As the drive-horse for building foundation models, SSL has received a lot of attention recently with wide applications, which also raises security concerns where backdoor attack is a major type of threat: if the released dataset is maliciously poisoned, backdoored SSL models can behave badly when triggers are injected to test samples. The goal of this work is to investigate this potential risk. We notice that existing backdoors all require a considerable amount of \emph{labeled} data that may not be available for SSL. To circumvent this limitation, we explore a more restrictive setting called no-label backdoors, where we only have access to the unlabeled data alone, where the key challenge is how to select the proper poison set without using label information. We propose two strategies for poison selection: clustering-based selection using pseudolabels, and contrastive selection derived from the mutual information principle. Experiments on CIFAR-10 and ImageNet-100 show that both no-label backdoors are effective on many SSL methods and outperform random poisoning by a large margin. Code will be available at https://github.com/PKU-ML/nlb.
翻訳日:2024-04-11 15:39:25 公開日:2024-04-10
# 弱ストロング除去によるマルチカメラ3次元物体検出のスケーリング

Scaling Multi-Camera 3D Object Detection through Weak-to-Strong Eliciting ( http://arxiv.org/abs/2404.06700v1 )

ライセンス: Link先を確認
Hao Lu, Jiaqi Tang, Xinli Xu, Xu Cao, Yunpeng Zhang, Guoqing Wang, Dalong Du, Hao Chen, Yingcong Chen, (参考訳) 鳥眼ビュー(BEV)表現によるマルチカメラ3Dオブジェクト検出(MC3D-Det)の出現は、3Dオブジェクト検出における顕著な進歩を示す。 MC3D-Detのスケールトレーニングは、MC3D-Detの基礎モデルへの道を開くために、様々なカメラパラメータと都市景観を効果的に適応する。 しかし, MC3D-Det法の多視点融合段階は, 改良能力の周囲を囲むのではなく, トレーニング中の単分子知覚に頼っている。 そこで本研究では,ロバストな単眼知覚を維持しつつ,サラウンドリファインメントの強化を目的とした弱強誘引フレームワークを提案する。 特に、我々のフレームワークは、異なるサブセットで訓練された弱い調整された専門家を採用しており、それぞれが固有のカメラ構成やシナリオに偏っている。 これらの偏見のある専門家は、単分子変性の知覚を学ぶことができ、多視点融合の段階が精細化能力を高めるのに役立つ。 さらに,2次元基礎モデルの普遍的知識とタスク固有情報を統合するため,複合蒸留戦略を提案する。 最後に、MC3D-Det共同トレーニングにおいて、不整合カメラ数とカメラパラメータの問題を解決するために、詳細なデータセットマージ戦略を設計する。 我々はMC3D-Detのための複数のデータセット共同トレーニングベンチマークを作成し、既存の手法を適切に評価した。 さらに、提案するフレームワークは、複数のベースラインに対して一般化され、重要な向上をもたらすことを実証する。 私たちのコードは \url{https://github.com/EnVision-Research/Scale-BEV} にあります。

The emergence of Multi-Camera 3D Object Detection (MC3D-Det), facilitated by bird's-eye view (BEV) representation, signifies a notable progression in 3D object detection. Scaling MC3D-Det training effectively accommodates varied camera parameters and urban landscapes, paving the way for the MC3D-Det foundation model. However, the multi-view fusion stage of the MC3D-Det method relies on the ill-posed monocular perception during training rather than surround refinement ability, leading to what we term "surround refinement degradation". To this end, our study presents a weak-to-strong eliciting framework aimed at enhancing surround refinement while maintaining robust monocular perception. Specifically, our framework employs weakly tuned experts trained on distinct subsets, and each is inherently biased toward specific camera configurations and scenarios. These biased experts can learn the perception of monocular degeneration, which can help the multi-view fusion stage to enhance surround refinement abilities. Moreover, a composite distillation strategy is proposed to integrate the universal knowledge of 2D foundation models and task-specific information. Finally, for MC3D-Det joint training, the elaborate dataset merge strategy is designed to solve the problem of inconsistent camera numbers and camera parameters. We set up a multiple dataset joint training benchmark for MC3D-Det and adequately evaluated existing methods. Further, we demonstrate the proposed framework brings a generalized and significant boost over multiple baselines. Our code is at \url{https://github.com/EnVision-Research/Scale-BEV}.
翻訳日:2024-04-11 15:39:25 公開日:2024-04-10
# 畳み込みに基づくセマンティックセグメンテーションのための確率勾配損失

Convolution-based Probability Gradient Loss for Semantic Segmentation ( http://arxiv.org/abs/2404.06704v1 )

ライセンス: Link先を確認
Guohang Shan, Shuangcheng Jia, (参考訳) 本稿では,意味的セグメンテーションのための新しいConvolution-based Probability Gradient (CPG)ロスを提案する。 ソベル演算子に似た畳み込みカーネルを使用し、画像中のピクセル強度の勾配を計算することができる。 これにより、グラウンドトルースと予測されたカテゴリワイド確率の両方の勾配の計算が可能となる。 これら2つの確率勾配の類似性を最大化することでネットワーク性能を向上させる。 さらに, 物体の境界付近の精度を高めるために, 接地確率勾配に基づいて物体境界を抽出し, CPG損失を境界に属する画素に限定的に適用する。 CPGの喪失は、非常に便利で効果的であることが証明されている。 畳み込みによる画素関係を確立し、クロスエントロピー損失のような画素単位の損失関数と比較して、異なる次元からの誤差を計算する。 我々は3つの標準セグメンテーションデータセット(Cityscapes, COCO-Stuff, ADE20K)において, CPG損失が3つの確立されたネットワーク(DeepLabv3-Resnet50, HRNetV2-OCR, LRASPP_MobileNet_V3_Large)に与える影響を評価するための質的および定量的解析を行った。 得られた実験結果から, CPG損失は, ユニオン平均断面積を増大させることが明らかとなった。

In this paper, we introduce a novel Convolution-based Probability Gradient (CPG) loss for semantic segmentation. It employs convolution kernels similar to the Sobel operator, capable of computing the gradient of pixel intensity in an image. This enables the computation of gradients for both ground-truth and predicted category-wise probabilities. It enhances network performance by maximizing the similarity between these two probability gradients. Moreover, to specifically enhance accuracy near the object's boundary, we extract the object boundary based on the ground-truth probability gradient and exclusively apply the CPG loss to pixels belonging to boundaries. CPG loss proves to be highly convenient and effective. It establishes pixel relationships through convolution, calculating errors from a distinct dimension compared to pixel-wise loss functions such as cross-entropy loss. We conduct qualitative and quantitative analyses to evaluate the impact of the CPG loss on three well-established networks (DeepLabv3-Resnet50, HRNetV2-OCR, and LRASPP_MobileNet_V3_Large) across three standard segmentation datasets (Cityscapes, COCO-Stuff, ADE20K). Our extensive experimental results consistently and significantly demonstrate that the CPG loss enhances the mean Intersection over Union.
翻訳日:2024-04-11 15:39:25 公開日:2024-04-10
# CQIL:準独立層の同時計算による推論レイテンシ最適化

CQIL: Inference Latency Optimization with Concurrent Computation of Quasi-Independent Layers ( http://arxiv.org/abs/2404.06709v1 )

ライセンス: Link先を確認
Longwei Zou, Qingyang Wang, Han Zhao, Jiangang Kong, Yi Yang, Yangdong Deng, (参考訳) 急速に成長する大規模言語モデルは、ほぼすべての自然言語処理タスクで前例のないパフォーマンスを実現している。 しかし、大規模言語モデルの有効性は指数関数的に増加するパラメータ数に依存している。 圧倒的な計算複雑性は、ユーザエクスペリエンスに悪影響を及ぼす高い推論遅延を引き起こします。 テンソル並列性や量子化などの推論効率を改善する既存の手法は、層間計算のレイテンシを低減することを目的としているが、レイヤ数による累積遅延を無視する。 しかし、最近のレイヤ削除による累積遅延の低減に関する作業は、大幅なパフォーマンス低下につながっている。 隣接層間の入力の類似性から,推定遅延を著しく低減するために並列に計算できる準非依存層を同定することを提案する。 また,情報損失の影響を緩和するためのバイパス手法も導入する。 LLaMAモデルに対する提案手法の実証実験により、CQIL(Concurrent Computation of Quasi-Independent Layers)はLLaMA-33Bモデルにおいて、性能の密接なレベルを維持しながら、最大48.3%のレイテンシを低減できることを確認した。

The fast-growing large scale language models are delivering unprecedented performance on almost all natural language processing tasks. However, the effectiveness of large language models are reliant on an exponentially increasing number of parameters. The overwhelming computation complexity incurs a high inference latency that negatively affects user experience. Existing methods to improve inference efficiency, such as tensor parallelism and quantization, target to reduce per-layer computing latency, yet overlook the cumulative latency due to the number of layers. Recent works on reducing the cumulative latency through layer removing, however, lead to significant performance drop. Motivated by the similarity of inputs among adjacent layers, we propose to identify quasi-independent layers, which can be concurrently computed to significantly decrease inference latency. We also introduce a bypassing technique to mitigate the effect of information loss. Empirical experiments of the proposed approach on the LLaMA models confirm that Concurrent Computation of Quasi-Independent Layers (CQIL) can reduce latency by up to 48.3% on the LLaMA-33B model, while maintaining a close level of performance.
翻訳日:2024-04-11 15:39:25 公開日:2024-04-10
# SpikeNVS:スパイクカメラによるBlurry画像からの新たなビュー合成

SpikeNVS: Enhancing Novel View Synthesis from Blurry Images via Spike Camera ( http://arxiv.org/abs/2404.06710v1 )

ライセンス: Link先を確認
Gaole Dai, Zhenyu Wang, Qinwen Xu, Wen Cheng, Ming Lu, Boxing Shi, Shanghang Zhang, Tiejun Huang, (参考訳) ニューラルレイディアンス場(NeRF)や3Dガウススプラッティング(3DGS)といったニューラルフィールド法を用いて、鋭いノベルビュー合成(NVS)を実現する上で最も重要な要因の1つは、トレーニング画像の品質である。 しかし、従来のRGBカメラは動きがぼやけやすい。 対照的に、イベントカメラやスパイクカメラのようなニューロモルフィックカメラは、本質的にはより包括的な時間的情報をキャプチャし、追加のトレーニングデータとしてシーンのシャープな表現を提供する。 近年,NVSの品質向上を目的としたイベントカメラの統合が検討されている。 イベント-RGBアプローチには、トレーニングコストの高さや、バックグラウンドで効果的に動作できないことなど、いくつかの制限がある。 その代わりに、スパイクカメラを使ってこれらの制限を克服する新しい方法を紹介した。 スパイクストリームからのテクスチャ再構築を真実として考慮し、スパイク(TfS)損失のテクスチャを設計する。 スパイクカメラは、イベントカメラの時間差ではなく、時間積分に依存しているため、提案したTfS損失は、管理可能なトレーニングコストを維持できる。 背景を持つ前景オブジェクトを同時に処理する。 また、スパイクRGBカメラシステムで捉えた現実世界のデータセットも提供し、将来の研究活動を促進する。 合成および実世界のデータセットを用いて広範な実験を行い、NeRFおよび3DGS間の新規なビュー合成を向上できることを実証する。 コードとデータセットはパブリックアクセスで利用できる。

One of the most critical factors in achieving sharp Novel View Synthesis (NVS) using neural field methods like Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3DGS) is the quality of the training images. However, Conventional RGB cameras are susceptible to motion blur. In contrast, neuromorphic cameras like event and spike cameras inherently capture more comprehensive temporal information, which can provide a sharp representation of the scene as additional training data. Recent methods have explored the integration of event cameras to improve the quality of NVS. The event-RGB approaches have some limitations, such as high training costs and the inability to work effectively in the background. Instead, our study introduces a new method that uses the spike camera to overcome these limitations. By considering texture reconstruction from spike streams as ground truth, we design the Texture from Spike (TfS) loss. Since the spike camera relies on temporal integration instead of temporal differentiation used by event cameras, our proposed TfS loss maintains manageable training costs. It handles foreground objects with backgrounds simultaneously. We also provide a real-world dataset captured with our spike-RGB camera system to facilitate future research endeavors. We conduct extensive experiments using synthetic and real-world datasets to demonstrate that our design can enhance novel view synthesis across NeRF and 3DGS. The code and dataset will be made available for public access.
翻訳日:2024-04-11 15:39:25 公開日:2024-04-10
# MathVC: LLMシミュレーションによる数学教育用マルチキャラクタバーチャル教室

MathVC: An LLM-Simulated Multi-Character Virtual Classroom for Mathematics Education ( http://arxiv.org/abs/2404.06711v1 )

ライセンス: Link先を確認
Murong Yue, Wijdane Mifdal, Yixuan Zhang, Jennifer Suh, Ziyu Yao, (参考訳) 数学モデリング(MM)は、STEM分野の学生にとって基本的なスキルであると考えられている。 MMスキルの実践は、学生がグループディスカッションや協調的な問題解決に参加できる場合に最も効果的であることが多い。 しかし、このような集団活動を監視するために、不均一に分散した教師や教育資源が必要とされるため、学生は必ずしも平等な機会を得られるとは限らない。 興味深いことに、大規模言語モデル(LLM)は、最近、数学的な問題をモデル化し、異なる特性と性質を持つ文字をシミュレートするともに、強力な能力を示した。 本研究は,LLMの進歩からインスピレーションを得て,人間学生がMMスキルを実践できる複数のLLMシミュレーション学生キャラクタを含む,最初のLLM仮想教室であるMATHVCを提示する。 各LLMキャラクタの動作を,特定の数学関連特性(特性アライメント)と,真正な学生MMディスカッション(会話プロシージャアライメント)に近接する全体的な会話手順に合わせるように促すため,シミュレーションにMMドメイン知識を統合すること,文字シミュレーションの基盤として記号スキーマを定義すること,プラットフォームレベルでメタプランナを設計し,会話手順を駆動すること,という3つのイノベーションを提案した。 実験とアブレーション研究を通じてシミュレーション手法の有効性を確認し,MATHVCが将来,実生活の学生に利益をもたらす可能性を示した。

Mathematical modeling (MM) is considered a fundamental skill for students in STEM disciplines. Practicing the MM skill is often the most effective when students can engage in group discussion and collaborative problem-solving. However, due to unevenly distributed teachers and educational resources needed to monitor such group activities, students do not always receive equal opportunities for this practice. Excitingly, large language models (LLMs) have recently demonstrated strong capability in both modeling mathematical problems and simulating characters with different traits and properties. Drawing inspiration from the advancement of LLMs, in this work, we present MATHVC, the very first LLM-powered virtual classroom containing multiple LLM-simulated student characters, with whom a human student can practice their MM skill. To encourage each LLM character's behaviors to be aligned with their specified math-relevant properties (termed "characteristics alignment") and the overall conversational procedure to be close to an authentic student MM discussion (termed "conversational procedural alignment"), we proposed three innovations: integrating MM domain knowledge into the simulation, defining a symbolic schema as the ground for character simulation, and designing a meta planner at the platform level to drive the conversational procedure. Through experiments and ablation studies, we confirmed the effectiveness of our simulation approach and showed the promise for MATHVC to benefit real-life students in the future.
翻訳日:2024-04-11 15:39:25 公開日:2024-04-10
# Llama-VITS:意味的認識によるTS合成の強化

Llama-VITS: Enhancing TTS Synthesis with Semantic Awareness ( http://arxiv.org/abs/2404.06714v1 )

ライセンス: Link先を確認
Xincan Feng, Akifumi Yoshimoto, (参考訳) 自然言語処理(NLP)の最近の進歩は、様々な目的のために高品質なテキストを生成するために、大規模言語モデル(LLM)が優れている。 特に,テキスト音声合成システム(TTS)では,セマンティックトークン生成のためのBERTの統合が,コヒーレント音声出力の生成において意味内容の重要性を強調している。 それにもかかわらず、TS合成の強化におけるLSMの具体的な用途は依然としてかなり限られている。 本研究は,LLMを用いてテキストのセマンティックコンテンツを充実させることにより,TS合成を向上させる,革新的なアプローチであるLlama-VITSを紹介する。 Llama-VITSは、Llama2からのセマンティック埋め込みと、主要なエンドツーエンドTTSフレームワークであるVITSモデルを統合する。 Llama2を一次音声合成プロセスに利用することにより、Llama-VITSが元のVITS(ORI-VITS)とBERT(BERT-VITS)の自然性にマッチすることを示した。 さらに,EmoV_DB_bea_semデータセットの感情的表現性を著しく向上させ,感情的一貫した音声をEmoV_DBデータセットからキュレートし,動機的音声を生成する可能性を強調した。

Recent advancements in Natural Language Processing (NLP) have seen Large-scale Language Models (LLMs) excel at producing high-quality text for various purposes. Notably, in Text-To-Speech (TTS) systems, the integration of BERT for semantic token generation has underscored the importance of semantic content in producing coherent speech outputs. Despite this, the specific utility of LLMs in enhancing TTS synthesis remains considerably limited. This research introduces an innovative approach, Llama-VITS, which enhances TTS synthesis by enriching the semantic content of text using LLM. Llama-VITS integrates semantic embeddings from Llama2 with the VITS model, a leading end-to-end TTS framework. By leveraging Llama2 for the primary speech synthesis process, our experiments demonstrate that Llama-VITS matches the naturalness of the original VITS (ORI-VITS) and those incorporate BERT (BERT-VITS), on the LJSpeech dataset, a substantial collection of neutral, clear speech. Moreover, our method significantly enhances emotive expressiveness on the EmoV_DB_bea_sem dataset, a curated selection of emotionally consistent speech from the EmoV_DB dataset, highlighting its potential to generate emotive speech.
翻訳日:2024-04-11 15:39:25 公開日:2024-04-10
# 密度雲のスパースポイント:LiDARデータによる3次元検出の強化

Sparse Points to Dense Clouds: Enhancing 3D Detection with Limited LiDAR Data ( http://arxiv.org/abs/2404.06715v1 )

ライセンス: Link先を確認
Aakash Kumar, Chen Chen, Ajmal Mian, Neils Lobo, Mubarak Shah, (参考訳) 3D検出は、機械が3次元空間内の物体を識別し、発見できるようにする重要なタスクである。 自律運転、ロボット工学、拡張現実など、さまざまな分野の幅広い応用がある。 モノクロ3D検出は、1台のカメラだけを必要とするため魅力的だが、現実世界のアプリケーションに必要な正確さと堅牢さは欠如している。 一方、高解像度のLiDARは高価であり、アクティブトランスミッションを考えると、大量のトラフィックの干渉問題を引き起こす可能性がある。 単分子と点雲に基づく3次元検出の利点を組み合わせたバランスの取れたアプローチを提案する。 本手法では,低コストで低解像度のセンサから得られる3Dポイントを少数必要としている。 具体的には、512ポイントしか使用していません。これは、KITTIデータセットの完全なLiDARフレームの1%に過ぎません。 本手法は,この制限された3次元情報と1枚の画像を組み合わせた完全3次元点雲を再構成する。 再構成された3D点雲と対応する画像は、任意のマルチモーダルオフザシェルフ検出器によって3Dオブジェクト検出に利用することができる。 既製のマルチモーダル3D検出器を用いたネットワークアーキテクチャにより,最先端モノクル検出法と比較して3D検出の精度は20%向上し,KITTIおよびJackRabbotデータセットのベースラインマルチモーダル法と比較して6%から9%向上した。

3D detection is a critical task that enables machines to identify and locate objects in three-dimensional space. It has a broad range of applications in several fields, including autonomous driving, robotics and augmented reality. Monocular 3D detection is attractive as it requires only a single camera, however, it lacks the accuracy and robustness required for real world applications. High resolution LiDAR on the other hand, can be expensive and lead to interference problems in heavy traffic given their active transmissions. We propose a balanced approach that combines the advantages of monocular and point cloud-based 3D detection. Our method requires only a small number of 3D points, that can be obtained from a low-cost, low-resolution sensor. Specifically, we use only 512 points, which is just 1% of a full LiDAR frame in the KITTI dataset. Our method reconstructs a complete 3D point cloud from this limited 3D information combined with a single image. The reconstructed 3D point cloud and corresponding image can be used by any multi-modal off-the-shelf detector for 3D object detection. By using the proposed network architecture with an off-the-shelf multi-modal 3D detector, the accuracy of 3D detection improves by 20% compared to the state-of-the-art monocular detection methods and 6% to 9% compare to the baseline multi-modal methods on KITTI and JackRabbot datasets.
翻訳日:2024-04-11 15:39:25 公開日:2024-04-10
# AIとアルゴリズムフェアネスにおける人種/民族カテゴリー:なぜそれらが重要で表現されるのか

Racial/Ethnic Categories in AI and Algorithmic Fairness: Why They Matter and What They Represent ( http://arxiv.org/abs/2404.06717v1 )

ライセンス: Link先を確認
Jennifer Mickel, (参考訳) 人種の多様性は、AIとアルゴリズムの公平性文学の中で議論されているが、人種カテゴリーの選択を正当化し、人々がこれらの選択された人種カテゴリーに人種化されているかを理解することにはほとんど注目されていない。 さらに、人種的カテゴリーの変化や、人種化プロセスがデータセットやモデルのコンテキストによってどのように変化するかに注意が払われる。 選抜された人種的カテゴリーと、これらのカテゴリに人種化されている「textit{who}」の明確な理解は、これらのカテゴリの様々な解釈につながる可能性がある。 これらの様々な解釈は、人種分類の理解と人種化のプロセスが実際の人種化のプロセスと使用される人種化のプロセスと誤って一致している場合、害をもたらす可能性がある。 ハームはまた、人種化プロセスと使用される人種分類が適用される文脈に無関係または存在しない場合にも生じる。 本稿では2つのコントリビューションを行う。 まず、不明確な仮定とほとんど正当化されていない人種的カテゴリーが、これらのグループで不十分な人種的カテゴリーやモデルによって隠蔽された、あるいは表現されていないグループを表現する様々なデータセットをいかに生み出すかを示す。 第2に、人種カテゴリーの選択における選択と仮定を文書化するフレームワークであるCIRCSheetsを開発し、これらのカテゴリを選択したり使用する際に、データセットやモデル開発者が作成したプロセスや仮定を透過的に理解できるようにする。

Racial diversity has become increasingly discussed within the AI and algorithmic fairness literature, yet little attention is focused on justifying the choices of racial categories and understanding how people are racialized into these chosen racial categories. Even less attention is given to how racial categories shift and how the racialization process changes depending on the context of a dataset or model. An unclear understanding of \textit{who} comprises the racial categories chosen and \textit{how} people are racialized into these categories can lead to varying interpretations of these categories. These varying interpretations can lead to harm when the understanding of racial categories and the racialization process is misaligned from the actual racialization process and racial categories used. Harm can also arise if the racialization process and racial categories used are irrelevant or do not exist in the context they are applied. In this paper, we make two contributions. First, we demonstrate how racial categories with unclear assumptions and little justification can lead to varying datasets that poorly represent groups obfuscated or unrepresented by the given racial categories and models that perform poorly on these groups. Second, we develop a framework, CIRCSheets, for documenting the choices and assumptions in choosing racial categories and the process of racialization into these categories to facilitate transparency in understanding the processes and assumptions made by dataset or model developers when selecting or using these racial categories.
翻訳日:2024-04-11 15:39:25 公開日:2024-04-10
# Oracleの複雑さと実現可能性問題に対するメモリトレードオフにおいて、グラディエントDescentは最適である

Gradient Descent is Pareto-Optimal in the Oracle Complexity and Memory Tradeoff for Feasibility Problems ( http://arxiv.org/abs/2404.06720v1 )

ライセンス: Link先を確認
Moise Blanchard, (参考訳) 本稿では, 分離オラクルにアクセスできるメモリ制約アルゴリズムを用いて, 与えられた集合の点を求めるために, オラクル複雑性の低い境界を提供する。 集合は単位$d$-次元球の中に含まれ、既知の半径$\epsilon>0$の球を含むと仮定する。 この設定は一般に実現可能性問題と呼ばれる。 精度$\epsilon \geq e^{-d^{o(1)}}$で実現可能な問題を解決するために、任意の決定論的アルゴリズムは、$d^{1+\delta}$ bits of memoryを使用するか、少なくとも$1/(d^{0.01\delta }\epsilon^{2\frac{1-\delta}{1+1.01 \delta}-o(1)})$ oracle query, for any $\delta\in[0,1]$とする。 さらに、ランダム化されたアルゴリズムは、$d^{1+\delta}$メモリを使用するか、少なくとも$1/(d^{2\delta} \epsilon^{2(1-4\delta)-o(1)})$クエリを$\delta\in[0,\frac{1}{4}]$にします。 勾配降下は線形メモリ$\mathcal O(d\ln 1/\epsilon)$のみを使用するが、$\Omega(1/\epsilon^2)$クエリを生成するので、オラクルの複雑性/メモリトレードオフではPareto-Optimalであることが示唆される。 さらに,決定論的アルゴリズムのオラクル複雑性が1/\epsilon$の多項式であることを示す。 これは、二次的な$\mathcal O(d^2 \ln1/\epsilon)$メモリで、カットプレーンメソッドは$\mathcal O(d\ln 1/\epsilon)$クエリしか必要としないため、鋭い位相遷移が明らかになる。

In this paper we provide oracle complexity lower bounds for finding a point in a given set using a memory-constrained algorithm that has access to a separation oracle. We assume that the set is contained within the unit $d$-dimensional ball and contains a ball of known radius $\epsilon>0$. This setup is commonly referred to as the feasibility problem. We show that to solve feasibility problems with accuracy $\epsilon \geq e^{-d^{o(1)}}$, any deterministic algorithm either uses $d^{1+\delta}$ bits of memory or must make at least $1/(d^{0.01\delta }\epsilon^{2\frac{1-\delta}{1+1.01 \delta}-o(1)})$ oracle queries, for any $\delta\in[0,1]$. Additionally, we show that randomized algorithms either use $d^{1+\delta}$ memory or make at least $1/(d^{2\delta} \epsilon^{2(1-4\delta)-o(1)})$ queries for any $\delta\in[0,\frac{1}{4}]$. Because gradient descent only uses linear memory $\mathcal O(d\ln 1/\epsilon)$ but makes $\Omega(1/\epsilon^2)$ queries, our results imply that it is Pareto-optimal in the oracle complexity/memory tradeoff. Further, our results show that the oracle complexity for deterministic algorithms is always polynomial in $1/\epsilon$ if the algorithm has less than quadratic memory in $d$. This reveals a sharp phase transition since with quadratic $\mathcal O(d^2 \ln1/\epsilon)$ memory, cutting plane methods only require $\mathcal O(d\ln 1/\epsilon)$ queries.
翻訳日:2024-04-11 15:39:25 公開日:2024-04-10
# 執行のステートフル証明によるフェデレーション学習と差別化の防止

Poisoning Prevention in Federated Learning and Differential Privacy via Stateful Proofs of Execution ( http://arxiv.org/abs/2404.06721v1 )

ライセンス: Link先を確認
Norrathep Rattanavipanon, Ivan de Oliviera Nunes, (参考訳) IoT駆動の分散データ分析の台頭と、プライバシー上の懸念の高まりにより、効果的なプライバシ保護とフェデレーション付きデータ収集/モデルトレーニングメカニズムの需要が高まっている。 これに対し、フェデレートラーニング(FL)やローカルディファレンシャルプライバシ(LDP)といったアプローチが提案され、ここ数年で多くの注目を集めている。 しかし、敵の敵が敵のエッジデバイスに偽造された(毒を盛った)データをバックエンドに供給し、FL/LDP結果の整合性を損なうような、毒攻撃に弱いという共通の制限を共有している。 本研究では,IoT/組み込みデバイスのソフトウェアに対する,新しいセキュリティ概念PoSX(Proofs of Stateful Execution)に基づくシステムレベルのアプローチを提案する。 PoSX の概念を実現するため,私たちは SLAPP: System-Level Approach for Poisoning Prevention を設計した。 SLAPPは組み込みデバイス(特にARM TrustZoneMセキュリティ拡張)のコモディティセキュリティ機能を活用して、FL/LDPエッジデバイスルーチンの一部として、生の知覚データを正しい使用法に確実に結合する。 その結果、毒殺に対する堅牢なセキュリティ保証が提供される。 複数の暗号プリミティブとデータ収集スキームを備えた実世界のプロトタイプに基づいて評価を行ったところ,SLAPPのセキュリティとオーバーヘッドの低さが示された。

The rise in IoT-driven distributed data analytics, coupled with increasing privacy concerns, has led to a demand for effective privacy-preserving and federated data collection/model training mechanisms. In response, approaches such as Federated Learning (FL) and Local Differential Privacy (LDP) have been proposed and attracted much attention over the past few years. However, they still share the common limitation of being vulnerable to poisoning attacks wherein adversaries compromising edge devices feed forged (a.k.a. poisoned) data to aggregation back-ends, undermining the integrity of FL/LDP results. In this work, we propose a system-level approach to remedy this issue based on a novel security notion of Proofs of Stateful Execution (PoSX) for IoT/embedded devices' software. To realize the PoSX concept, we design SLAPP: a System-Level Approach for Poisoning Prevention. SLAPP leverages commodity security features of embedded devices - in particular ARM TrustZoneM security extensions - to verifiably bind raw sensed data to their correct usage as part of FL/LDP edge device routines. As a consequence, it offers robust security guarantees against poisoning. Our evaluation, based on real-world prototypes featuring multiple cryptographic primitives and data collection schemes, showcases SLAPP's security and low overhead.
翻訳日:2024-04-11 15:39:25 公開日:2024-04-10
# 言語指導によるマルチモーダル電子健康記録のグローバルコントラストトレーニング

Global Contrastive Training for Multimodal Electronic Health Records with Language Supervision ( http://arxiv.org/abs/2404.06723v1 )

ライセンス: Link先を確認
Yingbo Ma, Suraj Kolla, Zhenhong Hu, Dhruv Kaliraman, Victoria Nolan, Ziyuan Guan, Yuanfang Ren, Brooke Armfield, Tezcan Ozrazgat-Baslanti, Jeremy A. Balch, Tyler J. Loftus, Parisa Rashidi, Azra Bihorac, Benjamin Shickel, (参考訳) 現代の電子健康記録(EHRs)は、広範囲の広さ、規模、時間的粒度の故に、シーケンシャルな深層学習を通じてパーソナライズされた患者の健康トラジェクトリを追跡するという大きな可能性を秘めている。 にもかかわらず、高次元性、多モード性、空間性、様々な記録周波数、時間的不規則性といった複雑な特徴を考えると、EHRから複数のモードを効果的に活用する方法は大きな課題となる。 そこで本研究では,医療時系列と臨床ノートに着目した,新しいマルチモーダルコントラスト学習フレームワークを提案する。 医療時系列における空間的・不規則な時間間隔の課題に対処するため、このフレームワークは時間的相互注意変換器と動的埋め込みおよびトークン化スキームを統合し、マルチモーダルな特徴表現を学習する。 医療時系列と臨床ノートの相互関係を活用するために、このフレームワークは、患者のマルチモーダル特徴表現を対応する放電サマリーと整合させて、グローバルなコントラスト損失を計上する。 退院サマリーは個別の患者に特有であり、患者の入院状況の全体像を表すため、機械学習モデルはグローバルコントラストを通して差別的なマルチモーダル特徴を学習する。 UF Health Gainesville, UF Health Jacksonville, UF Health Jacksonville-North, UF Health Jacksonville-Northの3つの病院で、UF Health Systemのマルチモーダルデータを用いて、12万件以上の主要な入院患者の術後合併症の発生を予測した。

Modern electronic health records (EHRs) hold immense promise in tracking personalized patient health trajectories through sequential deep learning, owing to their extensive breadth, scale, and temporal granularity. Nonetheless, how to effectively leverage multiple modalities from EHRs poses significant challenges, given its complex characteristics such as high dimensionality, multimodality, sparsity, varied recording frequencies, and temporal irregularities. To this end, this paper introduces a novel multimodal contrastive learning framework, specifically focusing on medical time series and clinical notes. To tackle the challenge of sparsity and irregular time intervals in medical time series, the framework integrates temporal cross-attention transformers with a dynamic embedding and tokenization scheme for learning multimodal feature representations. To harness the interconnected relationships between medical time series and clinical notes, the framework equips a global contrastive loss, aligning a patient's multimodal feature representations with the corresponding discharge summaries. Since discharge summaries uniquely pertain to individual patients and represent a holistic view of the patient's hospital stay, machine learning models are led to learn discriminative multimodal features via global contrasting. Extensive experiments with a real-world EHR dataset demonstrated that our framework outperformed state-of-the-art approaches on the exemplar task of predicting the occurrence of nine postoperative complications for more than 120,000 major inpatient surgeries using multimodal data from UF health system split among three hospitals (UF Health Gainesville, UF Health Jacksonville, and UF Health Jacksonville-North).
翻訳日:2024-04-11 15:29:37 公開日:2024-04-10
# Bayesian NeRF:ニューラル放射場における体積密度の不確かさの定量化

Bayesian NeRF: Quantifying Uncertainty with Volume Density in Neural Radiance Fields ( http://arxiv.org/abs/2404.06727v1 )

ライセンス: Link先を確認
Sibeak Lee, Kyeongsu Kang, Hyeonwoo Yu, (参考訳) 本稿では,付加的なネットワークを必要とせず,幾何体積構造の不確かさを明示的に定量化するベイズニューラルネットワーク場(NeRF)について述べる。 NeRFは、様々な視点から、リッチなシーン表現、色と密度を3D空間に表示することで、伝統的な幾何学的手法から分岐する。 しかし、NeRFは幾何学的構造情報を用いて不確実性を緩和する際の限界に遭遇し、現実世界の観測が不十分な場合の解釈の不正確さをもたらす。 この問題に対処するための最近の研究努力は、主に経験的手法や補助的ネットワークに依存している。 この問題を根本的に解決するために、我々はNeRFに対する一連の定式化拡張を提案する。 一般化近似を導入し,密度関連不確実性を定義することで,RGBだけでなく,ネットワークの追加や経験的仮定を必要とせずに,不確実性の管理をシームレスに行えるようにした。 実験の結果,この手法は総合データセットにおけるRGBおよび深度画像の性能を大幅に向上させ,幾何構造に基づく不確実性の定量化のためのベイジアンNeRFアプローチの信頼性を示す。

We present the Bayesian Neural Radiance Field (NeRF), which explicitly quantifies uncertainty in geometric volume structures without the need for additional networks, making it adept for challenging observations and uncontrolled images. NeRF diverges from traditional geometric methods by offering an enriched scene representation, rendering color and density in 3D space from various viewpoints. However, NeRF encounters limitations in relaxing uncertainties by using geometric structure information, leading to inaccuracies in interpretation under insufficient real-world observations. Recent research efforts aimed at addressing this issue have primarily relied on empirical methods or auxiliary networks. To fundamentally address this issue, we propose a series of formulational extensions to NeRF. By introducing generalized approximations and defining density-related uncertainty, our method seamlessly extends to manage uncertainty not only for RGB but also for depth, without the need for additional networks or empirical assumptions. In experiments we show that our method significantly enhances performance on RGB and depth images in the comprehensive dataset, demonstrating the reliability of the Bayesian NeRF approach to quantifying uncertainty based on the geometric structure.
翻訳日:2024-04-11 15:29:37 公開日:2024-04-10
# SoK: 自己主権のアイデンティティを信頼する

SoK: Trusting Self-Sovereign Identity ( http://arxiv.org/abs/2404.06729v1 )

ライセンス: Link先を確認
Evan Krul, Hye-young Paik, Sushmita Ruj, Salil S. Kanhere, (参考訳) デジタルアイデンティティは、中央集権システムから、SSI(Self-Sovereign Identity)と呼ばれる分散アプローチへと進化している。 SSIは、個人にデジタルIDを制御させ、サードパーティのデータカストディアへの依存を排除し、データ漏洩のリスクを低減する。 しかし、SSIに対する信頼の概念は依然として複雑で断片化されている。 本稿では,システム内の様々なアクターが引き起こすコンポーネントや脅威に照らして,SSIに対する信頼度を体系的に分析する。 その結果、SSI文献や実装で特定された脅威や軽減をキャプチャする3つの異なる信頼モデルが導出された。 我々の研究は、SSI研究・開発のための基盤となるフレームワークを提供し、SSIコンポーネントの包括的カタログ、信頼のための設計要件、既存のSSIシステムにおける欠点、さらなる探索のための領域を提供する。

Digital identity is evolving from centralized systems to a decentralized approach known as Self-Sovereign Identity (SSI). SSI empowers individuals to control their digital identities, eliminating reliance on third-party data custodians and reducing the risk of data breaches. However, the concept of trust in SSI remains complex and fragmented. This paper systematically analyzes trust in SSI in light of its components and threats posed by various actors in the system. As a result, we derive three distinct trust models that capture the threats and mitigations identified across SSI literature and implementations. Our work provides a foundational framework for future SSI research and development, including a comprehensive catalogue of SSI components and design requirements for trust, shortcomings in existing SSI systems and areas for further exploration.
翻訳日:2024-04-11 15:29:37 公開日:2024-04-10
# ソーシャルメディア上での抗ワクチン・予防接種メッセージの排除における大規模言語モデルの精度:ヒトパピローマウイルスワクチン接種を事例として

Accuracy of a Large Language Model in Distinguishing Anti- And Pro-vaccination Messages on Social Media: The Case of Human Papillomavirus Vaccination ( http://arxiv.org/abs/2404.06731v1 )

ライセンス: Link先を確認
Soojong Kim, Kwanho Kim, Claire Wonjeong Jo, (参考訳) 目的。 ワクチン接種はさまざまな世論を巻き込み、ソーシャルメディアは健康に関する議論の重要なプラットフォームとなっている。 大規模言語モデル(LLM)のような人工知能技術の出現は、公共の話題を効率的に調査する新たな機会を提供する。 本研究は、ヒトパピローマウイルス(HPV)ワクチン接種に対する異なるスタンスを識別するための感情分析のために、LLM上に構築された広く利用され、自由に利用できるChatGPTの精度を評価する。 メソッド。 HPVワクチン接種に関連するメッセージは、Facebook(ロングフォーマット)とTwitter(ショートフォーマット)という、さまざまなメッセージフォーマットをサポートするソーシャルメディアから収集された。 LLMには1,000の人的評価メッセージが入力され、その分類結果を含む複数の応答インスタンスが生成される。 メッセージ毎の正確さを,人間と機械の意思決定の一致度として,0~1の範囲で測定した。 結果。 平均的な精度は、各メッセージのマシン決定に20のレスポンスインスタンスを使用していたときに顕著に高かった: .882 (SE = .021) と .750 (SE = .029) のアンチワクチンロングフォーム、.773 (SE = .027) と .723 (SE = .029) のアンチワクチンショートフォームである。 3つまたは1つのインスタンスのみを使用することで、精度が大幅に低下することはなかった。 しかし, 長期メッセージにおいては, 予防接種防止メッセージの分類において, 予防接種防止メッセージの分類において, 言語モデルの方が有意に低い精度を示した。 結論。 ChatGPTは、ソーシャルメディアコンテンツを用いたHPVワクチン接種に関する世論の分析の可能性を示している。 しかし、特定の公衆衛生状況における言語モデルの特徴と限界を理解することは、依然として必須である。

Objective. Vaccination has engendered a spectrum of public opinions, with social media acting as a crucial platform for health-related discussions. The emergence of artificial intelligence technologies, such as large language models (LLMs), offers a novel opportunity to efficiently investigate public discourses. This research assesses the accuracy of ChatGPT, a widely used and freely available service built upon an LLM, for sentiment analysis to discern different stances toward Human Papillomavirus (HPV) vaccination. Methods. Messages related to HPV vaccination were collected from social media supporting different message formats: Facebook (long format) and Twitter (short format). A selection of 1,000 human-evaluated messages was input into the LLM, which generated multiple response instances containing its classification results. Accuracy was measured for each message as the level of concurrence between human and machine decisions, ranging between 0 and 1. Results. Average accuracy was notably high when 20 response instances were used to determine the machine decision of each message: .882 (SE = .021) and .750 (SE = .029) for anti- and pro-vaccination long-form; .773 (SE = .027) and .723 (SE = .029) for anti- and pro-vaccination short-form, respectively. Using only three or even one instance did not lead to a severe decrease in accuracy. However, for long-form messages, the language model exhibited significantly lower accuracy in categorizing pro-vaccination messages than anti-vaccination ones. Conclusions. ChatGPT shows potential in analyzing public opinions on HPV vaccination using social media content. However, understanding the characteristics and limitations of a language model within specific public health contexts remains imperative.
翻訳日:2024-04-11 15:29:37 公開日:2024-04-10
# 混合交通の安全性向上--学習モデルと自律車と人力車の効率的な制御-

Enhancing Safety in Mixed Traffic: Learning-Based Modeling and Efficient Control of Autonomous and Human-Driven Vehicles ( http://arxiv.org/abs/2404.06732v1 )

ライセンス: Link先を確認
Jie Wang, Yash Vardhan Pant, Lei Zhao, Michał Antkiewicz, Krzysztof Czarnecki, (参考訳) 公道における自動運転車(AV)の存在の増加に伴い、人力車両(HV)の不確実性を回避するための堅牢な制御戦略の開発が不可欠である。 本稿では,第1原理モデルとガウス過程(GP)学習を組み合わせたHV挙動のモデル化手法を提案する。 フィールド実験から得られた実世界のデータを用いて,この革新的なHVモデルを検証し,GP-MPC(GP-enhanced model predictive control)戦略の開発に応用した。 この戦略は、不確実性評価を距離制約に組み込むことにより、混合車両の安全性を向上させることを目的としている。 従来のモデル予測制御(MPC)手法との比較シミュレーションにより,GP-MPC戦略はより信頼性の高い安全な分散を保証し,より効率的な車体力学を育成し,小隊内の速度を顕著に向上することを示した。 HVモデリングにスパースGP技術を導入し,MPCフレームワークに動的GP予測を導入することにより,GP-MPCの計算時間を大幅に短縮し,従来のMPCよりも4.6%高い値を示した。 これは大幅な改善であり、これらの近似を使わずに、予備作業の約100倍の速度で処理を行ないます。 本研究は,混合交通環境における安全性と運用効率の両面での学習に基づくHVモデリングの有効性を実証し,より調和したAV-HVインタラクションを実現することを目的とした。

With the increasing presence of autonomous vehicles (AVs) on public roads, developing robust control strategies to navigate the uncertainty of human-driven vehicles (HVs) is crucial. This paper introduces an advanced method for modeling HV behavior, combining a first-principles model with Gaussian process (GP) learning to enhance velocity prediction accuracy and provide a measurable uncertainty. We validated this innovative HV model using real-world data from field experiments and applied it to develop a GP-enhanced model predictive control (GP-MPC) strategy. This strategy aims to improve safety in mixed vehicle platoons by integrating uncertainty assessment into distance constraints. Comparative simulation studies with a conventional model predictive control (MPC) approach demonstrated that our GP-MPC strategy ensures more reliable safe distancing and fosters efficient vehicular dynamics, achieving notably higher speeds within the platoon. By incorporating a sparse GP technique in HV modeling and adopting a dynamic GP prediction within the MPC framework, we significantly reduced the computation time of GP-MPC, marking it only 4.6% higher than that of the conventional MPC. This represents a substantial improvement, making the process about 100 times faster than our preliminary work without these approximations. Our findings underscore the effectiveness of learning-based HV modeling in enhancing both safety and operational efficiency in mixed-traffic environments, paving the way for more harmonious AV-HV interactions.
翻訳日:2024-04-11 15:29:37 公開日:2024-04-10
# インクリメンタルXAI:インクリメンタル説明によるAIの記憶的理解

Incremental XAI: Memorable Understanding of AI with Incremental Explanations ( http://arxiv.org/abs/2404.06733v1 )

ライセンス: Link先を確認
Jessica Y. Bo, Pan Hao, Brian Y. Lim, (参考訳) 多くの説明可能なAI(XAI)技術は、スパース線形因子などの簡潔な有能な情報を提供することによって、解釈可能性を目指している。 しかし、ユーザーは不正確なグローバルな説明しか見ていないか、高度に異なるローカルな説明しか見ない。 本稿では、人間の認知能力を活用して知識を蓄積し、より詳細な説明をインクリメンタルに受け取り、より詳細な説明を提供することを提案する。 線形因子の説明(要素$\times$value = result)に注目して、より忠実な説明を読み書きするためのBase + Incremental Factorを提供することで、一般的なインスタンスと非典型インスタンスの説明を自動的に分割するインクリメンタルXAIを紹介します。 記憶力は、基本因子を再利用し、非典型例で示される因子の数を減らすことで改善される。 モデリング,形式的,要約的なユーザスタディにおいて,インクリメンタルXAIの忠実さ,記憶可能性,理解可能性について,基本的説明法に対して評価した。 この作業は、AIとの直感的なエンゲージメントを促進するために、ユーザがより分かりやすい説明に寄与する。

Many explainable AI (XAI) techniques strive for interpretability by providing concise salient information, such as sparse linear factors. However, users either only see inaccurate global explanations, or highly-varying local explanations. We propose to provide more detailed explanations by leveraging the human cognitive capacity to accumulate knowledge by incrementally receiving more details. Focusing on linear factor explanations (factors $\times$ values = outcome), we introduce Incremental XAI to automatically partition explanations for general and atypical instances by providing Base + Incremental factors to help users read and remember more faithful explanations. Memorability is improved by reusing base factors and reducing the number of factors shown in atypical cases. In modeling, formative, and summative user studies, we evaluated the faithfulness, memorability and understandability of Incremental XAI against baseline explanation methods. This work contributes towards more usable explanation that users can better ingrain to facilitate intuitive engagement with AI.
翻訳日:2024-04-11 15:29:37 公開日:2024-04-10
# 最適輸送を用いたマルチ属性データのコピュラグラフモデル

A Copula Graphical Model for Multi-Attribute Data using Optimal Transport ( http://arxiv.org/abs/2404.06735v1 )

ライセンス: Link先を確認
Qi Zhang, Bing Li, Lingzhou Xue, (参考訳) 画像やマルチビューデータなどの現代的なデータ形式に動機づけられたマルチ属性グラフィカルモデルは,ベクトル間の条件付き独立構造を探索することを目的としている。 ガウスの仮定の下では、ベクトル間の条件独立性は精度行列におけるブロックワイズゼロによって特徴づけられる。 本稿では,制約のあるガウスの仮定を緩和するために,Cyclical Monotone Copulaという新しいコプラに基づく,新しい半パラメトリック多属性グラフィカルモデルを提案する。 この新たなコプラは、ノードベクトルの分布を多変量境界として扱い、最適な輸送理論に基づいてガウス分布に変換する。 このモデルにより、ノードベクトルは任意の連続分布を持つことができるので、座標的にガウス化を行う古典ガウスコプラ法よりも柔軟である。 我々は,推定された共分散行列の濃度不等式を確立し,グループグラフラッソ推定器の選択整合性に十分な条件を提供する。 高次元特性を持つ場合、高次元最適輸送問題の解法から生じる次元問題の呪いに対処するために、 {Projected Cyclically Monotone Copula} モデルが提案される。 合成および実データに基づく数値計算結果から,本手法の効率性と柔軟性が示された。

Motivated by modern data forms such as images and multi-view data, the multi-attribute graphical model aims to explore the conditional independence structure among vectors. Under the Gaussian assumption, the conditional independence between vectors is characterized by blockwise zeros in the precision matrix. To relax the restrictive Gaussian assumption, in this paper, we introduce a novel semiparametric multi-attribute graphical model based on a new copula named Cyclically Monotone Copula. This new copula treats the distribution of the node vectors as multivariate marginals and transforms them into Gaussian distributions based on the optimal transport theory. Since the model allows the node vectors to have arbitrary continuous distributions, it is more flexible than the classical Gaussian copula method that performs coordinatewise Gaussianization. We establish the concentration inequalities of the estimated covariance matrices and provide sufficient conditions for selection consistency of the group graphical lasso estimator. For the setting with high-dimensional attributes, a {Projected Cyclically Monotone Copula} model is proposed to address the curse of dimensionality issue that arises from solving high-dimensional optimal transport problems. Numerical results based on synthetic and real data show the efficiency and flexibility of our methods.
翻訳日:2024-04-11 15:29:37 公開日:2024-04-10
# 潜伏拡散モデルにおける異種著作権侵害

Disguised Copyright Infringement of Latent Diffusion Model ( http://arxiv.org/abs/2404.06737v1 )

ライセンス: Link先を確認
Yiwei Lu, Matthew Y. R. Yang, Zuoqiu Liu, Gautam Kamath, Yaoliang Yu, (参考訳) 著作権侵害は、生成モデルがトレーニング期間中にアクセスしたいくつかの著作権データと実質的に類似したサンプルを生成するときに起こりうる。 アクセスの概念は、通常、トレーニングデータセットに直接著作権のあるサンプルを含めることを指す。 このような視覚的な監査は、著作権が隠された著作権侵害をほとんど見落としていると我々は主張する。そこでは、著作権サンプルと大きく異なるように見える偽装を構築するが、それでも遅延拡散モデルを訓練する効果を誘導する。 このような偽装は著作権のある資料への間接アクセスしか必要とせず、視覚的に区別できないため、現在の監査ツールを簡単に回避できる。 本稿では, 偽装生成アルゴリズム, 偽装の啓示, および, 既存のツールボックスの強化方法を明らかにすることにより, このような偽装著作権侵害の理解を深める。 さらに、このような間接的アクセスを理解するための、より広範な知識の概念を導入する。

Copyright infringement may occur when a generative model produces samples substantially similar to some copyrighted data that it had access to during the training phase. The notion of access usually refers to including copyrighted samples directly in the training dataset, which one may inspect to identify an infringement. We argue that such visual auditing largely overlooks a concealed copyright infringement, where one constructs a disguise that looks drastically different from the copyrighted sample yet still induces the effect of training Latent Diffusion Models on it. Such disguises only require indirect access to the copyrighted material and cannot be visually distinguished, thus easily circumventing the current auditing tools. In this paper, we provide a better understanding of such disguised copyright infringement by uncovering the disguises generation algorithm, the revelation of the disguises, and importantly, how to detect them to augment the existing toolbox. Additionally, we introduce a broader notion of acknowledgment for comprehending such indirect access.
翻訳日:2024-04-11 15:29:37 公開日:2024-04-10
# アニメーションに基づく不連続映像からの行動認識のための拡張手法

An Animation-based Augmentation Approach for Action Recognition from Discontinuous Video ( http://arxiv.org/abs/2404.06741v1 )

ライセンス: Link先を確認
Xingyu Song, Zhan Li, Shi Chen, Xin-Qiang Cai, Kazuyuki Demachi, (参考訳) 行動認識の研究は、複数の分野で広く応用されているため、近年、かなりの注目を集めている。 しかし、動作認識モデルの性能を低下させるだけでなく、データ拡張プロセスも複雑化する不連続なトレーニングビデオの問題により、まだ探索中である。 本研究では,データ拡張のための革新的なパイプラインである4A(Action Animation-based Augmentation Approach)を紹介する。 本研究の主な貢献は,(1)不連続映像による行動認識タスク訓練の性能低下の問題と,その解決における既存の拡張手法の限界について検討することである。 2) トレーニング用不連続ビデオの課題に対処する新たな拡張パイプラインである4Aを提案し, 最新のデータ拡張手法よりもスムーズで自然な動作表現を実現した。 (3) 実世界のデータセットから得られたデータとトレーニング用データのうち、10%のトレーニング用データで同じパフォーマンスを実現し、データ拡張技術を用いることで、インザワイルドビデオにおけるより良いパフォーマンスを実現した。

The study of action recognition has attracted considerable attention recently due to its broad applications in multiple areas. However, with the issue of discontinuous training video, which not only decreases the performance of action recognition model, but complicates the data augmentation process as well, still remains under-exploration. In this study, we introduce the 4A (Action Animation-based Augmentation Approach), an innovative pipeline for data augmentation to address the problem. The main contributions remain in our work includes: (1) we investigate the problem of severe decrease on performance of action recognition task training by discontinuous video, and the limitation of existing augmentation methods on solving this problem. (2) we propose a novel augmentation pipeline, 4A, to address the problem of discontinuous video for training, while achieving a smoother and natural-looking action representation than the latest data augmentation methodology. (3) We achieve the same performance with only 10% of the original data for training as with all of the original data from the real-world dataset, and a better performance on In-the-wild videos, by employing our data augmentation techniques.
翻訳日:2024-04-11 15:29:37 公開日:2024-04-10
# オフライン整合性検査を用いたプローブトレーニングによる転送可能で効率的な非実効的コンテンツ検出

Transferable and Efficient Non-Factual Content Detection via Probe Training with Offline Consistency Checking ( http://arxiv.org/abs/2404.06742v1 )

ライセンス: Link先を確認
Xiaokang Zhang, Zijun Yao, Jing Zhang, Kaifeng Yun, Jifan Yu, Juanzi Li, Jie Tang, (参考訳) 非現実的コンテンツの検出は、大規模言語モデル(LLM)世代における信頼性を高めるための長年の目標である。 人為的ラベルを用いてトレーニングされた現在の事実調査では,アウト・オブ・ディストリビューションコンテンツへの転送性が制限されている一方,オンライン自己整合性検査では,複数のアウトプットを生成する必要があるため,広範な計算負担が課される。 本稿では、オフラインの自己整合性検査結果に基づいて探索モデルをトレーニングし、人手による注釈付きデータの必要性を回避し、多様なデータ分布間での転送性を実現するPINOSEを提案する。 整合性チェックプロセスはオフラインであるため、PINOSEはオンライン整合性検証によって複数の応答を生成する計算負担を低減する。 さらに、応答復号に先立って内部状態の様々な側面を調べ、事実的不正確な検出に寄与する。 実感検出と質問応答ベンチマークの両方の実験結果から,PINOSEが既存の実感検出法よりも上回っていることが示された。 私たちのコードとデータセットは、この匿名リポジトリで公開されています。

Detecting non-factual content is a longstanding goal to increase the trustworthiness of large language models (LLMs) generations. Current factuality probes, trained using humanannotated labels, exhibit limited transferability to out-of-distribution content, while online selfconsistency checking imposes extensive computation burden due to the necessity of generating multiple outputs. This paper proposes PINOSE, which trains a probing model on offline self-consistency checking results, thereby circumventing the need for human-annotated data and achieving transferability across diverse data distributions. As the consistency check process is offline, PINOSE reduces the computational burden of generating multiple responses by online consistency verification. Additionally, it examines various aspects of internal states prior to response decoding, contributing to more effective detection of factual inaccuracies. Experiment results on both factuality detection and question answering benchmarks show that PINOSE achieves surpassing results than existing factuality detection methods. Our code and datasets are publicly available on this anonymized repository.
翻訳日:2024-04-11 15:29:37 公開日:2024-04-10
# YOLOベースのAWS SageMakerによるOcean Eddyローカライゼーション

YOLO based Ocean Eddy Localization with AWS SageMaker ( http://arxiv.org/abs/2404.06744v1 )

ライセンス: Link先を確認
Seraj Al Mahmud Mostafa, Jinbo Wang, Benjamin Holt, Jianwu Wang, (参考訳) 海洋渦は海面と海底の両方で重要な役割を果たし、海洋行動に依存する海洋生物の持続可能性に寄与する。 そのため、地球、特に海の変化とその気候への影響を監視するために海洋渦を調査することが不可欠である。 この研究は、AWSクラウドサービス、特にSageMakerを使用して、海洋渦をピンポイントすることを目的としている。 主な目的は、衛星リモートイメージから小さな(20km)海洋渦を検出し、AIアプリケーションをデプロイするためのツールを提供するSageMakerの利用可能性を評価することである。 さらに、この研究は、地球データのリモートセンシングのためのクラウドベースのサービスの展開を検討するだけでなく、クラウド内のシングルおよびマルチGPUベースのサービスを使用して、複数のYOLO(You Only Look Once)モデルを評価する。 さらに,本研究は,これらのサービスの可能性,その限界,展開と資源管理に関する課題,地球科学プロジェクトにおけるユーザ指向性を明らかにする。

Ocean eddies play a significant role both on the sea surface and beneath it, contributing to the sustainability of marine life dependent on oceanic behaviors. Therefore, it is crucial to investigate ocean eddies to monitor changes in the Earth, particularly in the oceans, and their impact on climate. This study aims to pinpoint ocean eddies using AWS cloud services, specifically SageMaker. The primary objective is to detect small-scale (<20km) ocean eddies from satellite remote images and assess the feasibility of utilizing SageMaker, which offers tools for deploying AI applications. Moreover, this research not only explores the deployment of cloud-based services for remote sensing of Earth data but also evaluates several YOLO (You Only Look Once) models using single and multi-GPU-based services in the cloud. Furthermore, this study underscores the potential of these services, their limitations, challenges related to deployment and resource management, and their user-riendliness for Earth science projects.
翻訳日:2024-04-11 15:29:37 公開日:2024-04-10
# CGNSDE:複雑なシステムとデータ同化をモデル化するための条件付きガウス型ニューラル確率微分方程式

CGNSDE: Conditional Gaussian Neural Stochastic Differential Equation for Modeling Complex Systems and Data Assimilation ( http://arxiv.org/abs/2404.06749v1 )

ライセンス: Link先を確認
Chuanqi Chen, Nan Chen, Jin-Long Wu, (参考訳) 複雑な力学系をモデル化し、関連するデータ同化(DA)の解析式を実装するために、条件付きガウス型ニューラル確率微分方程式(CGNSDE)と呼ばれる新しい知識ベースおよび機械学習ハイブリッドモデリング手法を開発した。 標準的なニューラルネットワーク予測モデルとは対照的に、CGNSDEは前方予測タスクと逆状態推定問題の両方に効果的に取り組むように設計されている。 CGNSDEは、情報理論による体系的な因果推論を利用して、単純な知識に基づく非線形モデルを構築することから始まる。 そして、ニューラルネットワークを知識ベースモデルに特定の方法で補足し、単純な形式でモデル化することが困難な残りの特徴を特徴付けるだけでなく、解析式を用いて非線形DA解を効率的に計算する。 これらの解析式は、DA精度を直接改善するニューラルネットワークをトレーニングするために、追加の計算で手頃な損失として使用される。 このDA損失関数はCGNSDEを促進し、状態変数間の相互作用をキャプチャし、モデリングスキルを向上する。 DA損失により、CGNSDEは極端な事象を推定し、関連する不確実性を定量化することができる。 さらに、状態変数の変換不変な局所的依存など、多くの複雑なシステムにおける重要な物理的性質は、ニューラルネットワークの構造を著しく単純化し、CGNSDEを高次元システムに適用しやすくする。 間欠性と強い非ガウス的特徴を持つカオスシステムに基づく数値実験により、CGNSDEは知識に基づく回帰モデルより優れており、DA損失はCGNSDEのモデリングスキルをさらに向上させることが示された。

A new knowledge-based and machine learning hybrid modeling approach, called conditional Gaussian neural stochastic differential equation (CGNSDE), is developed to facilitate modeling complex dynamical systems and implementing analytic formulae of the associated data assimilation (DA). In contrast to the standard neural network predictive models, the CGNSDE is designed to effectively tackle both forward prediction tasks and inverse state estimation problems. The CGNSDE starts by exploiting a systematic causal inference via information theory to build a simple knowledge-based nonlinear model that nevertheless captures as much explainable physics as possible. Then, neural networks are supplemented to the knowledge-based model in a specific way, which not only characterizes the remaining features that are challenging to model with simple forms but also advances the use of analytic formulae to efficiently compute the nonlinear DA solution. These analytic formulae are used as an additional computationally affordable loss to train the neural networks that directly improve the DA accuracy. This DA loss function promotes the CGNSDE to capture the interactions between state variables and thus advances its modeling skills. With the DA loss, the CGNSDE is more capable of estimating extreme events and quantifying the associated uncertainty. Furthermore, crucial physical properties in many complex systems, such as the translate-invariant local dependence of state variables, can significantly simplify the neural network structures and facilitate the CGNSDE to be applied to high-dimensional systems. Numerical experiments based on chaotic systems with intermittency and strong non-Gaussian features indicate that the CGNSDE outperforms knowledge-based regression models, and the DA loss further enhances the modeling skills of the CGNSDE.
翻訳日:2024-04-11 15:29:37 公開日:2024-04-10
# フロンティアAI倫理 : 生成エージェントの社会的影響予測と評価

Frontier AI Ethics: Anticipating and Evaluating the Societal Impacts of Generative Agents ( http://arxiv.org/abs/2404.06750v1 )

ライセンス: Link先を確認
Seth Lazar, (参考訳) 一部の者は、すでに広くデプロイされているAIシステムのよく知られた病理を複製したとして、ジェネレーティブAIシステムを批判している。 他の批評家は、人類の生存を脅かすかもしれない、より強力な未来のシステムをいかに先導するかを強調している。 最初のグループは、ここでは何も新しいものはなく、もう1つはおそらく遠くの地平線に現在を通して見えると言っている。 この論文では、これらのシステムに際し、その顕著な科学的成果と、それらが今後5年から10年の間に社会を変えるであろう最もありそうな方法の両方に、どのような特徴があるのかに注意を払っています。 特に、マルチモーダルな大規模言語モデル(LLM)が複雑なツールを使用するAIシステムの実行中心を形成し、ある目標に向けて、教師なしのアクションのシーケンスを実行できる、という「ジェネレーティブエージェント(Generative Agents)」の略奪的展望によって引き起こされる潜在的な社会的影響と規範的疑問について考察する。

Some have criticised Generative AI Systems for replicating the familiar pathologies of already widely-deployed AI systems. Other critics highlight how they foreshadow vastly more powerful future systems, which might threaten humanity's survival. The first group says there is nothing new here; the other looks through the present to a perhaps distant horizon. In this paper, I instead pay attention to what makes these particular systems distinctive: both their remarkable scientific achievement, and the most likely and consequential ways in which they will change society over the next five to ten years. In particular, I explore the potential societal impacts and normative questions raised by the looming prospect of 'Generative Agents', in which multimodal large language models (LLMs) form the executive centre of complex, tool-using AI systems that can take unsupervised sequences of actions towards some goal.
翻訳日:2024-04-11 15:29:37 公開日:2024-04-10
# 法的言語モデリングと分析のためのオープンソースモデルの導入--インド憲法を事例として

Leveraging open-source models for legal language modeling and analysis: a case study on the Indian constitution ( http://arxiv.org/abs/2404.06751v1 )

ライセンス: Link先を確認
Vikhyath Gupta, Srinivasa Rao P, (参考訳) 近年、オープンソースモデルの使用は、法律言語モデリングや分析など、様々な分野で大きな人気を集めている。 これらのモデルは、法律文書の要約、鍵情報の抽出、事例結果の予測など、非常に効果的であることが証明されている。 これは法律業界に革命をもたらし、弁護士、研究者、政策立案者が大量の法律文書にアクセスし、分析し、時間と資源を節約した。 本稿では,Hugging Faceのオープンソースモデルを用いた法言語モデリング(LLM)と解析の新たなアプローチを提案する。 我々は、LangChainとSentence TransformersによるHugging Faceの埋め込みを利用して、法的テキストに適したLLMを開発する。 次に、インド国憲法の知見を抽出し、このモデルの応用を実証する。 我々の手法では、データを前処理し、チャンクに分割し、ChromaDBとLangChainVectorStoresを使用し、分析にGoogle/Flan-T5-XXLモデルを使用する。 トレーニングされたモデルは、PDF形式で利用できるインド憲法でテストされている。 以上の結果から,本手法は法言語処理と分析の効率化に有効であることが示唆された。

In recent years, the use of open-source models has gained immense popularity in various fields, including legal language modelling and analysis. These models have proven to be highly effective in tasks such as summarizing legal documents, extracting key information, and even predicting case outcomes. This has revolutionized the legal industry, enabling lawyers, researchers, and policymakers to quickly access and analyse vast amounts of legal text, saving time and resources. This paper presents a novel approach to legal language modeling (LLM) and analysis using open-source models from Hugging Face. We leverage Hugging Face embeddings via LangChain and Sentence Transformers to develop an LLM tailored for legal texts. We then demonstrate the application of this model by extracting insights from the official Constitution of India. Our methodology involves preprocessing the data, splitting it into chunks, using ChromaDB and LangChainVectorStores, and employing the Google/Flan-T5-XXL model for analysis. The trained model is tested on the Indian Constitution, which is available in PDF format. Our findings suggest that our approach holds promise for efficient legal language processing and analysis.
翻訳日:2024-04-11 15:29:37 公開日:2024-04-10
# MonoSelfRecon: モノクロRGBビューによる室内シーンの3次元再構成

MonoSelfRecon: Purely Self-Supervised Explicit Generalizable 3D Reconstruction of Indoor Scenes from Monocular RGB Views ( http://arxiv.org/abs/2404.06753v1 )

ライセンス: Link先を確認
Runfa Li, Upal Mahbub, Vasudev Bhaskaran, Truong Nguyen, (参考訳) 現在のモノクロ3Dシーン再構成(3DR)の作品は、完全に監督されているか、一般化できないか、あるいは3D表現において暗黙的である。 本稿では,モノクセル-SDF(符号距離関数)を純粋に自己スーパービジョンすることで,モノクセルRGBビューの一般化可能な屋内シーンに対して,初めて明示的な3次元メッシュ再構成を実現する新しいフレームワークであるMonoSelfReconを提案する。 MonoSelfReconはAutoencoderベースのアーキテクチャに従い、Voxel-SDFとNeRF(Generalizable Neural Radiance Field)をデコードする。 我々は、純粋な自己監督を支援するだけでなく、教師付き信号とともに、教師付き訓練をさらに促進するために使用できる新しい自己監督的損失を提案する。 実験の結果,「MonoSelfRecon」は,従来の自己監督型室内深度推定モデルよりも優れており,深度アノテーションを用いた完全監督型3DRモデルと同等であることがわかった。 MonoSelfReconは、特定のモデル設計に制限されない。これは、純粋に自己管理された方法で、voxel-SDFを持つモデルで使用することができる。

Current monocular 3D scene reconstruction (3DR) works are either fully-supervised, or not generalizable, or implicit in 3D representation. We propose a novel framework - MonoSelfRecon that for the first time achieves explicit 3D mesh reconstruction for generalizable indoor scenes with monocular RGB views by purely self-supervision on voxel-SDF (signed distance function). MonoSelfRecon follows an Autoencoder-based architecture, decodes voxel-SDF and a generalizable Neural Radiance Field (NeRF), which is used to guide voxel-SDF in self-supervision. We propose novel self-supervised losses, which not only support pure self-supervision, but can be used together with supervised signals to further boost supervised training. Our experiments show that "MonoSelfRecon" trained in pure self-supervision outperforms current best self-supervised indoor depth estimation models and is comparable to 3DR models trained in fully supervision with depth annotations. MonoSelfRecon is not restricted by specific model design, which can be used to any models with voxel-SDF for purely self-supervised manner.
翻訳日:2024-04-11 15:29:37 公開日:2024-04-10
# CrimeAlarm: きめ細かい犯罪予測における集中インテントダイナミクスを目指して

CrimeAlarm: Towards Intensive Intent Dynamics in Fine-grained Crime Prediction ( http://arxiv.org/abs/2404.06756v1 )

ライセンス: Link先を確認
Kaixi Hu, Lin Li, Qing Xie, Xiaohui Tao, Guandong Xu, (参考訳) 犯罪事象の予測には粒度と精度の2つの重要な要素がある。 きめ細かい出来事分類では、複数の犯罪意図が前回の連続した出来事に交互に現れ、次の出来事で異なる進行を示すことがある。 このような集中的なインテントダイナミクスは、トレーニングモデルが観測されていないインテントを捉えるのを難しくし、その結果、特に多くの潜在的なイベントの絡み合いにおいて、準最適一般化性能をもたらす。 包括的犯罪意図を捉えるために,カリキュラム学習に触発された新たな相互蒸留戦略を取り入れた,きめ細かな連続犯罪予測フレームワークであるCristAlarmを提案する。 訓練の初期段階では、スポットシェアされた犯罪意図は、高信頼のシーケンスサンプルによってキャプチャされる。 後半段階では、低信頼配列の寄与を増大させることで、スポット特異的な意図が徐々に学習される。 一方、出力確率分布は予測ネットワーク間で相互に学習され、観測されていない犯罪意図をモデル化する。 大規模な実験では、CristAlarmはNDCG@5で最先端の手法より優れており、NYC16では4.51%、CHI18では7.73%改善している。

Granularity and accuracy are two crucial factors for crime event prediction. Within fine-grained event classification, multiple criminal intents may alternately exhibit in preceding sequential events, and progress differently in next. Such intensive intent dynamics makes training models hard to capture unobserved intents, and thus leads to sub-optimal generalization performance, especially in the intertwining of numerous potential events. To capture comprehensive criminal intents, this paper proposes a fine-grained sequential crime prediction framework, CrimeAlarm, that equips with a novel mutual distillation strategy inspired by curriculum learning. During the early training phase, spot-shared criminal intents are captured through high-confidence sequence samples. In the later phase, spot-specific intents are gradually learned by increasing the contribution of low-confidence sequences. Meanwhile, the output probability distributions are reciprocally learned between prediction networks to model unobserved criminal intents. Extensive experiments show that CrimeAlarm outperforms state-of-the-art methods in terms of NDCG@5, with improvements of 4.51% for the NYC16 and 7.73% for the CHI18 in accuracy measures.
翻訳日:2024-04-11 15:19:53 公開日:2024-04-10
# 限界における言語生成

Language Generation in the Limit ( http://arxiv.org/abs/2404.06757v1 )

ライセンス: Link先を確認
Jon Kleinberg, Sendhil Mullainathan, (参考訳) 現在の大きな言語モデルは複雑だが、基礎となる言語生成問題の最も基本的な仕様は単純である: 未知の言語からのトレーニングサンプルの有限セットが与えられた場合、トレーニングデータに存在しない言語から有効な新しい文字列を生成する。 ここでは、この仕様だけで言語生成を結論付けることができるのかを、さらなる仮定なしで尋ねる。 特に、敵が未知の対象言語 L の文字列を列挙すると仮定すると、それは候補の潜在的無限リストの1つからしか得られない。 計算エージェントは、この言語から生成することを学ぼうとしている; エージェントが L の列挙の有限点の後に L から生成すると、エージェントは L からのみ来る新しい要素を生成でき、敵がまだ提示していない。 我々の主な成果は、候補言語の可算リストに限って生成できるエージェントが存在することである。 これは、サンプルから未知の言語を特定することを目的として、十分に研究された言語学習モデルにおいて、ゴールドとアングルインによる否定的な結果と劇的に対照的である。

Although current large language models are complex, the most basic specifications of the underlying language generation problem itself are simple to state: given a finite set of training samples from an unknown language, produce valid new strings from the language that don't already appear in the training data. Here we ask what we can conclude about language generation using only this specification, without further assumptions. In particular, suppose that an adversary enumerates the strings of an unknown target language L that is known only to come from one of a possibly infinite list of candidates. A computational agent is trying to learn to generate from this language; we say that the agent generates from L in the limit if after some finite point in the enumeration of L, the agent is able to produce new elements that come exclusively from L and that have not yet been presented by the adversary. Our main result is that there is an agent that is able to generate in the limit for every countable list of candidate languages. This contrasts dramatically with negative results due to Gold and Angluin in a well-studied model of language learning where the goal is to identify an unknown language from samples; the difference between these results suggests that identifying a language is a fundamentally different problem than generating from it.
翻訳日:2024-04-11 15:19:53 公開日:2024-04-10
# DiffusionDialog:潜時空間を持つ拡散ダイアログ生成のための拡散モデル

DiffusionDialog: A Diffusion Model for Diverse Dialog Generation with Latent Space ( http://arxiv.org/abs/2404.06760v1 )

ライセンス: Link先を確認
Jianxiang Xiang, Zhenhua Liu, Haodong Liu, Yin Bai, Jia Cheng, Wenliang Chen, (参考訳) 現実の会話では、内容は多様であり、多種多様な世代を必要とする一対多の問題が存在する。 従来の研究では、個別あるいはガウスに基づく連続潜伏変数を導入して、一対多の問題に対処しようとしたが、多様性は限られている。 近年、拡散モデルはコンピュータビジョンにおいて画期的であり、自然言語処理ではいくつかの試みがなされている。 本稿では,拡散モデルの助けを借りて対話生成の多様性を高める新しい手法であるDiffusionDialogを提案する。 本稿では,拡散モデルに連続潜伏変数を導入する。 ダイアログタスクで潜在変数を使用する場合の問題は、潜在空間の有効先行と推論プロセスの両方を構築して、与えられた適切な潜在変数を得る方法である。 エンコーダとラテントベース拡散モデルを組み合わせることで、応答の潜在表現をガウス分布や単に離散分布ではなく、連続空間を前としてエンコードする。 次に,拡散モデルを用いて段階的に遅延を推定する。 実験結果から,コヒーレンスを維持しながら対話応答の多様性を大幅に向上することが示された。 さらに,さらなる解析において,我々の拡散モデルは高い推論効率を達成でき,これは自然言語処理に拡散モデルを適用する上での大きな課題である。

In real-life conversations, the content is diverse, and there exists the one-to-many problem that requires diverse generation. Previous studies attempted to introduce discrete or Gaussian-based continuous latent variables to address the one-to-many problem, but the diversity is limited. Recently, diffusion models have made breakthroughs in computer vision, and some attempts have been made in natural language processing. In this paper, we propose DiffusionDialog, a novel approach to enhance the diversity of dialogue generation with the help of diffusion model. In our approach, we introduce continuous latent variables into the diffusion model. The problem of using latent variables in the dialog task is how to build both an effective prior of the latent space and an inferring process to obtain the proper latent given the context. By combining the encoder and latent-based diffusion model, we encode the response's latent representation in a continuous space as the prior, instead of fixed Gaussian distribution or simply discrete ones. We then infer the latent by denoising step by step with the diffusion model. The experimental results show that our model greatly enhances the diversity of dialog responses while maintaining coherence. Furthermore, in further analysis, we find that our diffusion model achieves high inference efficiency, which is the main challenge of applying diffusion models in natural language processing.
翻訳日:2024-04-11 15:19:53 公開日:2024-04-10
# 対話型知的学習システムのための個人性を考慮した学生シミュレーション

Personality-aware Student Simulation for Conversational Intelligent Tutoring Systems ( http://arxiv.org/abs/2404.06762v1 )

ライセンス: Link先を確認
Zhengyuan Liu, Stella Xin Yin, Geyu Lin, Nancy F. Chen, (参考訳) Intelligent Tutoring Systems(ITS)は、パーソナライズされたセルフペースの学習体験を提供する。 大規模言語モデル(LLM)の出現により、人間と機械の相互作用がさらに向上し、数学や言語学習といった様々な分野における対話型ITSの開発が促進される。 対話型授業では、個々の特徴を認識して適応することで、学生のエンゲージメントと学習効率を著しく向上させることができる。 しかし, 学生の性格の特徴付けとシミュレートは, 会話型ITSの訓練と評価において依然として困難である。 本研究では,認知的側面と非認知的側面の両方を洗練・統合することにより,異なる学生グループのプロファイルを構築するための枠組みを提案し,LLMを言語学習シナリオにおけるパーソナリティを考慮した学生シミュレーションに活用する。 マルチアスペクト検証によりフレームワークをさらに強化し、教師と学生の両方の観点から広範な分析を行う。 実験の結果,現状のLLMは,与えられた言語能力や性格特性に応じて多様な学生の反応を生成でき,教師の適応的足場戦略を誘発できることがわかった。

Intelligent Tutoring Systems (ITSs) can provide personalized and self-paced learning experience. The emergence of large language models (LLMs) further enables better human-machine interaction, and facilitates the development of conversational ITSs in various disciplines such as math and language learning. In dialogic teaching, recognizing and adapting to individual characteristics can significantly enhance student engagement and learning efficiency. However, characterizing and simulating student's persona remain challenging in training and evaluating conversational ITSs. In this work, we propose a framework to construct profiles of different student groups by refining and integrating both cognitive and noncognitive aspects, and leverage LLMs for personality-aware student simulation in a language learning scenario. We further enhance the framework with multi-aspect validation, and conduct extensive analysis from both teacher and student perspectives. Our experimental results show that state-of-the-art LLMs can produce diverse student responses according to the given language ability and personality traits, and trigger teacher's adaptive scaffolding strategies.
翻訳日:2024-04-11 15:19:53 公開日:2024-04-10
# インテリジェント最適化アルゴリズムによる食品・エネルギー・水のNexus問題の解法

Solving the Food-Energy-Water Nexus Problem via Intelligent Optimization Algorithms ( http://arxiv.org/abs/2404.06769v1 )

ライセンス: Link先を確認
Qi Deng, Zheng Fan, Zhi Li, Xinna Pan, Qi Kang, MengChu Zhou, (参考訳) 進化的アルゴリズム(EA)の多目的最適化問題への応用が広く行われている。 しかし、EA研究コミュニティは、現実世界のアプリケーションから生じる大規模多目的最適化問題にはあまり注意を払っていない。 特に、食品-エネルギー-水系は、互いに影響を及ぼす食品、エネルギー、水の間で複雑に結びついている。 それらは通常、膨大な数の決定変数と、最適化されるべき多くの矛盾する目標を含む。 関連する最適化問題を解くことは、人間の高品質な生活を維持するために本質的に重要である。 解空間のサイズは決定変数の数とともに指数関数的に拡大する。 このような広大な空間での探索は、そのような多くの決定変数と目的関数のために困難である。 近年,多数の大規模多目的最適化アルゴリズムが提案されている。 本稿では、最先端のインテリジェントな最適化手法を用いて食品・エネルギー・水の最適化問題を解き、その性能を比較する。 その結果,逆モデルに基づくアルゴリズムは他のアルゴリズムよりも優れていることがわかった。 この作業は、実践者が特定の大規模エンジニアリング最適化問題に最も適した方法を選択するのに非常に有用である。

The application of evolutionary algorithms (EAs) to multi-objective optimization problems has been widespread. However, the EA research community has not paid much attention to large-scale multi-objective optimization problems arising from real-world applications. Especially, Food-Energy-Water systems are intricately linked among food, energy and water that impact each other. They usually involve a huge number of decision variables and many conflicting objectives to be optimized. Solving their related optimization problems is essentially important to sustain the high-quality life of human beings. Their solution space size expands exponentially with the number of decision variables. Searching in such a vast space is challenging because of such large numbers of decision variables and objective functions. In recent years, a number of large-scale many-objectives optimization evolutionary algorithms have been proposed. In this paper, we solve a Food-Energy-Water optimization problem by using the state-of-art intelligent optimization methods and compare their performance. Our results conclude that the algorithm based on an inverse model outperforms the others. This work should be highly useful for practitioners to select the most suitable method for their particular large-scale engineering optimization problems.
翻訳日:2024-04-11 15:19:53 公開日:2024-04-10
# 振動型ADAPT-VQE:臨界点が問題収束につながる

Vibrational ADAPT-VQE: Critical points leads to problematic convergence ( http://arxiv.org/abs/2404.06770v1 )

ライセンス: Link先を確認
Marco Majland, Patrick Ettenhuber, Nikolaj Thomas Zinner, Ove Christiansen, (参考訳) 量子化学は、量子コンピューティングが大きな影響を与えると予想される最も有望な応用の1つである。 電子構造の分野ではかなりの研究があったが、量子コンピュータ上の分子の振動特性を計算することは、まだ研究されていない分野である。 本研究では、フル振動構成相互作用(FVCI)波動関数の反エルミタン励起作用素の無限積表現(IPR)に基づく振動型ADAPT-VQE(vADAPT-VQE)形式を開発し、量子コンピュータ上で振動型ハミルトニアンの固有状態を作成する。 IPR を用いて vADAPT-VQE アルゴリズムを確立するために,不整合ユニタリ振動結合クラスタ (dUVCC) 理論の正確性について検討し,dUVCC がFVCI 波動関数を無限展開で正式に表現可能であることを示す。 VADAPT-VQEアルゴリズムの性能を調べるために,VADAPT-VQEアルゴリズムがFVCI波動関数を表す演算子の列を生成するかどうかを数値的に検討する。 以上の結果から,vADAPT-VQEを用いたウェーブファンクション法における臨界点の出現頻度が示唆された。 これらの結果から,vADAPT-VQEを用いた量子コンピュータ上での振動波動関数の作成において有用性が低下する可能性が示唆された。

Quantum chemistry is one of the most promising applications for which quantum computing is expected to have significant impact. Despite considerable research in the field of electronic structure, calculating the vibrational properties of molecules on quantum computers remain a relatively unexplored field. In this work, we develop a vibrational ADAPT-VQE (vADAPT-VQE) formalism based on an infinite product representation (IPR) of anti-Hermitian excitation operators of the Full Vibrational Configuration Interaction (FVCI) wavefunction which allows for preparing eigenstates of vibrational Hamiltonians on quantum computers. In order to establish the vADAPT- VQE algorithm using the IPR, we study the exactness of disentangled Unitary Vibrational Coupled Cluster (dUVCC) theory and show that dUVCC can formally represent the FVCI wavefunction in an infinite expansion. To investigate the performance of the vADAPT-VQE algorithm, we numerically study whether the vADAPT-VQE algorithm generates a sequence of operators which may represent the FVCI wavefunction. Our numerical results indicate frequent appearance of critical points in the wavefunction preparation using vADAPT-VQE. These results imply that one may encounter diminishing usefulness when preparing vibrational wavefunctions on quantum computers using vADAPT-VQE and that additional studies are required to find methods that can circumvent this behavior.
翻訳日:2024-04-11 15:19:53 公開日:2024-04-10
# 視覚変換器へのLLaMAデコーダの適用

Adapting LLaMA Decoder to Vision Transformer ( http://arxiv.org/abs/2404.06773v1 )

ライセンス: Link先を確認
Jiahao Wang, Wenqi Shao, Mengzhao Chen, Chengyue Wu, Yong Liu, Kaipeng Zhang, Songyang Zhang, Kai Chen, Ping Luo, (参考訳) 本研究は,LLaMAなどのデコーダのみのトランスフォーマーをコンピュータビジョン分野に適用できるかどうかを検討する。 まず、LLaMAのアーキテクチャと整合する標準的なViTを「LLaMAfy」と呼び、カジュアルマスクを自己注意に直接適用することで、注意崩壊の問題が生じ、ネットワークトレーニングに失敗する。 本稿では,この課題を克服するために,画像トークンの背後にクラストークンを配置し,因果自己認識により画像全体の情報を効率的にキャプチャする手法を提案する。 さらに,学習開始時の自己注意にカジュアルマスクを徐々に導入し,最適化行動を容易にするソフトマスク戦略を開発する。 イメージLLaMA (iLLaMA) はアーキテクチャにおいてLLaMAに似ており、直接教師付き学習を可能にする。 その因果自己注意は計算効率を高め、注意マップのランクを上げることによって複雑な表現を学ぶ。 iLLaMAはエンコーダのみのパフォーマンスと競合し、5.7Mパラメータで75.1%のImageNetトップ1の精度を達成した。 モデルを310Mにスケールアップし、ImageNet-21Kで事前トレーニングすることで、精度は86.0%に向上した。 大規模な実験では、校正、形状・テクスチャバイアス、量子化互換性、ADE20Kセグメンテーション、CIFAR転送学習といったiLLaMAの信頼性特性が示されている。 LLMの波における視覚モデル設計への新たな視点を、我々の研究が生み出すことを願っている。 事前訓練されたモデルとコードはここにある。

This work examines whether decoder-only Transformers such as LLaMA, which were originally designed for large language models (LLMs), can be adapted to the computer vision field. We first "LLaMAfy" a standard ViT step-by-step to align with LLaMA's architecture, and find that directly applying a casual mask to the self-attention brings an attention collapse issue, resulting in the failure to the network training. We suggest to reposition the class token behind the image tokens with a post-sequence class token technique to overcome this challenge, enabling causal self-attention to efficiently capture the entire image's information. Additionally, we develop a soft mask strategy that gradually introduces a casual mask to the self-attention at the onset of training to facilitate the optimization behavior. The tailored model, dubbed as image LLaMA (iLLaMA), is akin to LLaMA in architecture and enables direct supervised learning. Its causal self-attention boosts computational efficiency and learns complex representation by elevating attention map ranks. iLLaMA rivals the performance with its encoder-only counterparts, achieving 75.1% ImageNet top-1 accuracy with only 5.7M parameters. Scaling the model to ~310M and pre-training on ImageNet-21K further enhances the accuracy to 86.0%. Extensive experiments demonstrate iLLaMA's reliable properties: calibration, shape-texture bias, quantization compatibility, ADE20K segmentation and CIFAR transfer learning. We hope our study can kindle fresh views to visual model design in the wave of LLMs. Pre-trained models and codes are available here.
翻訳日:2024-04-11 15:19:53 公開日:2024-04-10
# コヒーレンスを用いた確率的チャネルシミュレーション

Probabilistic channel simulation using coherence ( http://arxiv.org/abs/2404.06775v1 )

ライセンス: Link先を確認
Benchi Zhao, Kosuke Ito, Keisuke Fujii, (参考訳) コヒーレンスを用いたチャネルシミュレーションは、コヒーレントな状態と自由な操作を持つターゲットチャネルの実現を意味し、量子資源理論の基本的な問題である。 決定論的チャネルシミュレーションの精度の限界は、より一般的な確率的枠組みを考える動機となっている。 本研究では, チャネルシミュレーションの精度と最大成功確率の関係を示す。 選択した自由操作が最大不整合演算 (MIO) である場合, 効率よく計算可能な半定値プログラム (SDP) を提供する。 選択された自由操作が嫌悪共役操作 (DIO) である場合、ターゲットチャネルがリソース非活性化チャネルでなければ、決定的かつ確率的に、正確にそれをシミュレートすることはできないことが証明される。 また、DIOによるチャネルシミュレーションの最大成功確率のSDPも対応する。

Channel simulation using coherence, which refers to realizing a target channel with coherent states and free operations, is a fundamental problem in quantum resource theory. The limitations of the accuracy of deterministic channel simulation motivate us to consider the more general probabilistic framework. In this work, we show the relation between the maximal success probability and the accuracy of channel simulation with free operations. When the chosen free operation is the maximally incoherent operation (MIO), we provide an efficiently computable semidefinite program (SDP) to calculate the maximal success probability and derive the analytic expression of success probability for some special cases. When the chosen free operation is dephasing-covariant incoherent operations (DIO), it is proved that if the target channel is not a resource nonactivating channel, then one cannot simulate it exactly both deterministically and probabilistically. The SDP for maximal success probability of simulating channel by DIO is also given correspondingly.
翻訳日:2024-04-11 15:19:53 公開日:2024-04-10
# 非IIDデータを用いたロバストフェデレーション学習のためのログ校正と特徴コントラスト

Logit Calibration and Feature Contrast for Robust Federated Learning on Non-IID Data ( http://arxiv.org/abs/2404.06776v1 )

ライセンス: Link先を確認
Yu Qiao, Chaoning Zhang, Apurba Adhikary, Choong Seon Hong, (参考訳) Federated Learning(FL)は、エッジネットワークのデバイス上で協調的なモデルトレーニングを行うための、プライバシ保護のための分散フレームワークである。 しかし、敵対的な例(AE)に対する脆弱性と、デバイス間で非独立で同一に分散された(非IID)データ分散の性質により、エッジに逆向きに堅牢で正確な学習モデルが配置されるのを妨げている。 対人訓練(AT)は、集中訓練における対人攻撃に対する効果的な防御戦略として一般的に認識されているが、特に非IID課題において、精度を著しく損なうことができるFLに直接ATを適用することの副作用に光を当てた。 この制限を前提として,FatCCを提案する。このFatCCは,ロジットと特徴の両方の観点から,局所ロジットとグローバルな特徴をバニラフェデレーテッド・ディベザリ・トレーニング(\underline{FAT})プロセスに組み込む。 このアプローチは、フェデレートされたシステムの堅牢な精度(RA)とクリーンな精度(CA)を効果的に強化することができる。 まず,ロジットの調整を行うロジット校正手法を提案する。 第2に、FatCCは機能コントラストを導入し、各ローカル表現を非バイアスのグローバル特徴と整合させるグローバルアライメント項を伴って、フェデレートされた敵環境における堅牢性と正確性をさらに強化する。 複数のデータセットにわたる大規模な実験により、FatCCは他のベースラインと比較して、CAとRAの両方で同等または優れたパフォーマンス向上を達成した。

Federated learning (FL) is a privacy-preserving distributed framework for collaborative model training on devices in edge networks. However, challenges arise due to vulnerability to adversarial examples (AEs) and the non-independent and identically distributed (non-IID) nature of data distribution among devices, hindering the deployment of adversarially robust and accurate learning models at the edge. While adversarial training (AT) is commonly acknowledged as an effective defense strategy against adversarial attacks in centralized training, we shed light on the adverse effects of directly applying AT in FL that can severely compromise accuracy, especially in non-IID challenges. Given this limitation, this paper proposes FatCC, which incorporates local logit \underline{C}alibration and global feature \underline{C}ontrast into the vanilla federated adversarial training (\underline{FAT}) process from both logit and feature perspectives. This approach can effectively enhance the federated system's robust accuracy (RA) and clean accuracy (CA). First, we propose logit calibration, where the logits are calibrated during local adversarial updates, thereby improving adversarial robustness. Second, FatCC introduces feature contrast, which involves a global alignment term that aligns each local representation with unbiased global features, thus further enhancing robustness and accuracy in federated adversarial environments. Extensive experiments across multiple datasets demonstrate that FatCC achieves comparable or superior performance gains in both CA and RA compared to other baselines.
翻訳日:2024-04-11 15:19:53 公開日:2024-04-10
# 成分組成による効率良くスケーラブルな中国ベクトルフォント生成

Efficient and Scalable Chinese Vector Font Generation via Component Composition ( http://arxiv.org/abs/2404.06779v1 )

ライセンス: Link先を確認
Jinyu Song, Weitao You, Shuhui Shi, Shuxuan Guo, Lingyun Sun, Wei Wang, (参考訳) 複雑な構造と大量の漢字のため、中国語のベクトルフォント生成は困難である。 最近の進歩は、単純な構造を持つ小さな文字セットを生成することに限定されている。 本研究はまず,ほとんどの漢字が頻繁に使用される成分に分解できることを観察する。 そこで,本研究では,コンポーネント構成による中国初の効率的かつスケーラブルなベクトルフォント生成手法を導入し,少数のコンポーネントから多数のベクトル文字を生成する。 これを実現するために、我々は、コンポーネントとレイアウト情報を含むtextit{90K} 以上の漢字を含む大規模なデータセットを収集する。 このデータセットでは,空間変換器ネットワーク(STN)とフォント特性に適合した複数の損失に基づいて,B'ezier曲線に直接適用可能なコンポーネントのアフィン変換学習を行う。 定性的かつ定量的な実験により,フォント生成とゼロショットフォント拡張の両方で大規模に複雑な漢字を生成する際に,我々の手法が最先端のベクトルフォント生成手法をはるかに上回っていることが示された。

Chinese vector font generation is challenging due to the complex structure and huge amount of Chinese characters. Recent advances remain limited to generating a small set of characters with simple structure. In this work, we first observe that most Chinese characters can be disassembled into frequently-reused components. Therefore, we introduce the first efficient and scalable Chinese vector font generation approach via component composition, allowing generating numerous vector characters from a small set of components. To achieve this, we collect a large-scale dataset that contains over \textit{90K} Chinese characters with their components and layout information. Upon the dataset, we propose a simple yet effective framework based on spatial transformer networks (STN) and multiple losses tailored to font characteristics to learn the affine transformation of the components, which can be directly applied to the B\'ezier curves, resulting in Chinese characters in vector format. Our qualitative and quantitative experiments have demonstrated that our method significantly surpasses the state-of-the-art vector font generation methods in generating large-scale complex Chinese characters in both font generation and zero-shot font extension.
翻訳日:2024-04-11 15:19:53 公開日:2024-04-10
# アーバンアーキテクト:レイアウトを前にした3D都市シーンをステアブルに作り出す

Urban Architect: Steerable 3D Urban Scene Generation with Layout Prior ( http://arxiv.org/abs/2404.06780v1 )

ライセンス: Link先を確認
Fan Lu, Kwan-Yee Lin, Yan Xu, Hongsheng Li, Guang Chen, Changjun Jiang, (参考訳) テキスト・ツー・3D生成は大規模テキスト・ツー・イメージ拡散モデルによって顕著な成功を収めた。 それでも、方法論を都市規模にスケールアップするためのパラダイムは存在しない。 多くの要素、複雑な配置関係、大規模で特徴付けられる都市景観は、効果的なモデル最適化のための曖昧なテキスト記述の解釈可能性に対する大きな障壁となる。 本研究では,テキストから3Dのパラダイムに合成3Dレイアウトの表現を導入することで,その制約を克服する。 単純な幾何学的構造と明示的な配置関係を持つセマンティックプリミティブのセットで構成され、テキスト記述を補完し、ステアブル生成を可能にする。 そこで, モデル最適化の不整合に対処するため, 1) レイアウト誘導変分スコア蒸留を導入する。 3次元レイアウトの幾何学的および意味的な制約を伴って、スコア蒸留サンプリングプロセスの条件付けを行う。 2) 都市景観の非有界性に対処するため, 都市景観の大規模化に順応し, スケーラブル・ハッシュ・グリッド構造で3次元シーンを表現した。 大規模な実験により、初めて1000m以上の走行距離をカバーする大規模都市にテキスト・ツー・3D生成を拡張できるフレームワークが実証された。 また,様々なシーン編集デモを行い,ステアブルな都市景観生成の力を示す。 公式サイト:https://urbanarchitect.github.io

Text-to-3D generation has achieved remarkable success via large-scale text-to-image diffusion models. Nevertheless, there is no paradigm for scaling up the methodology to urban scale. Urban scenes, characterized by numerous elements, intricate arrangement relationships, and vast scale, present a formidable barrier to the interpretability of ambiguous textual descriptions for effective model optimization. In this work, we surmount the limitations by introducing a compositional 3D layout representation into text-to-3D paradigm, serving as an additional prior. It comprises a set of semantic primitives with simple geometric structures and explicit arrangement relationships, complementing textual descriptions and enabling steerable generation. Upon this, we propose two modifications -- (1) We introduce Layout-Guided Variational Score Distillation to address model optimization inadequacies. It conditions the score distillation sampling process with geometric and semantic constraints of 3D layouts. (2) To handle the unbounded nature of urban scenes, we represent 3D scene with a Scalable Hash Grid structure, incrementally adapting to the growing scale of urban scenes. Extensive experiments substantiate the capability of our framework to scale text-to-3D generation to large-scale urban scenes that cover over 1000m driving distance for the first time. We also present various scene editing demonstrations, showing the powers of steerable urban scene generation. Website: https://urbanarchitect.github.io.
翻訳日:2024-04-11 15:19:53 公開日:2024-04-10
# ミリケルビン極低温オンチップ多重化を用いた量子伝導における0.7異常を示す571GaAs量子点接触トランジスタの統計的評価

Statistical evaluation of 571 GaAs quantum point contact transistors showing the 0.7 anomaly in quantized conductance using millikelvin cryogenic on-chip multiplexing ( http://arxiv.org/abs/2404.06784v1 )

ライセンス: Link先を確認
Pengcheng Ma, Kaveh Delfanazari, Reuben K. Puddy, Jiahui Li, Moda Cao, Teng Yi, Jonathan P. Griffiths, Harvey E. Beere, David A. Ritchie, Michael J. Kelly, Charles G. Smith, (参考訳) 単一チップで生産される大量生産と実用的な極低温量子デバイスは、電気接触パッドの個数と、クライオスタットまたは希釈冷凍機の配線数に制限される。 したがって、量子デバイスのスケーラビリティ、可積分性、信頼性、再現性を推進し、評価時間、コスト、エネルギーを節約するために、1つの冷却プロセスで製造された数百のデバイスの測定を対照的にすることは有益である。 ここでは、低温のオンチップ・マルチプレクサアーキテクチャを用いて、半導体量子点接触(QPC)トランジスタの量子化コンダクタンスの最初の3つのプラトーで観測された0.7の異常の統計を調査する。 単一チップは、それぞれ256個の分割ゲートフィールド効果QPCトランジスタ(QFET)を含み、2つの16ブランチの多重ソースドレインとゲートパッドを備え、静電ゲート電圧プロセスにより個々のトランジスタを選択、アドレス化、制御することができる。 ナノスケールの1280個の量子トランジスタは、GaAsヘテロ構造の5つの異なるチップにパターン化されている。 温度T=1.4K,T=40mKで測定した571個のQPCから, 自発偏光モデルと近藤効果が一致しないことがわかった。 さらに,データの特徴の一部は,短距離相互作用を持つvan Hoveモデルと大きく一致した。 本稿では,QPCにおける0.7の異常の量子力学的特性と微視的起源についてさらなる知見を提供し,量子論理制御,読み出し,合成,処理をスケーラブルにするための半導体量子回路と集積型極低温エレクトロニクスの開発への道を開く。

The mass production and the practical number of cryogenic quantum devices producible in a single chip are limited to the number of electrical contact pads and wiring of the cryostat or dilution refrigerator. It is, therefore, beneficial to contrast the measurements of hundreds of devices fabricated in a single chip in one cooldown process to promote the scalability, integrability, reliability, and reproducibility of quantum devices and to save evaluation time, cost and energy. Here, we use a cryogenic on-chip multiplexer architecture and investigate the statistics of the 0.7 anomaly observed on the first three plateaus of the quantized conductance of semiconductor quantum point contact (QPC) transistors. Our single chips contain 256 split gate field effect QPC transistors (QFET) each, with two 16-branch multiplexed source-drain and gate pads, allowing individual transistors to be selected, addressed and controlled through an electrostatic gate voltage process. A total of 1280 quantum transistors with nano-scale dimensions are patterned in 5 different chips of GaAs heterostructures. From the measurements of 571 functioning QPCs taken at temperatures T= 1.4 K and T= 40 mK, it is found that the spontaneous polarisation model and Kondo effect do not fit our results. Furthermore, some of the features in our data largely agreed with van Hove model with short-range interactions. Our approach provides further insight into the quantum mechanical properties and microscopic origin of the 0.7 anomaly in QPCs, paving the way for the development of semiconducting quantum circuits and integrated cryogenic electronics, for scalable quantum logic control, readout, synthesis, and processing applications.
翻訳日:2024-04-11 15:19:53 公開日:2024-04-10
# ランダムノイズを伴う個人ワッサースタイン距離

Private Wasserstein Distance with Random Noises ( http://arxiv.org/abs/2404.06787v1 )

ライセンス: Link先を確認
Wenqian Li, Haozhi Wang, Zhe Huang, Yan Pang, (参考訳) ワッサーシュタイン距離(Wasserstein distance)は、分散的な観点からのデータ分散の原理的な尺度である。 しかし、生データの共有が制限されるデータプライバシの文脈では、そのアプリケーションは困難になる。 これまでは、差分プライバシーやフェデレーション最適化といった手法を使って、Wasserstein距離を近似していた。 しかしながら、これらのアプローチは攻撃の可能性に対して正確さと堅牢さを欠いていることが多い。 本研究では、ワッサーシュタイン空間の基底となる三角形の性質について検討し、トライアングルワッド(TriangleWad)という簡単な解を導いた。 このアプローチにより、異なるエンティティにまたがるデータセット間のワッサースタイン距離の計算が可能になる。 特にTriangleWadは20倍高速で、生のデータ情報を真に見えなくし、攻撃に対するレジリエンスを高め、推定精度を犠牲にしない。 画像データとテキストデータの両方を含む様々なタスクの総合的な実験を通じて、その優れた性能と一般化を実証する。

Wasserstein distance is a principle measure of data divergence from a distributional standpoint. However, its application becomes challenging in the context of data privacy, where sharing raw data is restricted. Prior attempts have employed techniques like Differential Privacy or Federated optimization to approximate Wasserstein distance. Nevertheless, these approaches often lack accuracy and robustness against potential attack. In this study, we investigate the underlying triangular properties within the Wasserstein space, leading to a straightforward solution named TriangleWad. This approach enables the computation of Wasserstein distance between datasets stored across different entities. Notably, TriangleWad is 20 times faster, making raw data information truly invisible, enhancing resilience against attacks, and without sacrificing estimation accuracy. Through comprehensive experimentation across various tasks involving both image and text data, we demonstrate its superior performance and generalizations.
翻訳日:2024-04-11 15:19:53 公開日:2024-04-10
# 最小数のパラメータでキュービット空間を認証する

Certifying the qubit space with a minimal number of parameters ( http://arxiv.org/abs/2404.06792v1 )

ライセンス: Link先を確認
Tomasz Rybotycki, Tomasz Białecki, Josep Batle, Jakub Tworzydło, Adam Bednorz, (参考訳) 本稿では,IBM の量子コンピュータ上での量子ビットシステムの寸法の精度検証を行う。 ブロッホ球面 $\pi/2$-回転軸角を非平面的いわゆるヴィヴィアーニ曲線にマッピングすることで実現する。 IBMデバイス上での単一キュービットゲートによるローテーションの実施中に、テストに合格するキュービットの大多数が見つかったが、いくつかの特定のキュービットは10以上の標準偏差で失敗した。 これらの逸脱の性質は、テストが一般的な非イデオロギーに対して堅牢であるため、簡単に説明できない。

We present a precise certification test of the dimension of a qubit system on the public IBM quantum computer, using the determinant dimension witness and with a minimal number of independent parameters. We achieve it by mapping the Bloch sphere $\pi/2$-rotation axis angle on the nonplanar so-called Viviani curve. During the implementation of the rotation by single qubit gates on IBM devices, we found the majority of qubits passing the test, although some specific qubits failed by more than ten standard deviations. The nature of those deviations has no simple explanation, as the test is robust against common non-idealities.
翻訳日:2024-04-11 15:19:53 公開日:2024-04-10
# ノイズのある長期分類のためのクリーンかつバランスの取れたサブセットの抽出

Extracting Clean and Balanced Subset for Noisy Long-tailed Classification ( http://arxiv.org/abs/2404.06795v1 )

ライセンス: Link先を確認
Zhuo Li, He Zhao, Zhen Li, Tongliang Liu, Dandan Guo, Xiang Wan, (参考訳) 実世界のデータセットは通常、クラス不均衡であり、ラベルノイズによって破損する。 長い尾の分布とラベルノイズの連成問題を解決するため、従来のほとんどの研究はノイズ検知器を設計し、ノイズやクリーンなサンプルを識別することを目的としていた。 その効果にもかかわらず、共同問題を効果的に統一的に扱うことに制限されるかもしれない。 本研究では,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。 手動で特定した確率尺度を設定し、学習した輸送計画を用いてトレーニングサンプルを擬似ラベル付けすることで、提案手法はノイズと長い尾のデータの副作用を同時に低減することができる。 次に、観測されたラベルと擬似ラベルを組み合わせることで、頑健なモデルトレーニングのためのよりバランスのとれた、よりノイズの少ないサブセットを得る。 大規模な実験により,本手法がクリーンなラベル付きクラスバランスサブセットを抽出できることが示され,ラベルノイズ付きロングテール分類に有効な性能向上がもたらされた。

Real-world datasets usually are class-imbalanced and corrupted by label noise. To solve the joint issue of long-tailed distribution and label noise, most previous works usually aim to design a noise detector to distinguish the noisy and clean samples. Despite their effectiveness, they may be limited in handling the joint issue effectively in a unified way. In this work, we develop a novel pseudo labeling method using class prototypes from the perspective of distribution matching, which can be solved with optimal transport (OT). By setting a manually-specific probability measure and using a learned transport plan to pseudo-label the training samples, the proposed method can reduce the side-effects of noisy and long-tailed data simultaneously. Then we introduce a simple yet effective filter criteria by combining the observed labels and pseudo labels to obtain a more balanced and less noisy subset for a robust model training. Extensive experiments demonstrate that our method can extract this class-balanced subset with clean labels, which brings effective performance gains for long-tailed classification with label noise.
翻訳日:2024-04-11 15:19:53 公開日:2024-04-10
# MedRG:マルチモーダル大言語モデルによる医療報告

MedRG: Medical Report Grounding with Multi-modal Large Language Model ( http://arxiv.org/abs/2404.06798v1 )

ライセンス: Link先を確認
Ke Zou, Yang Bai, Zhihao Chen, Yang Zhou, Yidi Chen, Kai Ren, Meng Wang, Xuedong Yuan, Xiaojing Shen, Huazhu Fu, (参考訳) 医療報告基盤は、所定のフレーズクエリー、医療画像分析および放射線診断における重要な側面に基づいて、医療画像の最も関連性の高い領域を特定する上で重要である。 しかし, 医報から重要なフレーズを手作業で抽出する必要があるため, システム効率と医師の双方にかなりの負担がかかる。 本稿では,MedRG(Messical Report Grounding)という,単一トークンであるBOXを語彙に組み込んでキーフレーズを予測し,検出機能をアンロックするエンド・ツー・エンドのソリューションを提案する。 その後、ビジョンエンコーダ−デコーダは、隠された埋め込みと入力された医療画像とを共同で復号し、対応する接地ボックスを生成する。 MedRGの有効性を実証し,既存の医療用語の接頭法の性能を上回り,その効果を検証した。 本研究は, 医療報告基盤業務の先駆的な探索であり, この領域における最初の取り組みである。

Medical Report Grounding is pivotal in identifying the most relevant regions in medical images based on a given phrase query, a critical aspect in medical image analysis and radiological diagnosis. However, prevailing visual grounding approaches necessitate the manual extraction of key phrases from medical reports, imposing substantial burdens on both system efficiency and physicians. In this paper, we introduce a novel framework, Medical Report Grounding (MedRG), an end-to-end solution for utilizing a multi-modal Large Language Model to predict key phrase by incorporating a unique token, BOX, into the vocabulary to serve as an embedding for unlocking detection capabilities. Subsequently, the vision encoder-decoder jointly decodes the hidden embedding and the input medical image, generating the corresponding grounding box. The experimental results validate the effectiveness of MedRG, surpassing the performance of the existing state-of-the-art medical phrase grounding methods. This study represents a pioneering exploration of the medical report grounding task, marking the first-ever endeavor in this domain.
翻訳日:2024-04-11 15:10:01 公開日:2024-04-10
# 生成制御された次元性低減

Formation-Controlled Dimensionality Reduction ( http://arxiv.org/abs/2404.06808v1 )

ライセンス: Link先を確認
Taeuk Jeong, Yoon Mo Jung, (参考訳) 次元の減少は、高次元データの低次元表現を生成する過程を表す。 移動体エージェントの形成制御を動機として,次元還元のための非線形力学系を提案する。 このシステムは、近隣の点の制御、局所的な構造への対処、大域的な構造を考慮した遠隔の点の制御という2つの部分から構成される。 また、モデルとその数値計算手順の簡単な数学的観察も含んでいる。 合成モデルと実モデルの両方で数値実験を行い、既存のモデルとの比較により、提案モデルの有効性と有効性を示す。

Dimensionality reduction represents the process of generating a low dimensional representation of high dimensional data. Motivated by the formation control of mobile agents, we propose a nonlinear dynamical system for dimensionality reduction. The system consists of two parts; the control of neighbor points, addressing local structures, and the control of remote points, accounting for global structures. We also include a brief mathematical observation of the model and its numerical procedure. Numerical experiments are performed on both synthetic and real datasets and comparisons with existing models demonstrate the soundness and effectiveness of the proposed model.
翻訳日:2024-04-11 15:10:01 公開日:2024-04-10
# すべての文脈が平等であるとは限らない: LLM に信頼性を意識した生成を教える

Not All Contexts Are Equal: Teaching LLMs Credibility-aware Generation ( http://arxiv.org/abs/2404.06809v1 )

ライセンス: Link先を確認
Ruotong Pan, Boxi Cao, Hongyu Lin, Xianpei Han, Jia Zheng, Sirui Wang, Xunliang Cai, Le Sun, (参考訳) 大規模言語モデルの急速な発展により、知識ボトルネックの緩和と幻覚の緩和のために外部知識を統合したレトリーバル拡張生成(RAG)が広く採用されている。 しかし、既存のRAGパラダイムは、検索フレーズ中に導入された欠陥情報の影響に必然的に悩まされるため、生成された結果の信頼性と正確性は低下する。 本稿では、RAGにおける欠陥情報の影響を軽減するために、広く適用可能なフレームワークであるCredibility-Aware Generation (CAG)を提案する。 CAGの中核となるのは、その信頼性に基づいて情報を識別し処理する能力を備えたモデルを提供することである。 そこで本稿では,信頼性に基づいてデータを生成する革新的なデータ変換フレームワークを提案する。 さらに、CAGのモデルの性能を正確に評価するために、3つの重要な実世界のシナリオをカバーする包括的なベンチマークを構築した。 実験結果から,本モデルでは,生成に対する信頼性を効果的に理解し,検索強化により他のモデルよりも優れ,ノイズの多い文書による破壊に対するレジリエンスを示し,ロバストな性能を維持することができることが示された。 さらに、我々のモデルはカスタマイズされた信頼性をサポートし、幅広い潜在的なアプリケーションを提供します。

The rapid development of large language models has led to the widespread adoption of Retrieval-Augmented Generation (RAG), which integrates external knowledge to alleviate knowledge bottlenecks and mitigate hallucinations. However, the existing RAG paradigm inevitably suffers from the impact of flawed information introduced during the retrieval phrase, thereby diminishing the reliability and correctness of the generated outcomes. In this paper, we propose Credibility-aware Generation (CAG), a universally applicable framework designed to mitigate the impact of flawed information in RAG. At its core, CAG aims to equip models with the ability to discern and process information based on its credibility. To this end, we propose an innovative data transformation framework that generates data based on credibility, thereby effectively endowing models with the capability of CAG. Furthermore, to accurately evaluate the models' capabilities of CAG, we construct a comprehensive benchmark covering three critical real-world scenarios. Experimental results demonstrate that our model can effectively understand and utilize credibility for generation, significantly outperform other models with retrieval augmentation, and exhibit resilience against the disruption caused by noisy documents, thereby maintaining robust performance. Moreover, our model supports customized credibility, offering a wide range of potential applications.
翻訳日:2024-04-11 15:10:01 公開日:2024-04-10
# 多粒度情報と多モジュール相互作用に基づく感情原因対抽出法

Emotion-cause pair extraction method based on multi-granularity information and multi-module interaction ( http://arxiv.org/abs/2404.06812v1 )

ライセンス: Link先を確認
Mingrui Fu, Weijiang Li, (参考訳) 感情に起因したペア抽出の目的は、感情の1対の節を抽出し、原因の節を抽出することである。 一方,既存手法は2つの補助課題の感情抽出の関係を十分に考慮していない。 一方,既存の2段階モデルでは誤りの伝播が問題となる。 さらに、既存のモデルは、サンプルの感情や原因による位置不均衡に適切に対処しない。 これらの問題を解決するために,GRU,知識グラフ,変圧器モジュール間の共有相互作用に基づくエンドツーエンドマルチタスクモデル(MM-ECPE)を提案する。 さらに,MM-ECPEに基づくエンコーダ層を用いて文節と感情節間の節間距離の不均衡分布の解消を図るため,感情モチーフペア検索モデル(MM-ECPE(BERT))のBERT,感情辞書,位置認識相互作用モジュール層に基づく新しい符号化手法を提案する。 モデルはまず、マルチレベル共有モジュールを通じて異なるタスク間の相互作用をモデル化し、感情の原因となるペア抽出と感情抽出と原因抽出の共有情報をマイニングする。 第二に、感情節の不均衡分布と原因節の問題を解決するために、知識グラフパスの長さに応じて適切なラベルをスクリーニングし、そのモデルが対応する感情の原因関係を持つペアの抽出に集中できるようにタスク固有の特徴を構築する。 ECPEベンチマークデータセットの実験結果から,提案モデルが特に位置不均衡なサンプルに対して良好な性能を発揮することが示された。

The purpose of emotion-cause pair extraction is to extract the pair of emotion clauses and cause clauses. On the one hand, the existing methods do not take fully into account the relationship between the emotion extraction of two auxiliary tasks. On the other hand, the existing two-stage model has the problem of error propagation. In addition, existing models do not adequately address the emotion and cause-induced locational imbalance of samples. To solve these problems, an end-to-end multitasking model (MM-ECPE) based on shared interaction between GRU, knowledge graph and transformer modules is proposed. Furthermore, based on MM-ECPE, in order to use the encoder layer to better solve the problem of imbalanced distribution of clause distances between clauses and emotion clauses, we propose a novel encoding based on BERT, sentiment lexicon, and position-aware interaction module layer of emotion motif pair retrieval model (MM-ECPE(BERT)). The model first fully models the interaction between different tasks through the multi-level sharing module, and mines the shared information between emotion-cause pair extraction and the emotion extraction and cause extraction. Second, to solve the imbalanced distribution of emotion clauses and cause clauses problem, suitable labels are screened out according to the knowledge graph path length and task-specific features are constructed so that the model can focus on extracting pairs with corresponding emotion-cause relationships. Experimental results on the ECPE benchmark dataset show that the proposed model achieves good performance, especially on position-imbalanced samples.
翻訳日:2024-04-11 15:10:01 公開日:2024-04-10
# ゼロショットのクラウドコンプリートが2Dに

Zero-shot Point Cloud Completion Via 2D Priors ( http://arxiv.org/abs/2404.06814v1 )

ライセンス: Link先を確認
Tianxin Huang, Zhiwen Yan, Yuyang Zhao, Gim Hee Lee, (参考訳) 3次元点雲の完成は、部分的に観測された点雲から完全な形状を復元するように設計されている。 従来のコンプリート手法は、トレーニングで見られるようなオブジェクトカテゴリに制約されることが多いため、トレーニングのために広範囲のクラウドデータに依存するのが一般的である。 これとは対照的に, 観測された点群を未確認のカテゴリで完結させるため, ゼロショットフレームワークを提案する。 ガウススプラッティングによる点レンダリングを活用して,事前学習した拡散モデルから2次元事前学習を利用した点雲色化法とゼロショットフラクタル補完法を開発し,欠測領域を推定する。 実世界の走査された点群と実世界の走査された点群の両方に対する実験結果から,本手法は特定の訓練データを必要としない様々な物体の完成において,既存の手法よりも優れていることが示された。

3D point cloud completion is designed to recover complete shapes from partially observed point clouds. Conventional completion methods typically depend on extensive point cloud data for training %, with their effectiveness often constrained to object categories similar to those seen during training. In contrast, we propose a zero-shot framework aimed at completing partially observed point clouds across any unseen categories. Leveraging point rendering via Gaussian Splatting, we develop techniques of Point Cloud Colorization and Zero-shot Fractal Completion that utilize 2D priors from pre-trained diffusion models to infer missing regions. Experimental results on both synthetic and real-world scanned point clouds demonstrate that our approach outperforms existing methods in completing a variety of objects without any requirement for specific training data.
翻訳日:2024-04-11 15:10:01 公開日:2024-04-10
# LG暗号システムのセキュリティ評価

Security Assessment of the LG Cryptosystem ( http://arxiv.org/abs/2404.06815v1 )

ライセンス: Link先を確認
Étienne Burle, Hervé Talé Kalachi, Freddy Lende Metouke, Ayoub Otmani, (参考訳) LG暗号は、2019年にLaureとTanによって導入された、最近の$\lambdav-$Gabidulin符号のファミリを使用した、ランクメトリックの公開鍵暗号スキームである。 本稿では,提案手法のいくつかのパラメータのセキュリティが過大評価されていることを示す暗号解析について述べる。 また、攻撃者が多項式時間に別の秘密鍵を見つけることができる弱鍵の存在を示す。

The LG cryptosystem is a public-key encryption scheme in the rank metric using the recent family of $\lambdav-$Gabidulin codes and introduced in 2019 by Lau and Tan. In this paper, we present a cryptanalysis showing that the security of several parameters of the scheme have been overestimated. We also show the existence of some weak keys allowing an attacker to find in polynomial time an alternative private key.
翻訳日:2024-04-11 15:10:01 公開日:2024-04-10
# ニューラル自己回帰モデルを用いた効率的なリアルタイムピアノ転写に向けて

Towards Efficient and Real-Time Piano Transcription Using Neural Autoregressive Models ( http://arxiv.org/abs/2404.06818v1 )

ライセンス: Link先を確認
Taegyun Kwon, Dasaem Jeong, Juhan Nam, (参考訳) 近年、ニューラルネットワークの設計の進歩と大規模ラベル付きデータセットの利用可能化により、ピアノの転写モデルの精度が大幅に向上している。 しかし、これまでのほとんどの研究は、モデルサイズを考慮せず、高性能なオフライン文字起こしに重点を置いていた。 本研究の目的は、ハイパフォーマンスと軽量さを両立させながら、ピアノの書き起こしのためのリアルタイム推論を実装することである。 そこで本研究では,既存の自己回帰型ピアノ書き起こしモデルを再設計し,畳み込みリカレントニューラルネットワークのための新しいアーキテクチャを提案する。 まず、周波数条件付きFiLM層をCNNモジュールに追加して、周波数軸上の畳み込みフィルタを適用することで、音響モジュールを拡張する。 第二に、音符内の音符状態遷移に着目したピッチワイズLSTMを用いて、音符状態列モデリングを改善する。 さらに,再帰的コンテキストの強化により自己回帰接続を増強する。 これらのコンポーネントを用いて,高性能モデルと高コンパクトモデルという2種類のモデルを提案する。 実験により,提案モデルがMAESTROデータセットの音符精度の観点から,最先端モデルに匹敵することを示す。 また、アーキテクチャを徐々に合理化することで、有効モデルサイズとリアルタイムの推論遅延についても検討する。 最後に,未確認のピアノデータセットのクロスデータ評価と詳細な分析を行い,音符長とピッチ範囲の観点から,提案成分の効果を解明する。

In recent years, advancements in neural network designs and the availability of large-scale labeled datasets have led to significant improvements in the accuracy of piano transcription models. However, most previous work focused on high-performance offline transcription, neglecting deliberate consideration of model size. The goal of this work is to implement real-time inference for piano transcription while ensuring both high performance and lightweight. To this end, we propose novel architectures for convolutional recurrent neural networks, redesigning an existing autoregressive piano transcription model. First, we extend the acoustic module by adding a frequency-conditioned FiLM layer to the CNN module to adapt the convolutional filters on the frequency axis. Second, we improve note-state sequence modeling by using a pitchwise LSTM that focuses on note-state transitions within a note. In addition, we augment the autoregressive connection with an enhanced recursive context. Using these components, we propose two types of models; one for high performance and the other for high compactness. Through extensive experiments, we show that the proposed models are comparable to state-of-the-art models in terms of note accuracy on the MAESTRO dataset. We also investigate the effective model size and real-time inference latency by gradually streamlining the architecture. Finally, we conduct cross-data evaluation on unseen piano datasets and in-depth analysis to elucidate the effect of the proposed components in the view of note length and pitch range.
翻訳日:2024-04-11 15:10:01 公開日:2024-04-10
# Enc2DB: ハイブリッドで適応的な暗号化クエリ処理フレームワーク

Enc2DB: A Hybrid and Adaptive Encrypted Query Processing Framework ( http://arxiv.org/abs/2404.06819v1 )

ライセンス: Link先を確認
Hui Li, Jingwen Shi, Qi Tian, Zheng Li, Yan Fu, Bingqing Shen, Yaofeng Tu, (参考訳) クラウドコンピューティングが普及するにつれて、データ所有者はデータをデータベースサービス(DBaaS)用のクラウドサービスプロバイダ(CSP)にアウトソーシングし、データの所有と使用の偏りをもたらし、特にハッカーやCSPインサイダーによる潜在的侵害によるプライバシー上の懸念を強めている。 これを解決するために、暗号化されたデータベースサービスは、CSPに送信する前にすべてのタプルとクエリステートメントを暗号化することを提案し、CSPが誠実だが正確である場合や、妥協された場合のデータの機密性を保証する。 既存のソリューションでは、CSP上のデータを復号することなく暗号文上で特定の操作を実行できるプロパティ保存暗号スキームを使用しているか、CSPからデータや計算を保護するために信頼できる実行環境(TEE)を利用している。 これらの取り組みに基づいて、PostgreSQLとopenGaussのハイブリッド戦略に従って、新しいセキュアデータベースシステムであるEnc2DBを紹介します。 本稿では,マイクロベンチマークテストと自己適応型モードスイッチ戦略を提案し,与えられたクエリに応答する最適な実行パス(暗号やTEE)を動的に選択する。 また,クエリ処理を高速化するために,ネイティブコストモデルやクエリオプティマイザと互換性のある暗号文インデックスを設計,実装する。 TPC-Cテストに関する実証研究は、Enc2DBが純粋なTEEや暗号ソリューションより優れており、我々の暗号インデックスの実装も最先端の暗号ベースのシステムより優れていることを正当化している。

As cloud computing gains traction, data owners are outsourcing their data to cloud service providers (CSPs) for Database Service (DBaaS), bringing in a deviation of data ownership and usage, and intensifying privacy concerns, especially with potential breaches by hackers or CSP insiders. To address that, encrypted database services propose encrypting every tuple and query statement before submitting to the CSP, ensuring data confidentiality when the CSP is honest-but-curious, or even compromised. Existing solutions either employ property preserving cryptography schemes, which can perform certain operations over ciphertext without decrypting the data over the CSP, or utilize trusted execution environment (TEE) to safeguard data and computations from the CSP. Based on these efforts, we introduce Enc2DB, a novel secure database system, following a hybrid strategy on PostgreSQL and openGauss. We present a micro-benchmarking test and self-adaptive mode switch strategy that can dynamically choose the best execution path (cryptography or TEE) to answer a given query. Besides, we also design and implement a ciphertext index compatible with native cost model and query optimizers to accelerate query processing. Empirical study over TPC-C test justifies that Enc2DB outperforms pure TEE and cryptography solutions, and our ciphertext index implementation also outperforms the state-of-the-art cryptographic-based system.
翻訳日:2024-04-11 15:10:01 公開日:2024-04-10
# 教師なし機械学習によるTDoA UWB屋内位置推定の誤差軽減

Error Mitigation for TDoA UWB Indoor Localization using Unsupervised Machine Learning ( http://arxiv.org/abs/2404.06824v1 )

ライセンス: Link先を確認
Phuong Bich Duong, Ben Van Herbruggen, Arne Broering, Adnan Shahid, Eli De Poorter, (参考訳) UWB(Ultra-wideband)技術に基づく屋内位置決めシステムは,cmレベルの位置決め精度を提供する能力で認識されている。 しかしながら、これらのシステムは、密集したマルチパスの消失に起因する問題にしばしば遭遇し、位置決めエラーを引き起こす。 この問題に対処するため,本論文では,深層クラスタリング(DEC)を用いたアンカーノード選択のための新しい手法を提案する。 我々のアプローチでは、クラスタリングの前にオートエンコーダ(AE)を使用し、UWB特徴を分離可能なUWB入力信号のクラスタに分離する。 さらに、クラスタの品質に基づいてこれらのクラスタをランク付けする方法についても検討し、信頼できない信号を除去できるようにします。 実験の結果,提案手法の有効性が示され,平均絶対誤差(MAE)はアンカー除去を伴わない場合に比べて23.1%減少した。 特に高密度なマルチパス領域では,より顕著な拡張が達成され,MAEが26.6%減少し,95%の誤差が49.3%減少する。

Indoor positioning systems based on Ultra-wideband (UWB) technology are gaining recognition for their ability to provide cm-level localization accuracy. However, these systems often encounter challenges caused by dense multi-path fading, leading to positioning errors. To address this issue, in this letter, we propose a novel methodology for unsupervised anchor node selection using deep embedded clustering (DEC). Our approach uses an Auto Encoder (AE) before clustering, thereby better separating UWB features into separable clusters of UWB input signals. We furthermore investigate how to rank these clusters based on their cluster quality, allowing us to remove untrustworthy signals. Experimental results show the efficiency of our proposed method, demonstrating a significant 23.1% reduction in mean absolute error (MAE) compared to without anchor exclusion. Especially in the dense multi-path area, our algorithm achieves even more significant enhancements, reducing the MAE by 26.6% and the 95th percentile error by 49.3% compared to without anchor exclusion.
翻訳日:2024-04-11 15:10:01 公開日:2024-04-10
# 量子ソフトウェア工学の次の10年への挑戦 - 道の先

Challenges of Quantum Software Engineering for the Next Decade: The Road Ahead ( http://arxiv.org/abs/2404.06825v1 )

ライセンス: Link先を確認
Juan M. Murillo, Jose Garcia-Alonso, Enrique Moguel, Johanna Barzen, Frank Leymann, Shaukat Ali, Tao Yue, Paolo Arcaini, Ricardo Pérez, Ignacio García Rodríguez de Guzmán, Mario Piattini, Antonio Ruiz-Cortés, Antonio Brogi, Jianjun Zhao, Andriy Miranskyy, Manuel Wimmer, (参考訳) 量子コンピュータが進化するにつれて、ソフトウェアが実行可能な複雑さも増す。 このソフトウェアを効率的で、メンテナンス可能で、再利用可能で、コスト効率のよい、あらゆる業界レベルのソフトウェアが努力すべき品質特性にするためには、その設計、開発、運用において成熟したソフトウェアエンジニアリングアプローチを適用する必要がある。 古典的ソフトウェアと量子的ソフトウェアの間に大きな違いがあるため、古典的ソフトウェア工学のソリューションを量子的ソフトウェアに適用することは困難である。 この結果、現代のソフトウェア工学の分野における規律として量子ソフトウェア工学が誕生した。 この研究において、アクティブな研究者のセットは、現在、量子ソフトウェア工学の課題に対処し、この領域における最新の研究の進歩を分析しています。 この分析は、量子ソフトウェア工学に必要なブレークスルーと将来の研究方向を特定するために使われる。

As quantum computers evolve, so does the complexity of the software that they can run. To make this software efficient, maintainable, reusable, and cost-effective, quality attributes that any industry-grade software should strive for, mature software engineering approaches should be applied during its design, development, and operation. Due to the significant differences between classical and quantum software, applying classical software engineering solutions to quantum software is difficult. This resulted in the birth of Quantum Software Engineering as a discipline in the contemporary software engineering landscape. In this work, a set of active researchers is currently addressing the challenges of Quantum Software Engineering and analyzing the most recent research advances in this domain. This analysis is used to identify needed breakthroughs and future research directions for Quantum Software Engineering.
翻訳日:2024-04-11 15:10:01 公開日:2024-04-10
# エクステンションがブラウザのパフォーマンスに与える影響: Google Chromeに関する実証的研究

Impact of Extensions on Browser Performance: An Empirical Study on Google Chrome ( http://arxiv.org/abs/2404.06827v1 )

ライセンス: Link先を確認
Bihui Jin, Heng Li, Ying Zou, (参考訳) Webブラウザは、情報検索やオンラインショッピングなど、様々なオンライン活動を行うために広く利用されてきた。 ユーザエクスペリエンスを改善し、ブラウザの機能を拡張するために、ブラウザにサードパーティが提供するプラグイン(エクステンション)をインストールするためのメカニズムを提供する。 しかし、このような拡張によるパフォーマンスへの影響についてはほとんど分かっていない。 本稿では,最もポピュラーなブラウザであるGoogle Chromeのユーザ認識性能(エネルギー消費とページロード時間)に及ぼすエクステンションの影響を理解するための実証的研究を行う。 11のカテゴリ(例えば、Developer Tools、Sports)から72の代表的な拡張について調査する。 ブラウザのパフォーマンスは,意図しない状況でエクステンションが使用されている場合(例えば,エクステンションへのログインが許可されていない場合や,指定されたウェブサイトで拡張が使用されていない場合など)も,エクステンションの使用によって悪影響を及ぼす可能性がある。 また、拡張機能が採用するコードの複雑さやプライバシプラクティス(ユーザデータの収集など)など、拡張のパフォーマンスへの影響に大きな影響を及ぼす要因のセットを特定します。 経験的な観察に基づいて、エクステンションの意図しない使用シナリオに対するパフォーマンステストと最適化の実行、あるいはエクステンションの適切な使用プラクティス(必要に応じてエクステンションにログインするなど)の順守など、ブラウザエクステンションのパフォーマンスへの影響を軽減するための、開発者とユーザの推奨事項を提供します。

Web browsers have been used widely by users to conduct various online activities, such as information seeking or online shopping. To improve user experience and extend the functionality of browsers, practitioners provide mechanisms to allow users to install third-party-provided plugins (i.e., extensions) on their browsers. However, little is known about the performance implications caused by such extensions. In this paper, we conduct an empirical study to understand the impact of extensions on the user-perceived performance (i.e., energy consumption and page load time) of Google Chrome, the most popular browser. We study a total of 72 representative extensions from 11 categories (e.g., Developer Tools and Sports). We observe that browser performance can be negatively impacted by the use of extensions, even when the extensions are used in unintended circumstances (e.g., when logging into an extension is not granted but required, or when an extension is not used for designated websites). We also identify a set of factors that significantly influence the performance impact of extensions, such as code complexity and privacy practices (i.e., collection of user data) adopted by the extensions. Based on our empirical observations, we provide recommendations for developers and users to mitigate the performance impact of browser extensions, such as conducting performance testing and optimization for unintended usage scenarios of extensions, or adhering to proper usage practices of extensions (e.g., logging into an extension when required).
翻訳日:2024-04-11 15:10:01 公開日:2024-04-10
# アメーバにインスパイアされた組合せ最適化マシンのための修正型計算モデルの提案

Proposed modified computational model for the amoeba-inspired combinatorial optimization machine ( http://arxiv.org/abs/2404.06828v1 )

ライセンス: Link先を確認
Yusuke Miyajima, Masahito Mochizuki, (参考訳) 単セルアメーバは、その形状変化ダイナミクスにより、旅行セールスマンの問題を解決することができる。 本稿では,アメーバの解探索プロセスにおける従来提案されていた計算モデルにおけるいくつかの要素の役割と,解探索精度の向上に向けた3つの修正について検討する。 適切な修正によって、ソリューションの品質が著しく向上することが分かっています。 また、アメーバの解探索能力に欠かせないというナイーブな信念とは対照的に、体積保存に関連する条件も修正可能であることも見いだされた。 提案された修正モデルは、はるかに優れたパフォーマンスを示している。

A single-celled amoeba can solve the traveling salesman problem through its shape-changing dynamics. In this paper, we examine roles of several elements in a previously proposed computational model of the solution-search process of amoeba and three modifications towards enhancing the solution-search preformance. We find that appropriate modifications can indeed significantly improve the quality of solutions. It is also found that a condition associated with the volume conservation can also be modified in contrast to the naive belief that it is indispensable for the solution-search ability of amoeba. A proposed modified model shows much better performance.
翻訳日:2024-04-11 15:10:01 公開日:2024-04-10
# 一般化線形コンテキスト帯域に対する適応性に制限のある最適レグレット

Optimal Regret with Limited Adaptivity for Generalized Linear Contextual Bandits ( http://arxiv.org/abs/2404.06831v1 )

ライセンス: Link先を確認
Ayush Sawarni, Nirjhar Das, Gaurav Sinha, Siddharth Barman, (参考訳) 限定適応性の要求条件の中で、一般化線形文脈帯域問題について検討する。 本稿では,2つのアルゴリズム, \texttt{B-GLinCB} と \texttt{RS-GLinCB} について述べる。 これら2つのモデルに対して、基本的には厳密な後悔境界を確立する。 特に、得られたバウンダリにおいて、基礎となる報酬モデルの非線形性をキャプチャするキーパラメータ$\kappa$への依存を取り除くことに成功している。 バッチ学習アルゴリズム \texttt{B-GLinCB} の場合、$\Omega\left( \log{\log T} \right)$ バッチは $\tilde{O}(\sqrt{T})$ となる。 さらに、我々のめったに切り替えないアルゴリズム \texttt{RS-GLinCB} がそのポリシーを最大$\tilde{O}(\log^2T)$倍に更新し、$\tilde{O}(\sqrt{T})$を後悔する。 一般化された文脈的帯域に対する$\kappa$への依存を取り除くアプローチは、独立した関心事かもしれない。

We study the generalized linear contextual bandit problem within the requirements of limited adaptivity. In this paper, we present two algorithms, \texttt{B-GLinCB} and \texttt{RS-GLinCB}, that address, respectively, two prevalent limited adaptivity models: batch learning with stochastic contexts and rare policy switches with adversarial contexts. For both these models, we establish essentially tight regret bounds. Notably, in the obtained bounds, we manage to eliminate a dependence on a key parameter $\kappa$, which captures the non-linearity of the underlying reward model. For our batch learning algorithm \texttt{B-GLinCB}, with $\Omega\left( \log{\log T} \right)$ batches, the regret scales as $\tilde{O}(\sqrt{T})$. Further, we establish that our rarely switching algorithm \texttt{RS-GLinCB} updates its policy at most $\tilde{O}(\log^2 T)$ times and achieves a regret of $\tilde{O}(\sqrt{T})$. Our approach for removing the dependence on $\kappa$ for generalized linear contextual bandits might be of independent interest.
翻訳日:2024-04-11 15:10:01 公開日:2024-04-10
# SplatPose & Detect: Pose-Agnostic 3D Anomaly Detection

SplatPose & Detect: Pose-Agnostic 3D Anomaly Detection ( http://arxiv.org/abs/2404.06832v1 )

ライセンス: Link先を確認
Mathis Kruse, Marco Rudolph, Dominik Woiwode, Bodo Rosenhahn, (参考訳) 画像中の異常を検出することは、学術と産業の両方でよく研究されている問題となっている。 最先端のアルゴリズムは、ますます困難な設定やデータモダリティの欠陥を検出することができる。 しかし、現在のほとんどの方法は、異なるポーズからキャプチャされた3Dオブジェクトに対処するのに適していない。 Neural Radiance Fields (NeRF) を用いたソリューションが提案されているが、計算の過剰な要求に悩まされ、現実のユーザビリティを損なう。 そこで本研究では,3Dオブジェクトのマルチビュー画像が与えられた3Dガウススプラッティングに基づくフレームワークであるSplatPoseを提案する。 競合手法に比べてトレーニングデータが少ない場合でも,トレーニング速度と推論速度,検出性能の両面で最先端の成果が得られている。 我々は,最近提案されたPose-Agnostic Anomaly Detectionベンチマークと,その多目的異常検出(MAD)データセットを用いて,我々のフレームワークを徹底的に評価した。

Detecting anomalies in images has become a well-explored problem in both academia and industry. State-of-the-art algorithms are able to detect defects in increasingly difficult settings and data modalities. However, most current methods are not suited to address 3D objects captured from differing poses. While solutions using Neural Radiance Fields (NeRFs) have been proposed, they suffer from excessive computation requirements, which hinder real-world usability. For this reason, we propose the novel 3D Gaussian splatting-based framework SplatPose which, given multi-view images of a 3D object, accurately estimates the pose of unseen views in a differentiable manner, and detects anomalies in them. We achieve state-of-the-art results in both training and inference speed, and detection performance, even when using less training data than competing methods. We thoroughly evaluate our framework using the recently proposed Pose-agnostic Anomaly Detection benchmark and its multi-pose anomaly detection (MAD) data set.
翻訳日:2024-04-11 15:10:01 公開日:2024-04-10
# マポ豆腐はコーヒーを含むか? 食品関連文化知識のLLMを探る

Does Mapo Tofu Contain Coffee? Probing LLMs for Food-related Cultural Knowledge ( http://arxiv.org/abs/2404.06833v1 )

ライセンス: Link先を確認
Li Zhou, Taelin Karidi, Nicolas Garneau, Yong Cao, Wanlong Liu, Wenyu Chen, Daniel Hershcovich, (参考訳) 近年の研究では、Large Language Models (LLMs) における文化的バイアスの存在が強調されているが、これらの現象を包括的に識別する堅牢な方法論が欠如していることが多い。 我々の研究は、人類の生活の普遍的かつ文化的に多様な側面である食品領域を掘り下げることで、このギャップを埋めることを目的としています。 FmLAMA(FmLAMA)は、食品に関する文化的事実と食実践のバリエーションに着目した多言語データセットである。 我々は,LLMを様々なアーキテクチャや構成にわたって分析し,その性能を単言語と多言語の両方で評価する。 テンプレートを6つの異なる言語で活用することにより,LLMが言語固有の文化知識とどのように相互作用するかを検討する。 その結果, 1) LLMは, 米国に広く普及している食品知識に対する顕著な偏見を示し, (2) 関連する文化的文脈を取り入れることで, LLMの文化的知識へのアクセス能力が著しく向上すること,(3) 文化的ニュアンスを捉える上でのLCMの有効性は, 探索言語, 特定のモデルアーキテクチャ, 問題の文化的文脈との相互作用に大きく依存していることが判明した。 本研究は、文化理解をLCMに統合することの複雑さを強調し、文化的に多様なデータセットの重要性を強調し、バイアスを緩和し、異なる文化領域にわたるモデルパフォーマンスを向上させる。

Recent studies have highlighted the presence of cultural biases in Large Language Models (LLMs), yet often lack a robust methodology to dissect these phenomena comprehensively. Our work aims to bridge this gap by delving into the Food domain, a universally relevant yet culturally diverse aspect of human life. We introduce FmLAMA, a multilingual dataset centered on food-related cultural facts and variations in food practices. We analyze LLMs across various architectures and configurations, evaluating their performance in both monolingual and multilingual settings. By leveraging templates in six different languages, we investigate how LLMs interact with language-specific and cultural knowledge. Our findings reveal that (1) LLMs demonstrate a pronounced bias towards food knowledge prevalent in the United States; (2) Incorporating relevant cultural context significantly improves LLMs' ability to access cultural knowledge; (3) The efficacy of LLMs in capturing cultural nuances is highly dependent on the interplay between the probing language, the specific model architecture, and the cultural context in question. This research underscores the complexity of integrating cultural understanding into LLMs and emphasizes the importance of culturally diverse datasets to mitigate biases and enhance model performance across different cultural domains.
翻訳日:2024-04-11 15:10:01 公開日:2024-04-10
# 放射基底関数とディープニューラルネットワークを用いたパラメトリックPDEの解法

Solving Parametric PDEs with Radial Basis Functions and Deep Neural Networks ( http://arxiv.org/abs/2404.06834v1 )

ライセンス: Link先を確認
Guanhang Lei, Zhen Lei, Lei Shi, Chenyu Zeng, (参考訳) 本稿では,不規則領域におけるパラメトリック偏微分方程式のパラメトリックマッピングを近似することを目的とした,固有直交分解法(POD)削減基底法(RBM)の文脈において,ディープニューラルネットワーク(DNN)と放射基底関数(RBF)を併用した新しいアルゴリズムであるPOD-DNNを提案する。 POD-DNNアルゴリズムは、パラメータ方程式の解多様体の低次元特性と、RBMとDNNの本質的にオフラインの計算戦略を併用する。 数値実験では、POD-DNNはオンラインフェーズにおいて計算速度を大幅に高速化することを示した。 DNNを統合することなくRBFを利用する他のアルゴリズムと比較して、POD-DNNはオンライン推論プロセスにおける計算速度を大幅に改善する。 さらに、妥当な仮定の下では、POD-DNNとのパラメトリックマッピングの近似の複雑さに関する上限を厳格に導出し、アルゴリズムの経験的性能に関する理論的解析を行う。

We propose the POD-DNN, a novel algorithm leveraging deep neural networks (DNNs) along with radial basis functions (RBFs) in the context of the proper orthogonal decomposition (POD) reduced basis method (RBM), aimed at approximating the parametric mapping of parametric partial differential equations on irregular domains. The POD-DNN algorithm capitalizes on the low-dimensional characteristics of the solution manifold for parametric equations, alongside the inherent offline-online computational strategy of RBM and DNNs. In numerical experiments, POD-DNN demonstrates significantly accelerated computation speeds during the online phase. Compared to other algorithms that utilize RBF without integrating DNNs, POD-DNN substantially improves the computational speed in the online inference process. Furthermore, under reasonable assumptions, we have rigorously derived upper bounds on the complexity of approximating parametric mappings with POD-DNN, thereby providing a theoretical analysis of the algorithm's empirical performance.
翻訳日:2024-04-11 15:00:17 公開日:2024-04-10
# 構造一貫性のあるテキスト駆動スタイル転送のための調整自由適応型スタイルの組込み

Tuning-Free Adaptive Style Incorporation for Structure-Consistent Text-Driven Style Transfer ( http://arxiv.org/abs/2404.06835v1 )

ライセンス: Link先を確認
Yanqi Ge, Jiaqi Liu, Qingnan Fan, Xi Jiang, Ye Huang, Shuai Qin, Hong Gu, Wen Li, Lixin Duan, (参考訳) 本研究では,テキスト・ツー・イメージ(T2I)拡散モデルを用いて,テキスト駆動型スタイル転送のタスクを目標とする。 主な課題は、効率的なスタイル転送効果を実現しつつ、一貫した構造保存である。 この分野における過去のアプローチは、コンテントとスタイルのプロンプトを直接結合し、プロンプトレベルのスタイルインジェクションを可能にし、避けられない構造歪みを引き起こす。 そこで本研究では,テキスト駆動型スタイル伝達タスク,すなわちAdaptive Style Incorporation~(ASI)の新たなソリューションを提案する。 Siamese Cross-Attention~(SiCA)は、シングルトラックのクロスアテンションをデュアルトラック構造に分離して、コンテンツとスタイルの特徴を分離し、Adaptive Content-Style Blending (AdaBlending)モジュールは、コンテンツとスタイル情報を構造一貫性のある方法で結合する。 実験により, 構造保存とスタイリング効果の両面において, 優れた性能を示した。

In this work, we target the task of text-driven style transfer in the context of text-to-image (T2I) diffusion models. The main challenge is consistent structure preservation while enabling effective style transfer effects. The past approaches in this field directly concatenate the content and style prompts for a prompt-level style injection, leading to unavoidable structure distortions. In this work, we propose a novel solution to the text-driven style transfer task, namely, Adaptive Style Incorporation~(ASI), to achieve fine-grained feature-level style incorporation. It consists of the Siamese Cross-Attention~(SiCA) to decouple the single-track cross-attention to a dual-track structure to obtain separate content and style features, and the Adaptive Content-Style Blending (AdaBlending) module to couple the content and style information from a structure-consistent manner. Experimentally, our method exhibits much better performance in both structure preservation and stylized effects.
翻訳日:2024-04-11 15:00:17 公開日:2024-04-10
# O2V-Mapping:ニューラルインプシット表現を用いたオンラインオープン語彙マッピング

O2V-Mapping: Online Open-Vocabulary Mapping with Neural Implicit Representation ( http://arxiv.org/abs/2404.06836v1 )

ライセンス: Link先を確認
Muer Tie, Julong Wei, Zhengjun Wang, Ke Wu, Shansuai Yuan, Kaizhao Zhang, Jie Jia, Jieru Zhao, Zhongxue Gan, Wenchao Ding, (参考訳) オープンな言語シーンのオンライン構築は、オープンな語彙の対話的なシーン理解が必要なロボットアプリケーションにとって不可欠である。 近年,ニューラル暗黙表現は,オンラインインタラクティブマッピングにおいて有望な方向性を提供している。 しかし、オンラインの暗黙のマッピングにオープン語彙のシーン理解機能を実装することは、局所的なシーン更新能力の欠如、曖昧な空間的階層的セマンティックセマンティックセグメンテーション、マルチビューの一貫性維持の困難という3つの課題に直面している。 この目的のために,Voxelベースの言語と幾何学的特徴を利用してオープン語彙フィールドを作成するO2Vマッピングを提案し,オンライントレーニングプロセス中に局所的な更新を可能にする。 さらに,画像セグメンテーションの基本モデルを利用して,オブジェクトレベルのエンティティの言語特徴を抽出し,明確なセグメンテーション境界と階層的セグメンテーション特徴を実現する。 異なる視点で3次元オブジェクト特性の整合性を維持するために,空間適応型ボクセル調整機構と多視点重み選択法を提案する。 オープン語彙オブジェクトの局所化とセマンティックセグメンテーションに関する大規模な実験により,O2Vマッピングが言語シーンのオンライン構築を実現し,精度を向上し,従来のSOTA法よりも優れていることが示された。

Online construction of open-ended language scenes is crucial for robotic applications, where open-vocabulary interactive scene understanding is required. Recently, neural implicit representation has provided a promising direction for online interactive mapping. However, implementing open-vocabulary scene understanding capability into online neural implicit mapping still faces three challenges: lack of local scene updating ability, blurry spatial hierarchical semantic segmentation and difficulty in maintaining multi-view consistency. To this end, we proposed O2V-mapping, which utilizes voxel-based language and geometric features to create an open-vocabulary field, thus allowing for local updates during online training process. Additionally, we leverage a foundational model for image segmentation to extract language features on object-level entities, achieving clear segmentation boundaries and hierarchical semantic features. For the purpose of preserving consistency in 3D object properties across different viewpoints, we propose a spatial adaptive voxel adjustment mechanism and a multi-view weight selection method. Extensive experiments on open-vocabulary object localization and semantic segmentation demonstrate that O2V-mapping achieves online construction of language scenes while enhancing accuracy, outperforming the previous SOTA method.
翻訳日:2024-04-11 15:00:17 公開日:2024-04-10
# LLMs Exhibit a Coherent Behavior on Simplified Corpora?

Simpler becomes Harder: Do LLMs Exhibit a Coherent Behavior on Simplified Corpora? ( http://arxiv.org/abs/2404.06838v1 )

ライセンス: Link先を確認
Miriam Anschütz, Edoardo Mosca, Georg Groh, (参考訳) テキストの単純化は、オリジナルの内容と意味を維持しながら読みやすさを向上させることを目指している。 本研究は,事前学習した分類器が,元の入力と単純化された入力の予測を比較することによって,このような一貫性を維持しているかどうかを考察する。 BERTやOpenAIのGPT 3.5を含む11の事前トレーニングモデルを使用して、3つの言語にまたがる6つのデータセットで実験を行った。 さらに、予測変化率と単純化タイプ/強度の相関関係を詳細に分析する。 以上の結果から,すべての言語やモデルに矛盾が生じていることが判明した。 即時対応しない場合、単純化された入力は簡単に利用でき、ゼロイテレーションモデルに依存しない攻撃を最大50%の成功率で行うことができる。

Text simplification seeks to improve readability while retaining the original content and meaning. Our study investigates whether pre-trained classifiers also maintain such coherence by comparing their predictions on both original and simplified inputs. We conduct experiments using 11 pre-trained models, including BERT and OpenAI's GPT 3.5, across six datasets spanning three languages. Additionally, we conduct a detailed analysis of the correlation between prediction change rates and simplification types/strengths. Our findings reveal alarming inconsistencies across all languages and models. If not promptly addressed, simplified inputs can be easily exploited to craft zero-iteration model-agnostic adversarial attacks with success rates of up to 50%
翻訳日:2024-04-11 15:00:17 公開日:2024-04-10
# MoCha-Stereo: ステレオマッチングのためのMotifチャネルアテンションネットワーク

MoCha-Stereo: Motif Channel Attention Network for Stereo Matching ( http://arxiv.org/abs/2404.06842v1 )

ライセンス: Link先を確認
Ziyang Chen, Wei Long, He Yao, Yongjun Zhang, Bingshu Wang, Yongbin Qin, Jia Wu, (参考訳) 学習に基づくステレオマッチング技術は大きな進歩を遂げた。 しかし,既存の手法では,特徴チャネル生成プロセス中に必然的に幾何学的構造情報が失われ,エッジディテールのミスマッチが発生する。 本稿では,この問題を解決するためにMotif Cha}nnel Attention Stereo Matching Network(MoCha-Stereo)を設計する。 より正確なエッジマッチングコストを決定するために,Motif Channel correlation Volume (MCCV) を提供する。 MCCVは、特徴チャネルの一般的な幾何学的構造を特徴マップやコストボリュームに投影することで実現される。 さらに, 再構成誤差マップの有意な特徴チャネルのエッジ変動は, 詳細マッチングにも影響し, 完全分解能差推定の精度を高めるために, 再構成誤差モティフペナルティ (REMP) モジュールを提案する。 REMPは、復元誤差から典型的なチャネル特徴の周波数情報を統合する。 MoCha-Stereoは、KITTI-2015とKITTI-2012のリフレクティブ・リーダーボードで1位にランクインした。 また,Multi-View Stereoでも優れた性能を示す。 コードはhttps://github.com/ZYangChen/MoCha-Stereo.comにある。

Learning-based stereo matching techniques have made significant progress. However, existing methods inevitably lose geometrical structure information during the feature channel generation process, resulting in edge detail mismatches. In this paper, the Motif Cha}nnel Attention Stereo Matching Network (MoCha-Stereo) is designed to address this problem. We provide the Motif Channel Correlation Volume (MCCV) to determine more accurate edge matching costs. MCCV is achieved by projecting motif channels, which capture common geometric structures in feature channels, onto feature maps and cost volumes. In addition, edge variations in %potential feature channels of the reconstruction error map also affect details matching, we propose the Reconstruction Error Motif Penalty (REMP) module to further refine the full-resolution disparity estimation. REMP integrates the frequency information of typical channel features from the reconstruction error. MoCha-Stereo ranks 1st on the KITTI-2015 and KITTI-2012 Reflective leaderboards. Our structure also shows excellent performance in Multi-View Stereo. Code is avaliable at https://github.com/ZYangChen/MoCha-Stereo.
翻訳日:2024-04-11 15:00:17 公開日:2024-04-10
# 森林を登録する: 明示的なCPUレジスタ割り当てによる決定木アンサンブル最適化

Register Your Forests: Decision Tree Ensemble Optimization by Explicit CPU Register Allocation ( http://arxiv.org/abs/2404.06846v1 )

ライセンス: Link先を確認
Daniel Biebert, Christian Hakert, Kuan-Hsun Chen, Jian-Jia Chen, (参考訳) 高レベルの機械学習モデルを効率的で適切なマシン実装に持ち込むことで、コードジェネレータ、コンパイラ、オプティマイザなど、多くのツールが呼び出されることが多い。 このようなツールチェーンに沿って、抽象化を適用する必要があります。 これは最適に使用されていないCPUレジスタに繋がる。 これは、特にリソース制約のある組み込み設定では、欠点です。 本研究では,高レベルモデル表現から直接単一変換ステップ内で機械組立コードを生成する,決定木アンサンブルのためのコード生成手法を提案する。 具体的には,決定木アンサンブルの推測のためのレジスタを効果的に割り当てるための様々なアプローチを開発する。 提案手法の大規模評価は,高レベル機械学習モデルによるC言語の基本的な実現と,それに続くコンパイルに比較して行われる。 その結果,決定木アンサンブル推論の性能は,適切なシナリオに慎重に適用した場合に($\approx1.6\times$まで)大幅に向上することが示された。

Bringing high-level machine learning models to efficient and well-suited machine implementations often invokes a bunch of tools, e.g.~code generators, compilers, and optimizers. Along such tool chains, abstractions have to be applied. This leads to not optimally used CPU registers. This is a shortcoming, especially in resource constrained embedded setups. In this work, we present a code generation approach for decision tree ensembles, which produces machine assembly code within a single conversion step directly from the high-level model representation. Specifically, we develop various approaches to effectively allocate registers for the inference of decision tree ensembles. Extensive evaluations of the proposed method are conducted in comparison to the basic realization of C code from the high-level machine learning model and succeeding compilation. The results show that the performance of decision tree ensemble inference can be significantly improved (by up to $\approx1.6\times$), if the methods are applied carefully to the appropriate scenario.
翻訳日:2024-04-11 15:00:17 公開日:2024-04-10
# UDiFF: 最適ウェーブレット拡散による条件付き符号なし距離場の生成

UDiFF: Generating Conditional Unsigned Distance Fields with Optimal Wavelet Diffusion ( http://arxiv.org/abs/2404.06851v1 )

ライセンス: Link先を確認
Junsheng Zhou, Weiqi Zhang, Baorui Ma, Kanle Shi, Yu-Shen Liu, Zhizhong Han, (参考訳) 拡散モデルは画像生成、編集、塗装において顕著な結果を示した。 近年の研究では、ニューラル暗黙関数を用いた3次元形状生成のための拡散モデル、すなわち符号付き距離関数と占有関数について検討している。 しかし、クローズドサーフェスを持つ形状に制限されているため、オープンサーフェスを含む多様な3次元現実世界のコンテンツが生成できない。 本研究では, 無署名距離場(UDF)の3次元拡散モデルであるUDiFFについて述べる。 我々のキーとなるアイデアは、UDF生成のためのコンパクトな表現空間を生成する最適なウェーブレット変換を用いて、空間周波数領域でUDFを生成することである。 具体的には,高額な手作業を要する適切なウェーブレット変換を選択する代わりに,UDFの最適なウェーブレット変換を学習するためのデータ駆動型アプローチを提案する。 広範に使用されているベンチマークの最新の手法と数値的および視覚的比較により,UDiFFの評価を行い,その利点を示す。 Page: https://weiqi-zhang.github.io/UDiFF

Diffusion models have shown remarkable results for image generation, editing and inpainting. Recent works explore diffusion models for 3D shape generation with neural implicit functions, i.e., signed distance function and occupancy function. However, they are limited to shapes with closed surfaces, which prevents them from generating diverse 3D real-world contents containing open surfaces. In this work, we present UDiFF, a 3D diffusion model for unsigned distance fields (UDFs) which is capable to generate textured 3D shapes with open surfaces from text conditions or unconditionally. Our key idea is to generate UDFs in spatial-frequency domain with an optimal wavelet transformation, which produces a compact representation space for UDF generation. Specifically, instead of selecting an appropriate wavelet transformation which requires expensive manual efforts and still leads to large information loss, we propose a data-driven approach to learn the optimal wavelet transformation for UDFs. We evaluate UDiFF to show our advantages by numerical and visual comparisons with the latest methods on widely used benchmarks. Page: https://weiqi-zhang.github.io/UDiFF.
翻訳日:2024-04-11 15:00:17 公開日:2024-04-10
# ソフトウェア工学出版における研究成果:現状と動向

Research Artifacts in Software Engineering Publications: Status and Trends ( http://arxiv.org/abs/2404.06852v1 )

ライセンス: Link先を確認
Mugeng Liu, Xiaolong Huang, Wei He, Yibing Xie, Jie M. Zhang, Xiang Jing, Zhenpeng Chen, Yun Ma, (参考訳) ソフトウェア工学(SE)コミュニティは、オープンサイエンスポリシーを受け入れ、研究者が出版物でアーティファクトを公開することを奨励している。 しかし、アーティファクトの実践と品質の状況と傾向はいまだ不明であり、さらなる改善についての洞察が欠如している。 本稿では,SE出版における研究成果を特徴付けるための実証的研究について述べる。 具体的には、2017年から2022年にかけて、トップレベルのSEカンファレンス(ASE、FSE、ICSE、ISSTA)で発表された2,196件の論文から、1,487件のアーティファクトを手作業で収集します。 私たちは、一般的なプラクティス(URLの位置とフォーマット、ストレージWebサイト)、メンテナンスアクティビティ(例えば、最後の更新時間とURLの妥当性)、人気(例えば、GitHub上のスターの数と特徴)、これらのアーティファクトの品質(例えば、ドキュメントとコードの臭い)を調査します。 分析の結果,アーティファクトを提供する出版物の増加が明らかになった。 工芸品の共有における善道の利用は著しく増加した。 しかし、GitHubに格納されているアーティファクトにはスターがほとんどない傾向にあり、現実世界のSEアプリケーションに限定的な影響が示される。 結果をまとめて、現在のガイドラインと合わせて、さまざまな利害関係者に提案します。

The Software Engineering (SE) community has been embracing the open science policy and encouraging researchers to disclose artifacts in their publications. However, the status and trends of artifact practice and quality remain unclear, lacking insights on further improvement. In this paper, we present an empirical study to characterize the research artifacts in SE publications. Specifically, we manually collect 1,487 artifacts from all 2,196 papers published in top-tier SE conferences (ASE, FSE, ICSE, and ISSTA) from 2017 to 2022. We investigate the common practices (e.g., URL location and format, storage websites), maintenance activities (e.g., last update time and URL validity), popularity (e.g., the number of stars on GitHub and characteristics), and quality (e.g., documentation and code smell) of these artifacts. Based on our analysis, we reveal a rise in publications providing artifacts. The usage of Zenodo for sharing artifacts has significantly increased. However, artifacts stored in GitHub tend to receive few stars, indicating a limited influence on real-world SE applications. We summarize the results and provide suggestions to different stakeholders in conjunction with current guidelines.
翻訳日:2024-04-11 15:00:17 公開日:2024-04-10
# Control-DAG:重み付き有限状態オートマタを用いた非自己回帰非環状T5の制約デコード

Control-DAG: Constrained Decoding for Non-Autoregressive Directed Acyclic T5 using Weighted Finite State Automata ( http://arxiv.org/abs/2404.06854v1 )

ライセンス: Link先を確認
Jinghong Chen, Weizhe Lin, Jingbiao Mei, Bill Byrne, (参考訳) Directed Acyclic Transformerは高速な非自己回帰(NAR)モデルであり、ニューラルマシン翻訳でよく機能する。 一般的な自然言語生成(NLG)タスクには、OFF-Vocabulary(OOV)エラーの頻発と、エンティティ名を忠実に生成できない2つの問題がある。 直交非巡回型T5(DA-T5)モデルに対する制約付き復号アルゴリズムであるControl-DAGを導入する。 制御DAGは,Schema Guided DialogueとDARTデータセットのDA-T5を大幅に向上させ,タスク指向対話とData-to-Text NLGのための強力なNAR結果を確立した。

The Directed Acyclic Transformer is a fast non-autoregressive (NAR) model that performs well in Neural Machine Translation. Two issues prevent its application to general Natural Language Generation (NLG) tasks: frequent Out-Of-Vocabulary (OOV) errors and the inability to faithfully generate entity names. We introduce Control-DAG, a constrained decoding algorithm for our Directed Acyclic T5 (DA-T5) model which offers lexical, vocabulary and length control. We show that Control-DAG significantly enhances DA-T5 on the Schema Guided Dialogue and the DART datasets, establishing strong NAR results for Task-Oriented Dialogue and Data-to-Text NLG.
翻訳日:2024-04-11 15:00:17 公開日:2024-04-10
# Beyond Random Inputs: MLベースのハードウェアファジィ

Beyond Random Inputs: A Novel ML-Based Hardware Fuzzing ( http://arxiv.org/abs/2404.06856v1 )

ライセンス: Link先を確認
Mohamadreza Rostami, Marco Chilese, Shaza Zeitouni, Rahul Kande, Jeyavijayan Rajendran, Ahmad-Reza Sadeghi, (参考訳) 現代のコンピューティングシステムは、信頼の根源としてハードウェアに大きく依存している。 しかし、その複雑さが増し、層間スタックが悪用できるセキュリティクリティカルな脆弱性がもたらされた。 従来のハードウェア脆弱性検出手法(ランダム回帰や形式検証など)には制限がある。 ランダム回帰は拡張性はあるものの、ハードウェアの探索には遅いため、正式な検証技術は手作業や状態の爆発に関係していることが多い。 ハードウェアファジィングは、現代のプロセッサのような大規模設計におけるセキュリティ脆弱性の探索と検出に有効なアプローチとして登場した。 カバレッジ、スケーラビリティ、効率性に関する従来の手法よりも優れています。 しかし、最先端のファッジャは、実際的な時間枠内で複雑なハードウェア設計の包括的カバレッジを達成するのに苦労し、しばしば70%のカバレッジしきい値に届かなかった。 この課題に対処するために,MLベースのハードウェアファザであるChatFuzzを提案する。 Ourapproachは、ChatGPTのようなLLMを活用して、プロセッサ言語を理解し、マシンコードにフォーカスし、アセンブリコードシーケンスを生成する。 RLは、コードカバレッジメトリクスを使用して入力を報奨することで、入力生成プロセスを導くために統合される。 オープンソースのRISCVベースのRocketCoreプロセッサをテストベッドとして使用しています。 ChatFuzzは、コンディションカバレッジが52分で75%に達するのに対して、最先端のファジィザは、同様のコンディションカバレッジに達するのに30時間長いウィンドウを必要とする。 さらに,130時間窓内に10個のシミュレーションインスタンス/ライセンスを限定的に設けた場合,ファジィザは80%のカバレッジを達成できる。 この間、合計199Kのテストケースを実行し、そのうち6Kはプロセッサの黄金モデルとの相違を生んだ。 私たちの分析では、RocketCoreの2つの新しいバグやRISC-V ISA Simulatorとの相違など、10以上のユニークなミスマッチを特定しました。

Modern computing systems heavily rely on hardware as the root of trust. However, their increasing complexity has given rise to security-critical vulnerabilities that cross-layer at-tacks can exploit. Traditional hardware vulnerability detection methods, such as random regression and formal verification, have limitations. Random regression, while scalable, is slow in exploring hardware, and formal verification techniques are often concerned with manual effort and state explosions. Hardware fuzzing has emerged as an effective approach to exploring and detecting security vulnerabilities in large-scale designs like modern processors. They outperform traditional methods regarding coverage, scalability, and efficiency. However, state-of-the-art fuzzers struggle to achieve comprehensive coverage of intricate hardware designs within a practical timeframe, often falling short of a 70% coverage threshold. We propose a novel ML-based hardware fuzzer, ChatFuzz, to address this challenge. Ourapproach leverages LLMs like ChatGPT to understand processor language, focusing on machine codes and generating assembly code sequences. RL is integrated to guide the input generation process by rewarding the inputs using code coverage metrics. We use the open-source RISCV-based RocketCore processor as our testbed. ChatFuzz achieves condition coverage rate of 75% in just 52 minutes compared to a state-of-the-art fuzzer, which requires a lengthy 30-hour window to reach a similar condition coverage. Furthermore, our fuzzer can attain 80% coverage when provided with a limited pool of 10 simulation instances/licenses within a 130-hour window. During this time, it conducted a total of 199K test cases, of which 6K produced discrepancies with the processor's golden model. Our analysis identified more than 10 unique mismatches, including two new bugs in the RocketCore and discrepancies from the RISC-V ISA Simulator.
翻訳日:2024-04-11 15:00:17 公開日:2024-04-10
# 医療領域のためのマルチラベル連続学習:新しいベンチマーク

Multi-Label Continual Learning for the Medical Domain: A Novel Benchmark ( http://arxiv.org/abs/2404.06859v1 )

ライセンス: Link先を確認
Marina Ceccon, Davide Dalle Pezze, Alessandro Fabris, Gian Antonio Susto, (参考訳) 動的環境におけるマルチラベル画像分類は重要な課題である。 これまでの研究は主にドメインインクリメンタルラーニングやクラスインクリメンタルラーニングといったシナリオに重点を置いてきた。 本稿では,新しいクラス到着と単一フレームワークにおけるドメインシフトの両面での課題を組み合わせた,ニューインスタンス・アンド・ニュークラス(New Instances \& New Classes)と呼ばれるシナリオにおける医用画像の分類問題について検討する。 従来のシナリオとは異なり、医療画像のような領域におけるCLの現実的な性質を反映している。 この複雑なシナリオによって引き起こされる特異な課題に対処するために、Pseudo-Label Replayと呼ばれる新しいアプローチを導入する。 本手法は,Replay法とPseudo-Label法の利点を組み合わせることで,新しいクラスやドメインシフトに適応しながら,忘れを軽減し,提案シナリオにおける制限を解決することを目的とする。 %のパート3 提案手法を、2つのデータセット、7つのタスク、19のクラスからなる挑戦的なベンチマークで評価し、現実的な連続学習シナリオをモデル化する。 提案した複雑なシナリオがもたらす課題に対処する上での擬似ラベルリプレイの有効性を実験的に検証した。 提案手法は既存の手法を超越し,最小限の忘れ方を示しながら優れた性能を示す。

Multi-label image classification in dynamic environments is a problem that poses significant challenges. Previous studies have primarily focused on scenarios such as Domain Incremental Learning and Class Incremental Learning, which do not fully capture the complexity of real-world applications. In this paper, we study the problem of classification of medical imaging in the scenario termed New Instances \& New Classes, which combines the challenges of both new class arrivals and domain shifts in a single framework. Unlike traditional scenarios, it reflects the realistic nature of CL in domains such as medical imaging, where updates may introduce both new classes and changes in domain characteristics. To address the unique challenges posed by this complex scenario, we introduce a novel approach called Pseudo-Label Replay. This method aims to mitigate forgetting while adapting to new classes and domain shifts by combining the advantages of the Replay and Pseudo-Label methods and solving their limitations in the proposed scenario. % part3 We evaluate our proposed approach on a challenging benchmark consisting of two datasets, seven tasks, and nineteen classes, modeling a realistic Continual Learning scenario. Our experimental findings demonstrate the effectiveness of Pseudo-Label Replay in addressing the challenges posed by the complex scenario proposed. Our method surpasses existing approaches, exhibiting superior performance while showing minimal forgetting.
翻訳日:2024-04-11 15:00:17 公開日:2024-04-10
# 自律走行のための単眼3次元車線検出 -最近の成果, 課題, 展望-

Monocular 3D lane detection for Autonomous Driving: Recent Achievements, Challenges, and Outlooks ( http://arxiv.org/abs/2404.06860v1 )

ライセンス: Link先を確認
Fulong Ma, Weiqing Qi, Guoyang Zhao, Linwei Zheng, Sheng Wang, Ming Liu, (参考訳) 3次元車線検出は、3次元空間の道路から構造情報や交通情報を抽出し、合理的で安全で快適な経路計画と移動制御を支援することで、自動運転において重要な役割を担っている。 センサコストの考慮とカラー情報における視覚データの優位性から,単眼視に基づく3次元車線検出は自律運転分野における重要な研究方向の1つであり,産業・学術ともに注目されている。 残念なことに、近年の視覚知覚の進歩は、完全に信頼できる3次元車線検出アルゴリズムを開発するには不十分に思える。 視覚センサーを用いた自動運転車の3D車線検出アルゴリズムには、改善の余地がまだたくさんある。 そこで本研究では,3次元車線検出研究の分野における現在の成果を定義し,分析し,レビューする。 さらに、このレビューでは、3Dレーン検出パイプラインを取り上げ、最先端のアルゴリズムの性能を調査し、最先端のモデリング選択の時間的複雑さを分析し、現在の研究の成果と限界を強調している。 この調査には、利用可能な3Dレーン検出データセットと、研究者が直面しているがまだ解決していない課題に関する包括的な議論も含まれている。 最後に、今後の研究の方向性を概説し、研究者や実践者がエキサイティングな分野に入ることを歓迎する。

3D lane detection plays a crucial role in autonomous driving by extracting structural and traffic information from the road in 3D space to assist the self-driving car in rational, safe, and comfortable path planning and motion control. Due to the consideration of sensor costs and the advantages of visual data in color information, in practical applications, 3D lane detection based on monocular vision is one of the important research directions in the field of autonomous driving, which has attracted more and more attention in both industry and academia. Unfortunately, recent progress in visual perception seems insufficient to develop completely reliable 3D lane detection algorithms, which also hinders the development of vision-based fully autonomous self-driving cars, i.e., achieving level 5 autonomous driving, driving like human-controlled cars. This is one of the conclusions drawn from this review paper: there is still a lot of room for improvement and significant improvements are still needed in the 3D lane detection algorithm for autonomous driving cars using visual sensors. Motivated by this, this review defines, analyzes, and reviews the current achievements in the field of 3D lane detection research, and the vast majority of the current progress relies heavily on computationally complex deep learning models. In addition, this review covers the 3D lane detection pipeline, investigates the performance of state-of-the-art algorithms, analyzes the time complexity of cutting-edge modeling choices, and highlights the main achievements and limitations of current research efforts. The survey also includes a comprehensive discussion of available 3D lane detection datasets and the challenges that researchers have faced but have not yet resolved. Finally, our work outlines future research directions and welcomes researchers and practitioners to enter this exciting field.
翻訳日:2024-04-11 15:00:17 公開日:2024-04-10
# オールツーオールイジングモデルの量子アニーリングのためのスケーラブルな2局所アーキテクチャ

A scalable 2-local architecture for quantum annealing of all-to-all Ising models ( http://arxiv.org/abs/2404.06861v1 )

ライセンス: Link先を確認
Ana Palacios, Artur Garcia-Saez, Marta P. Estarellas, (参考訳) 密度の高い接続性を実現することは、今日のほとんどの量子コンピューティングプラットフォームにとって課題であり、量子アニールアプリケーションにとって特に重要な課題である。 この文脈では、次数$d=3$のグラフ上に定義された量子異方体のためのスケーラブルなアーキテクチャを示し、全対全連結イジングモデルを実現するために、排他的に2つの局所相互作用を含む。 これは、三角形の点における問題の記述から導かれるような、量子ビットの論理的鎖の効率的なブレイディングである。 我々はまた、論理的解空間の対称性により適したドライバーハミルトニアンに基づく、より大きな物理ヒルベルト空間によるギャップの高速縮小など、スケーラブルなアーキテクチャの課題に対処する戦略を考案した。 したがって、量子アニールパラダイム内での古典的な最適化タスク専用のデバイスをスケールアップするための代替ルートを示す。

Achieving dense connectivities is a challenge for most quantum computing platforms today, and a particularly crucial one for the case of quantum annealing applications. In this context, we present a scalable architecture for quantum annealers defined on a graph of degree $d=3$ and containing exclusively 2-local interactions to realize an all-to-all connected Ising model. This amounts to an efficient braiding of logical chains of qubits which can be derived from a description of the problem in terms of triangles. We also devise strategies to address the challenges of scalable architectures, such as the faster shrinking of the gap due to the larger physical Hilbert space, based on driver Hamiltonians more suited to the symmetries of the logical solution space. We thus show an alternative route to scale up devices dedicated to classical optimization tasks within the quantum annealing paradigm.
翻訳日:2024-04-11 15:00:17 公開日:2024-04-10
# RESSCAL3D: 点雲の分解能スケーラブルな3次元セマンティックセグメンテーション

RESSCAL3D: Resolution Scalable 3D Semantic Segmentation of Point Clouds ( http://arxiv.org/abs/2404.06863v1 )

ライセンス: Link先を確認
Remco Royen, Adrian Munteanu, (参考訳) 深層学習に基づく手法は多くの領域で顕著な結果を示してきたが、いくつかの重要な機能は欠落している。 解像度のスケーラビリティがそのひとつです。 本研究では, RESSCAL3Dと呼ばれる新しいアーキテクチャを導入し, ポイントクラウドの3次元セマンティックセマンティックセマンティックセグメンテーションを実現する。 既存の作業とは対照的に、提案手法では、推論を開始するために全点クラウドを必要としない。 入力ポイントクラウドの低解像度バージョンが利用可能になると、最初のセマンティックな予測が極めて高速に生成される。 これにより、その後の処理ステップにおける早期意思決定が可能になる。 追加のポイントが利用可能になると、これらは並列に処理される。 性能向上のために、従来の計算済みのスケールの特徴を現在のスケールでの事前知識として採用する。 実験の結果,RESSCAL3Dは非スケーリングベースラインよりも31~62%高速であり,性能に限界があることがわかった。 我々の知る限り,提案手法は,深層学習に基づく点雲の3次元セマンティックセマンティックセマンティックセグメンテーションのための解答可能なアプローチを初めて提案するものである。

While deep learning-based methods have demonstrated outstanding results in numerous domains, some important functionalities are missing. Resolution scalability is one of them. In this work, we introduce a novel architecture, dubbed RESSCAL3D, providing resolution-scalable 3D semantic segmentation of point clouds. In contrast to existing works, the proposed method does not require the whole point cloud to be available to start inference. Once a low-resolution version of the input point cloud is available, first semantic predictions can be generated in an extremely fast manner. This enables early decision-making in subsequent processing steps. As additional points become available, these are processed in parallel. To improve performance, features from previously computed scales are employed as prior knowledge at the current scale. Our experiments show that RESSCAL3D is 31-62% faster than the non-scalable baseline while keeping a limited impact on performance. To the best of our knowledge, the proposed method is the first to propose a resolution-scalable approach for 3D semantic segmentation of point clouds based on deep learning.
翻訳日:2024-04-11 15:00:17 公開日:2024-04-10
# 拡散モデルにおける微細色誘導と極低ビットレートにおける画像圧縮への応用

Fine color guidance in diffusion models and its application to image compression at extremely low bitrates ( http://arxiv.org/abs/2404.06865v1 )

ライセンス: Link先を確認
Tom Bordin, Thomas Maugey, (参考訳) 本研究では,拡散モデルを用いて生成した画像のグローバルな色相を,トレーニングや微調整なしで制御することの課題に対処する。 出力が既知のカラーマップに近いことを保証するため、誘導方程式を書き換えるが、これは生成の質を損なうことはない。 我々の手法は新たなガイダンス方程式につながる。 カラーガイダンスの文脈では、誘導のスケーリングは減少するべきではないが、拡散過程を通して高い値を維持することが示される。 第2のコントリビューションでは、画像のセマンティックな色情報と一般的な色情報を組み合わせて、低コストでデコードする。 提案手法は,他の古典的,より意味論的指向アプローチと比較して,圧縮画像の忠実度とリアリズムを極端に低ビットレートで向上させるのに有効であることを示す。

This study addresses the challenge of, without training or fine-tuning, controlling the global color aspect of images generated with a diffusion model. We rewrite the guidance equations to ensure that the outputs are closer to a known color map, and this without hindering the quality of the generation. Our method leads to new guidance equations. We show in the color guidance context that, the scaling of the guidance should not decrease but remains high throughout the diffusion process. In a second contribution, our guidance is applied in a compression framework, we combine both semantic and general color information on the image to decode the images at low cost. We show that our method is effective at improving fidelity and realism of compressed images at extremely low bit rates, when compared to other classical or more semantic oriented approaches.
翻訳日:2024-04-11 15:00:17 公開日:2024-04-10
# SleepPPG-Net2: Photoplethysmographyによる睡眠ステージングのためのディープラーニングの一般化

SleepPPG-Net2: Deep learning generalization for sleep staging from photoplethysmography ( http://arxiv.org/abs/2404.06869v1 )

ライセンス: Link先を確認
Shirel Attia, Revital Shani Hershkovich, Alissa Tabakhov, Angeleene Ang, Sharon Haimov, Riva Tauman, Joachim A. Behar, (参考訳) 背景:睡眠ステージングは睡眠障害の診断と睡眠の健康管理の基本的な要素である。 伝統的に、この分析は臨床環境で行われ、時間を要する採点手順が伴う。 近年の睡眠ステージングのためのデータ駆動アルゴリズムは, 局所的なテストセットでは高い性能を示したが, データのドリフトによる外部データセットでは低い性能を示した。 方法:本研究は,生PSGの生理的時系列から,4種類の睡眠(覚醒,軽度,深度,急速眼球運動(REM))の課題に対する一般化可能な深層学習モデルを開発することを目的とした。 6つの睡眠データセット(計2,574人)が使用された。 スリープPPG-Net2は、より一般化可能な表現を作成するために、マルチソースのドメイントレーニング手法を用いて、SleepPPG-Net2と呼ばれる深層学習モデルを開発し、評価した。 結果:SleepPPG-Net2はベンチマーク手法よりも一貫して高い性能を示し,一般化性能(Cohen's kappa)は最大19%向上した。 年齢,性別,睡眠時無呼吸の重症度との関連で,パフォーマンスの相違が認められた。 結論:SleepPPG-Net2は生のPSG時系列から睡眠をステージングするための新しい標準を設定している。

Background: Sleep staging is a fundamental component in the diagnosis of sleep disorders and the management of sleep health. Traditionally, this analysis is conducted in clinical settings and involves a time-consuming scoring procedure. Recent data-driven algorithms for sleep staging, using the photoplethysmogram (PPG) time series, have shown high performance on local test sets but lower performance on external datasets due to data drift. Methods: This study aimed to develop a generalizable deep learning model for the task of four class (wake, light, deep, and rapid eye movement (REM)) sleep staging from raw PPG physiological time-series. Six sleep datasets, totaling 2,574 patients recordings, were used. In order to create a more generalizable representation, we developed and evaluated a deep learning model called SleepPPG-Net2, which employs a multi-source domain training approach.SleepPPG-Net2 was benchmarked against two state-of-the-art models. Results: SleepPPG-Net2 showed consistently higher performance over benchmark approaches, with generalization performance (Cohen's kappa) improving by up to 19%. Performance disparities were observed in relation to age, sex, and sleep apnea severity. Conclusion: SleepPPG-Net2 sets a new standard for staging sleep from raw PPG time-series.
翻訳日:2024-04-11 14:50:32 公開日:2024-04-10
# 一次元フェルミオンにおける二分的ゆらぎの厳密解」について

A note on "Exact Solution of Bipartite Fluctuations in One-Dimensional Fermions'' ( http://arxiv.org/abs/2404.06881v1 )

ライセンス: Link先を確認
Oleksandr Gamayun, (参考訳) 自由フェルミオンの1次元系に対して、ドメインウォールの完全な数え上げ統計と交互占有状態の関連を導出する。

For a one-dimensional system of free fermions, we derive a connection between the full counting statistics of domain-wall and alternating occupancy states.
翻訳日:2024-04-11 14:50:32 公開日:2024-04-10
# AI知能画像認識による河川・湖沼の浮体検出に関する研究

Research on Detection of Floating Objects in River and Lake Based on AI Intelligent Image Recognition ( http://arxiv.org/abs/2404.06883v1 )

ライセンス: Link先を確認
Jingyu Zhang, Ao Xiang, Yu Cheng, Qin Yang, Liyang Wang, (参考訳) 人工知能技術の急速な進歩により、従来の環境モニタリングにおける課題に対処するための強力なツールとして、AI対応の画像認識が登場した。 本研究では,河川・湖沼環境における浮遊物体の検出に焦点をあて,深層学習に基づく革新的なアプローチを探求する。 静的・動的特徴を検出する技術経路を複雑に解析し,河川や湖沼の破片の特徴を考慮し,総合的な画像取得・処理ワークフローを開発した。 この研究は、デブリ識別における3つの主流ディープラーニングモデル(SSD、Faster-RCNN、YOLOv5)の適用とパフォーマンスの比較を強調している。 さらに、ハードウェアプラットフォームの構築とソフトウェアフレームワークの開発の両方を含む、浮動小数点物体検出システムの設計と実装が行われている。 厳密な実験的検証を通じて, 河川および湖沼における水質モニタリングのための新しい技術道を提供するとともに, 破片検出の精度と効率を大幅に向上する能力を示した。

With the rapid advancement of artificial intelligence technology, AI-enabled image recognition has emerged as a potent tool for addressing challenges in traditional environmental monitoring. This study focuses on the detection of floating objects in river and lake environments, exploring an innovative approach based on deep learning. By intricately analyzing the technical pathways for detecting static and dynamic features and considering the characteristics of river and lake debris, a comprehensive image acquisition and processing workflow has been developed. The study highlights the application and performance comparison of three mainstream deep learning models -SSD, Faster-RCNN, and YOLOv5- in debris identification. Additionally, a detection system for floating objects has been designed and implemented, encompassing both hardware platform construction and software framework development. Through rigorous experimental validation, the proposed system has demonstrated its ability to significantly enhance the accuracy and efficiency of debris detection, thus offering a new technological avenue for water quality monitoring in rivers and lakes
翻訳日:2024-04-11 14:50:32 公開日:2024-04-10
# エッジ検出量子化:画像処理のための新しい量子アルゴリズム

Edge Detection Quantumized: A Novel Quantum Algorithm For Image Processing ( http://arxiv.org/abs/2404.06889v1 )

ライセンス: Link先を確認
Syed Emad Uddin Shubha, Mir Muzahedul Islam, Tanvir Ahahmed Sadi, Md. Hasibul Hasan Miraz, M. R. C. Mahdy, (参考訳) 量子画像処理は、画像エンコーディングやエッジ検出などの画像処理タスクに量子コンピューティングとアルゴリズムを使用する研究分野である。 古典的エッジ検出アルゴリズムは、適度に性能が良く、非常に効率的であるが、高解像度の画像を持つ大規模なデータセットに関しては、完全に遅くなる。 量子コンピューティングは、様々な分野で大きなパフォーマンス向上とブレークスルーをもたらすことを約束している。 例えば、量子アダマールエッジ検出(QHED)アルゴリズムは、一定時間の複雑さで動作するため、どの古典的アルゴリズムよりも高速にエッジを検出する。 しかし、元のQHEDアルゴリズムは量子確率画像符号化(QPIE)のために設計されており、主にバイナリイメージで動作する。 本稿では、量子画像のフレキシブル表現(FRQI)符号化と修正QHEDアルゴリズムを組み合わせた新しいプロトコルを提案する。 改良されたエッジアウトライン法が提案され、従来のQHEDアルゴリズムよりもオブジェクトアウトライン出力が良く、より正確なエッジ検出が可能となった。

Quantum image processing is a research field that explores the use of quantum computing and algorithms for image processing tasks such as image encoding and edge detection. Although classical edge detection algorithms perform reasonably well and are quite efficient, they become outright slower when it comes to large datasets with high-resolution images. Quantum computing promises to deliver a significant performance boost and breakthroughs in various sectors. Quantum Hadamard Edge Detection (QHED) algorithm, for example, works at constant time complexity, and thus detects edges much faster than any classical algorithm. However, the original QHED algorithm is designed for Quantum Probability Image Encoding (QPIE) and mainly works for binary images. This paper presents a novel protocol by combining the Flexible Representation of Quantum Images (FRQI) encoding and a modified QHED algorithm. An improved edge outline method has been proposed in this work resulting in a better object outline output and more accurate edge detection than the traditional QHED algorithm.
翻訳日:2024-04-11 14:50:32 公開日:2024-04-10
# 非マルコフ力学の存在下での離散時間結晶

Discrete time crystals in the presence of non-Markovian dynamics ( http://arxiv.org/abs/2404.06890v1 )

ライセンス: Link先を確認
Bandita Das, Noufal Jaseem, Victor Mukherjee, (参考訳) 非マルコフ散逸の存在下で、周期的に駆動される量子系における離散時間結晶(DTC)について検討する。 マルコフ力学の存在下で初期の研究で見られたDTCとは対照的に、Jaynes-Cummings-like Dissipationの存在下でのオープンディックモデルを用いて、非マルコフ状態は幅広いパラメータ値でDTCを安定化するのに非常に有益であることを示す。 これは、非マルコフ力学の場合であっても、周期的に異なる散逸率に起因する可能性がある。 さらに、マルコフ系と非マルコフ系は、散逸係数の中間強度を鋭く区別し、マルコフ系における時間非依存定常状態は、非マルコフ系では、DTC位を含む様々な動的位相に置き換えられる。 また,非マルコフ系におけるDTC相のロバスト性についても,ハミルトン系にも散逸系にも誤差を導入することにより検証する。 本研究は、周期的に変調されたオープン量子系における非マルコフ力学のプローブとしてDTCを用いる可能性を示す。

We study discrete time crystals (DTCs) in periodically driven quantum systems, in the presence of non-Markovian dissipation. In contrast to DTCs observed in earlier works in the presence of Markovian dynamics, using the open Dicke model in presence of Jaynes-Cummings-like dissipation, we show that non-Markovian regime can be highly beneficial for stabilizing DTCs over a wide range of parameter values. This may be attributed to periodically varying dissipation rates even at long times in the case of non-Markovian dynamics. Further the Markovian and non-Markovian regimes show sharp distinctions for intermediate strengths of the dissipator coefficient, with a time-independent steady-state in the Markovian regime being replaced by varied dynamical phases, including DTC order, in the non-Markovian regime. We also verify the robustness of the DTC phase in the non-Markovian regime by introducing errors both in the Hamiltonian as well as in the dissipation. Our study shows the possibility of using DTC as a probe for non-Markovian dynamics in periodically modulated open quantum systems, at long times.
翻訳日:2024-04-11 14:50:32 公開日:2024-04-10
# SparseAD: 効率的なエンドツーエンド自動運転のためのスパースクエリ中心パラダイム

SparseAD: Sparse Query-Centric Paradigm for Efficient End-to-End Autonomous Driving ( http://arxiv.org/abs/2404.06892v1 )

ライセンス: Link先を確認
Diankun Zhang, Guoan Wang, Runwen Zhu, Jianbo Zhao, Xiwu Chen, Siyu Zhang, Jiahao Gong, Qibin Zhou, Wenyuan Zhang, Ningzi Wang, Feiyang Tan, Hangning Zhou, Ziyao Xu, Haotian Yao, Chi Zhang, Xiaojun Liu, Xiaoguang Di, Bin Li, (参考訳) エンドツーエンドのパラダイムは、統合されたフレームワークを使用して、自律運転システムにマルチタスクを実装する。 単純さと明快さにもかかわらず、サブタスクにおけるエンドツーエンドの自律走行方式のパフォーマンスは、シングルタスク方式よりもはるかに遅れている。 一方、従来のエンドツーエンドメソッドで広く使われている密集したBEV機能は、より多くのモダリティやタスクに拡張するのにコストがかかる。 本稿では,Sparse Driving (SparseAD) のためのSparseクエリ中心のパラダイムを提案し,Sparseクエリは,高密度なBEV表現を伴わない空間,時間,タスク全体の実行シナリオを完全に表現する。 具体的には、検出、追跡、オンラインマッピングを含む知覚タスクのための統一されたスパースアーキテクチャを設計する。 さらに, 動き予測と計画を再考し, より妥当な動きプランナーの枠組みを考案する。 挑戦的なnuScenesデータセットでは、SparseADはエンドツーエンドメソッド間でSOTAフルタスクのパフォーマンスを達成し、エンドツーエンドパラダイムと単一タスクメソッドのパフォーマンスギャップを著しく狭める。 コードも間もなくリリースされる予定だ。

End-to-End paradigms use a unified framework to implement multi-tasks in an autonomous driving system. Despite simplicity and clarity, the performance of end-to-end autonomous driving methods on sub-tasks is still far behind the single-task methods. Meanwhile, the widely used dense BEV features in previous end-to-end methods make it costly to extend to more modalities or tasks. In this paper, we propose a Sparse query-centric paradigm for end-to-end Autonomous Driving (SparseAD), where the sparse queries completely represent the whole driving scenario across space, time and tasks without any dense BEV representation. Concretely, we design a unified sparse architecture for perception tasks including detection, tracking, and online mapping. Moreover, we revisit motion prediction and planning, and devise a more justifiable motion planner framework. On the challenging nuScenes dataset, SparseAD achieves SOTA full-task performance among end-to-end methods and significantly narrows the performance gap between end-to-end paradigms and single-task methods. Codes will be released soon.
翻訳日:2024-04-11 14:50:32 公開日:2024-04-10
# O-TALC:オンラインアクションセグメンテーションにおけるオーバーセグメンテーションの議論に向けて

O-TALC: Steps Towards Combating Oversegmentation within Online Action Segmentation ( http://arxiv.org/abs/2404.06894v1 )

ライセンス: Link先を確認
Matthew Kent Myers, Nick Wright, A. Stephen McGough, Nicholas Martin, (参考訳) オンラインの時間的行動セグメンテーションは、人間の行動シーケンスをリアルタイムで追跡し理解しなければならない多くのHRIタスクを促進する強力な可能性を示している。 しかし、従来のアクションセグメンテーションアプローチはオフラインの2段階のアプローチで運用されており、セグメンテーションのために計算に高価なビデオワイド機能に依存しており、オンラインHRIアプリケーションには適さない。 映像データのストリーム上でのオンラインアクションセグメンテーションを容易にするために、バックボーン動作認識モデルのトレーニングと推論を改善する2つの方法を導入し、オンラインフレームレベルの分類のために直接デプロイできるようにする。 まず,トレーニング中の密集サンプリングを導入し,トレーニングと推論クリップマッチングを容易にし,セグメント境界予測を改善する。 第2に,オンライン推論における過小評価を明示的に低減するオンライン一時認識ラベルクリーニング(O-TALC)戦略を導入する。 提案手法はバックボーン不変であるため,少ないセグメンテーションレイテンシでリアルタイムに動作可能な計算効率の良い時空間動作認識モデルを用いて展開することができる。 提案手法は類似のオンラインアクションセグメンテーション作業よりも優れており、また、多くのオフラインモデルの性能と、難解な細粒度データセットを操作する場合の完全な時間分解能との整合性を示す。

Online temporal action segmentation shows a strong potential to facilitate many HRI tasks where extended human action sequences must be tracked and understood in real time. Traditional action segmentation approaches, however, operate in an offline two stage approach, relying on computationally expensive video wide features for segmentation, rendering them unsuitable for online HRI applications. In order to facilitate online action segmentation on a stream of incoming video data, we introduce two methods for improved training and inference of backbone action recognition models, allowing them to be deployed directly for online frame level classification. Firstly, we introduce surround dense sampling whilst training to facilitate training vs. inference clip matching and improve segment boundary predictions. Secondly, we introduce an Online Temporally Aware Label Cleaning (O-TALC) strategy to explicitly reduce oversegmentation during online inference. As our methods are backbone invariant, they can be deployed with computationally efficient spatio-temporal action recognition models capable of operating in real time with a small segmentation latency. We show our method outperforms similar online action segmentation work as well as matches the performance of many offline models with access to full temporal resolution when operating on challenging fine-grained datasets.
翻訳日:2024-04-11 14:50:32 公開日:2024-04-10
# DreamScene360:パノラマガウススプレイティングによる制約のないテキスト・ツー・3Dシーン生成

DreamScene360: Unconstrained Text-to-3D Scene Generation with Panoramic Gaussian Splatting ( http://arxiv.org/abs/2404.06903v1 )

ライセンス: Link先を確認
Shijie Zhou, Zhiwen Fan, Dejia Xu, Haoran Chang, Pradyumna Chari, Tejas Bharadwaj, Suya You, Zhangyang Wang, Achuta Kadambi, (参考訳) 仮想現実アプリケーションに対する需要の高まりは、没入型3Dアセットを構築することの重要性を強調している。 テキストから3D 360$^{\circ}$のシーン生成パイプラインを提案する。 提案手法は, 2次元拡散モデルの生成能力を利用して, 高品質でグローバルなパノラマ画像を作成する。 この画像は、予備的な「フラット」(2D)シーン表現として機能する。 その後、3Dガウシアンへと持ち上げられ、リアルタイムの探査を可能にするスプラッティング技術を採用している。 一貫した3次元幾何を生成するため、我々のパイプラインは2次元単分子深度を大域的に最適化された点雲に整列させることにより空間的整合構造を構築する。 この点の雲は、3Dガウスの遠心点の初期状態として機能する。 シングルビュー入力に固有の目に見えない問題に対処するため、合成されたカメラビューと入力されたカメラビューの両方に意味的および幾何学的制約を正規化として課す。 これらはガウスの最適化を導いており、見えない地域の再建を支援している。 要約すると,本手法は360$^{\circ}$パースペクティブ内でグローバルに一貫した3Dシーンを提供する。 Project website at http://dreamscene360.github.io/

The increasing demand for virtual reality applications has highlighted the significance of crafting immersive 3D assets. We present a text-to-3D 360$^{\circ}$ scene generation pipeline that facilitates the creation of comprehensive 360$^{\circ}$ scenes for in-the-wild environments in a matter of minutes. Our approach utilizes the generative power of a 2D diffusion model and prompt self-refinement to create a high-quality and globally coherent panoramic image. This image acts as a preliminary "flat" (2D) scene representation. Subsequently, it is lifted into 3D Gaussians, employing splatting techniques to enable real-time exploration. To produce consistent 3D geometry, our pipeline constructs a spatially coherent structure by aligning the 2D monocular depth into a globally optimized point cloud. This point cloud serves as the initial state for the centroids of 3D Gaussians. In order to address invisible issues inherent in single-view inputs, we impose semantic and geometric constraints on both synthesized and input camera views as regularizations. These guide the optimization of Gaussians, aiding in the reconstruction of unseen regions. In summary, our method offers a globally consistent 3D scene within a 360$^{\circ}$ perspective, providing an enhanced immersive experience over existing techniques. Project website at: http://dreamscene360.github.io/
翻訳日:2024-04-11 14:50:32 公開日:2024-04-10
# Superposition Prompting:Retrieval-Augmented Generationの改良と高速化

Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation ( http://arxiv.org/abs/2404.06910v1 )

ライセンス: Link先を確認
Thomas Merth, Qichen Fu, Mohammad Rastegari, Mahyar Najibi, (参考訳) 大きな言語モデル(LLM)の成功にもかかわらず、特に長いコンテキストを処理する場合、大きな欠点がある。 推論コストはシーケンス長に対して2次にスケールするので、検索拡張生成(RAG)など、現実のテキスト処理アプリケーションにデプロイするのにコストがかかる。 さらに、LCMは、プロンプトにおける無関係な文脈が出力品質を劣化させる「引き離し現象」も示している。 これらの欠点に対処するため、我々は、微調整を必要とせず、事前学習したトランスフォーマーベースのLSMに直接適用可能な新しいRAGプロンプト手法、重ね合わせプロンプトを提案する。 高いレベルでは、重ね合わせプロンプトにより LLM は入力文書を並列にプロンプトパスで処理でき、無関係と判断された後にパスを破棄する。 我々は,複数の事前学習LLMを用いて,様々な質問応答ベンチマークの時間効率を同時に向上する手法の能力を実証した。 さらに,提案手法は,検索したコンテキストがトレーニングしたコンテキストの相対性が大きい場合に,精度を著しく向上させる。 例えば,MPT-7B命令調整モデルを用いたNaturalQuestions-Openデータセットでは,計算時間を93倍に削減し,精度を43倍に向上する。

Despite the successes of large language models (LLMs), they exhibit significant drawbacks, particularly when processing long contexts. Their inference cost scales quadratically with respect to sequence length, making it expensive for deployment in some real-world text processing applications, such as retrieval-augmented generation (RAG). Additionally, LLMs also exhibit the "distraction phenomenon," where irrelevant context in the prompt degrades output quality. To address these drawbacks, we propose a novel RAG prompting methodology, superposition prompting, which can be directly applied to pre-trained transformer-based LLMs without the need for fine-tuning. At a high level, superposition prompting allows the LLM to process input documents in parallel prompt paths, discarding paths once they are deemed irrelevant. We demonstrate the capability of our method to simultaneously enhance time efficiency across a variety of question-answering benchmarks using multiple pre-trained LLMs. Furthermore, our technique significantly improves accuracy when the retrieved context is large relative the context the model was trained on. For example, our approach facilitates an 93x reduction in compute time while improving accuracy by 43\% on the NaturalQuestions-Open dataset with the MPT-7B instruction-tuned model over naive RAG.
翻訳日:2024-04-11 14:50:32 公開日:2024-04-10
# GraSAME:グラフ誘導型自己認識機構による事前学習言語モデルへのトークンレベル構造情報注入

GraSAME: Injecting Token-Level Structural Information to Pretrained Language Models via Graph-guided Self-Attention Mechanism ( http://arxiv.org/abs/2404.06911v1 )

ライセンス: Link先を確認
Shuzhou Yuan, Michael Färber, (参考訳) 事前訓練された言語モデル(PLM)は、様々な下流タスクのためにグラフ構造に格納された外部知識の恩恵を受ける。 しかし、グラフ構造とテキストの間のモダリティギャップを埋めることは、依然として大きな課題である。 PLMに対するグラフの線形化のような従来の手法では、重要なグラフ接続が失われる一方、グラフニューラルネットワーク(GNN)はPLMとの統合に煩雑なプロセスを必要とする。 本研究では,グラフ誘導型自己注意機構GraSAMEを提案する。 GraSAMEはトークンレベルの構造情報をPLMにシームレスに組み込む。 エンドツーエンドで軽量なマルチモーダルモジュールとして、GraSAMEはマルチタスク学習戦略に従い、グラフとテキストのモダリティのギャップを効果的に橋渡しし、GNNとPLM間の動的相互作用を促進する。 グラフ・テキスト生成タスクの実験では,GraSAMEがベースラインモデルより優れ,WebNLGデータセット上での最先端(SOTA)モデルに匹敵する結果が得られることを示した。 さらに、SOTAモデルと比較して、グラフ入力を調整するための追加の事前トレーニングタスクの必要性を排除し、トレーニング可能なパラメータの数を1億以上削減する。

Pretrained Language Models (PLMs) benefit from external knowledge stored in graph structures for various downstream tasks. However, bridging the modality gap between graph structures and text remains a significant challenge. Traditional methods like linearizing graphs for PLMs lose vital graph connectivity, whereas Graph Neural Networks (GNNs) require cumbersome processes for integration into PLMs. In this work, we propose a novel graph-guided self-attention mechanism, GraSAME. GraSAME seamlessly incorporates token-level structural information into PLMs without necessitating additional alignment or concatenation efforts. As an end-to-end, lightweight multimodal module, GraSAME follows a multi-task learning strategy and effectively bridges the gap between graph and textual modalities, facilitating dynamic interactions between GNNs and PLMs. Our experiments on the graph-to-text generation task demonstrate that GraSAME outperforms baseline models and achieves results comparable to state-of-the-art (SOTA) models on WebNLG datasets. Furthermore, compared to SOTA models, GraSAME eliminates the need for extra pre-training tasks to adjust graph inputs and reduces the number of trainable parameters by over 100 million.
翻訳日:2024-04-11 14:50:32 公開日:2024-04-10
# 大きな動きを持つビデオフレーム補間のためのスパースグローバルマッチング

Sparse Global Matching for Video Frame Interpolation with Large Motion ( http://arxiv.org/abs/2404.06913v1 )

ライセンス: Link先を確認
Chunxu Liu, Guozhen Zhang, Rui Zhao, Limin Wang, (参考訳) 大きな動きはビデオフレーム補間(VFI)タスクにおいて重要な課題となる。 既存の手法は、しばしば制限された受容場によって制約されるため、大きな動きを持つシナリオを扱う際の準最適性能をもたらす。 本稿では,大動きに伴う問題を軽減するために,グローバルレベルの情報を効果的に統合するVFIの新しいパイプラインを提案する。 具体的には、まず、局所的な詳細を抽出する高分解能特徴写像を用いて、初期中間流の対を推定する。 そこで我々は,初期フローの欠陥を同定し,大域的受容場とのスパースフロー補償を生成するフロー推定を補うために,スパースグローバルマッチングブランチを組み込んだ。 最後に、初期フロー推定と大域フロー補償を適応的に組み合わせ、より正確な中間フローを得る。 提案手法の大規模動作処理における有効性を評価するため,一般的なベンチマークからより困難なサブセットを慎重にキュレートする。 提案手法は, 動作が大きいVFIサブセット上での最先端性能を示す。

Large motion poses a critical challenge in Video Frame Interpolation (VFI) task. Existing methods are often constrained by limited receptive fields, resulting in sub-optimal performance when handling scenarios with large motion. In this paper, we introduce a new pipeline for VFI, which can effectively integrate global-level information to alleviate issues associated with large motion. Specifically, we first estimate a pair of initial intermediate flows using a high-resolution feature map for extracting local details. Then, we incorporate a sparse global matching branch to compensate for flow estimation, which consists of identifying flaws in initial flows and generating sparse flow compensation with a global receptive field. Finally, we adaptively merge the initial flow estimation with global flow compensation, yielding a more accurate intermediate flow. To evaluate the effectiveness of our method in handling large motion, we carefully curate a more challenging subset from commonly used benchmarks. Our method demonstrates the state-of-the-art performance on these VFI subsets with large motion.
翻訳日:2024-04-11 14:50:32 公開日:2024-04-10
# HRVDA: 高解像度ビジュアルドキュメントアシスタント

HRVDA: High-Resolution Visual Document Assistant ( http://arxiv.org/abs/2404.06918v1 )

ライセンス: Link先を確認
Chaohu Liu, Kun Yin, Haoyu Cao, Xinghua Jiang, Xin Li, Yinsong Liu, Deqiang Jiang, Xing Sun, Linli Xu, (参考訳) 膨大なトレーニングデータを活用することで、マルチモーダルな大規模言語モデル(MLLM)は、様々なタスクにおいて非常に一般的な視覚的理解能力を示し、優れたパフォーマンスを実現している。 しかしながら、視覚的なドキュメント理解における彼らのパフォーマンスは、まだ改善の余地がたくさんある。 この相違は主に、視覚的文書理解がきめ細かな予測課題であるという事実に起因している。 自然界では、MLLMは一般的に低解像度の画像を使用するため、視覚情報がかなり失われる。 さらに、汎用MLLMは文書指向命令の処理に長けていない。 本稿では,MLLMと視覚文書理解のギャップを埋める高解像度ビジュアルドキュメントアシスタント(HRVDA)を提案する。 このモデルは、コンテンツフィルタリング機構と命令フィルタリングモジュールを用いて、コンテンツに依存しない視覚トークンと命令に依存しない視覚トークンを別々にフィルタリングし、高解像度画像に対する効率的なモデルトレーニングと推論を実現する。 さらに、文書指向の視覚的指導訓練データセットを構築し、多段階の訓練戦略を適用して、モデルの文書モデリング能力を向上する。 大規模な実験により、我々のモデルは複数の文書理解データセットにまたがる最先端のパフォーマンスを実現し、低解像度モデルに匹敵するトレーニング効率と推論速度を維持した。

Leveraging vast training data, multimodal large language models (MLLMs) have demonstrated formidable general visual comprehension capabilities and achieved remarkable performance across various tasks. However, their performance in visual document understanding still leaves much room for improvement. This discrepancy is primarily attributed to the fact that visual document understanding is a fine-grained prediction task. In natural scenes, MLLMs typically use low-resolution images, leading to a substantial loss of visual information. Furthermore, general-purpose MLLMs do not excel in handling document-oriented instructions. In this paper, we propose a High-Resolution Visual Document Assistant (HRVDA), which bridges the gap between MLLMs and visual document understanding. This model employs a content filtering mechanism and an instruction filtering module to separately filter out the content-agnostic visual tokens and instruction-agnostic visual tokens, thereby achieving efficient model training and inference for high-resolution images. In addition, we construct a document-oriented visual instruction tuning dataset and apply a multi-stage training strategy to enhance the model's document modeling capabilities. Extensive experiments demonstrate that our model achieves state-of-the-art performance across multiple document understanding datasets, while maintaining training efficiency and inference speed comparable to low-resolution models.
翻訳日:2024-04-11 14:50:32 公開日:2024-04-10
# GoEX: 自律LLMアプリケーションのランタイムに向けた展望と設計

GoEX: Perspectives and Designs Towards a Runtime for Autonomous LLM Applications ( http://arxiv.org/abs/2404.06921v1 )

ライセンス: Link先を確認
Shishir G. Patil, Tianjun Zhang, Vivian Fang, Noppapon C., Roy Huang, Aaron Hao, Martin Casado, Joseph E. Gonzalez, Raluca Ada Popa, Ion Stoica, (参考訳) 大きな言語モデル(LLM)は、対話システム内で情報を提供し、ツールと積極的に関わり、現実世界のアプリケーションやサービスでアクションを実行するという古典的な役割を超えて進化しています。 現在、人間はLLMが生成した出力(例えば、コード、関数、アクション)の正確さと適切性を検証する。 コードの理解は、悪名高いほど難しいことで知られています。 本稿では,人類が将来,自律LLMと効率的に協力し,委譲し,監督する方法について検討する。 多くの場合、出力を見た後に提案されたアクションの正当性を検証する"ポストファクト検証"は、前述の"プリファクト検証"設定よりもずっと簡単である、と我々は主張する。 ポストファクト検証システムを実現する中核となる概念は、直感的なundo機能の統合と、LCM生成アクションに対する損傷抑制を、関連するリスクを軽減する効果的な戦略として確立することである。 これを使用すれば、人間はLSMが生成した出力の効果を戻すか、潜在的なリスクが拘束されていることを確信することができる。 LLMエージェントが、限定された(ポストファクト)人間の関与を持つアプリケーションやサービスと対話する可能性の解放は、これが重要であると私たちは信じています。 LLMアクションを実行するためのオープンソースランタイムであるGorilla Execution Engine(GoEX)の設計と実装について述べ、LLMの目標を実現するためのオープンな研究課題と、人間による最小限の監督で相互に対話するアプリケーションについて述べる。 GoEXはhttps://github.com/ShishirPatil/gorilla/でリリースしています。

Large Language Models (LLMs) are evolving beyond their classical role of providing information within dialogue systems to actively engaging with tools and performing actions on real-world applications and services. Today, humans verify the correctness and appropriateness of the LLM-generated outputs (e.g., code, functions, or actions) before putting them into real-world execution. This poses significant challenges as code comprehension is well known to be notoriously difficult. In this paper, we study how humans can efficiently collaborate with, delegate to, and supervise autonomous LLMs in the future. We argue that in many cases, "post-facto validation" - verifying the correctness of a proposed action after seeing the output - is much easier than the aforementioned "pre-facto validation" setting. The core concept behind enabling a post-facto validation system is the integration of an intuitive undo feature, and establishing a damage confinement for the LLM-generated actions as effective strategies to mitigate the associated risks. Using this, a human can now either revert the effect of an LLM-generated output or be confident that the potential risk is bounded. We believe this is critical to unlock the potential for LLM agents to interact with applications and services with limited (post-facto) human involvement. We describe the design and implementation of our open-source runtime for executing LLM actions, Gorilla Execution Engine (GoEX), and present open research questions towards realizing the goal of LLMs and applications interacting with each other with minimal human supervision. We release GoEX at https://github.com/ShishirPatil/gorilla/.
翻訳日:2024-04-11 14:50:32 公開日:2024-04-10
# 有限光超格子における位相的エッジ状態の復元

Restoring the topological edge states in a finite optical superlattice ( http://arxiv.org/abs/2404.06924v1 )

ライセンス: Link先を確認
A. Katsaris, I. A. Englezos, C. Weitenberg, F. K. Diakonos, P. Schmelcher, (参考訳) 有限光学格子におけるエッジ状態の出現を考察し、格子の境界が対応するエネルギースペクトルにおけるそれらの位置に決定的な役割を果たすことを示す。 光学格子の境界の単純なパラメトリションを導入し、パラメータの値の最適選択の存在を証明し、カイラル対称性を近似的に復元する。 この最適化の重要な特性は、格子の隣り合う隣の井戸間のトンネルの抑制である。 これにより、光学格子のセットアップを有限SSHモデルにマッピングすることができる。 出現するエッジ状態の位相的特徴について論じる。

We consider the emergence of edge states in a finite optical lattice and show that the boundaries of the lattice play a decisive role for their location in the corresponding energy spectrum. We introduce a simple parametrisation of the boundaries of the optical lattice and demonstrate the existence of an optimal choice of the values of the parameters which lead to an approximate restoration of chiral symmetry. A crucial property of this optimization is the suppression of tunneling between next-nearest neighboring wells of the lattice. This in turn allows the mapping of the optical lattice set-up to a finite SSH model. The topological character of the emerging edge states is discussed.
翻訳日:2024-04-11 14:50:32 公開日:2024-04-10
# 損失点クラウド属性圧縮のための効率的および汎用的点モデル

Efficient and Generic Point Model for Lossless Point Cloud Attribute Compression ( http://arxiv.org/abs/2404.06936v1 )

ライセンス: Link先を確認
Kang You, Pan Gao, Zhan Ma, (参考訳) 過去数年間、学習点クラウド圧縮(PCC)技術の出現を目撃してきた。 しかし、現在の学習ベースのロスレスポイントクラウド属性圧縮(PCAC)手法は、高い計算複雑性や圧縮性能の低下に悩まされている。 さらに、実世界のアプリケーションで遭遇するポイントクラウドスケールとスパシティの大きな変化は、オールインワンのニューラルモデルの開発を困難な課題にしている。 本稿では,高圧縮効率と高一般化性を同時に実現する,効率的で汎用的なロスレスPCAC法であるPoLoPCACを提案する。 損失のないPCACをグループワイド自己回帰前処理から属性の明示的な分布を推定するタスクとして定式化する。 プログレッシブ・ランダム・グルーピング・ストラテジーは、まず、ポイント・クラウドをグループに効率的に解決するために考案され、その後、各グループの属性が蓄積した先行要素から逐次モデル化される。 局所性を考慮した注意機構を用いて、コンテキストウィンドウからの事前知識を並列に活用する。 本手法は, 点上で直接動作するため, ボキセル化による歪みを自然に回避することができ, 任意のスケールと密度で点雲上で実行することができる。 実験の結果,本手法はSynthetic 2k-ShapeNetデータセット上でトレーニングした直後に,各種データセット(ShapeNet, ScanNet, MVUB, 8iVFB)上で,最新のG-PCCv23よりも連続的にビットレートの削減を享受しながら,即座に展開可能であることがわかった。 一方,本手法では,軽量なモデルサイズ(2.6MB)の配列ではG-PCCv23よりも短い符号化時間を報告している。 データセット、コード、トレーニングされたモデルはhttps://github.com/I2-Multimedia-Lab/PoLoPCACで入手できる。

The past several years have witnessed the emergence of learned point cloud compression (PCC) techniques. However, current learning-based lossless point cloud attribute compression (PCAC) methods either suffer from high computational complexity or deteriorated compression performance. Moreover, the significant variations in point cloud scale and sparsity encountered in real-world applications make developing an all-in-one neural model a challenging task. In this paper, we propose PoLoPCAC, an efficient and generic lossless PCAC method that achieves high compression efficiency and strong generalizability simultaneously. We formulate lossless PCAC as the task of inferring explicit distributions of attributes from group-wise autoregressive priors. A progressive random grouping strategy is first devised to efficiently resolve the point cloud into groups, and then the attributes of each group are modeled sequentially from accumulated antecedents. A locality-aware attention mechanism is utilized to exploit prior knowledge from context windows in parallel. Since our method directly operates on points, it can naturally avoids distortion caused by voxelization, and can be executed on point clouds with arbitrary scale and density. Experiments show that our method can be instantly deployed once trained on a Synthetic 2k-ShapeNet dataset while enjoying continuous bit-rate reduction over the latest G-PCCv23 on various datasets (ShapeNet, ScanNet, MVUB, 8iVFB). Meanwhile, our method reports shorter coding time than G-PCCv23 on the majority of sequences with a lightweight model size (2.6MB), which is highly attractive for practical applications. Dataset, code and trained model are available at https://github.com/I2-Multimedia-Lab/PoLoPCAC.
翻訳日:2024-04-11 14:50:32 公開日:2024-04-10
# 対称性を持つ$$型量子系におけるより強いトラップ動作の現象

Phenomenon of a stronger trapping behaviour in $Λ$-type quantum systems with symmetry ( http://arxiv.org/abs/2404.06937v1 )

ライセンス: Link先を確認
Boris Volkov, Anastasia Myachkova, Alexander Pechen, (参考訳) $\Lambda$, $V$, $\Xi$ (ladder) および1つの禁止された遷移を持つ他の3レベル量子系($\Lambda$-type system)は、量子物理学において重要な役割を果たす。 様々な応用は、制御形状のレーザー場を用いたそのようなシステムによる操作を必要とする。 本研究では,これらの系のエネルギー状態とボーア周波数の縮退が制御場の最適形状を見出す効率や難しさに与える影響について検討する。 このため、[A.N. Pechen と D.J. Tannor] で導入された高次トラップの概念を採用します。 Phys レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・ Bf 106}, 120402 (2011)] ここでは、1つの禁止された遷移と非退化エネルギー準位を持つ$\Lambda$型系の第2位と第3位のトラップが発見された。 固有状態およびボーア周波数のデネガシーを伴わない系の制御について検討し、これらの縮退が制御レーザ場を最適化する効率にどう影響するかを考察した。 Xi$系におけるボーア周波数の縮退により、より大きな誘引領域を持つ7次トラップが出現し、より難しい最適化がもたらされるのに対し、$\Lambda$型システムのエネルギー状態の縮退は、非縮退の場合と比較してゼロ制御トラップの次数の増加に繋がらない。

$\Lambda$, $V$, $\Xi$ (ladder), and other three-level quantum systems with one forbidden transition ($\Lambda$-type systems) play an important role in quantum physics. Various applications require manipulation by such systems using as control shaped laser field. In this work, we study how degeneracy in energy states and Bohr frequencies of these systems affects the efficiency or difficulty of finding optimal shape of the control field. For this, we adopt the notion of higher order traps which was introduced in [A.N. Pechen and D.J. Tannor, Are there traps in quantum control landscapes? Phys. Rev. Lett. {\bf 106}, 120402 (2011)], where second/third order traps were discovered for $\Lambda$-type systems with one forbidden transition and with non-degenerate energy levels. We study control of such systems with and without denegeracy in their eigenstates and Bohr frequencies, and investigate how these degeneracies influence on the efficiency of optimizing the control laser field. We find that the degeneracy of Bohr frequencies in the $\Xi$ system leads to the appearance of seventh order trap with a more significant attracting domain resulting in a more difficult optimization, while degeneracy in energy states of $\Lambda$-type systems does not lead to increase of the order of the zero control trap compared to the non-degenerate case.
翻訳日:2024-04-11 14:40:47 公開日:2024-04-10
# グラフニューラルネットワークに基づく新技術のための高速システム技術共最適化フレームワーク

Fast System Technology Co-Optimization Framework for Emerging Technology Based on Graph Neural Networks ( http://arxiv.org/abs/2404.06939v1 )

ライセンス: Link先を確認
Tianliang Ma, Guangxi Fan, Xuguang Sun, Zhihui Deng, Kainlu Low, Leilai Shao, (参考訳) 本稿では,次世代IC設計のための電力,性能,面積(PPA)を最適化する,高速システム技術協調最適化(STCO)フレームワークを提案する。 我々は,TCADシミュレーションとセルライブラリ評価の両方にグラフニューラルネットワーク(GNN)ベースのアプローチを導入し,従来の手法よりも100倍以上の高速化を実現し,STCOの技術レベルを加速することに注力する。 これらの進歩は1.9Xから14.1Xまでのランタイムスピードアップを伴う包括的なSTCOイテレーションを可能にし、新興技術と従来の技術の両方をサポートする。

This paper proposes a fast system technology co-optimization (STCO) framework that optimizes power, performance, and area (PPA) for next-generation IC design, addressing the challenges and opportunities presented by novel materials and device architectures. We focus on accelerating the technology level of STCO using AI techniques, by employing graph neural network (GNN)-based approaches for both TCAD simulation and cell library characterization, which are interconnected through a unified compact model, collectively achieving over a 100X speedup over traditional methods. These advancements enable comprehensive STCO iterations with runtime speedups ranging from 1.9X to 14.1X and supports both emerging and traditional technologies.
翻訳日:2024-04-11 14:40:47 公開日:2024-04-10
# CMRattを用いた心臓MRIの高速化 : 注意駆動的アプローチ

Accelerating Cardiac MRI Reconstruction with CMRatt: An Attention-Driven Approach ( http://arxiv.org/abs/2404.06941v1 )

ライセンス: Link先を確認
Anam Hashmi, Julia Dietlmeier, Kathleen M. Curran, Noel E. O'Connor, (参考訳) 心機能の総合的評価のための指標として, シン心磁気共鳴(CMR)画像が認められている。 それでも, cine CMRの獲得過程は, 長期の走査時間による障害と見なされている。 取得プロセスを高速化するための一般的な戦略は、k空間アンダーサンプリングであるが、再構成画像にエイリアス効果を導入する欠点がある。 近年、深層学習に基づく手法は、CMR再構成画像の高精度化において、従来のアプローチよりも顕著な結果を示している。 本研究の目的は,CMR再建問題における深層学習モデルに組み込まれた注意機構の未解決の可能性を探ることである。 我々は,画像分類やセグメンテーションなどの下流作業において注意が有益であることが証明されたという事実に動機づけられるが,CMR再建の文脈では体系的に分析されていない。 我々の第一の目的は、U-Netのような畳み込みバックボーンモデルと統合した場合のアテンションアルゴリズムの強みと潜在的な制限を特定することである。 そこで我々は,CMRxReconデータセット上で,最先端の空間的・チャネル的注意機構をベンチマークし,客観的な指標を用いて再現の質を定量的に評価した。 さらに、最も優れた注意機構に着想を得て、他の最先端の注意方法よりも優れた心画像再構成の課題に特化して最適化された、シンプルで効果的な注意パイプラインを提案する。 レイヤとモデルコードは公開されます。

Cine cardiac magnetic resonance (CMR) imaging is recognised as the benchmark modality for the comprehensive assessment of cardiac function. Nevertheless, the acquisition process of cine CMR is considered as an impediment due to its prolonged scanning time. One commonly used strategy to expedite the acquisition process is through k-space undersampling, though it comes with a drawback of introducing aliasing effects in the reconstructed image. Lately, deep learning-based methods have shown remarkable results over traditional approaches in rapidly achieving precise CMR reconstructed images. This study aims to explore the untapped potential of attention mechanisms incorporated with a deep learning model within the context of the CMR reconstruction problem. We are motivated by the fact that attention has proven beneficial in downstream tasks such as image classification and segmentation, but has not been systematically analysed in the context of CMR reconstruction. Our primary goal is to identify the strengths and potential limitations of attention algorithms when integrated with a convolutional backbone model such as a U-Net. To achieve this, we benchmark different state-of-the-art spatial and channel attention mechanisms on the CMRxRecon dataset and quantitatively evaluate the quality of reconstruction using objective metrics. Furthermore, inspired by the best performing attention mechanism, we propose a new, simple yet effective, attention pipeline specifically optimised for the task of cardiac image reconstruction that outperforms other state-of-the-art attention methods. The layer and model code will be made publicly available.
翻訳日:2024-04-11 14:40:47 公開日:2024-04-10
# モバイルネットワークにおける批判的思考のための生成AIの統合に関する調査

A Survey on the Integration of Generative AI for Critical Thinking in Mobile Networks ( http://arxiv.org/abs/2404.06946v1 )

ライセンス: Link先を確認
Athanasios Karapantelakis, Alexandros Nikou, Ajay Kattepur, Jean Martins, Leonid Mokrushin, Swarup Kumar Mohalik, Marin Orlic, Aneta Vulgarakis Feljan, (参考訳) 近い将来、モバイルネットワークは、より大きなユーザーベースと多様なユーザーニーズに対応するために、サービスとカバレッジを広げると予想されている。 そのため、彼らは、複雑な意思決定の役割を担いながら、ネットワークの運用と制御コストを管理するために、人工知能(AI)をますます頼りにするだろう。 このシフトは、推論や計画など、批判的な思考能力を含むテクニックの適用を必要とします。 シンボリックAI技術は、既に既存の知識に基づいた批判的思考を促進する。 しかし、通信における彼らの利用は、主にこの知識を手作業でキュレーションすることのコストと、推論タスクの計算の複雑さによって妨げられている。 同時に、ジェネレーティブAI(Generative AI, ジェネレーティブAI)技術による通信などの産業において、人間の知識とは独立して運用されるイノベーションが急増している。 しかし、批判的思考の能力は依然として不明である。 本稿では,批判的思考能力を有するGenAIアルゴリズムの現状を検証し,通信ネットワークにおけるその可能性を探ることにより,このギャップに対処することを目的とする。 具体的には,モバイルネットワークにおける批判的思考技術へのGenAIの活用の可能性について紹介するとともに,今後の研究基盤を確立することを目的とする。

In the near future, mobile networks are expected to broaden their services and coverage to accommodate a larger user base and diverse user needs. Thus, they will increasingly rely on artificial intelligence (AI) to manage network operation and control costs, undertaking complex decision-making roles. This shift will necessitate the application of techniques that incorporate critical thinking abilities, including reasoning and planning. Symbolic AI techniques already facilitate critical thinking based on existing knowledge. Yet, their use in telecommunications is hindered by the high cost of mostly manual curation of this knowledge and high computational complexity of reasoning tasks. At the same time, there is a spurt of innovations in industries such as telecommunications due to Generative AI (GenAI) technologies, operating independently of human-curated knowledge. However, their capacity for critical thinking remains uncertain. This paper aims to address this gap by examining the current status of GenAI algorithms with critical thinking capabilities and investigating their potential applications in telecom networks. Specifically, the aim of this study is to offer an introduction to the potential utilization of GenAI for critical thinking techniques in mobile networks, while also establishing a foundation for future research.
翻訳日:2024-04-11 14:40:47 公開日:2024-04-10
# メタチェックGPT -- LLM不確かさとメタモデルを用いたマルチタスク幻覚検出

MetaCheckGPT -- A Multi-task Hallucination Detection Using LLM Uncertainty and Meta-models ( http://arxiv.org/abs/2404.06948v1 )

ライセンス: Link先を確認
Rahul Mehta, Andrew Hoblitzell, Jack O'Keefe, Hyeju Jang, Vasudeva Varma, (参考訳) 本稿では,SemEval-2024 Task 6コンペティションにおける優勝ソリューションについて述べる。 本稿では,モデル評価と統合のための大規模言語モデル(LLM)のメタ回帰フレームワークを提案する。 提案手法は,LLMの多種多様なバスケットに存在する不確実性信号を利用して,より堅牢な幻覚検出を行う。

This paper presents our winning solution for the SemEval-2024 Task 6 competition. We propose a meta-regressor framework of large language models (LLMs) for model evaluation and integration that achieves the highest scores on the leader board. Our approach leverages uncertainty signals present in a diverse basket of LLMs to detect hallucinations more robustly.
翻訳日:2024-04-11 14:40:47 公開日:2024-04-10
# 階層スキーピング戦略を統一した大規模言語モデルにおける推論の高速化

Accelerating Inference in Large Language Models with a Unified Layer Skipping Strategy ( http://arxiv.org/abs/2404.06954v1 )

ライセンス: Link先を確認
Yijin Liu, Fandong Meng, Jie Zhou, (参考訳) 近年,大規模言語モデル (LLMs) に対する動的計算手法が注目されている。 しかし、既存の手法の復号過程では、異なるサンプルが異なる計算予算に割り当てられており、安定かつ正確な加速効果を保証できない。 さらに、既存のアプローチは一般的に、レイヤの下部または上部の複数の連続したレイヤをスキップし、モデルのレイヤワイド表現に劇的な変化をもたらし、その結果、連続したパフォーマンス劣化を引き起こす。 そこで本研究では,目標速度比のみに基づいて計算をスキップするレイヤ数を選択し,対応する中間層計算数をバランスよくスキップするUnified Layer Skipping戦略を提案する。 Unified Layer Skipping戦略は入力サンプルとは独立しているため、バッチデコードやKVキャッシュといった一般的なアクセラレーション技術が自然にサポートされており、現実世界のアプリケーションにとってより実用的なものとなっている。 機械翻訳とテキスト要約という2つの共通タスクの実験結果は、目標速度比が与えられた場合、Unified Layer Skipping戦略は既存の動的アプローチよりも推論性能と実際のモデルのスループットを著しく向上させることを示している。

Recently, dynamic computation methods have shown notable acceleration for Large Language Models (LLMs) by skipping several layers of computations through elaborate heuristics or additional predictors. However, in the decoding process of existing approaches, different samples are assigned different computational budgets, which cannot guarantee a stable and precise acceleration effect. Furthermore, existing approaches generally skip multiple contiguous layers at the bottom or top of the layers, leading to a drastic change in the model's layer-wise representations, and thus a consequent performance degeneration. Therefore, we propose a Unified Layer Skipping strategy, which selects the number of layers to skip computation based solely on the target speedup ratio, and then skips the corresponding number of intermediate layer computations in a balanced manner. Since the Unified Layer Skipping strategy is independent of input samples, it naturally supports popular acceleration techniques such as batch decoding and KV caching, thus demonstrating more practicality for real-world applications. Experimental results on two common tasks, i.e., machine translation and text summarization, indicate that given a target speedup ratio, the Unified Layer Skipping strategy significantly enhances both the inference performance and the actual model throughput over existing dynamic approaches.
翻訳日:2024-04-11 14:40:47 公開日:2024-04-10
# 学生評価におけるAIと批判的相互作用の解消

Untangling Critical Interaction with AI in Students Written Assessment ( http://arxiv.org/abs/2404.06955v1 )

ライセンス: Link先を確認
Antonette Shibani, Simon Knight, Kirsty Kitto, Ajanie Karunanayake, Simon Buckingham Shum, (参考訳) 人工知能(AI)は社会のユビキタスな部分となっているが、人間の能力と限界を理解することで機械と効果的に対話するために必要な批判的思考とAIリテラシースキルが備えられていることを保証することが重要な課題である。 これらのスキルは、AIツールが以前人間と思われていた複雑な知識と能力を示すことができる、生成的AIの時代において、学習者が発展する上で特に重要である。 本稿では,人間とAIの効果的な連携を活性化するために,AIとの重要な学習者インタラクションの概念を概念化するための第一歩を提供する。 理論的モデルと経験的データの両方を用いて、予備的な発見は、書き込みプロセス中にAIとのディープインタラクションが全般的に欠如していることを示唆している。 将来的には、学習者がAIと対話する際に、深い批判的な思考を身につけるためのタスクやツールの設計がより良くなる可能性があると私たちは信じています。

Artificial Intelligence (AI) has become a ubiquitous part of society, but a key challenge exists in ensuring that humans are equipped with the required critical thinking and AI literacy skills to interact with machines effectively by understanding their capabilities and limitations. These skills are particularly important for learners to develop in the age of generative AI where AI tools can demonstrate complex knowledge and ability previously thought to be uniquely human. To activate effective human-AI partnerships in writing, this paper provides a first step toward conceptualizing the notion of critical learner interaction with AI. Using both theoretical models and empirical data, our preliminary findings suggest a general lack of Deep interaction with AI during the writing process. We believe that the outcomes can lead to better task and tool design in the future for learners to develop deep, critical thinking when interacting with AI.
翻訳日:2024-04-11 14:40:47 公開日:2024-04-10
# 非参照画像品質指標の逆清浄法:適用性研究と新しい方法

Adversarial purification for no-reference image-quality metrics: applicability study and new methods ( http://arxiv.org/abs/2404.06957v1 )

ライセンス: Link先を確認
Aleksandr Gushchin, Anna Chistyakova, Vladislav Minashkin, Anastasia Antsiferova, Dmitriy Vatolin, (参考訳) 近年,画像品質指標に対する敵対的攻撃の領域が探索され始めている一方,防衛の領域は未調査のままである。 本研究の目的は,画像分類器からIQA法への対向的浄化防御の伝達可能性を確認することである。 本稿では,IQAモデルに対する多種多様な攻撃を適用し,それらに対する防衛の成功について検討する。 浄化法は、幾何変換、圧縮、デノイング、現代のニューラルネットワークベースの手法など、さまざまな前処理テクニックをカバーした。 また,視覚的品質を推定し,攻撃を中和する手法を提案することにより,防御手法の有効性を評価するという課題にも対処する。 防衛は、リニアリティ、メタIQA、SPAQの3つのIQAメトリクスに対する攻撃に対してテストされた。 攻撃と防御のコードは以下の通りである(リンクは盲目レビューのために隠されている)。

Recently, the area of adversarial attacks on image quality metrics has begun to be explored, whereas the area of defences remains under-researched. In this study, we aim to cover that case and check the transferability of adversarial purification defences from image classifiers to IQA methods. In this paper, we apply several widespread attacks on IQA models and examine the success of the defences against them. The purification methodologies covered different preprocessing techniques, including geometrical transformations, compression, denoising, and modern neural network-based methods. Also, we address the challenge of assessing the efficacy of a defensive methodology by proposing ways to estimate output visual quality and the success of neutralizing attacks. Defences were tested against attack on three IQA metrics -- Linearity, MetaIQA and SPAQ. The code for attacks and defences is available at: (link is hidden for a blind review).
翻訳日:2024-04-11 14:40:47 公開日:2024-04-10
# 大規模言語モデルを用いたリアルタイムパンデミック予測の強化:COVID-19の事例研究

Advancing Real-time Pandemic Forecasting Using Large Language Models: A COVID-19 Case Study ( http://arxiv.org/abs/2404.06962v1 )

ライセンス: Link先を確認
Hongru Du, Jianan Zhao, Yang Zhao, Shaochong Xu, Xihong Lin, Yiran Chen, Lauren M. Gardner, Hao, Yang, (参考訳) 疫学的時系列データ、ウイルス生物学、人口統計学、公共政策と人間の行動の交わりなど、相互に結びついた多様性変数によって特徴付けられる。 既存の予測モデルフレームワークは、関連するデータと堅牢な結果の翻訳の多面的な性質に苦慮している。 従来の予測モデルでは実現不可能であったリアルタイム,複雑,非数値的な情報を組み込む機能を備えた,テキスト推論問題として展開される病気のリアルタイム予測を再構築する,マルチモーダルな大規模言語モデル(LLM)を備えた新しいフレームワークであるPandemicLLMを紹介した。 このアプローチは、AIと人間の協調的なプロンプト設計と時系列表現学習を通じて、LLMのマルチモーダルデータを符号化する。 このモデルは新型コロナウイルス(COVID-19)のパンデミックに適用され、テキストによる公衆衛生政策、ゲノム監視、空間、疫学的時系列データを利用するように訓練され、その後アメリカの50州すべてでテストされる。 提案したPandemicLLMは、さまざまなパンデミック関連データを異種フォーマットに組み込むための道を開き、既存のモデルよりもパフォーマンス上の利点を示す。 本研究は,AIイノベーションが今後,パンデミック対応や危機管理をいかに強化するかを考察し,パンデミック予測を強化するために,LLMの適応と表現学習の可能性を照らしている。

Forecasting the short-term spread of an ongoing disease outbreak is a formidable challenge due to the complexity of contributing factors, some of which can be characterized through interlinked, multi-modality variables such as epidemiological time series data, viral biology, population demographics, and the intersection of public policy and human behavior. Existing forecasting model frameworks struggle with the multifaceted nature of relevant data and robust results translation, which hinders their performances and the provision of actionable insights for public health decision-makers. Our work introduces PandemicLLM, a novel framework with multi-modal Large Language Models (LLMs) that reformulates real-time forecasting of disease spread as a text reasoning problem, with the ability to incorporate real-time, complex, non-numerical information that previously unattainable in traditional forecasting models. This approach, through a unique AI-human cooperative prompt design and time series representation learning, encodes multi-modal data for LLMs. The model is applied to the COVID-19 pandemic, and trained to utilize textual public health policies, genomic surveillance, spatial, and epidemiological time series data, and is subsequently tested across all 50 states of the U.S. Empirically, PandemicLLM is shown to be a high-performing pandemic forecasting framework that effectively captures the impact of emerging variants and can provide timely and accurate predictions. The proposed PandemicLLM opens avenues for incorporating various pandemic-related data in heterogeneous formats and exhibits performance benefits over existing models. This study illuminates the potential of adapting LLMs and representation learning to enhance pandemic forecasting, illustrating how AI innovations can strengthen pandemic responses and crisis management in the future.
翻訳日:2024-04-11 14:40:47 公開日:2024-04-10
# V-MAD:手術シナリオにおけるビデオ型モーフィング検出

V-MAD: Video-based Morphing Attack Detection in Operational Scenarios ( http://arxiv.org/abs/2404.06963v1 )

ライセンス: Link先を確認
Guido Borghi, Annalisa Franco, Nicolò Di Domenico, Matteo Ferrara, Davide Maltoni, (参考訳) 顔形態形成攻撃の脅威が増大する中で,本研究では,実世界の運用シナリオにおけるビデオベースMorphing Detection(V-MAD)システムの可能性について紹介し,検討する。 現在のモーフィング攻撃検出方法は、主に1つまたは1つの画像に焦点を当てているが、V-MADはビデオシーケンスに基づいており、例えば空港のゲートで利用可能な顔認証ツールによって取得されるビデオストリームを利用する。 本研究では,複数のプローブフレームが利用可能であることが,特にプローブ画像の品質が変化し,例えばポーズや照明のバリエーションによって影響を受ける場合において,モーフィング攻撃検出タスクにもたらすメリットを初めて示す。 実運用データベースにおける実験結果から, ビデオシーケンスは, モーフィング攻撃検知システムのロバスト性や性能を高める上で, 貴重な情報であることが示された。

In response to the rising threat of the face morphing attack, this paper introduces and explores the potential of Video-based Morphing Attack Detection (V-MAD) systems in real-world operational scenarios. While current morphing attack detection methods primarily focus on a single or a pair of images, V-MAD is based on video sequences, exploiting the video streams often acquired by face verification tools available, for instance, at airport gates. Through this study, we show for the first time the advantages that the availability of multiple probe frames can bring to the morphing attack detection task, especially in scenarios where the quality of probe images is varied and might be affected, for instance, by pose or illumination variations. Experimental results on a real operational database demonstrate that video sequences represent valuable information for increasing the robustness and performance of morphing attack detection systems.
翻訳日:2024-04-11 14:40:47 公開日:2024-04-10
# Charles Translator: ウクライナとチェコの機械翻訳システム

Charles Translator: A Machine Translation System between Ukrainian and Czech ( http://arxiv.org/abs/2404.06964v1 )

ライセンス: Link先を確認
Martin Popel, Lucie Poláková, Michal Novák, Jindřich Helcl, Jindřich Libovický, Pavel Straňák, Tomáš Krabač, Jaroslava Hlaváčová, Mariia Anisimova, Tereza Chlaňová, (参考訳) 本稿では,ウクライナとチェコの機械翻訳システムであるCharles Translatorについて紹介する。 このシステムは2022年春に多くの言語データプロバイダの助けを借りて開発され、要求された品質で利用できなかったサービスへの需要を迅速に満たした。 このトランスレータは後にオンラインのウェブインターフェースとして実装され、Cyrillic-Latinスクリプトの書き起こしを特徴とする音声入力を備えたAndroidアプリとして実装された。 このシステムは、英語をピボットとして使用する他の利用可能なシステムと比較して直接翻訳し、2つの言語の類型的類似性を利用する。 ブロックバックトランスレーション方式を使用しており、モノリンガルトレーニングデータを効率的に利用することができる。 本稿では,データ収集と実装,評価を含む開発プロセスについて述べるとともに,いくつかのユースケースについて言及し,教育目的のシステムをさらに発展させる可能性について概説する。

We present Charles Translator, a machine translation system between Ukrainian and Czech, developed as part of a society-wide effort to mitigate the impact of the Russian-Ukrainian war on individuals and society. The system was developed in the spring of 2022 with the help of many language data providers in order to quickly meet the demand for such a service, which was not available at the time in the required quality. The translator was later implemented as an online web interface and as an Android app with speech input, both featuring Cyrillic-Latin script transliteration. The system translates directly, compared to other available systems that use English as a pivot, and thus take advantage of the typological similarity of the two languages. It uses the block back-translation method, which allows for efficient use of monolingual training data. The paper describes the development process, including data collection and implementation, evaluation, mentions several use cases, and outlines possibilities for the further development of the system for educational purposes.
翻訳日:2024-04-11 14:40:47 公開日:2024-04-10
# 脳波シーケンスは時系列か? : 時系列モデルによる脳波分類と共同学習

Are EEG Sequences Time Series? EEG Classification with Time Series Models and Joint Subject Training ( http://arxiv.org/abs/2404.06966v1 )

ライセンス: Link先を確認
Johannes Burchert, Thorben Werner, Vijaya Krishna Yalavarthi, Diego Coello de Portugal, Maximilian Stubbemann, Lars Schmidt-Thieme, (参考訳) 他のほとんどのデータドメインと同様に、EEGデータ分析はリッチなドメイン固有の前処理に依存します。 このような前処理の他に、機械学習の学習者は、他の時系列データのようなデータを扱うことを望んでいる。 EEG分類では、多くのモデルが階層型とアーキテクチャで開発されており、通常は時系列分類では見られない。 さらに、一般的に個々の主題ごとに別々のモデルが学習されるが、それらすべてに対してひとつのモデルではない。 本稿では,脳波分類モデルと時系列分類モデルの違いを系統的に検討する。 本稿では,脳波データを扱う3つの異なるモデル構成,主観的モデル,主観的モデル,主観的モデル,主観的条件的モデルについて述べる。 3つのデータセットの実験において、被験者ごとのトレーニング済み時系列分類モデルが脳波分類モデルに近い性能を示すことを示したが、ドメイン固有モデリングの性能には達していない。 さらに、時系列モデルと被写体埋め込みを組み合わせることで、全被写体に1つの共同条件分類器を訓練する。 結果として得られたモデルは、3つのデータセットのうち2つに専用のEEGモデルと競合し、そのうちの1つですべてのEEGメソッドを上回ります。

As with most other data domains, EEG data analysis relies on rich domain-specific preprocessing. Beyond such preprocessing, machine learners would hope to deal with such data as with any other time series data. For EEG classification many models have been developed with layer types and architectures we typically do not see in time series classification. Furthermore, typically separate models for each individual subject are learned, not one model for all of them. In this paper, we systematically study the differences between EEG classification models and generic time series classification models. We describe three different model setups to deal with EEG data from different subjects, subject-specific models (most EEG literature), subject-agnostic models and subject-conditional models. In experiments on three datasets, we demonstrate that off-the-shelf time series classification models trained per subject perform close to EEG classification models, but that do not quite reach the performance of domain-specific modeling. Additionally, we combine time-series models with subject embeddings to train one joint subject-conditional classifier on all subjects. The resulting models are competitive with dedicated EEG models in 2 out of 3 datasets, even outperforming all EEG methods on one of them.
翻訳日:2024-04-11 14:40:47 公開日:2024-04-10
# FiP:因果生成モデリングのための固定点アプローチ

FiP: a Fixed-Point Approach for Causal Generative Modeling ( http://arxiv.org/abs/2404.06969v1 )

ライセンス: Link先を確認
Meyer Scetbon, Joel Jennings, Agrin Hilmkil, Cheng Zhang, Chao Ma, (参考訳) 真の世界データ生成プロセスのモデリングは、実証科学の中心にある。 構造因果モデル(SCM)とそれらの関連した非巡回グラフ(DAG)は、ランダムノイズを観測に変換する因果生成過程を定義することによって、そのような問題に対するより一般的な回答を提供する。 しかし、観測データからそれらを学ぶことは、一般的にNP-ハード逆問題を引き起こす。 そこで本研究では,DAGを必要とせず,因果的に順序づけられた変数上の不動点問題とみなし,トポロジ的順序付け(TO)を考えると,それらが一意に回復できる3つの重要なケースを示す。 我々の知る限り、TOが知られている場合に最も一般的な回復結果が得られる。 理論的な知見に基づいて、まずゼロショットで観測から因果順序を推定し、探索をバイパスし、次に順序づけられた変数の定点SCMを学習する2段階因果生成モデルを設計する。 to infer TOs from observed, we propose to amortize the learning of TOs on generated datasets by Sequencely predicting the leaves of graphs during training。 固定点SCMを学習するために、我々は、因果構造のモデリングを可能にする新しい注意機構を利用するトランスフォーマーベースのアーキテクチャを設計し、このパラメータ化が我々の形式主義と一致していることを示す。 最後に、各手法を個別に広範囲に評価し、組み合わせると、生成されたアウト・オブ・ディストリビューション問題に対して、モデルが様々なベースラインより優れていることを示す。

Modeling true world data-generating processes lies at the heart of empirical science. Structural Causal Models (SCMs) and their associated Directed Acyclic Graphs (DAGs) provide an increasingly popular answer to such problems by defining the causal generative process that transforms random noise into observations. However, learning them from observational data poses an ill-posed and NP-hard inverse problem in general. In this work, we propose a new and equivalent formalism that do not require DAGs to describe them, viewed as fixed-point problems on the causally ordered variables, and show three important cases where they can be uniquely recovered given the topological ordering (TO). To the best of our knowledge, we obtain the most general recovery results when the TO is known. Based on our theoretical findings, we design a two-stage causal generative model that first infers the causal order from observations in a zero-shot manner, thus by-passing the search, and then learns the generative fixed-point SCM on the ordered variables. To infer TOs from observations, we propose to amortize the learning of TOs on generated datasets by sequentially predicting the leaves of graphs seen during training. To learn fixed-point SCMs, we design a transformer-based architecture that exploits a new attention mechanism enabling the modeling of causal structures, and show that this parameterization is consistent with our formalism. Finally, we conduct an extensive evaluation of each method individually, and show that when combined, our model outperforms various baselines on generated out-of-distribution problems.
翻訳日:2024-04-11 14:40:47 公開日:2024-04-10
# Entity-Aware Contrastive Learningを用いたFew-shot NERのためのハイブリッドマルチステージデコーディング

Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning ( http://arxiv.org/abs/2404.06970v1 )

ライセンス: Link先を確認
Peipei Liu, Gaosheng Wang, Ying Tong, Jian Liang, Zhenquan Ding, Hongsong Zhu, (参考訳) 名前付きエンティティ認識は、ラベル付けされたいくつかの例に基づいて、新しいタイプの名前付きエンティティを識別できる。 トークンレベルのメトリクス学習やスパンレベルのメトリクス学習を用いる従来の方法は、計算負荷と多くの負のサンプルスパンに悩まされていた。 本稿では,汎用NERをエンティティ・スパン検出とエンティティ分類という2つの段階に分割した,エンティティ・アウェア・コントラスト・ラーニング(MsFNER)を用いたFew-shot NERのハイブリッド多段階デコーディングを提案する。 MsFNERを導入するには、トレーニング、微調整、推論の3つのプロセスがある。 学習過程において、メタラーニングを用いて、ソースドメイン上で最高のエンティティ・スパン検出モデルとエンティティ分類モデルを個別に訓練、取得し、エンティティ分類のためのエンティティ表現を強化するためのコントラスト学習モジュールを作成する。 微調整の間、ターゲットドメインのサポートデータセット上で両方のモデルを微調整します。 推論プロセスでは、ラベルのないデータに対して、まずエンティティスパンを検出し、エンティティスパンはエンティティ分類モデルとKNNによって共同で決定される。 オープンなFewNERDデータセットの実験を行い、MsFNERの進歩を実証した。

Few-shot named entity recognition can identify new types of named entities based on a few labeled examples. Previous methods employing token-level or span-level metric learning suffer from the computational burden and a large number of negative sample spans. In this paper, we propose the Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning (MsFNER), which splits the general NER into two stages: entity-span detection and entity classification. There are 3 processes for introducing MsFNER: training, finetuning, and inference. In the training process, we train and get the best entity-span detection model and the entity classification model separately on the source domain using meta-learning, where we create a contrastive learning module to enhance entity representations for entity classification. During finetuning, we finetune the both models on the support dataset of target domain. In the inference process, for the unlabeled data, we first detect the entity-spans, then the entity-spans are jointly determined by the entity classification model and the KNN. We conduct experiments on the open FewNERD dataset and the results demonstrate the advance of MsFNER.
翻訳日:2024-04-11 14:40:47 公開日:2024-04-10
# TrajPRed:地域関係学習を用いた軌道予測

TrajPRed: Trajectory Prediction with Region-based Relation Learning ( http://arxiv.org/abs/2404.06971v1 )

ライセンス: Link先を確認
Chen Zhou, Ghassan AlRegib, Armin Parchami, Kunjan Singh, (参考訳) 交通シーンにおける人間の軌道予測は、混合または完全自律システム内の安全のために重要である。 将来の軌道は2つの主要な刺激、社会的相互作用、確率的目標によって駆動される。 したがって、信頼できる予測はこれらの2つの刺激を捉える必要がある。 エッジベースの関係モデリングは、正確な個々の状態からペアの相関を使って社会的相互作用を表現する。 それでも、エッジベースの関係は摂動の下で脆弱である。 これらの問題を緩和するために,共同状態の地域的ダイナミックス,すなわち群集密度の変化を通した社会的相互作用をモデル化する地域型関係学習パラダイムを提案する。 特に、地域対応エージェントジョイント情報は、畳み込み特徴格子内に符号化される。 社会的関係は、グローバルな視点から局所的な共同情報の時間的変化を関連づけることでモデル化される。 地域ベースの関係は摂動の影響を受けにくいことを示す。 確率的個人目標を説明するために,条件付き変分オートエンコーダを用いてマルチゴール推定と多様な将来予測を実現する。 具体的には,入力状態と関連する目標との相関を条件とした潜時分布による変動推論を行う。 潜伏分布からサンプリングすることで、フレームワークはテストデータの確率的振る舞いを確実にキャプチャできる。 予測枠組みにおいて,マルチゴール推定と地域関係学習を統合し,2つの刺激,社会的相互作用,確率的目標をモデル化する。 ETH-UCYデータセットとStanford Drone Dataset(SDD)のフレームワークの評価を行った。 関係モジュールを組み込む際には,多様な予測が基礎的真理に適合していることが示される。 我々のフレームワークは、SDDの最先端モデルよりも27.61 %$/$18.20 %$のADE/FDEメトリクスを上回ります。

Forecasting human trajectories in traffic scenes is critical for safety within mixed or fully autonomous systems. Human future trajectories are driven by two major stimuli, social interactions, and stochastic goals. Thus, reliable forecasting needs to capture these two stimuli. Edge-based relation modeling represents social interactions using pairwise correlations from precise individual states. Nevertheless, edge-based relations can be vulnerable under perturbations. To alleviate these issues, we propose a region-based relation learning paradigm that models social interactions via region-wise dynamics of joint states, i.e., the changes in the density of crowds. In particular, region-wise agent joint information is encoded within convolutional feature grids. Social relations are modeled by relating the temporal changes of local joint information from a global perspective. We show that region-based relations are less susceptible to perturbations. In order to account for the stochastic individual goals, we exploit a conditional variational autoencoder to realize multi-goal estimation and diverse future prediction. Specifically, we perform variational inference via the latent distribution, which is conditioned on the correlation between input states and associated target goals. Sampling from the latent distribution enables the framework to reliably capture the stochastic behavior in test data. We integrate multi-goal estimation and region-based relation learning to model the two stimuli, social interactions, and stochastic goals, in a prediction framework. We evaluate our framework on the ETH-UCY dataset and Stanford Drone Dataset (SDD). We show that the diverse prediction better fits the ground truth when incorporating the relation module. Our framework outperforms the state-of-the-art models on SDD by $27.61\%$/$18.20\%$ of ADE/FDE metrics.
翻訳日:2024-04-11 14:40:47 公開日:2024-04-10
# 継続学習の産業利用に向けて : クラスインクリメンタルラーニングのための新しいメトリクスの提案

Toward industrial use of continual learning : new metrics proposal for class incremental learning ( http://arxiv.org/abs/2404.06972v1 )

ライセンス: Link先を確認
Konaté Mohamed Abbas, Anne-Françoise Yao, Thierry Chateau, Pierre Bouges, (参考訳) 本稿では,クラスインクリメンタル学習戦略(CL)における連続学習性能指標について,いくつかのハイパフォーマンス手法を用いて検討する。 特にタスクの精度について検討する。 まず,性能を捉えるための単純な実験を通して,表現力の欠如を示す。 平均的タスク性能の監視は楽観的すぎることを示し、将来の実生活における産業利用の誤解を招く可能性があることを示す。 次に,まず,最小インクリメンタルクラス精度 (MICA) という単純な尺度を提案する。 さらに、連続学習における異なる手法のパフォーマンスを簡易に比較する方法を提供するため、新たに導入した指標と同様に学習性能の変化を考慮した別のスカラーメトリックを導出する。

In this paper, we investigate continual learning performance metrics used in class incremental learning strategies for continual learning (CL) using some high performing methods. We investigate especially mean task accuracy. First, we show that it lacks of expressiveness through some simple experiments to capture performance. We show that monitoring average tasks performance is over optimistic and can lead to misleading conclusions for future real life industrial uses. Then, we propose first a simple metric, Minimal Incremental Class Accuracy (MICA) which gives a fair and more useful evaluation of different continual learning methods. Moreover, in order to provide a simple way to easily compare different methods performance in continual learning, we derive another single scalar metric that take into account the learning performance variation as well as our newly introduced metric.
翻訳日:2024-04-11 14:31:03 公開日:2024-04-10
# デジタル技術革新の拡散を形作るソーシャルネットワークにおける経済インセンティブの埋め込み

Embedding Economic Incentives in Social Networks Shape the Diffusion of Digital Technological Innovation ( http://arxiv.org/abs/2404.06973v1 )

ライセンス: Link先を確認
Zhe Li, Tianfang Zhao, Hongjun Zhu, (参考訳) 明示的な経済インセンティブを伴うデジタルイノベーションは、イノベーション拡散の過程を根本的に変えた。 デジタルイノベーションの代表として、NFTはデジタル資産の認証と取引を行う分散型でセキュアな方法を提供し、デジタル業界における新たな収益源の可能性を秘めている。 しかし、NFTに関する最近の研究は、主に取引ネットワークとコミュニティ文化に焦点を当てており、拡散力学、経済力学、Twitter上の社会的制約の相互作用を残している。 NFTs関連ツイートデータセットの収集と解析により,リツイートの動機,絵文字の背後にある情報メカニズム,およびネットワークベースの拡散ダイナミクスを体系的に検討した。 その結果、リツイートはフリーミントやトレーディング情報によって促進され、高い経済インセンティブが大きな動機となり、潜在的な組織的傾向が示唆された。 NFTの拡散は主に、個々のプロモーターや投機家を含む「リングレイヤー」情報メカニズムによって引き起こされる。 コンテンツの頻度と提示は、retweetネットワークの成長に肯定的に寄与する。 この研究は、経済インセンティブを組み込んだイノベーション拡散理論に寄与する。

The digital innovation accompanied by explicit economic incentives have fundamentally changed the process of innovation diffusion. As a representative of digital innovation, NFTs provide a decentralized and secure way to authenticate and trade digital assets, offering the potential for new revenue streams in the digital space. However, current researches about NFTs mainly focus on their transaction networks and community culture, leaving the interplay among diffusion dynamics, economic dynamics, and social constraints on Twitter. By collecting and analyzing NFTs-related tweet dataset, the motivations of retweeters, the information mechanisms behind emojis, and the networked-based diffusion dynamics is systematically investigated. Results indicate that Retweeting is fueled by Freemint and trading information, with the higher economic incentives as a major motivation and some potential organizational tendencies. The diffusion of NFT is primarily driven by a 'Ringed-layered' information mechanism involving individual promoters and speculators. Both the frequency and presentation of content contribute positively to the growth of the retweet network. This study contributes to the innovation diffusion theory with economic incentives embedded.
翻訳日:2024-04-11 14:31:03 公開日:2024-04-10
# 自律移動型艦隊制御のための大域的損失を考慮したマルチエージェントソフトアクタ臨界

Multi-Agent Soft Actor-Critic with Global Loss for Autonomous Mobility-on-Demand Fleet Control ( http://arxiv.org/abs/2404.06975v1 )

ライセンス: Link先を確認
Zeno Woywood, Jasper I. Wiltfang, Julius Luy, Tobias Enders, Maximilian Schiffer, (参考訳) 自律型モビリティ・オン・デマンドシステムの利益を最大化する演算子に対する逐次決定問題について検討する。 中央オペレーターの車両要求派遣ポリシーを最適化するには、効率的かつ効果的な艦隊統制戦略が必要である。 この目的のために、重み付き二分法マッチングと組み合わせたマルチエージェントのソフトアクター・クライブアルゴリズムを用いる。 本稿では,車両に基づく新しいアルゴリズムアーキテクチャを提案し,批判者の損失関数を適用して,グローバルなアクションを適切に検討する。 さらに、リバランシング機能を組み込むためにアルゴリズムを拡張します。 数値実験により、我々の手法は、ディスパッチで最大12.9%、統合された再バランシングで最大38.9%、最先端のベンチマークより優れていることを示す。

We study a sequential decision-making problem for a profit-maximizing operator of an Autonomous Mobility-on-Demand system. Optimizing a central operator's vehicle-to-request dispatching policy requires efficient and effective fleet control strategies. To this end, we employ a multi-agent Soft Actor-Critic algorithm combined with weighted bipartite matching. We propose a novel vehicle-based algorithm architecture and adapt the critic's loss function to appropriately consider global actions. Furthermore, we extend our algorithm to incorporate rebalancing capabilities. Through numerical experiments, we show that our approach outperforms state-of-the-art benchmarks by up to 12.9% for dispatching and up to 38.9% with integrated rebalancing.
翻訳日:2024-04-11 14:31:03 公開日:2024-04-10
# アマチュア記録マッチにおける正確なテニスコートライン検出

Accurate Tennis Court Line Detection on Amateur Recorded Matches ( http://arxiv.org/abs/2404.06977v1 )

ライセンス: Link先を確認
Sameer Agrawal, Ragoth Sundararajan, Vishak Sagar, (参考訳) 通常、テニスコートライン検出は、Hough-Line-Detectionを実行して画像中の直線を見つけ、次に検出されたラインから変換行列を演算して最終コート構造を生成する。 本アルゴリズムには,事前訓練された影除去モデルとオブジェクト検出MLモデルを用いて,線検出をより堅牢にするなど,多くの改良と改良が提案されている。 本手法は,従来のアルゴリズムと比較して,素人や汚い裁判所の線を正確に検出することができる。 本手法は,ロバストな球追跡システムと組み合わせることで,アマチュアとプロのテニスの試合の正確な自動審判を可能にする。

Typically, tennis court line detection is done by running Hough-Line-Detection to find straight lines in the image, and then computing a transformation matrix from the detected lines to create the final court structure. We propose numerous improvements and enhancements to this algorithm, including using pretrained State-of-the-Art shadow-removal and object-detection ML models to make our line-detection more robust. Compared to the original algorithm, our method can accurately detect lines on amateur, dirty courts. When combined with a robust ball-tracking system, our method will enable accurate, automatic refereeing for amateur and professional tennis matches alike.
翻訳日:2024-04-11 14:31:03 公開日:2024-04-10
# Rにおける空間予測モデルのトレーニングと評価のためのCASTパッケージ

The CAST package for training and assessment of spatial prediction models in R ( http://arxiv.org/abs/2404.06978v1 )

ライセンス: Link先を確認
Hanna Meyer, Marvin Ludwig, Carles Milà, Jan Linnenbrink, Fabian Schumacher, (参考訳) 環境科学における重要な課題の1つは、環境変数を連続的に空間や時間にマッピングすることである。 機械学習アルゴリズムは、現地観測から学習し、測定されていない場所で興味のある変数の値を推定することで空間的予測を行うために頻繁に使用される。 しかし, 空間マッピングへの機械学習戦略の適用は, 空間自己相関や非独立で同一分布のトレーニングデータから生じる「非空間的」予測タスクと比較して, さらなる課題が伴う。 過去数年間、我々は、性能評価とモデル選択に適したクロスバリデーション戦略の開発、空間的特徴選択、トレーニングされたモデルの適用範囲を評価するための方法を含む、空間データに対する機械学習の適用を支援するための多くの方法を開発した。 CASTパッケージの意図は、そのようなメソッドを実装することによって予測マッピングのための機械学習戦略の適用をサポートし、モデリングワークフローへの容易に統合できるようにすることである。 ここでは,CASTパッケージとその機能について紹介する。 植物種の豊かさをマッピングするケーススタディでは、モデリングワークフローの異なるステップを精査し、より信頼性の高い空間予測をサポートするためにCASTをどのように使用できるかを示す。

One key task in environmental science is to map environmental variables continuously in space or even in space and time. Machine learning algorithms are frequently used to learn from local field observations to make spatial predictions by estimating the value of the variable of interest in places where it has not been measured. However, the application of machine learning strategies for spatial mapping involves additional challenges compared to "non-spatial" prediction tasks that often originate from spatial autocorrelation and from training data that are not independent and identically distributed. In the past few years, we developed a number of methods to support the application of machine learning for spatial data which involves the development of suitable cross-validation strategies for performance assessment and model selection, spatial feature selection, and methods to assess the area of applicability of the trained models. The intention of the CAST package is to support the application of machine learning strategies for predictive mapping by implementing such methods and making them available for easy integration into modelling workflows. Here we introduce the CAST package and its core functionalities. At the case study of mapping plant species richness, we will go through the different steps of the modelling workflow and show how CAST can be used to support more reliable spatial predictions.
翻訳日:2024-04-11 14:31:03 公開日:2024-04-10
# Stiefel Manifold 上の Isometries 学習による量子ネットワークトモグラフィ

Quantum Network Tomography via Learning Isometries on Stiefel Manifold ( http://arxiv.org/abs/2404.06988v1 )

ライセンス: Link先を確認
Ze-Tong Li, Xin-Lin He, Cong-Cong Zheng, Xu-Tao Yu, Zai-Chen Zhang, (参考訳) 量子ネットワークの数学的再構成は、量子情報科学の発展に重要な役割を果たしている。 しかし、膨大なパラメータ要求と物理的制約の実装は、計算的に無視できない存在になっている。 本研究では,Stiefel多様体上のアイソメトリーを学習し,量子ネットワークトモグラフィーの効率的な手法を提案する。 量子ネットワーク再構築の課題は、パラメータが大幅に少ない一連の制約のない最適化問題を解くことで解決される。 ステップワイズアイソメトリ推定は、トモグラフィを処理しながら、切り捨てられた量子コムの情報を提供する能力を示す。 注目すべきことに、この方法はイソメトリーの次元を指定して圧縮QCTを可能にする。 その結果,提案手法は精度と効率性が高いことがわかった。

Explicit mathematical reconstructions of quantum networks play a significant role in developing quantum information science. However, tremendous parameter requirements and physical constraint implementations have become computationally non-ignorable encumbrances. In this work, we propose an efficient method for quantum network tomography by learning isometries on the Stiefel manifold. Tasks of reconstructing quantum networks are tackled by solving a series of unconstrained optimization problems with significantly less parameters. The step-wise isometry estimation shows the capability for providing information of the truncated quantum comb while processing the tomography. Remarkably, this method enables the compressive QCT by specifying the dimensions of isometries. As a result, our proposed method exhibits high accuracy and efficiency.
翻訳日:2024-04-11 14:31:03 公開日:2024-04-10
# 予測分析における正しい問題の解決について:AUCは問題ではない

On Fixing the Right Problems in Predictive Analytics: AUC Is Not the Problem ( http://arxiv.org/abs/2404.06989v1 )

ライセンス: Link先を確認
Ryan S. Baker, Nigel Bosch, Stephen Hutt, Andres F. Zambrano, Alex J. Bowers, (参考訳) 近年、ACM FAccT は Kwegyir-Aggrey らによる論文 (2023) を発表し、いくつかの領域における予測分析における AUC ROC の使用を批判している。 この記事では、その記事に対する批判を紹介する。 具体的には、この論文におけるメトリクスの比較、AUC ROCの解釈と目標の誤特定、AUC ROCとの比較のためのゴールドスタンダードとしての精度基準の使用、および、いかなる指標の使用にも適用される懸念に対して、AUC ROCにのみ批判を適用することの技術的不正確さを強調した。 本稿では、この論文で提起された非常に有効な懸念を再検討し、これらの懸念を考慮に入れた予測分析アプローチにおいて、AUC ROCの使用が有効かつ適切なプラクティスであるかどうかを論じる。 我々は、機械学習バイアスメトリクスを含む複数のメトリクスの併用と、そのようなアプローチにおけるAUC ROCの位置づけについて論じる。 ブロッコリーと同様に、AUC ROCは健康であるが、ブロッコリーと同様に、我々の分野の研究者や実践者はAUC ROCのみの食事を食べるべきではない。

Recently, ACM FAccT published an article by Kwegyir-Aggrey and colleagues (2023), critiquing the use of AUC ROC in predictive analytics in several domains. In this article, we offer a critique of that article. Specifically, we highlight technical inaccuracies in that paper's comparison of metrics, mis-specification of the interpretation and goals of AUC ROC, the article's use of the accuracy metric as a gold standard for comparison to AUC ROC, and the article's application of critiques solely to AUC ROC for concerns that would apply to the use of any metric. We conclude with a re-framing of the very valid concerns raised in that article, and discuss how the use of AUC ROC can remain a valid and appropriate practice in a well-informed predictive analytics approach taking those concerns into account. We conclude by discussing the combined use of multiple metrics, including machine learning bias metrics, and AUC ROC's place in such an approach. Like broccoli, AUC ROC is healthy, but also like broccoli, researchers and practitioners in our field shouldn't eat a diet of only AUC ROC.
翻訳日:2024-04-11 14:31:02 公開日:2024-04-10
# ニューラルベース磁力場に基づく光駆動型分光CT再構成

Ray-driven Spectral CT Reconstruction Based on Neural Base-Material Fields ( http://arxiv.org/abs/2404.06991v1 )

ライセンス: Link先を確認
Ligen Shi, Chang Liu, Ping Yang, Jun Qiu, Xing Zhao, (参考訳) スペクトルCT再構成において、基本材料分解は、数学的に非常に不規則な積分方程式の大規模非線形系を解くことを含む。 本稿では、ニューラルネットワーク表現を用いて物体の減衰係数をパラメータ化し、線積分の離散化過程において画素駆動の投影係数行列の複素計算を回避するモデルを提案する。 線駆動型ニューラルネットワークに基づくライン積分の軽量な離散化法を導入し、離散化過程における積分近似の精度を高める。 基礎材料は連続ベクトル値暗黙関数として表現され、基礎材料に対する神経場パラメータ化モデルを確立する。 深層学習の自己微分フレームワークは、神経基盤物質場の暗黙的な連続関数を解くために使用される。 この方法は再構成画像の空間分解能に制限されず、ネットワークはコンパクトで規則的な特性を持つ。 実験的に評価したところ, スペクトルCTの再構成は極めて良好であった。 さらに,高解像度再構成画像の生成要件も満たしている。

In spectral CT reconstruction, the basis materials decomposition involves solving a large-scale nonlinear system of integral equations, which is highly ill-posed mathematically. This paper proposes a model that parameterizes the attenuation coefficients of the object using a neural field representation, thereby avoiding the complex calculations of pixel-driven projection coefficient matrices during the discretization process of line integrals. It introduces a lightweight discretization method for line integrals based on a ray-driven neural field, enhancing the accuracy of the integral approximation during the discretization process. The basis materials are represented as continuous vector-valued implicit functions to establish a neural field parameterization model for the basis materials. The auto-differentiation framework of deep learning is then used to solve the implicit continuous function of the neural base-material fields. This method is not limited by the spatial resolution of reconstructed images, and the network has compact and regular properties. Experimental validation shows that our method performs exceptionally well in addressing the spectral CT reconstruction. Additionally, it fulfils the requirements for the generation of high-resolution reconstruction images.
翻訳日:2024-04-11 14:31:02 公開日:2024-04-10
# 急激なラプラシアンと特徴選択

Quiver Laplacians and Feature Selection ( http://arxiv.org/abs/2404.06993v1 )

ライセンス: Link先を確認
Otto Sumray, Heather A. Harrington, Vidit Nanda, (参考訳) 与えられたデータセットの最も関連性の高い特徴を選択することの課題は、データ分析と次元の削減においてユビキタスに発生する。 しかし、データセット全体にとって高い重要性を持つことが判明した機能は、関心のサブセットと関係がないかもしれないし、その逆もある。 特徴セレクタと部分集合へのデータの固定分解が与えられた場合、サブセットへの分解と互換性のある選択された特徴を特定する方法を記述する。 適切なクイバー表現のセクションの1つに、互換性のある特徴を見出すという問題を再検討することで、これを実現する。 そのような区間を近似するために、ヒルベルト空間で値付けられたquiver表現に対するラプラシアン作用素を導入する。 クイバーラプラスのスペクトルが、ある自然な方法で表現と下層のクイバーが修正されるときにどのように変化するかを明確にした境界を与える。 最後に,この機構を単一セルデータにおけるクロマチンアクセシビリティを測定するピーク呼び出しアルゴリズムの研究に適用する。 我々は、関連するクイバーラプラシアンの固有ベクトルが局所的かつグローバルに適合する特徴を得られることを示した。

The challenge of selecting the most relevant features of a given dataset arises ubiquitously in data analysis and dimensionality reduction. However, features found to be of high importance for the entire dataset may not be relevant to subsets of interest, and vice versa. Given a feature selector and a fixed decomposition of the data into subsets, we describe a method for identifying selected features which are compatible with the decomposition into subsets. We achieve this by re-framing the problem of finding compatible features to one of finding sections of a suitable quiver representation. In order to approximate such sections, we then introduce a Laplacian operator for quiver representations valued in Hilbert spaces. We provide explicit bounds on how the spectrum of a quiver Laplacian changes when the representation and the underlying quiver are modified in certain natural ways. Finally, we apply this machinery to the study of peak-calling algorithms which measure chromatin accessibility in single-cell data. We demonstrate that eigenvectors of the associated quiver Laplacian yield locally and globally compatible features.
翻訳日:2024-04-11 14:31:02 公開日:2024-04-10
# XNLIeu: バスクにおける言語間NLIデータセット

XNLIeu: a dataset for cross-lingual NLI in Basque ( http://arxiv.org/abs/2404.06996v1 )

ライセンス: Link先を確認
Maite Heredia, Julen Etxaniz, Muitze Zulaika, Xabier Saralegi, Jeremy Barnes, Aitor Soroa, (参考訳) XNLIは、言語横断自然言語理解(NLU)機能を評価するために広く使われている、人気のある自然言語推論(NLI)ベンチマークである。 本稿では、XNLIを拡張して、トランスファーラーニングのアプローチを大いに活用できる低リソース言語であるBasqueを含める。 新しいデータセットはXNLIeuと呼ばれ、最初は英語のXNLIコーパスをバスクに機械翻訳し、続いて手動で編集後のステップで開発された。 単言語および多言語LLMを用いて評価実験を行った。 a) MTシステムに対する専門的な後編の影響 ロ バスクにおけるNLIの最良の言語横断戦略及び c) 最高の言語間戦略の選択は、データセットが翻訳によって構築されているという事実に影響されるかどうか。 結果より, 翻訳後編集が必要であり, 翻訳後言語戦略は, スクラッチからネイティブに構築されたデータセットでテストした場合のゲインは低いが, 全体としてより優れた結果が得られることがわかった。 私たちのコードとデータセットは、オープンライセンスの下で公開されています。

XNLI is a popular Natural Language Inference (NLI) benchmark widely used to evaluate cross-lingual Natural Language Understanding (NLU) capabilities across languages. In this paper, we expand XNLI to include Basque, a low-resource language that can greatly benefit from transfer-learning approaches. The new dataset, dubbed XNLIeu, has been developed by first machine-translating the English XNLI corpus into Basque, followed by a manual post-edition step. We have conducted a series of experiments using mono- and multilingual LLMs to assess a) the effect of professional post-edition on the MT system; b) the best cross-lingual strategy for NLI in Basque; and c) whether the choice of the best cross-lingual strategy is influenced by the fact that the dataset is built by translation. The results show that post-edition is necessary and that the translate-train cross-lingual strategy obtains better results overall, although the gain is lower when tested in a dataset that has been built natively from scratch. Our code and datasets are publicly available under open licenses.
翻訳日:2024-04-11 14:31:02 公開日:2024-04-10
# リモートサーベイランスのためのエージェント駆動型生成セマンティック通信

Agent-driven Generative Semantic Communication for Remote Surveillance ( http://arxiv.org/abs/2404.06997v1 )

ライセンス: Link先を確認
Wanting Yang, Zehui Xiong, Yanli Yuan, Wenchao Jiang, Tony Q. S. Quek, Merouane Debbah, (参考訳) 6Gの時代は、インテリジェントな交通システム、デジタル双生児といった魅力的なビジョンを特徴とする遠隔監視が、ユビキタスなプラクティスになりつつある。 大量のデータ量と頻繁な更新は、無線ネットワークにおける課題である。 そこで本研究では,強化学習に基づくエージェント駆動型生成セマンティックコミュニケーション(A-GSC)フレームワークを提案する。 セマンティック・コミュニケーション(SemCom)を主眼とする既存のセマンティック・コミュニケーション(SemCom)研究とは対照的に,ソース情報の固有属性とタスクに関するコンテキスト情報とを共同で検討することで,両者をシームレスにカスケードする。 特に、生成人工知能(GAI)の導入により、セマンティックエンコーダとデコーダの独立設計が可能になる。 本研究では,知識に基づくソフトアクター・クリティカル・アルゴリズムを利用したエージェント支援型セマンティック・エンコーダを開発し,セマンティックなセマンティック・サンプリングを行う。 そこで我々は,2つのモジュールからなる予測および生成機能を備えたセマンティックデコーダを設計する。 さらに、CDNet2014から生成されたデータセットに基づいて、設計モデルの有効性を検証し、省エネと再構築の精度の両方において、全体的なA-GSCフレームワークの性能向上を実証した。

In the era of 6G, featuring compelling visions of intelligent transportation system, digital twins, remote surveillance is poised to become a ubiquitous practice. The substantial data volume and frequent updates present challenges in wireless networks. To address this, we propose a novel agent-driven generative semantic communication (A-GSC) framework based on reinforcement learning. In contrast to the existing research on semantic communication (SemCom), which mainly focuses on semantic compression or semantic sampling, we seamlessly cascade both together by jointly considering the intrinsic attributes of source information and the contextual information regarding the task. Notably, the introduction of the generative artificial intelligence (GAI) enables the independent design of semantic encoders and decoders. In this work, we develop an agent-assisted semantic encoder leveraging the knowledge based soft actor-critic algorithm, which can track the semantic changes, channel condition, and sampling intervals, so as to perform adaptive semantic sampling. Accordingly, we design a semantic decoder with both predictive and generative capabilities, which consists of two tailored modules. Moreover, the effectiveness of the designed models has been verified based on the dataset generated from CDNet2014, and the performance gain of the overall A-GSC framework in both energy saving and reconstruction accuracy have been demonstrated.
翻訳日:2024-04-11 14:31:02 公開日:2024-04-10
# 協調的(大規模)言語モデルを用いた事象的刑事裁判所ビュー生成

Event Grounded Criminal Court View Generation withCooperative (Large) Language Models ( http://arxiv.org/abs/2404.07001v1 )

ライセンス: Link先を確認
Linan Yue, Qi Liu, Lili Zhao, Li Wang, Weibo Gao, Yanqing An, (参考訳) 法的なインテリジェンスの発展に伴い、刑事裁判所ビュージェネレーション(Criminal Court View Generation)は法的なインテリジェンスの重要な課題として多くの注目を集め、事件事実を要約した簡潔で一貫性のあるテキストを生成し、評決の説明を提供することを目指している。 既存の研究は、事件の事実が裁判所の見解を導くための重要な情報を探っている。 それらの多くは、事実を広い部分(例えば、評定関連文)に分割して予測する粗いアプローチを採用している。 しかし、このアプローチは、様々な犯罪要素や法的な出来事など、事件事実に存在する複雑な詳細を捉えることに失敗している。 そこで,本稿では,犯罪裁判所ビュー生成のためのイベントグラウンドドジェネレーション(EGG)手法を提案する。 具体的には,大容量のアノテートイベントを伴わずに事象を抽出できるLLMを用いた抽出手法を最初に設計する。 そして,抽出した事象を事例事実と事象を融合して,裁判所ビュー生成に組み込む。 また,EGGの抽出フェーズにおけるLLMの使用による計算負担を考慮し,推定フェーズにおけるLLMを用いたイベント抽出の要求を解消できるLLMフリーEGG法を提案する。 提案手法の有効性を実世界のデータセットで明らかに検証した。

With the development of legal intelligence, Criminal Court View Generation has attracted much attention as a crucial task of legal intelligence, which aims to generate concise and coherent texts that summarize case facts and provide explanations for verdicts. Existing researches explore the key information in case facts to yield the court views. Most of them employ a coarse-grained approach that partitions the facts into broad segments (e.g., verdict-related sentences) to make predictions. However, this approach fails to capture the complex details present in the case facts, such as various criminal elements and legal events. To this end, in this paper, we propose an Event Grounded Generation (EGG) method for criminal court view generation with cooperative (Large) Language Models, which introduces the fine-grained event information into the generation. Specifically, we first design a LLMs-based extraction method that can extract events in case facts without massive annotated events. Then, we incorporate the extracted events into court view generation by merging case facts and events. Besides, considering the computational burden posed by the use of LLMs in the extraction phase of EGG, we propose a LLMs-free EGG method that can eliminate the requirement for event extraction using LLMs in the inference phase. Extensive experimental results on a real-world dataset clearly validate the effectiveness of our proposed method.
翻訳日:2024-04-11 14:31:02 公開日:2024-04-10
# LM Transparency Tool:トランスフォーマー言語モデル解析のためのインタラクティブツール

LM Transparency Tool: Interactive Tool for Analyzing Transformer Language Models ( http://arxiv.org/abs/2404.07004v1 )

ライセンス: Link先を確認
Igor Tufanov, Karen Hambardzumyan, Javier Ferrando, Elena Voita, (参考訳) 本稿では,トランスフォーマーに基づく言語モデルの内部動作を分析するための,オープンソースのインタラクティブツールキットであるLM-TTについて述べる。 意思決定プロセスの分離部分に焦点を当てた既存のツールとは違って、私たちのフレームワークは、予測プロセス全体を透過的にし、上位層の表現から非常にきめ細かいモデルの振る舞いをトレースできるように設計されています。 具体的には、(1)入力から出力までの情報の流れの重要部分を示し、(2)モデルブロックが行った変化を個々の注意頭およびフィードフォワードニューロンに寄与させ、(3)これらの頭部またはニューロンの機能の解釈を可能にする。 このパイプラインの重要な部分は、各ステップにおける特定のモデルコンポーネントの重要性を示しています。 その結果、予測に重要な場合のみ、モデルコンポーネントの役割を見ることができる。 どのコンポーネントを検査すべきかを知ることが、これらのコンポーネントの数が極端に多い大規模モデルを分析する上で重要であるので、我々のツールは、研究環境と実践的なアプリケーションの両方において、解釈可能性コミュニティを大いに支援するだろうと信じています。

We present the LM Transparency Tool (LM-TT), an open-source interactive toolkit for analyzing the internal workings of Transformer-based language models. Differently from previously existing tools that focus on isolated parts of the decision-making process, our framework is designed to make the entire prediction process transparent, and allows tracing back model behavior from the top-layer representation to very fine-grained parts of the model. Specifically, it (1) shows the important part of the whole input-to-output information flow, (2) allows attributing any changes done by a model block to individual attention heads and feed-forward neurons, (3) allows interpreting the functions of those heads or neurons. A crucial part of this pipeline is showing the importance of specific model components at each step. As a result, we are able to look at the roles of model components only in cases where they are important for a prediction. Since knowing which components should be inspected is key for analyzing large models where the number of these components is extremely high, we believe our tool will greatly support the interpretability community both in research settings and in practical applications.
翻訳日:2024-04-11 14:31:02 公開日:2024-04-10
# WordDecipher:非ネイティブな英語話者のための説明可能なAIによるデジタルワークスペースコミュニケーションの強化

WordDecipher: Enhancing Digital Workspace Communication with Explainable AI for Non-native English Speakers ( http://arxiv.org/abs/2404.07005v1 )

ライセンス: Link先を確認
Yuexi Chen, Zhicheng Liu, (参考訳) 非ネイティブな英語話者(NNES)は、デジタルワークスペースコミュニケーション(Eメール、Slackメッセージなど)における課題に直面し、しばしばネイティブ言語から表現を不注意に翻訳する。 しかし、NNESは様々な表現の微妙さの把握に苦慮しているため、その意図を正確に反映した表現を選択することは困難である。 このような課題は、非言語的手がかりの欠如が誤解釈のリスクを高めるという、高い視点のテキストベースのコミュニケーションにおいて悪化している。 大規模言語モデル(LLM)と単語埋め込みの最新の進歩を活用して、NNESのためのデジタルワークスペースコミュニケーションを強化するための説明可能なAI支援記述ツールであるWordDecipherを提案する。 WordDecipherは、ユーザの書き込みで検出された認識された社会的意図を識別するだけでなく、ユーザの意図したメッセージに沿った書き直し提案を生成する。 次にWordDecipherは、NNESの選択を支援するニュアンスの概要を提供する。 利用シナリオを通じて、WordDecipherはNNESの要求を伝達する能力を大幅に向上させ、NNESのワークスペース通信を変換する可能性を示す。

Non-native English speakers (NNES) face challenges in digital workspace communication (e.g., emails, Slack messages), often inadvertently translating expressions from their native languages, which can lead to awkward or incorrect usage. Current AI-assisted writing tools are equipped with fluency enhancement and rewriting suggestions; however, NNES may struggle to grasp the subtleties among various expressions, making it challenging to choose the one that accurately reflects their intent. Such challenges are exacerbated in high-stake text-based communications, where the absence of non-verbal cues heightens the risk of misinterpretation. By leveraging the latest advancements in large language models (LLM) and word embeddings, we propose WordDecipher, an explainable AI-assisted writing tool to enhance digital workspace communication for NNES. WordDecipher not only identifies the perceived social intentions detected in users' writing, but also generates rewriting suggestions aligned with users' intended messages, either numerically or by inferring from users' writing in their native language. Then, WordDecipher provides an overview of nuances to help NNES make selections. Through a usage scenario, we demonstrate how WordDecipher can significantly enhance an NNES's ability to communicate her request, showcasing its potential to transform workspace communication for NNES.
翻訳日:2024-04-11 14:31:02 公開日:2024-04-10
# 経験的概念検索のための知識グラフ

Knowledge graphs for empirical concept retrieval ( http://arxiv.org/abs/2404.07008v1 )

ライセンス: Link先を確認
Lenka Tětková, Teresa Karen Scheidt, Maria Mandrup Fogh, Ellen Marie Gaunby Jørgensen, Finn Årup Nielsen, Lars Kai Hansen, (参考訳) 概念ベースの説明可能なAIは、あるユーザの前提であるvizにおける複雑なモデルの理解を改善するツールとして期待されている。 パーソナライズされた説明可能性のためのツールとして。 概念に基づく説明可能性法の重要なクラスは、TCAVアプローチ(Kim et al , 2018)のように、実証的に定義された概念を用いて構成される。 概念の形式的定義や運用化を避けることがユーザにアピールされるが、関連する概念データセットを確立することは困難である。 本稿では、包括的概念定義のための一般知識グラフ(例えば、WikidataやWordNet)を用いてこの問題に対処し、テキストと画像ドメインの両方において、ユーザ主導のデータ収集のためのワークフローを提示する。 知識グラフから導かれる概念は対話的に定義され、パーソナライゼーションの機会を与え、その概念がユーザの意図を反映することを保証する。 本研究では,概念アクティベーションベクトル(CAV)と概念アクティベーション領域(CAR)の2つの概念ベース説明可能性手法を用いて,検索した概念データセットを検証した(Crabbe and van der Schaar, 2022)。 これらの経験的概念データセットに基づくCAVとCARが、堅牢で正確な説明を提供することを示す。 重要なことに、モデルの概念表現と知識グラフの構造、すなわち人間の表現との整合性も良好である。 これは知識グラフに基づく概念がXAIに関係しているという私たちの結論を支持します。

Concept-based explainable AI is promising as a tool to improve the understanding of complex models at the premises of a given user, viz.\ as a tool for personalized explainability. An important class of concept-based explainability methods is constructed with empirically defined concepts, indirectly defined through a set of positive and negative examples, as in the TCAV approach (Kim et al., 2018). While it is appealing to the user to avoid formal definitions of concepts and their operationalization, it can be challenging to establish relevant concept datasets. Here, we address this challenge using general knowledge graphs (such as, e.g., Wikidata or WordNet) for comprehensive concept definition and present a workflow for user-driven data collection in both text and image domains. The concepts derived from knowledge graphs are defined interactively, providing an opportunity for personalization and ensuring that the concepts reflect the user's intentions. We test the retrieved concept datasets on two concept-based explainability methods, namely concept activation vectors (CAVs) and concept activation regions (CARs) (Crabbe and van der Schaar, 2022). We show that CAVs and CARs based on these empirical concept datasets provide robust and accurate explanations. Importantly, we also find good alignment between the models' representations of concepts and the structure of knowledge graphs, i.e., human representations. This supports our conclusion that knowledge graph-based concepts are relevant for XAI.
翻訳日:2024-04-11 14:31:02 公開日:2024-04-10
# 抽象学習者による意味言語学習の数学的理論

A Mathematical Theory for Learning Semantic Languages by Abstract Learners ( http://arxiv.org/abs/2404.07009v1 )

ライセンス: Link先を確認
Kuo-Yu Liao, Cheng-Shang Chang, Y. -W. Peter Hong, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、システムパラメータの数とトレーニングデータのサイズが一定の閾値を超えると、能力(学習スキル)が出現することを示した。 このような現象の背後にある正確なメカニズムは完全には理解されておらず、活発な研究のトピックとして残されている。 セマンティック言語をモデル化するために[1]で提示されたスキルテキスト二部グラフモデルにインスパイアされ、学習(または訓練)プロセスを考慮に入れながら、学習スキルの出現を説明する数学的理論を開発する。 提案手法は,低密度パリティチェック (LDPC) 符号と不規則反復Slotted ALOHA (IRSA) 符号における反復復号プロセスとして,スキルテキスト二部グラフのスキル学習プロセスをモデル化する。 密度進化分析を用いて、トレーニングテキストのサイズとスキルの数との比率が一定の閾値を超えた場合の学習スキルの出現を実証する。 私たちの分析は、トレーニングテキストのサイズに対してエラーをテストするためのスケーリング法則ももたらします。 学習が完了するとセマンティック圧縮の手法を提案し,セマンティックコミュニケーションへの応用について議論する。

Recent advances in Large Language Models (LLMs) have demonstrated the emergence of capabilities (learned skills) when the number of system parameters and the size of training data surpass certain thresholds. The exact mechanisms behind such phenomena are not fully understood and remain a topic of active research. Inspired by the skill-text bipartite graph model presented in [1] for modeling semantic language, we develop a mathematical theory to explain the emergence of learned skills, taking the learning (or training) process into account. Our approach models the learning process for skills in the skill-text bipartite graph as an iterative decoding process in Low-Density Parity Check (LDPC) codes and Irregular Repetition Slotted ALOHA (IRSA). Using density evolution analysis, we demonstrate the emergence of learned skills when the ratio of the size of training texts to the number of skills exceeds a certain threshold. Our analysis also yields a scaling law for testing errors relative to the size of training texts. Upon completion of the training, we propose a method for semantic compression and discuss its application in semantic communication.
翻訳日:2024-04-11 14:21:12 公開日:2024-04-10
# 変分量子クランクニコソンと初期値問題の解法

Variational Quantum Crank-Nicolson and Method of Lines for the Solution of Initial Value Problems ( http://arxiv.org/abs/2404.07016v1 )

ライセンス: Link先を確認
Francisco Guzman-Cajica, Francisco S. Guzman, (参考訳) 本稿では,変分量子アルゴリズムを用いてインプリシト・クランク・ニコソンと線形展開法を用いて初期値問題の解法を提案する。 未知の関数はフーリエ基底のスペクトル分解を用いる。 この実装を説明するために開発された例は、対流方程式、結合方程式の第1次系として記述された波動方程式、非線形の場合として粘性バーガース方程式である。 問題は次の通り解決される。 一 比較すべき解としての標準差分 二 国家ベクトル形式主義(SVF)及び 三 サンプリング誤り形式主義(SEF) これらの方程式の結果、SVFは収束解を提供するのに対し、SEFで構築されたものは分解能の増加と一致しないことが示された。 実装の副産物には、2つの進化計画のためのコスト関数の構築と、古典的コンピュータにおけるSVFとSEFをシミュレートする効率的な方法が含まれる。

In this paper we use a Variational Quantum Algorithm to solve Initial Value Problems with the Implicit Crank-Nicolson and the Method of Lines evolution schemes. The unknown functions use a spectral decomposition with the Fourier basis. The examples developed to illustrate the implementation are the advection equation, the wave equation written as a first order system of coupled equations and the viscous Burgers equation as a non-linear case. The problems are solved using: i) standard Finite Differences as the solution to compare with, ii) the State Vector Formalism (SVF), and iii) the Sampling Error Formalism (SEF). Our results for these equations show that the SVF provides convergent solutions whereas those constructed with the SEF are not consistent with the increase of resolution. Byproducts of our implementation include the construction of cost functions for the two evolution schemes and an efficient method to simulate the SVF and SEF in classical computers.
翻訳日:2024-04-11 14:21:12 公開日:2024-04-10
# 自己動機学習による言語モデル推論の改善

Improving Language Model Reasoning with Self-motivated Learning ( http://arxiv.org/abs/2404.07017v1 )

ライセンス: Link先を確認
Yunlong Feng, Yang Xu, Libo Qin, Yasheng Wang, Wanxiang Che, (参考訳) モデルの性能向上には,大規模で高品質なトレーニングデータが必要である。 合理的なデータ(推論ステップ)でトレーニングした後、モデルは推論能力を得る。 しかし、高いアノテーションコストのため、高品質な合理性を持つデータセットは比較的少ない。 この問題に対処するため,我々はtextit{Self-motivated Learning} フレームワークを提案する。 このフレームワークはモデル自体を動機付け、既存のデータセットで合理性を自動的に生成する。 複数の有理数にまたがる正しさから固有のランクに基づいて、モデルはより良い有理数を生成することを学び、より高い推論能力をもたらす。 具体的には,有理数の品質を評価するためにランク付き報酬モデルを訓練し,強化学習による推論性能の向上を図る。 複数の推論データセットに対するLlama2 7Bの実験結果から,本手法はモデルの推論能力を大幅に向上することが示された。

Large-scale high-quality training data is important for improving the performance of models. After trained with data that has rationales (reasoning steps), models gain reasoning capability. However, the dataset with high-quality rationales is relatively scarce due to the high annotation cost. To address this issue, we propose \textit{Self-motivated Learning} framework. The framework motivates the model itself to automatically generate rationales on existing datasets. Based on the inherent rank from correctness across multiple rationales, the model learns to generate better rationales, leading to higher reasoning capability. Specifically, we train a reward model with the rank to evaluate the quality of rationales, and improve the performance of reasoning through reinforcement learning. Experiment results of Llama2 7B on multiple reasoning datasets show that our method significantly improves the reasoning ability of models, even outperforming text-davinci-002 in some datasets.
翻訳日:2024-04-11 14:21:12 公開日:2024-04-10
# 非退化ワンタイムパッドと完全秘密メッセージの完全性

Non-Degenerate One-Time Pad and the integrity of perfectly secret messages ( http://arxiv.org/abs/2404.07022v1 )

ライセンス: Link先を確認
Alex Shafarenko, (参考訳) 本報告では, 自然拡散特性を持つ1時間パッド(OTP)と, それらの利点を生かした冗長性注入機構を新たに構築する。 この構成は、プレインテキストとキーを、factadicへの変換後のリーマー符号表現における置換群のメンバーとして解釈することに基づいている。 このように構築されたOPPは、暗号文の摂動を、予測不能で、計量的に大きな平文の乱摂動に変換する。 これにより、余分な重要な材料を使わずに、無条件の完全性を保証することができる。 冗長性はFoataの"pun"を使って注入される: 1行の表現を巡回的な表現として読み取る;我々はこの擬似フォアタ注入(Pseudo Foata Injection)と呼ぶ。 両機構を実装する2次複雑性のアルゴリズムを得る。

We present a new construction of a One Time Pad (OTP) with inherent diffusive properties and a redundancy injection mechanism that benefits from them. The construction is based on interpreting the plaintext and key as members of a permutation group in the Lehmer code representation after conversion to factoradic. The so constructed OTP translates any perturbation of the ciphertext to an unpredictable, metrically large random perturbation of the plaintext. This allows us to provide unconditional integrity assurance without extra key material. The redundancy is injected using Foata's "pun": the reading of the one-line representation as the cyclic one; we call this Pseudo Foata Injection. We obtain algorithms of quadratic complexity that implement both mechanisms.
翻訳日:2024-04-11 14:21:12 公開日:2024-04-10
# 分数ブラウン運動によって生じる軌跡の不完全ユークリッド距離行列の拡散に基づく塗装

Diffusion-based inpainting of incomplete Euclidean distance matrices of trajectories generated by a fractional Brownian motion ( http://arxiv.org/abs/2404.07029v1 )

ライセンス: Link先を確認
Alexander Lobashev, Kirill Polovnikov, (参考訳) フラクショナルブラウン軌道 (fBm) はランダム性と強いスケール自由な相関を特徴とし、その基礎となる過程を特徴付ける固有の記憶を再現するために生成モデルに挑戦する。 ここでは,fBmの不完全距離行列に対応する劣化した画像の特定のデータセット上で,様々なメモリ指数において拡散確率モデルを検証した。 我々のデータセットは、残余部分グラフが剛性である低損失比のレギュレーションにおいて、データ計算の独特さを暗示し、インペインティングの基礎的真実を提供する。 条件拡散生成は、fBm分布距離の統計を、異なる値の$H$指数で安定に再現する。 さらに,近年,拡散モデルがトレーニングデータベースのサンプルを記憶していることが示されているが,拡散ベースのインパインティングはデータベースの検索と定性的に異なる挙動を示し,データベースのサイズが大きくなる。 最後に, 単細胞顕微鏡実験で得られた染色体距離行列の完成に$H=1/3$のfBm訓練拡散モデルを適用し, 標準バイオインフォマティクスアルゴリズムよりも優れていることを示す。 ソースコードはGitHubでhttps://github.com/alobashev/diffusion_fbm.comから入手可能です。

Fractional Brownian trajectories (fBm) feature both randomness and strong scale-free correlations, challenging generative models to reproduce the intrinsic memory characterizing the underlying process. Here we test a diffusion probabilistic model on a specific dataset of corrupted images corresponding to incomplete Euclidean distance matrices of fBm at various memory exponents $H$. Our dataset implies uniqueness of the data imputation in the regime of low missing ratio, where the remaining partial graph is rigid, providing the ground truth for the inpainting. We find that the conditional diffusion generation stably reproduces the statistics of missing fBm-distributed distances for different values of $H$ exponent. Furthermore, while diffusion models have been recently shown to remember samples from the training database, we show that diffusion-based inpainting behaves qualitatively different from the database search with the increasing database size. Finally, we apply our fBm-trained diffusion model with $H=1/3$ for completion of chromosome distance matrices obtained in single-cell microscopy experiments, showing its superiority over the standard bioinformatics algorithms. Our source code is available on GitHub at https://github.com/alobashev/diffusion_fbm.
翻訳日:2024-04-11 14:21:12 公開日:2024-04-10
# ORacle:知識誘導型ホロスティックORドメインモデリングのための大規模ビジョンランゲージモデル

ORacle: Large Vision-Language Models for Knowledge-Guided Holistic OR Domain Modeling ( http://arxiv.org/abs/2404.07031v1 )

ライセンス: Link先を確認
Ege Özsoy, Chantal Pellegrini, Matthias Keicher, Nassir Navab, (参考訳) 毎日無数の手術が世界中で行われており、それぞれの手術室(OR)は設定だけでなく、使用した人員、道具、設備にも異なる。 この固有の多様性は、初期トレーニングデータセットを超えてモデルを一般化する必要があるため、ORの全体的理解を達成する上で大きな課題となる。 このギャップを減らし,多視点と時間的機能を組み込んだ総合的ORドメインモデリングのための先進的な視覚言語モデルであるORacleを導入する。 この能力は、トレーニングデータセットを著しく多様化させる新しいデータ拡張フレームワークによってさらに強化され、提供された知識を効果的に適用するORacleの習熟度が保証される。 厳密なテスト、シーングラフ生成、および4D-ORデータセットの下流タスクでは、ORacleは最先端のパフォーマンスを示すだけでなく、既存のモデルよりも少ないデータを必要とする。 さらに、その適応性は、ツールや機器の見知らぬビュー、アクション、外観を解釈する能力によって示される。 このことは、ORドメインモデリングのスケーラビリティと可利用性を大幅に向上させるORacleの可能性を示し、外科データ科学の今後の進歩への道を開いた。 受け入れ次第、コードとデータを公開します。

Every day, countless surgeries are performed worldwide, each within the distinct settings of operating rooms (ORs) that vary not only in their setups but also in the personnel, tools, and equipment used. This inherent diversity poses a substantial challenge for achieving a holistic understanding of the OR, as it requires models to generalize beyond their initial training datasets. To reduce this gap, we introduce ORacle, an advanced vision-language model designed for holistic OR domain modeling, which incorporates multi-view and temporal capabilities and can leverage external knowledge during inference, enabling it to adapt to previously unseen surgical scenarios. This capability is further enhanced by our novel data augmentation framework, which significantly diversifies the training dataset, ensuring ORacle's proficiency in applying the provided knowledge effectively. In rigorous testing, in scene graph generation, and downstream tasks on the 4D-OR dataset, ORacle not only demonstrates state-of-the-art performance but does so requiring less data than existing models. Furthermore, its adaptability is displayed through its ability to interpret unseen views, actions, and appearances of tools and equipment. This demonstrates ORacle's potential to significantly enhance the scalability and affordability of OR domain modeling and opens a pathway for future advancements in surgical data science. We will release our code and data upon acceptance.
翻訳日:2024-04-11 14:21:12 公開日:2024-04-10
# 半教師型医用画像セグメンテーションのためのエビデンシャル強化三分岐一貫性学習法

An Evidential-enhanced Tri-Branch Consistency Learning Method for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2404.07032v1 )

ライセンス: Link先を確認
Zhenxi Zhang, Heng Zhou, Xiaoran Shi, Ran Ran, Chunna Tian, Feng Zhou, (参考訳) 半教師付きセグメンテーションは、大規模医用画像解析において有望なアプローチを示し、同等の性能を達成しつつ、アノテーションの負担を効果的に軽減する。 本手法は, セグメンテーションプロセスの合理化と, 翻訳研究における臨床現場での実施可能性を高める重要な可能性を秘めている。 相互監督型トレーニングは、異なる協調学習サブネットワークに基づいており、このタスクのパラダイムとして広く採用されているが、述語不一致やラベルノイズの抑制といった重要な問題に対処するには、相互監督型トレーニングのさらなる注意と進歩が必要である。 本稿では,半教師付き医用画像セグメンテーションのためのEvidential Tri-Branch Consistency Learning framework (ETC-Net)を提案する。 ETC-Netは、明らかな保守枝、明らかな進歩枝、および明らかな融合枝の3つの枝を雇用している。 最初の2つのブランチは相補的な特性を示しており、予測の多様性に対処し、トレーニングの安定性を高めることができる。 また,顕在的学習からの不確実性評価を相互監督訓練に統合し,誤った監視信号の負の影響を緩和する。 さらに、明快な融合ブランチは、最初の2つのブランチの相補的な特性を活かし、証拠に基づくDempster-Shafer融合戦略を活用し、ラベルなしデータのより信頼性が高く正確な擬似ラベルによって監督される。 LA、Pancreas-CT、ACDCのデータセットで実施された大規模な実験は、ETC-Netが半教師付きセグメンテーションのための他の最先端の手法を上回ることを示した。 コードは近い将来、https://github.com/Medsemiseg.comで公開される。

Semi-supervised segmentation presents a promising approach for large-scale medical image analysis, effectively reducing annotation burdens while achieving comparable performance. This methodology holds substantial potential for streamlining the segmentation process and enhancing its feasibility within clinical settings for translational investigations. While cross-supervised training, based on distinct co-training sub-networks, has become a prevalent paradigm for this task, addressing critical issues such as predication disagreement and label-noise suppression requires further attention and progress in cross-supervised training. In this paper, we introduce an Evidential Tri-Branch Consistency learning framework (ETC-Net) for semi-supervised medical image segmentation. ETC-Net employs three branches: an evidential conservative branch, an evidential progressive branch, and an evidential fusion branch. The first two branches exhibit complementary characteristics, allowing them to address prediction diversity and enhance training stability. We also integrate uncertainty estimation from the evidential learning into cross-supervised training, mitigating the negative impact of erroneous supervision signals. Additionally, the evidential fusion branch capitalizes on the complementary attributes of the first two branches and leverages an evidence-based Dempster-Shafer fusion strategy, supervised by more reliable and accurate pseudo-labels of unlabeled data. Extensive experiments conducted on LA, Pancreas-CT, and ACDC datasets demonstrate that ETC-Net surpasses other state-of-the-art methods for semi-supervised segmentation. The code will be made available in the near future at https://github.com/Medsemiseg.
翻訳日:2024-04-11 14:21:12 公開日:2024-04-10
# 量子トンネル:理論から誤り最小化量子シミュレーションへ

Quantum Tunneling: From Theory to Error-Mitigated Quantum Simulation ( http://arxiv.org/abs/2404.07034v1 )

ライセンス: Link先を確認
Sorana Catrina, Alexandra Băicoianu, (参考訳) 量子コンピュータに関する議論が生まれて以来、量子シミュレーションは可能性の最前線にあり、量子シミュレーションの課題は量子上の利点を約束するものである。 近年では、VQEによる大きな分子のシミュレーションや、多体スピンハミルトニアンの動力学のシミュレーションが可能であり、誤り軽減技術を用いて有用な結果を得ることができる。 より小さなモデルをシミュレートすることも重要であり、現在、NISQ(ノイズ中間スケール量子)時代には、エラーがより容易で少ない。 本研究は,量子トンネルシミュレーションの理論的背景とハードウェア対応回路の実装を含む。 具体的には、そのような実装に必要な理論的背景を示し、開発の主要なステップを強調した。 本研究は, 量子トンネルシミュレーションの古典的手法を基礎として, 誤差緩和技術(ZNE, REM)を用いてシミュレーション結果を改良し, 量子チップのマルチプログラミングと組み合わせて, このような文脈で発生するハードウェアアンダーユースライズ問題の解法を提案する。 さらに、ハードウェア対応回路の実装の必要性を強調し、量子シミュレーションのエンドツーエンドのワークフロー概要を提供するために、これらの考察を詳細に議論する。

Ever since the discussions about a possible quantum computer arised, quantum simulations have been at the forefront of possible utilities and the task of quantum simulations is one that promises quantum advantage. In recent years, simulations of large molecules through VQE or dynamics of many-body spin Hamiltonians may be possible, and even able to achieve useful results with the use of error mitigation techniques. Simulating smaller models is also important, and currently, in the NISQ (Noisy intermediate-scale quantum) era, it is easier and less prone to errors. This current study encompasses the theoretical background and the hardware aware circuit implementation of a quantum tunneling simulation. Specifically, this study presents the theoretical background needed for such implementation and highlights the main steps of development. Building on classic approaches of quantum tunneling simulations, this study improves the result of such simulations by employing error mitigation techniques (ZNE and REM) and uses them in conjunction with multiprogramming of the quantum chip for solving the hardware under-utilization problem that arises in such contexts. Moreover, we highlight the need for hardware-aware circuit implementations and discuss these considerations in detail to give an end-to-end workflow overview of quantum simulations.
翻訳日:2024-04-11 14:21:12 公開日:2024-04-10
# スロベニアのニュースメディアにおけるシリアとウクライナからの脱人間化の計算分析

A Computational Analysis of the Dehumanisation of Migrants from Syria and Ukraine in Slovene News Media ( http://arxiv.org/abs/2404.07036v1 )

ライセンス: Link先を確認
Jaya Caporusso, Damar Hoogland, Mojca Brglez, Boshko Koloski, Matthew Purver, Senja Pollak, (参考訳) 非人間化は、社会集団のメンバーの認識や治療を人間より少ないものとして含む。 この現象は、計算言語学の手法ではめったに扱われない。 我々は最近提案された英語のアプローチに適応し、他の言語への移動を容易にし、新しい感情資源を導入し、ゼロショットの言語間価値と覚醒検出を用い、統計的に有意な検査を行うための新しい方法を提案する。 次に、スロヴェニアの新聞に掲載されている移民に対する態度について調査し、シリア戦争後の2015-16年の移民危機とウクライナ戦争後の2022-23年の移民問題におけるスロベニアの言説の変化について検討する。 この議論は、時間とともにより否定的になり、強烈なものになったが、ウクライナからの移民に他と比べて対処する場合には、非人道的でないことが判明した。

Dehumanisation involves the perception and or treatment of a social group's members as less than human. This phenomenon is rarely addressed with computational linguistic techniques. We adapt a recently proposed approach for English, making it easier to transfer to other languages and to evaluate, introducing a new sentiment resource, the use of zero-shot cross-lingual valence and arousal detection, and a new method for statistical significance testing. We then apply it to study attitudes to migration expressed in Slovene newspapers, to examine changes in the Slovene discourse on migration between the 2015-16 migration crisis following the war in Syria and the 2022-23 period following the war in Ukraine. We find that while this discourse became more negative and more intense over time, it is less dehumanising when specifically addressing Ukrainian migrants compared to others.
翻訳日:2024-04-11 14:21:12 公開日:2024-04-10
# リモートスケジューリングコンテントアタック

Remote Scheduler Contention Attacks ( http://arxiv.org/abs/2404.07042v1 )

ライセンス: Link先を確認
Stefan Gast, Jonas Juffinger, Lukas Maar, Christoph Royer, Andreas Kogler, Daniel Gruss, (参考訳) 本稿では,AMD Zen 3におけるスケジューラキューのリークを体系的に研究し,全てのキューがリークしていることを示す。 我々は,Zen 4に対する最初のスケジューラ競合攻撃を,最先端技術よりも高精度に,アウトオブオーダのレース状態を誘発する新しい測定方法により実装した。 我々は、スケジューラ競合に基づく最初のキーストローク間タイミング攻撃を示し、F1スコアは99.5 %、標準偏差は4ms以下である。 エンドツーエンドのJavaScript攻撃はFirefoxインスタンス間で送信され、クロスオリジンポリシーとサイト分離をバイパスし、861.9ビット/s(Zen 3)と940.7ビット/s(Zen 4)を持つ。

In this paper, we investigate unexplored aspects of scheduler contention: We systematically study the leakage of all scheduler queues on AMD Zen 3 and show that all queues leak. We mount the first scheduler contention attacks on Zen 4, with a novel measurement method evoking an out-of-order race condition, more precise than the state of the art. We demonstrate the first inter-keystroke timing attacks based on scheduler contention, with an F1 score of $\geq$ 99.5 % and a standard deviation below 4 ms from the ground truth. Our end-to-end JavaScript attack transmits across Firefox instances, bypassing cross-origin policies and site isolation, with 891.9 bit/s (Zen 3) and 940.7 bit/s (Zen 4).
翻訳日:2024-04-11 14:21:12 公開日:2024-04-10
# 制御シーン生成による微粒な体系誤差の同定

Identification of Fine-grained Systematic Errors via Controlled Scene Generation ( http://arxiv.org/abs/2404.07045v1 )

ライセンス: Link先を確認
Valentyn Boreiko, Matthias Hein, Jan Hendrik Metzen, (参考訳) 多くの安全クリティカルな応用、特に自律運転では、信頼性の高い物体検出器を必要とする。 これらの検出装置が配備される前に、潜在的な失敗や系統的なエラーを探索し、特定する手法によって、非常に効果的に支援することができる。 体系的なエラーは、対象の位置、スケール、向き、色などの属性の組み合わせと、それぞれの背景の合成によって特徴づけられる。 それらを特定するには、非常に稀だが可能な属性の組み合わせを考慮しないため、テストセットから実際のイメージ以外のものに頼る必要がある。 この制限を克服するために,複数のオブジェクトからなる複雑なシーンを生成可能な,きめ細かい制御によるリアルな合成シーンを生成するパイプラインを提案する。 われわれのアプローチであるBEV2EGOは,2次元鳥眼ビュー(BEV)のシーン構成を1対1のビュー(EGO)にマッピングする道路コンテンツ制御によるシーン全体の現実的な生成を可能にする。 さらに,BEV2EGOの最適生成出力モデルを選択するために,制御シーン生成のためのベンチマークを提案する。 さらに、複数の最先端オブジェクト検出モデルの体系的解析を行い、それらの違いを発見する。

Many safety-critical applications, especially in autonomous driving, require reliable object detectors. They can be very effectively assisted by a method to search for and identify potential failures and systematic errors before these detectors are deployed. Systematic errors are characterized by combinations of attributes such as object location, scale, orientation, and color, as well as the composition of their respective backgrounds. To identify them, one must rely on something other than real images from a test set because they do not account for very rare but possible combinations of attributes. To overcome this limitation, we propose a pipeline for generating realistic synthetic scenes with fine-grained control, allowing the creation of complex scenes with multiple objects. Our approach, BEV2EGO, allows for a realistic generation of the complete scene with road-contingent control that maps 2D bird's-eye view (BEV) scene configurations to a first-person view (EGO). In addition, we propose a benchmark for controlled scene generation to select the most appropriate generative outpainting model for BEV2EGO. We further use it to perform a systematic analysis of multiple state-of-the-art object detection models and discover differences between them.
翻訳日:2024-04-11 14:21:12 公開日:2024-04-10
# 根平均二乗誤差(RMSE)値を用いた支持ベクトル回帰モデル記述のための局所解釈型モデル非依存説明法(LIME)と多線形回帰法との比較

Comparison of decision trees with Local Interpretable Model-Agnostic Explanations (LIME) technique and multi-linear regression for explaining support vector regression model in terms of root mean square error (RMSE) values ( http://arxiv.org/abs/2404.07046v1 )

ライセンス: Link先を確認
Amit Thombre, (参考訳) この研究では、決定木は支持ベクトル回帰モデルの説明に使用される。 決定木は局所技術と同様にグローバル技術として機能する。 LIMEは局所的説明法であり,多線形回帰法である。 決定木は5つのデータセット上での実行の87%において、LIMEと比較してベクトル回帰をサポートするように適合するとRMSE値が低いことが観察された。 結果の比較は統計的に重要である。 多重線形回帰はまた、5つのデータセット上でのランニングの73%のLIMEと比較してベクトル回帰モデルをサポートするように適合するとRMSE値が低いが、結果の比較は統計的に有意ではない。 また, 局所説明手法として用いると, 決定木の方がLIMEよりも優れた性能を示し, 結果の比較は統計的に有意である。

In this work the decision trees are used for explanation of support vector regression model. The decision trees act as a global technique as well as a local technique. They are compared against the popular technique of LIME which is a local explanatory technique and with multi linear regression. It is observed that decision trees give a lower RMSE value when fitted to support vector regression as compared to LIME in 87% of the runs over 5 datasets. The comparison of results is statistically significant. Multi linear regression also gives a lower RMSE value when fitted to support vector regression model as compared to LIME in 73% of the runs over 5 datasets but the comparison of results is not statistically significant. Also, when used as a local explanatory technique, decision trees give better performance than LIME and the comparison of results is statistically significant.
翻訳日:2024-04-11 14:21:12 公開日:2024-04-10
# グラディエント老化による確率的人口モデル学習に向けて

Towards Learning Stochastic Population Models by Gradient Descent ( http://arxiv.org/abs/2404.07049v1 )

ライセンス: Link先を確認
Justin N. Kreikemeyer, Philipp Andelfinger, Adelinde M. Uhrmacher, (参考訳) データからメカニスティックモデルを学習する手法の開発に、さらなる努力が注がれている。 このタスクはパラメータの正確な推定だけでなく、適切なモデル構造も必要です。 力学系の発見に関する最近の研究は、この問題を線形方程式系として定式化している。 そこで本研究では,対象データに対する客観的な定式化とより弱い条件において,より自由度の高いシミュレーションに基づく最適化手法について検討する。 比較的小さな確率的集団モデルであっても,パラメータと構造を同時推定することは,最適化手法の大きな課題であることを示す。 特に,機械学習モデルの学習によく用いられる局所確率勾配勾配法の適用について検討する。 モデルの正確な推定を実証するが、擬似的、解釈可能なモデルの推論を強制することは、難易度を劇的に高める。 私たちはこの挑戦がいかに克服できるかを概観する。

Increasing effort is put into the development of methods for learning mechanistic models from data. This task entails not only the accurate estimation of parameters, but also a suitable model structure. Recent work on the discovery of dynamical systems formulates this problem as a linear equation system. Here, we explore several simulation-based optimization approaches, which allow much greater freedom in the objective formulation and weaker conditions on the available data. We show that even for relatively small stochastic population models, simultaneous estimation of parameters and structure poses major challenges for optimization procedures. Particularly, we investigate the application of the local stochastic gradient descent method, commonly used for training machine learning models. We demonstrate accurate estimation of models but find that enforcing the inference of parsimonious, interpretable models drastically increases the difficulty. We give an outlook on how this challenge can be overcome.
翻訳日:2024-04-11 14:21:12 公開日:2024-04-10
# 量子後安全ブラインド計算の効率化

Efficient Post-Quantum Secured Blind Computation ( http://arxiv.org/abs/2404.07052v1 )

ライセンス: Link先を確認
Ethan Davies, Alastair Kay, (参考訳) 中期的には、量子コンピューティングは、フォールトトレランスとセキュリティの2つの主要な課題に取り組む必要がある。 フォールトトレランスは、多数のキュービット上で十分に高品質な実験を行うことで解決されるが、これらのデバイスのスケールと複雑さは、クラウドベースのアクセスモデルが支配的になりそうである。 信頼できないサーバで貴重な計算を評価するにはどうしたらリスクを負うことができるのか? ここでは、当事者間の古典的な通信のみを必要とする検証可能な回路ベースモデルを詳述する。 サーバは計算の詳細に盲目であり、計算的に安全である。

In the medium term, quantum computing must tackle two key challenges: fault tolerance and security. Fault tolerance will be solved with sufficiently high quality experiments on large numbers of qubits, but the scale and complexity of these devices means that a cloud-based access model is likely to dominate. How can we risk evaluating valuable computations on an untrusted server? Here we detail a verifiable circuit-based model that only requires classical communication between parties. The server is blind to the details of the computation, which is computationally secure.
翻訳日:2024-04-11 14:21:12 公開日:2024-04-10
# Meta4XNLI: メタファー検出・解釈のための多言語並列コーパス

Meta4XNLI: A Crosslingual Parallel Corpus for Metaphor Detection and Interpretation ( http://arxiv.org/abs/2404.07053v1 )

ライセンス: Link先を確認
Elisa Sanchez-Bayona, Rodrigo Agerri, (参考訳) メタファーは時折受け入れられないが、私たちの日常の言語には至る所にある。 したがって、言語モデルがこの種の比喩的言語の根底にある意味を把握できることは不可欠である。 本稿ではメタ4XNLIについて紹介する。メタ4XNLIはメタ4XNLI,メタ4XNLI,メタ4XNLI,メタ4XNLI,メタ4XNLI,メタ4XNLI,メタ4XNLI,メタ4XNLI,メタ4XNLI,メタ4XNLI。 提案するコーパスを活用することで,言語モデルのメタファー識別と理解能力について,一言語間実験と言語間実験の連続を通して検討する。 これらの非リテラル表現がモデルの性能にどのように影響するかを理解するために、結果を調べ、エラー解析を行う。 さらに、並列データにより、これらの言語間のメタファー転送可能性や、多言語アノテートリソースの開発に対する翻訳の影響を調査する多くの機会が得られます。

Metaphors, although occasionally unperceived, are ubiquitous in our everyday language. Thus, it is crucial for Language Models to be able to grasp the underlying meaning of this kind of figurative language. In this work, we present Meta4XNLI, a novel parallel dataset for the tasks of metaphor detection and interpretation that contains metaphor annotations in both Spanish and English. We investigate language models' metaphor identification and understanding abilities through a series of monolingual and cross-lingual experiments by leveraging our proposed corpus. In order to comprehend how these non-literal expressions affect models' performance, we look over the results and perform an error analysis. Additionally, parallel data offers many potential opportunities to investigate metaphor transferability between these languages and the impact of translation on the development of multilingual annotated resources.
翻訳日:2024-04-11 14:21:12 公開日:2024-04-10
# 非慣性運動における開放系の量子力学

Quantum Mechanics of Open Systems in Non-Inertial Motion ( http://arxiv.org/abs/2404.07054v1 )

ライセンス: Link先を確認
Zi-Fan Zhu, Yu Su, Yao Wang, Rui-Xue Xu, YiJing Yan, (参考訳) 非慣性参照フレームにおける量子力学の研究、特にオープンシステムの文脈では、いくつかの興味深い現象や課題が紹介されている。 本稿では,非慣性運動を受けるオープンシステムの量子力学を包括的に解析する枠組みを提案する。 我々の手法は、環境からの集合的な散逸効果を捉える統計的準粒子である散布粒子の概念を活用する。 提案手法は,非慣性効果,脱コヒーレンス,散逸,システムバスの絡み合いといった複雑な力学の自然な理解を提供する。 具体的には,回転するリングキャビティ内のラムシフト現象に着目した実演を行う。 理論的展開と実用化を通じて,オープン量子力学と非慣性運動との深い相互作用を解明し,量子情報処理とセンシング技術の進歩の道を開く。

The study of quantum mechanics in non-inertial reference frames, particularly in the context of open systems, introduces several intriguing phenomena and challenges. This paper presents a comprehensive framework for analyzing the quantum mechanics of open systems undergoing noninertial motion. Our methodology leverages the concept of dissipatons, statistical quasi-particles that capture collective dissipative effects from the environment. We demonstrate that our approach offers a natural understanding of the intricate dynamics among non-inertial effects, decoherence, dissipation, and system-bath entanglement. Specifically, we conduct demonstrations focusing on the Lamb shift phenomenon within a rotating ring cavity. Through theoretical exposition and practical applications, our framework elucidates the profound interplay between open quantum dynamics and non-inertial motion, paving the way for advancements in quantum information processing and sensing technologies.
翻訳日:2024-04-11 14:11:27 公開日:2024-04-10
# RQMアナロジーにおける量子等方宇宙:宇宙の地平線

Quantum Isotropic Universe in RQM Analogy: the Cosmological Horizon ( http://arxiv.org/abs/2404.07056v1 )

ライセンス: Link先を確認
Gabriele Barca, Luisa Boglioni, Giovanni Montani, (参考訳) 我々は、自由質量のないスカラー場の存在下での等方宇宙の量子力学を考察し、物理時計の役割を担っている。 ヒルベルト空間は、ミニ超空間のホイーラー・デウィット方程式と物理空間の相対論的スカラー方程式の直接的な類似によって構成される。 特に、宇宙の進化における「転回点」の導入によって、膨張し崩壊する宇宙を表現するという本質的な曖昧さを克服できることを示す。 このように、正および負の周波数は単に時間反転状態と同一視される。 本分析の主目的は地平線演算子の構築であり, 初期特異点近傍の漸近的進化を記述するために, 高分子量子力学を実装した際の量子的挙動について検討する。 この選択の理由は、ポリマーの分散関係が量子力学を支配するとき、局所的なウェーブパケットの固有の拡散によって動機づけられる。 量子地平線作用素の平均値がその半古典的挙動(重合のために修正された)に従うという証拠は、因果性の概念が量子宇宙論の図でも復元可能であることを明確に示している。

We investigate the quantum dynamics of the isotropic Universe in the presence of a free massless scalar field, playing the role of a physical clock. The Hilbert space is constructed via a direct analogy between the Wheeler-DeWitt equation in the minisuperspace and a relativistic scalar one in physical space. In particular, we show how the introduction of a "turning point" in the Universe evolution allows to overcome an intrinsic ambiguity in representing the expanding and collapsing Universe. In this way, the positive and negative frequencies are simply identified with time reversed states. The main subject of the present analysis is the construction of a horizon operator, whose quantum behavior is investigated when Polymer Quantum Mechanics is implemented to describe the asymptotic evolution near the initial singularity. The reason of this choice is motivated by the intrinsic spreading of localized wavepackets when the polymer dispersion relation governs the quantum dynamics. The evidence that the mean value of the quantum horizon operator follows its semiclassical behavior (corrected for polymerization) is a clear indication that a concept of causality can be restored also in the quantum cosmological picture.
翻訳日:2024-04-11 14:11:27 公開日:2024-04-10
# 検索型ロングフォームジェネレーションにおけるグラウンドドネス : 実証的研究

Groundedness in Retrieval-augmented Long-form Generation: An Empirical Study ( http://arxiv.org/abs/2404.07060v1 )

ライセンス: Link先を確認
Alessandro Stolfo, (参考訳) 本稿では,Long-form question answering (LFQA) における基底性に関する実験的検討を行った。 特に、検索した文書に生成された文が全て接地されているか、またはモデルの事前学習データであるかどうかを評価する。 3つのデータセットと4つのモデルファミリーにまたがって、これらの文が正しい接地的回答を含む場合でも、生成した文のかなりの部分が一貫して非接地されていることが明らかとなった。 さらに,モデルサイズ,復号化戦略,命令チューニングなどの要因が接地性に与える影響についても検討した。 以上の結果から,より大きなモデルではアウトプットをより効果的に基礎づける傾向にあるものの,正解のかなりの部分が幻覚によって損なわれていることが示唆された。 本研究は, LFQAにおける基底性課題に関する新たな知見を提供し, 未接地コンテンツの生成を緩和するために, LLMのより堅牢なメカニズムの必要性を浮き彫りにしている。

We present an empirical study of groundedness in long-form question answering (LFQA) by retrieval-augmented large language models (LLMs). In particular, we evaluate whether every generated sentence is grounded in the retrieved documents or the model's pre-training data. Across 3 datasets and 4 model families, our findings reveal that a significant fraction of generated sentences are consistently ungrounded, even when those sentences contain correct ground-truth answers. Additionally, we examine the impacts of factors such as model size, decoding strategy, and instruction tuning on groundedness. Our results show that while larger models tend to ground their outputs more effectively, a significant portion of correct answers remains compromised by hallucinations. This study provides novel insights into the groundedness challenges in LFQA and underscores the necessity for more robust mechanisms in LLMs to mitigate the generation of ungrounded content.
翻訳日:2024-04-11 14:11:27 公開日:2024-04-10
# A Tight $O(4^k/p_c)$ Runtime Bound for a$μ$+1) GA on Jump$_k$ for Realistic Crossover Probabilities

A Tight $O(4^k/p_c)$ Runtime Bound for a ($μ$+1) GA on Jump$_k$ for Realistic Crossover Probabilities ( http://arxiv.org/abs/2404.07061v1 )

ライセンス: Link先を確認
Andre Opris, Johannes Lengler, Dirk Sudholt, (参考訳) Jump$_k$ベンチマークは、クロスオーバーが突然変異のみの進化アルゴリズムを高速化することを証明した最初の問題である。 Jansen and Wegener (2002) は$O({\rm poly)(n) + 4^k/p_c)$(\mu$+1)~Genetic Algorithm ($(\mu+1)$ GA)の上限を証明したが、非現実的に小さなクロスオーバー確率$p_c$に対してのみ証明した。 この日まで、p_c = \Omega(1)$ の最もよく知られたランタイム境界は $O((n/\chi)^{k-1})$, $\chi$ a positive constant である。 最近開発された手法を用いて、Jump$_k$ 上の \muga の変種に対して、ペアワイズハミング距離の和として測定された集団多様性の進化を分析する。 人口の多様性は、ほぼ完全な多様性の均衡に収束することを示す。 これにより、緩やかな仮定で、$p_c = O(1/k)$ と $\mu \in \Omega(kn)$ とすると、$O(\mu n \log(k) + 4^k/p_c)$ となる。 すべての定数~$k$に対して、ある$p_c = \Omega(1)$に対して制限が満たされる。 私たちの仕事は、20年以上開かれてきた問題を部分的に解決します。

The Jump$_k$ benchmark was the first problem for which crossover was proven to give a speedup over mutation-only evolutionary algorithms. Jansen and Wegener (2002) proved an upper bound of $O({\rm poly}(n) + 4^k/p_c)$ for the ($\mu$+1)~Genetic Algorithm ($(\mu+1)$ GA), but only for unrealistically small crossover probabilities $p_c$. To this date, it remains an open problem to prove similar upper bounds for realistic~$p_c$; the best known runtime bound for $p_c = \Omega(1)$ is $O((n/\chi)^{k-1})$, $\chi$ a positive constant. Using recently developed techniques, we analyse the evolution of the population diversity, measured as sum of pairwise Hamming distances, for a variant of the \muga on Jump$_k$. We show that population diversity converges to an equilibrium of near-perfect diversity. This yields an improved and tight time bound of $O(\mu n \log(k) + 4^k/p_c)$ for a range of~$k$ under the mild assumptions $p_c = O(1/k)$ and $\mu \in \Omega(kn)$. For all constant~$k$ the restriction is satisfied for some $p_c = \Omega(1)$. Our work partially solves a problem that has been open for more than 20 years.
翻訳日:2024-04-11 14:11:27 公開日:2024-04-10
# LaPlaSS: 確率システムの潜在的空間計画

LaPlaSS: Latent Space Planning for Stochastic Systems ( http://arxiv.org/abs/2404.07063v1 )

ライセンス: Link先を確認
Marlyse Reeves, Brian C. Williams, (参考訳) 自律的な移動エージェントは、しばしば危険な環境で活動し、安全を意識する必要がある。 これらのエージェントは、有界リスクを保証する計画中に考慮しなければならない非線形確率力学を持つことができる。 ほとんどの最先端の手法は、計画の正しさと安全性を検証するためにクローズドフォームのダイナミクスを必要とするが、現代のロボットシステムはデータから学習されるダイナミックスを持つことが多い。 したがって、既知の力学モデルを持たないエージェントのリスクを保証し、効率的な軌道計画を行う必要がある。 本稿では,計画立案者が近似線形力学モデルを用いて候補軌道を生成できるリスクバウンド計画に対する「ジェネレーテッド・アンド・テスト」手法を提案する。 近似モデルを得るために、変分オートエンコーダを用いて潜在線形力学モデルを学び、計画問題を潜在空間にエンコードして候補軌道を生成する。 VAEはまた、バリデータに使用する候補の周囲の軌跡をサンプリングする役割も果たしている。 我々のアルゴリズムであるLaPlaSSは、学習力学を持つ実世界のエージェントに対して有界リスクを持つ軌道計画を生成することができ、最先端技術よりも桁違いに効率的であることを示す。

Autonomous mobile agents often operate in hazardous environments, necessitating an awareness of safety. These agents can have non-linear, stochastic dynamics that must be considered during planning to guarantee bounded risk. Most state of the art methods require closed-form dynamics to verify plan correctness and safety however modern robotic systems often have dynamics that are learned from data. Thus, there is a need to perform efficient trajectory planning with guarantees on risk for agents without known dynamics models. We propose a "generate-and-test" approach to risk-bounded planning in which a planner generates a candidate trajectory using an approximate linear dynamics model and a validator assesses the risk of the trajectory, computing additional safety constraints for the planner if the candidate does not satisfy the desired risk bound. To acquire the approximate model, we use a variational autoencoder to learn a latent linear dynamics model and encode the planning problem into the latent space to generate the candidate trajectory. The VAE also serves to sample trajectories around the candidate to use in the validator. We demonstrate that our algorithm, LaPlaSS, is able to generate trajectory plans with bounded risk for a real-world agent with learned dynamics and is an order of magnitude more efficient than the state of the art.
翻訳日:2024-04-11 14:11:27 公開日:2024-04-10
# 概念の深さを探る: 大規模言語モデルはどのように異なる層で知識を取得するか?

Exploring Concept Depth: How Large Language Models Acquire Knowledge at Different Layers? ( http://arxiv.org/abs/2404.07066v1 )

ライセンス: Link先を確認
Mingyu Jin, Qinkai Yu, Jingyuan Huang, Qingcheng Zeng, Zhenting Wang, Wenyue Hua, Haiyan Zhao, Kai Mei, Yanda Meng, Kaize Ding, Fan Yang, Mengnan Du, Yongfeng Zhang, (参考訳) 本稿では,異なる概念が大規模言語モデルの異なる層で学習される現象,すなわちより難しい概念がより深い層で完全に獲得される現象について考察する。 抽象化のレベルで概念の難しさを定義し、ここでは事実、感情、推論によって明確に分類する。 各カテゴリは、単純から複雑に配置されたタスクのスペクトルを含む。 例えば、実数次元内では、タスクは嘘検出から数学的問題の分類まで様々である。 モデルの異なる層から表現を抽出し,これらを分類タスクに適用するために,探索手法を用いる。 その結果、モデルがより単純なタスクを効率的に分類し、これらの概念がより浅い層で学習されることが判明した。 逆に、より複雑なタスクは、もっと深い層でしか識別できないかもしれません。 本稿では,モデル学習プロセスと内部表現の理解にこれらの知見がもたらす意味について考察する。 我々の実装は \url{https://github.com/Luckfort/CD} で利用可能です。

This paper studies the phenomenon that different concepts are learned in different layers of large language models, i.e. more difficult concepts are fully acquired with deeper layers. We define the difficulty of concepts by the level of abstraction, and here it is crudely categorized by factual, emotional, and inferential. Each category contains a spectrum of tasks, arranged from simple to complex. For example, within the factual dimension, tasks range from lie detection to categorizing mathematical problems. We employ a probing technique to extract representations from different layers of the model and apply these to classification tasks. Our findings reveal that models tend to efficiently classify simpler tasks, indicating that these concepts are learned in shallower layers. Conversely, more complex tasks may only be discernible at deeper layers, if at all. This paper explores the implications of these findings for our understanding of model learning processes and internal representations. Our implementation is available at \url{https://github.com/Luckfort/CD}.
翻訳日:2024-04-11 14:11:27 公開日:2024-04-10
# Inlicit Multi-Spectral Transformer:赤外画像変換モデルに対する軽量で効果的な可視性

Implicit Multi-Spectral Transformer: An Lightweight and Effective Visible to Infrared Image Translation Model ( http://arxiv.org/abs/2404.07072v1 )

ライセンス: Link先を確認
Yijia Chen, Pinghua Chen, Xiangxin Zhou, Yingtie Lei, Ziyang Zhou, Mingxian Li, (参考訳) コンピュータビジョンの分野では、可視光画像は低照度条件では低コントラストを示すことが多く、大きな課題となっている。 赤外線画像は潜在的な解決策を提供するが、その利用には高いコストと実用的な制限が必要である。 近年のディープラーニング,特にGAN(Generative Adversarial Networks)の展開は,可視光画像から赤外線画像への変換を促進している。 しかし、これらの手法はしばしば不安定なトレーニングフェーズを経験し、最適以下の出力を生成する。 これらの問題に対処するために,可視光画像を高忠実度赤外線画像に変換するエンドツーエンドトランスフォーマーモデルを提案する。 当初、Texture Mapping ModuleとColor Perception Adapterは、可視光画像からテクスチャと色の特徴を抽出するために協力していた。 Dynamic Fusion Aggregation Moduleはその後、これらの機能を統合する。 最後に、カラー知覚適応器と拡張知覚注意機構の相乗作用により、赤外線画像への変換を洗練する。 総合的なベンチマーク実験により、我々のモデルは既存の手法よりも優れており、質的にも量的にも非常に優れた赤外線画像を生成することが確認された。 さらに、提案モデルにより、他の手法よりも効果的な赤外線画像のダウンストリーム応用が可能となる。

In the field of computer vision, visible light images often exhibit low contrast in low-light conditions, presenting a significant challenge. While infrared imagery provides a potential solution, its utilization entails high costs and practical limitations. Recent advancements in deep learning, particularly the deployment of Generative Adversarial Networks (GANs), have facilitated the transformation of visible light images to infrared images. However, these methods often experience unstable training phases and may produce suboptimal outputs. To address these issues, we propose a novel end-to-end Transformer-based model that efficiently converts visible light images into high-fidelity infrared images. Initially, the Texture Mapping Module and Color Perception Adapter collaborate to extract texture and color features from the visible light image. The Dynamic Fusion Aggregation Module subsequently integrates these features. Finally, the transformation into an infrared image is refined through the synergistic action of the Color Perception Adapter and the Enhanced Perception Attention mechanism. Comprehensive benchmarking experiments confirm that our model outperforms existing methods, producing infrared images of markedly superior quality, both qualitatively and quantitatively. Furthermore, the proposed model enables more effective downstream applications for infrared images than other methods.
翻訳日:2024-04-11 14:11:27 公開日:2024-04-10
# 準エルミート位置変形ハイゼンベルク代数に対するヒルベルト空間表現とパス積分定式化

Hilbert space representation for quasi-Hermitian position-deformed Heisenberg algebra and Path integral formulation ( http://arxiv.org/abs/2404.07082v1 )

ライセンス: Link先を確認
Thomas Katsekpor, Latévi M. Lawson, Prince K. Osei, Ibrahim Nonkané, (参考訳) ハイゼンベルク代数の位置変形と最大長と最小運動量不確かさのヒルベルト空間表現は、この代数を生成する作用素のエルミティシティの損失につながる可能性がある。 したがって、これらの作用素から構築されたハミルトニアン作用素もエルミート作用素ではない。 本稿では、適切な正定値ダイソン写像を用いて、擬相似変換を用いてこれらの作用素のエルミシティを確立する。 すると、これらの準エルミート作用素に付随するヒルベルト空間表現を構築し、準エルミート・ハイゼンベルク代数を生成する。 これらの表現の助けを借りて、この準エルミート代数の任意の系の経路積分定式化を確立する。 最後に、自由粒子の経路積分を例として、この系のユークリッドプロパゲータ、作用、運動エネルギーが標準的な古典力学の限界によって制約されていることを示す。

Position deformation of a Heisenberg algebra and Hilbert space representation of both maximal length and minimal momentum uncertainties may lead to loss of Hermiticity of some operators that generate this algebra. Consequently, the Hamiltonian operator constructed from these operators are also not Hermitian. In the present paper, with an appropriate positive-definite Dyson map, we establish the Hermiticity of these operators by means of a quasi-similarity transformation. We then construct Hilbert space representations associated with these quasi-Hermitian operators that generate a quasi-Hermitian Heisenberg algebra. With the help of these representations we establish the path integral formulation of any systems in this quasi-Hermitian algebra. Finally, using the path integral of a free particle as an example, we demonstrate that the Euclidean propagator, action, and kinetic energy of this system are constrained by the standard classical mechanics limits.
翻訳日:2024-04-11 14:11:27 公開日:2024-04-10
# 大規模言語モデルを用いた個人性の動的生成

Dynamic Generation of Personalities with Large Language Models ( http://arxiv.org/abs/2404.07084v1 )

ライセンス: Link先を確認
Jianzhi Liu, Hexiang Gu, Tianyu Zheng, Liuyu Xiang, Huijia Wu, Jie Fu, Zhaofeng He, (参考訳) 人間の熟考を模倣する領域において、大きな言語モデル(LLM)は有望な性能を示し、この研究領域の重要性を増幅する。 熟考は論理と性格の両方に影響を受けている。 しかし、以前の研究では、パーソナリティの側面の探索を無視して、LLMの論理に主に焦点をあてていた。 本稿では,Hypernetworksに基づく動的パーソナリティ生成手法である動的パーソナリティ生成(DPG)を紹介する。 まず,GPT-4にビッグファイブ・パーソナリティ理論を組み込んでパーソナリティアセスメント・マシンを構築し,対話からキャラクターのパーソナリティ特性を自動評価する。 本研究では,この評価手法に基づいて人格生成能力を評価するための新しい指標を提案する。 そして、この人格評価装置を用いて、スクリプトデータ中の対話を評価し、その結果、人格対話データセットを生成する。 最後に、パーソナリティ対話データセットに基づいて、DSGを微調整する。 実験により,DSGの人格生成能力は従来の微調整法よりも強く,プロンプトベースGPT-4を上回っていることが示された。

In the realm of mimicking human deliberation, large language models (LLMs) show promising performance, thereby amplifying the importance of this research area. Deliberation is influenced by both logic and personality. However, previous studies predominantly focused on the logic of LLMs, neglecting the exploration of personality aspects. In this work, we introduce Dynamic Personality Generation (DPG), a dynamic personality generation method based on Hypernetworks. Initially, we embed the Big Five personality theory into GPT-4 to form a personality assessment machine, enabling it to evaluate characters' personality traits from dialogues automatically. We propose a new metric to assess personality generation capability based on this evaluation method. Then, we use this personality assessment machine to evaluate dialogues in script data, resulting in a personality-dialogue dataset. Finally, we fine-tune DPG on the personality-dialogue dataset. Experiments prove that DPG's personality generation capability is stronger after fine-tuning on this dataset than traditional fine-tuning methods, surpassing prompt-based GPT-4.
翻訳日:2024-04-11 14:11:27 公開日:2024-04-10
# LaTiM:病気進行予測のための連続時間モデルにおける縦方向表現学習

LaTiM: Longitudinal representation learning in continuous-time models to predict disease progression ( http://arxiv.org/abs/2404.07091v1 )

ライセンス: Link先を確認
Rachid Zeghlache, Pierre-Henri Conze, Mostafa El Habib Daho, Yihao Li, Hugo Le Boité, Ramin Tadayoni, Pascal Massin, Béatrice Cochener, Alireza Rezaei, Ikram Brahim, Gwenolé Quellec, Mathieu Lamard, (参考訳) 本研究では、時間認識型ニューラル常微分方程式(NODE)を用いて、疾患の進行を解析するための新しい枠組みを提案する。 自己教師付き学習(SSL)によって訓練されたフレームワークに"タイムアウェアヘッド"を導入し、データ拡張のために潜時空間における時間情報を活用する。 このアプローチはNODEをSSLと効果的に統合し、明示的な時間的統合が欠如している従来のメソッドと比較して、大幅なパフォーマンス向上を実現している。 OPHDIATデータベースを用いた糖尿病網膜症進行予測法の有効性を示す。 ベースラインと比較して、すべてのNODEアーキテクチャは、ROC曲線(AUC)とKappaメトリクスの領域において統計的に有意な改善を達成し、SSLにインスパイアされたアプローチによる事前トレーニングの有効性を強調した。 さらに、我々のフレームワークは、時間認識モデリングにおいて一般的に直面する課題であるNODEの安定したトレーニングを促進する。

This work proposes a novel framework for analyzing disease progression using time-aware neural ordinary differential equations (NODE). We introduce a "time-aware head" in a framework trained through self-supervised learning (SSL) to leverage temporal information in latent space for data augmentation. This approach effectively integrates NODEs with SSL, offering significant performance improvements compared to traditional methods that lack explicit temporal integration. We demonstrate the effectiveness of our strategy for diabetic retinopathy progression prediction using the OPHDIAT database. Compared to the baseline, all NODE architectures achieve statistically significant improvements in area under the ROC curve (AUC) and Kappa metrics, highlighting the efficacy of pre-training with SSL-inspired approaches. Additionally, our framework promotes stable training for NODEs, a commonly encountered challenge in time-aware modeling.
翻訳日:2024-04-11 14:11:27 公開日:2024-04-10
# 強化学習におけるアウト・オブ・ディストリビューション検出の再考:評価と検出のための改善手法

Rethinking Out-of-Distribution Detection for Reinforcement Learning: Advancing Methods for Evaluation and Detection ( http://arxiv.org/abs/2404.07099v1 )

ライセンス: Link先を確認
Linas Nasvytis, Kai Sandbrink, Jakob Foerster, Tim Franzmeyer, Christian Schroeder de Witt, (参考訳) 強化学習(RL)アルゴリズムは多くのシーケンシャルな意思決定問題に適用されているが、予期せぬテスト環境への一般化は依然として大きな懸念点である。 本稿では、RLエージェントがトレーニング環境で遭遇していないテスト時の状況を特定することに焦点を当て、RLにおけるアウト・オブ・ディストリビューション(OOD)検出の問題について検討する。 まず、RLにおけるOOD検出の用語の明確化を提案し、それを他の機械学習分野の文献と整合させる。 次に、エージェント環境ループの異なるコンポーネントに時間的自己相関を伴う異常を導入するOOD検出のための新しいベンチマークシナリオを提案する。 このようなシナリオは、現実の状況に関連があるにもかかわらず、現在の文献では過小評価されていると我々は主張する。 我々の理論的予測を裏付ける実験結果は、最先端のOOD検出器がそのような異常を識別できないことを示唆している。 この問題に対処するため,我々はDEXTER (Detection via extract of Time Series Representations) と呼ぶ新しいOOD検出法を提案する。 環境観測を時系列データとして扱うことで、DEXTERは健全な時系列特徴を抽出し、孤立林アルゴリズムのアンサンブルを利用して異常を検出する。 DEXTERはベンチマークシナリオ間の異常を確実に識別でき、統計から得られた最先端のOOD検出器や高次元変化点検出器と比較して優れた性能を示す。

While reinforcement learning (RL) algorithms have been successfully applied across numerous sequential decision-making problems, their generalization to unforeseen testing environments remains a significant concern. In this paper, we study the problem of out-of-distribution (OOD) detection in RL, which focuses on identifying situations at test time that RL agents have not encountered in their training environments. We first propose a clarification of terminology for OOD detection in RL, which aligns it with the literature from other machine learning domains. We then present new benchmark scenarios for OOD detection, which introduce anomalies with temporal autocorrelation into different components of the agent-environment loop. We argue that such scenarios have been understudied in the current literature, despite their relevance to real-world situations. Confirming our theoretical predictions, our experimental results suggest that state-of-the-art OOD detectors are not able to identify such anomalies. To address this problem, we propose a novel method for OOD detection, which we call DEXTER (Detection via Extraction of Time Series Representations). By treating environment observations as time series data, DEXTER extracts salient time series features, and then leverages an ensemble of isolation forest algorithms to detect anomalies. We find that DEXTER can reliably identify anomalies across benchmark scenarios, exhibiting superior performance compared to both state-of-the-art OOD detectors and high-dimensional changepoint detectors adopted from statistics.
翻訳日:2024-04-11 14:11:27 公開日:2024-04-10
# Graph Chain-of-Thought:グラフ上の推論による大規模言語モデルの強化

Graph Chain-of-Thought: Augmenting Large Language Models by Reasoning on Graphs ( http://arxiv.org/abs/2404.07103v1 )

ライセンス: Link先を確認
Bowen Jin, Chulin Xie, Jiawei Zhang, Kashob Kumar Roy, Yu Zhang, Suhang Wang, Yu Meng, Jiawei Han, (参考訳) 大きな言語モデル(LLM)は、例外的なパフォーマンスを示す一方で、特に知識集約的なタスクにおいて幻覚に悩まされる。 既存の研究は、問題を緩和するために、外部知識コーパスから取得した個々のテキスト単位でLSMを拡張することを提案する。 しかし、多くの分野において、テキストは相互接続(例えば、書誌グラフの学術論文は引用と共著者によってリンクされる)され、(テキスト対応の)グラフを形成する。 このようなグラフの知識は、単一のテキスト/ノードだけでなく、関連する接続でも符号化される。 グラフを用いたLLMの拡張の研究を容易にするため,我々はGRBenchと呼ばれるグラフ推論データセットを手作業で構築した。 そこで我々は,グラフを反復的に理性化することで,LLMをグラフで拡張する,Graph Chain-of- Thought (Graph-CoT) という,シンプルで効果的なフレームワークを提案する。 各Graph-CoTイテレーションは、LLM推論、LLM-graphインタラクション、グラフ実行の3つのサブステップで構成されている。 GRBench上で3つのLLMバックボーンを用いて系統的な実験を行い、Graph-CoTはベースラインを一貫して上回る。 コードはhttps://github.com/PeterGriffinJin/Graph-CoT.comで公開されている。

Large language models (LLMs), while exhibiting exceptional performance, suffer from hallucinations, especially on knowledge-intensive tasks. Existing works propose to augment LLMs with individual text units retrieved from external knowledge corpora to alleviate the issue. However, in many domains, texts are interconnected (e.g., academic papers in a bibliographic graph are linked by citations and co-authorships) which form a (text-attributed) graph. The knowledge in such graphs is encoded not only in single texts/nodes but also in their associated connections. To facilitate the research of augmenting LLMs with graphs, we manually construct a Graph Reasoning Benchmark dataset called GRBench, containing 1,740 questions that can be answered with the knowledge from 10 domain graphs. Then, we propose a simple and effective framework called Graph Chain-of-thought (Graph-CoT) to augment LLMs with graphs by encouraging LLMs to reason on the graph iteratively. Each Graph-CoT iteration consists of three sub-steps: LLM reasoning, LLM-graph interaction, and graph execution. We conduct systematic experiments with three LLM backbones on GRBench, where Graph-CoT outperforms the baselines consistently. The code is available at https://github.com/PeterGriffinJin/Graph-CoT.
翻訳日:2024-04-11 14:11:27 公開日:2024-04-10
# Wild Visual Navigation: 事前学習モデルとオンラインセルフスーパービジョンによる高速なトラバーサビリティ学習

Wild Visual Navigation: Fast Traversability Learning via Pre-Trained Models and Online Self-Supervision ( http://arxiv.org/abs/2404.07110v1 )

ライセンス: Link先を確認
Matías Mattamala, Jonas Frey, Piotr Libera, Nived Chebrolu, Georg Martius, Cesar Cadena, Marco Hutter, Maurice Fallon, (参考訳) 森林や草原のような自然環境は、高い草、小枝、茂みからの堅い障害物の誤認識のため、ロボットナビゲーションにとって困難である。 本研究では,視覚的可視性推定のためのオンライン自己教師型学習システムWild Visual Navigation(WVN)を提案する。 このシステムは、オンボードセンシングとコンピューティングのみを使用して、現場での短い人間のデモから継続的に適応することができる。 これを実現するための重要なアイデアの1つは、学習タスクを大幅に単純化する意味情報を暗黙的にエンコードする、事前訓練された自己教師付きモデルからの高次元機能の利用である。 さらに,教師生成のためのオンラインスキームの開発により,学習モデルの学習と推論を同時に行うことが可能となった。 我々は、森林、公園、草地における様々な現実世界の展開を通じて、我々のアプローチを実証する。 我々のシステムは、移動可能な地形セグメンテーションを現地でのトレーニング時間5分未満でブートストラップすることができ、ロボットは複雑な、以前は見えなかった屋外の地形をナビゲートすることができる。 コード:https://bit.ly/498b0CV - Project page:https://bit.ly/3M6nMHH

Natural environments such as forests and grasslands are challenging for robotic navigation because of the false perception of rigid obstacles from high grass, twigs, or bushes. In this work, we present Wild Visual Navigation (WVN), an online self-supervised learning system for visual traversability estimation. The system is able to continuously adapt from a short human demonstration in the field, only using onboard sensing and computing. One of the key ideas to achieve this is the use of high-dimensional features from pre-trained self-supervised models, which implicitly encode semantic information that massively simplifies the learning task. Further, the development of an online scheme for supervision generator enables concurrent training and inference of the learned model in the wild. We demonstrate our approach through diverse real-world deployments in forests, parks, and grasslands. Our system is able to bootstrap the traversable terrain segmentation in less than 5 min of in-field training time, enabling the robot to navigate in complex, previously unseen outdoor terrains. Code: https://bit.ly/498b0CV - Project page:https://bit.ly/3M6nMHH
翻訳日:2024-04-11 14:11:27 公開日:2024-04-10
# 動的・制御可能なテキスト生成のための連続言語モデル補間

Continuous Language Model Interpolation for Dynamic and Controllable Text Generation ( http://arxiv.org/abs/2404.07117v1 )

ライセンス: Link先を確認
Sara Kangaslahti, David Alvarez-Melis, (参考訳) 大規模言語モデル(LLM)が様々なユースケースで人気を集めているため、特にユーザ向けアプリケーションにおいて、適応性と制御性はますます重要になっている。 LLM適応に関する既存の文献は、主に、単一の事前定義された目的を最適化するモデル(またはモデル)を見つけることに焦点を当てていますが、ここでは、モデルを多様で、しばしば変化する -- ユーザの好みに動的に適応しなければならない、という挑戦的なケースに焦点を当てます。 そこで我々は,線形重み補間に基づく適応手法を活用し,それを連続多領域補間器としてキャストし,特定の所定の生成特性を持つモデルを生成する。 具体的には、低ランク更新を使用してベースモデルをさまざまなドメインに微調整し、異なる生成プロファイルを持つアンカーモデルのセットを生成する。 次に、これらのアンカーモデルの重み更新を用いて、凸内包に含まれるモデルの全体(無限)クラスをパラメトリズする。 補間重みの変化は、制御された全ての属性に対して、モデル出力の予測可能かつ一貫した変化をもたらすことを実証的に示す。 ほとんどの属性の間にはほとんど絡み合いがなく、そうでない属性のペアを識別し、議論しているのがわかります。 この結果から, モデル出力の重み付けを線形に補間することで, モデル出力の予測可能かつきめ細かな制御を同時に行うことが示唆された。

As large language models (LLMs) have gained popularity for a variety of use cases, making them adaptable and controllable has become increasingly important, especially for user-facing applications. While the existing literature on LLM adaptation primarily focuses on finding a model (or models) that optimizes a single predefined objective, here we focus on the challenging case where the model must dynamically adapt to diverse -- and often changing -- user preferences. For this, we leverage adaptation methods based on linear weight interpolation, casting them as continuous multi-domain interpolators that produce models with specific prescribed generation characteristics on-the-fly. Specifically, we use low-rank updates to fine-tune a base model to various different domains, yielding a set of anchor models with distinct generation profiles. Then, we use the weight updates of these anchor models to parametrize the entire (infinite) class of models contained within their convex hull. We empirically show that varying the interpolation weights yields predictable and consistent change in the model outputs with respect to all of the controlled attributes. We find that there is little entanglement between most attributes and identify and discuss the pairs of attributes for which this is not the case. Our results suggest that linearly interpolating between the weights of fine-tuned models facilitates predictable, fine-grained control of model outputs with respect to multiple stylistic characteristics simultaneously.
翻訳日:2024-04-11 14:11:27 公開日:2024-04-10
# 密接な連想モデルにおける意味的関連記憶

Semantically-correlated memories in a dense associative model ( http://arxiv.org/abs/2404.07123v1 )

ライセンス: Link先を確認
Thomas F Burns, (参考訳) 本稿では,CDAM(Correlated Dense Associative Memory)と呼ばれる新しい連想記憶モデルについて紹介する。 任意のグラフ構造を用いてメモリパターンを意味的にリンクし、CDAMは理論上、数値的に解析され、オートアソシエーション、狭いヘテロアソシエーション、広いヘテロアソシエーション、中立クエンスという4つの異なる動的モードが明らかになった。 抑制的調節研究からインスピレーションを得た私は、ヘテロ連想の範囲を制御し、グラフ内のコミュニティ構造のマルチスケール表現を抽出し、時間的シーケンスのリコールを安定化するために、アンチヘビアン学習ルールを採用しています。 実験では、CDAMが実世界のデータを処理し、古典的な神経科学実験を複製し、画像検索を行い、任意の有限オートマトンをシミュレートする効果を示す。

I introduce a novel associative memory model named Correlated Dense Associative Memory (CDAM), which integrates both auto- and hetero-association in a unified framework for continuous-valued memory patterns. Employing an arbitrary graph structure to semantically link memory patterns, CDAM is theoretically and numerically analysed, revealing four distinct dynamical modes: auto-association, narrow hetero-association, wide hetero-association, and neutral quiescence. Drawing inspiration from inhibitory modulation studies, I employ anti-Hebbian learning rules to control the range of hetero-association, extract multi-scale representations of community structures in graphs, and stabilise the recall of temporal sequences. Experimental demonstrations showcase CDAM's efficacy in handling real-world data, replicating a classical neuroscience experiment, performing image retrieval, and simulating arbitrary finite automata.
翻訳日:2024-04-11 14:11:27 公開日:2024-04-10
# 胎児脳超音波検査における標準平面近傍の測定

Measuring proximity to standard planes during fetal brain ultrasound scanning ( http://arxiv.org/abs/2404.07124v1 )

ライセンス: Link先を確認
Chiara Di Vece, Antonio Cirigliano, Meala Le Lous, Raffaele Napolitano, Anna L. David, Donald Peebles, Pierre Jannin, Francisco Vasconcelos, Danail Stoyanov, (参考訳) 本稿では,胎児脳の標準平面(SP)に対するより効果的なナビゲーションのために,超音波(US)平面を臨床利用に近づけるための新しいパイプラインを提案する。 ラベル付きSPとラベルなしUSボリュームスライスの両方を利用した半教師付きセグメンテーションモデルを提案する。 本モデルでは, 胎児の脳画像に対して, 信頼性の高いセグメンテーションを可能にする。 さらに、モデルには胎児の脳を正確に識別するための分類機構が組み込まれている。 我々のモデルは脳を欠いたフレームをフィルタリングするだけでなく、それを含むフレームのマスクも生成し、臨床環境における平面ポーズの回帰の関連性を高める。 本研究では,2次元超音波(US)画像解析による胎児脳のナビゲーションに注目し,このモデルと米国平面ポーズ回帰ネットワークを組み合わせることで,SPや非SPの平面にセンサレス近接検出を提供することにより,ソノグラフィーを導くためにSPに近接検出することの重要性を強調し,走査中の早期かつより正確な調整を可能にする従来の手法よりも大きな優位性を提供する。 様々な専門レベルのソノグラフィーから得られた実胎児スキャンビデオの検証を通じて,本手法の有効性を実証する。 以上の結果から,既存の胎児診断技術と出生前診断の進歩を補完するアプローチの可能性が示唆された。

This paper introduces a novel pipeline designed to bring ultrasound (US) plane pose estimation closer to clinical use for more effective navigation to the standard planes (SPs) in the fetal brain. We propose a semi-supervised segmentation model utilizing both labeled SPs and unlabeled 3D US volume slices. Our model enables reliable segmentation across a diverse set of fetal brain images. Furthermore, the model incorporates a classification mechanism to identify the fetal brain precisely. Our model not only filters out frames lacking the brain but also generates masks for those containing it, enhancing the relevance of plane pose regression in clinical settings. We focus on fetal brain navigation from 2D ultrasound (US) video analysis and combine this model with a US plane pose regression network to provide sensorless proximity detection to SPs and non-SPs planes; we emphasize the importance of proximity detection to SPs for guiding sonographers, offering a substantial advantage over traditional methods by allowing earlier and more precise adjustments during scanning. We demonstrate the practical applicability of our approach through validation on real fetal scan videos obtained from sonographers of varying expertise levels. Our findings demonstrate the potential of our approach to complement existing fetal US technologies and advance prenatal diagnostic practices.
翻訳日:2024-04-11 14:01:43 公開日:2024-04-10
# 語彙と句の変動に対するテキスト・ツー・ヴィジュアライゼーション翻訳のロバスト性に向けて

Towards Robustness of Text-to-Visualization Translation against Lexical and Phrasal Variability ( http://arxiv.org/abs/2404.07135v1 )

ライセンス: Link先を確認
Jinwei Lu, Yuanfeng Song, Haodi Zhang, Chen Zhang, Raymond Chi-Wing Wong, (参考訳) Text-to-Visは自然言語処理(NLP)分野における新たな課題であり、自然言語質問(NLQ)からデータ視覚化を自動的に生成することを目的としている。 それらの進歩にもかかわらず、既存のテキスト・ツー・ビジター・モデルは多くの場合、質問における単語とデータスキーマにおけるトークン間の語彙マッチングに大きく依存する。 この語彙マッチングへの過度な依存は、入力変動に対するモデルロバストネスのレベルを低下させる可能性がある。 本研究では,これまで検討されていない領域である現行のテキスト・ツー・ビジュア・モデルのロバスト性について,徹底的に検討する。 特に,最初のロバスト性データセットであるnvBench-Robを構築する。 その結果,既存のテキスト・ツー・ビジュアライゼーション・モデルの性能は劇的に低下し,これらの手法が全体として不適切なロバスト性を示すことが示唆された。 最後に,これら2つの変種における入力の摂動に対処するために,GREDと呼ばれるRAG(Retrieval-Augmented Generation)技術に基づく新しいフレームワークを提案する。 NLQ-Retrieval Generator, Visualization Query-Retrieval Retuner, Annotation-based Debuggerの3つのパートで構成されている。 テキスト・トゥ・ビジュアル分野における最先端モデルRGVisNetと比較して、RGDRはモデルロバストネスの点で優れており、提案したnvBench-Robデータセットでは精度が32%向上している。

Text-to-Vis is an emerging task in the natural language processing (NLP) area that aims to automatically generate data visualizations from natural language questions (NLQs). Despite their progress, existing text-to-vis models often heavily rely on lexical matching between words in the questions and tokens in data schemas. This overreliance on lexical matching may lead to a diminished level of model robustness against input variations. In this study, we thoroughly examine the robustness of current text-to-vis models, an area that has not previously been explored. In particular, we construct the first robustness dataset nvBench-Rob, which contains diverse lexical and phrasal variations based on the original text-to-vis benchmark nvBench. Then, we found that the performance of existing text-to-vis models on this new dataset dramatically drops, implying that these methods exhibit inadequate robustness overall. Finally, we propose a novel framework based on Retrieval-Augmented Generation (RAG) technique, named GRED, specifically designed to address input perturbations in these two variants. The framework consists of three parts: NLQ-Retrieval Generator, Visualization Query-Retrieval Retuner and Annotation-based Debugger, which are used to tackle the challenges posed by natural language variants, programming style differences and data schema variants, respectively. Extensive experimental evaluations show that, compared to the state-of-the-art model RGVisNet in the Text-to-Vis field, RGDR performs better in terms of model robustness, with a 32% increase in accuracy on the proposed nvBench-Rob dataset.
翻訳日:2024-04-11 14:01:43 公開日:2024-04-10
# ギャップを埋めて未来を作る - ソフトウェア開発者の多様性を向上し、未来志向の研究を通じて包摂性を高める

Bridging Gaps, Building Futures: Advancing Software Developer Diversity and Inclusion Through Future-Oriented Research ( http://arxiv.org/abs/2404.07142v1 )

ライセンス: Link先を確認
Sonja M. Hyrynsalmi, Sebastian Baltes, Chris Brown, Rafael Prikladnicki, Gema Rodriguez-Perez, Alexander Serebrenik, Jocelyn Simmonds, Bianca Trinkenreich, Yi Wang, Grischa Liebel, (参考訳) ソフトウェアシステムは、現代の生活と社会のほぼすべての側面に責任がある。 しかしながら、これらのソフトウェアシステムを設計、保守するタスクを負うソフトウェア開発チームの人口層は、ユーザの人口層とほとんど一致しない。 人工知能(AI)と機械学習を活用した自動プログラミングアシスタントの台頭など、技術革新によるソフトウェア工学(SE)の展望が発展するにつれて、開発チームの包括的作業環境と多様な集団のための利用可能なソフトウェアを確保するために、ソフトウェア開発者の多様性と包摂性(SDDI)を促進するためにより多くの努力が必要である。 そこで本研究では,SE の多様性と包摂性に関する課題と解決策について,SE 研究者や実践者の知見を紹介する。 これらの知見に基づき,AI駆動型SEの時代にSDDIを促進するために,将来的な研究の方向性と産業への示唆を,将来的なユートピアやディストピアのビジョンと共有する。

Software systems are responsible for nearly all aspects of modern life and society. However, the demographics of software development teams that are tasked with designing and maintaining these software systems rarely match the demographics of users. As the landscape of software engineering (SE) evolves due to technological innovations, such as the rise of automated programming assistants powered by artificial intelligence (AI) and machine learning, more effort is needed to promote software developer diversity and inclusion (SDDI) to ensure inclusive work environments for development teams and usable software for diverse populations. To this end, we present insights from SE researchers and practitioners on challenges and solutions regarding diversity and inclusion in SE. Based on these findings, we share potential utopian and dystopian visions of the future and provide future research directions and implications for academia and industry to promote SDDI in the age of AI-driven SE.
翻訳日:2024-04-11 14:01:43 公開日:2024-04-10
# leave no Contexthind: Infini-attention 付き効率的な Infinite Context Transformer

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention ( http://arxiv.org/abs/2404.07143v1 )

ライセンス: Link先を確認
Tsendsuren Munkhdalai, Manaal Faruqui, Siddharth Gopal, (参考訳) 本研究では,トランスフォーマーをベースとしたLarge Language Model (LLM) を,メモリと計算を境界とした無限長入力に拡張する効率的な手法を提案する。 提案手法の重要な要素は、Infini-attentionと呼ばれる新しい注意手法である。 Infiniアテンションは圧縮メモリをバニラアテンション機構に組み込み、マスクされた局所アテンションと1つのトランスフォーマーブロックの長期リニアアテンション機構の両方に構築する。 長文言語モデリングベンチマーク,1Mシーケンス長のパスキーコンテキストブロック検索,および1Bおよび8B LLMを用いた500K長さの書籍要約タスクにおいて,提案手法の有効性を実証した。 提案手法は最小限のメモリパラメータを導入し,LLMの高速なストリーミング推論を可能にする。

This work introduces an efficient method to scale Transformer-based Large Language Models (LLMs) to infinitely long inputs with bounded memory and computation. A key component in our proposed approach is a new attention technique dubbed Infini-attention. The Infini-attention incorporates a compressive memory into the vanilla attention mechanism and builds in both masked local attention and long-term linear attention mechanisms in a single Transformer block. We demonstrate the effectiveness of our approach on long-context language modeling benchmarks, 1M sequence length passkey context block retrieval and 500K length book summarization tasks with 1B and 8B LLMs. Our approach introduces minimal bounded memory parameters and enables fast streaming inference for LLMs.
翻訳日:2024-04-11 14:01:43 公開日:2024-04-10
# 実処理インメモリシステムにおける分散最適化アルゴリズムの解析

Analysis of Distributed Optimization Algorithms on a Real Processing-In-Memory System ( http://arxiv.org/abs/2404.07164v1 )

ライセンス: Link先を確認
Steve Rhyner, Haocong Luo, Juan Gómez-Luna, Mohammad Sadrosadati, Jiawei Jiang, Ataberk Olgun, Harshita Gupta, Ce Zhang, Onur Mutlu, (参考訳) 大規模データセットに対する機械学習(ML)トレーニングは非常に高価で時間を要するワークロードである。 現代のMLトレーニングワークロードで一般的に使用されるプロセッサ中心アーキテクチャ(CPU、GPUなど)は、トレーニングデータセットに繰り返しアクセスするため、データ移動ボトルネックによって制限される。 その結果、プロセッサ中心のシステムは性能劣化と高エネルギー消費に悩まされる。 Processing-In-Memory(PIM)は、計算機構をメモリ内または周辺に配置することで、データ移動のボトルネックを軽減するための有望なソリューションである。 我々のゴールは、データ集約型MLトレーニングワークロードを高速化するために、現実世界のPIMアーキテクチャ上で人気のある分散最適化アルゴリズムの機能と特性を理解することです。 この目的のために、私たちは 1) 実世界の汎用PIMシステム上で, 集中分散最適化アルゴリズムを複数実装した。 2)これらのアルゴリズムを,大規模データセット上でのMLトレーニングにおいて,性能,精度,スケーラビリティの観点から厳格に評価する。 3)従来のCPUとGPUのベースラインと比較し, 4) 将来のPIMハードウェアへの意味と,分散最適化アルゴリズムに対応するために,アルゴリズムのハードウエアなコードサインの観点に移行する必要性について論じる。 以上の結果から,3つの大きな発見が得られた。 1) 現代の汎用PIMアーキテクチャは、PIMハードウェアで操作やデータタイプをネイティブにサポートしている場合、多くのメモリバウンドMLトレーニングワークロードに対して、最先端のCPUやGPUの代替となる可能性がある。 2)PIMに最も適合する最適化アルゴリズムを慎重に選択することの重要性と 3) 一般的な信念に反して、現代のPIMアーキテクチャは、多くのデータ集約型MLトレーニングワークロードのノード数とほぼ線形にスケールしない。 今後の研究を促進するため,コードベースのオープンソース化を目指しています。

Machine Learning (ML) training on large-scale datasets is a very expensive and time-consuming workload. Processor-centric architectures (e.g., CPU, GPU) commonly used for modern ML training workloads are limited by the data movement bottleneck, i.e., due to repeatedly accessing the training dataset. As a result, processor-centric systems suffer from performance degradation and high energy consumption. Processing-In-Memory (PIM) is a promising solution to alleviate the data movement bottleneck by placing the computation mechanisms inside or near memory. Our goal is to understand the capabilities and characteristics of popular distributed optimization algorithms on real-world PIM architectures to accelerate data-intensive ML training workloads. To this end, we 1) implement several representative centralized distributed optimization algorithms on UPMEM's real-world general-purpose PIM system, 2) rigorously evaluate these algorithms for ML training on large-scale datasets in terms of performance, accuracy, and scalability, 3) compare to conventional CPU and GPU baselines, and 4) discuss implications for future PIM hardware and the need to shift to an algorithm-hardware codesign perspective to accommodate decentralized distributed optimization algorithms. Our results demonstrate three major findings: 1) Modern general-purpose PIM architectures can be a viable alternative to state-of-the-art CPUs and GPUs for many memory-bound ML training workloads, when operations and datatypes are natively supported by PIM hardware, 2) the importance of carefully choosing the optimization algorithm that best fit PIM, and 3) contrary to popular belief, contemporary PIM architectures do not scale approximately linearly with the number of nodes for many data-intensive ML training workloads. To facilitate future research, we aim to open-source our complete codebase.
翻訳日:2024-04-11 14:01:43 公開日:2024-04-10
# 極限値理論によるMLアルゴリズムの最悪の収束時間

Worst-Case Convergence Time of ML Algorithms via Extreme Value Theory ( http://arxiv.org/abs/2404.07170v1 )

ライセンス: Link先を確認
Saeid Tizpaz-Niari, Sriram Sankaranarayanan, (参考訳) 本稿では、極端な値の統計を利用して、機械学習アルゴリズムの最悪の収束時間を予測する。 タイミングはMLシステムの重要な非機能特性であり、最悪の収束時間を提供することは、MLとそのサービスの可用性を保証するために不可欠である。 しかし,(1)AIの基盤となるプログラミング言語の構文やセマンティクスにコード化されていないこと,(2)アルゴリズムの実装と基盤システムに依存すること,(3)不確実性とノイズを伴うことなどから,最悪のケース収束時間(WCCT)などのタイミング特性の検証は困難である。 したがって、一般的な形式的手法や統計モデルは、WCCTの量や可能性についての豊富な情報を提供していない。 私たちのキーとなる観察は、私たちが求めるタイミング情報は実行時間の極端なテールを表しているということです。 したがって、結果の尾における極端な値の分布の理解と予測に焦点を当てた統計学分野であるEVTは、MLパラダイムのトレーニングと推論フェーズにおいてWCCTをモデル化し分析するための理想的な枠組みを提供する。 本稿では,EVTの数学的ツールに基づいて,MLの最悪のタイミング特性を予測するための実践的枠組みを提案する。 一連の線形MLトレーニングアルゴリズムにおいて、EVTはベイズ係数などの関連する統計手法よりもWCCTの予測精度が高いことを示す。 より大規模な機械学習トレーニングアルゴリズムとディープニューラルネットワーク推論のセットにおいて、EVTモデルがWCCTを正確に予測し、予測したリターン期間を予測し、その可能性を示す。

This paper leverages the statistics of extreme values to predict the worst-case convergence times of machine learning algorithms. Timing is a critical non-functional property of ML systems, and providing the worst-case converge times is essential to guarantee the availability of ML and its services. However, timing properties such as worst-case convergence times (WCCT) are difficult to verify since (1) they are not encoded in the syntax or semantics of underlying programming languages of AI, (2) their evaluations depend on both algorithmic implementations and underlying systems, and (3) their measurements involve uncertainty and noise. Therefore, prevalent formal methods and statistical models fail to provide rich information on the amounts and likelihood of WCCT. Our key observation is that the timing information we seek represents the extreme tail of execution times. Therefore, extreme value theory (EVT), a statistical discipline that focuses on understanding and predicting the distribution of extreme values in the tail of outcomes, provides an ideal framework to model and analyze WCCT in the training and inference phases of ML paradigm. Building upon the mathematical tools from EVT, we propose a practical framework to predict the worst-case timing properties of ML. Over a set of linear ML training algorithms, we show that EVT achieves a better accuracy for predicting WCCTs than relevant statistical methods such as the Bayesian factor. On the set of larger machine learning training algorithms and deep neural network inference, we show the feasibility and usefulness of EVT models to accurately predict WCCTs, their expected return periods, and their likelihood.
翻訳日:2024-04-11 14:01:43 公開日:2024-04-10
# 生成逆数ネットワークにおける極小最適化のためのガウスニュートンアプローチ

A Gauss-Newton Approach for Min-Max Optimization in Generative Adversarial Networks ( http://arxiv.org/abs/2404.07172v1 )

ライセンス: Link先を確認
Neel Mishra, Bamdev Mishra, Pratik Jawanpuria, Pawan Kumar, (参考訳) GAN(Generative Adversarial Network)を学習するための新しい一階法を提案する。 ガウス・ニュートン法を修正して min-max Hessian を近似し、シャーマン・モリソン反転公式を用いて逆を計算する。 この方法は、必要な収縮を保証する固定点法に対応する。 その効果を評価するために、MNIST、Fashion MNIST、CIFAR10、FFHQ、LSUNなどの画像生成タスクでよく使われる様々なデータセットを用いて数値実験を行った。 提案手法は,複数のデータセットにまたがる多彩な高忠実度画像を生成することができる。 また、最先端の2階法を含むすべての比較手法の中で、CIFAR10の開始点が最も高い。 さらに、その実行時間は一階のmin-maxメソッドに匹敵する。

A novel first-order method is proposed for training generative adversarial networks (GANs). It modifies the Gauss-Newton method to approximate the min-max Hessian and uses the Sherman-Morrison inversion formula to calculate the inverse. The method corresponds to a fixed-point method that ensures necessary contraction. To evaluate its effectiveness, numerical experiments are conducted on various datasets commonly used in image generation tasks, such as MNIST, Fashion MNIST, CIFAR10, FFHQ, and LSUN. Our method is capable of generating high-fidelity images with greater diversity across multiple datasets. It also achieves the highest inception score for CIFAR10 among all compared methods, including state-of-the-art second-order methods. Additionally, its execution time is comparable to that of first-order min-max methods.
翻訳日:2024-04-11 14:01:43 公開日:2024-04-10
# BAMBOO:液体電解質開発のための予測および伝達可能な機械学習力場フレームワーク

BAMBOO: a predictive and transferable machine learning force field framework for liquid electrolyte development ( http://arxiv.org/abs/2404.07181v1 )

ライセンス: Link先を確認
Sheng Gong, Yumin Zhang, Zhenliang Mu, Zhichen Pu, Hongyi Wang, Zhiao Yu, Mengyi Chen, Tianze Zheng, Zhi Wang, Lifei Chen, Xiaojie Wu, Shaochen Shi, Weihao Gao, Wen Yan, Liang Xiang, (参考訳) 機械学習力場(MLFF)が固体や小分子に広く応用されているにもかかわらず、複雑な液体電解質にMLFFを適用する際には顕著なギャップがある。 本研究では,分子動力学(MD)シミュレーションのための新しいフレームワークであるBAMBOO(ByteDance AI Molecular Simulation Booster)を紹介する。 我々は、量子力学シミュレーションから学ぶため、BAMBOOのバックボーンとして、物理に着想を得たグラフ同変変変圧器アーキテクチャを設計する。 さらに,本手法をMLFFに適用し,MDシミュレーションの安定性向上を図る。 最後に,BAMBOOを実験値と整合させる密度アライメントアルゴリズムを提案する。 BAMBOOは、密度、粘性、および様々な溶媒と塩の組み合わせにおけるイオン伝導率などの主要な電解質特性を予測するための最先端の精度を示す。 現在のモデルでは15種以上の化学種で訓練し, 各種組成における平均密度誤差0.01g/cm^3を実験データと比較した。 さらに,本モデルでは,量子力学的データセットに含まれない分子への転移性を示す。 本研究は, 有機液体の物性をシミュレーションできる「ユニバーサルMLFF」への道を開くことを目的としている。

Despite the widespread applications of machine learning force field (MLFF) on solids and small molecules, there is a notable gap in applying MLFF to complex liquid electrolytes. In this work, we introduce BAMBOO (ByteDance AI Molecular Simulation Booster), a novel framework for molecular dynamics (MD) simulations, with a demonstration of its capabilities in the context of liquid electrolytes for lithium batteries. We design a physics-inspired graph equivariant transformer architecture as the backbone of BAMBOO to learn from quantum mechanical simulations. Additionally, we pioneer an ensemble knowledge distillation approach and apply it on MLFFs to improve the stability of MD simulations. Finally, we propose the density alignment algorithm to align BAMBOO with experimental measurements. BAMBOO demonstrates state-of-the-art accuracy in predicting key electrolyte properties such as density, viscosity, and ionic conductivity across various solvents and salt combinations. Our current model, trained on more than 15 chemical species, achieves the average density error of 0.01 g/cm^3 on various compositions compared with experimental data. Moreover, our model demonstrates transferability to molecules not included in the quantum mechanical dataset. We envision this work as paving the way to a ''universal MLFF'' capable of simulating properties of common organic liquids.
翻訳日:2024-04-11 14:01:43 公開日:2024-04-10
# 外科的電気診断における準最適指示からの逆戻り学習と応用

Reward Learning from Suboptimal Demonstrations with Applications in Surgical Electrocautery ( http://arxiv.org/abs/2404.07185v1 )

ライセンス: Link先を確認
Zohre Karimi, Shing-Hei Ho, Bao Thach, Alan Kuntz, Daniel S. Brown, (参考訳) デモ(LfD)技術によるロボット手術の自動化は非常に難しい。 これは、外科的タスクは、しばしば物理的オブジェクトの複雑な相互作用を伴うシーケンシャルな意思決定プロセスを含み、ミスに対する耐性が低いためである。 先行研究は、全てのデモンストレーションが完全に観察可能で最適なものであると仮定しており、現実の世界では実用的ではないかもしれない。 本稿では, 部分ビュー点雲観測による最適下界実験の限られた数から, 頑健な報酬関数を学習するサンプル効率の手法を提案する。 次に、強化学習(RL)を用いて学習した報酬関数を最適化し、ポリシーを学習する。 学習した報酬関数を用いてポリシーを得ることは、純粋な模倣学習よりも堅牢であることを示す。 提案手法は, 提案した実証実験が最適以下であり, 観察が高次元の点雲であっても良好に動作できることを実証する。

Automating robotic surgery via learning from demonstration (LfD) techniques is extremely challenging. This is because surgical tasks often involve sequential decision-making processes with complex interactions of physical objects and have low tolerance for mistakes. Prior works assume that all demonstrations are fully observable and optimal, which might not be practical in the real world. This paper introduces a sample-efficient method that learns a robust reward function from a limited amount of ranked suboptimal demonstrations consisting of partial-view point cloud observations. The method then learns a policy by optimizing the learned reward function using reinforcement learning (RL). We show that using a learned reward function to obtain a policy is more robust than pure imitation learning. We apply our approach on a physical surgical electrocautery task and demonstrate that our method can perform well even when the provided demonstrations are suboptimal and the observations are high-dimensional point clouds.
翻訳日:2024-04-11 14:01:43 公開日:2024-04-10
# VN-EGNN: 仮想ノードを持つ等価グラフニューラルネットワークによるタンパク質結合部位同定

VN-EGNN: E(3)-Equivariant Graph Neural Networks with Virtual Nodes Enhance Protein Binding Site Identification ( http://arxiv.org/abs/2404.07194v1 )

ライセンス: Link先を確認
Florian Sestak, Lisa Schneckenreiter, Johannes Brandstetter, Sepp Hochreiter, Andreas Mayr, Günter Klambauer, (参考訳) リガンドが結合する可能性のあるタンパク質内または周囲の領域を特定できることは、新しい薬物を開発するための重要なステップである。 結合部位同定法は、タンパク質構造データベースやAlphaFold予測から大量の3D構造が利用可能になったことで利益を得ることができる。 現在の結合サイト同定法はグラフニューラルネットワーク(GNN)に大きく依存している。 このような手法は、結合エネルギーや運動軌道予測といった物理学的なタスクに非常に有用であることが判明した。 しかしながら、バインディングサイト識別におけるGNNの性能は、バインディングポケットのような隠れた幾何学的エンティティをモデル化する専用のノードが存在しないため、潜在的に制限されている。 本研究では,仮想ノードの追加と拡張メッセージパッシング方式の適用により,E(n)-同変グラフニューラルネットワーク(EGNN)を拡張した。 これらのグラフの仮想ノードは、結合サイトの表現を学ぶための専用量であり、予測性能が向上する。 本実験では,提案手法を用いて,COACH420,HOLO4K,PDBbind2020上の結合部位中心の位置を求める手法を提案する。

Being able to identify regions within or around proteins, to which ligands can potentially bind, is an essential step to develop new drugs. Binding site identification methods can now profit from the availability of large amounts of 3D structures in protein structure databases or from AlphaFold predictions. Current binding site identification methods heavily rely on graph neural networks (GNNs), usually designed to output E(3)-equivariant predictions. Such methods turned out to be very beneficial for physics-related tasks like binding energy or motion trajectory prediction. However, the performance of GNNs at binding site identification is still limited potentially due to the lack of dedicated nodes that model hidden geometric entities, such as binding pockets. In this work, we extend E(n)-Equivariant Graph Neural Networks (EGNNs) by adding virtual nodes and applying an extended message passing scheme. The virtual nodes in these graphs are dedicated quantities to learn representations of binding sites, which leads to improved predictive performance. In our experiments, we show that our proposed method VN-EGNN sets a new state-of-the-art at locating binding site centers on COACH420, HOLO4K and PDBbind2020.
翻訳日:2024-04-11 14:01:43 公開日:2024-04-10
# 知識グラフを用いたゼロショット論理クエリ推論

Zero-shot Logical Query Reasoning on any Knowledge Graph ( http://arxiv.org/abs/2404.07198v1 )

ライセンス: Link先を確認
Mikhail Galkin, Jincheng Zhou, Bruno Ribeiro, Jian Tang, Zhaocheng Zhu, (参考訳) 知識グラフ (KG) における複雑な論理的クエリ応答 (CLQA) は、単純なKG補完を超越し、複数のプロジェクションと論理的操作からなる構成的クエリに答えることを目的としている。 既存のCLQAメソッドは、特定のエンティティやリレーショナルボキャブラリにバウンドしたパラメータを学習し、トレーニング対象のグラフにのみ適用することができる。 ここでは、任意のKG上で論理的クエリをゼロショットで応答できる帰納的推論モデルであるUltraQueryを紹介する。 UltraQueryの中核となる考え方は、任意のKGにおける新しい実体と関係を一般化する語彙に依存しない関数として、射影と論理演算の両方を導出することである。 事前訓練された帰納的KG推論モデルから初期化されたプロジェクション操作により、UltraQueryは、たとえ単一のデータセットでのみ微調整されたとしても、任意のKG上のCLQAを解くことができる。 23のデータセットでの実験では、ゼロショット推論モードのUltraQueryは、最高のベースラインよりも競合的あるいはより良いクエリ応答性能を示し、その14に新たな最先端を設定している。

Complex logical query answering (CLQA) in knowledge graphs (KGs) goes beyond simple KG completion and aims at answering compositional queries comprised of multiple projections and logical operations. Existing CLQA methods that learn parameters bound to certain entity or relation vocabularies can only be applied to the graph they are trained on which requires substantial training time before being deployed on a new graph. Here we present UltraQuery, an inductive reasoning model that can zero-shot answer logical queries on any KG. The core idea of UltraQuery is to derive both projections and logical operations as vocabulary-independent functions which generalize to new entities and relations in any KG. With the projection operation initialized from a pre-trained inductive KG reasoning model, UltraQuery can solve CLQA on any KG even if it is only finetuned on a single dataset. Experimenting on 23 datasets, UltraQuery in the zero-shot inference mode shows competitive or better query answering performance than best available baselines and sets a new state of the art on 14 of them.
翻訳日:2024-04-11 14:01:43 公開日:2024-04-10
# RealmDreamer: ペイントと深さ拡散によるテキスト駆動型3Dシーン生成

RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion ( http://arxiv.org/abs/2404.07199v1 )

ライセンス: Link先を確認
Jaidev Shriram, Alex Trevithick, Lingjie Liu, Ravi Ramamoorthi, (参考訳) 本稿では,テキスト記述から一般的な前方3Dシーンを生成する手法であるRealmDreamerを紹介する。 本手法は,複雑なテキストプロンプトに適合する3次元ガウス分割表現を最適化する。 我々は、最先端のテキスト・ツー・イメージ・ジェネレータを利用し、サンプルを3D化してオクルージョン体積を計算することで、これらのスプラッターを初期化する。 次に、この表現を画像条件拡散モデルを用いた3次元インペイントタスクとして、複数のビューにまたがって最適化する。 正確な幾何構造を学習するために、塗布モデルから試料を条件付けして深度拡散モデルを組み込むことにより、リッチな幾何学的構造を与える。 最後に、画像生成装置のシャープなサンプルを用いてモデルを微調整する。 特に,本手法は映像や多視点データを必要としないため,複数のオブジェクトからなる様々なスタイルの高品質な3Dシーンを合成することができる。 さらにその一般性は、単一の画像から3D合成を可能にする。

We introduce RealmDreamer, a technique for generation of general forward-facing 3D scenes from text descriptions. Our technique optimizes a 3D Gaussian Splatting representation to match complex text prompts. We initialize these splats by utilizing the state-of-the-art text-to-image generators, lifting their samples into 3D, and computing the occlusion volume. We then optimize this representation across multiple views as a 3D inpainting task with image-conditional diffusion models. To learn correct geometric structure, we incorporate a depth diffusion model by conditioning on the samples from the inpainting model, giving rich geometric structure. Finally, we finetune the model using sharpened samples from image generators. Notably, our technique does not require video or multi-view data and can synthesize a variety of high-quality 3D scenes in different styles, consisting of multiple objects. Its generality additionally allows 3D synthesis from a single image.
翻訳日:2024-04-11 14:01:43 公開日:2024-04-10
# UMBRAE:脳信号のマルチモーダル復号化

UMBRAE: Unified Multimodal Decoding of Brain Signals ( http://arxiv.org/abs/2404.07202v1 )

ライセンス: Link先を確認
Weihao Xia, Raoul de Charette, Cengiz Öztireli, Jing-Hao Xue, (参考訳) 我々は、文献が正確な空間情報をほとんど復元せず、主題固有のモデルを必要とするという観察から離れて、脳による研究の一般的な課題に対処する。 これらの課題に対処するため,脳信号のマルチモーダルデコードであるUMBRAEを提案する。 まず、ニューラルネットワークからインスタンスレベルの概念的・空間的詳細を抽出するため、マルチモーダル脳アライメントのための効率的なユニバーサル脳エンコーダを導入し、その後のマルチモーダル大言語モデル(MLLM)から多段階の粒度でオブジェクト記述を復元する。 第2に,対象物固有の特徴を共通の特徴空間にマッピングするクロスオブジェクトトレーニング戦略を導入する。 これにより、モデルは余分なリソースを使わずに複数の被験者でトレーニングでき、また、対象固有のモデルよりも優れた結果が得られる。 さらに,本研究は,新たな被験者への教師付き適応を弱め,トレーニングデータのごく一部に過ぎなかったことを実証する。 実験により、UMBRAEは新たに導入されたタスクにおいて優れた結果を得るだけでなく、確立されたタスクにおいてメソッドよりも優れることが示された。 提案手法を評価するため,脳理解ベンチマークBrainHubを構築し,コミュニティと共有する。 私たちのコードとベンチマークはhttps://weihaox.github.io/UMBRAE.comで公開されています。

We address prevailing challenges of the brain-powered research, departing from the observation that the literature hardly recover accurate spatial information and require subject-specific models. To address these challenges, we propose UMBRAE, a unified multimodal decoding of brain signals. First, to extract instance-level conceptual and spatial details from neural signals, we introduce an efficient universal brain encoder for multimodal-brain alignment and recover object descriptions at multiple levels of granularity from subsequent multimodal large language model (MLLM). Second, we introduce a cross-subject training strategy mapping subject-specific features to a common feature space. This allows a model to be trained on multiple subjects without extra resources, even yielding superior results compared to subject-specific models. Further, we demonstrate this supports weakly-supervised adaptation to new subjects, with only a fraction of the total training data. Experiments demonstrate that UMBRAE not only achieves superior results in the newly introduced tasks but also outperforms methods in well established tasks. To assess our method, we construct and share with the community a comprehensive brain understanding benchmark BrainHub. Our code and benchmark are available at https://weihaox.github.io/UMBRAE.
翻訳日:2024-04-11 14:01:43 公開日:2024-04-10
# BRAVE:視覚言語モデルの視覚的エンコーディングの拡大

BRAVE: Broadening the visual encoding of vision-language models ( http://arxiv.org/abs/2404.07204v1 )

ライセンス: Link先を確認
Oğuzhan Fatih Kar, Alessio Tonioni, Petra Poklukar, Achin Kulshrestha, Amir Zamir, Federico Tombari, (参考訳) 視覚言語モデル(VLM)は通常、視覚エンコーダ、eg CLIP、および下流タスクを解決するために符号化された特徴を解釈する言語モデル(LM)で構成されている。 目覚しい進歩にもかかわらず、VLMは視覚エンコーダの能力の限界、例えば特定の画像の特徴に対する「盲目」、視覚幻覚など、いくつかの欠点に直面している。 これらの課題に対処するために,VLMの視覚的符号化機能の拡張について検討する。 VLMタスクを解くために、まず、異なる帰納バイアスを持つ複数の視覚エンコーダを総合的にベンチマークする。 異なるタスク間で一貫した最高のパフォーマンスを達成する単一のエンコーディング構成は存在しないことが観察され、異なるバイアスを持つエンコーダは驚くほど同じように機能する。 そこで本研究では,BRAVEという手法を導入し,複数の凍結エンコーダの特徴をより汎用的な表現に集約し,凍結したLMへの入力として直接供給する手法を提案する。 BRAVEは、広範囲のキャプションとVQAベンチマークで最先端のパフォーマンスを達成し、上記のVLMの問題を著しく低減すると同時に、既存のメソッドよりも少ないトレーニング可能なパラメータを必要とし、より圧縮された表現を持つ。 以上の結果から,VLMのより広義かつ文脈的に理解された視覚的理解のために,異なる視覚的バイアスを組み込むことの可能性を強調した。

Vision-language models (VLMs) are typically composed of a vision encoder, e.g. CLIP, and a language model (LM) that interprets the encoded features to solve downstream tasks. Despite remarkable progress, VLMs are subject to several shortcomings due to the limited capabilities of vision encoders, e.g. "blindness" to certain image features, visual hallucination, etc. To address these issues, we study broadening the visual encoding capabilities of VLMs. We first comprehensively benchmark several vision encoders with different inductive biases for solving VLM tasks. We observe that there is no single encoding configuration that consistently achieves top performance across different tasks, and encoders with different biases can perform surprisingly similarly. Motivated by this, we introduce a method, named BRAVE, that consolidates features from multiple frozen encoders into a more versatile representation that can be directly fed as the input to a frozen LM. BRAVE achieves state-of-the-art performance on a broad range of captioning and VQA benchmarks and significantly reduces the aforementioned issues of VLMs, while requiring a smaller number of trainable parameters than existing methods and having a more compressed representation. Our results highlight the potential of incorporating different visual biases for a more broad and contextualized visual understanding of VLMs.
翻訳日:2024-04-11 14:01:43 公開日:2024-04-10
# GoodDrag: 拡散モデルによるドラッグ編集のベストプラクティス

GoodDrag: Towards Good Practices for Drag Editing with Diffusion Models ( http://arxiv.org/abs/2404.07206v1 )

ライセンス: Link先を確認
Zewei Zhang, Huan Liu, Jun Chen, Xiangyu Xu, (参考訳) 本稿では,ドラッグ編集の安定性と画質を向上させる新しい手法であるGoodDragを紹介する。 蓄積された摂動に苦労し、しばしば歪みをもたらす既存の方法とは異なり、GoodDragは拡散プロセス内でのドラッグとdenoising操作を交互に行うAlDDフレームワークを導入し、その結果の忠実さを効果的に改善する。 また,精密な操作やアーチファクトの削減のために,開始点の本来の特徴を維持できる情報保存型動作監視操作を提案する。 さらに,新たなデータセットであるDrag100の導入によるドラッグ編集のベンチマークや,Dragging Accuracy IndexやGemini Scoreなど,大規模マルチモーダルモデルを活用した専用品質評価指標の開発にも貢献する。 大規模な実験により、提案されたGoodDragは、定性的かつ定量的に最先端のアプローチと好意的に比較できることが示された。 プロジェクトページはhttps://gooddrag.github.io.com。

In this paper, we introduce GoodDrag, a novel approach to improve the stability and image quality of drag editing. Unlike existing methods that struggle with accumulated perturbations and often result in distortions, GoodDrag introduces an AlDD framework that alternates between drag and denoising operations within the diffusion process, effectively improving the fidelity of the result. We also propose an information-preserving motion supervision operation that maintains the original features of the starting point for precise manipulation and artifact reduction. In addition, we contribute to the benchmarking of drag editing by introducing a new dataset, Drag100, and developing dedicated quality assessment metrics, Dragging Accuracy Index and Gemini Score, utilizing Large Multimodal Models. Extensive experiments demonstrate that the proposed GoodDrag compares favorably against the state-of-the-art approaches both qualitatively and quantitatively. The project page is https://gooddrag.github.io.
翻訳日:2024-04-11 14:01:43 公開日:2024-04-10
# VLLMは、常識推論による感情理解のためのより良いコンテキストを提供する

VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning ( http://arxiv.org/abs/2404.07078v1 )

ライセンス: Link先を確認
Alexandros Xenos, Niki Maria Foteinopoulou, Ioanna Ntinou, Ioannis Patras, Georgios Tzimiropoulos, (参考訳) 文脈における感情を認識するには、周囲のシーンからの文脈的手がかりを考慮して、個人の明らかな感情を特定する必要がある。 この課題に対するこれまでのアプローチは、明示的なシーンエンコーディングアーキテクチャの設計や、キャプションなどの外部シーン関連情報の導入であった。 しかし、これらの手法はしばしば限られた文脈情報を利用するか、複雑な訓練パイプラインに依存している。 本研究では,VLLM(Vision-and-Language Models)のグランドブレーク機能を利用して,2段階のアプローチでトレーニングプロセスに複雑性を導入することなく,コンテキスト内感情分類を強化する。 第1段階では、視覚的文脈に対して、被験者の明らかな感情の自然言語で記述するVLLMを提案する。 第2段階では、記述を文脈情報として使用し、画像入力とともに、最終分類タスクの前にテキストと視覚的特徴を融合するトランスフォーマーベースのアーキテクチャを訓練する。 実験の結果,テキストと画像の特徴は相補的な情報を持ち,融合アーキテクチャは複雑な学習手法を使わずに個々のモダリティを著しく上回ることがわかった。 我々は、EMOTIC、CAER-S、BoLDの3つの異なるデータセットに対するアプローチを評価し、より複雑なアプローチと比較して、すべてのデータセットやメトリクスに対して最先端または同等の精度を達成する。 コードはgithubで公開される。 https://github.com/NickyFot/EmoCommonSense.git

Recognising emotions in context involves identifying the apparent emotions of an individual, taking into account contextual cues from the surrounding scene. Previous approaches to this task have involved the design of explicit scene-encoding architectures or the incorporation of external scene-related information, such as captions. However, these methods often utilise limited contextual information or rely on intricate training pipelines. In this work, we leverage the groundbreaking capabilities of Vision-and-Large-Language Models (VLLMs) to enhance in-context emotion classification without introducing complexity to the training process in a two-stage approach. In the first stage, we propose prompting VLLMs to generate descriptions in natural language of the subject's apparent emotion relative to the visual context. In the second stage, the descriptions are used as contextual information and, along with the image input, are used to train a transformer-based architecture that fuses text and visual features before the final classification task. Our experimental results show that the text and image features have complementary information, and our fused architecture significantly outperforms the individual modalities without any complex training methods. We evaluate our approach on three different datasets, namely, EMOTIC, CAER-S, and BoLD, and achieve state-of-the-art or comparable accuracy across all datasets and metrics compared to much more complex approaches. The code will be made publicly available on github: https://github.com/NickyFot/EmoCommonSense.git
翻訳日:2024-04-11 13:51:53 公開日:2024-04-10
# Chebyshevのプロトタイプのリスク最小化は、オーバーフィッティングの危険性を魔法のように軽減する

Minimizing Chebyshev Prototype Risk Magically Mitigates the Perils of Overfitting ( http://arxiv.org/abs/2404.07083v1 )

ライセンス: Link先を確認
Nathaniel Dean, Dilip Sarkar, (参考訳) 過パラメータ化ディープニューラルネットワーク(DNN)は、十分に正規化されていないとしても、トレーニングサンプルに過度に適合する可能性があり、テストデータの一般化が不十分である。 オーバーフィッティングを回避するために、ネットワークの1層以上の層におけるクラス内特徴相関を低減し、クラス間特徴距離を最大化する多成分損失関数を開発した。 線形分類器に先立ってDNNの特徴抽出部が出力する最小の特徴層活性化を解析することにより,CPR(Chebyshev Prototype Risk)という誤分類の確率に基づいて,クラス内特徴共分散とクラス間プロトタイプ分離の修正形式が基本的なチェビシェフ上界のキーコンポーネントであることが判明した。 従来のアプローチの共分散損失項はネットワーク特徴数と2次にスケールするが,我々のCPR境界は,対数線形時間における近似共分散損失が境界を小さくするのに十分であり,大規模アーキテクチャにも拡張可能であることを示唆している。 我々は、Explicit CPR(exCPR)損失関数にバウンドされたCPRの条件を実装し、複数のデータセットやネットワークアーキテクチャ上で経験的な結果から、トレーニングアルゴリズムがオーバーフィッティングを減らし、多くの設定で以前のアプローチを改善していることを観察する。 私たちのコードは$\href{https://github.com/Deano1718/Regularization_exCPR}{here}$で利用可能です。

Overparameterized deep neural networks (DNNs), if not sufficiently regularized, are susceptible to overfitting their training examples and not generalizing well to test data. To discourage overfitting, researchers have developed multicomponent loss functions that reduce intra-class feature correlation and maximize inter-class feature distance in one or more layers of the network. By analyzing the penultimate feature layer activations output by a DNN's feature extraction section prior to the linear classifier, we find that modified forms of the intra-class feature covariance and inter-class prototype separation are key components of a fundamental Chebyshev upper bound on the probability of misclassification, which we designate the Chebyshev Prototype Risk (CPR). While previous approaches' covariance loss terms scale quadratically with the number of network features, our CPR bound indicates that an approximate covariance loss in log-linear time is sufficient to reduce the bound and is scalable to large architectures. We implement the terms of the CPR bound into our Explicit CPR (exCPR) loss function and observe from empirical results on multiple datasets and network architectures that our training algorithm reduces overfitting and improves upon previous approaches in many settings. Our code is available $\href{https://github.com/Deano1718/Regularization_exCPR}{here}$.
翻訳日:2024-04-11 13:51:53 公開日:2024-04-10
# MoCap-to-Visual Domain Adaptation for Efficient Human Mesh Estimation from 2D Keypoints

MoCap-to-Visual Domain Adaptation for Efficient Human Mesh Estimation from 2D Keypoints ( http://arxiv.org/abs/2404.07094v1 )

ライセンス: Link先を確認
Bedirhan Uguz, Ozhan Suat, Batuhan Karagoz, Emre Akbas, (参考訳) 本稿では、2次元人間のポーズキーポイントを入力とし、対応するボディーメッシュを推定するKey2Meshについて述べる。 このプロセスには視覚的(すなわちRGBイメージ)なデータが含まれないので、大規模なモーションキャプチャ(MoCap)データセットでトレーニングすることが可能で、3Dラベルによる画像データセットの不足を克服することができる。 RGB画像へのモデルの適用を可能にするために、まず市販の2Dポーズ推定器を実行して、2Dキーポイントを取得し、2DキーポイントをKey2Meshに供給する。 RGB画像上でのモデルの性能向上のために,MoCapと視覚領域のギャップを埋めるために,逆向き領域適応法(DA)を適用した。 重要なことは、我々のDA法は視覚データに3Dラベルを必要としないため、コストのかかるラベルを必要とせずにターゲットセットへの適応が可能である。 RGBとメッシュラベルのペアが存在しない2次元のキーポイントから3次元のメッシュを推定する作業としてKey2Meshを評価した。 広く使われているH3.6Mデータセットと3DPWデータセットの結果は、Key2MeshがPA-MPJPEおよび3DPWデータセットのMPJPEおよびPVEにおいて、他のモデルよりも優れていることを示している。 我々のモデルのシンプルなアーキテクチャのおかげで、従来の最先端モデルであるLGDよりも少なくとも12倍高速に動作します。 その他の定性的なサンプルとコードはプロジェクトのWebサイト(https://key2mesh.github.io/)で公開されている。

This paper presents Key2Mesh, a model that takes a set of 2D human pose keypoints as input and estimates the corresponding body mesh. Since this process does not involve any visual (i.e. RGB image) data, the model can be trained on large-scale motion capture (MoCap) datasets, thereby overcoming the scarcity of image datasets with 3D labels. To enable the model's application on RGB images, we first run an off-the-shelf 2D pose estimator to obtain the 2D keypoints, and then feed these 2D keypoints to Key2Mesh. To improve the performance of our model on RGB images, we apply an adversarial domain adaptation (DA) method to bridge the gap between the MoCap and visual domains. Crucially, our DA method does not require 3D labels for visual data, which enables adaptation to target sets without the need for costly labels. We evaluate Key2Mesh for the task of estimating 3D human meshes from 2D keypoints, in the absence of RGB and mesh label pairs. Our results on widely used H3.6M and 3DPW datasets show that Key2Mesh sets the new state-of-the-art by outperforming other models in PA-MPJPE for both datasets, and in MPJPE and PVE for the 3DPW dataset. Thanks to our model's simple architecture, it operates at least 12x faster than the prior state-of-the-art model, LGD. Additional qualitative samples and code are available on the project website: https://key2mesh.github.io/.
翻訳日:2024-04-11 13:51:53 公開日:2024-04-10
# TransTARec: 次のPOI勧告のための時間適応型翻訳埋め込みモデル

TransTARec: Time-Adaptive Translating Embedding Model for Next POI Recommendation ( http://arxiv.org/abs/2404.07096v1 )

ライセンス: Link先を確認
Yiping Sun, (参考訳) 位置情報取得技術の急速な成長は、冗長なユーザチェックイン記録のため、POI(Point-of-Interest)レコメンデーションを可能にする。 本稿では,従来のPOIをベースとした次のPOIレコメンデーションに焦点を当てる。 我々は、次のPOIレコメンデーションにおいて時間が重要な役割を果たすが、最近提案された翻訳埋め込み手法では無視されていることを観察する。 この不足に対処するために, 時間的影響, シーケンシャルダイナミクス, ユーザ嗜好を1つのコンポーネントに自然に組み込んだ, 次回のPOIレコメンデーションのための時間適応型翻訳埋め込みモデル(TransTARec)を提案する。 提案手法は,従来のタイムスタンプ,ユーザ,次のタイムスタンプ)三重項を結合翻訳ベクトルとして扱い,ユーザの嗜好と時間的影響を融合させるニューラルベース融合操作を開発する。 実世界のデータセットに関する広範な実験によって確認されたTransTARecの優位性は、時間的影響の導入だけでなく、ユーザの好みとシーケンシャルなダイナミクスとの直接的な統合によってもたらされる。

The rapid growth of location acquisition technologies makes Point-of-Interest(POI) recommendation possible due to redundant user check-in records. In this paper, we focus on next POI recommendation in which next POI is based on previous POI. We observe that time plays an important role in next POI recommendation but is neglected in the recent proposed translating embedding methods. To tackle this shortage, we propose a time-adaptive translating embedding model (TransTARec) for next POI recommendation that naturally incorporates temporal influence, sequential dynamics, and user preference within a single component. Methodologically, we treat a (previous timestamp, user, next timestamp) triplet as a union translation vector and develop a neural-based fusion operation to fuse user preference and temporal influence. The superiority of TransTARec, which is confirmed by extensive experiments on real-world datasets, comes from not only the introduction of temporal influence but also the direct unification with user preference and sequential dynamics.
翻訳日:2024-04-11 13:51:53 公開日:2024-04-10
# カジュアルビデオからの非剛性SfMの学習優先事項

Learning Priors for Non Rigid SfM from Casual Videos ( http://arxiv.org/abs/2404.07097v1 )

ライセンス: Link先を確認
Yoni Kasten, Wuyue Lu, Haggai Maron, (参考訳) 我々は、ビデオから3D構造とカメラの位置を再構築する、長年にわたる課題に取り組む。 この問題は、オブジェクトが厳密でない方法で変換される場合、特に難しい。 この問題に対する現在のアプローチは非現実的な仮定や長い最適化時間を必要とする。 そこで我々は,3D構造とカメラ位置を,一本のフィードフォワードパスをスパース・ポイント・トラック・マトリクス上に用いて動的コンテンツから推定できる,新しいディープラーニングベースのアプローチであるTracksTo4Dを提案する。 そこで我々は,近年の2次元点追跡の進歩を活用し,その対称性を活用して2次元点追跡を直接処理する等変ニューラルアーキテクチャを設計する。 TracksTo4Dは、3Dの監督なしにビデオから抽出された2Dポイントトラックのみを利用して、Wildのビデオのデータセットに基づいて訓練される。 実験の結果,TracksTo4Dは予測時に見つからないセマンティックなカテゴリの動画を一般化し,最先端の手法と同等な結果が得られる一方で,他のベースラインに比べて実行時間を大幅に削減できることがわかった。

We tackle the long-standing challenge of reconstructing 3D structures and camera positions from videos. The problem is particularly hard when objects are transformed in a non-rigid way. Current approaches to this problem make unrealistic assumptions or require a long optimization time. We present TracksTo4D, a novel deep learning-based approach that enables inferring 3D structure and camera positions from dynamic content originating from in-the-wild videos using a single feed-forward pass on a sparse point track matrix. To achieve this, we leverage recent advances in 2D point tracking and design an equivariant neural architecture tailored for directly processing 2D point tracks by leveraging their symmetries. TracksTo4D is trained on a dataset of in-the-wild videos utilizing only the 2D point tracks extracted from the videos, without any 3D supervision. Our experiments demonstrate that TracksTo4D generalizes well to unseen videos of unseen semantic categories at inference time, producing equivalent results to state-of-the-art methods while significantly reducing the runtime compared to other baselines.
翻訳日:2024-04-11 13:51:53 公開日:2024-04-10
# 行列積状態と第一量子化

Matrix product states and first quantization ( http://arxiv.org/abs/2404.07105v1 )

ライセンス: Link先を確認
Jheng-Wei Li, Xavier Waintal, (参考訳) 一般的な知恵によれば、フェルミオン系の絡み合いは第二の量子化形式では低いが、第一の量子化では極端に大きい。 したがって、中間エンタングルメントに基づく行列積状態(MPS)法は、第二量子化において圧倒的に定式化されている。 本稿では、量子多体系をシミュレートする第一量子化MPS法を提案する。 我々はフェルミオン反対称性の扱い方を変えることで、第二量子化で見られる通常のものと同等のエンタングルメントのレベルでMPSに到達することを示す。 基底状態と時間発展の両面において、1次元の$t$-$V$モデル(近接密度-密度相互作用を持つスピンレスフェルミオン)を実証する。 時間進化において、第1量子化の絡み合いエントロピーは第2量子化のエントロピーよりも著しく小さい。

Common wisdom says that the entanglement of fermionic systems can be low in the second quantization formalism but is extremely large in the first quantization. Hence Matrix Product State (MPS) methods based on moderate entanglement have been overwhelmingly formulated in second quantization. Here we introduce a first-quantized MPS approach to simulate quantum many-body systems. We show that by reformulating the way the fermionic anti-symmetry is handled, we arrive at MPS with a level of entanglement comparable to the usual one found in second quantization. We demonstrate our scheme on the one-dimensional $t$-$V$ model (spinless fermions with nearest neighbour density-density interaction) for both ground state and time evolution. For time evolution, we find that the entanglement entropy in first quantization is significantly smaller than in its second quantization counterpart.
翻訳日:2024-04-11 13:51:53 公開日:2024-04-10
# 3DMambaComplete: Point Cloud Completionのための構造化状態空間モデル

3DMambaComplete: Exploring Structured State Space Model for Point Cloud Completion ( http://arxiv.org/abs/2404.07106v1 )

ライセンス: Link先を確認
Yixuan Li, Weidong Yang, Ben Fei, (参考訳) ポイントクラウド補完は、初期不完全で低品質な入力から完全かつ高忠実なポイントクラウドを生成することを目的としている。 一般的な戦略は、Transformerベースのモデルを活用して、グローバルな機能をエンコードし、再構築プロセスを容易にすることである。 しかし、グローバルな特徴表現を得るためにプール操作を採用すると、ポイントクラウド内のローカル詳細が失われることが多い。 さらに、Transformers固有のアテンションメカニズムは、計算の複雑さを増し、長いシーケンスを効果的に扱うことが困難になる。 これらの問題に対処するために,新しいMambaフレームワーク上に構築されたポイントクラウドコンプリートネットワークである3DMambaCompleteを提案する。 HyperPoint Generationは、Mambaの選択メカニズムを使ってポイントクラウド機能をエンコードし、Hyperpointのセットを予測する。 特定のオフセットが推定され、ダウンサンプリングされたポイントがHyperPointsとなる。 HyperPoint Spreadモジュールは、これらのHyperPointを異なる空間的場所にわたって分散させ、集中を避ける。 最後に、変形法は、ハイパーポイントの2次元メッシュ表現を、点雲再構成のための微細な3次元構造に変換する。 定性的および定量的解析により,3DMambaCompleteが最先端のクラウド完了法を超えることが確認された。

Point cloud completion aims to generate a complete and high-fidelity point cloud from an initially incomplete and low-quality input. A prevalent strategy involves leveraging Transformer-based models to encode global features and facilitate the reconstruction process. However, the adoption of pooling operations to obtain global feature representations often results in the loss of local details within the point cloud. Moreover, the attention mechanism inherent in Transformers introduces additional computational complexity, rendering it challenging to handle long sequences effectively. To address these issues, we propose 3DMambaComplete, a point cloud completion network built on the novel Mamba framework. It comprises three modules: HyperPoint Generation encodes point cloud features using Mamba's selection mechanism and predicts a set of Hyperpoints. A specific offset is estimated, and the down-sampled points become HyperPoints. The HyperPoint Spread module disperses these HyperPoints across different spatial locations to avoid concentration. Finally, a deformation method transforms the 2D mesh representation of HyperPoints into a fine-grained 3D structure for point cloud reconstruction. Extensive experiments conducted on various established benchmarks demonstrate that 3DMambaComplete surpasses state-of-the-art point cloud completion methods, as confirmed by qualitative and quantitative analyses.
翻訳日:2024-04-11 13:51:53 公開日:2024-04-10
# ゼロ・ロス光子多重化インスパイアプロトコルによる分離可能な状態間の絡み合い分布

Entanglement distribution through separable states via a zero-added-loss photon multiplexing inspired protocol ( http://arxiv.org/abs/2404.07107v1 )

ライセンス: Link先を確認
Conall J. Campbell, Adam G. Hawkins, Giorgio Zicari, Mauro Paternostro, Hannah McAleese, (参考訳) 最近提案されたゼロロス多重化(ZALM)源は,SPDC源よりも絡み合い分布の効率が高く,地上リンクと地上リンクの両方を用いて行うことができる。 我々は、ZALMアーキテクチャの柔軟性を、代替のエンタングルメント分布プロトコルに適用できることを実証する。 リソースとして絡み合いを使わずに、遠方の関係者間で絡み合いを発生させることができる反直感的な結果に着目し、分離可能な状態によるメモリへの絡み合い分布の2つのプロトコルを解析する。 それらをZALMセットアップでモデル化し、通信チャネルと記憶の両方におけるノイズの影響を考察する。 これにより、ネットワークの雑音条件を考慮して、最も高い絡み合いに対して、最適なプロトコルを識別する。

The recently proposed zero-added-loss multiplexing (ZALM) source of entangled photons enables higher efficiency in entanglement distribution than SPDC sources and can be carried out using both space-to-ground and ground-to-ground links. We demonstrate the flexibility of ZALM architectures to be adapted to alternative entanglement distribution protocols. Focusing on the counter-intuitive result that entanglement can be generated between distant parties without using any entanglement as a resource, we analyze two protocols for entanglement distribution to memories via separable states. Modelling them in a ZALM setup, we consider the effects of noise both in the communication channels and in the memories. We thereby identify the optimal protocol to use, with respect to the highest entanglement generated, given the noise conditions of the network.
翻訳日:2024-04-11 13:51:53 公開日:2024-04-10
# モデル中心から人間中心へ: LLMにおけるテキスト評価の指標としてのリビジョン距離

From Model-centered to Human-Centered: Revision Distance as a Metric for Text Evaluation in LLMs-based Applications ( http://arxiv.org/abs/2404.07108v1 )

ライセンス: Link先を確認
Yongqiang Ma, Lizhi Qin, Jiawei Liu, Yangyang Kang, Yue Zhang, Wei Lu, Xiaozhong Liu, Qikai Cheng, (参考訳) 大規模言語モデル(LLM)の評価は、特に実践的な応用の文脈において、基本的なものである。 従来の評価手法は、主にLLM開発用に設計され、ユーザエクスペリエンスを無視する数値スコアを得る。 そこで本研究では,AIを活用した筆記支援アプリケーションにおいて,モデル中心から人中心評価へ焦点を移す。 提案手法は「リビジョン距離」と呼ばれ,人間の筆記過程を模倣したリビジョン編集を提案する。 LLMによって生成された修正編集を数えることによって決定される。 生成した改訂編集の詳細から、我々のメトリクスは、文脈に依存しないスコアを超えて、人間に理解可能な方法で、自己記述されたテキスト評価結果を提供することができる。 以上の結果から, 「リビジョン距離」は既存の指標(ROUGE, Bert-score, GPT-score)と一致しているが, より洞察に富み, 詳細なフィードバックが得られ, テキストの識別性が向上することが示唆された。 さらに、学術的な文章作成タスクに挑戦する文脈では、我々のメトリクスは、他のメトリクスが苦労する傾向にある信頼できる評価を提供しています。 さらに,基準テキストを欠いたシナリオにも有意な可能性を秘めている。

Evaluating large language models (LLMs) is fundamental, particularly in the context of practical applications. Conventional evaluation methods, typically designed primarily for LLM development, yield numerical scores that ignore the user experience. Therefore, our study shifts the focus from model-centered to human-centered evaluation in the context of AI-powered writing assistance applications. Our proposed metric, termed ``Revision Distance,'' utilizes LLMs to suggest revision edits that mimic the human writing process. It is determined by counting the revision edits generated by LLMs. Benefiting from the generated revision edit details, our metric can provide a self-explained text evaluation result in a human-understandable manner beyond the context-independent score. Our results show that for the easy-writing task, ``Revision Distance'' is consistent with established metrics (ROUGE, Bert-score, and GPT-score), but offers more insightful, detailed feedback and better distinguishes between texts. Moreover, in the context of challenging academic writing tasks, our metric still delivers reliable evaluations where other metrics tend to struggle. Furthermore, our metric also holds significant potential for scenarios lacking reference texts.
翻訳日:2024-04-11 13:51:53 公開日:2024-04-10
# ハイパースペクトル画像のサブスペースクラスタリングのための展開ADMM

Unfolding ADMM for Enhanced Subspace Clustering of Hyperspectral Images ( http://arxiv.org/abs/2404.07112v1 )

ライセンス: Link先を確認
Xianlu Li, Nicolas Nadisic, Shaoguang Huang, Aleksandra Pižurica, (参考訳) ディープサブスペースクラスタリング法はクラスタリングにおいて注目され、一般的には完全に接続されたネットワークと自己表現損失関数を使用する。 しかし、これらの手法は過度に適合し、解釈性に欠けることが多い。 本稿では,深部展開に基づくクラスタリング手法を提案する。 ニューラルネットワークに反復最適化手法を展開することにより、データ駆動型ディープラーニング手法と比較して解釈可能性と信頼性が向上し、モデルベースアプローチよりも適応性と一般化が向上する。 したがって、展開は画像復元、再構成、超解像などの逆画像問題で広く用いられるようになったが、クラスタリングの文脈では十分に研究されていない。 本研究では,部分空間クラスタリングのためのマルチプライヤの交互方向法(ADMM)に基づく反復解法を展開させることにより,ハイパースペクトル画像(HSI)のための革新的なクラスタリングアーキテクチャを提案する。 我々の知る限り、これはサブスペースクラスタリングにおける自己表現行列の計算に展開ADMMを適用する最初の試みである。 さらに,本手法では,構造保存モジュールの一部として,K近傍近傍のアルゴリズムを用いて,HSIデータの構造特性をよく把握する。 3つの確立されたHSIデータセットの実験的評価は、HSIクラスタリングにおける展開アプローチの可能性を明確に示し、最先端技術よりも優れた性能を示している。

Deep subspace clustering methods are now prominent in clustering, typically using fully connected networks and a self-representation loss function. However, these methods often struggle with overfitting and lack interpretability. In this paper, we explore an alternative clustering approach based on deep unfolding. By unfolding iterative optimization methods into neural networks, this approach offers enhanced interpretability and reliability compared to data-driven deep learning methods, and greater adaptability and generalization than model-based approaches. Hence, unfolding has become widely used in inverse imaging problems, such as image restoration, reconstruction, and super-resolution, but has not been sufficiently explored yet in the context of clustering. In this work, we introduce an innovative clustering architecture for hyperspectral images (HSI) by unfolding an iterative solver based on the Alternating Direction Method of Multipliers (ADMM) for sparse subspace clustering. To our knowledge, this is the first attempt to apply unfolding ADMM for computing the self-representation matrix in subspace clustering. Moreover, our approach captures well the structural characteristics of HSI data by employing the K nearest neighbors algorithm as part of a structure preservation module. Experimental evaluation of three established HSI datasets shows clearly the potential of the unfolding approach in HSI clustering and even demonstrates superior performance compared to state-of-the-art techniques.
翻訳日:2024-04-11 13:51:53 公開日:2024-04-10
# 非ガウス光学の古典シミュレーションと量子資源理論

Classical simulation and quantum resource theory of non-Gaussian optics ( http://arxiv.org/abs/2404.07115v1 )

ライセンス: Link先を確認
Oliver Hahn, Ryuji Takagi, Giulia Ferrini, Hayata Yamasaki, (参考訳) 非ガウス初期状態に適用されたガウスユニタリと測度を古典的にシミュレートする効率的なアルゴリズムを提案する。 構成は非ガウス状態をガウス状態の線型結合に分解することに基づいている。 共分散行列形式の拡張を用いて、ガウス状態の重ね合わせにおける相対位相を効率的に追跡する。 初期状態を表すのに必要なガウス状態の数と2次にスケールする正確なシミュレーションと、その次数に線形にスケールする近似シミュレーションアルゴリズムを得る。 我々は、このシミュレーションコストを定量化する非ガウス性(英語版)の尺度を定義し、ガウスランクとガウス範囲(英語版)と呼ぶ。 量子資源理論の観点から、このタイプの非ガウス性測度の性質を考察し、連続変数量子コンピューティングに関連する状態の最適分解を計算する。

We propose efficient algorithms for classically simulating Gaussian unitaries and measurements applied to non-Gaussian initial states. The constructions are based on decomposing the non-Gaussian states into linear combinations of Gaussian states. We use an extension of the covariance matrix formalism to efficiently track relative phases in the superpositions of Gaussian states. We get an exact simulation that scales quadratically with the number of Gaussian states required to represent the initial state and an approximate simulation algorithm that scales linearly with the degree. We define measures of non-Gaussianty quantifying this simulation cost, which we call the Gaussian rank and the Gaussian extent. From the perspective of quantum resource theories, we investigate the properties of this type of non-Gaussianity measure and compute optimal decomposition for states relevant to continuous-variable quantum computing.
翻訳日:2024-04-11 13:51:53 公開日:2024-04-10
# 運転注意追跡と分析

Driver Attention Tracking and Analysis ( http://arxiv.org/abs/2404.07122v1 )

ライセンス: Link先を確認
Dat Viet Thanh Nguyen, Anh Tran, Nam Vu, Cuong Pham, Minh Hoai, (参考訳) 車両のフロントガラスとダッシュボードに装着された通常の2台のカメラを用いて、運転者の視線を推定する新しい手法を提案する。 これは、未知の深さの3Dシーンを持つ交通環境のダイナミクスのため、難しい問題である。 この問題は、ドライバーとカメラシステムの間の揮発性距離によってさらに複雑になる。 これらの課題に対処するために、シーンの画像とドライバーの顔の画像を同時に解析する新しい畳み込みネットワークを開発する。 このネットワークは、ドライバとカメラシステムの間の空間構成を表す埋め込みベクトルを計算できるカメラキャリブレーションモジュールを有する。 このキャリブレーションモジュールは、ネットワーク全体のパフォーマンスを改善し、エンドツーエンドで共同でトレーニングすることができる。 また、注視アノテーションを用いた大規模運転データセットを導入することにより、トレーニングと評価のための注釈付きデータの欠如にも対処する。 これは都市部の実際の運転セッションのIn situデータセットで、運転シーンの同期画像と運転者の顔と視線を含む。 提案手法は, シーンカメラの平均誤差が29.69ピクセルであり, シーンカメラの解像度が1,1280{\timesの720ドルに対して比較的小さい。

We propose a novel method to estimate a driver's points-of-gaze using a pair of ordinary cameras mounted on the windshield and dashboard of a car. This is a challenging problem due to the dynamics of traffic environments with 3D scenes of unknown depths. This problem is further complicated by the volatile distance between the driver and the camera system. To tackle these challenges, we develop a novel convolutional network that simultaneously analyzes the image of the scene and the image of the driver's face. This network has a camera calibration module that can compute an embedding vector that represents the spatial configuration between the driver and the camera system. This calibration module improves the overall network's performance, which can be jointly trained end to end. We also address the lack of annotated data for training and evaluation by introducing a large-scale driving dataset with point-of-gaze annotations. This is an in situ dataset of real driving sessions in an urban city, containing synchronized images of the driving scene as well as the face and gaze of the driver. Experiments on this dataset show that the proposed method outperforms various baseline methods, having the mean prediction error of 29.69 pixels, which is relatively small compared to the $1280{\times}720$ resolution of the scene camera.
翻訳日:2024-04-11 13:51:53 公開日:2024-04-10
# 誘導頭部に何が必要か : 文脈内学習回路とその構成に関する力学的研究

What needs to go right for an induction head? A mechanistic study of in-context learning circuits and their formation ( http://arxiv.org/abs/2404.07129v1 )

ライセンス: Link先を確認
Aaditya K. Singh, Ted Moskovitz, Felix Hill, Stephanie C. Y. Chan, Andrew M. Saxe, (参考訳) インコンテキスト学習はトランスフォーマーモデルにおける強力な創発的能力である。 機械的解釈可能性に関する以前の研究は、文脈内学習において重要な回路要素である帰納的ヘッド(IH)を特定し、マッチ・アンド・コピー操作を行う。 自然言語データに対する大きなトランスフォーマーのトレーニング中、IHは損失の顕著な位相変化と同時期に出現する。 IHsの堅牢な証拠と相変化とのこの興味深い一致にもかかわらず、IHsの多様性と出現ダイナミクスについてはあまり知られていない。 なぜ複数のIHがあり、どのように互いに依存するのか? なぜ突然IHが出現し、それを可能にするサブサーキットは何か? 合成データのトレーニングによって制御された環境でIHの出現動態を研究することにより,これらの疑問に答える。 そこで我々は、学習を通してアクティベーションを変更するための、新しいオプトジェネティクスにインスパイアされた因果関係の枠組みを開発し、共有する。 このフレームワークを用いて、IHの多様で付加的な性質を概説する。 トレーニングを通して活性化のサブセットをクランプすることで、IH形成を促進するために相互作用する3つのサブ回路を同定し、位相変化をもたらす。 さらに、これらのサブ回路は、位相変化のタイミングのようなデータ依存的な形成特性に光を当て、誘導ヘッドのために「右に進む」必要があるサブ回路のより深い理解の可能性を既に示している。

In-context learning is a powerful emergent ability in transformer models. Prior work in mechanistic interpretability has identified a circuit element that may be critical for in-context learning -- the induction head (IH), which performs a match-and-copy operation. During training of large transformers on natural language data, IHs emerge around the same time as a notable phase change in the loss. Despite the robust evidence for IHs and this interesting coincidence with the phase change, relatively little is known about the diversity and emergence dynamics of IHs. Why is there more than one IH, and how are they dependent on each other? Why do IHs appear all of a sudden, and what are the subcircuits that enable them to emerge? We answer these questions by studying IH emergence dynamics in a controlled setting by training on synthetic data. In doing so, we develop and share a novel optogenetics-inspired causal framework for modifying activations throughout training. Using this framework, we delineate the diverse and additive nature of IHs. By clamping subsets of activations throughout training, we then identify three underlying subcircuits that interact to drive IH formation, yielding the phase change. Furthermore, these subcircuits shed light on data-dependent properties of formation, such as phase change timing, already showing the promise of this more in-depth understanding of subcircuits that need to "go right" for an induction head.
翻訳日:2024-04-11 13:51:53 公開日:2024-04-10
# 説明に基づくメンバーシップ推論攻撃のゲーム理論的理解に向けて

Towards a Game-theoretic Understanding of Explanation-based Membership Inference Attacks ( http://arxiv.org/abs/2404.07139v1 )

ライセンス: Link先を確認
Kavita Kumari, Murtuza Jadliwala, Sumit Kumar Jha, Anindya Maiti, (参考訳) モデル説明は、ブラックボックス機械学習(ML)モデルの透明性とそれらの決定を改善するが、メンバーシップ推論攻撃(MIA)のようなプライバシー上の脅威を実行するために利用することもできる。 既存の作業は、敵とターゲットMLモデルの間の単一の"What if"相互作用シナリオでのみMIAを分析しているため、繰り返しのインタラクション設定でMIAを起動する際の敵の能力に影響を与える要因を特定することはできない。 さらに、これらの研究は、対象モデルの構造に関する敵の知識に関する仮定に依存しており、したがって、メンバーと非メンバーを区別するために必要な事前定義されたしきい値の最適性を保証しない。 本稿では,対象MLモデルとそれに対応する説明方法からなるシステムとの反復的相互作用を通じて,説明の分散を利用してMIA攻撃を行おうとする敵の努力を,説明に基づくしきい値攻撃の領域を探索する。 連続時間確率的シグナリングゲームフレームワークを用いて,このようなインタラクションをモデル化する。 本フレームワークでは,システム(敵の種類に関する不完全な情報,すなわち正直または悪意)と対話して説明分散情報を取得し,データポイントのメンバシップを正確に決定するための最適なしきい値を算出する。 まず、このような最適しきい値が存在することを証明し、MIAの起動に使用できる音響数学的定式化を提案する。 そして、この力学系に一意なマルコフ完全平衡(あるいは定常状態)が存在する条件を特徴づける。 提案したゲームモデルの総合的なシミュレーションにより、このような反復的な相互作用設定において、敵がMIAを起動する能力に影響を与える様々な要因を評価する。

Model explanations improve the transparency of black-box machine learning (ML) models and their decisions; however, they can also be exploited to carry out privacy threats such as membership inference attacks (MIA). Existing works have only analyzed MIA in a single "what if" interaction scenario between an adversary and the target ML model; thus, it does not discern the factors impacting the capabilities of an adversary in launching MIA in repeated interaction settings. Additionally, these works rely on assumptions about the adversary's knowledge of the target model's structure and, thus, do not guarantee the optimality of the predefined threshold required to distinguish the members from non-members. In this paper, we delve into the domain of explanation-based threshold attacks, where the adversary endeavors to carry out MIA attacks by leveraging the variance of explanations through iterative interactions with the system comprising of the target ML model and its corresponding explanation method. We model such interactions by employing a continuous-time stochastic signaling game framework. In our framework, an adversary plays a stopping game, interacting with the system (having imperfect information about the type of an adversary, i.e., honest or malicious) to obtain explanation variance information and computing an optimal threshold to determine the membership of a datapoint accurately. First, we propose a sound mathematical formulation to prove that such an optimal threshold exists, which can be used to launch MIA. Then, we characterize the conditions under which a unique Markov perfect equilibrium (or steady state) exists in this dynamic system. By means of a comprehensive set of simulations of the proposed game model, we assess different factors that can impact the capability of an adversary to launch MIA in such repeated interaction settings.
翻訳日:2024-04-11 13:51:53 公開日:2024-04-10
# スワップASAPリピータチェーンのノイズ--正確な解析、分布、厳密な近似について

On noise in swap ASAP repeater chains: exact analytics, distributions and tight approximations ( http://arxiv.org/abs/2404.07146v1 )

ライセンス: Link先を確認
Kenneth Goodenough, Tim Coopmans, Don Towsley, (参考訳) 損失は量子ネットワークにおける絡み合いの分布の主要なボトルネックの1つであり、量子リピータの実装によって克服できる。 量子リピータ鎖の最も基本的な形は、交換ASAPリピータ鎖である。 このようなリレーダチェーンでは、2つの隣接リンクが生成されると、基本リンクが確率的に生成され、決定的にスワップされる。 各絡み合った状態が交換されるのを待っているとき、デコヒーレンスを経験し、チェーンの終端ノード間の絡み合った状態の忠実さをランダム変数に変換する。 リピータ連鎖が成長するにつれて(平均的な)忠実さを完全に特徴づけることは、まだ未解決の問題である。 ここでは、等間隔リピータの場合を解析的に調べ、最大25セグメントまでの忠実度の全モーメントについて正確な解析式を求める。 これらの式は生成関数の項で一般解を与えることにより得られる; マクロリン級数の n 項が n 個のセグメントの忠実さのモーメントを生じる関数。 本手法は,モンテカルロシミュレーションの必要性を排除し,カットオフパラメータの高速な最適化を可能にする。 さらに、指数的に厳密な平均忠実度を簡易に近似し、最大10個のセグメントに対して、提供された忠実度の完全な分布を求める。 本研究では,分散エンタングルメントを量子鍵分布に用いた場合の秘密鍵レートを,結合法と非結合法の両方で解析的に算出する。 続く研究では、統計物理学におけるモデルとの接続を利用して、不均一な多重粒子の場合の関心量の数値計算を行う。

Losses are one of the main bottlenecks for the distribution of entanglement in quantum networks, which can be overcome by the implementation of quantum repeaters. The most basic form of a quantum repeater chain is the swap ASAP repeater chain. In such a repeater chain, elementary links are probabilistically generated and deterministically swapped as soon as two adjacent links have been generated. As each entangled state is waiting to be swapped, decoherence is experienced, turning the fidelity of the entangled state between the end nodes of the chain into a random variable. Fully characterizing the (average) fidelity as the repeater chain grows is still an open problem. Here, we analytically investigate the case of equally-spaced repeaters, where we find exact analytic formulae for all moments of the fidelity up to 25 segments. We obtain these formulae by providing a general solution in terms of a generating function; a function whose n'th term in its Maclaurin series yields the moments of the fidelity for n segments. We generalize this approaches as well to a global cut-off policy -- a method for increasing fidelity at the cost of longer entanglement delivery times -- allowing for fast optimization of the cut-off parameter by eliminating the need for Monte Carlo simulation. We furthermore find simple approximations of the average fidelity that are exponentially tight, and, for up to 10 segments, the full distribution of the delivered fidelity. We use this to analytically calculate the secret-key rate when the distributed entanglement is used for quantum-key distribution, both with and without binning methods. In follow-up work we exploit a connection to a model in statistical physics to numerically calculate quantities of interest for the inhomogeneous multipartite case.
翻訳日:2024-04-11 13:51:53 公開日:2024-04-10
# 臨床医は如何に一致しているか : ダイナミクスモデルによる敗血症の進行予測可能性の評価

How Consistent are Clinicians? Evaluating the Predictability of Sepsis Disease Progression with Dynamics Models ( http://arxiv.org/abs/2404.07148v1 )

ライセンス: Link先を確認
Unnseo Park, Venkatesh Sivaraman, Adam Perer, (参考訳) 強化学習(Reinforcement Learning, RL)は、集中治療における敗血症患者に対する治療方針を作成するための有望なアプローチである。 振り返り評価の指標は、これらの方針に従うと死亡率が低下することを示しているが、臨床医による研究は、その推奨がしばしば刺激的であることを示唆している。 これらの欠点は, トレーニングデータにおける観察行動や結果の多様性の欠如によるものである可能性が示唆され, 臨床症状による敗血症の重症度変化の予測の可能性について検討する。 予備的な結果から, 行動情報の導入は, モデル性能を著しく向上させるものではないことが示唆された。 これらの所見が敗血症治療の最適化にもたらす影響について考察した。

Reinforcement learning (RL) is a promising approach to generate treatment policies for sepsis patients in intensive care. While retrospective evaluation metrics show decreased mortality when these policies are followed, studies with clinicians suggest their recommendations are often spurious. We propose that these shortcomings may be due to lack of diversity in observed actions and outcomes in the training data, and we construct experiments to investigate the feasibility of predicting sepsis disease severity changes due to clinician actions. Preliminary results suggest incorporating action information does not significantly improve model performance, indicating that clinician actions may not be sufficiently variable to yield measurable effects on disease progression. We discuss the implications of these findings for optimizing sepsis treatment.
翻訳日:2024-04-11 13:42:08 公開日:2024-04-10
# ハミング重み投影のための対数深さ量子回路

Logarithmic-Depth Quantum Circuits for Hamming Weight Projections ( http://arxiv.org/abs/2404.07151v1 )

ライセンス: Link先を確認
Soorya Rethinasamy, Margarite L. LaBorde, Mark M. Wilde, (参考訳) 固定ハミング重みの純粋な状態は計算基底状態の重ね合わせであり、重ね合わせにおける各ビットストリングは同じ数のものを持つ。 ヒルベルト空間が $\mathcal{H} = (\mathbb{C}_2)^{\otimes n}$ あるいは$n$-qubit の形で与えられると、恒等作用素は固定ハミング重みの部分空間への射影の和として分解できる。 本研究では,入力純状態におけるハミング重みのコヒーレントなプロジェクティブ測定を実現する量子アルゴリズムを提案し,このアルゴリズムのポスト測定状態が固定ハミング重みの対応する部分空間への入力状態のプロジェクションであることを示す。 我々は、対応する量子回路の深さ幅のトレードオフを分析し、より多くの制御量子ビットのコストで回路の深さの低減を可能にする。 n$-qubit入力に対して、深さ最適化アルゴリズムは$O(n)$制御キュービットを使用し、対応する回路は深さ$O(\log (n))$を持つ。 さらに,提案手法は1ビットと2ビットのゲートのみを用いる。

A pure state of fixed Hamming weight is a superposition of computational basis states such that each bitstring in the superposition has the same number of ones. Given a Hilbert space of the form $\mathcal{H} = (\mathbb{C}_2)^{\otimes n}$, or an $n$-qubit system, the identity operator can be decomposed as a sum of projectors onto subspaces of fixed Hamming weight. In this work, we propose several quantum algorithms that realize a coherent Hamming weight projective measurement on an input pure state, meaning that the post-measurement state of the algorithm is the projection of the input state onto the corresponding subspace of fixed Hamming weight. We analyze a depth-width trade-off for the corresponding quantum circuits, allowing for a depth reduction of the circuits at the cost of more control qubits. For an $n$-qubit input, the depth-optimal algorithm uses $O(n)$ control qubits and the corresponding circuit has depth $O(\log (n))$, assuming that we have the ability to perform qubit resets. Furthermore, the proposed algorithm construction uses only one- and two-qubit gates.
翻訳日:2024-04-11 13:42:08 公開日:2024-04-10
# 翻訳の損失:現代のニューラルネットワークはいまだに小さなリアルなイメージ変換に悩まされている

Lost in Translation: Modern Neural Networks Still Struggle With Small Realistic Image Transformations ( http://arxiv.org/abs/2404.07153v1 )

ライセンス: Link先を確認
Ofir Shifman, Yair Weiss, (参考訳) 画像分類において顕著な性能を発揮するディープニューラルネットワークは、これまで入力画像の1ピクセルの変換のような小さな変換によって容易に騙されることが示されてきた。 この問題に対処するため,近年2つのアプローチが提案されている。 最初のアプローチでは、非常に多様なトレーニングセットが、不変であることを学ぶために、巨大なデータセットとデータ拡張を使用することを提案する。 第二のアプローチは、画像翻訳を明示的に扱うためにサンプリング理論に基づくアーキテクチャ修正を使うことを提案する。 本稿では,カメラの向きの微妙な変化をシミュレートする「自然な」画像翻訳を頑健に扱う上で,これらのアプローチは依然として不十分であることを示す。 以上の結果から, LAION-2B や DINO-v2 で訓練されたオープンCLIP など, テスト画像の約40%は, たった1ピクセルの翻訳で予測された画像表現に顕著な変化が生じることが明らかとなった。 我々は,モデルの精度と多少のトレードオフはあるものの,任意の所望の一貫性を達成できることを証明できるシンプルな手法である,Crop Selectionによるロバスト推論を提案する。 重要なことは,この手法を用いることで,1ピクセルの翻訳で最先端のモデルを騙す能力が,1%の精度の低下に悩まされながら5%未満に低下することを示すことである。 さらに,本手法は円周シフトにも容易に対応できることを示す。 そのような場合、最先端の精度で整数シフトに対して100%堅牢性を達成することができ、それ以上の訓練は不要である。

Deep neural networks that achieve remarkable performance in image classification have previously been shown to be easily fooled by tiny transformations such as a one pixel translation of the input image. In order to address this problem, two approaches have been proposed in recent years. The first approach suggests using huge datasets together with data augmentation in the hope that a highly varied training set will teach the network to learn to be invariant. The second approach suggests using architectural modifications based on sampling theory to deal explicitly with image translations. In this paper, we show that these approaches still fall short in robustly handling 'natural' image translations that simulate a subtle change in camera orientation. Our findings reveal that a mere one-pixel translation can result in a significant change in the predicted image representation for approximately 40% of the test images in state-of-the-art models (e.g. open-CLIP trained on LAION-2B or DINO-v2) , while models that are explicitly constructed to be robust to cyclic translations can still be fooled with 1 pixel realistic (non-cyclic) translations 11% of the time. We present Robust Inference by Crop Selection: a simple method that can be proven to achieve any desired level of consistency, although with a modest tradeoff with the model's accuracy. Importantly, we demonstrate how employing this method reduces the ability to fool state-of-the-art models with a 1 pixel translation to less than 5% while suffering from only a 1% drop in classification accuracy. Additionally, we show that our method can be easy adjusted to deal with circular shifts as well. In such case we achieve 100% robustness to integer shifts with state-of-the-art accuracy, and with no need for any further training.
翻訳日:2024-04-11 13:42:08 公開日:2024-04-10
# 統一言語駆動ゼロショットドメイン適応

Unified Language-driven Zero-shot Domain Adaptation ( http://arxiv.org/abs/2404.07155v1 )

ライセンス: Link先を確認
Senqiao Yang, Zhuotao Tian, Li Jiang, Jiaya Jia, (参考訳) 本稿では,Unified Language-driven Zero-shot Domain Adaptation (ULDA)について紹介する。 既存の言語駆動型ゼロショットドメイン適応タスクの制約、特に柔軟性とスケーラビリティを制限できるドメインIDとドメイン固有モデルの要件を特定します。 これらの問題を解決するために,階層的コンテキストアライメント(HCA),ドメイン一貫性表現学習(DCRL),テキスト駆動整流器(TDR)からなるULDAの新しいフレームワークを提案する。 これらのコンポーネントは、複数の視覚レベルにわたってシミュレーションされた特徴を対象のテキストに整合させ、異なる地域表現間の意味的相関を保ち、シミュレーションされた特徴と実際の対象の視覚的特徴のバイアスを補正する。 このフレームワークはドメインIDを必要とするモデルよりも優れており、その優位性と一般化能力を示している。 提案手法は, 実効性だけでなく, 実効性や効率性も維持する。 私たちのプロジェクトページはhttps://senqiaoyang.com/project/ULDA です。

This paper introduces Unified Language-driven Zero-shot Domain Adaptation (ULDA), a novel task setting that enables a single model to adapt to diverse target domains without explicit domain-ID knowledge. We identify the constraints in the existing language-driven zero-shot domain adaptation task, particularly the requirement for domain IDs and domain-specific models, which may restrict flexibility and scalability. To overcome these issues, we propose a new framework for ULDA, consisting of Hierarchical Context Alignment (HCA), Domain Consistent Representation Learning (DCRL), and Text-Driven Rectifier (TDR). These components work synergistically to align simulated features with target text across multiple visual levels, retain semantic correlations between different regional representations, and rectify biases between simulated and real target visual features, respectively. Our extensive empirical evaluations demonstrate that this framework achieves competitive performance in both settings, surpassing even the model that requires domain-ID, showcasing its superiority and generalization ability. The proposed method is not only effective but also maintains practicality and efficiency, as it does not introduce additional computational costs during inference. Our project page is https://senqiaoyang.com/project/ULDA .
翻訳日:2024-04-11 13:42:08 公開日:2024-04-10
# 自閉症スペクトラム障害に対するバーチャルリアリティに基づく介入における生理的反応の探索--データ駆動による検討

Exploring Physiological Responses in Virtual Reality-based Interventions for Autism Spectrum Disorder: A Data-Driven Investigation ( http://arxiv.org/abs/2404.07159v1 )

ライセンス: Link先を確認
Gianpaolo Alvari, Ersilia Vallefuoco, Melanie Cristofolini, Elio Salvadori, Marco Dianti, Alessia Moltani, Davide Dal Castello, Paola Venuti, Cesare Furlanello, (参考訳) 自閉症スペクトラム障害(ASD)患者の社会的スキルと感情的幸福感を高めるための有望なツールとしてVR(Virtual Reality)が登場した。 技術的調査を通じて,本研究はVR内でのマルチプレイヤーゲーム環境を採用し,ASDと診断された34名の個人と,VRセッション中の参加者の覚醒と反応を包括的に見るために高精度バイオセンサーを用いた。 参加者は、コントロールと構造化された仮想環境において、社会的認知能力と感情的規制を促進するために、ステークホルダーと臨床専門家と共同で設計された3つの仮想シナリオに従属した。 生体信号取得のためのウェアラブル非侵襲センサと組み合わせ,心拍変動の収集と呼吸パターンに着目し,参加者の行動を監視する。 さらに, 観察および半構造化インタビューを用いて行動評価を行い, 相関関係を同定し, デジタル・インターベンションの有効性を探求するための生理的指標とともに分析した。 予備分析の結果,生理的反応と行動学的結果との間に有意な相関がみられた。 この研究は、仮想シナリオに適応するためにリアルタイムデータを使用することの可能性を示し、パーソナライズされた治療を支援するための有望な道のりを示唆した。 定量的生理的フィードバックをデジタルプラットフォームに統合することは、ASDに対するパーソナライズされた介入の前進である。 リアルタイムデータを利用して治療内容の調整を行うことで、デジタルベースの治療の有効性とエンゲージメントを高めることができる。

Virtual Reality (VR) has emerged as a promising tool for enhancing social skills and emotional well-being in individuals with Autism Spectrum Disorder (ASD). Through a technical exploration, this study employs a multiplayer serious gaming environment within VR, engaging 34 individuals diagnosed with ASD and employing high-precision biosensors for a comprehensive view of the participants' arousal and responses during the VR sessions. Participants were subjected to a series of 3 virtual scenarios designed in collaboration with stakeholders and clinical experts to promote socio-cognitive skills and emotional regulation in a controlled and structured virtual environment. We combined the framework with wearable non-invasive sensors for bio-signal acquisition, focusing on the collection of heart rate variability, and respiratory patterns to monitor participants behaviors. Further, behavioral assessments were conducted using observation and semi-structured interviews, with the data analyzed in conjunction with physiological measures to identify correlations and explore digital-intervention efficacy. Preliminary analysis revealed significant correlations between physiological responses and behavioral outcomes, indicating the potential of physiological feedback to enhance VR-based interventions for ASD. The study demonstrated the feasibility of using real-time data to adapt virtual scenarios, suggesting a promising avenue to support personalized therapy. The integration of quantitative physiological feedback into digital platforms represents a forward step in the personalized intervention for ASD. By leveraging real-time data to adjust therapeutic content, this approach promises to enhance the efficacy and engagement of digital-based therapies.
翻訳日:2024-04-11 13:42:08 公開日:2024-04-10
# 腱作動型連続ロボットにおけるニューラルネットワークによるヒステリシスのモデル化

Using Neural Networks to Model Hysteretic Kinematics in Tendon-Actuated Continuum Robots ( http://arxiv.org/abs/2404.07168v1 )

ライセンス: Link先を確認
Yuan Wang, Max McCandless, Abdulhamit Donder, Giovanni Pittiglio, Behnam Moradkhani, Yash Chitalia, Pierre E. Dupont, (参考訳) 深層学習アプローチを用いた腱作動型連続ロボットの機械的ヒステリック動作を正確にモデル化する能力は、注目の領域である。 本稿では,2種類の腱作動型連続ロボットのヒステリック応答について検討し,最終的には3種類のニューラルネットモデリング手法と,FNN(Feedforward Neural Network),FNN(History input buffer),Long Short-term memory(LSTM)の3種類のキネマティックマッピングを比較した。 どのモデルが最も時間依存的な振る舞いを捉えているかを決めようとしています。 ロボットの設計によっては、システムによってヒステリシスが提示されるかどうかを、異なるキネマティック入力を選択することで変更できることがわかった。 さらに, 標準FNNとは対照的に, 履歴入力バッファを持つFNNとLSTMモデルの両方が, 速度依存ヒステリシスの捕捉において, 比較した性能で履歴依存をモデル化する能力を示した。

The ability to accurately model mechanical hysteretic behavior in tendon-actuated continuum robots using deep learning approaches is a growing area of interest. In this paper, we investigate the hysteretic response of two types of tendon-actuated continuum robots and, ultimately, compare three types of neural network modeling approaches with both forward and inverse kinematic mappings: feedforward neural network (FNN), FNN with a history input buffer, and long short-term memory (LSTM) network. We seek to determine which model best captures temporal dependent behavior. We find that, depending on the robot's design, choosing different kinematic inputs can alter whether hysteresis is exhibited by the system. Furthermore, we present the results of the model fittings, revealing that, in contrast to the standard FNN, both FNN with a history input buffer and the LSTM model exhibit the capacity to model historical dependence with comparable performance in capturing rate-dependent hysteresis.
翻訳日:2024-04-11 13:42:08 公開日:2024-04-10
# アンロック量子最適化 : NISQシステムの事例研究

Unlocking Quantum Optimization: A Use Case Study on NISQ Systems ( http://arxiv.org/abs/2404.07171v1 )

ライセンス: Link先を確認
Andreas Sturm, Bharadwaj Mummaneni, Leon Rullkötter, (参考訳) 過去数十年における量子コンピューティングの大きな進歩は、様々な分野で最も困難な計算問題を解くために、量子コンピューティングを適用することに大きな関心を惹き付けてきた。 ここで最も顕著な分野の1つは最適化問題であり、その解決策として多くのアルゴリズム的アプローチが提案されている。 現在のノイズの多い中間規模量子(NISQ)コンピュータでは、量子近似最適化アルゴリズム(QAOA)、変分量子固有解法(VQE)、量子アニール法(QA)が問題クラスの中心となるアルゴリズムである。 前者はデジタルゲートモデル量子コンピュータで実行でき、後者は量子アニールを必要とする。 今日利用可能な量子コンピュータは、すべてのハードウェアアーキテクチャと製造装置の中で、一般的に量子最適化アルゴリズムから生じるように、関係する量子回路を確実に実行するにはエラーが発生しすぎるという特性を共有している。 既存の量子コンピュータの限界を特徴づけるために、多くのコンポーネントとシステムレベルのベンチマークが提案されている。 しかし、量子系におけるエラーの複雑な性質のため、これらのベンチマークは単純な量子回路や小さな例を超えた予測能力を提供できない。 この問題を改善するためにアプリケーション指向ベンチマークが提案されているが、実際の量子システムによる結果と、構築された学術的な例を超えたユースケースの両方が非常に稀である。 本論文は、電気自動車の充電スケジュールを最適化する分野と、トラック走行経路の最適化に関わる分野の2つの産業的ユースケースを考慮することで、このギャップを正確に解決する。 我々の中心的なコントリビューションは、IBMのゲートベース量子コンピュータの異なるプロセッサとD-Waveの量子アニール上で実行されるこれらのユースケースから導かれる系統的な一連の例である。

The major advances in quantum computing over the last few decades have sparked great interest in applying it to solve the most challenging computational problems in a wide variety of areas. One of the most pronounced domains here are optimization problems and a number of algorithmic approaches have been proposed for their solution. For the current noisy intermediate-scale quantum (NISQ) computers the quantum approximate optimization algorithm (QAOA), the variational quantum eigensolver (VQE), and quantum annealing (QA) are the central algorithms for this problem class. The two former can be executed on digital gate-model quantum computers, whereas the latter requires a quantum annealer. Across all hardware architectures and manufactures, the quantum computers available today share the property of being too error-prone to reliably execute involved quantum circuits as they typically arise from quantum optimization algorithms. In order to characterize the limits of existing quantum computers, many component and system level benchmarks have been proposed. However, owing to the complex nature of the errors in quantum systems these benchmark fail to provide predictive power beyond simple quantum circuits and small examples. Application oriented benchmarks have been proposed to remedy this problem, but both, results from real quantum systems as well as use cases beyond constructed academic examples, remain very rare. This paper addresses precisely this gap by considering two industrial relevant use cases: one in the realm of optimizing charging schedules for electric vehicles, the other concerned with the optimization of truck routes. Our central contribution are systematic series of examples derived from these uses cases that we execute on different processors of the gate-based quantum computers of IBM as well as on the quantum annealer of D-Wave.
翻訳日:2024-04-11 13:42:08 公開日:2024-04-10
# 基底状態に基づく量子特徴写像

Ground state-based quantum feature maps ( http://arxiv.org/abs/2404.07174v1 )

ライセンス: Link先を確認
Chukwudubem Umeano, Oleksandr Kyriienko, (参考訳) パラメータ化ハミルトンの基底状態の合成に基づく量子データ埋め込みプロトコルを提案する。 我々は、対応する量子特徴写像を解析し、トロッター化進化を伴う断熱的状態準備手順として再キャストする。 基礎となる量子モデルの特性をユビキタスなフーリエ型量子モデルと比較し、基底状態の埋め込みは、大きなモデルの容量に対応する量子ビットの数で急速に増加するスペクトルによって効果的に記述できることを示す。 スペクトルには大きな周波数の縮退が含まれており、モードの重み付け係数は高度に構造化されており、モデル表現性が制限される。 この結果は,量子データに基づくモデル理解へのステップを提供し,効率的な量子機械学習(QML)プロトコル構築に必要な基礎知識に寄与する。 古典的にシミュレートできないQMLプロトコルの設計には,非自明な埋め込みが不可欠である。

We introduce a quantum data embedding protocol based on the preparation of a ground state of a parameterized Hamiltonian. We analyze the corresponding quantum feature map, recasting it as an adiabatic state preparation procedure with Trotterized evolution. We compare the properties of underlying quantum models with ubiquitous Fourier-type quantum models, and show that ground state embeddings can be described effectively by a spectrum with degree that grows rapidly with the number of qubits, corresponding to a large model capacity. We observe that the spectrum contains massive frequency degeneracies, and the weighting coefficients for the modes are highly structured, thus limiting model expressivity. Our results provide a step towards understanding models based on quantum data, and contribute to fundamental knowledge needed for building efficient quantum machine learning (QML) protocols. As non-trivial embeddings are crucial for designing QML protocols that cannot be simulated classically, our findings guide the search for high-capacity quantum models that can largely outperform classical models.
翻訳日:2024-04-11 13:42:08 公開日:2024-04-10
# スペクトル反射による水シーンの自己監督型単分子深度推定

Self-supervised Monocular Depth Estimation on Water Scenes via Specular Reflection Prior ( http://arxiv.org/abs/2404.07176v1 )

ライセンス: Link先を確認
Zhengyang Lu, Ying Chen, (参考訳) 単一画像からの単眼深度推定は、従来の知識として信頼性の低いキューが不足しているため、コンピュータビジョンにとって不適切な問題である。 フレーム間の監督、すなわちステレオフレームと隣接フレームに加えて、広範囲の事前情報が同じフレームで利用可能である。 鏡面からの反射, 情報的フレーム内先行の反射は, 多視点合成として不測の深度推定タスクを再構成することを可能にする。 本稿では,反射監督法と幾何学的制約法として知られるフレーム内先行手法を用いて,水面の深層深度推定のための最初のセルフスーパービジョンを提案する。 第1段階では、反射成分と全体像とを分離する分水ネットワークが実行される。 次に、他の視点として認識される反射からターゲットの外観を予測するための自己教師型フレームワークを構築する。 SmoothL1と新しい光度適応SSIMを組み込んだ光度再投影誤差を定式化し、変換された仮想深度とソースを整列させてポーズと深さの推定を最適化する。 補足として、水面は、水深を補完する実物および仮想カメラ位置から決定される。 さらに,これらの難易度の高い真実アノテーションを緩和するために,Unreal Engine 4から作成した大規模水反射シーン(WRS)データセットを導入する。 WRSデータセットの大規模な実験は、最先端深度推定手法と比較して提案手法の有効性を証明している。

Monocular depth estimation from a single image is an ill-posed problem for computer vision due to insufficient reliable cues as the prior knowledge. Besides the inter-frame supervision, namely stereo and adjacent frames, extensive prior information is available in the same frame. Reflections from specular surfaces, informative intra-frame priors, enable us to reformulate the ill-posed depth estimation task as a multi-view synthesis. This paper proposes the first self-supervision for deep-learning depth estimation on water scenes via intra-frame priors, known as reflection supervision and geometrical constraints. In the first stage, a water segmentation network is performed to separate the reflection components from the entire image. Next, we construct a self-supervised framework to predict the target appearance from reflections, perceived as other perspectives. The photometric re-projection error, incorporating SmoothL1 and a novel photometric adaptive SSIM, is formulated to optimize pose and depth estimation by aligning the transformed virtual depths and source ones. As a supplement, the water surface is determined from real and virtual camera positions, which complement the depth of the water area. Furthermore, to alleviate these laborious ground truth annotations, we introduce a large-scale water reflection scene (WRS) dataset rendered from Unreal Engine 4. Extensive experiments on the WRS dataset prove the feasibility of the proposed method compared to state-of-the-art depth estimation techniques.
翻訳日:2024-04-11 13:42:08 公開日:2024-04-10
# データフィルタリングのスケーリング法則 -- データキュレーションは計算に依存しない

Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic ( http://arxiv.org/abs/2404.07177v1 )

ライセンス: Link先を確認
Sachin Goyal, Pratyush Maini, Zachary C. Lipton, Aditi Raghunathan, J. Zico Kolter, (参考訳) ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。 近年、データキュレーションは、「生」スクラップデータの「高品質」なサブセットを維持するための戦略を開発するいくつかの研究で注目されている。 例えば、LAIONのパブリックデータセットは、全クロールデータの10%しか保持していない。 しかし、これらの戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。 本稿では,訓練計算とは無関係にフィルタ決定を行うことが,しばしば準最適であることを示す。 この品質-量子トレードオフ($\texttt{QQT}$)に対処するため、既存の文献では無視されているウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。 スケーリング法則 i) Webデータの様々な品質サブセットの$\textit{differing}$ 'utility'を特徴付ける。 二 効用がその「n番目の」繰り返しでデータポイントの効用が低下する理由を記載すること。 三 各種データプールの相互相互作用を定式化することにより、複数のデータプールの組み合わせにおけるモデル性能を、共同でトレーニングすることなく推定することができる。 私たちのキーとなるメッセージは、データキュレーション$\textit{cannot}$は、モデルがトレーニングされるであろう合計計算を知らないことです。 我々のスケーリング法則は、さまざまな計算予算でDatacompで最高のパフォーマンスを達成するための最高のプールをキュレートし、データキュレーションのためのパレトフロンティアを彫刻します。 コードはhttps://github.com/locuslab/scaling_laws_data_filteringで公開されている。

Vision-language models (VLMs) are trained for thousands of GPU hours on carefully curated web datasets. In recent times, data curation has gained prominence with several works developing strategies to retain 'high-quality' subsets of 'raw' scraped data. For instance, the LAION public dataset retained only 10% of the total crawled data. However, these strategies are typically developed agnostic of the available compute for training. In this paper, we first demonstrate that making filtering decisions independent of training compute is often suboptimal: the limited high-quality data rapidly loses its utility when repeated, eventually requiring the inclusion of 'unseen' but 'lower-quality' data. To address this quality-quantity tradeoff ($\texttt{QQT}$), we introduce neural scaling laws that account for the non-homogeneous nature of web data, an angle ignored in existing literature. Our scaling laws (i) characterize the $\textit{differing}$ 'utility' of various quality subsets of web data; (ii) account for how utility diminishes for a data point at its 'nth' repetition; and (iii) formulate the mutual interaction of various data pools when combined, enabling the estimation of model performance on a combination of multiple data pools without ever jointly training on them. Our key message is that data curation $\textit{cannot}$ be agnostic of the total compute that a model will be trained for. Our scaling laws allow us to curate the best possible pool for achieving top performance on Datacomp at various compute budgets, carving out a pareto-frontier for data curation. Code is available at https://github.com/locuslab/scaling_laws_data_filtering.
翻訳日:2024-04-11 13:42:08 公開日:2024-04-10
# 層状シーン拡散による移動

Move Anything with Layered Scene Diffusion ( http://arxiv.org/abs/2404.07178v1 )

ライセンス: Link先を確認
Jiawei Ren, Mengmeng Xu, Jui-Chieh Wu, Ziwei Liu, Tao Xiang, Antoine Toisoul, (参考訳) 拡散モデルは前例のない画質の画像を生成しますが、どのように自由に画像レイアウトを再構成できますか? 近年の研究では、空間的に不整合な潜伏符号を学習することで制御可能なシーンを生成するが、これらの手法は、その固定された前進過程のために拡散モデルには適用されない。 本研究では,拡散サンプリング過程におけるシーン表現の階層化を最適化するSceneDiffusionを提案する。 我々の重要な洞察は、異なる空間配置のシーンレンダリングを共同でデノベートすることで、空間的ゆがみを得ることができることである。 生成したシーンは、移動、再サイズ、クローニング、オブジェクトの再構成や置換を含むレイヤワイドな外観編集操作を含む、幅広い空間編集操作をサポートする。 さらに、シーンを基準画像に条件付けして生成することができるので、被写体を移動させることが可能である。 特に、このアプローチはトレーニングフリーで、一般的なテキストから画像への拡散モデルと互換性があり、1秒未満で応答する。

Diffusion models generate images with an unprecedented level of quality, but how can we freely rearrange image layouts? Recent works generate controllable scenes via learning spatially disentangled latent codes, but these methods do not apply to diffusion models due to their fixed forward process. In this work, we propose SceneDiffusion to optimize a layered scene representation during the diffusion sampling process. Our key insight is that spatial disentanglement can be obtained by jointly denoising scene renderings at different spatial layouts. Our generated scenes support a wide range of spatial editing operations, including moving, resizing, cloning, and layer-wise appearance editing operations, including object restyling and replacing. Moreover, a scene can be generated conditioned on a reference image, thus enabling object moving for in-the-wild images. Notably, this approach is training-free, compatible with general text-to-image diffusion models, and responsive in less than a second.
翻訳日:2024-04-11 13:42:08 公開日:2024-04-10
# GCV-Turbo:FPGAによるGNNベースのコンピュータビジョンタスクのエンドツーエンド高速化

GCV-Turbo: End-to-end Acceleration of GNN-based Computer Vision Tasks on FPGA ( http://arxiv.org/abs/2404.07188v1 )

ライセンス: Link先を確認
Bingyi Zhang, Rajgopal Kannan, Carl Busart, Viktor Prasanna, (参考訳) グラフニューラルネットワーク(GNN)は最近、様々な新しいコンピュータビジョン(CV)タスクに権限を与えている。 GNNベースのCVタスクでは、CNN層とGNN層の組み合わせ、あるいはGNN層のみを使用する。 本稿では,FPGA上のドメイン固有アクセラレータであるGCV-Turboについて紹介する。 GCV-Turbo は、(1) CNN と GNN の両方の計算カーネルに最適化された \emph{novel} ハードウェアアーキテクチャで、同じ計算リソースセットを使用する。 2) PyTorch互換コンパイラは,ユーザ定義モデルを入力として,所定のGNNベースのCVタスクの計算グラフをエンドツーエンドに最適化し,ハードウェア実行のための最適化コードを生成する。 ハードウェアアーキテクチャとコンパイラは、様々なGNNベースのCVタスクをサポートするために相乗的に機能する。 我々は,最新のFPGA上にGCV-Turboを実装し,GNNをベースとした6つの代表的CVタスク(画像,人体骨格,点クラウドなど)の性能評価を行った。 最先端のCPU(GPU)実装と比較すると、GCV-Turboは6つのGNNベースのCVタスクで平均6.8.4\times$(4.1\times$)のレイテンシ削減を実現している。 さらに、GCV-TurboはスタンドアロンのCNNまたはGNNの実行をサポートし、広く使われているCNNのみ(GNNのみ)モデルに対して、最先端のCNN(GNN)アクセラレータに匹敵するパフォーマンスを達成する。

Graph neural networks (GNNs) have recently empowered various novel computer vision (CV) tasks. In GNN-based CV tasks, a combination of CNN layers and GNN layers or only GNN layers are employed. This paper introduces GCV-Turbo, a domain-specific accelerator on FPGA for end-to-end acceleration of GNN-based CV tasks. GCV-Turbo consists of two key components: (1) a \emph{novel} hardware architecture optimized for the computation kernels in both CNNs and GNNs using the same set of computation resources. (2) a PyTorch-compatible compiler that takes a user-defined model as input, performs end-to-end optimization for the computation graph of a given GNN-based CV task, and produces optimized code for hardware execution. The hardware architecture and the compiler work synergistically to support a variety of GNN-based CV tasks. We implement GCV-Turbo on a state-of-the-art FPGA and evaluate its performance across six representative GNN-based CV tasks with diverse input data modalities (e.g., image, human skeleton, point cloud). Compared with state-of-the-art CPU (GPU) implementations, GCV-Turbo achieves an average latency reduction of $68.4\times$ ($4.1\times$) on these six GNN-based CV tasks. Moreover, GCV-Turbo supports the execution of the standalone CNNs or GNNs, achieving performance comparable to that of state-of-the-art CNN (GNN) accelerators for widely used CNN-only (GNN-only) models.
翻訳日:2024-04-11 13:42:08 公開日:2024-04-10
# InstantMesh: スパースビュー大再構成モデルを用いた単一画像からの効率的な3Dメッシュ生成

InstantMesh: Efficient 3D Mesh Generation from a Single Image with Sparse-view Large Reconstruction Models ( http://arxiv.org/abs/2404.07191v1 )

ライセンス: Link先を確認
Jiale Xu, Weihao Cheng, Yiming Gao, Xintao Wang, Shenghua Gao, Ying Shan, (参考訳) InstantMeshは、単一の画像からインスタント3Dメッシュを生成するためのフィードフォワードフレームワークで、最先端の生成品質とトレーニングのスケーラビリティを特徴とする。 既製のマルチビュー拡散モデルとLRMアーキテクチャに基づくスパースビュー再構成モデルの強みを相乗化することにより、InstantMeshは10秒以内に多様な3Dアセットを作成することができる。 トレーニング効率を向上し,例えば深度や正規度などの幾何学的監督を活用すべく,我々は,微分可能な等表面抽出モジュールを我々のフレームワークに統合し,メッシュ表現を直接最適化する。 公開データセットに関する実験結果によると、InstantMeshは他の最新の画像から3Dのベースラインよりも質的にも定量的にも大幅に上回っている。 InstantMeshのコード、重み、デモをすべてリリースし、3D生成AIのコミュニティに多大な貢献をし、研究者とコンテンツクリエーターの両方に力を与えることを意図しています。

We present InstantMesh, a feed-forward framework for instant 3D mesh generation from a single image, featuring state-of-the-art generation quality and significant training scalability. By synergizing the strengths of an off-the-shelf multiview diffusion model and a sparse-view reconstruction model based on the LRM architecture, InstantMesh is able to create diverse 3D assets within 10 seconds. To enhance the training efficiency and exploit more geometric supervisions, e.g, depths and normals, we integrate a differentiable iso-surface extraction module into our framework and directly optimize on the mesh representation. Experimental results on public datasets demonstrate that InstantMesh significantly outperforms other latest image-to-3D baselines, both qualitatively and quantitatively. We release all the code, weights, and demo of InstantMesh, with the intention that it can make substantial contributions to the community of 3D generative AI and empower both researchers and content creators.
翻訳日:2024-04-11 13:42:08 公開日:2024-04-10
# 決定性に基づく量子論のオントロジー

An indeterminacy-based ontology for quantum theory ( http://arxiv.org/abs/2404.07197v1 )

ライセンス: Link先を確認
Francisco Pipa, (参考訳) 私は、生成量子理論(GQT)と呼ばれる量子理論の新しいオントロジー(または量子理論の「解釈」)を提示し、擁護する。 オントロジーは、世界は本質的に不定性を持つ実体によって構成されるという意味で不定性を持つことができると仮定する。 決定的な値が生まれ、持続する過程は、異なる量子論において異なる。 GRW, many-Worlds Interpretation と single-world Relationist theory, Bohmian Mechanics, hybrid classical-quantum theory, and Environmental Determinacy-based (EnD) Quantum Theory。 さらに、量子状態は決定性をもたらす量子の性質と構造を表し、それぞれの量子理論は特定の特徴を持つ構造を規定する。 私は、GQTは、現在の影響力のあるオントロジー、すなわち波動関数リアリズムと原始オントロジーにいくつかのコストがかからない一連の利益をもたらすので、真剣に受け止めるべきである、と論じます。 さらに、これはEnD量子理論のような相対論的因果関係と明確に一致した量子理論の定式化を可能にする。 最後に、GQTが、異なる量子理論を比較して評価する新しい方法を提供しているかを示す。

I present and defend a new ontology for quantum theories (or "interpretations" of quantum theory) called Generative Quantum Theory (GQT). The ontology assumes that the world can be fundamentally indeterminate in the sense of being constituted by entities with indeterminate properties. The process via which determinate values arise and persist differs in different quantum theories. I will focus on the following quantum theories: GRW, the Many-Worlds Interpretation and single-world relationalist theories, Bohmian Mechanics, hybrid classical-quantum theories, and Environmental Determinacy-based (EnD) Quantum Theory. Moreover, quantum states represent quantum properties and structures that give rise to determinacy, and each quantum theory specifies a structure with specific features. I will argue that GQT should be taken seriously because it provides a series of benefits that current influential ontologies lack, namely, wavefunction realism and primitive ontology, without some of their costs. Furthermore, it allows for the formulation of quantum theories that are clearly compatible with relativistic causality, such as EnD Quantum Theory. Finally, I will show how GQT provides a new way to compare and evaluate different quantum theories.
翻訳日:2024-04-11 13:42:08 公開日:2024-04-10
# フーリエニューラル演算子のより良い理解に向けて:スペクトルから見た解析と改善

Toward a Better Understanding of Fourier Neural Operators: Analysis and Improvement from a Spectral Perspective ( http://arxiv.org/abs/2404.07200v1 )

ライセンス: Link先を確認
Shaoxiang Qin, Fuyuan Lyu, Wenhui Peng, Dingyang Geng, Ju Wang, Naiping Gao, Xue Liu, Liangzhu Leon Wang, (参考訳) 偏微分方程式(PDE)の解法において、フーリエニューラルネットワーク(FNO)は畳み込みニューラルネットワーク(CNN)と比較して顕著な効果を示した。 本稿では、スペクトル分析により、FNOのCNNに対する優位性を明らかにすることにより、FNOの低周波数学習能力が著しく向上することを示す。 この実証的な証拠はまた、FNOの顕著な低周波バイアスを明らかにしており、これはPDEデータから高周波情報を学ぶ際のFNOの有効性を制限している。 この課題に対処するために、複数のFNOを用いて高周波情報をよりよくキャプチャするアンサンブル学習フレームワークであるSpecBoostを紹介した。 具体的には、二次FNOを用いて、初期FNOの予測残差から見落としている高周波情報を学習する。 SpecBoostは様々なPDEアプリケーションにおいてFNOの予測精度を著しく向上し、最大71%の改善を実現している。

In solving partial differential equations (PDEs), Fourier Neural Operators (FNOs) have exhibited notable effectiveness compared to Convolutional Neural Networks (CNNs). This paper presents clear empirical evidence through spectral analysis to elucidate the superiority of FNO over CNNs: FNO is significantly more capable of learning low-frequencies. This empirical evidence also unveils FNO's distinct low-frequency bias, which limits FNO's effectiveness in learning high-frequency information from PDE data. To tackle this challenge, we introduce SpecBoost, an ensemble learning framework that employs multiple FNOs to better capture high-frequency information. Specifically, a secondary FNO is utilized to learn the overlooked high-frequency information from the prediction residual of the initial FNO. Experiments demonstrate that SpecBoost noticeably enhances FNO's prediction accuracy on diverse PDE applications, achieving an up to 71% improvement.
翻訳日:2024-04-11 13:42:08 公開日:2024-04-10
# ソフトセット操作のための部分空間表現と文類似性

Subspace Representations for Soft Set Operations and Sentence Similarities ( http://arxiv.org/abs/2210.13034v4 )

ライセンス: Link先を確認
Yoichi Ishibashi, Sho Yokoi, Katsuhito Sudoh, Satoshi Nakamura, (参考訳) 自然言語処理(NLP)の分野では、連続ベクトル表現は個々の単語の意味を捉えるのに不可欠である。 しかし、単語の集合の表現に関しては、従来のベクトルベースのアプローチは表現性に苦しむことが多く、結合、交叉、補集合といった基本的な集合の操作が欠如している。 量子論理に着想を得て,事前学習した単語埋め込み空間内の単語集合とそれに対応する集合演算の表現を実現する。 線形部分空間にアプローチを基礎づけることで、様々な集合演算の効率的な計算を可能にし、連続空間内のメンバシップ関数のソフト計算を容易にする。 さらに、単語ベクトル内で直接Fスコアの計算を行うことで、文の類似性を評価するための直接的なリンクを確立する。 広く使われている事前学習型埋め込みとベンチマークの実験では、我々のサブスペースベースの集合演算は、文類似性および集合検索タスクの両方において、ベクトルベースの演算よりも一貫して優れていた。

In the field of natural language processing (NLP), continuous vector representations are crucial for capturing the semantic meanings of individual words. Yet, when it comes to the representations of sets of words, the conventional vector-based approaches often struggle with expressiveness and lack the essential set operations such as union, intersection, and complement. Inspired by quantum logic, we realize the representation of word sets and corresponding set operations within pre-trained word embedding spaces. By grounding our approach in the linear subspaces, we enable efficient computation of various set operations and facilitate the soft computation of membership functions within continuous spaces. Moreover, we allow for the computation of the F-score directly within word vectors, thereby establishing a direct link to the assessment of sentence similarity. In experiments with widely-used pre-trained embeddings and benchmarks, we show that our subspace-based set operations consistently outperform vector-based ones in both sentence similarity and set retrieval tasks.
翻訳日:2024-04-11 11:44:40 公開日:2024-04-10
# ブリッジングアルゴリズム情報理論と機械学習:カーネル学習の新しいアプローチ

Bridging Algorithmic Information Theory and Machine Learning: A New Approach to Kernel Learning ( http://arxiv.org/abs/2311.12624v3 )

ライセンス: Link先を確認
Boumediene Hamzi, Marcus Hutter, Houman Owhadi, (参考訳) 機械学習(ML)とアルゴリズム情報理論(AIT)は、異なる観点から複雑性を考察する。 本稿では,AIT と Kernel Methods (ML で広く用いられている) のインターフェースを,Sparse Kernel Flows の手法を用いて,データ,カーネルリッジ回帰におけるカーネルの学習問題に対する AIT の視点を用いて検討する。 特に、最小記述長(MDL)と機械学習における正規化(RML)の違いと共通点から、スパースカーネルフローの手法がデータからカーネルを学習するための自然なアプローチであることを証明する。 このアプローチはMDLの原則と自然に一致し、既存のクロスバリデーションへの依存よりもより堅牢な理論的基盤を提供する。 この研究によると、スパースカーネルフローの導出は統計的なアプローチを必要としない。代わりに、AITの中心となる概念であるコード長や複雑さに直接関わることができる。 これにより、AITのツールを使って機械学習のアルゴリズムを再構築する扉が開き、より強固な理論的基盤を提供する。

Machine Learning (ML) and Algorithmic Information Theory (AIT) look at Complexity from different points of view. We explore the interface between AIT and Kernel Methods (that are prevalent in ML) by adopting an AIT perspective on the problem of learning kernels from data, in kernel ridge regression, through the method of Sparse Kernel Flows. In particular, by looking at the differences and commonalities between Minimal Description Length (MDL) and Regularization in Machine Learning (RML), we prove that the method of Sparse Kernel Flows is the natural approach to adopt to learn kernels from data. This approach aligns naturally with the MDL principle, offering a more robust theoretical basis than the existing reliance on cross-validation. The study reveals that deriving Sparse Kernel Flows does not require a statistical approach; instead, one can directly engage with code-lengths and complexities, concepts central to AIT. Thereby, this approach opens the door to reformulating algorithms in machine learning using tools from AIT, with the aim of providing them a more solid theoretical foundation.
翻訳日:2024-04-11 11:44:40 公開日:2024-04-10
# LLMを併用したゼロショット臨床試験

Zero-Shot Clinical Trial Patient Matching with LLMs ( http://arxiv.org/abs/2402.05125v3 )

ライセンス: Link先を確認
Michael Wornow, Alejandro Lozano, Dev Dash, Jenelle Jindal, Kenneth W. Mahaffey, Nigam H. Shah, (参考訳) 患者を臨床試験に合わせることは、新しい薬を市場に出す上で、未解決の課題だ。 今日では、臨床試験の適格基準を満たす患者を特定することは非常に手作業であり、患者1人につき最大1時間かかる。 しかし、構造化されていない臨床テキストを理解する必要があるため、自動スクリーニングは難しい。 大規模言語モデル(LLM)は有望なソリューションを提供する。 本研究では,その試行錯誤への応用について検討する。 まず,患者の病歴を構造化されていない臨床テキストとして考慮し,その患者が包括的基準(フリーテキストとしても指定されている)を満たしているかどうかを評価する。 我々のゼロショットシステムは、n2c2 2018コホート選択ベンチマークで最先端のスコアを達成します。 第2に,本手法のデータとコスト効率を,患者に比較して,より高速かつ安価に整合するプロンプト戦略を同定し,高い性能を維持しつつ,最大3分の1のトークン処理量を削減できる2段階の検索パイプラインを開発した。 第3に, 臨床医にLLMが生成した自然言語の正当性を評価し, 正しい判断の97%, 正しくない判断の75%のコヒーレントな説明を出力できることを示す。 本研究は,臨床治験を加速するためのLSMの有用性を実証するものである。

Matching patients to clinical trials is a key unsolved challenge in bringing new drugs to market. Today, identifying patients who meet a trial's eligibility criteria is highly manual, taking up to 1 hour per patient. Automated screening is challenging, however, as it requires understanding unstructured clinical text. Large language models (LLMs) offer a promising solution. In this work, we explore their application to trial matching. First, we design an LLM-based system which, given a patient's medical history as unstructured clinical text, evaluates whether that patient meets a set of inclusion criteria (also specified as free text). Our zero-shot system achieves state-of-the-art scores on the n2c2 2018 cohort selection benchmark. Second, we improve the data and cost efficiency of our method by identifying a prompting strategy which matches patients an order of magnitude faster and more cheaply than the status quo, and develop a two-stage retrieval pipeline that reduces the number of tokens processed by up to a third while retaining high performance. Third, we evaluate the interpretability of our system by having clinicians evaluate the natural language justifications generated by the LLM for each eligibility decision, and show that it can output coherent explanations for 97% of its correct decisions and 75% of its incorrect ones. Our results establish the feasibility of using LLMs to accelerate clinical trial operations.
翻訳日:2024-04-11 11:44:40 公開日:2024-04-10
# LongVLM: 大規模言語モデルによる効率的なロングビデオ理解

LongVLM: Efficient Long Video Understanding via Large Language Models ( http://arxiv.org/abs/2404.03384v2 )

ライセンス: Link先を確認
Yuetian Weng, Mingfei Han, Haoyu He, Xiaojun Chang, Bohan Zhuang, (参考訳) 大規模言語モデル (LLMs) を取り入れた最近のビデオLLMの進歩は、様々なビデオ理解タスクの進歩を促している。 これらのモデルは、膨大な数のビジュアルトークンにプールやクエリアグリゲーションを通じてビデオ表現をエンコードし、計算とメモリのコストを安くする。 ビデオコンテンツの全体的な理解を成功させたにもかかわらず、既存のビデオLLMは、長期的なビデオのローカル情報を見渡すことによって、ビデオの詳細な理解を達成する上で、依然として課題に直面している。 この課題に対処するために、LongVLMは、長いビデオを理解するための単純だが強力なビデオLLMであり、長いビデオは、しばしばシーケンシャルなキーイベント、複雑なアクション、カメラの動きで構成されている、という観測に基づいて構築されている。 提案手法では,長い動画を複数の短期セグメントに分割し,階層的なトークンマージモジュールを通じて各局所セグメントの局所的特徴を符号化する。 これらの特徴は、逐次的な短期セグメント間のストーリーラインを維持するために、時間順に連結される。 さらに,グローバルなセマンティクスを各ローカル機能に統合し,コンテキスト理解を強化することを提案する。 このようにして、ローカル情報とグローバル情報の両方を包含した映像表現を符号化し、LLMが長期ビデオに対して包括的な応答を生成できるようにする。 VideoChatGPTベンチマークとゼロショットビデオ質問応答データセットによる実験結果から,従来の最先端手法に比べて,我々のモデルが優れていることを示す。 定性的な例は、我々のモデルが長いビデオ理解のためにより正確な応答を生成することを示している。 コードはhttps://github.com/ziplab/LongVLM.comから入手できる。

Empowered by Large Language Models (LLMs), recent advancements in VideoLLMs have driven progress in various video understanding tasks. These models encode video representations through pooling or query aggregation over a vast number of visual tokens, making computational and memory costs affordable. Despite successfully providing an overall comprehension of video content, existing VideoLLMs still face challenges in achieving detailed understanding in videos due to overlooking local information in long-term videos. To tackle this challenge, we introduce LongVLM, a straightforward yet powerful VideoLLM for long video understanding, building upon the observation that long videos often consist of sequential key events, complex actions, and camera movements. Our approach proposes to decompose long videos into multiple short-term segments and encode local features for each local segment via a hierarchical token merging module. These features are concatenated in temporal order to maintain the storyline across sequential short-term segments. Additionally, we propose to integrate global semantics into each local feature to enhance context understanding. In this way, we encode video representations that incorporate both local and global information, enabling the LLM to generate comprehensive responses for long-term videos. Experimental results on the VideoChatGPT benchmark and zero-shot video question-answering datasets demonstrate the superior capabilities of our model over the previous state-of-the-art methods. Qualitative examples demonstrate that our model produces more precise responses for long videos understanding. Code will be available at https://github.com/ziplab/LongVLM.
翻訳日:2024-04-11 11:44:40 公開日:2024-04-10
# AUEditNet: 意図しない絡み合いを伴うデュアルブランチ・ファシアル・アクション・ユニット・インテンシティ・マニピュレーション

AUEditNet: Dual-Branch Facial Action Unit Intensity Manipulation with Implicit Disentanglement ( http://arxiv.org/abs/2404.05063v2 )

ライセンス: Link先を確認
Shiwei Jin, Zhen Wang, Lei Wang, Peng Liu, Ning Bi, Truong Nguyen, (参考訳) 顔面動作単位(AU)強度は、表情操作の有効な条件であるきめ細かい表情行動の定量化において重要な役割を担っている。 しかし、複数のAUに対する強度アノテーションを含む公開データセットは、しばしば限られた数の被験者を特徴とする、非常に制限されたままである。 この制限は、歪み問題による画像のAU強度の操作に課題を与え、研究者は擬似ラベルのための事前訓練されたAU強度推定器を備えた他の大きなデータセットを利用するようになった。 この制約に対処し、正確な操作のためにAUインテンシティのマニュアルアノテーションを完全に活用する際、AUEditNetを紹介します。 提案したモデルでは, 被験者18名に対して, 12AUに対して印象的な強度操作が可能であった。 両ブランチアーキテクチャを用いることで、損失関数の追加や大規模なバッチサイズの実装を必要とせず、顔の属性とアイデンティティの包括的切り離しを実現する。 このアプローチは、データセットの被写体数に制限があるにもかかわらず、望ましい顔属性の編集を実現する潜在的なソリューションを提供する。 実験では、AUEditNetがAU強度の編集に優れていることを実証し、限られた被写体プール内で顔の特徴やアイデンティティを識別する能力を確認した。 AUEditNetは、強度値またはターゲット画像による条件付けを可能にし、特定の表情合成のためにAUの組み合わせを構築する必要がなくなる。 さらに、下流タスクとしてのAU強度推定は、実際の画像と編集された画像との整合性を検証し、提案手法の有効性を確認する。

Facial action unit (AU) intensity plays a pivotal role in quantifying fine-grained expression behaviors, which is an effective condition for facial expression manipulation. However, publicly available datasets containing intensity annotations for multiple AUs remain severely limited, often featuring a restricted number of subjects. This limitation places challenges to the AU intensity manipulation in images due to disentanglement issues, leading researchers to resort to other large datasets with pretrained AU intensity estimators for pseudo labels. In addressing this constraint and fully leveraging manual annotations of AU intensities for precise manipulation, we introduce AUEditNet. Our proposed model achieves impressive intensity manipulation across 12 AUs, trained effectively with only 18 subjects. Utilizing a dual-branch architecture, our approach achieves comprehensive disentanglement of facial attributes and identity without necessitating additional loss functions or implementing with large batch sizes. This approach offers a potential solution to achieve desired facial attribute editing despite the dataset's limited subject count. Our experiments demonstrate AUEditNet's superior accuracy in editing AU intensities, affirming its capability in disentangling facial attributes and identity within a limited subject pool. AUEditNet allows conditioning by either intensity values or target images, eliminating the need for constructing AU combinations for specific facial expression synthesis. Moreover, AU intensity estimation, as a downstream task, validates the consistency between real and edited images, confirming the effectiveness of our proposed AU intensity manipulation method.
翻訳日:2024-04-11 11:44:40 公開日:2024-04-10
# パーソナライズされたビデオゲズ推定のための時空間注意とガウス過程

Spatio-Temporal Attention and Gaussian Processes for Personalized Video Gaze Estimation ( http://arxiv.org/abs/2404.05215v2 )

ライセンス: Link先を確認
Swati Jindal, Mohit Yadav, Roberto Manduchi, (参考訳) 迷路は人間の行動や注意を解析するための重要なプロンプトである。 近年,顔画像から視線方向を決定することへの関心が高まっている。 しかしながら、ビデオ視線推定は、ビデオシーケンスにおける視線の動的進化の理解、静的背景の扱い、照明のバリエーションへの適応など、重大な課題に直面している。 これらの課題に対処するために,ビデオからの視線推定を目的とした,シンプルで斬新なディープラーニングモデルを提案する。 本手法では,ビデオ内の空間的ダイナミクスを追跡する空間的注意機構を用いる。 この技術は、時間的シーケンスモデルによる正確な視線方向予測を可能にし、空間観測を時間的洞察に変換することにより、視線推定精度を大幅に向上させる。 さらに,本手法はガウス過程を統合し,個々の特徴を包含し,少数のラベル付きサンプルを用いてモデルのパーソナライズを容易にする。 実験の結果,提案手法の有効性を確認し,データセット内設定とデータセット間設定の両方でその成功を実証した。 具体的には,提案手法はGaze360データセット上での最先端性能を実現し,パーソナライズなしで2.5^\circ$に改善する。 さらに、3つのサンプルでモデルをパーソナライズすることで、$0.8^\circ$のさらなる改善を実現した。 コードと事前トレーニングされたモデルは、 \url{https://github.com/jswati31/stage}で利用できる。

Gaze is an essential prompt for analyzing human behavior and attention. Recently, there has been an increasing interest in determining gaze direction from facial videos. However, video gaze estimation faces significant challenges, such as understanding the dynamic evolution of gaze in video sequences, dealing with static backgrounds, and adapting to variations in illumination. To address these challenges, we propose a simple and novel deep learning model designed to estimate gaze from videos, incorporating a specialized attention module. Our method employs a spatial attention mechanism that tracks spatial dynamics within videos. This technique enables accurate gaze direction prediction through a temporal sequence model, adeptly transforming spatial observations into temporal insights, thereby significantly improving gaze estimation accuracy. Additionally, our approach integrates Gaussian processes to include individual-specific traits, facilitating the personalization of our model with just a few labeled samples. Experimental results confirm the efficacy of the proposed approach, demonstrating its success in both within-dataset and cross-dataset settings. Specifically, our proposed approach achieves state-of-the-art performance on the Gaze360 dataset, improving by $2.5^\circ$ without personalization. Further, by personalizing the model with just three samples, we achieved an additional improvement of $0.8^\circ$. The code and pre-trained models are available at \url{https://github.com/jswati31/stage}.
翻訳日:2024-04-11 11:37:32 公開日:2024-04-10
# オープンメタバースの基盤としてのWebXR, Aフレーム, Networked-Aframe

WebXR, A-Frame and Networked-Aframe as a Basis for an Open Metaverse: A Conceptual Architecture ( http://arxiv.org/abs/2404.05317v2 )

ライセンス: Link先を確認
Giuseppe Macario, (参考訳) 本研究では、オープンでアクセス可能で相互運用可能なメタバースの開発を容易にするために、Aフレームフレームワークとネットワークフレームフレームワークを活用する、WebXRベースのクロスプラットフォーム概念アーキテクチャを提案する。 空間的ウェブアプリの概念を導入することにより、この研究はメタバースについての議論に寄与し、仮想環境へのアクセスを民主化し、ウェブを通じて現実を拡張したアーキテクチャを提供し、Tim Berners-Lee氏のWorld Wide Webという当初のビジョンをデジタル領域のオープンプラットフォームとして扱う。

This work proposes a WebXR-based cross-platform conceptual architecture, leveraging the A-Frame and Networked-Aframe frameworks, in order to facilitate the development of an open, accessible, and interoperable metaverse. By introducing the concept of spatial web app, this research contributes to the discourse on the metaverse, offering an architecture that democratizes access to virtual environments and extended reality through the web, and aligns with Tim Berners-Lee's original vision of the World Wide Web as an open platform in the digital realm.
翻訳日:2024-04-11 11:37:32 公開日:2024-04-10
# IA2: 分散ワークロードの強化学習によるインスタンス対応インデックスアドバイザの活用

IA2: Leveraging Instance-Aware Index Advisor with Reinforcement Learning for Diverse Workloads ( http://arxiv.org/abs/2404.05777v2 )

ライセンス: Link先を確認
Taiyi Wang, Eiko Yoneki, (参考訳) 本研究は,候補候補の大きな行動空間に面したデータベースにおけるインデックス選択を最適化するための,DRLに基づく新しいアプローチであるインスタンス・アウェア・インデックス・アドバイザ(IA2)を紹介する。 IA2 では Twin Delayed Deep Deterministic Policy Gradient - Temporal difference State-Wise Action Refinery (TD3-TD-SWAR) モデルを導入している。 この方法は、包括的なワークロードモデルを含み、目に見えないワークロードに適応する能力を高め、さまざまなデータベース環境における堅牢なパフォーマンスを保証する。 TPC-Hなどのベンチマークによる評価では、IA2が推奨する実行時インデックスのパフォーマンス向上、複雑なTPC-Hワークロードのランタイムの40%削減、既存の最先端DRLベースのインデックスアドバイザよりも20%改善されている。

This study introduces the Instance-Aware Index Advisor (IA2), a novel deep reinforcement learning (DRL)-based approach for optimizing index selection in databases facing large action spaces of potential candidates. IA2 introduces the Twin Delayed Deep Deterministic Policy Gradient - Temporal Difference State-Wise Action Refinery (TD3-TD-SWAR) model, enabling efficient index selection by understanding workload-index dependencies and employing adaptive action masking. This method includes a comprehensive workload model, enhancing its ability to adapt to unseen workloads and ensuring robust performance across diverse database environments. Evaluation on benchmarks such as TPC-H reveals IA2's suggested indexes' performance in enhancing runtime, securing a 40% reduction in runtime for complex TPC-H workloads compared to scenarios without indexes, and delivering a 20% improvement over existing state-of-the-art DRL-based index advisors.
翻訳日:2024-04-11 11:37:32 公開日:2024-04-10
# 二次元量子物質の量子コンピューティングトポロジカル不変量

Quantum computing topological invariants of two-dimensional quantum matter ( http://arxiv.org/abs/2404.06048v2 )

ライセンス: Link先を確認
Marcel Niedermeier, Marc Nairn, Christian Flindt, Jose L. Lado, (参考訳) 量子アルゴリズムは、古典的な方法で難解な計算問題を解くための潜在的戦略を提供する。 トポロジカル不変量の計算は、量子材料の研究における中心的な問題であり、この目的のための様々な数値的なアプローチが開発されている。 しかし、量子多体ハミルトニアンの複雑さは、相互作用する系において位相不変量の計算を困難にしている。 本稿では,量子コンピュータ上での二次元量子物質のチャーン数を計算するための2つの量子回路を提案する。 どちらの回路も、離散化されたブリルアンゾーン上のゲートベースの断熱時間進化と特定の位相推定技術を組み合わせている。 最初のアルゴリズムは多くの量子ビットを使用し、量子回路のテンソルネットワークシミュレータを用いて解析する。 第2の回路はより少ない量子ビットを使用し、超伝導量子ビットに基づく量子コンピュータで実験的に実装する。 本研究では,量子回路を用いたトポロジカル不変量計算手法を確立し,量子コンピュータを用いた相互作用するトポロジカル量子物体のキャラクタリゼーションに向けた一歩を踏み出した。

Quantum algorithms provide a potential strategy for solving computational problems that are intractable by classical means. Computing the topological invariants of topological matter is one central problem in research on quantum materials, and a variety of numerical approaches for this purpose have been developed. However, the complexity of quantum many-body Hamiltonians makes calculations of topological invariants challenging for interacting systems. Here, we present two quantum circuits for calculating Chern numbers of two-dimensional quantum matter on quantum computers. Both circuits combine a gate-based adiabatic time-evolution over the discretized Brillouin zone with particular phase estimation techniques. The first algorithm uses many qubits, and we analyze it using a tensor-network simulator of quantum circuits. The second circuit uses fewer qubits, and we implement it experimentally on a quantum computer based on superconducting qubits. Our results establish a method for computing topological invariants with quantum circuits, taking a step towards characterizing interacting topological quantum matter using quantum computers.
翻訳日:2024-04-11 11:37:32 公開日:2024-04-10
# 離散音声単位チャレンジを用いた2024音声間処理のX-LANCE技術報告

The X-LANCE Technical Report for Interspeech 2024 Speech Processing Using Discrete Speech Unit Challenge ( http://arxiv.org/abs/2404.06079v2 )

ライセンス: Link先を確認
Yiwei Guo, Chenrun Wang, Yifan Yang, Hankun Wang, Ziyang Ma, Chenpeng Du, Shuai Wang, Hanzheng Li, Shuai Fan, Hui Zhang, Xie Chen, Kai Yu, (参考訳) 離散音声トークンは、自動音声認識(ASR)、テキスト音声合成(TTS)、歌声合成(SVS)など、複数の音声処理分野でますます普及している。 本稿では,TS (音響+ボコーダ) , SVS, ASR トラックのための SJTU X-LANCE グループが開発したシステムについて述べる。 特に,TTSトラックのリーダーボードにおいて,トレーニングセット全体と1時間トレーニングデータの両方で1位を獲得し,UTMOSスコアが最高,ビットレートが最低であった。

Discrete speech tokens have been more and more popular in multiple speech processing fields, including automatic speech recognition (ASR), text-to-speech (TTS) and singing voice synthesis (SVS). In this paper, we describe the systems developed by the SJTU X-LANCE group for the TTS (acoustic + vocoder), SVS, and ASR tracks in the Interspeech 2024 Speech Processing Using Discrete Speech Unit Challenge. Notably, we achieved 1st rank on the leaderboard in the TTS track both with the whole training set and only 1h training data, with the highest UTMOS score and lowest bitrate among all submissions.
翻訳日:2024-04-11 11:37:32 公開日:2024-04-10
# 肺転移をともなう原発性肺癌と悪性腫瘍の鑑別にFew-Shot Learningを応用した気管支内超音波による細胞像診断

Using Few-Shot Learning to Classify Primary Lung Cancer and Other Malignancy with Lung Metastasis in Cytological Imaging via Endobronchial Ultrasound Procedures ( http://arxiv.org/abs/2404.06080v2 )

ライセンス: Link先を確認
Ching-Kai Lin, Di-Chun Wei, Yun-Chien Cheng, (参考訳) 本研究の目的は, 子宮内膜超音波(EBUS)手術のためのコンピュータ支援診断システムを構築し, 転移性癌の術前診断を支援することである。 これは、EBUS手術後の他の転移性癌の部位の即時検査をアレンジし、報告を待つ必要をなくし、待機時間を半分以上短縮し、患者が他のがんを早期に検出できるようにし、早期の計画と治療計画の実施を可能にする。 トレーニング用データセットが豊富である従来の細胞画像分類法とは異なり, 本研究は肺転移癌の症例データが少ないにもかかわらず, 効果的な分類が可能でなければならない。 小規模なデータセット分類手法の分野では、近年FSL(Few-shot Learning)が主流となっている。 小データセットのトレーニングと強力な一般化能力を通じて、FSLは肺転移細胞画像分類のこの課題における可能性を示す。 本研究は、Few-shot Learningのアプローチを採用し、既存のモデルを参照し、肺転移細胞画像の分類のためのモデルアーキテクチャを設計する。 バッチスペクトル正規化(BSR)は損失更新パラメータとして組み込まれ,PMFのファインチューン法が修正される。 試験結果では、BSRと修正されたファインチューン法がさらに精度を8.89%から65.60%向上させ、他のFSL法よりも優れていた。 本研究は, 転移性腫瘍の分類において, FSL が教師および転写学習より優れていることを確認し, BSR を損失関数として使用し, ファネチューンを修飾することにより, モデルの能力を向上できることを示した。

This study aims to establish a computer-aided diagnosis system for endobronchial ultrasound (EBUS) surgery to assist physicians in the preliminary diagnosis of metastatic cancer. This involves arranging immediate examinations for other sites of metastatic cancer after EBUS surgery, eliminating the need to wait for reports, thereby shortening the waiting time by more than half and enabling patients to detect other cancers earlier, allowing for early planning and implementation of treatment plans. Unlike previous studies on cell image classification, which have abundant datasets for training, this study must also be able to make effective classifications despite the limited amount of case data for lung metastatic cancer. In the realm of small data set classification methods, Few-shot learning (FSL) has become mainstream in recent years. Through its ability to train on small datasets and its strong generalization capabilities, FSL shows potential in this task of lung metastatic cell image classification. This study will adopt the approach of Few-shot learning, referencing existing proposed models, and designing a model architecture for classifying lung metastases cell images. Batch Spectral Regularization (BSR) will be incorporated as a loss update parameter, and the Finetune method of PMF will be modified. In terms of test results, the addition of BSR and the modified Finetune method further increases the accuracy by 8.89% to 65.60%, outperforming other FSL methods. This study confirms that FSL is superior to supervised and transfer learning in classifying metastatic cancer and demonstrates that using BSR as a loss function and modifying Finetune can enhance the model's capabilities.
翻訳日:2024-04-11 11:37:32 公開日:2024-04-10
# 開語彙HOI検出のための大規模基礎モデルの可能性を探る

Exploring the Potential of Large Foundation Models for Open-Vocabulary HOI Detection ( http://arxiv.org/abs/2404.06194v2 )

ライセンス: Link先を確認
Ting Lei, Shaofeng Yin, Yang Liu, (参考訳) 自然言語で案内される新規なHOIを検出することに関わるオープン・ボキャブラリ・ヒューマン・オブジェクト・インタラクション(HOI)検出は,人間中心のシーンを理解する上で重要である。 しかしながら、以前のゼロショットHOI検出器は、異なる距離でHOIをモデル化するために、同じレベルの特徴マップを使用することが多く、幅広い距離を持つ人間と物体のペアを含むシーンにおいて、最適以下のパフォーマンスをもたらす。 さらに、これらの検出器は主にカテゴリ名に依存しており、言語が提供できる豊富な文脈情報を見落としている。 本稿では,視覚言語モデル(VLM)の可能性を生かした,条件付き多レベル復号化と細粒度セマンティックエンハンスメント(CMD-SE)を備えた新しいエンドツーエンドオープン語彙HOI検出フレームワークを提案する。 具体的には,両部間マッチングプロセス中にソフト制約を組み込むことで,特徴マップのレベルが異なる距離の人物体対をモデル化することを提案する。 さらに,GPTモデルなどの大規模言語モデル(LLM)を活用することで,人間の身体部分状態の記述を多種多様なインタラクションに活用する。 次に,人体部分の汎用的,きめ細かな意味論を統合し,インタラクション認識を改善する。 SWIG-HOI とHICO-DET の2つの実験結果から,提案手法が開語彙HOI 検出の最先端化を実現することを示す。 コードとモデルはhttps://github.com/ltttpku/CMD-SE-releaseで公開されている。

Open-vocabulary human-object interaction (HOI) detection, which is concerned with the problem of detecting novel HOIs guided by natural language, is crucial for understanding human-centric scenes. However, prior zero-shot HOI detectors often employ the same levels of feature maps to model HOIs with varying distances, leading to suboptimal performance in scenes containing human-object pairs with a wide range of distances. In addition, these detectors primarily rely on category names and overlook the rich contextual information that language can provide, which is essential for capturing open vocabulary concepts that are typically rare and not well-represented by category names alone. In this paper, we introduce a novel end-to-end open vocabulary HOI detection framework with conditional multi-level decoding and fine-grained semantic enhancement (CMD-SE), harnessing the potential of Visual-Language Models (VLMs). Specifically, we propose to model human-object pairs with different distances with different levels of feature maps by incorporating a soft constraint during the bipartite matching process. Furthermore, by leveraging large language models (LLMs) such as GPT models, we exploit their extensive world knowledge to generate descriptions of human body part states for various interactions. Then we integrate the generalizable and fine-grained semantics of human body parts to improve interaction recognition. Experimental results on two datasets, SWIG-HOI and HICO-DET, demonstrate that our proposed method achieves state-of-the-art results in open vocabulary HOI detection. The code and models are available at https://github.com/ltttpku/CMD-SE-release.
翻訳日:2024-04-11 11:37:32 公開日:2024-04-10
# 一般化可能なサーカスム検出は、もちろんコーナーのすぐ近く!

Generalizable Sarcasm Detection Is Just Around The Corner, Of Course! ( http://arxiv.org/abs/2404.06357v2 )

ライセンス: Link先を確認
Hyewon Jang, Diego Frassinelli, (参考訳) ラベルソース(著者対第三者)、ドメイン(ソーシャルメディア/オンライン対オフライン会話/対話)、スタイル(攻撃的対ユーモラスモック)の4つのサルカズムデータセットを微調整し、サルカズム検出モデルのロバスト性を検証した。 私たちは、同じデータセット(イントラデータセット)と異なるデータセット(クロスデータセット)で予測性能をテストしました。 データセット内予測では、モデルが著者ラベルではなく、サードパーティラベルで微調整された場合、一貫してパフォーマンスが向上した。 データセット間の予測では、ほとんどのモデルは他のデータセットとよく一致せず、あるタイプのデータセットは異なるスタイルやドメインであらゆる種類の皮肉を表現できないことを示唆している。 既存のデータセットと比較して、本研究でリリースした新しいデータセットを微調整したモデルは、他のデータセットに対して最も高い一般化性を示した。 データセットの手動検査とポストホック解析によって、一般化の難しさは、サルカズムが実際には異なるドメインやスタイルから来ているという事実に起因している。 今後のサルカズム研究は、広い範囲のサルカズムを考慮に入れるべきである。

We tested the robustness of sarcasm detection models by examining their behavior when fine-tuned on four sarcasm datasets containing varying characteristics of sarcasm: label source (authors vs. third-party), domain (social media/online vs. offline conversations/dialogues), style (aggressive vs. humorous mocking). We tested their prediction performance on the same dataset (intra-dataset) and across different datasets (cross-dataset). For intra-dataset predictions, models consistently performed better when fine-tuned with third-party labels rather than with author labels. For cross-dataset predictions, most models failed to generalize well to the other datasets, implying that one type of dataset cannot represent all sorts of sarcasm with different styles and domains. Compared to the existing datasets, models fine-tuned on the new dataset we release in this work showed the highest generalizability to other datasets. With a manual inspection of the datasets and post-hoc analysis, we attributed the difficulty in generalization to the fact that sarcasm actually comes in different domains and styles. We argue that future sarcasm research should take the broad scope of sarcasm into account.
翻訳日:2024-04-11 11:37:32 公開日:2024-04-10
# デジタルエージェントの自律的評価とリファインメント

Autonomous Evaluation and Refinement of Digital Agents ( http://arxiv.org/abs/2404.06474v2 )

ライセンス: Link先を確認
Jiayi Pan, Yichi Zhang, Nicholas Tomlin, Yifei Zhou, Sergey Levine, Alane Suhr, (参考訳) ドメイン汎用自動評価器は,Webナビゲーションやデバイス制御のためのエージェントの性能を大幅に向上させることができることを示す。 推論コスト、設計のモジュラリティ、精度をトレードオフする複数の評価モデルを試行する。 我々は、これらのモデルの性能をいくつかの一般的なデジタルエージェントのベンチマークで検証し、オラクル評価指標との74.4から92.9%の一致を見出した。 最後に、これらの評価器を用いて、微調整および推論時ガイダンスにより既存のエージェントの性能を向上させる。 さらなる監視がなければ、一般的なベンチマークであるWebArenaでは、最先端のパフォーマンスを29%向上させ、挑戦的なドメイン転送シナリオにおいて75%の相対的な改善を実現します。

We show that domain-general automatic evaluators can significantly improve the performance of agents for web navigation and device control. We experiment with multiple evaluation models that trade off between inference cost, modularity of design, and accuracy. We validate the performance of these models in several popular benchmarks for digital agents, finding between 74.4 and 92.9% agreement with oracle evaluation metrics. Finally, we use these evaluators to improve the performance of existing agents via fine-tuning and inference-time guidance. Without any additional supervision, we improve state-of-the-art performance by 29% on the popular benchmark WebArena, and achieve a 75% relative improvement in a challenging domain transfer scenario.
翻訳日:2024-04-11 11:37:32 公開日:2024-04-10
# テキストによるベクトルグラフィクスの推論

Text-Based Reasoning About Vector Graphics ( http://arxiv.org/abs/2404.06479v2 )

ライセンス: Link先を確認
Zhenhailong Wang, Joy Hsu, Xingyao Wang, Kuan-Hao Huang, Manling Li, Jiajun Wu, Heng Ji, (参考訳) 大規模なマルチモーダルモデルは広いビジョン言語ベンチマークで優れているが、線長の比較や単純な迷路の解法など、低レベルの視覚的詳細を正確に認識するタスクに苦慮することが多い。 特に、この障害モードは、ベクトルグラフィックスに関する質問応答タスクで持続する。 この課題に対処するために,ベクトルグラフィックスに関するテキストベースの推論を行うVisually Descriptive Language Model (VDLM)を提案する。 VDLMは、より正確なビジュアル記述のために、スケーラブルベクトルグラフィックス(SVG)を活用し、最初にエンコーディングのために、既製のラスター・ツー・SVGアルゴリズムを使用する。 既存の言語モデルはゼロショット設定では生のSVGを理解できないため、VDLMは新しく導入された中間記号表現であるPrimal Visual Description (PVD)を通じて、SVGを事前訓練された言語モデルでブリッジする。 PVDはタスクに依存しず、全てのベクトルグラフィックスで普遍的な視覚的プリミティブを表す。 手続き的に生成された (SVG, PVD) ペアで学習でき、複雑な推論タスクへの一般化に LLM を直接使用することができる。 画像をテキストベース表現にキャストすることで、言語モデルのパワーを活用して、SVGからビジュアルプリミティブへのアライメントを学び、目に見えない質問応答タスクに一般化することができる。 実験結果から,VDLMはGPT-4Vのような最先端のLMMと比較して,低レベルのマルチモーダル認識やベクトルグラフィックスの推論タスクにおいて,より強力なゼロショット性能を実現することが示された。 また,VDLMの性能に関する広範囲な分析を行い,このフレームワークは,その不整合認識と推論プロセスにより,より優れた解釈性を提供することを示した。 プロジェクトページ: https://mikewangwzhl.github.io/VDLM/

While large multimodal models excel in broad vision-language benchmarks, they often struggle with tasks requiring precise perception of low-level visual details, such as comparing line lengths or solving simple mazes. In particular, this failure mode persists in question-answering tasks about vector graphics -- images composed purely of 2D objects and shapes. To address this challenge, we propose the Visually Descriptive Language Model (VDLM), which performs text-based reasoning about vector graphics. VDLM leverages Scalable Vector Graphics (SVG) for a more precise visual description and first uses an off-the-shelf raster-to-SVG algorithm for encoding. Since existing language models cannot understand raw SVGs in a zero-shot setting, VDLM then bridges SVG with pretrained language models through a newly introduced intermediate symbolic representation, Primal Visual Description (PVD), comprising primitive attributes (e.g., shape, position, measurement) with their corresponding predicted values. PVD is task-agnostic and represents visual primitives that are universal across all vector graphics. It can be learned with procedurally generated (SVG, PVD) pairs and also enables the direct use of LLMs for generalization to complex reasoning tasks. By casting an image to a text-based representation, we can leverage the power of language models to learn alignment from SVG to visual primitives and generalize to unseen question-answering tasks. Empirical results show that VDLM achieves stronger zero-shot performance compared to state-of-the-art LMMs, such as GPT-4V, in various low-level multimodal perception and reasoning tasks on vector graphics. We additionally present extensive analyses on VDLM's performance, demonstrating that our framework offers better interpretability due to its disentangled perception and reasoning processes. Project page: https://mikewangwzhl.github.io/VDLM/
翻訳日:2024-04-11 11:37:32 公開日:2024-04-10
# Ada-LEval: 長さ適応型ベンチマークによるLLMの評価

Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks ( http://arxiv.org/abs/2404.06480v2 )

ライセンス: Link先を確認
Chonghua Wang, Haodong Duan, Songyang Zhang, Dahua Lin, Kai Chen, (参考訳) 近年,大規模言語モデル(LLM)コミュニティは,極めて長い文書を扱うLLMの能力向上への関心が高まっている。 様々な長文技術やモデルアーキテクチャが出現するにつれて、モデルの長文能力の正確かつ詳細な評価がますます重要になっている。 L-EvalやLongBenchといった既存の長文評価ベンチマークでは、QAや要約タスクを中心に、オープンソースのデータセットに基づいた長文テストセットを構築している。 これらのデータセットには、さまざまな長さ(2kから32k+)が絡み合ったテストサンプルが含まれており、異なる長さ範囲にわたるモデル機能の評価が困難である。 さらに、最新のLCMが達成しようとする超長い設定(100k+トークン)をカバーしていない。 本稿では,LLMの長文理解を評価するための長さ適応型ベンチマークであるAda-LEvalを紹介する。 Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。 これらのベンチマークは、テストケースの長さの複雑な操作をサポートし、128万トークンまでのテキストサンプルを簡単に生成できる。 Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。 評価結果は、特にウルトラ・ロング・コンテクスト・セッティングにおいて、現在のLLMの限界を示す。 私たちのコードはhttps://github.com/open-compass/Ada-LEval.comで利用可能です。

Recently, the large language model (LLM) community has shown increasing interest in enhancing LLMs' capability to handle extremely long documents. As various long-text techniques and model architectures emerge, the precise and detailed evaluation of models' long-text capabilities has become increasingly important. Existing long-text evaluation benchmarks, such as L-Eval and LongBench, construct long-text test sets based on open-source datasets, focusing mainly on QA and summarization tasks. These datasets include test samples of varying lengths (from 2k to 32k+) entangled together, making it challenging to assess model capabilities across different length ranges. Moreover, they do not cover the ultralong settings (100k+ tokens) that the latest LLMs claim to achieve. In this paper, we introduce Ada-LEval, a length-adaptable benchmark for evaluating the long-context understanding of LLMs. Ada-LEval includes two challenging subsets, TSort and BestAnswer, which enable a more reliable evaluation of LLMs' long context capabilities. These benchmarks support intricate manipulation of the length of test cases, and can easily produce text samples up to 128k tokens. We evaluate 4 state-of-the-art closed-source API models and 6 open-source models with Ada-LEval. The evaluation results demonstrate the limitations of current LLMs, especially in ultra-long-context settings. Our code is available at https://github.com/open-compass/Ada-LEval.
翻訳日:2024-04-11 11:37:32 公開日:2024-04-10
# 光子で空を飛ぶ:光をプロパゲーティングする新しい視点をレンダリングする

Flying with Photons: Rendering Novel Views of Propagating Light ( http://arxiv.org/abs/2404.06493v2 )

ライセンス: Link先を確認
Anagh Malik, Noah Juravsky, Ryan Po, Gordon Wetzstein, Kiriakos N. Kutulakos, David B. Lindell, (参考訳) 本稿では,新しい移動カメラの視点から,シーンを通して伝播する光の映像を合成する画像・ニューラルレンダリング技術を提案する。 我々のアプローチは、ピコ秒レベルの時間分解能を持つファースト・オブ・イットタイプの多視点ビデオデータセットをキャプチャするための、新しい超高速撮像装置に依存している。 このデータセットと組み合わせて、過渡場に基づく効率的なニューラルネットワークボリュームレンダリングフレームワークを導入する。 このフィールドは、3次元点と2次元方向から超高速な時間スケールでの時間変化ラディアンスを表す高次元離散時間信号へのマッピングとして定義される。 過渡場によるレンダリングは、カメラへの光の伝搬遅延に起因する視点依存的な外観変化を含む、光の有限速による効果を自然に説明する。 我々は散乱、スペクトル反射、屈折、回折を含む様々な複雑な効果を描画する。 また,光伝送の直接的および大域的成分の映像合成と相対論的効果のレンダリングにより,視点依存性の伝搬遅延の除去を実演する。

We present an imaging and neural rendering technique that seeks to synthesize videos of light propagating through a scene from novel, moving camera viewpoints. Our approach relies on a new ultrafast imaging setup to capture a first-of-its kind, multi-viewpoint video dataset with picosecond-level temporal resolution. Combined with this dataset, we introduce an efficient neural volume rendering framework based on the transient field. This field is defined as a mapping from a 3D point and 2D direction to a high-dimensional, discrete-time signal that represents time-varying radiance at ultrafast timescales. Rendering with transient fields naturally accounts for effects due to the finite speed of light, including viewpoint-dependent appearance changes caused by light propagation delays to the camera. We render a range of complex effects, including scattering, specular reflection, refraction, and diffraction. Additionally, we demonstrate removing viewpoint-dependent propagation delays using a time warping procedure, rendering of relativistic effects, and video synthesis of direct and global components of light transport.
翻訳日:2024-04-11 11:37:32 公開日:2024-04-10
# ハンドヘルド物体の3次元再構成

Reconstructing Hand-Held Objects in 3D ( http://arxiv.org/abs/2404.06507v2 )

ライセンス: Link先を確認
Jane Wu, Georgios Pavlakos, Georgia Gkioxari, Jitendra Malik, (参考訳) 手によって操作される物体(つまりマニプラダ)は、特に、未使用のRGB画像やビデオから再構成することが困難である。 手が物体の多くを遮蔽するだけでなく、少数の画像ピクセルでしか見えないことが多い。 同時に、この2つの強力なアンカーが出現する:(1) 推定3次元手は物体の位置と規模を曖昧にし、(2) マニピュランダのセットは全ての可能な物体に対して小さい。 これらの知見を念頭に置いて,大規模言語/ビジョンモデルと3次元オブジェクトデータセットの最近のブレークスルーを基盤として,ハンドヘルドオブジェクト再構築のためのスケーラブルなパラダイムを提案する。 我々のモデルであるMCC-Hand-Object (MCC-HO) は、単一のRGB画像が与えられた手と物体の形状を共同で再構成し、入力として3Dハンドを推定する。 次に、GPT-4(V)を用いて、画像内のオブジェクトにマッチする3次元オブジェクトモデルを検索し、そのモデルをネットワーク推論幾何に厳密に整列させ、このアライメントをRetrieval-Augmented Reconstruction (RAR)と呼ぶ。 実験により,MCC-HOが実験室およびインターネットデータセット上での最先端性能を実証し,RARを用いて手動物体間相互作用の画像の3Dラベルを自動的に取得できることが示されている。

Objects manipulated by the hand (i.e., manipulanda) are particularly challenging to reconstruct from in-the-wild RGB images or videos. Not only does the hand occlude much of the object, but also the object is often only visible in a small number of image pixels. At the same time, two strong anchors emerge in this setting: (1) estimated 3D hands help disambiguate the location and scale of the object, and (2) the set of manipulanda is small relative to all possible objects. With these insights in mind, we present a scalable paradigm for handheld object reconstruction that builds on recent breakthroughs in large language/vision models and 3D object datasets. Our model, MCC-Hand-Object (MCC-HO), jointly reconstructs hand and object geometry given a single RGB image and inferred 3D hand as inputs. Subsequently, we use GPT-4(V) to retrieve a 3D object model that matches the object in the image and rigidly align the model to the network-inferred geometry; we call this alignment Retrieval-Augmented Reconstruction (RAR). Experiments demonstrate that MCC-HO achieves state-of-the-art performance on lab and Internet datasets, and we show how RAR can be used to automatically obtain 3D labels for in-the-wild images of hand-object interactions.
翻訳日:2024-04-11 11:37:32 公開日:2024-04-10