このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240422となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# スミスの目に見えない手」の影--インテリジェンス時代の経済安定と社会福祉へのリスク
In the Shadow of Smith`s Invisible Hand: Risks to Economic Stability and Social Wellbeing in the Age of Intelligence ( http://arxiv.org/abs/2407.01545v1 ) ライセンス: Link先を確認 | Jo-An Occhipinti, William Hynes, Ante Prodan, Harris A. Eyre, Roy Green, Sharan Burrow, Marcel Tanner, John Buchanan, Goran Ujdur, Frederic Destrebecq, Christine Song, Steven Carnevale, Ian B. Hickie, Mark Heffernan, | (参考訳) 仕事は社会的繁栄とメンタルヘルスに基本的であり、経済的安全、アイデンティティ、目的、社会的統合を提供する。
生成人工知能(AI)の出現は、仕事のずれに関する議論を引き起こしている。
多くの新しい雇用や産業が移転を相殺すると予想する一方で、前例のない規模で雇用を脅かす人間の入力から経済生産性を広範囲に切り離すことを予見する意見もある。
本研究は、両者が真である可能性のある条件を考察し、雇用の安定と経済の安定を維持するために持続的な政府の介入を必要とする不況の自己回復サイクルの可能性を検討する。
システムダイナミクスモデルを構築し,AI資本の深化が労働力の未利用化と経済の需要に及ぼす影響を概観的に分析した。
その結果、AI資本と労働者の比率が適度に上昇しても、現在の2倍の労働力利用が増加し、一人当たりの使い捨て所得が26%(95%間隔、20.6%から31.8%)減少し、2050年半ばまでに消費指数が21%(95%間隔、13.6%から28.3%)低下する可能性が示唆された。
未使用量の推定増加による一人当たりの使い捨て所得の減少を防止するためには、新規雇用創出率の少なくとも10.8倍の増加が必要である。
結果は、新たな仕事の創出率が高い場合でも消費の減少を防げない、AI資本と労働の比率の閾値が実現可能であることを示す。
正確な閾値は経済によって異なり、特定の状況に合わせた実験研究の必要性を強調している。
この研究は、国家のメンタルウェルスを守るために、AIが支配する経済への円滑な移行を保証するために、政府、市民組織、ビジネスが協力する必要性を浮き彫りにしている。
Work is fundamental to societal prosperity and mental health, providing financial security, identity, purpose, and social integration. The emergence of generative artificial intelligence (AI) has catalysed debate on job displacement. Some argue that many new jobs and industries will emerge to offset the displacement, while others foresee a widespread decoupling of economic productivity from human input threatening jobs on an unprecedented scale. This study explores the conditions under which both may be true and examines the potential for a self-reinforcing cycle of recessionary pressures that would necessitate sustained government intervention to maintain job security and economic stability. A system dynamics model was developed to undertake ex ante analysis of the effect of AI-capital deepening on labour underutilisation and demand in the economy. Results indicate that even a moderate increase in the AI-capital-to-labour ratio could increase labour underutilisation to double its current level, decrease per capita disposable income by 26% (95% interval, 20.6% - 31.8%), and decrease the consumption index by 21% (95% interval, 13.6% - 28.3%) by mid-2050. To prevent a reduction in per capita disposable income due to the estimated increase in underutilization, at least a 10.8-fold increase in the new job creation rate would be necessary. Results demonstrate the feasibility of an AI-capital- to-labour ratio threshold beyond which even high rates of new job creation cannot prevent declines in consumption. The precise threshold will vary across economies, emphasizing the urgent need for empirical research tailored to specific contexts. This study underscores the need for governments, civic organisations, and business to work together to ensure a smooth transition to an AI- dominated economy to safeguard the Mental Wealth of nations. | 翻訳日:2024-07-22 22:28:39 公開日:2024-04-22 |
# ラピッド・バーチャル・シミュレーション:健康科学教育における「リアル・エナフ」活動による「満足度学習効果」の達成
Rapid Virtual Simulations: Achieving 'Satisficing Learning Impact' with 'Realistic-Enough' Activities in Health Science Education ( http://arxiv.org/abs/2407.05179v1 ) ライセンス: Link先を確認 | Emmanuel G. Blanchard, Jeffrey Wiseman, | (参考訳) この原稿は、バーチャル教育シミュレーションを作成するための専門家の自主性を促進する新しい技術教育活動であるRapid Virtual Simulationsの概念を紹介している。
それは、最小の複雑なシミュレーションの開発を追求しつつ、満足度(あるいは十分十分な)学習インパクトを確実にするリアル・エナフ哲学に基礎を置いている。
また、ラピッド・バーチャル・シミュレーション・エコシステム(Rapid Virtual Simulation Ecosystem)という概念を導入し、学習者のための教育費を掛け合わせながら、医療専門家の作業を容易にする一連の技術モジュールを導入している。
最後に、この写本は、将来のシミュレーションベースの教育システムの設計の鍵となる指針として、技術的アジリティとシンプルさの議論を提示している。
This manuscript introduces the concept of Rapid Virtual Simulations, a new techno-pedagogical activity that fosters expert autonomy for creating virtual educational simulations. It is grounded in a Realistic-Enough Philosophy that consists of pursuing the development of the least complex simulation while still ensuring a Satisficing (or good enough) Learning Impact. It also introduces the concept of a Rapid Virtual Simulation Ecosystem as an integrated set of technological modules that facilitates the work of health professional educators while multiplying educational affordances for learners. Finally, this manuscript presents an argument for technological agility and simplicity as key guiding principles for the design of future simulation-based educational systems. | 翻訳日:2024-07-22 14:29:03 公開日:2024-04-22 |
# R-Trans -- 手術技能評価における臨床フィードバックのためのリカレントトランスモデル
R-Trans -- A Recurrent Transformer Model for Clinical Feedback in Surgical Skill Assessment ( http://arxiv.org/abs/2407.05180v1 ) ライセンス: Link先を確認 | Julien Quarez, Matthew Elliot, Oscar Maccormac, Nawal Khan, Marc Modat, Sebastien Ourselin, Jonathan Shapey, Alejandro Granados, | (参考訳) 外科的スキル評価では,OATS(Objective Structured Assessments of Technical Skills)とGRS(Global Rating Scale)が,訓練中の外科医のパフォーマンスを評価するためのツールとして確立されている。
これらのメトリクスは、パフォーマンスに関するフィードバックと相まって、外科医が実践の標準を改善し、達成することを可能にする。
GRSとOSATSのラベルを含むオープンソースのデータセットJIGSAWに関する最近の研究は、運動信号、ビデオデータ、または両方の組み合わせからGRSスコアを回帰することに焦点を当てている。
本稿では, GRS スコアの回帰は単位値ではなく, それ自体が制限的すぎること, 外科的治験のバリエーションが臨床的意義を有さないこと, などについて議論する。
このギャップに対処するため,本モデルでは,トレーニングセッションを通じて,隠れた状態と,運動信号から得られる5つのOSATSスコアを関連付けることで,外科医のパフォーマンスを出力するリカレントトランスフォーマーモデルを開発した。
これらのスコアは、GRS予測を生成するために平均化および集計され、モデルのパフォーマンスを最先端(SOTA)に対して評価することができる。
スピアマン相関係数(SCC)を報告し,本モデルがLOSO(Left-one-subject-out)スキーム(SCC 0.68-0.89)下でのSOTAモデルよりも優れており,LOUO(Left-one-user-out)スキーム(SCC 0.45-0.68)およびニードルパス(STA for Needle Passing,0.69)下でのSOTAモデルよりも優れていることを示す。
外科手術全体を通して,OSATSの最終的なスコアを短い症例に関連付けることは,単一のGRSスコアよりも臨床的に有意である,と我々は主張する。
このアプローチにより,定量的な予測を質的なフィードバックに変換することが可能になる。
高齢者の外科医がモデルの動作を検証し,77 \% (p = 0.006) の半教師付き予測と一致した。
In surgical skill assessment, Objective Structured Assessments of Technical Skills (OSATS scores) and the Global Rating Scale (GRS) are established tools for evaluating the performance of surgeons during training. These metrics, coupled with feedback on their performance, enable surgeons to improve and achieve standards of practice. Recent studies on the open-source dataset JIGSAW, which contains both GRS and OSATS labels, have focused on regressing GRS scores from kinematic signals, video data, or a combination of both. In this paper, we argue that regressing the GRS score, a unitless value, by itself is too restrictive, and variations throughout the surgical trial do not hold significant clinical meaning. To address this gap, we developed a recurrent transformer model that outputs the surgeon's performance throughout their training session by relating the model's hidden states to five OSATS scores derived from kinematic signals. These scores are averaged and aggregated to produce a GRS prediction, enabling assessment of the model's performance against the state-of-the-art (SOTA). We report Spearman's Correlation Coefficient (SCC), demonstrating that our model outperforms SOTA models for all tasks, except for Suturing under the leave-one-subject-out (LOSO) scheme (SCC 0.68-0.89), while achieving comparable performance for suturing and across tasks under the leave-one-user-out (LOUO) scheme (SCC 0.45-0.68) and beating SOTA for Needle Passing (0.69). We argue that relating final OSATS scores to short instances throughout a surgeon's procedure is more clinically meaningful than a single GRS score. This approach also allows us to translate quantitative predictions into qualitative feedback, which is crucial for any automated surgical skill assessment pipeline. A senior surgeon validated our model's behaviour and agreed with the semi-supervised predictions 77 \% (p = 0.006) of the time. | 翻訳日:2024-07-22 14:29:03 公開日:2024-04-22 |
# PhyPlan: ロボットマニピュレータのための物理インフォームドスキルネットワークによる汎用的かつ迅速な物理タスク計画
PhyPlan: Generalizable and Rapid Physical Task Planning with Physics Informed Skill Networks for Robot Manipulators ( http://arxiv.org/abs/2406.00001v1 ) ライセンス: Link先を確認 | Mudit Chopra, Abhinav Barnawal, Harshil Vagadia, Tamajit Banerjee, Shreshth Tuli, Souvik Chakraborty, Rohan Paul, | (参考訳) ボールのような物体を、直接到達範囲を超えてゴール領域に配置するタスクを考えると、人間はしばしば、目標を達成するために壁に投げたり、滑ったり、リバウンドしたりすることができる。
しかし、ロボットが同じように推理できることは簡単ではない。
物理推論の既存の方法は、実世界固有の複雑さと不確実性に苦しむデータハングリーである。
本稿では,物理インフォームドニューラルネットワーク(PINN)と修正モンテカルロ木探索(MCTS)を組み合わせた物理インフォームドプランニングフレームワークであるPhyPlanについて述べる。
PhyPlanはPINNを活用して、迅速かつ正確な方法でアクションの結果をシミュレートし、予測し、計画にMCTSを使用する。
PINNベースのシミュレータ(粗いが速い)を参照するか、あるいは実際の環境(細いが遅い)に直接関与して最適なポリシーを決定するかを動的に決定する。
目に見えないタスクが与えられた場合、PhyPlanはアクションのシーケンスを推測し、潜在パラメータを学習することができる。
シミュレーション3次元環境におけるロボットによる評価は,ダイナミックスキルの構成を含む3次元物理推論課題を解決するためのアプローチの能力を示す。
定量的には、PhyPlanはいくつかの点で優れている。
(i)新しい仕事を学ぶときの後悔度を、最先端と比較して低くする。
(二)技能の習得を早め、理学療法のスピードを高めること。
(iii)物理の非インフォームドアプローチに比べて高いデータ効率を示す。
Given the task of positioning a ball-like object to a goal region beyond direct reach, humans can often throw, slide, or rebound objects against the wall to attain the goal. However, enabling robots to reason similarly is non-trivial. Existing methods for physical reasoning are data-hungry and struggle with complexity and uncertainty inherent in the real world. This paper presents PhyPlan, a novel physics-informed planning framework that combines physics-informed neural networks (PINNs) with modified Monte Carlo Tree Search (MCTS) to enable embodied agents to perform dynamic physical tasks. PhyPlan leverages PINNs to simulate and predict outcomes of actions in a fast and accurate manner and uses MCTS for planning. It dynamically determines whether to consult a PINN-based simulator (coarse but fast) or engage directly with the actual environment (fine but slow) to determine optimal policy. Given an unseen task, PhyPlan can infer the sequence of actions and learn the latent parameters, resulting in a generalizable approach that can rapidly learn to perform novel physical tasks. Evaluation with robots in simulated 3D environments demonstrates the ability of our approach to solve 3D-physical reasoning tasks involving the composition of dynamic skills. Quantitatively, PhyPlan excels in several aspects: (i) it achieves lower regret when learning novel tasks compared to the state-of-the-art, (ii) it expedites skill learning and enhances the speed of physical reasoning, (iii) it demonstrates higher data efficiency compared to a physics un-informed approach. | 翻訳日:2024-07-01 08:19:53 公開日:2024-04-22 |
# 実現できないのか? 生成AIにおけるデータのための知的財産保護手法に関する調査
U Can't Gen This? A Survey of Intellectual Property Protection Methods for Data in Generative AI ( http://arxiv.org/abs/2406.15386v1 ) ライセンス: Link先を確認 | Tanja Šarčević, Alicja Karlowicz, Rudolf Mayer, Ricardo Baeza-Yates, Andreas Rauber, | (参考訳) 大規模生成AI(GAI)モデルには、テキスト、画像、オーディオ、その他の形式のメディアを生成する非並列的な能力がある。
これらのモデルは、著作権のある資料、芸術作品、その他のクリエイティブ作品など、しばしば公開されているデータに基づいて訓練されるため、著作権を侵害し知的財産権(IP)を不当に侵害するリスクを負う。
生成AI技術の急速な発展と利害関係者からの倫理的配慮により、保護機構と技術は急速に発展しているが、体系化は欠如している。
本稿では、トレーニングデータの知的財産権に関する懸念について検討し、特に知的財産権侵害につながる可能性のある誤用を可能にする生成モデルの性質に焦点を当てる。
そこで我々は,GAIにおける知的財産権侵害からデータを保護するための技術的解決策の体系的な見直しを導く分類法を提案する。
Large Generative AI (GAI) models have the unparalleled ability to generate text, images, audio, and other forms of media that are increasingly indistinguishable from human-generated content. As these models often train on publicly available data, including copyrighted materials, art and other creative works, they inadvertently risk violating copyright and misappropriation of intellectual property (IP). Due to the rapid development of generative AI technology and pressing ethical considerations from stakeholders, protective mechanisms and techniques are emerging at a high pace but lack systematisation. In this paper, we study the concerns regarding the intellectual property rights of training data and specifically focus on the properties of generative models that enable misuse leading to potential IP violations. Then we propose a taxonomy that leads to a systematic review of technical solutions for safeguarding the data from intellectual property violations in GAI. | 翻訳日:2024-07-01 07:11:08 公開日:2024-04-22 |
# ControlMol: 分子拡散モデルにサブストラクチャ制御を追加する
ControlMol: Adding Substruture Control To Molecule Diffusion Models ( http://arxiv.org/abs/2405.06659v1 ) ライセンス: Link先を確認 | Qi Zhengyang, Liu Zijing, Zhang Jiying, Cao He, Li Yu, | (参考訳) 新しい分子を設計することは、医薬品分野における重要な課題である。
分子の広大な設計空間のため、特定の機能や治療対象に関連する特定のサブ構造に条件付けされた分子を生成することは、コンピュータ支援薬物設計において重要な課題である。
本稿では拡散モデルを用いて分子生成にサブ構造制御を加える制御Molを提案する。
このタスクをインペイントや条件付き生成とみなす従来の手法とは異なり、制御ネットのアイデアを条件付き分子生成に適用し、事前学習した拡散モデルに適応的な調整を行う。
本手法を2次元および3次元分子生成タスクに適用する。
ランダムに分割したサブ構造データに基づいて,本手法はより有効で多様な分子を生成することにより,従来の手法よりも優れていた。
この方法は実装が容易であり、様々な事前訓練された分子生成モデルに迅速に適用することができる。
Designing new molecules is an important task in the field of pharmaceuticals. Due to the vast design space of molecules, generating molecules conditioned on a specific sub-structure relevant to a particular function or therapeutic target is a crucial task in computer-aided drug design. In this paper, we present ControlMol, which adds sub-structure control to molecule generation with diffusion models. Unlike previous methods which view this task as inpainting or conditional generation, we adopt the idea of ControlNet into conditional molecule generation and make adaptive adjustments to a pre-trained diffusion model. We apply our method to both 2D and 3D molecule generation tasks. Conditioned on randomly partitioned sub-structure data, our method outperforms previous methods by generating more valid and diverse molecules. The method is easy to implement and can be quickly applied to a variety of pre-trained molecule generation models. | 翻訳日:2024-05-27 03:27:39 公開日:2024-04-22 |
# 自閉症スペクトラムの不均一性の解明:データ/モデル駆動型置換テスト手法を用いたABIDE I Databaseからの洞察
Unraveling the Autism spectrum heterogeneity: Insights from ABIDE I Database using data/model-driven permutation testing approaches ( http://arxiv.org/abs/2405.12225v1 ) ライセンス: Link先を確認 | F. J. Alcaide, I. A. Illan, J. Ramirez, J. M. Gorriz, | (参考訳) 自閉症スペクトラム条件(Autism Spectrum Condition、ASC)は、コミュニケーション、社会的相互作用、制限的または反復的な行動の障害を特徴とする神経発達状態である。
ASCの個体と神経型個体の区別について広範な研究がなされている。
しかし、異なる中心における画像取得プロトコルの変化が、これらの観察された差異にどのように影響するかを包括的に評価するためには、限られた注意が払われている。
この分析は、自閉症脳画像データ交換I(ABIDE I)データベースからの構造的磁気共鳴イメージング(sMRI)データに焦点をあて、被験者の状態と個々のセンターを評価し、ASCとコントロールグループ間の差異を識別する。
統計解析では, 統計アグノスティックマッピング (SAM) と統計パラメトリックマッピング (SPM) の2つの異なる統計マッピング手法を用いる。
その結果、特定の中心内の限られたサンプルサイズ、ノイズ効果、自閉症のような異種状態における多中心性の問題などの要因により、どの脳領域にも統計的に有意な差がないことが明らかとなった。
本研究では,ABIDE Iデータベースを用いて神経型個体とASCと診断された個体の脳の構造的差異を検出することの限界を示す。
さらに,SAMマッピング法の結果は,既存の文献との整合性を示した。
Autism Spectrum Condition (ASC) is a neurodevelopmental condition characterized by impairments in communication, social interaction and restricted or repetitive behaviors. Extensive research has been conducted to identify distinctions between individuals with ASC and neurotypical individuals. However, limited attention has been given to comprehensively evaluating how variations in image acquisition protocols across different centers influence these observed differences. This analysis focuses on structural magnetic resonance imaging (sMRI) data from the Autism Brain Imaging Data Exchange I (ABIDE I) database, evaluating subjects' condition and individual centers to identify disparities between ASC and control groups. Statistical analysis, employing permutation tests, utilizes two distinct statistical mapping methods: Statistical Agnostic Mapping (SAM) and Statistical Parametric Mapping (SPM). Results reveal the absence of statistically significant differences in any brain region, attributed to factors such as limited sample sizes within certain centers, noise effects and the problem of multicentrism in a heterogeneous condition such as autism. This study indicates limitations in using the ABIDE I database to detect structural differences in the brain between neurotypical individuals and those diagnosed with ASC. Furthermore, results from the SAM mapping method show greater consistency with existing literature. | 翻訳日:2024-05-27 03:08:05 公開日:2024-04-22 |
# リポジトリ上の反復的ツール強化推論を用いた自然言語からのクラスレベルコード生成
Class-Level Code Generation from Natural Language Using Iterative, Tool-Enhanced Reasoning over Repository ( http://arxiv.org/abs/2405.01573v1 ) ライセンス: Link先を確認 | Ajinkya Deshpande, Anmol Agarwal, Shashank Shet, Arun Iyer, Aditya Kanade, Ramakrishna Bairi, Suresh Parthasarathy, | (参考訳) LLMはコード生成タスクにおいて大きな可能性を示しており、様々なベンチマークで関数やステートメントレベルで有望な結果を達成している。
しかし、クラスのようなコードアーティファクトを作成することに関連する複雑さ、特に現実世界のソフトウェアリポジトリのコンテキスト内では、まだ解明されていないままです。
既存の研究は、しばしばクラスレベルの生成を独立したタスクとして扱い、現実世界のソフトウェア開発環境を特徴づける複雑な依存関係や相互作用を無視します。
このギャップに対処するために,実世界のリポジトリ内で複雑なクラスレベルのコードを生成する上で,LLMを厳格に評価するためのベンチマークであるRepoClassBenchを紹介した。
RepoClassBenchには、パブリックリポジトリの選択から、JavaとPythonにわたる自然言語からクラス生成タスクが含まれている。
データセットの各クラスがリポジトリ内でクロスファイルの依存関係を持つだけでなく、その機能を検証するための対応するテストケースも含んでいることを保証します。
現在のモデルでは,関連するリポジトリコンテキストへの露出が限られているため,ベンチマークによって引き起こされる現実的な課題に対処しています。
Retrieve-Repotools-Reflect(RRR)は、エージェントベースのフレームワークでリポジトリレベルのコンテキストを反復的にナビゲートし、推論する静的解析ツールを備えた新しいアプローチである。
我々の実験は、RRRが既存のRepoClassBenchのベースラインを大幅に上回ることを示した。
私たちの発見は、ソフトウェア開発の複雑さをより正確に反映するために、リポジトリレベルの依存関係を組み込んだベンチマークの必要性を強調します。
我々の研究は、レポジトリコンテキストのLLM理解を強化するために、特殊なツールを活用する利点を説明している。
データセットと評価を一般公開する予定です。
LLMs have demonstrated significant potential in code generation tasks, achieving promising results at the function or statement level in various benchmarks. However, the complexities associated with creating code artifacts like classes, particularly within the context of real-world software repositories, remain underexplored. Existing research often treats class-level generation as an isolated task, neglecting the intricate dependencies and interactions that characterize real-world software development environments. To address this gap, we introduce RepoClassBench, a benchmark designed to rigorously evaluate LLMs in generating complex, class-level code within real-world repositories. RepoClassBench includes natural language to class generation tasks across Java and Python, from a selection of public repositories. We ensure that each class in our dataset not only has cross-file dependencies within the repository but also includes corresponding test cases to verify its functionality. We find that current models struggle with the realistic challenges posed by our benchmark, primarily due to their limited exposure to relevant repository contexts. To address this shortcoming, we introduce Retrieve-Repotools-Reflect (RRR), a novel approach that equips LLMs with static analysis tools to iteratively navigate & reason about repository-level context in an agent-based framework. Our experiments demonstrate that RRR significantly outperforms existing baselines on RepoClassBench, showcasing its effectiveness across programming languages and in various settings. Our findings emphasize the need for benchmarks that incorporate repository-level dependencies to more accurately reflect the complexities of software development. Our work illustrates the benefits of leveraging specialized tools to enhance LLMs understanding of repository context. We plan to make our dataset and evaluation harness public. | 翻訳日:2024-05-12 16:10:01 公開日:2024-04-22 |
# 通信のためのCNNに基づく等化:柔軟なFPGAハードウェアアーキテクチャによるギガビットスループットの実現
CNN-Based Equalization for Communications: Achieving Gigabit Throughput with a Flexible FPGA Hardware Architecture ( http://arxiv.org/abs/2405.02323v1 ) ライセンス: Link先を確認 | Jonas Ney, Christoph Füllner, Vincent Lauinger, Laurent Schmalen, Sebastian Randel, Norbert Wehn, | (参考訳) データ集約型アプリケーションのスループットの増大を満たすため、近年は光通信システムの性能が劇的に向上している。
高いスループットでは、シンボル間干渉(ISI)による障害を補うために、より高度な等化器が不可欠である。
最新の研究は、AIニューラルネットワーク(ANN)ベースの等化器が、従来のアルゴリズムをハイスループット通信に置き換えることを約束していることを示している。
一方,スループットだけでなく柔軟性も,5Gと6G以上の通信システムの主目的である。
現代の通信システムの厳格なスループットと柔軟性要件を満たすことができるプラットフォームは、フィールドプログラマブルゲートアレイ(FPGA)である。
そこで本研究では,現代の光通信システムのスループット要件を満たす,ANNベースの等化器の高性能FPGA実装を提案する。
さらに,このアーキテクチャは可変並列性(DOP)を含むため柔軟であり,磁気記録チャネルで実証される低コスト・低消費電力のアプリケーションにも適用可能である。
この実装は、アルゴリズムからハードウェアアーキテクチャまで、詳細な量子化分析を含む最適化を特徴とする層間設計アプローチに基づいている。
さらに、与えられたスループット制約の下で、ANNベースの等化器のレイテンシを低減するためのフレームワークを提案する。
その結果、光ファイバーチャネルの等化器のビット誤差比(BER)は従来よりも約4倍低くなり、それに対応するFPGA実装では40GBd以上のスループットを実現し、同等のバッチサイズで3桁の高速グラフィックス処理ユニット(GPU)を上回ります。
To satisfy the growing throughput demand of data-intensive applications, the performance of optical communication systems increased dramatically in recent years. With higher throughput, more advanced equalizers are crucial, to compensate for impairments caused by inter-symbol interference (ISI). The latest research shows that artificial neural network (ANN)-based equalizers are promising candidates to replace traditional algorithms for high-throughput communications. On the other hand, not only throughput but also flexibility is a main objective of beyond-5G and 6G communication systems. A platform that is able to satisfy the strict throughput and flexibility requirements of modern communication systems are field programmable gate arrays (FPGAs). Thus, in this work, we present a high-performance FPGA implementation of an ANN-based equalizer, which meets the throughput requirements of modern optical communication systems. Further, our architecture is highly flexible since it includes a variable degree of parallelism (DOP) and therefore can also be applied to low-cost or low-power applications which is demonstrated for a magnetic recording channel. The implementation is based on a cross-layer design approach featuring optimizations from the algorithm down to the hardware architecture, including a detailed quantization analysis. Moreover, we present a framework to reduce the latency of the ANN-based equalizer under given throughput constraints. As a result, the bit error ratio (BER) of our equalizer for the optical fiber channel is around four times lower than that of a conventional one, while the corresponding FPGA implementation achieves a throughput of more than 40 GBd, outperforming a high-performance graphics processing unit (GPU) by three orders of magnitude for a similar batch size. | 翻訳日:2024-05-12 16:00:17 公開日:2024-04-22 |
# CoCoFISo : CoCoSo法に基づく複数基準決定法
Combined Compromise for Ideal Solution (CoCoFISo): a multi-criteria decision-making based on the CoCoSo method algorithm ( http://arxiv.org/abs/2405.02324v1 ) ライセンス: Link先を確認 | Rôlin Gabriel Rasoanaivo, Morteza Yazdani, Pascale Zaraté, Amirhossein Fateh, | (参考訳) それぞれの意思決定ツールは、実ケーススタディでテストされ、検証されるべきであり、グローバルな問題に適合する。
MCDM(Multi-criteria decision-making method)の適用は、現在、代替品のランク付けの傾向にある。
文献では、分類に応じて複数の基準による意思決定方法が存在する。
コンバインド・コンパロマイズ・ソリューション(CoCoSo)法の実験では,実例の限界に遭遇した。
著者らは,大学構内における実例研究により,CoCoFISo法の適用性について検討し,その成果を,PROMETHEE(Preference Ranking Organisation Method for Enrichment Evaluations),WSM(Weighted Sum Method),TOPSIS(Meteor for Order Preference by the Ideal Solution)などの他のMCDMと比較した。
以上の結果から,CoCoSoは複雑な多変数アセスメント問題を解決するために開発された手法であり,CoCoFISoはCoCoSoで観測される欠点を改善し,他の開発ツールと比較して安定した結果をもたらすことができることがわかった。
その結果,CoCoFISoの応用は意思決定者,専門家,研究者に示唆され,信頼性の高い意思決定手法の利用に関して,実践的な課題やセンシティブな疑問に直面していることが明らかとなった。
多くの先行研究とは異なり、CoCoSoの現在のバージョンはユニークでオリジナルであり、初めて紹介される。
パフォーマンスはいくつかの戦略と試験によって承認された。
Each decision-making tool should be tested and validated in real case studies to be practical and fit to global problems. The application of multi-criteria decision-making methods (MCDM) is currently a trend to rank alternatives. In the literature, there are several multi-criteria decision-making methods according to their classification. During our experimentation on the Combined Compromise Solution (CoCoSo) method, we encountered its limits for real cases. The authors examined the applicability of the CoCoFISo method (improved version of combined compromise solution), by a real case study in a university campus and compared the obtained results to other MCDMs such as Preference Ranking Organisation Method for Enrichment Evaluations (PROMETHEE), Weighted Sum Method (WSM) and Technique for Order Preference by Similarity to the Ideal Solution (TOPSIS). Our research finding indicates that CoCoSo is an applied method that has been developed to solve complex multi variable assessment problems, while CoCoFISo can improve the shortages observed in CoCoSo and deliver stable outcomes compared to other developed tools. The findings imply that application of CoCoFISo is suggested to decision makers, experts and researchers while they are facing practical challenges and sensitive questions regarding the utilization of a reliable decision-making method. Unlike many prior studies, the current version of CoCoSo is unique, original and is presented for the first time. Its performance was approved using several strategies and examinations. | 翻訳日:2024-05-12 15:50:33 公開日:2024-04-22 |
# Wi-Fi AP負荷予測のための分散学習
Distributed Learning for Wi-Fi AP Load Prediction ( http://arxiv.org/abs/2405.05140v1 ) ライセンス: Link先を確認 | Dariush Salami, Francesc Wilhelmi, Lorenzo Galati-Giordano, Mika Kasslin, | (参考訳) ネットワークのクラウド化とソフトウォール化の増大により、複数の独立して管理されたデプロイメント間の相互作用が促進される。
このような相互作用の魅力ある理由は、分散機械学習(ML)にある。これは、集合知性と計算能力を活用することで、堅牢なMLモデルの作成を可能にする。
本稿では,分散学習の2つの基礎,すなわちフェデレートラーニング(FL)と知識蒸留(KD)のWi-Fiアクセスポイント(AP)負荷予測ユースケースへの適用について検討する。
本稿では,大規模なWi-Fiキャンパスネットワークからの実測値を含むデータセットを用いて解析を行い,異なる戦略に基づいてMLモデルをトレーニングする。
性能評価には、予測性能、関連する通信オーバーヘッド、エネルギー消費など、実際のユースケースにおける分散学習操作の適合性に関する関連する側面が含まれる。
特に,分散学習は,通信オーバーヘッドとエネルギーコストを80%削減しつつ,予測精度を最大93%向上させることができることを示す。
The increasing cloudification and softwarization of networks foster the interplay among multiple independently managed deployments. An appealing reason for such an interplay lies in distributed Machine Learning (ML), which allows the creation of robust ML models by leveraging collective intelligence and computational power. In this paper, we study the application of the two cornerstones of distributed learning, namely Federated Learning (FL) and Knowledge Distillation (KD), on the Wi-Fi Access Point (AP) load prediction use case. The analysis conducted in this paper is done on a dataset that contains real measurements from a large Wi-Fi campus network, which we use to train the ML model under study based on different strategies. Performance evaluation includes relevant aspects for the suitability of distributed learning operation in real use cases, including the predictive performance, the associated communication overheads, or the energy consumption. In particular, we prove that distributed learning can improve the predictive accuracy centralized ML solutions by up to 93% while reducing the communication overheads and the energy cost by 80%. | 翻訳日:2024-05-12 15:40:48 公開日:2024-04-22 |
# ラーニング・トゥ・ラーン(Learning-to-Lern)は、位相変化メモリベースのインメモリコンピューティングによる高速学習を実現する
Learning-to-learn enables rapid learning with phase-change memory-based in-memory computing ( http://arxiv.org/abs/2405.05141v1 ) ライセンス: Link先を確認 | Thomas Ortner, Horst Petschenig, Athanasios Vasilopoulos, Roland Renner, Špela Brglez, Thomas Limbacher, Enrique Piñero, Alejandro Linares Barranco, Angeliki Pantazi, Robert Legenstein, | (参考訳) 低消費電力で自律的に学習する人工知能(AI)システムは、エッジで適用でき、デプロイメントサイトの特定の状況に迅速に適応できるという需要が高まっている。
しかし、現在のAIモデルはこのようなシナリオで苦労しており、広範囲な微調整、計算リソース、データを必要とすることが多い。
対照的に、人間は関連するタスクから知識を移すことで、新しいタスクに力ずくで適応することができる。
ラーニング・トゥ・ラーン(L2L)の概念は、このプロセスを模倣し、AIモデルが計算労力とデータのみで迅速に適応できるようにする。
インメモリコンピューティングニューロモルフィックハードウェア(NMHW)は、脳の動作原理にインスパイアされ、メモリと計算の物理的コロケーションを模倣する。
本研究では、位相変化メモリデバイスをベースとしたメモリ内計算NMHWとL2Lを組み合わせ、新しいタスクに迅速に適応できる効率的なAIモデルを構築する。
画像分類を行う畳み込みニューラルネットワークと、本物のロボットアームのモーターコマンドを生成する生物学的にインスパイアされたスパイクニューラルネットワークの2つのシナリオで、我々のアプローチの汎用性を実証する。
どちらのモデルもパラメータの更新をほとんど行わずに急速に学習する。
NMHW上にデプロイされ、ソフトウェアと同等の動作を行う。
さらに、これらのモデルのメタトレーニングは、高精度なソフトウェアで行うことができ、正確なハードウェアモデルの必要性を軽減することができる。
There is a growing demand for low-power, autonomously learning artificial intelligence (AI) systems that can be applied at the edge and rapidly adapt to the specific situation at deployment site. However, current AI models struggle in such scenarios, often requiring extensive fine-tuning, computational resources, and data. In contrast, humans can effortlessly adjust to new tasks by transferring knowledge from related ones. The concept of learning-to-learn (L2L) mimics this process and enables AI models to rapidly adapt with only little computational effort and data. In-memory computing neuromorphic hardware (NMHW) is inspired by the brain's operating principles and mimics its physical co-location of memory and compute. In this work, we pair L2L with in-memory computing NMHW based on phase-change memory devices to build efficient AI models that can rapidly adapt to new tasks. We demonstrate the versatility of our approach in two scenarios: a convolutional neural network performing image classification and a biologically-inspired spiking neural network generating motor commands for a real robotic arm. Both models rapidly learn with few parameter updates. Deployed on the NMHW, they perform on-par with their software equivalents. Moreover, meta-training of these models can be performed in software with high-precision, alleviating the need for accurate hardware models. | 翻訳日:2024-05-12 15:40:48 公開日:2024-04-22 |
# TICEと正規化
TICE and normalisation, pour une r{é}novation universitaire dans les pays du Sud ( http://arxiv.org/abs/2404.17595v1 ) ライセンス: Link先を確認 | Mokhtar Ben Henda, | (参考訳) 大学の改修は、恒久的な技術革新と大学を組織する新しい方法とトレーニングオファーによって、繰り返される事実である。
技術相互運用性標準は、空間と時間の節約という点で付加価値を提供するだけでなく、教育モデルや知識獲得プロセスを変更することで決定的な役割を果たす。
サハラ以南のアフリカ諸国は、ICTによるリノベーションの道筋をよりよく回復させるために、その運用方法を深く読み直す必要がある、制度的な枠組みと特定の種類の大学組織を提示している。
この文書は、標準と相互運用性標準の達成に焦点を当てたリフレクションとアクションフレームワークの道を提供する。
University renovation is a recurring fact generated by permanent technological innovations and new methods of organizing universities and training offers. Technological interoperability standards play a determining role, not only by providing added value in terms of saving space and time, but also by changing educational models and knowledge acquisition processes. The countries of sub-Saharan Africa present an institutional framework and a particular type of university organization which requires an in-depth rereading of their operating methods for a better recovery on the path to renovation through ICT. This document offers avenues for reflection and action frameworks that focus on the achievements of norms and interoperability standards. | 翻訳日:2024-05-05 18:04:17 公開日:2024-04-22 |
# ChatGPTの実力に関する調査
A Survey on the Real Power of ChatGPT ( http://arxiv.org/abs/2405.00704v1 ) ライセンス: Link先を確認 | Ming Liu, Ran Liu, Hua Wang, Wray Buntine, | (参考訳) ChatGPTはAIコミュニティを変え、ChatGPTのパフォーマンス評価を活発に研究している。
評価の重要な課題は、ChatGPTが依然としてクローズドソースであり、従来のベンチマークデータセットがトレーニングデータとしてChatGPTによって使用された可能性があることだ。
本項で述べる。
i) NLPタスクの7つのカテゴリにおいてChatGPTの実際のパフォーマンスレベルを明らかにする最近の研究を調査する。
(二)ChatGPTの社会的含意と安全性の問題についてレビューし、
(三)その評価の鍵となる課題と機会を強調する。
われわれの調査がブラックボックスのやり方に多少光を当てることで、研究者が表面生成によって誤解を招かないことを願っている。
ChatGPT has changed the AI community and an active research line is the performance evaluation of ChatGPT. A key challenge for the evaluation is that ChatGPT is still closed-source and traditional benchmark datasets may have been used by ChatGPT as the training data. In this paper, (i) we survey recent studies which uncover the real performance levels of ChatGPT in seven categories of NLP tasks, (ii) review the social implications and safety issues of ChatGPT, and (iii) emphasize key challenges and opportunities for its evaluation. We hope our survey can shed some light on its blackbox manner, so that researchers are not misleaded by its surface generation. | 翻訳日:2024-05-05 17:54:32 公開日:2024-04-22 |
# AdaQAT: 適応的なビット幅量子化学習
AdaQAT: Adaptive Bit-Width Quantization-Aware Training ( http://arxiv.org/abs/2404.16876v1 ) ライセンス: Link先を確認 | Cédric Gernigon, Silviu-Ioan Filip, Olivier Sentieys, Clément Coggiola, Mickael Bruno, | (参考訳) 大規模ディープニューラルネットワーク(DNN)は多くのアプリケーションシナリオで大きな成功を収めています。
しかし、現代のDNNの計算複雑性とエネルギーコストが高いため、エッジデバイスへの展開は困難である。
モデル量子化は、デプロイメントの制約に対処する一般的なアプローチであるが、最適化されたビット幅の探索は困難である。
本研究では,より効率的なDNN推論のためのトレーニング中に,重みとアクティベーション信号のビット幅を自動的に最適化する学習手法であるAdaptive Bit-Width Quantization Aware Training (AdaQAT)を提案する。
我々は、勾配降下法則を用いて更新される緩和実数値ビット幅を用いるが、それ以外は全ての量子化演算に対して離散化される。
その結果、混合精度均一量子化問題に対する単純で柔軟なQATアプローチが得られた。
AdaQATは、トレーニング済みのネットワーク上で実行されるように設計されている他の方法と比較して、スクラッチと微調整の両方のシナリオでうまく機能し、CIFAR-10とImageNetデータセットのそれぞれResNet20とResNet18モデルを用いた最初の結果から、我々の手法は他の最先端の混合精度量子化手法と競合していることを示している。
Large-scale deep neural networks (DNNs) have achieved remarkable success in many application scenarios. However, high computational complexity and energy costs of modern DNNs make their deployment on edge devices challenging. Model quantization is a common approach to deal with deployment constraints, but searching for optimized bit-widths can be challenging. In this work, we present Adaptive Bit-Width Quantization Aware Training (AdaQAT), a learning-based method that automatically optimizes weight and activation signal bit-widths during training for more efficient DNN inference. We use relaxed real-valued bit-widths that are updated using a gradient descent rule, but are otherwise discretized for all quantization operations. The result is a simple and flexible QAT approach for mixed-precision uniform quantization problems. Compared to other methods that are generally designed to be run on a pretrained network, AdaQAT works well in both training from scratch and fine-tuning scenarios.Initial results on the CIFAR-10 and ImageNet datasets using ResNet20 and ResNet18 models, respectively, indicate that our method is competitive with other state-of-the-art mixed-precision quantization approaches. | 翻訳日:2024-04-29 15:13:44 公開日:2024-04-22 |
# 初期化時の構造化プルーニングによるエッジコンピューティング用DNNの迅速な展開
Rapid Deployment of DNNs for Edge Computing via Structured Pruning at Initialization ( http://arxiv.org/abs/2404.16877v1 ) ライセンス: Link先を確認 | Bailey J. Eccles, Leon Wong, Blesson Varghese, | (参考訳) エッジ機械学習(ML)は、デバイス上のデータのローカライズされた処理を可能にし、ディープニューラルネットワーク(DNN)によって支えられている。
しかし、DNNは、クラウドベースのMLに匹敵するパフォーマンスを提供するための、相当なコンピューティング、メモリ、エネルギ要件のために、デバイス上で容易に動作できない。
そのため、プルーニングなどのモデル圧縮技術が検討されている。
既存のプルーニング手法は, エッジMLにおいて問題となる: 1) 実行時の性能に限界がある圧縮モデルを作成する(非構造化プルーニングを用いる)か, 最終モデルの精度を損なう(構造化プルーニングを使用する)か,(2) 適切な圧縮DNNモデルを特定するために十分な計算資源と時間を必要とする(ニューラルアーキテクチャサーチを用いる)。
本稿では,Pruning-at-Initialization (PaI) と呼ばれる新しい道路について,上記の問題を緩和するために構造化プルーニングを用いて検討する。
Reconveneは、構造化されたPaIを用いてエッジ配置に適したプルーニングモデルを高速に生成するシステムである。
Reconveneは、構造化プルーニングに最も敏感なDNN畳み込み層を体系的に識別し、プルーンする。
Reconvene は16.21倍小さく2倍高速で、未構造化の PaI と同等の精度を維持しながら、数秒でプルーニングされた DNN を迅速に生成する。
Edge machine learning (ML) enables localized processing of data on devices and is underpinned by deep neural networks (DNNs). However, DNNs cannot be easily run on devices due to their substantial computing, memory and energy requirements for delivering performance that is comparable to cloud-based ML. Therefore, model compression techniques, such as pruning, have been considered. Existing pruning methods are problematic for edge ML since they: (1) Create compressed models that have limited runtime performance benefits (using unstructured pruning) or compromise the final model accuracy (using structured pruning), and (2) Require substantial compute resources and time for identifying a suitable compressed DNN model (using neural architecture search). In this paper, we explore a new avenue, referred to as Pruning-at-Initialization (PaI), using structured pruning to mitigate the above problems. We develop Reconvene, a system for rapidly generating pruned models suited for edge deployments using structured PaI. Reconvene systematically identifies and prunes DNN convolution layers that are least sensitive to structured pruning. Reconvene rapidly creates pruned DNNs within seconds that are up to 16.21x smaller and 2x faster while maintaining the same accuracy as an unstructured PaI counterpart. | 翻訳日:2024-04-29 15:13:44 公開日:2024-04-22 |
# 強化学習における制御障壁関数の学習と応用
Learning Control Barrier Functions and their application in Reinforcement Learning: A Survey ( http://arxiv.org/abs/2404.16879v1 ) ライセンス: Link先を確認 | Maeva Guerrier, Hassan Fouad, Giovanni Beltrame, | (参考訳) 強化学習は、新しいロボット行動を開発するための強力な技術である。
しかし、一般的な安全保証の欠如は、実際のロボットに適用するためのハードルとなっている。
この問題に対処するために、安全な強化学習は、安全性の考慮を取り入れ、実際のロボットへの高速な移動を可能にし、生涯の学習を容易にすることを目的としている。
安全な強化学習における有望なアプローチの1つは、制御障壁関数の使用である。
これらの機能は、学習プロセス中にシステムが安全な状態を維持するためのフレームワークを提供する。
しかし、制御障壁関数の合成は簡単ではなく、しばしば十分なドメイン知識を必要とする。
この課題は、制御障壁関数を自動的に定義するデータ駆動手法の探索を動機付けており、非常に魅力的である。
制御バリア関数を用いた安全強化学習に関する文献を網羅的にレビューする。
さらに,ロボット応用における強化学習の安全性と有効性を高めることを目的として,制御バリア関数の自動学習手法について検討した。
Reinforcement learning is a powerful technique for developing new robot behaviors. However, typical lack of safety guarantees constitutes a hurdle for its practical application on real robots. To address this issue, safe reinforcement learning aims to incorporate safety considerations, enabling faster transfer to real robots and facilitating lifelong learning. One promising approach within safe reinforcement learning is the use of control barrier functions. These functions provide a framework to ensure that the system remains in a safe state during the learning process. However, synthesizing control barrier functions is not straightforward and often requires ample domain knowledge. This challenge motivates the exploration of data-driven methods for automatically defining control barrier functions, which is highly appealing. We conduct a comprehensive review of the existing literature on safe reinforcement learning using control barrier functions. Additionally, we investigate various techniques for automatically learning the Control Barrier Functions, aiming to enhance the safety and efficacy of Reinforcement Learning in practical robot applications. | 翻訳日:2024-04-29 15:13:44 公開日:2024-04-22 |
# SemEval-2024 Task 9: BRAINTEASER: Common Senseを定義した新しいタスク
SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Sense ( http://arxiv.org/abs/2404.16068v1 ) ライセンス: Link先を確認 | Yifan Jiang, Filip Ilievski, Kaixin Ma, | (参考訳) 垂直的思考は論理的・常識的推論に依存しているのに対し、横的思考はコモンセンス的関係を否定し、非伝統的な思考を通じてそれらを上書きするシステムを必要とする。
横方向の思考は現在のモデルでは難しいことが示されているが、ほとんど注目されていない。
最近のベンチマークであるBRAINTEASERは、ゼロショット設定で現在のモデルの横方向の思考能力を評価することを目的としている。
本稿では,従来のベンチマークを分割して微調整設定をサポートし,SemEval Task 9: BRAIN-TEASER(S)を提示する。
一般的なタスクとして、BRAINTEASER(S)の2つのサブタスクは、競技中に182人の参加者から483人のチームからの応募を受け取っている。
本稿では,競争結果のきめ細かいシステム解析と,それがシステムに横方向の推論能力にどのような意味を持つのかを考察する。
本論文のBRAINTEASER(S)サブタスクと発見は、計算モデルによる横方向の思考と頑健な推論に関する今後の研究を促進することを期待する。
While vertical thinking relies on logical and commonsense reasoning, lateral thinking requires systems to defy commonsense associations and overwrite them through unconventional thinking. Lateral thinking has been shown to be challenging for current models but has received little attention. A recent benchmark, BRAINTEASER, aims to evaluate current models' lateral thinking ability in a zero-shot setting. In this paper, we split the original benchmark to also support fine-tuning setting and present SemEval Task 9: BRAIN-TEASER(S), the first task at this competition designed to test the system's reasoning and lateral thinking ability. As a popular task, BRAINTEASER(S)'s two subtasks receive 483 team submissions from 182 participants during the competition. This paper provides a fine-grained system analysis of the competition results, together with a reflection on what this means for the ability of the systems to reason laterally. We hope that the BRAINTEASER(S) subtasks and findings in this paper can stimulate future work on lateral thinking and robust reasoning by computational models. | 翻訳日:2024-04-26 18:22:04 公開日:2024-04-22 |
# 安定拡散のための対話型ビジュアルラーニング
Interactive Visual Learning for Stable Diffusion ( http://arxiv.org/abs/2404.16069v1 ) ライセンス: Link先を確認 | Seongmin Lee, Benjamin Hoover, Hendrik Strobelt, Zijie J. Wang, ShengYun Peng, Austin Wright, Kevin Li, Haekyu Park, Haoyang Yang, Polo Chau, | (参考訳) 拡散に基づく生成モデルによる説得力のある画像生成能力は、世界的な注目を集めている。
しかし、それらの複雑な内部構造や操作は、非専門家が把握すべき課題をしばしば引き起こす。
我々はDiffusion Explainerを紹介した。Diffusionはテキストプロンプトを画像に変換するための対話型可視化ツールだ。
これは、Stable Diffusionの複雑なコンポーネントの視覚的概要と、その基盤となるオペレーションの詳細な説明を密に統合する。
この統合により、ユーザはアニメーションとインタラクティブな要素を通じて、複数のレベルの抽象化を流動的に移行できる。
Diffusion Explainerは、リアルタイムのハンズオン体験を提供するため、ユーザーはインストールや特別なハードウェアを必要とせずに、Stable Diffusionのハイパーパラメータとプロンプトを調整できる。
ユーザのWebブラウザ経由でアクセス可能なDiffusion Explainerは、AI教育の民主化と、より広範なパブリックアクセスの促進に大きく貢献している。
113カ国にまたがる7200以上のユーザが、https://poloclub.github.io/diffusion-explainer/.comでオープンソースツールを使用しています。
ビデオデモはhttps://youtu.be/MbkIADZjPnA.comで公開されている。
Diffusion-based generative models' impressive ability to create convincing images has garnered global attention. However, their complex internal structures and operations often pose challenges for non-experts to grasp. We introduce Diffusion Explainer, the first interactive visualization tool designed to elucidate how Stable Diffusion transforms text prompts into images. It tightly integrates a visual overview of Stable Diffusion's complex components with detailed explanations of their underlying operations. This integration enables users to fluidly transition between multiple levels of abstraction through animations and interactive elements. Offering real-time hands-on experience, Diffusion Explainer allows users to adjust Stable Diffusion's hyperparameters and prompts without the need for installation or specialized hardware. Accessible via users' web browsers, Diffusion Explainer is making significant strides in democratizing AI education, fostering broader public access. More than 7,200 users spanning 113 countries have used our open-sourced tool at https://poloclub.github.io/diffusion-explainer/. A video demo is available at https://youtu.be/MbkIADZjPnA. | 翻訳日:2024-04-26 18:22:04 公開日:2024-04-22 |
# Appleのテイスティングが再考:Bayesianのオンラインバイナリ分類の部分的監視アプローチ
Apple Tasting Revisited: Bayesian Approaches to Partially Monitored Online Binary Classification ( http://arxiv.org/abs/2109.14412v2 ) ライセンス: Link先を確認 | James A. Grant, David S. Leslie, | (参考訳) 学習者がラベル(0ドルまたは1ドル)を未知の真のクラスを持つ項目に逐次割り当てるオンライン二項分類の変種を考える。
もし学習者がラベルを1ドル選ぶと、すぐにそのアイテムの本当のラベルを観察する。
学習者は、短期分類精度と長期情報ゲインとのトレードオフに直面している。
この問題は以前、"apple tasting"問題という名前で研究されてきた。
副次的情報を伴う部分的監視問題としてこの問題を再考し,ロジスティック回帰モデルを用いて項目特徴が真のクラスにリンクされている場合に着目した。
我々の主な貢献は、この問題に対するトンプソンサンプリング(TS)の性能に関する研究である。
最近開発された情報理論ツールを用いて、TSは過去のアプローチに改良された順序のベイズ的後悔境界を達成していることを示す。
さらに,P\'{o}lya-Gamma拡張によるTSとInformation Directed Smplingの効率的な近似が,既存の手法よりも優れた経験的性能を示すことを実験的に検証した。
We consider a variant of online binary classification where a learner sequentially assigns labels ($0$ or $1$) to items with unknown true class. If, but only if, the learner chooses label $1$ they immediately observe the true label of the item. The learner faces a trade-off between short-term classification accuracy and long-term information gain. This problem has previously been studied under the name of the `apple tasting' problem. We revisit this problem as a partial monitoring problem with side information, and focus on the case where item features are linked to true classes via a logistic regression model. Our principal contribution is a study of the performance of Thompson Sampling (TS) for this problem. Using recently developed information-theoretic tools, we show that TS achieves a Bayesian regret bound of an improved order to previous approaches. Further, we experimentally verify that efficient approximations to TS and Information Directed Sampling via P\'{o}lya-Gamma augmentation have superior empirical performance to existing methods. | 翻訳日:2024-04-24 20:31:21 公開日:2024-04-22 |
# ADELT: ディープラーニングフレームワーク間のトランスパイレーション
ADELT: Transpilation Between Deep Learning Frameworks ( http://arxiv.org/abs/2303.03593v2 ) ライセンス: Link先を確認 | Linyuan Gong, Jiayi Wang, Alvin Cheung, | (参考訳) 本稿では,Deep Learning Transpiler (ADELT, Adversarial Deep Learning Transpiler)を提案する。
ADELTはコードスケルトン変換とAPIキーワードマッピングを独自に分離する。
コードスケルトントランスパイレーションでは、大きな言語モデル(LLM)で数発のプロンプトを使用するが、APIキーワードマッピングでは、コード固有のBERTからのコンテキスト埋め込みを使用する。
これらの埋め込みは、キーワード翻訳辞書を生成するためにドメイン・アドバイザリ・セットアップで訓練される。
ADELTは、手作りのルールや並列データに頼ることなく、ラベルなしのWebcrawled Deep Learning Corpusでトレーニングされている。
これは最先端のトランスパイラより優れており、それぞれPyTorch-KerasとPyTorch-MXNetのトランスパイラペアに対して17.4 ptsと15.0 ptsのpass@1レートが向上している。
コードへのアクセスはhttps://github.com/gonglinyuan/adelt.comで公開しています。
We propose the Adversarial DEep Learning Transpiler (ADELT), a novel approach to source-to-source transpilation between deep learning frameworks. ADELT uniquely decouples code skeleton transpilation and API keyword mapping. For code skeleton transpilation, it uses few-shot prompting on large language models (LLMs), while for API keyword mapping, it uses contextual embeddings from a code-specific BERT. These embeddings are trained in a domain-adversarial setup to generate a keyword translation dictionary. ADELT is trained on an unlabeled web-crawled deep learning corpus, without relying on any hand-crafted rules or parallel data. It outperforms state-of-the-art transpilers, improving pass@1 rate by 17.4 pts and 15.0 pts for PyTorch-Keras and PyTorch-MXNet transpilation pairs respectively. We provide open access to our code at https://github.com/gonglinyuan/adelt. | 翻訳日:2024-04-24 20:24:35 公開日:2024-04-22 |
# 効率的なResNetのための多チャンネル直交変換型パーセプトロン層
Multichannel Orthogonal Transform-Based Perceptron Layers for Efficient ResNets ( http://arxiv.org/abs/2303.06797v3 ) ライセンス: Link先を確認 | Hongyi Pan, Emadeldeen Hamdan, Xin Zhu, Salih Atici, Ahmet Enis Cetin, | (参考訳) 本稿では,畳み込みニューラルネットワーク(CNN)における3ドル3ドルのConv2Dの代替として,変換ベースのニューラルネットワーク層を提案する。
提案した層は、離散コサイン変換(DCT)、アダマール変換(HT)、生物直交ブロックウェーブレット変換(BWT)などの直交変換に基づいて実装することができる。
さらに、畳み込み定理を生かして、要素ワイド乗算を用いた畳み込みフィルタリング演算を変換領域で行う。
変換領域のノイズを除去する訓練可能な軟保持層は、変換ドメイン層に非線形性をもたらす。
Conv2D層と比較すると,提案層は位置特異的であり,チャネル特異的である。
さらに、これらのレイヤは、ImageNet-1K分類タスクにおける正規ResNetの精度を向上しつつ、パラメータと乗算の数を著しく削減する。
さらに、従来のResNetsのグローバル平均プール層の前にバッチ正規化層を挿入することで、分類精度を向上させることができる。
In this paper, we propose a set of transform-based neural network layers as an alternative to the $3\times3$ Conv2D layers in Convolutional Neural Networks (CNNs). The proposed layers can be implemented based on orthogonal transforms such as the Discrete Cosine Transform (DCT), Hadamard transform (HT), and biorthogonal Block Wavelet Transform (BWT). Furthermore, by taking advantage of the convolution theorems, convolutional filtering operations are performed in the transform domain using element-wise multiplications. Trainable soft-thresholding layers, that remove noise in the transform domain, bring nonlinearity to the transform domain layers. Compared to the Conv2D layer, which is spatial-agnostic and channel-specific, the proposed layers are location-specific and channel-specific. Moreover, these proposed layers reduce the number of parameters and multiplications significantly while improving the accuracy results of regular ResNets on the ImageNet-1K classification task. Furthermore, they can be inserted with a batch normalization layer before the global average pooling layer in the conventional ResNets as an additional layer to improve classification accuracy. | 翻訳日:2024-04-24 20:24:35 公開日:2024-04-22 |
# コラボレーションAIのルーツと要件
Roots and Requirements for Collaborative AIs ( http://arxiv.org/abs/2303.12040v7 ) ライセンス: Link先を確認 | Mark Stefik, | (参考訳) AI協力者のビジョンは神話とSFの基礎であり、特別な才能を持つ人工エージェントが人間のパートナーやチームを支援する。
この夢では、高度なAIはコラボレーションと人間のコミュニケーションのニュアンスを理解します。
コラボレーションの夢としてのAIは、人間の知性(IA)を増強するコンピュータツールや、中間的な人間のコラボレーションとは異なる。
これらのツールは1960年代にルーツを持ち、情報技術革命の原動力となった。
役に立ちますが、知的ではなく、熟練した人たちほど効果的に協力することはできません。
新型コロナウイルス(COVID-19)のパンデミック以降のハイブリッドワークとリモートワークの増加に伴い、より良いコーディネーション、コラボレーション、コミュニケーションのためのメリットと要件が職場でホットな話題になりつつある。
従業員と労働者は、自宅で働くかオフィスで働くかの選択肢を交渉するため、選択とトレードオフに直面します。
雇用主に近い住宅の高コスト化など、多くの要因が事務所への大量復帰を妨げる。
AIの政府諮問グループとリーダーは、AIは透明で効果的な協力者であるべきだと長年主張してきた。
それでも、才能のある人たちのように協力する堅牢なAIは、まだ手の届かないままだ。
AIチームメイトはソリューションの一部か?
人工的な知性(AI)はどの程度あるべきか?
このポジションペーパーは、人間と機械のチームづくりのための技術と公共の要求の弧を概観する。
心理学や社会科学において、人間のようなコラボレーションが必要とするものについて研究している。
本稿では、レジリエンス、インテリジェント、そして人間と互換性のあるAIを作成するための技術と方法論の急激なシフトを提唱する第2の科学主導の論文(Stefik & Price, 2023)の文脈を定めている。
願望的な目標は、そのようなAIが学習し、学んだことを共有し、高い能力を達成するために協力することだ。
The vision of AI collaborators is a staple of mythology and science fiction, where artificial agents with special talents assist human partners and teams. In this dream, sophisticated AIs understand nuances of collaboration and human communication. The AI as collaborator dream is different from computer tools that augment human intelligence (IA) or intermediate human collaboration. Those tools have their roots in the 1960s and helped to drive an information technology revolution. They can be useful but they are not intelligent and do not collaborate as effectively as skilled people. With the increase of hybrid and remote work since the COVID pandemic, the benefits and requirements for better coordination, collaboration, and communication are becoming hot topics in the workplace. Employers and workers face choices and trade-offs as they negotiate the options for working from home versus working at the office. Many factors such as the high costs of homes near employers are impeding a mass return to the office. Government advisory groups and leaders in AI have advocated for years that AIs should be transparent and effective collaborators. Nonetheless, robust AIs that collaborate like talented people remain out of reach. Are AI teammates part of a solution? How artificially intelligent (AI) could and should they be? This position paper reviews the arc of technology and public calls for human-machine teaming. It draws on earlier research in psychology and the social sciences about what human-like collaboration requires. This paper sets a context for a second science-driven paper that advocates a radical shift in technology and methodology for creating resilient, intelligent, and human-compatible AIs (Stefik & Price, 2023). The aspirational goal is that such AIs would learn, share what they learn, and collaborate to achieve high capabilities. | 翻訳日:2024-04-24 20:24:35 公開日:2024-04-22 |
# ウイルス感染症と細菌感染症の鑑別 : 血液検査値に基づく機械学習モデル
Differentiating Viral and Bacterial Infections: A Machine Learning Model Based on Routine Blood Test Values ( http://arxiv.org/abs/2305.07877v3 ) ライセンス: Link先を確認 | Gregor Gunčar, Matjaž Kukar, Tim Smole, Sašo Moškon, Tomaž Vovko, Simon Podnar, Peter Černelč, Miran Brvar, Mateja Notar, Manca Köster, Marjeta Tušek Jelenc, Marko Notar, | (参考訳) 抗生物質耐性の脅威の増大は、適切な抗生物質投与のために細菌とウイルスの感染を正確に区別する必要がある。
本研究では,C-reactive protein concentration (CRP),biological sex, and ageを用いて,これらの感染型を識別するために,ウイルス対細菌機械学習モデルを開発した。
1つの医療センターからの44,120件のデータセットで、精度は82.2 %、感度は79.7 %、特異度は84.5 %、ブライアスコアは0.129、ROC曲線(AUC) 0.905の領域はCRPベースの決定規則より優れていた。
特に、機械学習モデルは、CRPのみの情報が少ない10~40mg/Lの範囲での精度を高めた。
これらの結果は、診断に複数の血液パラメータを統合する利点を浮き彫りにした。
Virus vs.bacteriuma"モデルは、機械学習を活用して感染管理を最適化し、高度な診断ツールの道を開く。
The growing threat of antibiotic resistance necessitates accurate differentiation between bacterial and viral infections for proper antibiotic administration. In this study, a Virus vs. Bacteria machine learning model was developed to distinguish between these infection types using 16 routine blood test results, C-reactive protein concentration (CRP), biological sex, and age. With a dataset of 44,120 cases from a single medical center, the model achieved an accuracy of 82.2 %, a sensitivity of 79.7 %, a specificity of 84.5 %, a Brier score of 0.129, and an area under the ROC curve (AUC) of 0.905, outperforming a CRP-based decision rule. Notably, the machine learning model enhanced accuracy within the CRP range of 10-40 mg/L, a range where CRP alone is less informative. These results highlight the advantage of integrating multiple blood parameters in diagnostics. The "Virus vs. Bacteria" model paves the way for advanced diagnostic tools, leveraging machine learning to optimize infection management. | 翻訳日:2024-04-24 20:14:41 公開日:2024-04-22 |
# TwitterとMastodon間のプラットフォーム移行パターンの探索 - ユーザ行動調査
Exploring Platform Migration Patterns between Twitter and Mastodon: A User Behavior Study ( http://arxiv.org/abs/2305.09196v4 ) ライセンス: Link先を確認 | Ujun Jeong, Paras Sheth, Anique Tahir, Faisal Alatawi, H. Russell Bernard, Huan Liu, | (参考訳) TwitterからMastodonなど他のプラットフォームに移行するユーザの急増は、移行パターンが何であるか、プラットフォームの違いがユーザの行動にどのような影響を与えるのか、移行プロセスに移行したユーザはどのように落ち着くのか、といった疑問を提起した。
本研究では、Twitterのオーナーシップ変更後、最初の10週間でTwitterからMastodonに移行した1万人以上のユーザーからデータを収集して、これらの質問を調査する方法について詳しく述べる。
私たちの研究は3つの主要なステップで構成されています。
まず,移動パターンの抽出と解析を行うアルゴリズムを開発する。
第二に、行動分析を活用して、TwitterとMastodonの異なるアーキテクチャを調べ、ユーザー行動が各プラットフォームの特徴とどのように対応しているかを学習する。
最後に、特定の行動要因が、ユーザーがマストドンに留まるのにどう影響するかを判断する。
ユーザの行動調査から学んだユーザマイグレーション、洞察、教訓について、私たちの知見を共有します。
A recent surge of users migrating from Twitter to alternative platforms, such as Mastodon, raised questions regarding what migration patterns are, how different platforms impact user behaviors, and how migrated users settle in the migration process. In this study, we elaborate on how we investigate these questions by collecting data over 10,000 users who migrated from Twitter to Mastodon within the first ten weeks following the ownership change of Twitter. Our research is structured in three primary steps. First, we develop algorithms to extract and analyze migration patterns. Second, by leveraging behavioral analysis, we examine the distinct architectures of Twitter and Mastodon to learn how user behaviors correspond with the characteristics of each platform. Last, we determine how particular behavioral factors influence users to stay on Mastodon. We share our findings of user migration, insights, and lessons learned from the user behavior study. | 翻訳日:2024-04-24 20:14:41 公開日:2024-04-22 |
# MERT:大規模自己指導型音響音楽理解モデル
MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training ( http://arxiv.org/abs/2306.00107v4 ) ライセンス: Link先を確認 | Yizhi Li, Ruibin Yuan, Ge Zhang, Yinghao Ma, Xingran Chen, Hanzhi Yin, Chenghao Xiao, Chenghua Lin, Anton Ragni, Emmanouil Benetos, Norbert Gyenge, Roger Dannenberg, Ruibo Liu, Wenhu Chen, Gus Xia, Yemin Shi, Wenhao Huang, Zili Wang, Yike Guo, Jie Fu, | (参考訳) 自己教師付き学習(SSL)は、視覚、テキスト、音声の分野における大規模データに対する一般的なモデルをトレーニングするための有望なパラダイムとして最近登場した。
SSLは音声と音声で有効であることが証明されているが、音楽オーディオへの応用はまだ十分に検討されていない。
これは、音楽の知識、特に音色や音色の特徴をモデル化することに関連する、独特な課題が原因である。
本研究では,MLMスタイルの音響事前学習において,教師モデルを用いて擬似ラベルを提供する,大規模自己指導訓練(MERT)を用いたアコースティック・ミュージック・アンダーレスド・モデルを提案する。
本研究では,教師モデルと教師モデルの効果的な組み合わせを見いだし,従来の音声モデルと音声モデルとを性能的に比較した。
この組み合わせには、Residual Vector Quantisation - Variational AutoEncoder (RVQ-VAE)に基づく音響教師と、Constant-Q Transform (CQT)に基づく音楽教師が含まれる。
さらに,アコースティック言語モデルの事前学習における不安定性を克服し,設計パラダイムを95万から330万のパラメータに拡張可能にするため,幅広い設定について検討する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
Self-supervised learning (SSL) has recently emerged as a promising paradigm for training generalisable models on large-scale data in the fields of vision, text, and speech. Although SSL has been proven effective in speech and audio, its application to music audio has yet to be thoroughly explored. This is partially due to the distinctive challenges associated with modelling musical knowledge, particularly tonal and pitched characteristics of music. To address this research gap, we propose an acoustic Music undERstanding model with large-scale self-supervised Training (MERT), which incorporates teacher models to provide pseudo labels in the masked language modelling (MLM) style acoustic pre-training. In our exploration, we identified an effective combination of teacher models, which outperforms conventional speech and audio approaches in terms of performance. This combination includes an acoustic teacher based on Residual Vector Quantisation - Variational AutoEncoder (RVQ-VAE) and a musical teacher based on the Constant-Q Transform (CQT). Furthermore, we explore a wide range of settings to overcome the instability in acoustic language model pre-training, which allows our designed paradigm to scale from 95M to 330M parameters. Experimental results indicate that our model can generalise and perform well on 14 music understanding tasks and attain state-of-the-art (SOTA) overall scores. | 翻訳日:2024-04-24 20:14:41 公開日:2024-04-22 |
# 隠れた微分可能なポリシー最適化によるネットワーク内のニューラルインベントリ制御
Neural Inventory Control in Networks via Hindsight Differentiable Policy Optimization ( http://arxiv.org/abs/2306.11246v2 ) ライセンス: Link先を確認 | Matias Alvo, Daniel Russo, Yash Kanoria, | (参考訳) 我々は,在庫管理が深層強化学習(DRL)を確実に適用し,評価するためのユニークな機会であると主張している。
信頼性の高いアプリケーションに向けて、我々は2つのテクニックを強調し、テストする。
ひとつはHendsight Differentiable Policy Optimization (HDPO) であり、一般的なポリシー勾配法と共通する環境において、ランダム化されたポリシーを繰り返し展開する必要を回避しながら、ポリシー性能を最適化するために確率勾配降下を行う。
第2のテクニックは、ポリシー(神経)ネットワークアーキテクチャと在庫ネットワークの構造を整合させることです。
具体的には、外部サプライヤーの在庫を集約し、それを保持し、必要に応じて多くの店舗に流通する単一倉庫のネットワークに焦点を当てる。
本稿では,対称性を考慮したポリシネットワークアーキテクチャを提案する。
我々は、このアーキテクチャを、漸近的なパフォーマンス保証を確立することによって動機付け、強力なポリシーを明らかにするために必要なデータ量を減らす能力を実証的に示す。
どちらの手法も在庫管理の問題に固有の構造を利用しており、一般的なDRLアルゴリズムを超えている。
厳密な評価に向けて、我々は2つのカテゴリに分けられた新しいベンチマーク問題を作成し、共有する。
1つのタイプは、真の最適ポリシーのコストを計算したり、制限したりできる隠された構造に関する問題に焦点を当てます。
このタイプの4つの問題のうち、HDPOは、最大60次元の原状態ベクトルを効果的に処理し、ほぼ最適性能が得られる。
もう一つの評価手法は、大規模小売店の時系列データを用いて、最適性が不十分なテスト問題を構築することである。
ここでは,HDPO法が様々な一般化ニューズベンダーヒューリスティックよりも有意に優れていることを示す。
私たちのコードはgithub.com/MatiasAlvo/Neural_inventory_controlで見られます。
We argue that inventory management presents unique opportunities for reliably applying and evaluating deep reinforcement learning (DRL). Toward reliable application, we emphasize and test two techniques. The first is Hindsight Differentiable Policy Optimization (HDPO), which performs stochastic gradient descent to optimize policy performance while avoiding the need to repeatedly deploy randomized policies in the environment-as is common with generic policy gradient methods. Our second technique involves aligning policy (neural) network architectures with the structure of the inventory network. Specifically, we focus on a network with a single warehouse that consolidates inventory from external suppliers, holds it, and then distributes it to many stores as needed. In this setting, we introduce the symmetry-aware policy network architecture. We motivate this architecture by establishing an asymptotic performance guarantee and empirically demonstrate its ability to reduce the amount of data needed to uncover strong policies. Both techniques exploit structures inherent in inventory management problems, moving beyond generic DRL algorithms. Toward rigorous evaluation, we create and share new benchmark problems, divided into two categories. One type focuses on problems with hidden structures that allow us to compute or bound the cost of the true optimal policy. Across four problems of this type, we find HDPO consistently attains near-optimal performance, handling up to 60-dimensional raw state vectors effectively. The other type of evaluation involves constructing a test problem using real time series data from a large retailer, where the optimum is poorly understood. Here, we find HDPO methods meaningfully outperform a variety of generalized newsvendor heuristics. Our code can be found at github.com/MatiasAlvo/Neural_inventory_control. | 翻訳日:2024-04-24 20:14:41 公開日:2024-04-22 |
# 視覚的質問応答モデルを用いた接地言語からの関数語の意味学習
Learning the meanings of function words from grounded language using a visual question answering model ( http://arxiv.org/abs/2308.08628v3 ) ライセンス: Link先を確認 | Eva Portelance, Michael C. Frank, Dan Jurafsky, | (参考訳) 単に「or」や「behind」や「more」といった単純な関数を解釈するには、論理的、数値的、関係的推論が必要である。
そんな言葉は子供たちにどうやって覚えていますか。
以前の買収理論は、しばしば本質的な知識の基盤を提示することに頼っていた。
しかし、最近のニューラルネットワークベースの視覚的質問応答モデルでは、複雑な視覚シーンに関する質問に対する答えの一部として関数語を使うことを学ぶことができるようだ。
本稿では,これらのモデルが機能的単語について何を学べるかを,モデルと子供の両方がこれらの単語の意味をどのように学べるかをよりよく理解するために検討する。
本研究では,空間的および数値的推論を必要とする関数語に対して,視覚的基底言語で訓練された反復モデルで勾配意味を学習することを示す。
さらに,これらのモデルでは,論理的結合の意味を学習し,論理的論理的推論の事前知識を欠くだけでなく,言語を解釈する際の代替表現に敏感であるという早期の証拠も得られている。
最後に,単語学習の難易度はモデルの入力頻度に依存することを示す。
本研究は,非記号的一般統計学習アルゴリズムを用いて,言語的意味の知識を必要とせず,視覚的文脈で関数語のニュアンス解釈を学習できることを示す。
Interpreting a seemingly-simple function word like "or", "behind", or "more" can require logical, numerical, and relational reasoning. How are such words learned by children? Prior acquisition theories have often relied on positing a foundation of innate knowledge. Yet recent neural-network based visual question answering models apparently can learn to use function words as part of answering questions about complex visual scenes. In this paper, we study what these models learn about function words, in the hope of better understanding how the meanings of these words can be learnt by both models and children. We show that recurrent models trained on visually grounded language learn gradient semantics for function words requiring spatial and numerical reasoning. Furthermore, we find that these models can learn the meanings of logical connectives and and or without any prior knowledge of logical reasoning, as well as early evidence that they are sensitive to alternative expressions when interpreting language. Finally, we show that word learning difficulty is dependent on frequency in models' input. Our findings offer proof-of-concept evidence that it is possible to learn the nuanced interpretations of function words in visually grounded context by using non-symbolic general statistical learning algorithms, without any prior knowledge of linguistic meaning. | 翻訳日:2024-04-24 20:04:56 公開日:2024-04-22 |
# 画像ハイジャック: 逆画像は実行時に生成モデルを制御することができる
Image Hijacks: Adversarial Images can Control Generative Models at Runtime ( http://arxiv.org/abs/2309.00236v3 ) ライセンス: Link先を確認 | Luke Bailey, Euan Ong, Stuart Russell, Scott Emmons, | (参考訳) ファンデーションモデルは悪意のあるアクターに対して安全か?
本研究では,視覚言語モデル(VLM)への画像入力に着目した。
我々は、画像ハイジャックや、VLMの動作を推論時に制御する逆画像を発見し、画像ハイジャックを訓練するための一般的なビヘイビアマッチングアルゴリズムを導入する。
これにより、任意のユーザ定義のテキストプロンプト(例えば、Eiffel Towerは現在ローマにある)の振る舞いにマッチしたハイジャックを、プロンプトの選択とは無関係な汎用的なオフザシェルフデータセットを使ってトレーニングすることができる。
我々は、Behaviour Matchingを使って、4種類の攻撃に対してハイジャックを作らせ、VLMは敵の選択の出力を生成し、コンテキストウィンドウから情報をリークし、安全トレーニングをオーバーライドし、偽の声明を信じるように強制する。
CLIPとLLaMA-2をベースとした最先端のVLMであるLLaVAに対するこれらの攻撃について検討し、すべての攻撃タイプが80%以上の成功率を達成することを発見した。
さらに、我々の攻撃は自動化されており、小さな画像摂動しか必要としない。
Are foundation models secure against malicious actors? In this work, we focus on the image input to a vision-language model (VLM). We discover image hijacks, adversarial images that control the behaviour of VLMs at inference time, and introduce the general Behaviour Matching algorithm for training image hijacks. From this, we derive the Prompt Matching method, allowing us to train hijacks matching the behaviour of an arbitrary user-defined text prompt (e.g. 'the Eiffel Tower is now located in Rome') using a generic, off-the-shelf dataset unrelated to our choice of prompt. We use Behaviour Matching to craft hijacks for four types of attack, forcing VLMs to generate outputs of the adversary's choice, leak information from their context window, override their safety training, and believe false statements. We study these attacks against LLaVA, a state-of-the-art VLM based on CLIP and LLaMA-2, and find that all attack types achieve a success rate of over 80%. Moreover, our attacks are automated and require only small image perturbations. | 翻訳日:2024-04-24 20:04:56 公開日:2024-04-22 |
# 生物医学文献からの知識グラフ構築のためのBioBERTのゲルムリン遺伝子解析への応用
Applying BioBERT to Extract Germline Gene-Disease Associations for Building a Knowledge Graph from the Biomedical Literature ( http://arxiv.org/abs/2309.13061v3 ) ライセンス: Link先を確認 | Armando D. Diaz Gonzalez, Kevin S. Hughes, Songhui Yue, Sean T. Hayes, | (参考訳) 生物医学的な情報は急速に増加し続けている。
自然言語処理(NLP)の最近の進歩は、遺伝子や疾患などの実体に関するバイオメディカル知識の抽出、正規化、表現の自動化にかなりの関心を集めている。
本研究は,この領域で遺伝子や疾患に対して行われてきた膨大な研究の知識グラフの構築において,生殖細胞を抽象的に解析するものである。
本稿では,ジェムリン遺伝子と疾患を結合する知識グラフ構築手法SimpleGermKGを提案する。
遺伝子および疾患の抽出には、バイオメディカルコーパス上でトレーニング済みのBERTモデルであるBioBERTを用いる。
本稿では,医学用語の標準化と曖昧化のためのオントロジーに基づく規則ベースのアルゴリズムを提案する。
記事,遺伝子,疾患間の意味的関係について,各エンティティをデータソースに接続し,それらをグラフベースの知識表現で視覚化する部分完全関係手法を実装した。
最後に,ガームラインコーパスの今後の研究を促すための知識グラフの応用,限界,課題について論じる。
知識グラフには297の遺伝子、130の疾患、46,747のトリプルが含まれている。
グラフベースの視覚化は結果を示すために使用される。
Published biomedical information has and continues to rapidly increase. The recent advancements in Natural Language Processing (NLP), have generated considerable interest in automating the extraction, normalization, and representation of biomedical knowledge about entities such as genes and diseases. Our study analyzes germline abstracts in the construction of knowledge graphs of the of the immense work that has been done in this area for genes and diseases. This paper presents SimpleGermKG, an automatic knowledge graph construction approach that connects germline genes and diseases. For the extraction of genes and diseases, we employ BioBERT, a pre-trained BERT model on biomedical corpora. We propose an ontology-based and rule-based algorithm to standardize and disambiguate medical terms. For semantic relationships between articles, genes, and diseases, we implemented a part-whole relation approach to connect each entity with its data source and visualize them in a graph-based knowledge representation. Lastly, we discuss the knowledge graph applications, limitations, and challenges to inspire the future research of germline corpora. Our knowledge graph contains 297 genes, 130 diseases, and 46,747 triples. Graph-based visualizations are used to show the results. | 翻訳日:2024-04-24 20:04:56 公開日:2024-04-22 |
# VAL: GPTダイアログ解析による対話型タスク学習
VAL: Interactive Task Learning with GPT Dialog Parsing ( http://arxiv.org/abs/2310.01627v2 ) ライセンス: Link先を確認 | Lane Lawley, Christopher J. MacLellan, | (参考訳) マシンラーニングは、静的なブラックボックスモデルを生成するために、数百万のサンプルを必要とすることが多い。
対照的に、対話型タスク学習(ITL)は、自然言語などのモダリティにおいて、人間によって提供される限られた命令からインクリメンタルな知識を取得することを強調する。
しかし、IPLシステムは、しばしば脆弱でエラーを起こしやすい言語解析に悩まされ、ユーザビリティが制限される。
大規模言語モデル(LLM)は脆性に耐性があるが、解釈不可能であり、漸進的に学習することはできない。
LLM/シンボリック統合のための新しい哲学を持つIPLシステムであるVALを提案する。
述語や引数の選択など,特定のタスクのみにLLMを使用することで,自然言語から階層的なタスク知識を対話的に学習する上で,VALはLLMのメリットを享受する。
獲得した知識は人間の解釈可能であり、追加の訓練なしに新しいタスクの実行を支援するために一般化される。
ゲーム環境におけるVALのユーザインタラクションについて検討し,VALが自然であると感じた言語を用いて,ほとんどのユーザがVALを学べることを発見した。
Machine learning often requires millions of examples to produce static, black-box models. In contrast, interactive task learning (ITL) emphasizes incremental knowledge acquisition from limited instruction provided by humans in modalities such as natural language. However, ITL systems often suffer from brittle, error-prone language parsing, which limits their usability. Large language models (LLMs) are resistant to brittleness but are not interpretable and cannot learn incrementally. We present VAL, an ITL system with a new philosophy for LLM/symbolic integration. By using LLMs only for specific tasks--such as predicate and argument selection--within an algorithmic framework, VAL reaps the benefits of LLMs to support interactive learning of hierarchical task knowledge from natural language. Acquired knowledge is human interpretable and generalizes to support execution of novel tasks without additional training. We studied users' interactions with VAL in a video game setting, finding that most users could successfully teach VAL using language they felt was natural. | 翻訳日:2024-04-24 19:55:12 公開日:2024-04-22 |
# SteP: Webアクションのためのスタック化されたLLMポリシー
SteP: Stacked LLM Policies for Web Actions ( http://arxiv.org/abs/2310.03720v2 ) ライセンス: Link先を確認 | Paloma Sodhi, S. R. K. Branavan, Yoav Artzi, Ryan McDonald, | (参考訳) ウェブ上でのタスク実行は大きな言語モデル(LLM)に根本的な課題をもたらし、組み合わさった大規模なオープンワールドタスクやWebインターフェース間のバリエーションがある。
すべての可能性のある行動や状態を扱うための大きなプロンプトを単純に指定するのは極めて複雑であり、結果として無関係な動作間の動作リークが発生する。
異なるポリシーの分解はこの課題に対処できるが、ポリシー間の制御を慎重に行う必要がある。
SteP(Stacked LLM Policies for Web Actions)は,多種多様なWebタスクを動的に構成する手法である。
StePは、状態が制御状態、すなわちポリシー呼び出しの連鎖を表すポリシーのスタックであるマルコフ決定プロセスを定義する。
静的階層に制限された従来のメソッドとは異なり、StePはタスクの複雑さに適応する動的制御を可能にする。
我々は、WebArena、MiniWoB++、CRMシミュレータなど、複数のベースラインとWeb環境に対してStePを評価する。
WebArenaでは、StePはGPT-4ポリシーを使用するSOTAよりも14.9%から35.8%改善されている。
私たちのコードとデータはhttps://asappresearch.github.io/webagents-stepで公開されています。
Performing tasks on the web presents fundamental challenges to large language models (LLMs), including combinatorially large open-world tasks and variations across web interfaces. Simply specifying a large prompt to handle all possible behaviors and states is extremely complex, and results in behavior leaks between unrelated behaviors. Decomposition to distinct policies can address this challenge, but requires carefully handing off control between policies. We propose Stacked LLM Policies for Web Actions (SteP), an approach to dynamically compose policies to solve a diverse set of web tasks. SteP defines a Markov Decision Process where the state is a stack of policies representing the control state, i.e., the chain of policy calls. Unlike traditional methods that are restricted to static hierarchies, SteP enables dynamic control that adapts to the complexity of the task. We evaluate SteP against multiple baselines and web environments including WebArena, MiniWoB++, and a CRM simulator. On WebArena, SteP improves (14.9% to 35.8%) over SOTA that use GPT-4 policies, while on MiniWob++, SteP is competitive with prior works while using significantly less data. Our code and data is available at https://asappresearch.github.io/webagents-step. | 翻訳日:2024-04-24 19:55:12 公開日:2024-04-22 |
# 有限差分に基づく教師なし小線形畳み込みニューラルネットワークによる楕円・パラボリック問題の解法
Solutions to Elliptic and Parabolic Problems via Finite Difference Based Unsupervised Small Linear Convolutional Neural Networks ( http://arxiv.org/abs/2311.00259v2 ) ライセンス: Link先を確認 | Adrian Celaya, Keegan Kirk, David Fuentes, Beatrice Riviere, | (参考訳) 近年では、特に偏微分方程式(PDE)の解法において、科学的問題に対処するためにディープラーニングとニューラルネットワークを活用することへの関心が高まっている。
しかし、PINNのような多くのニューラルネットワークベースの手法は、自動微分とコロケーション点のサンプリングに依存しており、従来の数値法よりも解釈可能性や精度が低い。
その結果、線形畳み込みニューラルネットワークを用いてPDEの有限差分解を直接推定するために、トレーニングデータを必要としない完全に教師なしのアプローチを提案する。
提案手法は、同様の有限差分法よりもパラメータを著しく少なくし、また、有限差分法と比較して、いくつかの選択された楕円型および放物型問題に対して真の解に匹敵する精度を示す。
In recent years, there has been a growing interest in leveraging deep learning and neural networks to address scientific problems, particularly in solving partial differential equations (PDEs). However, many neural network-based methods like PINNs rely on auto differentiation and sampling collocation points, leading to a lack of interpretability and lower accuracy than traditional numerical methods. As a result, we propose a fully unsupervised approach, requiring no training data, to estimate finite difference solutions for PDEs directly via small linear convolutional neural networks. Our proposed approach uses substantially fewer parameters than similar finite difference-based approaches while also demonstrating comparable accuracy to the true solution for several selected elliptic and parabolic problems compared to the finite difference method. | 翻訳日:2024-04-24 19:45:27 公開日:2024-04-22 |
# スマートシティにおける公正なクラウドマネージメントシステムとサージ防止に向けて
Towards Fairness-aware Crowd Management System and Surge Prevention in Smart Cities ( http://arxiv.org/abs/2311.02228v2 ) ライセンス: Link先を確認 | Yixin Zhang, Tianyu Zhao, Salma Elmalaki, | (参考訳) 大規模な群衆による犠牲者の事例は継続しており、スマートシティにおける現在の群衆管理プラクティスの制限が強調されている。
特筆すべき欠点は、走行速度が遅いために退避するのに余分な時間を必要とする不利な個人に対する供給不足である。
さらに、既存のエスケープ戦略は、群衆の急上昇時に全個人の安全を確保できない可能性がある。
本稿では,これらのプレッシャーに対処するために,2つの群集管理手法を提案する。
まず,すべての個人のニーズを多様に考慮し,インクリシティを確保し,潜在的なリスクを軽減し,適切な避難戦略の実施を提唱する。
次に,大規模イベントにおけるアトラクション位置の調整とステージパフォーマンスの切り替えを伴って,サージの発生を最小限に抑え,群集の分散を高めるための予防的アプローチを提案する。
提案手法の有効性を評価するために,高忠実度群集管理シミュレータを用いた。
本研究は, 公正避難戦略が安全対策および傾斜度に及ぼす影響を実証し, 平均41.8%の公正度向上効果を示した。
さらに、アトラクションの位置やステージパフォーマンスを調整することで、平均して34%の急上昇が顕著に減少し、全体の観客の安全が向上した。
Instances of casualties resulting from large crowds persist, highlighting the existing limitations of current crowd management practices in Smart Cities. One notable drawback is the insufficient provision for disadvantaged individuals who may require additional time to evacuate due to their slower running speed. Moreover, the existing escape strategies may fall short of ensuring the safety of all individuals during a crowd surge. To address these pressing concerns, this paper proposes two crowd management methodologies. Firstly, we advocate for implementing a fair evacuation strategy following a surge event, which considers the diverse needs of all individuals, ensuring inclusivity and mitigating potential risks. Secondly, we propose a preventative approach involving the adjustment of attraction locations and switching between stage performances in large-crowded events to minimize the occurrence of surges and enhance crowd dispersion. We used high-fidelity crowd management simulators to assess the effectiveness of our proposals. Our findings demonstrate the positive impact of the fair evacuation strategy on safety measures and inclusivity, which increases fairness by 41.8% on average. Furthermore, adjusting attraction locations and stage performances has shown a significant reduction in surges by 34% on average, enhancing overall crowd safety. | 翻訳日:2024-04-24 19:45:27 公開日:2024-04-22 |
# 微妙な選択と深層学習:ドメイン一般化のためのCLIPによる選択的クロスモーダル蒸留
Choosing Wisely and Learning Deeply: Selective Cross-Modality Distillation via CLIP for Domain Generalization ( http://arxiv.org/abs/2311.15145v3 ) ライセンス: Link先を確認 | Jixuan Leng, Yijiang Li, Haohan Wang, | (参考訳) ドメインの一般化(DG)は重要な研究領域であり、複数のドメインにまたがるモデルをトレーニングし、目に見えない領域でテストすることを目指している。
本稿では,ドメイン一般化のための選択的クロスモーダル蒸留法(Selective Cross-Modality Distillation for Domain Generalization, SCMD)を提案する。
SCMDは大規模な視覚言語モデル、特にCLIPの能力を活用して、より効率的なモデルをトレーニングし、目に見えない領域にわたって堅牢な一般化能力を取得する。
我々の主な貢献は、蒸留の難しいサンプルを特定するために戦略的に設計されたユニークな選択フレームワークである。
並行して、学生モデルの投影された特徴とCLIPのテキスト埋め込みをシームレスに組み合わせ、類似度分布の整合性を確保する新しいクロスモーダルモジュールを導入する。
SCMDの性能を様々なベンチマークで評価し、ResNet50が既存のドメイン一般化手法を超越して最先端のパフォーマンスを提供できるようにします。
さらに、我々は選択戦略の理論分析を行い、DG分野におけるその有効性と可能性についてより深い知見を提供する。
Domain Generalization (DG), a crucial research area, seeks to train models across multiple domains and test them on unseen ones. In this paper, we introduce a novel approach, namely, Selective Cross-Modality Distillation for Domain Generalization (SCMD). SCMD leverages the capabilities of large vision-language models, specifically CLIP, to train a more efficient model, ensuring it acquires robust generalization capabilities across unseen domains. Our primary contribution is a unique selection framework strategically designed to identify hard-to-learn samples for distillation. In parallel, we introduce a novel cross-modality module that seamlessly combines the projected features of the student model with the text embeddings from CLIP, ensuring the alignment of similarity distributions. We assess SCMD's performance on various benchmarks, where it empowers a ResNet50 to deliver state-of-the-art performance, surpassing existing domain generalization methods. Furthermore, we provide a theoretical analysis of our selection strategy, offering deeper insight into its effectiveness and potential in the field of DG. | 翻訳日:2024-04-24 19:45:27 公開日:2024-04-22 |
# DGR:デコードグラフ再重み付けによる量子誤差補正におけるドリフトと相関ノイズの対応
DGR: Tackling Drifted and Correlated Noise in Quantum Error Correction via Decoding Graph Re-weighting ( http://arxiv.org/abs/2311.16214v3 ) ライセンス: Link先を確認 | Hanrui Wang, Pengyu Liu, Yilian Liu, Jiaqi Gu, Jonathan Baker, Frederic T. Chong, Song Han, | (参考訳) 量子ハードウェアは高いエラー率とノイズに悩まされており、直接動作するアプリケーションは非効率である。
量子誤り補正(Quantum Error Correction, QEC)は、複数のデータ量子ビットに分散的に量子情報を符号化し、シンドローム量子ビットを用いてパリティをチェックする、フォールトトレランスに対する重要な手法である。
MWPM(Minimum-Weight-Perfect-Matching)は、QECデコーダとして人気があり、このデコーダはシンドロームを入力とし、エラーを推測するシンドローム間のマッチングを見つける。
しかし、MWPMデコーダには2つの最重要課題がある。
第一に、実際の量子系のノイズが時間の経過とともにドリフトできるため、復号グラフの初期重み付けと潜在的なミスアライメントがあり、論理的誤り率が著しく低下する。
第二に、MWPMデコーダは独立したエラーに対処するが、2Qデポラライズチャネルのような実際のハードウェアで典型的な相関エラーに遭遇すると不足する。
量子オーバーヘッドのない効率的なデコードグラフエッジ再重み付け戦略であるDGRを提案する。
復号反復におけるマッチングの統計は、実際の量子ハードウェア上のエラーに関する豊富な情報を提供するという洞察を利用する。
デコードされたマッチングにおけるエッジとエッジペアの発生をカウントすることにより、各エッジの最新の確率とそれらの相関関係を統計的に推定することができる。
再重み付けプロセスは、アライメント再重み付けと相関再重み付けの2つの重要なステップを含む。
前者は統計に基づいてMWPM重みを更新し、後者はエッジ相関を考慮した重みを調整する。
様々な条件下でのサーフェスコードとハニカムコードに対する広範囲な評価は、DGRが最悪のケースミスマッチで5000倍改善した平均ケースノイズミスマッチにおいて論理誤差率を3.6倍に削減していることを示している。
Quantum hardware suffers from high error rates and noise, which makes directly running applications on them ineffective. Quantum Error Correction (QEC) is a critical technique towards fault tolerance which encodes the quantum information distributively in multiple data qubits and uses syndrome qubits to check parity. Minimum-Weight-Perfect-Matching (MWPM) is a popular QEC decoder that takes the syndromes as input and finds the matchings between syndromes that infer the errors. However, there are two paramount challenges for MWPM decoders. First, as noise in real quantum systems can drift over time, there is a potential misalignment with the decoding graph's initial weights, leading to a severe performance degradation in the logical error rates. Second, while the MWPM decoder addresses independent errors, it falls short when encountering correlated errors typical on real hardware, such as those in the 2Q depolarizing channel. We propose DGR, an efficient decoding graph edge re-weighting strategy with no quantum overhead. It leverages the insight that the statistics of matchings across decoding iterations offer rich information about errors on real quantum hardware. By counting the occurrences of edges and edge pairs in decoded matchings, we can statistically estimate the up-to-date probabilities of each edge and the correlations between them. The reweighting process includes two vital steps: alignment re-weighting and correlation re-weighting. The former updates the MWPM weights based on statistics to align with actual noise, and the latter adjusts the weight considering edge correlations. Extensive evaluations on surface code and honeycomb code under various settings show that DGR reduces the logical error rate by 3.6x on average-case noise mismatch with exceeding 5000x improvement under worst-case mismatch. | 翻訳日:2024-04-24 19:45:27 公開日:2024-04-22 |
# Paved2Paradise:現実世界を要因としたコスト効果とスケーラブルLiDARシミュレーション
Paved2Paradise: Cost-Effective and Scalable LiDAR Simulation by Factoring the Real World ( http://arxiv.org/abs/2312.01117v3 ) ライセンス: Link先を確認 | Michael A. Alcorn, Noah Schwartz, | (参考訳) 強力な現実世界のパフォーマンスを達成するためには、ニューラルネットワークは大規模で多様なデータセットでトレーニングする必要がある。
本稿では,Palved2Paradiseについて述べる。Palved2Paradiseは,完全ラベル付き,多様で,現実的なライダーデータセットをスクラッチから生成するための,シンプルで費用効率の良いアプローチである。
私たちのキーとなる洞察は、意図的に別々の"背景"と"対象"データセット(すなわち、現実世界をリファクタリングする)を収集することで、それらをインテリジェントに組み合わせて、組合せ的に大きく、多様なトレーニングセットを生成することができるということです。
Paved2Paradiseパイプラインは、(1)共用バックグラウンドデータ収集、(2)駐車場のような)孤立した環境で異なる振る舞いを行う目的のクラスからの個人記録、(3)オブジェクトデータセットのブートストラップラベル、(4)背景に任意の位置にオブジェクトを配置してサンプルを生成する4つのステップから構成される。
筆者らはPaved2Paradiseの有用性を実証するために,(1)果樹園における人間検出(公共データがないタスク)と(2)都市環境における歩行者検出という2つのタスクのための合成データセットを作成した。
定性的には、Paved2Paradise合成データに特化して訓練されたモデルは、果樹園の人間を検出するのに非常に効果的である。
定量的に、KITTIのバックグラウンドをソースとするPaved2Paradiseデータに基づいてトレーニングされたモデルは、実際のデータセットでトレーニングされたモデルと互換性がある。
これらの結果から、Paved2Paradise合成データパイプラインは、ライダーデータセットの取得がこれまでコストを抑えてきたセクターにおけるポイントクラウドモデル開発の加速に役立つことが示唆された。
To achieve strong real world performance, neural networks must be trained on large, diverse datasets; however, obtaining and annotating such datasets is costly and time-consuming, particularly for 3D point clouds. In this paper, we describe Paved2Paradise, a simple, cost-effective approach for generating fully labeled, diverse, and realistic lidar datasets from scratch, all while requiring minimal human annotation. Our key insight is that, by deliberately collecting separate "background" and "object" datasets (i.e., "factoring the real world"), we can intelligently combine them to produce a combinatorially large and diverse training set. The Paved2Paradise pipeline thus consists of four steps: (1) collecting copious background data, (2) recording individuals from the desired object class(es) performing different behaviors in an isolated environment (like a parking lot), (3) bootstrapping labels for the object dataset, and (4) generating samples by placing objects at arbitrary locations in backgrounds. To demonstrate the utility of Paved2Paradise, we generated synthetic datasets for two tasks: (1) human detection in orchards (a task for which no public data exists) and (2) pedestrian detection in urban environments. Qualitatively, we find that a model trained exclusively on Paved2Paradise synthetic data is highly effective at detecting humans in orchards, including when individuals are heavily occluded by tree branches. Quantitatively, a model trained on Paved2Paradise data that sources backgrounds from KITTI performs comparably to a model trained on the actual dataset. These results suggest the Paved2Paradise synthetic data pipeline can help accelerate point cloud model development in sectors where acquiring lidar datasets has previously been cost-prohibitive. | 翻訳日:2024-04-24 19:35:42 公開日:2024-04-22 |
# 非線形連続時間系のクラスにおける標本複雑度の推定
Estimation Sample Complexity of a Class of Nonlinear Continuous-time Systems ( http://arxiv.org/abs/2312.05382v2 ) ライセンス: Link先を確認 | Simon Kuang, Xinfan Lin, | (参考訳) 本稿では, 大規模非線形系のパラメータ推定法について述べる。
正規化線形回帰を用いて力学を直接反転させることにより未知パラメータを解く手法は、微分フィルタと正規化最小二乗の新たな設計と解析のアイデアに基づいている。
直列で組み合わせると、平均絶対誤差に基づく新しい有限サンプルが得られる。
We present a method of parameter estimation for large class of nonlinear systems, namely those in which the state consists of output derivatives and the flow is linear in the parameter. The method, which solves for the unknown parameter by directly inverting the dynamics using regularized linear regression, is based on new design and analysis ideas for differentiation filtering and regularized least squares. Combined in series, they yield a novel finite-sample bound on mean absolute error of estimation. | 翻訳日:2024-04-24 19:35:42 公開日:2024-04-22 |
# Holodeck: 言語ガイドによる3DエボダイドAI環境の生成
Holodeck: Language Guided Generation of 3D Embodied AI Environments ( http://arxiv.org/abs/2312.09067v2 ) ライセンス: Link先を確認 | Yue Yang, Fan-Yun Sun, Luca Weihs, Eli VanderBilt, Alvaro Herrasti, Winson Han, Jiajun Wu, Nick Haber, Ranjay Krishna, Lingjie Liu, Chris Callison-Burch, Mark Yatskar, Aniruddha Kembhavi, Christopher Clark, | (参考訳) 3Dシミュレーション環境は、Embodied AIにおいて重要な役割を果たすが、その作成には専門知識と広範囲な手作業が必要で、多様性とスコープが制限される。
この制限を緩和するために,ユーザが提供するプロンプトを完全自動化する3D環境を生成するシステムであるHolodeckを提案する。
ホロデックは、例えば、アーケード、スパ、博物館などの多様なシーンを生成し、スタイルのデザインを調整し、「猫を持つ研究者のためのアパート」や「スター・ウォーズのファンである教授のオフィス」のような複雑なクエリのセマンティクスをキャプチャすることができる。
Holodeckは大きな言語モデル(GPT-4)を活用して、シーンがどのようなものかという常識的な知識を提供し、Objaverseから大量の3Dアセットを収集して、シーンを多様なオブジェクトで表示している。
オブジェクトの位置決めの課題に対処するため,GPT-4にオブジェクト間の空間的関係制約を生成し,それらの制約を満たすためにレイアウトを最適化する。
大規模な人的評価の結果,アノテータは住宅シーンにおいて,手作業で設計した手続きベースラインよりもホロデックを好んでおり,多様なシーンに対して高品質なアウトプットを生成できることがわかった。
また、Embodied AIにおけるHolodeckのエキサイティングな応用、音楽室や保育所のような新しいシーンを人間の構築データなしでナビゲートする訓練エージェント、そして汎用的なエンボディエージェントの開発において大きな前進を示す。
3D simulated environments play a critical role in Embodied AI, but their creation requires expertise and extensive manual effort, restricting their diversity and scope. To mitigate this limitation, we present Holodeck, a system that generates 3D environments to match a user-supplied prompt fully automatedly. Holodeck can generate diverse scenes, e.g., arcades, spas, and museums, adjust the designs for styles, and can capture the semantics of complex queries such as "apartment for a researcher with a cat" and "office of a professor who is a fan of Star Wars". Holodeck leverages a large language model (i.e., GPT-4) for common sense knowledge about what the scene might look like and uses a large collection of 3D assets from Objaverse to populate the scene with diverse objects. To address the challenge of positioning objects correctly, we prompt GPT-4 to generate spatial relational constraints between objects and then optimize the layout to satisfy those constraints. Our large-scale human evaluation shows that annotators prefer Holodeck over manually designed procedural baselines in residential scenes and that Holodeck can produce high-quality outputs for diverse scene types. We also demonstrate an exciting application of Holodeck in Embodied AI, training agents to navigate in novel scenes like music rooms and daycares without human-constructed data, which is a significant step forward in developing general-purpose embodied agents. | 翻訳日:2024-04-24 19:25:53 公開日:2024-04-22 |
# Pairwise Cringe Lossによる反復的推論最適化
Some things are more CRINGE than others: Iterative Preference Optimization with the Pairwise Cringe Loss ( http://arxiv.org/abs/2312.16682v2 ) ライセンス: Link先を確認 | Jing Xu, Andrew Lee, Sainbayar Sukhbaatar, Jason Weston, | (参考訳) 実践者は、ペアの好みを使って大きな言語モデルをアライメントする。つまり、型応答 A のラベルは、与えられた入力に対して B を返すのが好まれる。
おそらくより一般的には、バイナリフィードバックのためのメソッドも開発されている。つまり、型応答Aのラベルが良いか悪いかが与えられたトレーニングモデルである。
本稿では,既存の2値フィードバック手法であるCrynge Loss(Adolphs et al , 2022)を,単純なソフトマージン拡張を用いてペアの選好設定に一般化する方法を示す。
Pairwise Cringe Lossは簡単に実装でき、訓練も効率的で、AlpacaFarmベンチマークではPPOやDPOといった最先端の選好最適化アルゴリズムよりも優れています。
結果の改善にはモデルのトレーニングの反復が重要であること,DPOを反復的DPOに同じように一般化できること,などが示される。
Practitioners commonly align large language models using pairwise preferences, i.e., given labels of the type response A is preferred to response B for a given input. Perhaps less commonly, methods have also been developed for binary feedback, i.e. training models given labels of type response A is good or bad. We show how an existing performant binary feedback method, the Cringe Loss (Adolphs et al., 2022), can be generalized to the pairwise preference setting using a simple soft margin extension. Pairwise Cringe Loss is straightforward to implement and efficient to train, and we find it outperforms state-of-the-art preference optimization algorithms such as PPO and DPO on the AlpacaFarm benchmark. We show that iterations of training of our model are important for improved results, and that we can generalize DPO to Iterative DPO in the same way. | 翻訳日:2024-04-24 19:25:53 公開日:2024-04-22 |
# 密度行列平均場理論
Density-Matrix Mean-Field Theory ( http://arxiv.org/abs/2401.06236v2 ) ライセンス: Link先を確認 | Junyi Zhang, Zhengqian Cheng, | (参考訳) 平均場理論は、より正確だがより計算的に要求される代替手法を補完し、様々な物質相を探索するための効率的なツールであることが証明されている。
従来の平均場理論は、強い量子ゆらぎによって特徴づけられるシステムに適用性を制限する量子ゆらぎを捉えるのに不足することが多い。
本稿では,新しい平均場理論,密度行列平均場理論(DMMFT)を提案する。
DMMFTは、密度の低下した行列によって定量化された絡み合いによって形成された量子環境を組み込んだ、効果的なハミルトン多様体を構成する。
したがって、量子秩序相におけるゆらぎと絡みの影響を考慮し、体系的で偏りのないアプローチを提供する。
実証的な例として、DMMFTは、量子ゆらぎによって誘導される順序パラメータの再正規化を定量的に評価できるだけでなく、量子位相の位相秩序も検出できることを示す。
さらに、有限温度におけるシステムと障害のあるシステムに対するDMMFTの拡張についても論じる。
我々の研究は、非伝統的な量子秩序を示す位相を探索するための、新しく効率的なアプローチを提供しており、特に高空間次元におけるフラストレーションのあるスピン系の研究に有用である。
Mean-field theories have proven to be efficient tools for exploring various phases of matter, complementing alternative methods that are more precise but also more computationally demanding. Conventional mean-field theories often fall short in capturing quantum fluctuations, which restricts their applicability to systems characterized by strong quantum fluctuations. In this article, we propose a novel mean-field theory, density-matrix mean-field theory (DMMFT). DMMFT constructs effective Hamiltonians, incorporating quantum environments shaped by entanglements quantified by the reduced density matrices. Therefore, it offers a systematic and unbiased approach to account for effects of fluctuations and entanglements in quantum ordered phases. As demonstrative examples, we show that DMMFT can not only quantitatively evaluate the renormalization of order parameters induced by quantum fluctuations but can even detect the topological order of quantum phases. Additionally, we discuss the extensions of DMMFT for systems at finite temperatures and those with disorders. Our work provides a novel and efficient approach to explore phases exhibiting unconventional quantum orders, which can be particularly beneficial for investigating frustrated spin systems in high spatial dimensions. | 翻訳日:2024-04-24 19:25:53 公開日:2024-04-22 |
# GPT-4の医用ビジョンの正確性にまつわる隠された欠陥
Hidden Flaws Behind Expert-Level Accuracy of GPT-4 Vision in Medicine ( http://arxiv.org/abs/2401.08396v3 ) ライセンス: Link先を確認 | Qiao Jin, Fangyuan Chen, Yiliang Zhou, Ziyang Xu, Justin M. Cheung, Robert Chen, Ronald M. Summers, Justin F. Rousseau, Peiyun Ni, Marc J Landsman, Sally L. Baxter, Subhi J. Al'Aref, Yijia Li, Alex Chen, Josef A. Brejt, Michael F. Chiang, Yifan Peng, Zhiyong Lu, | (参考訳) 近年の研究では、GPT-4V(Generative Pre-trained Transformer 4 with Vision)が、医学的課題において、医師よりも優れていることが示されている。
しかし,これらの評価は,主に複数質問の精度のみに焦点が当てられた。
本研究は,GPT-4Vの画像理解,医用知識の想起,およびNew England Journal of Medicine (NEJM) Image Challenges(医用専門家の知識と診断能力をテストするための画像クイズ)の解決におけるステップ・バイ・ステップのマルチモーダル推論を包括的に分析することにより,現在の範囲を拡大するものである。
評価の結果、GPT-4Vは多点検診の精度(81.6%対77.8%)に関して、ヒトの医師に比較して機能することが確認された。
GPT-4Vは、医師が正しく答えていない場合にも有効であり、精度は78%以上である。
しかし、GPT-4Vは、正しい最終選択を行う場合(35.5%)にしばしば欠陥のある有理性を示し、画像理解において最も顕著である(27.2%)。
GPT-4Vの多点質問の精度は高いが,本研究は,これらのマルチモーダルAIモデルを臨床ワークフローに組み込む前に,その有理性に関する詳細な評価の必要性を強調した。
Recent studies indicate that Generative Pre-trained Transformer 4 with Vision (GPT-4V) outperforms human physicians in medical challenge tasks. However, these evaluations primarily focused on the accuracy of multi-choice questions alone. Our study extends the current scope by conducting a comprehensive analysis of GPT-4V's rationales of image comprehension, recall of medical knowledge, and step-by-step multimodal reasoning when solving New England Journal of Medicine (NEJM) Image Challenges - an imaging quiz designed to test the knowledge and diagnostic capabilities of medical professionals. Evaluation results confirmed that GPT-4V performs comparatively to human physicians regarding multi-choice accuracy (81.6% vs. 77.8%). GPT-4V also performs well in cases where physicians incorrectly answer, with over 78% accuracy. However, we discovered that GPT-4V frequently presents flawed rationales in cases where it makes the correct final choices (35.5%), most prominent in image comprehension (27.2%). Regardless of GPT-4V's high accuracy in multi-choice questions, our findings emphasize the necessity for further in-depth evaluations of its rationales before integrating such multimodal AI models into clinical workflows. | 翻訳日:2024-04-24 19:25:53 公開日:2024-04-22 |
# データ駆動型ターゲットローカライゼーション - Cramer-Rao境界を用いたグラディエントDescentのベンチマーク
Data-Driven Target Localization: Benchmarking Gradient Descent Using the Cramer-Rao Bound ( http://arxiv.org/abs/2401.11176v3 ) ライセンス: Link先を確認 | Shyam Venkatasubramanian, Sandeep Gogineni, Bosung Kang, Muralidhar Rangaswamy, | (参考訳) 現代のレーダーシステムでは、方位と速度推定を用いた正確な目標位置推定が最重要である。
従来の非バイアス推定法では、パラメータ推定の誤差に対するクレイマー・ラオ・バウンド(CRB)の理論限界に到達するために勾配降下アルゴリズムを用いている。
拡張例として、我々が提示したデータ駆動ニューラルネットワークモデルが従来の手法よりも優れており、目標方位の精度と速度推定が向上しているという現実的なシミュレートされた例を紹介した。
しかし、この改善は、ニューラルネットワークがCRB自体を上回っていることを意味するものではない、と強調する。
むしろ、強化されたパフォーマンスは、ニューラルネットワークアプローチのバイアスのある性質に起因する。
本研究は, レーダーシステムにおける深層学習手法の適用の可能性を明らかにするものである。
In modern radar systems, precise target localization using azimuth and velocity estimation is paramount. Traditional unbiased estimation methods have utilized gradient descent algorithms to reach the theoretical limits of the Cramer Rao Bound (CRB) for the error of the parameter estimates. As an extension, we demonstrate on a realistic simulated example scenario that our earlier presented data-driven neural network model outperforms these traditional methods, yielding improved accuracies in target azimuth and velocity estimation. We emphasize, however, that this improvement does not imply that the neural network outperforms the CRB itself. Rather, the enhanced performance is attributed to the biased nature of the neural network approach. Our findings underscore the potential of employing deep learning methods in radar systems to achieve more accurate localization in cluttered and dynamic environments. | 翻訳日:2024-04-24 19:25:53 公開日:2024-04-22 |
# MITRE Engenuity ATT&CK Enterprise Evaluation のデコード:実環境における EDR 性能の分析
Decoding the MITRE Engenuity ATT&CK Enterprise Evaluation: An Analysis of EDR Performance in Real-World Environments ( http://arxiv.org/abs/2401.15878v2 ) ライセンス: Link先を確認 | Xiangmin Shen, Zhenyuan Li, Graham Burleigh, Lingzhi Wang, Yan Chen, | (参考訳) エンドポイント検出と応答(EDR)システムは、エンタープライズセキュリティソリューションの重要なコンポーネントとして現れ、APT攻撃のようなエンドポイント脅威とライフサイクルの拡張と効果的に戦っている。
エンドポイント検出と応答(EDR)システムの重要性が高まる中、多くのサイバーセキュリティプロバイダが独自のEDRソリューションを開発してきた。
ユーザがこれらの検出エンジンの能力を評価して、どの製品を選ぶべきかを判断することが重要です。
これは、市場規模が2023年までに約37億ドルに達すると予想され、依然として拡大していることを考えると、特に緊急である。
MITREはサイバー脅威分析の主要な組織である。
2018年、MITREは世界中の主要なEDRベンダーをカバーするAPTエミュレーションを開始した。
指標にはテレメトリ、検出とブロッキング機能などが含まれる。
それでも、MITREが公表した評価結果には、さらなる解釈や提案は含まれていない。
本稿では,MITRE評価結果を徹底的に分析し,実世界のEDRシステムについてさらなる知見を得る。
具体的には、追加の制御フローとデータフロー情報を利用してEDRシステムの性能を計測する全グラフ解析法を設計した。
さらに、検出カバレッジ、検出信頼度、検出修飾子、データソース、互換性など、さまざまな側面から、数年間にわたるMITRE評価の結果を分析します。
本研究で得られた知見を網羅的にまとめ,評価結果から貴重な知見を得た。
これらの要約や洞察は、研究者、実践家、ベンダーが主流のEDR製品の強みと限界をよりよく理解するのに役立ちます。
Endpoint detection and response (EDR) systems have emerged as a critical component of enterprise security solutions, effectively combating endpoint threats like APT attacks with extended lifecycles. In light of the growing significance of endpoint detection and response (EDR) systems, many cybersecurity providers have developed their own proprietary EDR solutions. It's crucial for users to assess the capabilities of these detection engines to make informed decisions about which products to choose. This is especially urgent given the market's size, which is expected to reach around 3.7 billion dollars by 2023 and is still expanding. MITRE is a leading organization in cyber threat analysis. In 2018, MITRE started to conduct annual APT emulations that cover major EDR vendors worldwide. Indicators include telemetry, detection and blocking capability, etc. Nevertheless, the evaluation results published by MITRE don't contain any further interpretations or suggestions. In this paper, we thoroughly analyzed MITRE evaluation results to gain further insights into real-world EDR systems under test. Specifically, we designed a whole-graph analysis method, which utilizes additional control flow and data flow information to measure the performance of EDR systems. Besides, we analyze MITRE evaluation's results over multiple years from various aspects, including detection coverage, detection confidence, detection modifier, data source, compatibility, etc. Through the above studies, we have compiled a thorough summary of our findings and gained valuable insights from the evaluation results. We believe these summaries and insights can assist researchers, practitioners, and vendors in better understanding the strengths and limitations of mainstream EDR products. | 翻訳日:2024-04-24 19:16:06 公開日:2024-04-22 |
# FlashTex: LightControlNetによる高速なリライト可能なメッシュテクスチャ
FlashTex: Fast Relightable Mesh Texturing with LightControlNet ( http://arxiv.org/abs/2402.13251v2 ) ライセンス: Link先を確認 | Kangle Deng, Timothy Omernick, Alexander Weiss, Deva Ramanan, Jun-Yan Zhu, Tinghui Zhou, Maneesh Agrawala, | (参考訳) 3Dメッシュ用のテクスチャを手作業で作成するのは時間を要する。
ユーザが提供するテキストプロンプトに基づいて,入力3Dメッシュを自動的にテキスト化するための高速なアプローチを提案する。
ここでは, メッシュを任意の照明環境下で適切に信頼・レンダリングできるように, 表面材/反射から光を分離する手法を提案する。
ControlNetアーキテクチャに基づいた新しいテキスト・ツー・イメージモデルであるLightControlNetを導入する。
テキスト・ツー・テクスチャ・パイプラインは、テクスチャを2段階で構築する。
最初のステージでは、LightControlNetを使用して、メッシュの視覚的に一貫した参照ビューのスパースセットを生成する。
第2段階では、光から表面物質を引き離しながらテクスチャ品質を向上させるために、LightControlNetと連携するスコア蒸留サンプリング(SDS)に基づくテクスチャ最適化を適用している。
我々のアルゴリズムは従来のテキストからテクスチャへの手法よりもはるかに高速であり、高品質で楽しいテクスチャを生成する。
Manually creating textures for 3D meshes is time-consuming, even for expert visual content creators. We propose a fast approach for automatically texturing an input 3D mesh based on a user-provided text prompt. Importantly, our approach disentangles lighting from surface material/reflectance in the resulting texture so that the mesh can be properly relit and rendered in any lighting environment. We introduce LightControlNet, a new text-to-image model based on the ControlNet architecture, which allows the specification of the desired lighting as a conditioning image to the model. Our text-to-texture pipeline then constructs the texture in two stages. The first stage produces a sparse set of visually consistent reference views of the mesh using LightControlNet. The second stage applies a texture optimization based on Score Distillation Sampling (SDS) that works with LightControlNet to increase the texture quality while disentangling surface material from lighting. Our algorithm is significantly faster than previous text-to-texture methods, while producing high-quality and relightable textures. | 翻訳日:2024-04-24 19:16:06 公開日:2024-04-22 |
# DAM: 連続ビデオQA学習のための動的アダプタマージ
DAM: Dynamic Adapter Merging for Continual Video QA Learning ( http://arxiv.org/abs/2403.08755v2 ) ライセンス: Link先を確認 | Feng Cheng, Ziyang Wang, Yi-Lin Sung, Yan-Bo Lin, Mohit Bansal, Gedas Bertasius, | (参考訳) 連続的なビデオ質問応答(VidQA)学習のためのパラメータ効率のよい手法を提案する。
DAMと名付けられた本手法では,動的アダプタマージ方式を提案する。
一 破滅的な忘れを和らげる
(ii) 継続的に到着するデータセットへの効率的な適応を可能にする。
三 推論中に未知のデータセットからの入力を処理し、
(iv)類似のデータセットドメイン間の知識共有を可能にする。
VidQAデータセットを継続的にストリーミングすると、データセットごとにデータセット固有のアダプタを順次トレーニングし、トレーニング済みの大規模なビデオ言語バックボーンのパラメータを凍結します。
提案手法は,未知領域からのビデオ検索サンプルを推定する際に,まず提案した非パラメトリックルータ関数を用いて各アダプタの確率を計算し,そのアダプタが現在のビデオ検索入力インスタンスとどの程度関係があるかを考察する。
その後、提案した動的アダプタマージスキームは、全てのアダプタ重みを特定のテストサンプルに適した新しいアダプタインスタンスに集約し、最終的なVidQA予測を計算し、不正確なルータ予測の影響を緩和し、ドメイン間の知識共有を容易にする。
我々のDAMモデルは、さまざまなドメインにまたがる6つのVidQAデータセットに対する1.9%の忘れ込みを示しながら、最先端の継続的学習アプローチを9.1%向上させています。
さらにDAMを連続的な画像分類と画像QAに拡張し、先行手法よりも大きなマージンで性能を向上する。
コードは、https://github.com/klauscc/DAMで公開されている。
We present a parameter-efficient method for continual video question-answering (VidQA) learning. Our method, named DAM, uses the proposed Dynamic Adapter Merging to (i) mitigate catastrophic forgetting, (ii) enable efficient adaptation to continually arriving datasets, (iii) handle inputs from unknown datasets during inference, and (iv) enable knowledge sharing across similar dataset domains. Given a set of continually streaming VidQA datasets, we sequentially train dataset-specific adapters for each dataset while freezing the parameters of a large pretrained video-language backbone. During inference, given a video-question sample from an unknown domain, our method first uses the proposed non-parametric router function to compute a probability for each adapter, reflecting how relevant that adapter is to the current video-question input instance. Subsequently, the proposed dynamic adapter merging scheme aggregates all the adapter weights into a new adapter instance tailored for that particular test sample to compute the final VidQA prediction, mitigating the impact of inaccurate router predictions and facilitating knowledge sharing across domains. Our DAM model outperforms prior state-of-the-art continual learning approaches by 9.1% while exhibiting 1.9% less forgetting on 6 VidQA datasets spanning various domains. We further extend DAM to continual image classification and image QA and outperform prior methods by a large margin. The code is publicly available at: https://github.com/klauscc/DAM | 翻訳日:2024-04-24 19:06:16 公開日:2024-04-22 |
# 無作為なニューラルネットワークの拡散による解剖樹の表現
Representing Anatomical Trees by Denoising Diffusion of Implicit Neural Fields ( http://arxiv.org/abs/2403.08974v2 ) ライセンス: Link先を確認 | Ashish Sinha, Ghassan Hamarneh, | (参考訳) 解剖学的木は臨床診断と治療計画において中心的な役割を果たす。
しかしながら、解剖学的な木を正確に表現することは、その多様で複雑なトポロジーと幾何学のために困難である。
伝統的な木構造表現法は、医用画像を用いて撮影されるが、血管と気管支のネットワークを可視化するのには貴重なものであり、解像度、柔軟性、効率の面で欠点がある。
近年, 形状を正確に, 効率的に表現するための強力なツールとして暗黙的神経表現(INR)が出現している。
本稿では,INRを用いて解剖学的な木を表現できる手法を提案する。
解剖学的樹木の複雑な地形や地形を任意の解像度で正確に把握する。
定性的かつ定量的な評価を通じて、任意の解像度でコンパクトな保存と、解剖学的部位と木複合体の汎用性を備えた高忠実度木再構築を実証する。
Anatomical trees play a central role in clinical diagnosis and treatment planning. However, accurately representing anatomical trees is challenging due to their varying and complex topology and geometry. Traditional methods for representing tree structures, captured using medical imaging, while invaluable for visualizing vascular and bronchial networks, exhibit drawbacks in terms of limited resolution, flexibility, and efficiency. Recently, implicit neural representations (INRs) have emerged as a powerful tool for representing shapes accurately and efficiently. We propose a novel approach for representing anatomical trees using INR, while also capturing the distribution of a set of trees via denoising diffusion in the space of INRs. We accurately capture the intricate geometries and topologies of anatomical trees at any desired resolution. Through extensive qualitative and quantitative evaluation, we demonstrate high-fidelity tree reconstruction with arbitrary resolution yet compact storage, and versatility across anatomical sites and tree complexities. | 翻訳日:2024-04-24 19:06:16 公開日:2024-04-22 |
# 非負のコントラスト学習
Non-negative Contrastive Learning ( http://arxiv.org/abs/2403.12459v3 ) ライセンス: Link先を確認 | Yifei Wang, Qi Zhang, Yaoyu Guo, Yisen Wang, | (参考訳) 深い表現は、ブラックボックス方式で下流タスクに転送する際の有望なパフォーマンスを示している。
しかし、それらの解釈可能性の欠如は、人間の理解に不透明なことが多いため、依然として大きな課題である。
本稿では,非負の行列因子化(NMF)の再現性である非負のコントラスト学習(NCL)を提案する。
NCLの力は、NMFがサンプルクラスタと密接に整合する特徴を抽出する能力を思い出させる、特徴に対する非負性制約の実施にある。
NCLは数学的にNMFの目的とよく一致しているだけでなく、NMFの解釈可能性特性も保ち、標準のコントラスト学習(CL)よりも疎密で非絡み合った表現をもたらす。
理論的には、NCLの識別可能性と下流一般化の保証を確立する。
実験的に、これらの利点により、NCLは機能障害、特徴選択、下流分類タスクにおいてCLを大幅に上回ることが示される。
最後に,NCLを他の学習シナリオに拡張し,教師付き学習にも役立てることができることを示す。
コードはhttps://github.com/PKU-ML/non_neg.comで入手できる。
Deep representations have shown promising performance when transferred to downstream tasks in a black-box manner. Yet, their inherent lack of interpretability remains a significant challenge, as these features are often opaque to human understanding. In this paper, we propose Non-negative Contrastive Learning (NCL), a renaissance of Non-negative Matrix Factorization (NMF) aimed at deriving interpretable features. The power of NCL lies in its enforcement of non-negativity constraints on features, reminiscent of NMF's capability to extract features that align closely with sample clusters. NCL not only aligns mathematically well with an NMF objective but also preserves NMF's interpretability attributes, resulting in a more sparse and disentangled representation compared to standard contrastive learning (CL). Theoretically, we establish guarantees on the identifiability and downstream generalization of NCL. Empirically, we show that these advantages enable NCL to outperform CL significantly on feature disentanglement, feature selection, as well as downstream classification tasks. At last, we show that NCL can be easily extended to other learning scenarios and benefit supervised learning as well. Code is available at https://github.com/PKU-ML/non_neg. | 翻訳日:2024-04-24 18:56:32 公開日:2024-04-22 |
# 次の動き方:次のPOI勧告のためのLCMのゼロショット一般化
Where to Move Next: Zero-shot Generalization of LLMs for Next POI Recommendation ( http://arxiv.org/abs/2404.01855v2 ) ライセンス: Link先を確認 | Shanshan Feng, Haoming Lyu, Caishun Chen, Yew-Soon Ong, | (参考訳) Next Point-of-interest (POI)レコメンデーションは、ユーザが周囲の環境を探索するための貴重な提案を提供する。
既存の研究は、大規模ユーザのチェックインデータから推薦モデルを構築することに依存している。
近年,様々なNLPタスクにおいて,事前訓練された大規模言語モデル (LLM) が大幅に進歩しており,推奨シナリオについても検討されている。
しかし、LLMの一般化能力は、ユーザの地理的移動パターンを抽出する次のPOIレコメンデーションに対処するためには、まだ探索されていない。
LLMを次の項目のレコメンデーションに活用する研究は存在するが、地理的影響と連続的な遷移を考慮できない。
したがって、彼らは次のPOIレコメンデーションタスクを効果的に解決することはできない。
この目的のために、我々は新規なプロンプト戦略を設計し、ユーザの次のチェックインを予測するためのLCM(例えばChatGPT)の能力を評価するための実証的研究を行う。
具体的には、ユーザの地理的嗜好、空間距離、連続的な遷移など、人間の行動行動に不可欠な要素をいくつか考慮し、推薦タスクをランキング問題として定式化する。
広く使われている2つの実世界のデータセットに関する広範な実験を通じて、いくつかの重要な発見を導き出した。
実証的な評価では、LLMはゼロショットレコメンデーション能力を持ち、正確で合理的な予測を提供することができる。
また、LLMは地理的文脈情報を正確に理解することができず、候補POIの提示順序に敏感であり、LLMの限界を示すとともに、堅牢な人間の移動的推論機構に関するさらなる研究が必要であることも明らかにした。
Next Point-of-interest (POI) recommendation provides valuable suggestions for users to explore their surrounding environment. Existing studies rely on building recommendation models from large-scale users' check-in data, which is task-specific and needs extensive computational resources. Recently, the pretrained large language models (LLMs) have achieved significant advancements in various NLP tasks and have also been investigated for recommendation scenarios. However, the generalization abilities of LLMs still are unexplored to address the next POI recommendations, where users' geographical movement patterns should be extracted. Although there are studies that leverage LLMs for next-item recommendations, they fail to consider the geographical influence and sequential transitions. Hence, they cannot effectively solve the next POI recommendation task. To this end, we design novel prompting strategies and conduct empirical studies to assess the capability of LLMs, e.g., ChatGPT, for predicting a user's next check-in. Specifically, we consider several essential factors in human movement behaviors, including user geographical preference, spatial distance, and sequential transitions, and formulate the recommendation task as a ranking problem. Through extensive experiments on two widely used real-world datasets, we derive several key findings. Empirical evaluations demonstrate that LLMs have promising zero-shot recommendation abilities and can provide accurate and reasonable predictions. We also reveal that LLMs cannot accurately comprehend geographical context information and are sensitive to the order of presentation of candidate POIs, which shows the limitations of LLMs and necessitates further research on robust human mobility reasoning mechanisms. | 翻訳日:2024-04-24 18:56:32 公開日:2024-04-22 |
# 十分でないなら、そのようにしよう:合成顔を通して顔認識における認証データの需要を減らす
If It's Not Enough, Make It So: Reducing Authentic Data Demand in Face Recognition through Synthetic Faces ( http://arxiv.org/abs/2404.03537v2 ) ライセンス: Link先を確認 | Andrea Atzori, Fadi Boutros, Naser Damer, Gianni Fenu, Mirko Marras, | (参考訳) 近年の深層顔認識の進歩は、大規模で多様で手動で注釈付けされた顔データセットの需要を増大させてきた。
顔認識のための真正で高品質なデータを取得することは、主にプライバシー上の懸念から、困難であることが証明されている。
大規模な顔データセットは、主にWebベースのイメージから作成され、明示的なユーザの同意が欠如している。
本稿では,合成顔データを用いて実画像に頼らずに効果的な顔認識モデルを訓練し,データ収集の懸念を緩和する方法について検討する。
まず,最新の顔認識モデルの性能ギャップについて検討し,合成データのみと認証データのみを用いて訓練した。
そこで我々は,最先端のバックボーンを様々な合成データと認証データの組み合わせで訓練することにより,分析をより深め,検証精度の確保のために,後者の限られた使用法を最適化するための洞察を得た。
最後に、同じ目的を念頭において、データ拡張アプローチが合成データおよび認証データに与える影響を評価した。
以上の結果から,統合データセットでトレーニングしたFRの有効性,特に適切な拡張手法と組み合わせた場合のFRの有効性が明らかとなった。
Recent advances in deep face recognition have spurred a growing demand for large, diverse, and manually annotated face datasets. Acquiring authentic, high-quality data for face recognition has proven to be a challenge, primarily due to privacy concerns. Large face datasets are primarily sourced from web-based images, lacking explicit user consent. In this paper, we examine whether and how synthetic face data can be used to train effective face recognition models with reduced reliance on authentic images, thereby mitigating data collection concerns. First, we explored the performance gap among recent state-of-the-art face recognition models, trained with synthetic data only and authentic (scarce) data only. Then, we deepened our analysis by training a state-of-the-art backbone with various combinations of synthetic and authentic data, gaining insights into optimizing the limited use of the latter for verification accuracy. Finally, we assessed the effectiveness of data augmentation approaches on synthetic and authentic data, with the same goal in mind. Our results highlighted the effectiveness of FR trained on combined datasets, particularly when combined with appropriate augmentation techniques. | 翻訳日:2024-04-24 18:46:42 公開日:2024-04-22 |
# ラベルのないデータでバックドアを作るには?
How to Craft Backdoors with Unlabeled Data Alone? ( http://arxiv.org/abs/2404.06694v2 ) ライセンス: Link先を確認 | Yifei Wang, Wenhan Ma, Stefanie Jegelka, Yisen Wang, | (参考訳) ラベルのないデータのみに基づいて、セルフ教師付き学習(SSL)は、経済的かつスケーラブルな方法でリッチな機能を学ぶことができる。
基盤モデル構築の原動力として、SSLは最近広範囲のアプリケーションで注目を集めており、バックドア攻撃が大きな脅威となるというセキュリティ上の懸念も浮き彫りになっている。
この研究の目的は、この潜在的なリスクを調査することである。
既存のバックドアはすべて、SSLでは利用できないかもしれない大量の \emph{labeled} データが必要です。
この制限を回避するために、ラベルなしのバックドアと呼ばれる、ラベルなしのデータのみにアクセス可能な、より制限のある設定を探索する。
本稿では, 疑似ラベルを用いたクラスタリングに基づく選別と, 相互情報原理に基づくコントラスト選択の2つの方法を提案する。
CIFAR-10とImageNet-100の実験では、ラベルなしバックドアは多くのSSLメソッドで有効であり、ランダムな毒を大きなマージンで上回っている。
コードはhttps://github.com/PKU-ML/nlb.comから入手できる。
Relying only on unlabeled data, Self-supervised learning (SSL) can learn rich features in an economical and scalable way. As the drive-horse for building foundation models, SSL has received a lot of attention recently with wide applications, which also raises security concerns where backdoor attack is a major type of threat: if the released dataset is maliciously poisoned, backdoored SSL models can behave badly when triggers are injected to test samples. The goal of this work is to investigate this potential risk. We notice that existing backdoors all require a considerable amount of \emph{labeled} data that may not be available for SSL. To circumvent this limitation, we explore a more restrictive setting called no-label backdoors, where we only have access to the unlabeled data alone, where the key challenge is how to select the proper poison set without using label information. We propose two strategies for poison selection: clustering-based selection using pseudolabels, and contrastive selection derived from the mutual information principle. Experiments on CIFAR-10 and ImageNet-100 show that both no-label backdoors are effective on many SSL methods and outperform random poisoning by a large margin. Code will be available at https://github.com/PKU-ML/nlb. | 翻訳日:2024-04-24 18:46:42 公開日:2024-04-22 |
# 量子セキュリティリスク評価のための評価枠組み:量子セーフマイグレーションに関する総合的研究
Evaluation Framework for Quantum Security Risk Assessment: A Comprehensive Study for Quantum-Safe Migration ( http://arxiv.org/abs/2404.08231v2 ) ライセンス: Link先を確認 | Yaser Baseri, Vikas Chouhan, Ali Ghorbani, Aaron Chow, | (参考訳) 大規模量子コンピューティングの台頭は、従来の暗号セキュリティ対策に重大な脅威をもたらす。
量子攻撃は、現在の非対称暗号アルゴリズムを損なう。
対称鍵暗号でさえ、セキュリティのために長い鍵や拡張されたハッシュ関数を示唆するが、より脆弱である。
したがって、現在の暗号解は、出現する量子脅威に対して不十分である。
組織は、堅牢な連続計画と綿密なリスク管理を備えた量子セーフ環境に移行する必要がある。
本研究では,量子セーフな暗号状態に移行する上での課題について検討し,包括的セキュリティリスク評価フレームワークを導入する。
本稿では、マイグレーションプロセス全体(移行前、移行後、移行後)を通じて、アルゴリズム、証明書、プロトコルの脆弱性を調査するセキュリティリスク評価フレームワークを提案する。
これらの脆弱性をSTRIDE脅威モデルにリンクして、その影響と可能性を評価します。
そこで我々は,アルゴリズムや公開鍵基盤,プロトコルといった重要なコンポーネントの実践的緩和戦略について議論する。
本研究は,各層および移行段階における潜在的な攻撃や脆弱性を識別するだけでなく,システムのレジリエンスを高めるための対策や代替策を提案する。
これらの取り組みを通じて、量子時代の課題の中で、ネットワークシステムにおけるセキュリティを持続する基盤を確立する。
The rise of large-scale quantum computing poses a significant threat to traditional cryptographic security measures. Quantum attacks undermine current asymmetric cryptographic algorithms, rendering them ineffective. Even symmetric key cryptography is vulnerable, albeit to a lesser extent, suggesting longer keys or extended hash functions for security. Thus, current cryptographic solutions are inadequate against emerging quantum threats. Organizations must transition to quantum-safe environments with robust continuity plans and meticulous risk management. This study explores the challenges of migrating to quantum-safe cryptographic states, introducing a comprehensive security risk assessment framework. We propose a security risk assessment framework that examines vulnerabilities across algorithms, certificates, and protocols throughout the migration process (pre-migration, during migration, post-migration). We link these vulnerabilities to the STRIDE threat model to assess their impact and likelihood. Then, we discuss practical mitigation strategies for critical components like algorithms, public key infrastructures, and protocols. Our study not only identifies potential attacks and vulnerabilities at each layer and migration stage but also suggests possible countermeasures and alternatives to enhance system resilience, empowering organizations to construct a secure infrastructure for the quantum era. Through these efforts, we establish the foundation for enduring security in networked systems amid the challenges of the quantum era. | 翻訳日:2024-04-24 18:46:42 公開日:2024-04-22 |
# マルチモーダル学習のための神経インスパイアされた情報理論的階層的知覚
Neuro-Inspired Information-Theoretic Hierarchical Perception for Multimodal Learning ( http://arxiv.org/abs/2404.09403v2 ) ライセンス: Link先を確認 | Xiongye Xiao, Gengshuo Liu, Gaurav Gupta, Defu Cao, Shixuan Li, Yaxing Li, Tianqing Fang, Mingxi Cheng, Paul Bogdan, | (参考訳) 様々な情報源やモダリティからの情報の統合と処理は、自律システムやサイバー物理システムにおける現実世界の包括的かつ正確な認識を得るために重要である。
神経科学からインスピレーションを得た情報理論階層知覚(ITHP)モデルを開発した。
ニューラルネットワークで同一の全てのモーダルを組み込んだ従来の融合モデルとは異なり、我々のモデルは素数モーダルを指定し、残りのモーダルを情報経路の検出器とみなし、情報の流れを蒸留する。
提案する知覚モデルは,潜時状態と入力モード状態の相互情報の最小化と,潜時状態と残りのモード状態の相互情報の最大化とを両立させることにより,有効かつコンパクトな情報フローを構築することに焦点を当てる。
このアプローチは,冗長性を最小化しながら関連情報を保持し,マルチモーダル表現学習の性能を大幅に向上させる。
MUStARD, CMU-MOSI, CMU-MOSEIデータセットの実験的評価により, 本モデルはマルチモーダル学習シナリオにおいて決定的な情報を連続的に蒸留し, 最先端のベンチマークより優れていることが示された。
注目すべきは、CMU-MOSIデータセットにおいて、ITHPは、すべての評価指標(バイナリ精度、F1スコア、平均絶対誤差、ピアソン相関など)にわたるマルチモーダルな感情のバイナリ分類タスクにおいて、人間レベルのパフォーマンスを上回っていることである。
Integrating and processing information from various sources or modalities are critical for obtaining a comprehensive and accurate perception of the real world in autonomous systems and cyber-physical systems. Drawing inspiration from neuroscience, we develop the Information-Theoretic Hierarchical Perception (ITHP) model, which utilizes the concept of information bottleneck. Different from most traditional fusion models that incorporate all modalities identically in neural networks, our model designates a prime modality and regards the remaining modalities as detectors in the information pathway, serving to distill the flow of information. Our proposed perception model focuses on constructing an effective and compact information flow by achieving a balance between the minimization of mutual information between the latent state and the input modal state, and the maximization of mutual information between the latent states and the remaining modal states. This approach leads to compact latent state representations that retain relevant information while minimizing redundancy, thereby substantially enhancing the performance of multimodal representation learning. Experimental evaluations on the MUStARD, CMU-MOSI, and CMU-MOSEI datasets demonstrate that our model consistently distills crucial information in multimodal learning scenarios, outperforming state-of-the-art benchmarks. Remarkably, on the CMU-MOSI dataset, ITHP surpasses human-level performance in the multimodal sentiment binary classification task across all evaluation metrics (i.e., Binary Accuracy, F1 Score, Mean Absolute Error, and Pearson Correlation). | 翻訳日:2024-04-24 18:36:58 公開日:2024-04-22 |
# 未成年者の体重減少、ノームで約1300億円
Decoupled Weight Decay for Any $p$ Norm ( http://arxiv.org/abs/2404.10824v2 ) ライセンス: Link先を確認 | Nadav Joseph Outmezguine, Noam Levi, | (参考訳) さまざまなドメインにおけるディープニューラルネットワーク(NN)の成功により、大規模なNNのトレーニングとデプロイのための計算およびストレージ要件が、さらなる改善のボトルネックになっている。
その結果、これらの問題に対処するための主要なアプローチとしてスパシフィケーションが出現した。
本研究では,ブリッジをベースとしたスペーシフィケーションや,トレーニング中の正規化に対して$L_p$という,シンプルかつ効果的なアプローチを検討する。
我々は、任意の$p$ノルムに対して標準の$L_2$ウェイト崩壊を一般化する新しいウェイト崩壊スキームを導入する。
このスキームは適応オプティマイザと互換性があることを示し、0<p<1$ノルムに付随する勾配のばらつきを回避する。
我々は、標準の$L_2$正規化に匹敵する一般化性能を維持しながら、非常にスパースなネットワークにつながることを実証的に実証した。
With the success of deep neural networks (NNs) in a variety of domains, the computational and storage requirements for training and deploying large NNs have become a bottleneck for further improvements. Sparsification has consequently emerged as a leading approach to tackle these issues. In this work, we consider a simple yet effective approach to sparsification, based on the Bridge, or $L_p$ regularization during training. We introduce a novel weight decay scheme, which generalizes the standard $L_2$ weight decay to any $p$ norm. We show that this scheme is compatible with adaptive optimizers, and avoids the gradient divergence associated with $0<p<1$ norms. We empirically demonstrate that it leads to highly sparse networks, while maintaining generalization performance comparable to standard $L_2$ regularization. | 翻訳日:2024-04-24 18:36:58 公開日:2024-04-22 |
# IntrinsicAnything:未知照明下での逆レンダリングにおける拡散の事前学習
IntrinsicAnything: Learning Diffusion Priors for Inverse Rendering Under Unknown Illumination ( http://arxiv.org/abs/2404.11593v2 ) ライセンス: Link先を確認 | Xi Chen, Sida Peng, Dongchen Yang, Yuan Liu, Bowen Pan, Chengfei Lv, Xiaowei Zhou, | (参考訳) 本稿では,未知の静止照明条件下で撮影されたポーズ画像から対象物質を回収することを目的とする。
近年の手法は、物理的に異なるレンダリングによって材料パラメータを最適化することでこの課題を解決している。
しかし, 物体形状, 材料, 環境光の結合により, 逆レンダリング過程の間には固有のあいまいさがあり, 従来の手法が正確な結果を得るのを妨げている。
この不適切な問題を克服するために、我々は最適化プロセスの正規化のための生成モデルを用いて、材料を事前に学習する。
一般レンダリング方程式は拡散および特異シェーディング項に分割することができ、アルベドとスペキュラの拡散モデルとして先行して材料を定式化することができる。
この設計により、既存の豊富な3Dオブジェクトデータを用いてモデルをトレーニングすることができ、RGB画像から材料表現を復元する際の曖昧さを解決するための汎用ツールとして自然に機能する。
さらに,多視点一貫した制約を満たすために,推定材料を利用して拡散モデルを導出し,より安定かつ正確な結果を得るための粗大な訓練戦略を開発する。
実世界のデータセットと合成データセットの大規模な実験により,本手法が材料回収における最先端性能を実現することを示す。
コードはhttps://zju3dv.github.io/IntrinsicAnything.comから入手できる。
This paper aims to recover object materials from posed images captured under an unknown static lighting condition. Recent methods solve this task by optimizing material parameters through differentiable physically based rendering. However, due to the coupling between object geometry, materials, and environment lighting, there is inherent ambiguity during the inverse rendering process, preventing previous methods from obtaining accurate results. To overcome this ill-posed problem, our key idea is to learn the material prior with a generative model for regularizing the optimization process. We observe that the general rendering equation can be split into diffuse and specular shading terms, and thus formulate the material prior as diffusion models of albedo and specular. Thanks to this design, our model can be trained using the existing abundant 3D object data, and naturally acts as a versatile tool to resolve the ambiguity when recovering material representations from RGB images. In addition, we develop a coarse-to-fine training strategy that leverages estimated materials to guide diffusion models to satisfy multi-view consistent constraints, leading to more stable and accurate results. Extensive experiments on real-world and synthetic datasets demonstrate that our approach achieves state-of-the-art performance on material recovery. The code will be available at https://zju3dv.github.io/IntrinsicAnything. | 翻訳日:2024-04-24 18:36:58 公開日:2024-04-22 |
# Follow-Me AI: スマート環境とエネルギー効率の良いユーザインタラクション
Follow-Me AI: Energy-Efficient User Interaction with Smart Environments ( http://arxiv.org/abs/2404.12486v2 ) ライセンス: Link先を確認 | Alaa Saleh, Praveen Kumar Donta, Roberto Morabito, Naser Hossein Motlagh, Lauri Lovén, | (参考訳) この記事では、Follow-Me AIを紹介します。これは、スマート環境とのユーザインタラクションを強化し、エネルギー使用を最適化し、これらの環境によってキャプチャされたデータに対するより良い制御を提供するように設計されたコンセプトです。
ユーザと同行するAIエージェントを通じて、Follow-Me AIは、ユーザの同意に基づいてデータ管理を交渉し、環境制御とユーザコミュニケーションを整合させ、ユーザ好みの環境で利用可能なリソースを計算し、ユーザの振る舞いを予測して、スマート環境を積極的に調整する。
著者は、このコンセプトを、スマートキャンパス環境でのFollow-Me AIの詳細な例で説明し、最適な快適さと効率のために、建物の管理システムとのインタラクションを詳述している。
最後に、この記事は、Follow-Me AIに関連する課題と機会について考察する。
This article introduces Follow-Me AI, a concept designed to enhance user interactions with smart environments, optimize energy use, and provide better control over data captured by these environments. Through AI agents that accompany users, Follow-Me AI negotiates data management based on user consent, aligns environmental controls as well as user communication and computes resources available in the environment with user preferences, and predicts user behavior to proactively adjust the smart environment. The manuscript illustrates this concept with a detailed example of Follow-Me AI in a smart campus setting, detailing the interactions with the building's management system for optimal comfort and efficiency. Finally, this article looks into the challenges and opportunities related to Follow-Me AI. | 翻訳日:2024-04-24 18:27:14 公開日:2024-04-22 |
# コンペティションレポート:LLMのユニバーサルジェイルブレイクバックドア発見
Competition Report: Finding Universal Jailbreak Backdoors in Aligned LLMs ( http://arxiv.org/abs/2404.14461v1 ) ライセンス: Link先を確認 | Javier Rando, Francesco Croce, Kryštof Mitka, Stepan Shabalin, Maksym Andriushchenko, Nicolas Flammarion, Florian Tramèr, | (参考訳) 大規模な言語モデルは安全であり、ユーザーが不正情報や違法行為の指示などの有害なコンテンツを生成できないように調整されている。
しかし、以前の研究では、アライメントプロセスは毒殺攻撃に弱いことが示されている。
広告主は安全トレーニングデータを操作して、ユニバーサルなsudoコマンドのように振る舞うバックドアを注入することができる。
私たちのコンペはIEEE SaTML 2024で開催され、参加者にいくつかの大きな言語モデルで普遍的なバックドアを見つけるよう呼びかけました。
本報告では,今後の研究の要点と将来性について概説する。
Large language models are aligned to be safe, preventing users from generating harmful content like misinformation or instructions for illegal activities. However, previous work has shown that the alignment process is vulnerable to poisoning attacks. Adversaries can manipulate the safety training data to inject backdoors that act like a universal sudo command: adding the backdoor string to any prompt enables harmful responses from models that, otherwise, behave safely. Our competition, co-located at IEEE SaTML 2024, challenged participants to find universal backdoors in several large language models. This report summarizes the key findings and promising ideas for future research. | 翻訳日:2024-04-24 18:07:28 公開日:2024-04-22 |
# より小さく、より高速なデコーダのみのトランスフォーマーを目指して:アーキテクチャ的変異とその意味
Towards smallers, faster decoder-only transformers: Architectural variants and their implications ( http://arxiv.org/abs/2404.14462v1 ) ライセンス: Link先を確認 | Sathya Krishnan Suresh, Shunmugapriya P, | (参考訳) 大規模言語モデル(LLMs)の研究は、最近指数関数的な成長をみせており、主にトランスフォーマーベースのアーキテクチャに焦点をあてており、[1]によって導入され、[2]におけるデコーダのみのバリエーションによってさらに進歩している。
現代の研究は、アーキテクチャの複雑さとトレーニングデータの量の両方を増大させることで、モデル機能を改善することを目的としている。
しかし、性能を維持しながらモデルのサイズを小さくする方法を研究する研究は限られている。
本稿では,デコーダのみのトランスアーキテクチャであるParallelGPT(p-gpt),LinearlyCompressedGPT(lc-gpt),ConvCompressedGPT(cc-gpt)の3つの変更点を紹介する。
これらの変種は、モデルのサイズを減らし、トレーニング時間を短縮することで、コード生成タスクにおける従来のアーキテクチャと同等のパフォーマンスを実現する。
私たちは、この領域における将来の研究開発をサポートするために、モデルの重みとコードベースをオープンソースにしています。
Research on Large Language Models (LLMs) has recently seen exponential growth, largely focused on transformer-based architectures, as introduced by [1] and further advanced by the decoder-only variations in [2]. Contemporary studies typically aim to improve model capabilities by increasing both the architecture's complexity and the volume of training data. However, research exploring how to reduce model sizes while maintaining performance is limited. This study introduces three modifications to the decoder-only transformer architecture: ParallelGPT (p-gpt), LinearlyCompressedGPT (lc-gpt), and ConvCompressedGPT (cc-gpt). These variants achieve comparable performance to conventional architectures in code generation tasks while benefiting from reduced model sizes and faster training times. We open-source the model weights and codebase to support future research and development in this domain. | 翻訳日:2024-04-24 18:07:28 公開日:2024-04-22 |
# DAIC-WOZ:臨床面接からの自動抑うつ検出におけるセラピストのプロンプトの有用性について
DAIC-WOZ: On the Validity of Using the Therapist's prompts in Automatic Depression Detection from Clinical Interviews ( http://arxiv.org/abs/2404.14463v1 ) ライセンス: Link先を確認 | Sergio Burdisso, Ernesto Reyes-Ramírez, Esaú Villatoro-Tello, Fernando Sánchez-Vega, Pastor López-Monroy, Petr Motlicek, | (参考訳) 近年,会話データからの抑うつの自動検出が注目されている。
人間制御仮想エージェントによるインタビューであるDAIC-WOZデータセットは、このタスクに広く利用されている。
近年の研究では、インタビュアーのプロンプトをモデルに組み込んだ場合の性能向上が報告されている。
本研究は,提案したアーキテクチャや手法よりも,これらのプロンプトに偏りがあることが主な原因ではないか,という仮説を立てる。
アブレーション実験と質的分析により,面接者のインタプリタを用いたモデルがインタビューの特定の領域に集中し,過去のメンタルヘルス問題に関する質問に答え,抑うつした参加者を識別するための差別的ショートカットとして利用することを発見した。
対照的に、参加者反応を用いたモデルはインタビュー全体から証拠を集めている。
最後に、このバイアスの大きさを強調するために、テキスト情報のみを使用して、故意にこのデータセットに報告された最も高い結果である0.90 F1スコアを達成する。
本研究は,患者の心の健康状態を示す言語や行動の特徴を学習するよりも,意図せず,対象とするプロンプトを活用することを学習する可能性があることから,インタビュアーのプロンプトをモデルに組み込む際に注意が必要であることを示唆している。
Automatic depression detection from conversational data has gained significant interest in recent years. The DAIC-WOZ dataset, interviews conducted by a human-controlled virtual agent, has been widely used for this task. Recent studies have reported enhanced performance when incorporating interviewer's prompts into the model. In this work, we hypothesize that this improvement might be mainly due to a bias present in these prompts, rather than the proposed architectures and methods. Through ablation experiments and qualitative analysis, we discover that models using interviewer's prompts learn to focus on a specific region of the interviews, where questions about past experiences with mental health issues are asked, and use them as discriminative shortcuts to detect depressed participants. In contrast, models using participant responses gather evidence from across the entire interview. Finally, to highlight the magnitude of this bias, we achieve a 0.90 F1 score by intentionally exploiting it, the highest result reported to date on this dataset using only textual information. Our findings underline the need for caution when incorporating interviewers' prompts into models, as they may inadvertently learn to exploit targeted prompts, rather than learning to characterize the language and behavior that are genuinely indicative of the patient's mental health condition. | 翻訳日:2024-04-24 18:07:28 公開日:2024-04-22 |
# ツリー・オブ・レビュー:マルチホップ質問応答のための動的反復検索フレームワーク
Tree of Reviews: A Tree-based Dynamic Iterative Retrieval Framework for Multi-hop Question Answering ( http://arxiv.org/abs/2404.14464v1 ) ライセンス: Link先を確認 | Li Jiapeng, Liu Runze, Li Yabo, Zhou Tong, Li Mingling, Chen Xiang, | (参考訳) マルチホップ質問応答は知識集約的な複雑な問題である。
大規模言語モデル(LLM)は、複雑な問題を段階的に推論するために、そのチェーン・オブ・シント(CoT)機能を使用し、LLMにおける時代遅れや未知の知識によって引き起こされる事実の誤りを効果的に軽減することができる。
最近の研究は、マルチホップ質問応答を解決するために、CoT推論に検索強化を導入している。
しかし、これらの連鎖法には次のような問題がある。
1) 非関連項の回収は,理由を誤認することができる。
2) チェーン構造上のエラーは、エラーのカスケードにつながる可能性がある。
本稿では,ルートノードが問題であり,他のノードは検索の段落であり,ルートノードから他のノードへの異なる推論経路を拡張する動的検索フレームワークであるTree of Reviews(ToR)を提案する。
我々のフレームワークは、推論経路の段落に基づいて、新しい検索を開始するか、拒否するか、受け入れするかを動的に決定する。
関連研究と比較して,検索した各段落を個別に扱う木構造を導入し,無関係な段落が推論経路に与える影響を緩和し,推論経路の拡張の多様性が全体としての1つの推論誤差の影響を低減させる。
我々は3つの異なるマルチホップ質問応答データセットについて実験を行った。
その結果,ToRはベースライン手法と比較して,検索および応答生成の両面で最先端の性能を実現していることがわかった。
さらに,時間的オーバーヘッドを低減し,経路拡張の多様性を高めるために,伐採と効率的な拡張という2つの木に基づく探索最適化手法を提案する。
私たちはコードを公開します。
Multi-hop question answering is a knowledge-intensive complex problem. Large Language Models (LLMs) use their Chain of Thoughts (CoT) capability to reason complex problems step by step, and retrieval-augmentation can effectively alleviate factual errors caused by outdated and unknown knowledge in LLMs. Recent works have introduced retrieval-augmentation in the CoT reasoning to solve multi-hop question answering. However, these chain methods have the following problems: 1) Retrieved irrelevant paragraphs may mislead the reasoning; 2) An error in the chain structure may lead to a cascade of errors. In this paper, we propose a dynamic retrieval framework called Tree of Reviews (ToR), where the root node is the question, and the other nodes are paragraphs from retrieval, extending different reasoning paths from the root node to other nodes. Our framework dynamically decides to initiate a new search, reject, or accept based on the paragraphs on the reasoning paths. Compared to related work, we introduce a tree structure to handle each retrieved paragraph separately, alleviating the misleading effect of irrelevant paragraphs on the reasoning path; the diversity of reasoning path extension reduces the impact of a single reasoning error on the whole. We conducted experiments on three different multi-hop question answering datasets. The results show that compared to the baseline methods, ToR achieves state-of-the-art performance in both retrieval and response generation. In addition, we propose two tree-based search optimization strategies, pruning and effective expansion, to reduce time overhead and increase the diversity of path extension. We will release our code. | 翻訳日:2024-04-24 18:07:28 公開日:2024-04-22 |
# 高度テキスト匿名化手法のベンチマーク:新しいアプローチと伝統的アプローチの比較研究
Benchmarking Advanced Text Anonymisation Methods: A Comparative Study on Novel and Traditional Approaches ( http://arxiv.org/abs/2404.14465v1 ) ライセンス: Link先を確認 | Dimitris Asimopoulos, Ilias Siniosoglou, Vasileios Argyriou, Thomai Karamitsou, Eleftherios Fountoukidis, Sotirios K. Goudos, Ioannis D. Moscholios, Konstantinos E. Psannis, Panagiotis Sarigiannidis, | (参考訳) データプライバシの領域では、テキストを効果的に匿名化する能力が最も重要です。
ディープラーニングの普及、特にトランスフォーマーアーキテクチャにより、これらの高度なモデルをテキスト匿名化タスクに活用することへの関心が高まっている。
本稿では,トランスフォーマーモデルとLarge Language Models(LLM)の性能を,テキスト匿名化のための従来のアーキテクチャと比較した総合的なベンチマーク研究を提案する。
頑丈さと多様性で知られているCoNLL-2003データセットを用いて,いくつかのモデルを評価する。
本研究は, 従来の手法と現代手法の有効性について, それぞれのアプローチの長所と短所を明らかにした。
特に、現代のモデルは、テキストのニュアンスをキャプチャする高度な能力を示しているが、一部の伝統的なアーキテクチャは高いパフォーマンスを維持している。
この研究は、研究者が匿名化のニーズに最も適したモデルを選択するのを誘導することを目的としている。
In the realm of data privacy, the ability to effectively anonymise text is paramount. With the proliferation of deep learning and, in particular, transformer architectures, there is a burgeoning interest in leveraging these advanced models for text anonymisation tasks. This paper presents a comprehensive benchmarking study comparing the performance of transformer-based models and Large Language Models(LLM) against traditional architectures for text anonymisation. Utilising the CoNLL-2003 dataset, known for its robustness and diversity, we evaluate several models. Our results showcase the strengths and weaknesses of each approach, offering a clear perspective on the efficacy of modern versus traditional methods. Notably, while modern models exhibit advanced capabilities in capturing con textual nuances, certain traditional architectures still keep high performance. This work aims to guide researchers in selecting the most suitable model for their anonymisation needs, while also shedding light on potential paths for future advancements in the field. | 翻訳日:2024-04-24 18:07:28 公開日:2024-04-22 |
# プロンプト工学による大規模言語モデルにおける化学知識の統合
Integrating Chemistry Knowledge in Large Language Models via Prompt Engineering ( http://arxiv.org/abs/2404.14467v1 ) ライセンス: Link先を確認 | Hongxuan Liu, Haoyu Yin, Zhiyao Luo, Xiaonan Wang, | (参考訳) 本稿では,科学領域における大規模言語モデル(LLM)の性能向上を目的として,ドメイン固有の知識の統合について検討する。
小分子の複雑な物理化学的性質、薬理学の薬物性、酵素や結晶材料の機能的特性、生物学的および化学的ドメイン間の関連性や適用性を裏付けるベンチマークデータセットを作製し、提案手法は、能力、正確性、F1スコア、幻覚低下など、様々な指標において従来の急進的なエンジニアリング戦略より優れていることを示す。
この方法の有効性は, マクミラン触媒, パクリタキセル, コバルト酸化リチウムなどの複合材料に関するケーススタディにより実証された。
その結果、ドメイン知識プロンプトは、LLMをより正確かつ関連性の高い応答に導くことができ、LLMがドメイン固有のプロンプトを備える際に、科学的発見と革新のための強力なツールとしての可能性を強調している。
この研究はまた、ドメイン固有のプロンプトエンジニアリング開発における制限と今後の方向性についても論じている。
This paper presents a study on the integration of domain-specific knowledge in prompt engineering to enhance the performance of large language models (LLMs) in scientific domains. A benchmark dataset is curated to encapsulate the intricate physical-chemical properties of small molecules, their drugability for pharmacology, alongside the functional attributes of enzymes and crystal materials, underscoring the relevance and applicability across biological and chemical domains.The proposed domain-knowledge embedded prompt engineering method outperforms traditional prompt engineering strategies on various metrics, including capability, accuracy, F1 score, and hallucination drop. The effectiveness of the method is demonstrated through case studies on complex materials including the MacMillan catalyst, paclitaxel, and lithium cobalt oxide. The results suggest that domain-knowledge prompts can guide LLMs to generate more accurate and relevant responses, highlighting the potential of LLMs as powerful tools for scientific discovery and innovation when equipped with domain-specific prompts. The study also discusses limitations and future directions for domain-specific prompt engineering development. | 翻訳日:2024-04-24 18:07:28 公開日:2024-04-22 |
# SnapKV: LLMは、あなたが生成前に探しているものを知っている
SnapKV: LLM Knows What You are Looking for Before Generation ( http://arxiv.org/abs/2404.14469v1 ) ライセンス: Link先を確認 | Yuhong Li, Yingbing Huang, Bowen Yang, Bharat Venkitesh, Acyr Locatelli, Hanchen Ye, Tianle Cai, Patrick Lewis, Deming Chen, | (参考訳) 大きな言語モデル(LLM)は、キーバリュー(KV)キャッシュがパフォーマンス向上に重要な役割を果たしているため、広範なコンテキストの処理において顕著な進歩を遂げている。
しかし、入力長の増加に対応するKVキャッシュの増加は、メモリと時間効率に課題をもたらす。
この問題に対処するため,本稿では,KVキャッシュサイズを効率よく最小化しつつ,実世界のアプリケーションで同等のパフォーマンスを実現する,革新的な,微調整不要なアプローチであるSnapKVを紹介する。
モデル内の各注意点が、生成中の特定の注意点に一貫して焦点を合わせていることが判明した。
一方、この堅牢なパターンはプロンプトの端にある‘オブザーブレーション’ウィンドウから得ることができる。
この洞察に基づいてSnapKVは、注目ヘッド毎にクラスタ化された重要なKV位置を選択することで、KVキャッシュを自動的に圧縮する。
提案手法は,長い入力シーケンスを処理する際の計算オーバーヘッドとメモリフットプリントの増大を著しく低減する。
具体的には、SnapKVは16Kトークンの入力を処理する際に、生成速度が3.6倍、メモリ効率が8.2倍向上して一貫した復号速度を達成する。
同時に、16の長いシーケンスデータセットにわたるベースラインモデルに匹敵するパフォーマンスを維持している。
さらに、SnapKVはHuggingFace実装を使って1つのA100-80GB GPU上で最大380Kのコンテキストトークンを小さな変更で処理でき、Needdle-in-a-Haystackテストでは無視できる精度の低下しか表示できない。
より包括的な研究は、SnapKVの実用的な応用の可能性を示している。
Large Language Models (LLMs) have made remarkable progress in processing extensive contexts, with the Key-Value (KV) cache playing a vital role in enhancing their performance. However, the growth of the KV cache in response to increasing input length poses challenges to memory and time efficiency. To address this problem, this paper introduces SnapKV, an innovative and fine-tuning-free approach that efficiently minimizes KV cache size while still delivering comparable performance in real-world applications. We discover that each attention head in the model consistently focuses on specific prompt attention features during generation. Meanwhile, this robust pattern can be obtained from an `observation' window located at the end of the prompts. Drawing on this insight, SnapKV automatically compresses KV caches by selecting clustered important KV positions for each attention head. Our approach significantly reduces the growing computational overhead and memory footprint when processing long input sequences. Specifically, SnapKV achieves a consistent decoding speed with a 3.6x increase in generation speed and an 8.2x enhancement in memory efficiency compared to baseline when processing inputs of 16K tokens. At the same time, it maintains comparable performance to baseline models across 16 long sequence datasets. Moreover, SnapKV can process up to 380K context tokens on a single A100-80GB GPU using HuggingFace implementation with minor changes, exhibiting only a negligible accuracy drop in the Needle-in-a-Haystack test. Further comprehensive studies suggest SnapKV's potential for practical applications. | 翻訳日:2024-04-24 18:07:28 公開日:2024-04-22 |
# Prompt-Guided Multimodal Interaction を用いた物語行動評価
Narrative Action Evaluation with Prompt-Guided Multimodal Interaction ( http://arxiv.org/abs/2404.14471v1 ) ライセンス: Link先を確認 | Shiyi Zhang, Sule Bai, Guangyi Chen, Lei Chen, Jiwen Lu, Junle Wang, Yansong Tang, | (参考訳) 本稿では,ナラティブ・アクション・アセスメント(NAE)と呼ばれる新たな課題について検討する。
NAEは、行動の実行を評価する専門家のコメントを作成することを目的としている。
スコアベースのアクション品質評価や、表面的な文を含むビデオキャプションといった従来のタスクとは異なり、NAEは自然言語で詳細な物語を作成することに焦点を当てている。
これらの物語は、客観的評価とともに、行動の複雑な記述を提供する。
NAEは、物語の柔軟性と評価の厳格さの両方を必要とするため、より困難なタスクです。
既存の解決策の1つは、物語言語と評価情報を別々に予測するマルチタスク学習を使用することである。
しかし,本手法では,タスク間の差異や言語情報と評価情報とのモダリティの違いにより,個々のタスクのパフォーマンスが低下する。
そこで本研究では,プロンプト誘導型マルチモーダルインタラクションフレームワークを提案する。
このフレームワークは、情報モダリティの異なる相互作用を容易にするために、一対のトランスフォーマーを利用する。
また、スコア回帰タスクをビデオテキストマッチングタスクに変換するプロンプトを使用して、タスクの対話を可能にする。
この分野でさらなる研究を支援するため、我々は、高品質で包括的なアクションナレーションを備えたMTL-AQAとFinGymデータセットを再注釈する。
また,NAEのベンチマークも確立した。
大規模な実験結果から,本手法は学習方法とナイーブなマルチタスク学習法より優れていたことが証明された。
データとコードは \href{https://github.com/shiyi-zh0408/NAE_CVPR2024 }{here} で公開されている。
In this paper, we investigate a new problem called narrative action evaluation (NAE). NAE aims to generate professional commentary that evaluates the execution of an action. Unlike traditional tasks such as score-based action quality assessment and video captioning involving superficial sentences, NAE focuses on creating detailed narratives in natural language. These narratives provide intricate descriptions of actions along with objective evaluations. NAE is a more challenging task because it requires both narrative flexibility and evaluation rigor. One existing possible solution is to use multi-task learning, where narrative language and evaluative information are predicted separately. However, this approach results in reduced performance for individual tasks because of variations between tasks and differences in modality between language information and evaluation information. To address this, we propose a prompt-guided multimodal interaction framework. This framework utilizes a pair of transformers to facilitate the interaction between different modalities of information. It also uses prompts to transform the score regression task into a video-text matching task, thus enabling task interactivity. To support further research in this field, we re-annotate the MTL-AQA and FineGym datasets with high-quality and comprehensive action narration. Additionally, we establish benchmarks for NAE. Extensive experiment results prove that our method outperforms separate learning methods and naive multi-task learning methods. Data and code are released at \href{https://github.com/shiyi-zh0408/NAE_CVPR2024 }{here}. | 翻訳日:2024-04-24 18:07:28 公開日:2024-04-22 |
# 有効ブラックホール幾何を用いた最適揺らぎキラルスピン鎖
Optimally scrambling chiral spin-chain with effective black hole geometry ( http://arxiv.org/abs/2404.14473v1 ) ライセンス: Link先を確認 | Aiden Daniel, Andrew Hallam, Matthew D. Horner, Jiannis K. Pachos, | (参考訳) 現在、凝縮物質モデルを用いて、ホーキング放射や最適な衝突挙動などのブラックホールの本質的な特性をエミュレートすることに重要な関心がある。
本稿では,ブラックホールの時空幾何学におけるディラックフェルミオンの挙動を,平均場理論が効果的に捉えるカイラルスピン鎖について検討する。
ブラックホールの内部を記述した鎖の領域では、強い相関関係が強くなり、多体カオス力学がもたらされる。
時間外相関を診断ツールとして用い,関連するリャプノフ指数を数値計算する。
興味深いことに、最適な揺動挙動を示すため、ブラックホール内部の温度が低いリアプノフ指数の線形増加を観測した。
これは、ブラックホールの外の領域でスピン鎖によって示される二次温度依存性とは対照的である。
我々の発見は、ブラックホールの幾何学と量子カオスの相互作用の深い理解に寄与し、量子重力の基本的な側面に関する洞察を提供する。
There is currently significant interest in emulating the essential characteristics of black holes, such as their Hawking radiation or their optimal scrambling behavior, using condensed matter models. In this article, we investigate a chiral spin-chain, whose mean field theory effectively captures the behavior of Dirac fermions in the curved spacetime geometry of a black hole. We find that within the region of the chain that describe the interior of the black hole, strong correlations prevail giving rise to many-body chaotic dynamics. Employing out-of-time-order correlations as a diagnostic tool, we numerically compute the associated Lyapunov exponent. Intriguingly, we observe a linear increase in the Lyapunov exponent with temperature within the black hole's interior at low temperatures, indicative of optimal scrambling behavior. This contrasts with the quadratic temperature dependence exhibited by the spin-chain on the region outside the black hole. Our findings contribute to a deeper understanding of the interplay between black hole geometry and quantum chaos, offering insights into fundamental aspects of quantum gravity. | 翻訳日:2024-04-24 18:07:28 公開日:2024-04-22 |
# 量子資源による秘密の条件開示
Conditional disclosure of secrets with quantum resources ( http://arxiv.org/abs/2404.14491v1 ) ライセンス: Link先を確認 | Vahid R. Asadi, Kohdai Kuroiwa, Debbie Leung, Alex May, Sabrina Pasterski, Chris Waddell, | (参考訳) 秘密の条件開示(CDS)プリミティブは、通信、ランダム性、セキュリティの関係を研究する最も単純な暗号設定の一つである。
CDS には、Alice と Bob の2つのパーティがあるが、秘密の$z$ を審判に開示したいのは、Boolean 関数 $f$ が $f(x,y)=1$ である場合に限りである。
Aliceは$x,z$、Bobは$y$、レフェリーは$x,y$を知っている。
近年、CDQSと呼ばれるプリミティブの量子アナログが定義され、量子位置検証の文脈で研究される$f$-routingと関連づけられている。
CDQSはCDSと同じ入力、出力、通信パターンを持つが、共有絡みと量子メッセージを使用することができる。
我々は,情報理論設定におけるプライバシと量子リソースの関係をよりよく理解することを目的として,CDQSの体系的研究を開始した。
古典CDS文献で既に確立されている結果の量子的類似点を探すことから始める。
そこで我々は,CDQSの基本的特性を多数確立し,通信複雑性の尺度で述べた絡み合いや通信の限界を低くする。
F$routingの位置検証スキームとの密接な関係のため、これらのスキームの安全性に関連性がある。
The conditional disclosure of secrets (CDS) primitive is among the simplest cryptographic settings in which to study the relationship between communication, randomness, and security. CDS involves two parties, Alice and Bob, who do not communicate but who wish to reveal a secret $z$ to a referee if and only if a Boolean function $f$ has $f(x,y)=1$. Alice knows $x,z$, Bob knows $y$, and the referee knows $x,y$. Recently, a quantum analogue of this primitive called CDQS was defined and related to $f$-routing, a task studied in the context of quantum position-verification. CDQS has the same inputs, outputs, and communication pattern as CDS but allows the use of shared entanglement and quantum messages. We initiate the systematic study of CDQS, with the aim of better understanding the relationship between privacy and quantum resources in the information theoretic setting. We begin by looking for quantum analogues of results already established in the classical CDS literature. Doing so we establish a number of basic properties of CDQS, including lower bounds on entanglement and communication stated in terms of measures of communication complexity. Because of the close relationship to the $f$-routing position-verification scheme, our results have relevance to the security of these schemes. | 翻訳日:2024-04-24 17:57:44 公開日:2024-04-22 |
# ピーク回路サンプリングによる検証可能な量子優位性について
On verifiable quantum advantage with peaked circuit sampling ( http://arxiv.org/abs/2404.14493v1 ) ライセンス: Link先を確認 | Scott Aaronson, Yuxuan Zhang, | (参考訳) 提案から10年以上、量子コンピュータを使ってハードディストリビューションをサンプリングするというアイデアは、量子の優位性を示す重要な道のりを歩み続けている。
しかし、深刻な欠点が残る: 検証は指数関数的な古典計算を必要とするように見える。
この難しさを克服するために、計算ベース状態に高濃度の出力を持つ量子回路において、非ランダムな'ピーク回路'を用いた量子優位実験の新たな候補を提案する。
当然、重出力文字列は古典的な検証に使用できる。
本研究では,ピーク回路の明示的なモデルについて解析的,数値的に検討し,一様ランダムゲートの$\tau_r$層をピーク密度の最大化に最適化した$\tau_p$層で拡張する。
そのような回路から一定のピーク性を得るには、圧倒的な確率で$\tau_{p} = \Omega((\tau_r/n)^{0.19})$が必要である。
しかし、このモデルでは非自明なピーク性も可能であり、指数関数的に量子ビットの数で崩壊するが、ランダム量子回路の出力がハールランダム状態として扱われる近似によって説明できる以上のものが存在する。
このことは、これらのピーク回路が将来の検証可能な量子優位実験の可能性を示唆している。
我々の研究は、ランダムピーク回路を効率的に生成する方法や、古典多項式時間における完全ランダム回路と区別できるかどうかなど、多くのオープンな疑問を提起する。
Over a decade after its proposal, the idea of using quantum computers to sample hard distributions has remained a key path to demonstrating quantum advantage. Yet a severe drawback remains: verification seems to require exponential classical computation. As an attempt to overcome this difficulty, we propose a new candidate for quantum advantage experiments with otherwise-random ''peaked circuits'', i.e., quantum circuits whose outputs have high concentrations on a computational basis state. Naturally, the heavy output string can be used for classical verification. In this work, we analytically and numerically study an explicit model of peaked circuits, in which $\tau_r$ layers of uniformly random gates are augmented by $\tau_p$ layers of gates that are optimized to maximize peakedness. We show that getting constant peakedness from such circuits requires $\tau_{p} = \Omega((\tau_r/n)^{0.19})$ with overwhelming probability. However, we also give numerical evidence that nontrivial peakedness is possible in this model -- decaying exponentially with the number of qubits, but more than can be explained by any approximation where the output of a random quantum circuit is treated as a Haar-random state. This suggests that these peaked circuits have the potential for future verifiable quantum advantage experiments. Our work raises numerous open questions about random peaked circuits, including how to generate them efficiently, and whether they can be distinguished from fully random circuits in classical polynomial time. | 翻訳日:2024-04-24 17:57:44 公開日:2024-04-22 |
# 垂直学習と水平学習によるワイヤレスネットワークのデジタルリアリティへのマッピング
Mapping Wireless Networks into Digital Reality through Joint Vertical and Horizontal Learning ( http://arxiv.org/abs/2404.14497v1 ) ライセンス: Link先を確認 | Zifan Zhang, Mingzhe Chen, Zhaohui Yang, Yuchen Liu, | (参考訳) 近年、5Gや無線ネットワーク以上の複雑さが増大し、フレキシブルな管理と効率的なデプロイメントを容易にする革新的なフレームワークの必要性が高まっている。
ディジタルツイン(DT)の概念は、リアルタイム監視、予測構成、意思決定プロセスを可能にするソリューションとして登場した。
既存の研究は主にDTを活用して無線ネットワークを最適化することに重点を置いているが、ネットワークインフラストラクチャとプロパティの仮想表現を作成するための詳細なマッピング手法はまだ不足している。
この文脈では、無線ネットワークをデジタルリアリティーに効果的にマッピングする新しい時系列データ駆動フレームワークであるVH-Twinを紹介する。
VH-Twin は相補的な垂直ツインニング (V-ツインニング) と水平ツインニング (H-ツインニング) の段階を通して自分自身を区別し、続いて地質学的および無線的特性に基づいてネットワーク領域を仮想化する周期的なクラスタリング機構が使用される。
具体的には、V-twinningは分散学習技術を利用して、仮想ネットワーククラスタからグローバルツインモデルを協調的に初期化する。
一方、H-ツインニングは、ネットワークや環境の変化に応じて動的に双子のモデルを更新する非同期マッピング方式で実装されている。
VH-TwinがネットワークDTを効果的に構築、デプロイ、維持できるかどうかを検証するために、携帯電話無線ネットワーク内の実世界の無線トラフィックデータを活用する包括的な実験が行われた。
パラメトリック分析はまた、ツインニング効率とスケールでのモデルの精度のバランスをとる方法に関する洞察を提供する。
In recent years, the complexity of 5G and beyond wireless networks has escalated, prompting a need for innovative frameworks to facilitate flexible management and efficient deployment. The concept of digital twins (DTs) has emerged as a solution to enable real-time monitoring, predictive configurations, and decision-making processes. While existing works primarily focus on leveraging DTs to optimize wireless networks, a detailed mapping methodology for creating virtual representations of network infrastructure and properties is still lacking. In this context, we introduce VH-Twin, a novel time-series data-driven framework that effectively maps wireless networks into digital reality. VH-Twin distinguishes itself through complementary vertical twinning (V-twinning) and horizontal twinning (H-twinning) stages, followed by a periodic clustering mechanism used to virtualize network regions based on their distinct geological and wireless characteristics. Specifically, V-twinning exploits distributed learning techniques to initialize a global twin model collaboratively from virtualized network clusters. H-twinning, on the other hand, is implemented with an asynchronous mapping scheme that dynamically updates twin models in response to network or environmental changes. Leveraging real-world wireless traffic data within a cellular wireless network, comprehensive experiments are conducted to verify that VH-Twin can effectively construct, deploy, and maintain network DTs. Parametric analysis also offers insights into how to strike a balance between twinning efficiency and model accuracy at scale. | 翻訳日:2024-04-24 17:57:44 公開日:2024-04-22 |
# Quantum Annealing: 横フィールドイジングモデルのダイナミクスをシミュレーションするためのJulia Package
QuantumAnnealing: A Julia Package for Simulating Dynamics of Transverse Field Ising Models ( http://arxiv.org/abs/2404.14501v1 ) ライセンス: Link先を確認 | Zachary Morrell, Marc Vuffray, Sidhant Misra, Carleton Coffrin, | (参考訳) アナログ量子コンピュータ(Analog Quantum Computers)は、量子材料のモデリング、最適化問題に対する高速ヒューリスティックなソリューションの提供、量子システムのシミュレーションなど、アプリケーションのパフォーマンスを改善するための有望なツールである。
動的量子システムのシミュレーションの課題のため、これらのデバイスの振る舞いをモデル化し、それらの性能を検証するための古典的なツールが比較的少ない。
QuantumAnnealing.jlは、アナログ量子コンピュータを古典的なハードウェア上でシミュレーションするためのツールキットを提供する。
このパッケージには、Transverse Field Ising Modelの時間進化のシミュレーション、実際のアニールハードウェアで使用されるアニールスケジュールの複製、カスタムアニールスケジュールの実装などが含まれる。
これにより、興味深い振る舞いを示すと期待されるモデルの高速なプロトタイピング、量子デバイスの性能検証、量子デバイスが期待する振る舞いと小さなシステムに対する古典的なアプローチとの簡単な比較が可能になる。
このソフトウェアはオープンソースとして提供されており、Juliaのパッケージレジストリシステムを通じて利用できる。
Analog Quantum Computers are promising tools for improving performance on applications such as modeling behavior of quantum materials, providing fast heuristic solutions to optimization problems, and simulating quantum systems. Due to the challenges of simulating dynamic quantum systems, there are relatively few classical tools for modeling the behavior of these devices and verifying their performance. QuantumAnnealing.jl provides a toolkit for performing simulations of Analog Quantum Computers on classical hardware. This package includes functionality for simulation of the time evolution of the Transverse Field Ising Model, replicating annealing schedules used by real world annealing hardware, implementing custom annealing schedules, and more. This allows for rapid prototyping of models expected to display interesting behavior, verification of the performance of quantum devices, and easy comparison against the expected behavior of quantum devices against classical approaches for small systems. The software is provided as open-source and is available through Julia's package registry system. | 翻訳日:2024-04-24 17:57:44 公開日:2024-04-22 |
# ステップの調整: 拡散モデルにおけるサンプリングスケジュールの最適化
Align Your Steps: Optimizing Sampling Schedules in Diffusion Models ( http://arxiv.org/abs/2404.14507v1 ) ライセンス: Link先を確認 | Amirmojtaba Sabour, Sanja Fidler, Karsten Kreis, | (参考訳) 拡散モデル(DM)は、視覚領域以降における最先端の生成モデリングアプローチとして確立されている。
DMの重大な欠点は、サンプリング速度の遅いことであり、大規模なニューラルネットワークによる多くのシーケンシャルな関数評価に依存している。
DMからのサンプリングは、サンプリングスケジュールとして知られるノイズレベルの離散化によって微分方程式を解くことができる。
過去の研究は主に効率的な解法を導出することに焦点を当てているが、最適なサンプリングスケジュールを見つけることにはほとんど注意が払われておらず、文献全体は手作りのヒューリスティックに頼っている。
本研究では,DMのサンプリングスケジュールを高品質な出力に最適化する汎用的,原理的な手法を初めて提案する($\textit{Align Your Steps}$)。
確率計算からの手法を活用し、異なる解法、訓練されたDM、データセットに特有の最適なスケジュールを求める。
我々は,複数の画像,ビデオ,および2D玩具データ合成ベンチマークに対する新しいアプローチを,様々なサンプルを用いて評価し,最適化されたスケジュールが,ほぼすべての実験において,以前の手作りスケジュールより優れていることを確認した。
提案手法は,サンプリングスケジュール最適化の未解決可能性,特に数段階合成システムにおいて実証する。
Diffusion models (DMs) have established themselves as the state-of-the-art generative modeling approach in the visual domain and beyond. A crucial drawback of DMs is their slow sampling speed, relying on many sequential function evaluations through large neural networks. Sampling from DMs can be seen as solving a differential equation through a discretized set of noise levels known as the sampling schedule. While past works primarily focused on deriving efficient solvers, little attention has been given to finding optimal sampling schedules, and the entire literature relies on hand-crafted heuristics. In this work, for the first time, we propose a general and principled approach to optimizing the sampling schedules of DMs for high-quality outputs, called $\textit{Align Your Steps}$. We leverage methods from stochastic calculus and find optimal schedules specific to different solvers, trained DMs and datasets. We evaluate our novel approach on several image, video as well as 2D toy data synthesis benchmarks, using a variety of different samplers, and observe that our optimized schedules outperform previous hand-crafted schedules in almost all experiments. Our method demonstrates the untapped potential of sampling schedule optimization, especially in the few-step synthesis regime. | 翻訳日:2024-04-24 17:57:44 公開日:2024-04-22 |
# エッジ支援型ML支援不確実性を考慮した都市間衝突回避
Edge-Assisted ML-Aided Uncertainty-Aware Vehicle Collision Avoidance at Urban Intersections ( http://arxiv.org/abs/2404.14523v1 ) ライセンス: Link先を確認 | Dinesh Cyril Selvaraj, Christian Vitale, Tania Panayiotou, Panayiotis Kolios, Carla Fabiana Chiasserini, Georgios Ellinas, | (参考訳) 交差交差は道路インフラの最も危険な部分の1つであり、コネクテッド・ビークル(CV)はこの問題に対する革命的な解決策として機能する。
本研究では、5GネットワークのMulti- Access Edge Computing(MEC)プラットフォームを利用して、都市横断路におけるプリエンプティブ衝突を検出する新しいフレームワークを提案する。
MECでは、インターセクションマネージャ(IM)が車両と道路インフラの両方から情報を収集し、関心領域の全体像を作成する。
収集された履歴データに基づいて、IMはエンコーダ・デコーダ・リカレントニューラルネットワークの機能を利用して、将来の車両の軌道を高精度に予測する。
しかし、精度はモデルがどの程度信頼できるかの十分な尺度ではないため、軌道予測は、確実な衝突予測と回避に対する不確実性の尺度に付加される。
したがって、最先端技術における他のアプローチとは対照的に、2台の車両が衝突コースにいる場合、事前に(かつ高い信頼性で)十分に検出できる不確実性認識衝突予測フレームワークが開発されている。
その後、衝突検出は衝突車両にブレーキを鳴らすアラームを発生させる。
現実の環境では、提案手法のプリエンプティブな能力のおかげで、シミュレーションされた差し迫った危険は回避される。
Intersection crossing represents one of the most dangerous sections of the road infrastructure and Connected Vehicles (CVs) can serve as a revolutionary solution to the problem. In this work, we present a novel framework that detects preemptively collisions at urban crossroads, exploiting the Multi-access Edge Computing (MEC) platform of 5G networks. At the MEC, an Intersection Manager (IM) collects information from both vehicles and the road infrastructure to create a holistic view of the area of interest. Based on the historical data collected, the IM leverages the capabilities of an encoder-decoder recurrent neural network to predict, with high accuracy, the future vehicles' trajectories. As, however, accuracy is not a sufficient measure of how much we can trust a model, trajectory predictions are additionally associated with a measure of uncertainty towards confident collision forecasting and avoidance. Hence, contrary to any other approach in the state of the art, an uncertainty-aware collision prediction framework is developed that is shown to detect well in advance (and with high reliability) if two vehicles are on a collision course. Subsequently, collision detection triggers a number of alarms that signal the colliding vehicles to brake. Under real-world settings, thanks to the preemptive capabilities of the proposed approach, all the simulated imminent dangers are averted. | 翻訳日:2024-04-24 17:57:44 公開日:2024-04-22 |
# Mélange:GPUヘテロジニティの爆発によって実現されるコスト効率のよい大規模言語モデル
Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity ( http://arxiv.org/abs/2404.14527v1 ) ライセンス: Link先を確認 | Tyler Griggs, Xiaoxuan Liu, Jiaxiang Yu, Doyoung Kim, Wei-Lin Chiang, Alvin Cheung, Ion Stoica, | (参考訳) 大規模言語モデル(LLM)は多くのオンラインサービスに統合されている。
しかし、LLMのデプロイにおける大きな課題は、主に高価なGPUインスタンスを使用するため、そのコストが高いことである。
この問題に対処するために、GPUタイプの大きな異種性は、GPUコストの効率を高め、デプロイメントコストを削減する機会となる。
GPUの広範かつ拡大する市場は、さまざまなコストとハードウェア仕様を備えた多様なオプションスペースを生み出している。
この領域では,GPUのコストと性能には線形的な関係はなく,モデル要求サイズ,要求レート,遅延サービスレベル目標(SLO)の3つの主要なLCMサービス特性が最もコスト効率のよいGPUタイプに大きく影響していることが示されている。
次に、あるLLMサービスに対して最もコスト効率のよいGPUセットを導き出すために、GPUとLLMサービスの仕様の多様性をナビゲートするフレームワークであるM\'elangeを紹介します。
我々はGPU選択のタスクを、GPUがキャパシティとコストを持つビンであり、アイテムは要求サイズとレートで定義された要求スライスである、コスト対応のビンパッキング問題として捉えている。
解決策として、M\'elangeは設定可能なレイテンシSLOに準拠した最小コストのGPUアロケーションを導出する。
実世界のデータセットと合成データセットの両方で評価した結果、M\'elangeは単一のGPUタイプのみを活用するよりも、デプロイメントコストを最大77%削減できることがわかった。
ソースコードはhttps://github.com/tyler-griggs/melange-release.comで公開されています。
Large language models (LLMs) are increasingly integrated into many online services. However, a major challenge in deploying LLMs is their high cost, due primarily to the use of expensive GPU instances. To address this problem, we find that the significant heterogeneity of GPU types presents an opportunity to increase GPU cost efficiency and reduce deployment costs. The broad and growing market of GPUs creates a diverse option space with varying costs and hardware specifications. Within this space, we show that there is not a linear relationship between GPU cost and performance, and identify three key LLM service characteristics that significantly affect which GPU type is the most cost effective: model request size, request rate, and latency service-level objective (SLO). We then present M\'elange, a framework for navigating the diversity of GPUs and LLM service specifications to derive the most cost-efficient set of GPUs for a given LLM service. We frame the task of GPU selection as a cost-aware bin-packing problem, where GPUs are bins with a capacity and cost, and items are request slices defined by a request size and rate. Upon solution, M\'elange derives the minimal-cost GPU allocation that adheres to a configurable latency SLO. Our evaluations across both real-world and synthetic datasets demonstrate that M\'elange can reduce deployment costs by up to 77% as compared to utilizing only a single GPU type, highlighting the importance of making heterogeneity-aware GPU provisioning decisions for LLM serving. Our source code is publicly available at https://github.com/tyler-griggs/melange-release. | 翻訳日:2024-04-24 17:57:44 公開日:2024-04-22 |
# 偏光性埋め込みを用いた氷VIII, IXの電界勾配計算:古典コンピュータと量子シミュレータの比較研究
Electric Field Gradient Calculations for Ice VIII and IX using Polarizable Embedding: A Comparative Study on Classical Computers and Quantum Simulators ( http://arxiv.org/abs/2404.14531v1 ) ライセンス: Link先を確認 | Dániel Nagy, Peter Reinholdt, Phillip W. K. Jensen, Erik Rosendahl Kjellgren, Karl Michael Ziems, Aaron Fitzpatrick, Stefan Knecht, Jacob Kongsted, Sonia Coriani, Stephan P. A. Sauer, | (参考訳) 本研究では、電場勾配を計算するための偏光型変分量子固有解法(PE-VQE-SCF)モデルの性能を、従来の完全能動空間自己整合体(CASSCF)計算との比較と実験結果と比較して検証する。
氷VIIIと氷IXの四重極結合定数を計算する。
実験データと一致する結果を得るためには,環境の包摂が不可欠であることがわかった。
氷VIIIの計算は、酸素に対するCASSCFとVQE-SCFの両方の実験的な不確実性の中にあり、氷IXの実験値に近い。
VQE-SCFはAdaptive Derivative-Assembled Problem-Tailored (ADAPT) アンサッツに基づいており、環境の包含と異なる基底集合のサイズはゲート数に直接影響しない。
しかし、明示的な環境、波動関数を含むことにより、最適化問題はより複雑になり、通常は演算子プールからより多くの演算子を含める必要が生じ、回路の深さが増加する。
We test the performance of the Polarizable Embedding Variational Quantum Eigensolver Self-Consistent-Field (PE-VQE-SCF) model for computing electric field gradients with comparisons to conventional complete active space self-consistent-field (CASSCF) calculations and experimental results. We compute quadrupole coupling constants for ice VIII and ice IX. We find that the inclusion of the environment is crucial for obtaining results that match the experimental data. The calculations for ice VIII are within the experimental uncertainty for both CASSCF and VQE-SCF for oxygen and lie close to the experimental value for ice IX as well. With the VQE-SCF, which is based on an Adaptive Derivative-Assembled Problem-Tailored (ADAPT) ansatz, we find that the inclusion of the environment and the size of the different basis sets do not directly affect the gate counts. However, by including an explicit environment, the wavefunction and, therefore, the optimization problem becomes more complicated, which usually results in the need to include more operators from the operator pool, thereby increasing the depth of the circuit. | 翻訳日:2024-04-24 17:57:44 公開日:2024-04-22 |
# SwinFuSR:RGB誘導熱画像超解像のための画像融合モデル
SwinFuSR: an image fusion-inspired model for RGB-guided thermal image super-resolution ( http://arxiv.org/abs/2404.14533v1 ) ライセンス: Link先を確認 | Cyprien Arnold, Philippe Jouvet, Lama Seoud, | (参考訳) 熱画像は様々な用途において重要な役割を担っているが、赤外線(IR)カメラの固有の低分解能は、その有効性を制限している。
従来の超解像法(SR)は、高周波の詳細が欠如しているため、しばしば熱画像に苦しむ。
ガイドSRは、通常可視光スペクトルの高解像度画像からの情報を活用し、低解像度入力からの高解像度IR画像の再構成を強化する。
SwinFusionにインスパイアされたSwinFuSRは、Swin変換器をベースとしたガイド付きSRアーキテクチャである。
しかし、実世界のシナリオでは、誘導モダリティ(例えばRBG画像)が欠落している可能性があるため、この場合のモデルの堅牢性を改善するためのトレーニング手法を提案する。
提案手法は,Pak Signal to Noise Ratio (PSNR) とStructuor SIMilarity (SSIM) の観点から,パラメータが少なく,最先端モデルよりも優れる。
PBVS 2024 Thermal Image Super-Resolution Challengeのトラック2では、PSNRの3位を記録した。
私たちのコードはhttps://github.com/VisionICLab/SwinFuSR.comで公開されています。
Thermal imaging plays a crucial role in various applications, but the inherent low resolution of commonly available infrared (IR) cameras limits its effectiveness. Conventional super-resolution (SR) methods often struggle with thermal images due to their lack of high-frequency details. Guided SR leverages information from a high-resolution image, typically in the visible spectrum, to enhance the reconstruction of a high-res IR image from the low-res input. Inspired by SwinFusion, we propose SwinFuSR, a guided SR architecture based on Swin transformers. In real world scenarios, however, the guiding modality (e.g. RBG image) may be missing, so we propose a training method that improves the robustness of the model in this case. Our method has few parameters and outperforms state of the art models in terms of Peak Signal to Noise Ratio (PSNR) and Structural SIMilarity (SSIM). In Track 2 of the PBVS 2024 Thermal Image Super-Resolution Challenge, it achieves 3rd place in the PSNR metric. Our code and pretained weights are available at https://github.com/VisionICLab/SwinFuSR. | 翻訳日:2024-04-24 17:57:44 公開日:2024-04-22 |
# 既知定常状態を持つオープン量子系の設計:デイビーズジェネレータ以降
Designing open quantum systems with known steady states: Davies generators and beyond ( http://arxiv.org/abs/2404.14538v1 ) ライセンス: Link先を確認 | Jinkang Guo, Oliver Hart, Chi-Fang Chen, Aaron J. Friedman, Andrew Lucas, | (参考訳) 対象定常状態(混合状態)を持つ非平衡量子力学の一般モデルを構築するための体系的枠組みを提供する。
我々の枠組みは、有限温度での散逸緩和のためのデービーズ生成器を任意の定常状態をターゲットにした非平衡ダイナミクスに一般化し、ハミルトン力学と散逸動力学のすべての組み合わせを(ほとんど)同定する。
我々は、安定的なハミルトンのギブス状態に注目し、散逸過程とユニタリ過程の速度を制限し、局所的なリンドブラディアンをそれと相容れないものと同定する。
さらに、リンドブラディアンの用語が対象の状態と互換性がないことを考慮し、我々の定式化は、症候群の測定や局所的なフィードバックを含む操作を識別し、これらの誤りを修正するために適用する必要がある。
例えば、測定可能な2点関数は、横磁場の臨界比と測定とフィードバックの速度で、距離でクリティカルな(ゆるい)スケーリングを示す「測定誘起位相遷移」を提供する。
我々の形式主義の中で自然に定義される時間反転対称性は、効果的に古典的かつ本質的に量子的な方法で破られる。
我々のフレームワークは量子力学の普遍性クラスを探索するための体系的な出発点を提供し、量子エラー訂正のための新しいプロトコルを同定する。
We provide a systematic framework for constructing generic models of nonequilibrium quantum dynamics with a target stationary (mixed) state. Our framework identifies (almost) all combinations of Hamiltonian and dissipative dynamics that relax to a steady state of interest, generalizing the Davies' generator for dissipative relaxation at finite temperature to nonequilibrium dynamics targeting arbitrary stationary states. We focus on Gibbs states of stabilizer Hamiltonians, identifying local Lindbladians compatible therewith by constraining the rates of dissipative and unitary processes. Moreover, given terms in the Lindbladian not compatible with the target state, our formalism identifies the operations -- including syndrome measurements and local feedback -- one must apply to correct these errors. Our methods also reveal new models of quantum dynamics: for example, we provide a "measurement-induced phase transition" where measurable two-point functions exhibit critical (power-law) scaling with distance at a critical ratio of the transverse field and rate of measurement and feedback. Time-reversal symmetry -- defined naturally within our formalism -- can be broken both in effectively classical, and intrinsically quantum, ways. Our framework provides a systematic starting point for exploring the landscape of quantum dynamical universality classes, as well as identifying new protocols for quantum error correction. | 翻訳日:2024-04-24 17:57:44 公開日:2024-04-22 |
# UVEB: 大規模ベンチマークとベースラインによる水中ビデオのリアルタイム化
UVEB: A Large-scale Benchmark and Baseline Towards Real-World Underwater Video Enhancement ( http://arxiv.org/abs/2404.14542v1 ) ライセンス: Link先を確認 | Yaofeng Xie, Lingwei Kong, Kai Chen, Ziqiang Zheng, Xiao Yu, Zhibin Yu, Bing Zheng, | (参考訳) 学習に基づく水中画像強調法(UIE)は大きな進歩を遂げた。
しかし、大規模で高品質なペアリングトレーニングサンプルが欠如していることが、UIEの開発を妨げる主要なボトルネックとなっている。
水中ビデオのフレーム間情報はUIEプロセスを加速または最適化することができる。
そこで我々は,水中視覚の発達を促進するために,最初の大規模高分解能水中映像強調ベンチマーク (UVEB) を構築し,1,308対のビデオシーケンスと,38\%超高分解能(UHD)4Kフレームペアの453,000超の高分解能映像を含む。
UVEBは複数の国から来ており、多様な水中環境に適応するための様々なシーンとビデオ劣化タイプを含んでいる。
また,最初の監視型水中ビデオエンハンスメント手法であるUVE-Netを提案する。
UVE-Netは、現在のフレーム情報を畳み込みカーネルに変換し、隣接するフレームに渡して効率的なフレーム間情報交換を行う。
UVE-Netは、水中ビデオの冗長な劣化情報を十分に活用することで、ビデオの強化をより良くする。
実験により,UVE-Netのネットワーク設計と優れた性能が示された。
Learning-based underwater image enhancement (UIE) methods have made great progress. However, the lack of large-scale and high-quality paired training samples has become the main bottleneck hindering the development of UIE. The inter-frame information in underwater videos can accelerate or optimize the UIE process. Thus, we constructed the first large-scale high-resolution underwater video enhancement benchmark (UVEB) to promote the development of underwater vision.It contains 1,308 pairs of video sequences and more than 453,000 high-resolution with 38\% Ultra-High-Definition (UHD) 4K frame pairs. UVEB comes from multiple countries, containing various scenes and video degradation types to adapt to diverse and complex underwater environments. We also propose the first supervised underwater video enhancement method, UVE-Net. UVE-Net converts the current frame information into convolutional kernels and passes them to adjacent frames for efficient inter-frame information exchange. By fully utilizing the redundant degraded information of underwater videos, UVE-Net completes video enhancement better. Experiments show the effective network design and good performance of UVE-Net. | 翻訳日:2024-04-24 17:57:44 公開日:2024-04-22 |
# WangLab at MEDIQA-CORR 2024:Optimized LLM-based Programs for Medical Error Detection and Correction
WangLab at MEDIQA-CORR 2024: Optimized LLM-based Programs for Medical Error Detection and Correction ( http://arxiv.org/abs/2404.14544v1 ) ライセンス: Link先を確認 | Augustin Toma, Ronald Xie, Steven Palayew, Patrick R. Lawler, Bo Wang, | (参考訳) 臨床テキストにおける医療ミスは患者の安全性に重大なリスクをもたらす。
MEDIQA-CORR 2024共有タスクは、これらのエラーを3つのサブタスクにわたって検出し、修正することに焦点を当てている。
本稿では,3つのサブタスクすべてにおいてトップパフォーマンスを達成したアプローチを提案する。
微妙な誤りを含むMSデータセットに対して,外部医療質問応答データセットを利用した検索ベースシステムを開発した。
UWデータセットでは、より現実的な臨床ノートを反映して、エラーを検出し、ローカライズし、修正するためのモジュールのパイプラインを作成しました。
どちらのアプローチもDSPyフレームワークを使ってプロンプトを最適化し、大きな言語モデル(LLM)ベースのプログラムでいくつかの例を示した。
本研究は, LLM を用いた医療的誤り訂正プログラムの有効性を実証するものである。
しかし、我々のアプローチは、医療文書の潜在的なエラーの完全な多様性に対処する上で制限がある。
本研究の意義を考察し,医療ミス検出・修正システムの堅牢性と適用性を高めるための今後の研究の方向性を明らかにする。
Medical errors in clinical text pose significant risks to patient safety. The MEDIQA-CORR 2024 shared task focuses on detecting and correcting these errors across three subtasks: identifying the presence of an error, extracting the erroneous sentence, and generating a corrected sentence. In this paper, we present our approach that achieved top performance in all three subtasks. For the MS dataset, which contains subtle errors, we developed a retrieval-based system leveraging external medical question-answering datasets. For the UW dataset, reflecting more realistic clinical notes, we created a pipeline of modules to detect, localize, and correct errors. Both approaches utilized the DSPy framework for optimizing prompts and few-shot examples in large language model (LLM) based programs. Our results demonstrate the effectiveness of LLM based programs for medical error correction. However, our approach has limitations in addressing the full diversity of potential errors in medical documentation. We discuss the implications of our work and highlight future research directions to advance the robustness and applicability of medical error detection and correction systems. | 翻訳日:2024-04-24 17:57:44 公開日:2024-04-22 |
# ロボット運動計画のための大言語モデルへの曖昧さとユーザ嗜好の統合
Integrating Disambiguation and User Preferences into Large Language Models for Robot Motion Planning ( http://arxiv.org/abs/2404.14547v1 ) ライセンス: Link先を確認 | Mohammed Abugurain, Shinkyu Park, | (参考訳) 本稿では,時間的要素を含む人間のナビゲーションコマンドを解釈し,その自然言語命令を直接ロボット動作計画に変換するフレームワークを提案する。
私たちのフレームワークの中心は、Large Language Models (LLM) の利用です。
フレームワークにおけるLLMの信頼性を高め,ユーザエクスペリエンスを向上させるために,自然言語命令のあいまいさを解消し,ユーザの好みを捉える手法を提案する。
プロセスは曖昧さの分類器から始まり、命令の潜在的な不確実性を特定する。
曖昧なステートメントはGPT-4ベースのメカニズムを起動し、明確な質問を生成する。
また、このフレームワークは、非曖昧な命令に対するユーザの好みを評価し、記録し、将来のインタラクションを強化する。
このプロセスの最後の部分は、線形時間論理を用いて不明瞭な指示をロボットの動作計画に翻訳することである。
本稿では,本フレームワークの開発と各種テストシナリオにおける性能評価について述べる。
This paper presents a framework that can interpret humans' navigation commands containing temporal elements and directly translate their natural language instructions into robot motion planning. Central to our framework is utilizing Large Language Models (LLMs). To enhance the reliability of LLMs in the framework and improve user experience, we propose methods to resolve the ambiguity in natural language instructions and capture user preferences. The process begins with an ambiguity classifier, identifying potential uncertainties in the instructions. Ambiguous statements trigger a GPT-4-based mechanism that generates clarifying questions, incorporating user responses for disambiguation. Also, the framework assesses and records user preferences for non-ambiguous instructions, enhancing future interactions. The last part of this process is the translation of disambiguated instructions into a robot motion plan using Linear Temporal Logic. This paper details the development of this framework and the evaluation of its performance in various test scenarios. | 翻訳日:2024-04-24 17:57:44 公開日:2024-04-22 |
# デジタルメンタルヘルスデータのためのコンセントフォワードパラダイムの改善
Advancing a Consent-Forward Paradigm for Digital Mental Health Data ( http://arxiv.org/abs/2404.14548v1 ) ライセンス: Link先を確認 | Sachin R. Pendse, Logan Stapleton, Neha Kumar, Munmun De Choudhury, Stevie Chancellor, | (参考訳) デジタルメンタルヘルスの分野は急速に進歩している。
デジタルツールやサービスとのユーザエンゲージメントから得られたパッシブな収集データは、メンタルヘルスと病気に関する新たな洞察に貢献し続けている。
デジタルのメンタルヘルスの分野が成長するにつれて、関係する規範が確立され、デジタルサービス利用者はデータの収集、共有、あるいは民間企業の収益の獲得についてほとんど意見が得られない。
データ収集の実践からサービスユーザを除外した長い歴史を考えれば、私たちはこの歴史に注意を払っている別のアプローチを提案します。
このパラダイムは、デジタルメンタルヘルスツールやサービスの設計に肯定的な同意の原則を組み込み、個々の選択やニーズを設計することで信頼を強化し、予期しない害からユーザを積極的に保護する。
本稿では,このパラダイムを実現するための実践的なステップについて概説する。
The field of digital mental health is advancing at a rapid pace. Passively collected data from user engagements with digital tools and services continue to contribute new insights into mental health and illness. As the field of digital mental health grows, a concerning norm has been established -- digital service users are given little say over how their data is collected, shared, or used to generate revenue for private companies. Given a long history of service user exclusion from data collection practices, we propose an alternative approach that is attentive to this history: the consent-forward paradigm. This paradigm embeds principles of affirmative consent in the design of digital mental health tools and services, strengthening trust through designing around individual choices and needs, and proactively protecting users from unexpected harm. In this perspective, we outline practical steps to implement this paradigm, toward ensuring that people searching for care have the safest experiences possible. | 翻訳日:2024-04-24 17:57:44 公開日:2024-04-22 |
# ニューラル演算子を用いたS行列位相の学習
Learning S-Matrix Phases with Neural Operators ( http://arxiv.org/abs/2404.14551v1 ) ライセンス: Link先を確認 | V. Niarchos, C. Papageorgakis, | (参考訳) フーリエ・ニューラル・オペレーター (FNO) を用いて、固定エネルギーにおける2ドルから2ドル程度の弾性散乱における振幅の弾性率と振幅の位相の関係について検討する。
従来のアプローチとは異なり、ユニタリティによって課される積分関係を使わず、FNOを訓練して有限部分波展開を持つ振幅の多くのサンプルから発見する。
真のサンプルでのみ訓練されると、FNOは無限の部分波展開を伴う振幅の(一様または曖昧な)位相を正確に予測する。
偽のサンプルもトレーニングすると、真の/偽の分類指標を生成することで、予測の品質を評価することができる。
本研究では,この指数の値が予測位相のユニタリ性制約違反と強く相関していることと,それが許容プロファイルと許容プロファイルの境界を規定する実例を考察する。
同時回帰分類タスクを伴い、NOのアンサンブルにおける統計の役割を強調する。
理論物理学における新しい方法論としてのアプローチのメリットと限界について論じる。
We use Fourier Neural Operators (FNOs) to study the relation between the modulus and phase of amplitudes in $2\to 2$ elastic scattering at fixed energies. Unlike previous approaches, we do not employ the integral relation imposed by unitarity, but instead train FNOs to discover it from many samples of amplitudes with finite partial wave expansions. When trained only on true samples, the FNO correctly predicts (unique or ambiguous) phases of amplitudes with infinite partial wave expansions. When also trained on false samples, it can rate the quality of its prediction by producing a true/false classifying index. We observe that the value of this index is strongly correlated with the violation of the unitarity constraint for the predicted phase, and present examples where it delineates the boundary between allowed and disallowed profiles of the modulus. Our application of FNOs is unconventional: it involves a simultaneous regression-classification task and emphasizes the role of statistics in ensembles of NOs. We comment on the merits and limitations of the approach and its potential as a new methodology in Theoretical Physics. | 翻訳日:2024-04-24 17:57:44 公開日:2024-04-22 |
# 有限メモリPOMDPへの表現学習のための多段階逆モデル一般化
Generalizing Multi-Step Inverse Models for Representation Learning to Finite-Memory POMDPs ( http://arxiv.org/abs/2404.14552v1 ) ライセンス: Link先を確認 | Lili Wu, Ben Evans, Riashat Islam, Raihan Seraj, Yonathan Efroni, Alex Lamb, | (参考訳) 無関係な情報を排除しながら関連する情報のみをエンコードする情報的あるいはエージェント中心の状態表現を明らかにすることは、強化学習アルゴリズムをスケールし、下流タスクに効率的に適用する上で重要な課題である。
以前の研究では、現在の観測が複雑な対象であるが、情報状態の復号化に十分である場合、高次元マルコフ環境においてこの問題を研究していた。
本研究では,過去観測の連続から状態が復号化できる場合,より困難な高次元の非マルコフ的設定においてエージェント中心状態を発見する問題を考察する。
一般化された逆モデルがこのタスクのエージェント中心の状態表現を学習するために適応できることを確立した。
この結果には、決定論的力学設定における漸近理論や、代替直観的アルゴリズムの反例が含まれる。
提案する代替案のエージェント中心状態発見能力に関する実証実験により,これらの知見を補完する。
特に注目すべきは、過去の行動の分析であり、ここではこれらが二重刃の剣になり得ることを示します。
Discovering an informative, or agent-centric, state representation that encodes only the relevant information while discarding the irrelevant is a key challenge towards scaling reinforcement learning algorithms and efficiently applying them to downstream tasks. Prior works studied this problem in high-dimensional Markovian environments, when the current observation may be a complex object but is sufficient to decode the informative state. In this work, we consider the problem of discovering the agent-centric state in the more challenging high-dimensional non-Markovian setting, when the state can be decoded from a sequence of past observations. We establish that generalized inverse models can be adapted for learning agent-centric state representation for this task. Our results include asymptotic theory in the deterministic dynamics setting as well as counter-examples for alternative intuitive algorithms. We complement these findings with a thorough empirical study on the agent-centric state discovery abilities of the different alternatives we put forward. Particularly notable is our analysis of past actions, where we show that these can be a double-edged sword: making the algorithms more successful when used correctly and causing dramatic failure when used incorrectly. | 翻訳日:2024-04-24 17:48:00 公開日:2024-04-22 |
# Adaptive Local Binary Pattern: アンサンブルに基づく機械学習アプローチを用いたCTスキャン画像の腎異常解析のための新しい特徴記述子
Adaptive Local Binary Pattern: A Novel Feature Descriptor for Enhanced Analysis of Kidney Abnormalities in CT Scan Images using ensemble based Machine Learning Approach ( http://arxiv.org/abs/2404.14560v1 ) ライセンス: Link先を確認 | Tahmim Hossain, Faisal Sayed, Solehin Islam, | (参考訳) 腎科医の不足と腎不全に対する公衆衛生上の懸念が高まり、腎臓の異常を自律的に検出できるAIシステムへの需要が高まった。
腎機能低下を特徴とする腎不全は、嚢胞、石、腫瘍などの要因によって引き起こされる。
慢性腎臓病は早期に発症し、進行期に達するまで治療を受けない症例が生じることがある。
ダッカの複数の病院で撮影された12,427枚の画像からなるデータセットは、嚢胞、腫瘍、石、正常の4つのグループに分類された。
提案手法は,Cropping,Resizing,CALHEを用いてCTスキャン画像の品質を向上させることを目的としており,続いてAdaptive Local Binary Pattern (A-LBP) 特徴抽出法を,最先端のローカルバイナリパターン (LBP) 法と比較した。
提案する特徴は,ランダムフォレスト,決定木,ナイーブベイズ,K-Nearest Neighbor,SVMなどの分類器に伝達される。
我々は,より堅牢なタスクモデルを得るために,ソフト投票によるアンサンブルモデルを探索した。
特徴記述子と5つの分類子(Random Forest, Decision Tree, Naive Bayes, K-Nearest Neighbor, Support Vector Machine)をソフト投票方式で組み合わせることで,99%以上の精度が得られた。
The shortage of nephrologists and the growing public health concern over renal failure have spurred the demand for AI systems capable of autonomously detecting kidney abnormalities. Renal failure, marked by a gradual decline in kidney function, can result from factors like cysts, stones, and tumors. Chronic kidney disease may go unnoticed initially, leading to untreated cases until they reach an advanced stage. The dataset, comprising 12,427 images from multiple hospitals in Dhaka, was categorized into four groups: cyst, tumor, stone, and normal. Our methodology aims to enhance CT scan image quality using Cropping, Resizing, and CALHE techniques, followed by feature extraction with our proposed Adaptive Local Binary Pattern (A-LBP) feature extraction method compared with the state-of-the-art local binary pattern (LBP) method. Our proposed features fed into classifiers such as Random Forest, Decision Tree, Naive Bayes, K-Nearest Neighbor, and SVM. We explored an ensemble model with soft voting to get a more robust model for our task. We got the highest of more than 99% in accuracy using our feature descriptor and ensembling five classifiers (Random Forest, Decision Tree, Naive Bayes, K-Nearest Neighbor, Support Vector Machine) with the soft voting method. | 翻訳日:2024-04-24 17:48:00 公開日:2024-04-22 |
# 「私は何者ですか?」
"Where am I?" Scene Retrieval with Language ( http://arxiv.org/abs/2404.14565v1 ) ライセンス: Link先を確認 | Jiaqi Chen, Daniel Barath, Iro Armeni, Marc Pollefeys, Hermann Blum, | (参考訳) AIを具現化した自然言語インタフェースは、私たちの日常生活でますます普及している。
これは、特定の場所でタスクを実行するようにエージェントに指示するユーザなど、エンボディエージェントとの言語ベースのインタラクションの機会をさらに開放する。
例えば、「ボウルを冷蔵庫の隣の食器棚に戻す」、または「赤い看板の下の交差点で私をミートする」といった具合である。
そのため、自然言語と環境の地図表現を相互作用させる方法が必要である。
この目的のために,3次元シーングラフで表現されたシーンを識別するために,オープンセットの自然言語クエリを使用できるかどうかを探索する。
我々は,この課題を「言語に基づくシーン検索」と定義し,「粗局化」と密接に関連している。
そこで本研究では,テキスト記述とシーングラフの結合埋め込みを学習し,マッチするかどうかを判定する“シーン検索”パイプラインであるText2SceneGraphMatcherを提案する。
コード、トレーニングされたモデル、データセットが公開されます。
Natural language interfaces to embodied AI are becoming more ubiquitous in our daily lives. This opens further opportunities for language-based interaction with embodied agents, such as a user instructing an agent to execute some task in a specific location. For example, "put the bowls back in the cupboard next to the fridge" or "meet me at the intersection under the red sign." As such, we need methods that interface between natural language and map representations of the environment. To this end, we explore the question of whether we can use an open-set natural language query to identify a scene represented by a 3D scene graph. We define this task as "language-based scene-retrieval" and it is closely related to "coarse-localization," but we are instead searching for a match from a collection of disjoint scenes and not necessarily a large-scale continuous map. Therefore, we present Text2SceneGraphMatcher, a "scene-retrieval" pipeline that learns joint embeddings between text descriptions and scene graphs to determine if they are matched. The code, trained models, and datasets will be made public. | 翻訳日:2024-04-24 17:48:00 公開日:2024-04-22 |
# WangLab at MEDIQA-M3G 2024: 大規模言語モデルを用いたマルチモーダル医療回答生成
WangLab at MEDIQA-M3G 2024: Multimodal Medical Answer Generation using Large Language Models ( http://arxiv.org/abs/2404.14567v1 ) ライセンス: Link先を確認 | Ronald Xie, Steven Palayew, Augustin Toma, Gary Bader, Bo Wang, | (参考訳) 本稿では,MEDIQA2024 Multilingual and Multimodal Medical Answer Generation (M3G) の課題について概説する。
課題の英語カテゴリにおける2つのスタンドアロンソリューションについて,第1にClaude 3 Opus APIへの2つの連続API呼び出し,第2に画像分類用CLIPのスタイルに画像解析ラベルを埋め込む訓練を行った。
これらの2つのソリューションは、それぞれ競技のリーダーボードで1位と2位を獲得し、次のベストソリューションを大幅に上回った。
さらに,競争後の実験から得られた知見についても論じる。
共有課題の難易度や医学的視覚的質問応答の難しさなどにより,これらの2つのソリューションの性能は改善の余地が大きいが,多段階LCMアプローチとCLIP画像分類アプローチは今後の研究の道筋として期待できるものである。
This paper outlines our submission to the MEDIQA2024 Multilingual and Multimodal Medical Answer Generation (M3G) shared task. We report results for two standalone solutions under the English category of the task, the first involving two consecutive API calls to the Claude 3 Opus API and the second involving training an image-disease label joint embedding in the style of CLIP for image classification. These two solutions scored 1st and 2nd place respectively on the competition leaderboard, substantially outperforming the next best solution. Additionally, we discuss insights gained from post-competition experiments. While the performance of these two solutions have significant room for improvement due to the difficulty of the shared task and the challenging nature of medical visual question answering in general, we identify the multi-stage LLM approach and the CLIP image classification approach as promising avenues for further investigation. | 翻訳日:2024-04-24 17:48:00 公開日:2024-04-22 |
# UVMap-ID: 制御可能でパーソナライズされたUVマップ生成モデル
UVMap-ID: A Controllable and Personalized UV Map Generative Model ( http://arxiv.org/abs/2404.14568v1 ) ライセンス: Link先を確認 | Weijie Wang, Jichao Zhang, Chang Liu, Xia Li, Xingqian Xu, Humphrey Shi, Nicu Sebe, Bruno Lepri, | (参考訳) 近年、拡散モデルは、提供されたテキストプロンプトに基づいて現実的な2次元画像の合成に大きく進歩している。
そこで研究者たちは、人間のテクスチャ(UV Maps)を生成するために、2Dテキストと画像の拡散モデルを3Dドメインに拡張した。
しかしながら、UVマップ生成モデルに関する重要な問題は解決されていない。例えば、任意の顔画像に対してパーソナライズされたテクスチャマップの生成方法や、生成されたテクスチャマップの質を定義し評価する方法である。
上記の問題を解決するために,制御可能でパーソナライズされたUVマップ生成モデルであるUVMap-IDを提案する。
従来の2Dの大規模学習法とは異なり、ID駆動のカスタマイズ生成を実現するために、顔融合モジュールと統合された事前訓練されたテキスト・画像拡散モデルを微調整することを提案する。
ファインタニング戦略をサポートするために,ラベル付きテキストとFace IDを用いた高品質なテクスチャを含む,小さな属性バランスのトレーニングデータセットを導入する。
さらに,テクスチャの複数の側面を評価するための指標も紹介する。
最後に, 定量的および定性的な解析により, 制御可能かつパーソナライズされたUVマップ生成における本手法の有効性を実証した。
コードはhttps://github.com/twowwj/UVMap-IDで公開されている。
Recently, diffusion models have made significant strides in synthesizing realistic 2D human images based on provided text prompts. Building upon this, researchers have extended 2D text-to-image diffusion models into the 3D domain for generating human textures (UV Maps). However, some important problems about UV Map Generative models are still not solved, i.e., how to generate personalized texture maps for any given face image, and how to define and evaluate the quality of these generated texture maps. To solve the above problems, we introduce a novel method, UVMap-ID, which is a controllable and personalized UV Map generative model. Unlike traditional large-scale training methods in 2D, we propose to fine-tune a pre-trained text-to-image diffusion model which is integrated with a face fusion module for achieving ID-driven customized generation. To support the finetuning strategy, we introduce a small-scale attribute-balanced training dataset, including high-quality textures with labeled text and Face ID. Additionally, we introduce some metrics to evaluate the multiple aspects of the textures. Finally, both quantitative and qualitative analyses demonstrate the effectiveness of our method in controllable and personalized UV Map generation. Code is publicly available via https://github.com/twowwj/UVMap-ID. | 翻訳日:2024-04-24 17:48:00 公開日:2024-04-22 |
# LIGOは標準量子限界以下の量子ノイズで動作する
LIGO operates with quantum noise below the Standard Quantum Limit ( http://arxiv.org/abs/2404.14569v1 ) ライセンス: Link先を確認 | Wenxuan Jia, Victoria Xu, Kevin Kuns, Masayuki Nakano, Lisa Barsotti, Matthew Evans, Nergis Mavalvala, Rich Abbott, Ibrahim Abouelfettouh, Rana Adhikari, Alena Ananyeva, Stephen Appert, Koji Arai, Naoki Aritomi, Stuart Aston, Matthew Ball, Stefan Ballmer, David Barker, Beverly Berger, Joseph Betzwieser, Dripta Bhattacharjee, Garilynn Billingsley, Nina Bode, Edgard Bonilla, Vladimir Bossilkov, Adam Branch, Aidan Brooks, Daniel Brown, John Bryant, Craig Cahillane, Huy-tuong Cao, Elenna Capote, Yanbei Chen, Filiberto Clara, Josh Collins, Camilla Compton, Robert Cottingham, Dennis Coyne, Ryan Crouch, Janos Csizmazia, Torrey Cullen, Louis Dartez, Nicholas Demos, Ezekiel Dohmen, Jenne Driggers, Sheila Dwyer, Anamaria Effler, Aldo Ejlli, Todd Etzel, Jon Feicht, Raymond Frey, William Frischhertz, Peter Fritschel, Valery Frolov, Paul Fulda, Michael Fyffe, Dhruva Ganapathy, Bubba Gateley, Joe Giaime, Dwayne Giardina, Jane Glanzer, Evan Goetz, Aaron Jones, Slawomir Gras, Corey Gray, Don Griffith, Hartmut Grote, Tyler Guidry, Evan Hall, Jonathan Hanks, Joe Hanson, Matthew Heintze, Adrian Helmling-cornell, Hsiang-yu Huang, Yuki Inoue, Alasdair James, Austin Jennings, Srinath Karat, Marie Kasprzack, Keita Kawabe, Nutsinee Kijbunchoo, Jeffrey Kissel, Antonios Kontos, Rahul Kumar, Michael Landry, Brian Lantz, Michael Laxen, Kyung-ha Lee, Madeline Lesovsky, Francisco Llamas, Marc Lormand, Hudsonalexander Loughlin, Ronaldas Macas, Myron Macinnis, Camille Makarem, Benjaminrobert Mannix, Georgia Mansell, Rodica Martin, Nyath Maxwell, Garrett Mccarrol, Richard Mccarthy, David Mcclelland, Scott Mccormick, Lee Mcculler, Terry Mcrae, Fernando Mera, Edmond Merilh, Fabian Meylahn, Richard Mittleman, Dan Moraru, Gerardo Moreno, Matthew Mould, Adam Mullavey, Timothy Nelson, Ansel Neunzert, Jason Oberling, Timothy Ohanlon, Charles Osthelder, David Ottaway, Harry Overmier, William Parker, Arnaud Pele, Huyen Pham, Marc Pirello, Volker Quetschke, Karla Ramirez, Jonathan Reyes, Jonathan Richardson, Mitchell Robinson, Jameson Rollins, Janeen Romie, Michael Ross, Travis Sadecki, Anthony Sanchez, Eduardo Sanchez, Luis Sanchez, Richard Savage, Dean Schaetzl, Mitchell Schiworski, Roman Schnabel, Robert Schofield, Eyal Schwartz, Danny Sellers, Thomas Shaffer, Ryan Short, Daniel Sigg, Bram Slagmolen, Siddharth Soni, Ling Sun, David Tanner, Michael Thomas, Patrick Thomas, Keith Thorne, Calum Torrie, Gary Traylor, Gabriele Vajente, Jordan Vanosky, Alberto Vecchio, Peter Veitch, Ajay Vibhute, Erik Vonreis, Jim Warner, Betsy Weaver, Rainer Weiss, Chris Whittle, Benno Willke, Christopher Wipf, Hiro Yamamoto, Haocun Yu, Liyuan Zhang, Michael Zucker, | (参考訳) LIGO(Laser Interferometer Gravitational-wave Observatory、レーザー干渉計重力波観測所)の検出器が行ったような、空間と時間の精密測定は、しばしば量子力学によって課される基本的な制限に直面している。
ハイゼンベルクの不確実性原理は、物体の位置と運動量の両方を正確に測定できないと規定し、標準量子限界(SQL)と呼ばれる明らかな制限を生じさせる。
重力波検出器のSQLの下の量子ノイズを減らし、光子を使って自由落下ミラーの位置を継続的に測定することは、何十年にもわたって研究の活発な領域であった。
ここでは,LIGO A+のアップグレードにより,検出器の量子ノイズを最大3dBまで低減し,ブロードバンド感度の向上を実現した。
Precision measurements of space and time, like those made by the detectors of the Laser Interferometer Gravitational-wave Observatory (LIGO), are often confronted with fundamental limitations imposed by quantum mechanics. The Heisenberg uncertainty principle dictates that the position and momentum of an object cannot both be precisely measured, giving rise to an apparent limitation called the Standard Quantum Limit (SQL). Reducing quantum noise below the SQL in gravitational-wave detectors, where photons are used to continuously measure the positions of freely falling mirrors, has been an active area of research for decades. Here we show how the LIGO A+ upgrade reduced the detectors' quantum noise below the SQL by up to 3 dB while achieving a broadband sensitivity improvement, more than two decades after this possibility was first presented. | 翻訳日:2024-04-24 17:48:00 公開日:2024-04-22 |
# 量子回路によるコロボフ関数の近似
Approximating Korobov Functions via Quantum Circuits ( http://arxiv.org/abs/2404.14570v1 ) ライセンス: Link先を確認 | Junaid Aftab, Haizhao Yang, | (参考訳) 量子コンピューティングは、科学計算の難しい問題に対処する可能性がある。
したがって、近似理論の観点から、計算問題の解法における量子回路の能力を分析することが重要である。
本稿では,コロボフ関数空間における$d$次元関数を近似できる量子回路を,X^{2, p}([0,1]^d)$で明示的に構築する。
我々は、量子信号処理アルゴリズムとユニタリ手法の線形結合を利用して、X^{2, p}([0,1]^d)$の関数を近似できるチェビシェフ多項式を実装した量子回路を構築する。
我々の研究は定量的近似境界を提供し、提案した量子回路の実装の複雑さを推定する。
X^{2, p}(\Omega)$ はソボレフ空間の部分空間であるので、$W^{k, p}([0,1]^d)$, for $\max_{1 \leq i \leq d} k_i = 2$ に対して、我々の研究は量子コンピュータ上での関数の大規模なクラスを実装する理論的基盤を開発する。
我々の研究は、量子コンピューティング技術と科学計算の融合に関する議論を加味し、量子アルゴリズムを用いてより効率的な計算問題の解き方を提案する。
Quantum computing has the potential to address challenging problems in scientific computation. Therefore, it is important to analyze the capability of quantum circuits in solving computational problems from the perspective of approximation theory. In this paper, we explicitly construct quantum circuits that can approximate $d$-dimensional functions in the Korobov function space, $X^{2, p}([0,1]^d)$. We achieve this goal by leveraging the quantum signal processing algorithm and the linear combinations of unitaries technique to construct quantum circuits that implement Chebyshev polynomials which can approximate functions in $X^{2, p}([0,1]^d)$. Our work provides quantitative approximation bounds and estimates the complexity of implementing the proposed quantum circuits. Since $X^{2, p}(\Omega)$ is a subspace of Sobolev spaces, $W^{k,p}([0,1]^d)$, for $\max_{1 \leq i \leq d} k_i = 2$, our works develops a theoretical foundation to implement a large class of functions on a quantum computer. Our research adds to discussions about merging quantum computing techniques with scientific computing, suggesting promising paths for using quantum algorithms to solve challenging computational problems more efficiently. | 翻訳日:2024-04-24 17:48:00 公開日:2024-04-22 |
# 分解に基づく進化的多目的最適化に関する調査研究 : その1-過去と未来
A Survey of Decomposition-Based Evolutionary Multi-Objective Optimization: Part I-Past and Future ( http://arxiv.org/abs/2404.14571v1 ) ライセンス: Link先を確認 | Ke Li, | (参考訳) 分解は、多目的最適化と多条件決定のための古典的な数学的プログラミングにおける主流のアプローチである。
しかし、進化的多目的最適化(EMO)の文脈では、分解(MOEA/D)に基づく多目的進化アルゴリズムが開発されるまで、適切に研究されなかった。
本シリーズでは, 分解型EMOの代表としてMOEA/Dを用いて, この領域の最新の開発状況を概観し, 研究状況の体系的, 包括的分析を行う。
第1部では,MOEA/Dの発展を起源から現在までの包括的調査を行う。
自己完結するために、初心者がMOEA/Dの動作メカニズムに素早く到達できるよう、ステップバイステップのチュートリアルから始めます。
次に, 重みベクトル設定, サブプロブレム定式化, 選択機構, 再生演算子など, 基本設計要素に従ってMOEA/Dの選定を概観する。
さらに、制約処理、動的で不確実な環境における最適化、計算に高価な目的関数、優先的インクルージョンなど、先進的なトピックを概説する。
最終段階では、今後の発展に向けての新たな方向性に光を当てています。
Decomposition has been the mainstream approach in classic mathematical programming for multi-objective optimization and multi-criterion decision-making. However, it was not properly studied in the context of evolutionary multi-objective optimization (EMO) until the development of multi-objective evolutionary algorithm based on decomposition (MOEA/D). In this two-part survey series, we use MOEA/D as the representative of decomposition-based EMO to review the up-to-date development in this area, and systematically and comprehensively analyze its research landscape. In the first part, we present a comprehensive survey of the development of MOEA/D from its origin to the current state-of-the-art approaches. In order to be self-contained, we start with a step-by-step tutorial that aims to help a novice quickly get onto the working mechanism of MOEA/D. Then, selected major developments of MOEA/D are reviewed according to its core design components including weight vector settings, subproblem formulations, selection mechanisms and reproduction operators. Besides, we also overview some selected advanced topics for constraint handling, optimization in dynamic and uncertain environments, computationally expensive objective functions, and preference incorporation. In the final part, we shed some light on emerging directions for future developments. | 翻訳日:2024-04-24 17:48:00 公開日:2024-04-22 |
# 予測ユーザのための予測ソフトウェアの設計:非専門家による予測の作成と理解
Designing forecasting software for forecast users: Empowering non-experts to create and understand their own forecasts ( http://arxiv.org/abs/2404.14575v1 ) ライセンス: Link先を確認 | Richard Stromer, Oskar Triebe, Chad Zanocco, Ram Rajagopal, | (参考訳) 予測は、ほぼすべてのドメインで意思決定を通知する。
予測は、稀にスキルを身につけるのが難しい専門家によって作られることが多い。
実際には、予測の専門知識がほとんどないドメインの専門家やマネージャによってしばしば使用される。
本研究は,非エキスパートユーザを支援する予測ソフトウェアの設計方法に焦点をあてる。
本研究では,ユーザが最先端の予測手法をどのように活用するか,ドメイン知識を組み込む方法,生成した予測に対する理解と信頼を構築する方法について検討する。
そこで我々は,ユーザからのフィードバックを用いて予測ソフトウェアプロトタイプを共同設計し,プロトタイプとのインタラクションを分析した。
その結果,(1)因果的理解と信頼を促進する安全な段階的アプローチ,(2)人間に優しいコンポーネントをサポートするホワイトボックスモデル,(3)ドメイン知識の取り入れ,という3つの重要事項が明らかになった。
本稿では,非専門家が予測ソフトウェアとどのように相互作用するかを考察し,よりアクセスしやすい予測ソフトウェアを設計する方法を推奨する。
Forecasts inform decision-making in nearly every domain. Forecasts are often produced by experts with rare or hard to acquire skills. In practice, forecasts are often used by domain experts and managers with little forecasting expertise. Our study focuses on how to design forecasting software that empowers non-expert users. We study how users can make use of state-of-the-art forecasting methods, embed their domain knowledge, and how they build understanding and trust towards generated forecasts. To do so, we co-designed a forecasting software prototype using feedback from users and then analyzed their interactions with our prototype. Our results identified three main considerations for non-expert users: (1) a safe stepwise approach facilitating causal understanding and trust; (2) a white box model supporting human-reasoning-friendly components; (3) the inclusion of domain knowledge. This paper contributes insights into how non-expert users interact with forecasting software and by recommending ways to design more accessible forecasting software. | 翻訳日:2024-04-24 17:48:00 公開日:2024-04-22 |
# スマートコントラクトの安全性のための不変性をデミスティフィケーションする
Demystifying Invariant Effectiveness for Securing Smart Contracts ( http://arxiv.org/abs/2404.14580v1 ) ライセンス: Link先を確認 | Zhiyang Chen, Ye Liu, Sidi Mohamed Beillahi, Yi Li, Fan Long, | (参考訳) セキュリティアタックに関連するスマートコントラクトトランザクションは、攻撃前の過去の良心的なトランザクションと異なる行動パターンを示すことが多い。
不変性を検証し、異常なトランザクションをオンザフライで停止するために、多くの実行時監視およびガード機構が提案されているが、使用される不変量の実証的有効性は、まだ明らかにされていない。
本稿では,上位監査会社やセキュリティ専門家が支持する,著名なプロトコルに展開する8つのカテゴリの23種類の不変量について検討した。
確立された不変量をテンプレートとして使用し,その履歴トランザクションデータに基づいて,所定のコントラクト用にカスタマイズされた新しい不変量を動的に生成するツールTrace2Invを開発した。
我々はTrace2Invを42のスマートコントラクトで評価し、Ethereumブロックチェーン上で27の異なるエクスプロイトを犠牲にしました。
以上の結果から,最も有効な不変ガード単独で,ガスオーバーヘッドを最小限に抑えた27種のうち18種をブロックできることが判明した。
我々の分析は、経験豊富な攻撃者がそれらをバイパスしようとする場合でも、ほとんどの不変量は有効であることを示している。
さらに、複数の不変ガードを組み合わせる可能性を検討した結果、27のベンチマークエクスプロイトのうち23がブロックされ、偽陽性率が0.32%まで低下した。
Trace2Invは、実用性と正確性の両方の観点から、スマートコントラクト不変のマイニングとトランザクションアタック検出に関する現在の最先端作業を上回っている。
Trace2Invは、主にトランザクション攻撃検出のために設計されたものではないが、報告されていない2つのエクスプロイトトランザクションが、同じ被害者契約に対して報告されたエクスプロイトトランザクションよりも早く発見された。
Smart contract transactions associated with security attacks often exhibit distinct behavioral patterns compared with historical benign transactions before the attacking events. While many runtime monitoring and guarding mechanisms have been proposed to validate invariants and stop anomalous transactions on the fly, the empirical effectiveness of the invariants used remains largely unexplored. In this paper, we studied 23 prevalent invariants of 8 categories, which are either deployed in high-profile protocols or endorsed by leading auditing firms and security experts. Using these well-established invariants as templates, we developed a tool Trace2Inv which dynamically generates new invariants customized for a given contract based on its historical transaction data. We evaluated Trace2Inv on 42 smart contracts that fell victim to 27 distinct exploits on the Ethereum blockchain. Our findings reveal that the most effective invariant guard alone can successfully block 18 of the 27 identified exploits with minimal gas overhead. Our analysis also shows that most of the invariants remain effective even when the experienced attackers attempt to bypass them. Additionally, we studied the possibility of combining multiple invariant guards, resulting in blocking up to 23 of the 27 benchmark exploits and achieving false positive rates as low as 0.32%. Trace2Inv outperforms current state-of-the-art works on smart contract invariant mining and transaction attack detection in terms of both practicality and accuracy. Though Trace2Inv is not primarily designed for transaction attack detection, it surprisingly found two previously unreported exploit transactions, earlier than any reported exploit transactions against the same victim contracts. | 翻訳日:2024-04-24 17:48:00 公開日:2024-04-22 |
# Adversarial AI-Art: 理解、生成、検出、ベンチマーク
The Adversarial AI-Art: Understanding, Generation, Detection, and Benchmarking ( http://arxiv.org/abs/2404.14581v1 ) ライセンス: Link先を確認 | Yuying Li, Zeyan Liu, Junyi Zhao, Liangqin Ren, Fengjun Li, Jiebo Luo, Bo Luo, | (参考訳) 生成AIモデルは、テキストプロンプトに基づいて高品質な画像を生成することができる。
生成された画像は、従来の光学写真装置が生成した画像と区別できないか、あるいは人間のアーティスト(実際の画像)が生成した画像と区別できないことが多い。
このような生成モデルの優れた性能は一般的には高く評価されているが、セキュリティ上の懸念が生じている。
例えば、そのような画像生成装置は詐欺や詐欺の計画を容易にし、誤情報を生成・拡散したり、製造されたアートワークを作るのに使える。
本稿では,AI生成画像(AI-art)を敵のシナリオで理解し,検出するための体系的な試みを提案する。
まず、一般的な4つのAI画像生成装置によって生成された実画像とその対応する人工画像のデータセットを収集し、共有する。
ARIAという名前のデータセットには、アートワーク(絵画)、ソーシャルメディアイメージ、ニュース写真、災害シーン、アニメ画像の5つのカテゴリに140万以上の画像が含まれている。
このデータセットは、敵AI技術に関する将来の研究を支援する基盤として使用できる。
次に,実世界のユーザが参照画像と区別できるかどうかを評価するために,ARIAデータセットを用いたユーザスタディを提案する。
ベンチマーク研究では、最先端のオープンソースおよび商用AI画像検出器が、ARIAデータセット内の画像を効果的に識別できるかどうかをさらに評価する。
最後に、ResNet-50分類器を提案し、その精度とARIAデータセット上での転送性を評価する。
Generative AI models can produce high-quality images based on text prompts. The generated images often appear indistinguishable from images generated by conventional optical photography devices or created by human artists (i.e., real images). While the outstanding performance of such generative models is generally well received, security concerns arise. For instance, such image generators could be used to facilitate fraud or scam schemes, generate and spread misinformation, or produce fabricated artworks. In this paper, we present a systematic attempt at understanding and detecting AI-generated images (AI-art) in adversarial scenarios. First, we collect and share a dataset of real images and their corresponding artificial counterparts generated by four popular AI image generators. The dataset, named ARIA, contains over 140K images in five categories: artworks (painting), social media images, news photos, disaster scenes, and anime pictures. This dataset can be used as a foundation to support future research on adversarial AI-art. Next, we present a user study that employs the ARIA dataset to evaluate if real-world users can distinguish with or without reference images. In a benchmarking study, we further evaluate if state-of-the-art open-source and commercial AI image detectors can effectively identify the images in the ARIA dataset. Finally, we present a ResNet-50 classifier and evaluate its accuracy and transferability on the ARIA dataset. | 翻訳日:2024-04-24 17:48:00 公開日:2024-04-22 |
# 雑音チャネルの分類結果の伝達における遅延歪みトレードオフ
Latency-Distortion Tradeoffs in Communicating Classification Results over Noisy Channels ( http://arxiv.org/abs/2404.14586v1 ) ライセンス: Link先を確認 | Noel Teku, Sudarshan Adiga, Ravi Tandon, | (参考訳) 本研究は,雑音チャネル上での分類器の決定を伝達する問題について考察する。
機械学習ベースのモデルは、様々な時間に敏感なアプリケーションで使われているため、信頼性とタイムリーな方法でこれらの決定を伝達することが重要である。
そこで本研究では,送信機における確率ベクトル(分類器の決定を表わす)をノイズチャネルを介して送信する必要があるシナリオについて検討する。
元の確率ベクトルとレシーバにおける再構成された確率ベクトルとの歪みをf偏差で測定すると、伝送遅延と歪みとのトレードオフについて検討する。
我々は、このトレードオフを均一、格子、スパース格子に基づく量子化技術を用いて完全に分析し、許容されるソース歪みの条件が与えられた各手法のビット予算を第一に特徴付けることによって確率ベクトルを符号化する。
これらの境界は有限ブロック長の文献の結果と組み合わせて、量子化歪みとデコードエラー確率(すなわちチャネル効果)による歪みが帰納的な伝送遅延に与える影響を分析するためのフレームワークを提供する。
以上の結果から,ソース歪み(f-分数による確率ベクトルの歪み)とその後のチャネル符号化/復号化パラメータとの間には興味深い相互作用があることが示され,これらのパラメータの結合設計が遅延歪みのトレードオフをナビゲートするために重要であることが示唆された。
本稿では,異なるパラメータ(例えば,クラス数,SNR,ソース歪み)が遅延歪みのトレードオフに与える影響について検討し,AWGNおよびフェージングチャネルの実験を行った。
この結果から,スパース格子に基づく量子化は,様々なレジームにおける遅延最小化や,スパースな高次元確率ベクトル(高いクラス数)に最も有効であることが示唆された。
In this work, the problem of communicating decisions of a classifier over a noisy channel is considered. With machine learning based models being used in variety of time-sensitive applications, transmission of these decisions in a reliable and timely manner is of significant importance. To this end, we study the scenario where a probability vector (representing the decisions of a classifier) at the transmitter, needs to be transmitted over a noisy channel. Assuming that the distortion between the original probability vector and the reconstructed one at the receiver is measured via f-divergence, we study the trade-off between transmission latency and the distortion. We completely analyze this trade-off using uniform, lattice, and sparse lattice-based quantization techniques to encode the probability vector by first characterizing bit budgets for each technique given a requirement on the allowed source distortion. These bounds are then combined with results from finite-blocklength literature to provide a framework for analyzing the effects of both quantization distortion and distortion due to decoding error probability (i.e., channel effects) on the incurred transmission latency. Our results show that there is an interesting interplay between source distortion (i.e., distortion for the probability vector measured via f-divergence) and the subsequent channel encoding/decoding parameters; and indicate that a joint design of these parameters is crucial to navigate the latency-distortion tradeoff. We study the impact of changing different parameters (e.g. number of classes, SNR, source distortion) on the latency-distortion tradeoff and perform experiments on AWGN and fading channels. Our results indicate that sparse lattice-based quantization is the most effective at minimizing latency across various regimes and for sparse, high-dimensional probability vectors (i.e., high number of classes). | 翻訳日:2024-04-24 17:48:00 公開日:2024-04-22 |
# クラスインクリメンタル学習のためのブレインインスパイアされた連続学習-ロバスト特徴蒸留と再統合
Brain-Inspired Continual Learning-Robust Feature Distillation and Re-Consolidation for Class Incremental Learning ( http://arxiv.org/abs/2404.14588v1 ) ライセンス: Link先を確認 | Hikmat Khan, Nidhal Carla Bouaynaya, Ghulam Rasool, | (参考訳) 人工知能(AI)と神経科学は、人間のような知識を保持できるAIシステムの開発を形作る神経科学の進歩と共に、豊富な歴史を共有している。
本稿では, ニューロサイエンスの知見と, 対向学習と連続学習の既存研究を活用し, 特徴蒸留と再統合という2つの基本概念からなる新しい枠組みを導入する。
我々のフレームワークであるRobust Rehearsalは、頑健な特徴を蒸留しリハーサルすることによって、継続学習(CL)システムに固有の破滅的な忘れを解くという課題に対処する。
ロバスト・リハーサル(Robust Rehearsal)は、哺乳類の脳の記憶統合プロセスに触発され、学習中に蒸留された経験のリハーサルをエミュレートすることを目的としている。
さらに、メモリ再統合を模倣し、新しいエクスペリエンスが過去のエクスペリエンスの統合に影響を与え、忘れを軽減します。
CIFAR10、CIFAR100、実世界のヘリコプター姿勢データセットで実施された大規模な実験は、ロバスト・リハーサルで訓練されたCLモデルのベースライン法と比較して優れた性能を示した。
さらに, モデル性能における特徴学習の重要な役割を明らかにするために, 異なる最適化学習目標(連帯, 連続, 対向学習)について検討した。
このことは、破滅的な忘れを緩和するCL-robustサンプルのリハーサルの重要性を浮き彫りにする。
結論として、CLアプローチを神経科学の洞察と整合させることは、破滅的な忘れ方、より堅牢で人間らしいAIシステムへの道を開くという課題に対する、有望な解決策を提供する。
Artificial intelligence (AI) and neuroscience share a rich history, with advancements in neuroscience shaping the development of AI systems capable of human-like knowledge retention. Leveraging insights from neuroscience and existing research in adversarial and continual learning, we introduce a novel framework comprising two core concepts: feature distillation and re-consolidation. Our framework, named Robust Rehearsal, addresses the challenge of catastrophic forgetting inherent in continual learning (CL) systems by distilling and rehearsing robust features. Inspired by the mammalian brain's memory consolidation process, Robust Rehearsal aims to emulate the rehearsal of distilled experiences during learning tasks. Additionally, it mimics memory re-consolidation, where new experiences influence the integration of past experiences to mitigate forgetting. Extensive experiments conducted on CIFAR10, CIFAR100, and real-world helicopter attitude datasets showcase the superior performance of CL models trained with Robust Rehearsal compared to baseline methods. Furthermore, examining different optimization training objectives-joint, continual, and adversarial learning-we highlight the crucial role of feature learning in model performance. This underscores the significance of rehearsing CL-robust samples in mitigating catastrophic forgetting. In conclusion, aligning CL approaches with neuroscience insights offers promising solutions to the challenge of catastrophic forgetting, paving the way for more robust and human-like AI systems. | 翻訳日:2024-04-24 17:48:00 公開日:2024-04-22 |
# 生成検索の先駆け:同時復号化による自己回帰生成の誘導
Planning Ahead in Generative Retrieval: Guiding Autoregressive Generation through Simultaneous Decoding ( http://arxiv.org/abs/2404.14600v1 ) ライセンス: Link先を確認 | Hansi Zeng, Chen Luo, Hamed Zamani, | (参考訳) 本稿では、同時復号化による生成検索モデルにおける文書識別子の自動回帰生成を導く新しい最適化および復号化手法であるPAGを提案する。
この目的のために、PAGは各ドキュメントに対してセットベースかつシーケンシャルな識別子を構築する。
情報検索における単語のバック・オブ・ワードの仮定に触発されたセットベース識別子は、語彙トークン上に構築される。
一方、シーケンシャル識別子は、ドキュメントの関連性に基づく表現を定量化することで得られる。
MSMARCO と TREC Deep Learning Track データの大規模な実験により、PAG はクエリレイテンシの22倍の速度で、最先端の生成検索モデルよりも大きなマージン(例えば、MS MARCO の15.6% MRR の改善)を達成していることが明らかになった。
This paper introduces PAG-a novel optimization and decoding approach that guides autoregressive generation of document identifiers in generative retrieval models through simultaneous decoding. To this aim, PAG constructs a set-based and sequential identifier for each document. Motivated by the bag-of-words assumption in information retrieval, the set-based identifier is built on lexical tokens. The sequential identifier, on the other hand, is obtained via quantizing relevance-based representations of documents. Extensive experiments on MSMARCO and TREC Deep Learning Track data reveal that PAG outperforms the state-of-the-art generative retrieval model by a large margin (e.g., 15.6% MRR improvements on MS MARCO), while achieving 22x speed up in terms of query latency. | 翻訳日:2024-04-24 17:48:00 公開日:2024-04-22 |
# 高精度運動系に対する適応ベイズ最適化
Adaptive Bayesian Optimization for High-Precision Motion Systems ( http://arxiv.org/abs/2404.14602v1 ) ライセンス: Link先を確認 | Christopher König, Raamadaas Krishnadas, Efe C. Balta, Alisa Rupenyan, | (参考訳) コントローラチューニングとパラメータ最適化は、閉ループシステムの性能を改善するためにシステム設計において不可欠である。
ベイズ最適化は、効率的なモデルフリーコントローラチューニングと適応法として確立されている。
しかし、ベイジアン最適化法は計算コストが高く、したがってリアルタイム臨界シナリオでの使用は困難である。
そこで本研究では,低レベル制御パラメータをオンラインチューニングすることで,適応制御のためのリアルタイム純粋データ駆動型モデルフリーアプローチを提案する。
我々は,安全かつサンプル効率のよいベイズ最適化アルゴリズムであるGoOSEに基づいて,性能と安定性の基準を扱う。
計算効率と最適化ステップの並列化のために、複数の計算およびアルゴリズムの修正を導入する。
さらに,半導体産業で利用される実精度運動システムにおけるアルゴリズムの性能を,ペイロードと基準段差を変更し,補間された制約付き最適化ベースラインアプローチと比較することにより評価する。
Controller tuning and parameter optimization are crucial in system design to improve closed-loop system performance. Bayesian optimization has been established as an efficient model-free controller tuning and adaptation method. However, Bayesian optimization methods are computationally expensive and therefore difficult to use in real-time critical scenarios. In this work, we propose a real-time purely data-driven, model-free approach for adaptive control, by online tuning low-level controller parameters. We base our algorithm on GoOSE, an algorithm for safe and sample-efficient Bayesian optimization, for handling performance and stability criteria. We introduce multiple computational and algorithmic modifications for computational efficiency and parallelization of optimization steps. We further evaluate the algorithm's performance on a real precision-motion system utilized in semiconductor industry applications by modifying the payload and reference stepsize and comparing it to an interpolated constrained optimization-based baseline approach. | 翻訳日:2024-04-24 17:48:00 公開日:2024-04-22 |
# Describe-then-Reason: Visual Comprehension Training によるマルチモーダル数学的推論の改善
Describe-then-Reason: Improving Multimodal Mathematical Reasoning through Visual Comprehension Training ( http://arxiv.org/abs/2404.14604v1 ) ライセンス: Link先を確認 | Mengzhao Jia, Zhihan Zhang, Wenhao Yu, Fangkai Jiao, Meng Jiang, | (参考訳) オープンソースのマルチモーダル大言語モデル(MLLM)は、テキスト入力や視覚入力を含む様々なタスクに優れていますが、GPT-4V(ision)やGemini-Proといったプロプライエタリなモデルに遅れを取っている複雑なマルチモーダル数学的推論に苦戦しています。
中間段階(すなわち理性)による微調整は、いくつかの数学的推論スキルを引き出すが、結果として得られるモデルは、まだ視覚中心の監督が不十分なため、視覚的理解に乏しく、数学の数字の正確な解釈に繋がる。
この問題に対処するために,2段階のトレーニングパイプラインVCARを提案する。
まず、視覚的記述生成タスクを通じてMLLMの視覚的理解能力を向上し、次に、説明の助けを借りて合理性を生成するための別の訓練ステップを行う。
2つの人気のあるベンチマーク実験の結果、VCARは、特に高い視覚的要求のある問題において、合理的な監督にのみ依存するベースライン手法を大幅に上回っていることが示された。
Open-source multimodal large language models (MLLMs) excel in various tasks involving textual and visual inputs but still struggle with complex multimodal mathematical reasoning, lagging behind proprietary models like GPT-4V(ision) and Gemini-Pro. Although fine-tuning with intermediate steps (i.e., rationales) elicits some mathematical reasoning skills, the resulting models still fall short in visual comprehension due to inadequate visual-centric supervision, which leads to inaccurate interpretation of math figures. To address this issue, we propose a two-step training pipeline VCAR, which emphasizes the Visual Comprehension training in Addition to mathematical Reasoning learning. It first improves the visual comprehension ability of MLLMs through the visual description generation task, followed by another training step on generating rationales with the assistance of descriptions. Experimental results on two popular benchmarks demonstrate that VCAR substantially outperforms baseline methods solely relying on rationale supervision, especially on problems with high visual demands. | 翻訳日:2024-04-24 15:50:59 公開日:2024-04-22 |
# 顔表情とマスク装着分類のためのクロスタスクマルチブランチ視覚変換器
Cross-Task Multi-Branch Vision Transformer for Facial Expression and Mask Wearing Classification ( http://arxiv.org/abs/2404.14606v1 ) ライセンス: Link先を確認 | Armando Zhu, Keqin Li, Tong Wu, Peng Zhao, Wenjing Zhou, Bo Hong, | (参考訳) マスクが新しい文化規範となるにつれ、マスクを考慮した表情認識(FER)が大きな課題となっている。
本稿では,顔表情認識のための統合型マルチブランチ・ビジョン・トランスフォーマと,分類タスクを装着したマスクを提案する。
提案手法は,マルチスケールな特徴表現を得るデュアルブランチアーキテクチャを用いて,両タスクの共通特徴を抽出する。
さらに、クロスアテンションモジュールを用いて情報を交換しながら、各タスクのトークンを別々のブランチで処理するクロスタスク融合フェーズを提案する。
提案するフレームワークは, 単純かつ効果的なクロスタスク融合フェーズにより, 両方のタスクに個別のネットワークを使用する場合と比較して, 全体的な複雑性を低減させる。
大規模な実験により,提案手法は顔の表情認識と顔のマスマスキングの両面において,従来手法と同等以上の性能を示した。
With wearing masks becoming a new cultural norm, facial expression recognition (FER) while taking masks into account has become a significant challenge. In this paper, we propose a unified multi-branch vision transformer for facial expression recognition and mask wearing classification tasks. Our approach extracts shared features for both tasks using a dual-branch architecture that obtains multi-scale feature representations. Furthermore, we propose a cross-task fusion phase that processes tokens for each task with separate branches, while exchanging information using a cross attention module. Our proposed framework reduces the overall complexity compared with using separate networks for both tasks by the simple yet effective cross-task fusion phase. Extensive experiments demonstrate that our proposed model performs better than or on par with different state-of-the-art methods on both facial expression recognition and facial mask wearing classification task. | 翻訳日:2024-04-24 15:50:59 公開日:2024-04-22 |
# Q-Tuning:Q-Tuningによる一生学習のためのキューベースのプロンプトチューニング
Q-Tuning: Queue-based Prompt Tuning for Lifelong Few-shot Language Learning ( http://arxiv.org/abs/2404.14607v1 ) ライセンス: Link先を確認 | Yanhui Guo, Shaoyuan Xu, Jinmiao Fu, Jia Liu, Chaosheng Dong, Bryan Wang, | (参考訳) 本稿では,事前学習した言語モデルの生涯学習を可能にする,連続的なプロンプトチューニングのための新しいアプローチである「textbf{Q-tuning}」を紹介する。
新しいタスクを学ぶとき、Q-tuningはタスク固有のプロンプトをトレーニングし、古いタスクからのプロンプトからなるプロンプトキューに追加する。
従来のタスクの知識をより多く伝達するために,学習可能な低ランク行列を用いてキュー内の前のプロンプトを反映する適応的知識集約手法を設計する。
一度プロンプトキューが最大容量に達すると、PCAベースのエビクションルールを利用してキューのサイズを減らし、古いタスクの基本的な知識を保ちながら、新しく訓練されたプロンプトを追加することができる。
また,情報理論に基づくグローバル共有プレフィックスプロンプトとメモリ保持規則化を提案する。
大規模な実験により,本手法は連続的なプロンプトチューニングベンチマークにおいて,最先端の手法よりも優れていることが示された。
さらに,本手法は,トレーニングや推論に一定の複雑さを要しながら,線形に成長するタスクシーケンスの生涯学習を可能にする。
This paper introduces \textbf{Q-tuning}, a novel approach for continual prompt tuning that enables the lifelong learning of a pre-trained language model. When learning a new task, Q-tuning trains a task-specific prompt by adding it to a prompt queue consisting of the prompts from older tasks. To better transfer the knowledge of old tasks, we design an adaptive knowledge aggregation technique that reweighs previous prompts in the queue with a learnable low-rank matrix. Once the prompt queue reaches its maximum capacity, we leverage a PCA-based eviction rule to reduce the queue's size, allowing the newly trained prompt to be added while preserving the primary knowledge of old tasks. In order to mitigate the accumulation of information loss caused by the eviction, we additionally propose a globally shared prefix prompt and a memory retention regularization based on information theory. Extensive experiments demonstrate that our approach outperforms the state-of-the-art methods substantially on continual prompt tuning benchmarks. Moreover, our approach enables lifelong learning on linearly growing task sequences while requiring constant complexity for training and inference. | 翻訳日:2024-04-24 15:50:59 公開日:2024-04-22 |
# フェルミオンテンソルネットワーク法
Fermionic tensor network methods ( http://arxiv.org/abs/2404.14611v1 ) ライセンス: Link先を確認 | Quinten Mortier, Lukas Devos, Lander Burgelman, Bram Vanhecke, Nick Bultinck, Frank Verstraete, Jutho Haegeman, Laurens Vanderstraeten, | (参考訳) 等級ヒルベルト空間を用いて、任意のグラフ上のテンソルネットワークにフェルミオン統計学を自然に組み込む方法を示す。
この形式は、ジョルダン・ウィグナー変換や2次元テンソルネットワークにおけるゲート交換による脚交差の明示的な追跡を回避し、フェルミオン格子系に対するテンソルネットワーク手法を局所的に使用することができる。
グレード化されたヒルベルト空間は、テンソルネットワーク内の他の内部および格子対称性と容易に統合することができ、既存のテンソルネットワークソフトウェアパッケージへの小さな拡張しか必要としない。
本稿では,行列積状態と凸対状態に対する共通アルゴリズムのフェルミオンバージョンをレビューし,ベンチマークする。
We show how fermionic statistics can be naturally incorporated in tensor networks on arbitrary graphs through the use of graded Hilbert spaces. This formalism allows to use tensor network methods for fermionic lattice systems in a local way, avoiding the need of a Jordan-Wigner transformation or the explicit tracking of leg crossings by swap gates in 2D tensor networks. The graded Hilbert spaces can be readily integrated with other internal and lattice symmetries in tensor networks, and only require minor extensions to an existing tensor network software package. We review and benchmark the fermionic versions of common algorithms for matrix product states and projected entangled-pair states. | 翻訳日:2024-04-24 15:50:59 公開日:2024-04-22 |
# ハイブリッドLLM: コスト効率と品質に配慮したクエリルーティング
Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing ( http://arxiv.org/abs/2404.14618v1 ) ライセンス: Link先を確認 | Dujian Ding, Ankur Mallick, Chi Wang, Robert Sim, Subhabrata Mukherjee, Victor Ruhle, Laks V. S. Lakshmanan, Ahmed Hassan Awadallah, | (参考訳) 大規模な言語モデル(LLM)は、ほとんどのNLPタスクで優れていますが、サイズによってデプロイに高価なクラウドサーバも必要です。
そこで本研究では,コスト削減と品質維持のために,それぞれの強みを組み合わせたハイブリッド推論手法を提案する。
提案手法では,予測されたクエリの難易度と要求される品質レベルに基づいて,クエリを小型ないし大規模モデルに割り当てるルータを用いる。
要求される品質レベルをテスト時に動的に調整して,シナリオ要件に従ってコストと品質をシームレスに交換することが可能です。
実験では、反応の品質が低下することなく、最大40%大きなモデルへの呼び出しを削減できます。
Large language models (LLMs) excel in most NLP tasks but also require expensive cloud servers for deployment due to their size, while smaller models that can be deployed on lower cost (e.g., edge) devices, tend to lag behind in terms of response quality. Therefore in this work we propose a hybrid inference approach which combines their respective strengths to save cost and maintain quality. Our approach uses a router that assigns queries to the small or large model based on the predicted query difficulty and the desired quality level. The desired quality level can be tuned dynamically at test time to seamlessly trade quality for cost as per the scenario requirements. In experiments our approach allows us to make up to 40% fewer calls to the large model, with no drop in response quality. | 翻訳日:2024-04-24 15:50:59 公開日:2024-04-22 |
# OpenELM: オープンソースのトレーニングと推論フレームワークを備えた効率的な言語モデルファミリー
OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework ( http://arxiv.org/abs/2404.14619v1 ) ライセンス: Link先を確認 | Sachin Mehta, Mohammad Hossein Sekhavat, Qingqing Cao, Maxwell Horton, Yanzi Jin, Chenfan Sun, Iman Mirzadeh, Mahyar Najibi, Dmitry Belenko, Peter Zatloukal, Mohammad Rastegari, | (参考訳) 大規模言語モデルの再現性と透明性は、オープンな研究を推進し、結果の信頼性を確保し、データやモデルバイアスの調査を可能にするとともに、潜在的なリスクの可能性を秘めている。
この目的のために、我々は最先端のオープン言語モデルであるOpenELMをリリースする。
OpenELMは、レイヤワイズスケーリング戦略を使用して、トランスフォーマーモデルの各レイヤ内のパラメータを効率的に割り当て、精度を向上する。
例えば、パラメータ予算が約10億のOpenELMでは、OLMoに比べて精度が2.36%向上し、事前トレーニングトークンが2ドル以上必要となる。
モデルウェイトと推論コードのみを提供する以前のプラクティスと異なり、プライベートデータセットで事前トレーニングされる私たちのリリースには、トレーニングログ、複数のチェックポイント、事前トレーニング設定を含む、公開データセット上での言語モデルのトレーニングと評価のための完全なフレームワークが含まれています。
また、モデルをMLXライブラリに変換して、Appleデバイス上での推論と微調整を行うコードもリリースしています。
この包括的リリースは、オープンリサーチコミュニティの強化と強化を目的としており、将来のオープンリサーチへの取り組みの道を開くことを目的としている。
トレーニング済みのモデルウェイトとトレーニングレシピとともに、ソースコードは \url{https://github.com/apple/corenet} で公開されています。
さらに、モデルモデルはHuggingFace at: \url{https://huggingface.co/apple/OpenELM} で見ることができる。
The reproducibility and transparency of large language models are crucial for advancing open research, ensuring the trustworthiness of results, and enabling investigations into data and model biases, as well as potential risks. To this end, we release OpenELM, a state-of-the-art open language model. OpenELM uses a layer-wise scaling strategy to efficiently allocate parameters within each layer of the transformer model, leading to enhanced accuracy. For example, with a parameter budget of approximately one billion parameters, OpenELM exhibits a 2.36% improvement in accuracy compared to OLMo while requiring $2\times$ fewer pre-training tokens. Diverging from prior practices that only provide model weights and inference code, and pre-train on private datasets, our release includes the complete framework for training and evaluation of the language model on publicly available datasets, including training logs, multiple checkpoints, and pre-training configurations. We also release code to convert models to MLX library for inference and fine-tuning on Apple devices. This comprehensive release aims to empower and strengthen the open research community, paving the way for future open research endeavors. Our source code along with pre-trained model weights and training recipes is available at \url{https://github.com/apple/corenet}. Additionally, \model models can be found on HuggingFace at: \url{https://huggingface.co/apple/OpenELM}. | 翻訳日:2024-04-24 15:50:59 公開日:2024-04-22 |
# 不公平な動的価格に対するフェアネスインセンティブ
Fairness Incentives in Response to Unfair Dynamic Pricing ( http://arxiv.org/abs/2404.14620v1 ) ライセンス: Link先を確認 | Jesse Thibodeau, Hadi Nekoei, Afaf Taïk, Janarthanan Rajendran, Golnoosh Farnadi, | (参考訳) 収益を最大化する企業による動的価格設定の使用は、所定の価格戦略に対する消費者グループの需要反応の相違によって測定される需要公正性の懸念を引き起こす。
特に、ダイナミックな価格設定によって、買い手の分布は、社会的にフェアな表現が望ましい市場において問題となる、下位の人口の分布を反映しない可能性がある。
これを解決するために、政策立案者は課税や補助金などのツールを活用して、彼らの社会的目的に依存した政策機構を適用することができる。
本稿では,このような介入戦略を支援するAI手法の可能性を検討する。
この目的のために、我々は、企業に対して公正な価格設定の行動の導入を奨励するための法人課税スケジュールを作成するためのダイナミックなソーシャルプランナー(SP)を導入し、また、収集した税予算を用いて、過小評価グループ間の消費を補助する、基本的なシミュレート経済を設計する。
様々な政策シナリオを網羅するため,我々は,社会プランナーの学習問題を多武器の盗賊,文脈の盗賊,そして最後に全強化学習(RL)問題として定式化し,各事例の福祉効果を評価する。
発生頻度の低いブラケットに適用される有意義な税率を維持することの難しさを軽減するため,我々はFairReplayBufferを紹介した。
その結果、学習税・再分配政策の展開により、社会福祉は公正非依存ベースラインを改良し、多国間・文脈的バンディット設定において分析的に最適な公正対応ベースラインに近づき、フルRL設定で13.19%超えていることがわかった。
The use of dynamic pricing by profit-maximizing firms gives rise to demand fairness concerns, measured by discrepancies in consumer groups' demand responses to a given pricing strategy. Notably, dynamic pricing may result in buyer distributions unreflective of those of the underlying population, which can be problematic in markets where fair representation is socially desirable. To address this, policy makers might leverage tools such as taxation and subsidy to adapt policy mechanisms dependent upon their social objective. In this paper, we explore the potential for AI methods to assist such intervention strategies. To this end, we design a basic simulated economy, wherein we introduce a dynamic social planner (SP) to generate corporate taxation schedules geared to incentivizing firms towards adopting fair pricing behaviours, and to use the collected tax budget to subsidize consumption among underrepresented groups. To cover a range of possible policy scenarios, we formulate our social planner's learning problem as a multi-armed bandit, a contextual bandit and finally as a full reinforcement learning (RL) problem, evaluating welfare outcomes from each case. To alleviate the difficulty in retaining meaningful tax rates that apply to less frequently occurring brackets, we introduce FairReplayBuffer, which ensures that our RL agent samples experiences uniformly across a discretized fairness space. We find that, upon deploying a learned tax and redistribution policy, social welfare improves on that of the fairness-agnostic baseline, and approaches that of the analytically optimal fairness-aware baseline for the multi-armed and contextual bandit settings, and surpassing it by 13.19% in the full RL setting. | 翻訳日:2024-04-24 15:50:59 公開日:2024-04-22 |
# 多様性と知識蒸留を考慮したマルチモルフォロジー制御系の実現に向けて
Towards Multi-Morphology Controllers with Diversity and Knowledge Distillation ( http://arxiv.org/abs/2404.14625v1 ) ライセンス: Link先を確認 | Alican Mertan, Nick Cheney, | (参考訳) 複数の形態でうまく機能するコントローラを見つけることは、大規模ロボット工学にとって重要なマイルストーンであり、機械学習の他の分野の基礎モデルによる最近の進歩と一致している。
しかし、複数の形態を制御できる単一コントローラを学習する上での課題は、現場において「1つのロボット1タスク」というパラダイムを優位に立たせている。
これらの課題を軽減するために,(1)MAP-Elitesのような品質多様性アルゴリズムを活用して,多数の単一タスク/単一形態学の教師コントローラのデータセットを作成し,(2)教師コントローラの感覚行動パターンを教師学習を通じて模倣することにより,多様なコントローラを単一の多形態学コントローラに蒸留する。
蒸留された制御装置は、教師/形態学の数とうまくスケールし、創発的な特性を示す。
ゼロショットで見えなくなる形態を一般化し、形態的摂動に対する頑健さと即時損傷回復を提供する。
最後に、蒸留されたコントローラは、教師のコントローラとは独立している -- 教師の知識をあらゆるコントローラモデルに抽出することができ、我々のアプローチはアーキテクチャの改善と相乗的になり、教師のコントローラのための既存のトレーニングアルゴリズムがもたらされる。
Finding controllers that perform well across multiple morphologies is an important milestone for large-scale robotics, in line with recent advances via foundation models in other areas of machine learning. However, the challenges of learning a single controller to control multiple morphologies make the `one robot one task' paradigm dominant in the field. To alleviate these challenges, we present a pipeline that: (1) leverages Quality Diversity algorithms like MAP-Elites to create a dataset of many single-task/single-morphology teacher controllers, then (2) distills those diverse controllers into a single multi-morphology controller that performs well across many different body plans by mimicking the sensory-action patterns of the teacher controllers via supervised learning. The distilled controller scales well with the number of teachers/morphologies and shows emergent properties. It generalizes to unseen morphologies in a zero-shot manner, providing robustness to morphological perturbations and instant damage recovery. Lastly, the distilled controller is also independent of the teacher controllers -- we can distill the teacher's knowledge into any controller model, making our approach synergistic with architectural improvements and existing training algorithms for teacher controllers. | 翻訳日:2024-04-24 15:50:59 公開日:2024-04-22 |
# エキスパートルータ:プロンプト分類による効率的な言語モデル推論のオーケストレーション
Expert Router: Orchestrating Efficient Language Model Inference through Prompt Classification ( http://arxiv.org/abs/2404.15153v1 ) ライセンス: Link先を確認 | Josef Pichlmeier, Philipp Ross, Andre Luckow, | (参考訳) 大規模言語モデル(LLM)は、多種多様なタスクの汎用性と有用性のために、科学的および工業的領域で広く採用されている。
それでも、これらのモデルを最適なスループットとレイテンシで大規模にデプロイおよび提供することは、大きな課題である。
この制限に対処するため,複数のエキスパートモデルを効率的に編成するシステムであるExpert Routerを導入し,スケーラビリティを向上する。
Expert Routerは、集中ルーティングゲートウェイを備えた並列推論システムで、クラスタリングメソッドを使用して受信リクエストを分散する。
このアプローチは、受信リクエストを利用可能なLLM間で効果的に分割し、全体的なスループットを最大化する。
当社の広範な評価では,最大1,000人の同時ユーザを対象としており,ユーザとインフラストラクチャの観点からのシステムの挙動に関する包括的な洞察を提供しています。
その結果、高負荷シナリオの処理と高いスループット率、特に多くの同時使用者において、Expert Routerの有効性が示された。
Large Language Models (LLMs) have experienced widespread adoption across scientific and industrial domains due to their versatility and utility for diverse tasks. Nevertheless, deploying and serving these models at scale with optimal throughput and latency remains a significant challenge, primarily because of the high computational and memory demands associated with LLMs. To tackle this limitation, we introduce Expert Router, a system designed to orchestrate multiple expert models efficiently, thereby enhancing scalability. Expert Router is a parallel inference system with a central routing gateway that distributes incoming requests using a clustering method. This approach effectively partitions incoming requests among available LLMs, maximizing overall throughput. Our extensive evaluations encompassed up to 1,000 concurrent users, providing comprehensive insights into the system's behavior from user and infrastructure perspectives. The results demonstrate Expert Router's effectiveness in handling high-load scenarios and achieving higher throughput rates, particularly under many concurrent users. | 翻訳日:2024-04-24 13:22:34 公開日:2024-04-22 |
# ピンクの象を考えてはいけません。
Do not think pink elephant! ( http://arxiv.org/abs/2404.15154v1 ) ライセンス: Link先を確認 | Kyomin Hwang, Suyoung Kim, JunHoo Lee, Nojun Kwak, | (参考訳) 大規模モデル(LM)は、人間の知性に似た一般AIの可能性への期待を高めている。
本稿では、近年の安定拡散やDALL-E3のような大型モデルも、人間の知能の脆弱性、すなわち「ホワイトベア現象」を共有していることを示す。
本研究では,ホワイトベア現象の原因について,その表現空間を解析して検討する。
そこで本研究では,LMプロバイダのポリシによって禁止された数字を生成する,シンプルなプロンプトベースの攻撃手法を提案する。
これらの攻撃に対抗するために,認知療法技術に触発された即時防御戦略を導入し,最大48.22\%の攻撃を軽減した。
Large Models (LMs) have heightened expectations for the potential of general AI as they are akin to human intelligence. This paper shows that recent large models such as Stable Diffusion and DALL-E3 also share the vulnerability of human intelligence, namely the "white bear phenomenon". We investigate the causes of the white bear phenomenon by analyzing their representation space. Based on this analysis, we propose a simple prompt-based attack method, which generates figures prohibited by the LM provider's policy. To counter these attacks, we introduce prompt-based defense strategies inspired by cognitive therapy techniques, successfully mitigating attacks by up to 48.22\%. | 翻訳日:2024-04-24 13:22:34 公開日:2024-04-22 |
# 医療意思決定におけるLCMの適応的協調戦略
Adaptive Collaboration Strategy for LLMs in Medical Decision Making ( http://arxiv.org/abs/2404.15155v1 ) ライセンス: Link先を確認 | Yubin Kim, Chanwoo Park, Hyewon Jeong, Yik Siu Chan, Xuhai Xu, Daniel McDuff, Cynthia Breazeal, Hae Won Park, | (参考訳) 基礎モデルは医療分野を前進させる上で貴重なものとなっている。
それらの約束にもかかわらず、複雑な医療タスクにおける効果的なユーティリティのためのLSMの戦略的展開は、未解決の問題である。
我々の新しい枠組みであるMDAgents(Medical Decision-making Agents)は、LLMの効果的な協調構造を自動的に割り当てることによって、このギャップに対処することを目的としている。
単独またはグループの共同作業構造は、実際の医療決定過程をエミュレートして、手前の医療作業の複雑さに合わせて調整される。
MedQA, MedMCQA, PubMedQA, DDXPlus, PMC-VQA, Path-VQA, MedVidQA, MedVidQAは, マルチモーダル医療推論の理解を必要とする7つのベンチマークのうち5つのベンチマークにおいて, 最高のパフォーマンスを達成している。
アブレーション研究によると、MDAgentsは効率と精度を最適化するために協力剤の数に適応し、多様なシナリオにおいてその堅牢性を示す。
また、グループコンセンサスのダイナミクスを探求し、複雑な臨床チームのダイナミクスにおいて協調エージェントがどのように振る舞うかについての洞察を提供する。
私たちのコードはhttps://github.com/mitmedialab/MDAgents.comにある。
Foundation models have become invaluable in advancing the medical field. Despite their promise, the strategic deployment of LLMs for effective utility in complex medical tasks remains an open question. Our novel framework, Medical Decision-making Agents (MDAgents) aims to address this gap by automatically assigning the effective collaboration structure for LLMs. Assigned solo or group collaboration structure is tailored to the complexity of the medical task at hand, emulating real-world medical decision making processes. We evaluate our framework and baseline methods with state-of-the-art LLMs across a suite of challenging medical benchmarks: MedQA, MedMCQA, PubMedQA, DDXPlus, PMC-VQA, Path-VQA, and MedVidQA, achieving the best performance in 5 out of 7 benchmarks that require an understanding of multi-modal medical reasoning. Ablation studies reveal that MDAgents excels in adapting the number of collaborating agents to optimize efficiency and accuracy, showcasing its robustness in diverse scenarios. We also explore the dynamics of group consensus, offering insights into how collaborative agents could behave in complex clinical team dynamics. Our code can be found at https://github.com/mitmedialab/MDAgents. | 翻訳日:2024-04-24 13:22:34 公開日:2024-04-22 |
# FASTTRACK: LLMの高速かつ高精度なFact Tracing
FASTTRACK: Fast and Accurate Fact Tracing for LLMs ( http://arxiv.org/abs/2404.15157v1 ) ライセンス: Link先を確認 | Si Chen, Feiyang Kang, Ning Yu, Ruoxi Jia, | (参考訳) ファクトトレースは、特定のクエリの知識源となる特定のトレーニング例を特定しようとする。
ファクトトレースへの既存のアプローチは、各トレーニングサンプルと特定の次元(語彙的類似性、勾配、埋め込み空間など)に沿ったクエリとの類似性を評価することに依存している。
しかし、これらの手法は、単に関係しているだけのサンプルと、クエリが求めている情報に対する支援的な証拠を実際に提供するサンプルとを効果的に区別することができない。
この制限は、しばしば最適以下の効果をもたらす。
さらに、これらの手法は、クエリ毎に個別のトレーニングポイントの類似性を検証し、重要な計算要求を課し、実用的なアプリケーションにとって重大な障壁を生み出す必要がある。
本稿では,Large Language Models (LLMs) の機能を活用して,クエリに対する支援的証拠を検証し,同時にLLMが事実を追跡できるようにトレーニングデータベースをクラスタ化する新しいアプローチであるFASTTRACKを紹介する。
実験の結果、FASTTRACKは既存の手法を精度と効率の両方で大幅に上回り、最先端の手法よりも100倍以上のF1スコアを達成し、X33は \texttt{TracIn}より高速であることがわかった。
Fact tracing seeks to identify specific training examples that serve as the knowledge source for a given query. Existing approaches to fact tracing rely on assessing the similarity between each training sample and the query along a certain dimension, such as lexical similarity, gradient, or embedding space. However, these methods fall short of effectively distinguishing between samples that are merely relevant and those that actually provide supportive evidence for the information sought by the query. This limitation often results in suboptimal effectiveness. Moreover, these approaches necessitate the examination of the similarity of individual training points for each query, imposing significant computational demands and creating a substantial barrier for practical applications. This paper introduces FASTTRACK, a novel approach that harnesses the capabilities of Large Language Models (LLMs) to validate supportive evidence for queries and at the same time clusters the training database towards a reduced extent for LLMs to trace facts. Our experiments show that FASTTRACK substantially outperforms existing methods in both accuracy and efficiency, achieving more than 100\% improvement in F1 score over the state-of-the-art methods while being X33 faster than \texttt{TracIn}. | 翻訳日:2024-04-24 13:22:34 公開日:2024-04-22 |
# MixLoRA: LoRAをベースとしたエキスパートのミキサーによる微調整による大規模言語モデルの実現
MixLoRA: Enhancing Large Language Models Fine-Tuning with LoRA based Mixture of Experts ( http://arxiv.org/abs/2404.15159v1 ) ライセンス: Link先を確認 | Dengchun Li, Yingzi Ma, Naizheng Wang, Zhiyuan Cheng, Lei Duan, Jie Zuo, Cal Yang, Mingjie Tang, | (参考訳) 大規模言語モデル(LLM)は、広範囲の自然言語処理(NLP)タスクで例外的なパフォーマンスを示した。
ファインチューニング技術は、特定のアプリケーションに事前訓練されたモデルを調整するために一般的に使用される。
LoRAのようなメソッドは、微調整中にGPUメモリの制約に効果的に取り組んだが、その適用性はしばしば、特にマルチタスクにおいて、限られたパフォーマンスに制限されている。
一方、Mixtral 8x7BのようなMix-of-Expert(MoE)モデルは、パラメータ数を削減しつつ、複数のNLPタスクにまたがる顕著な性能を示す。
しかし、特にコンシューマグレードのGPUでは、これらのMoEのリソース要件は、限られたVRAMしか持たない。
このような課題に対処するため,資源効率の低いMoEモデルの構築を目的としたMixLoRAを提案する。
MixLoRAは、凍ったトレーニング済みの高密度モデルのフィードフォワードネットワークブロック内に複数のLoRAベースのエキスパートを挿入し、通常使用されるトップkルータを使用する。
他のLoRAベースのMoE手法とは異なり、MixLoRAは独立に構成可能なアテンション層LoRAアダプタを活用し、専門家の構築にLoRAとその変種の使用をサポートし、ルータの不均衡問題に対処するために補助負荷バランス損失を適用することでモデル性能を向上させる。
実験では、MixLoRAは、シングルタスクとマルチタスクの学習シナリオの両方で、すべての評価指標の可読性を達成する。
m-LoRAフレームワーク内に実装されているMixLoRAは、量子化せずに、24GBのコンシューマグレードのGPU上で、複数のMix-of-expertsモデルの並列微調整を可能にする。
Large Language Models (LLMs) have showcased exceptional performance across a wide array of Natural Language Processing (NLP) tasks. Fine-tuning techniques are commonly utilized to tailor pre-trained models to specific applications. While methods like LoRA have effectively tackled GPU memory constraints during fine-tuning, their applicability is often restricted to limited performance, especially on multi-task. On the other hand, Mix-of-Expert (MoE) models, such as Mixtral 8x7B, demonstrate remarkable performance across multiple NLP tasks while maintaining a reduced parameter count. However, the resource requirements of these MoEs still challenging, particularly for consumer-grade GPUs only have limited VRAM. To address these challenge, we propose MixLoRA, an innovative approach aimed at constructing a resource-efficient sparse MoE model based on LoRA. MixLoRA inserts multiple LoRA-based experts within the feed-forward network block of a frozen pre-trained dense model through fine-tuning, employing a commonly used top-k router. Unlike other LoRA based MoE methods, MixLoRA enhances model performance by utilizing independently configurable attention-layer LoRA adapters, supporting the use of LoRA and its variants for the construction of experts, and applying auxiliary load balance loss to address the imbalance problem of the router. In experiments, MixLoRA achieves commendable performance across all evaluation metrics in both single-task and multi-task learning scenarios. Implemented within the m-LoRA framework, MixLoRA enables parallel fine-tuning of multiple mixture-of-experts models on a single 24GB consumer-grade GPU without quantization, thereby reducing GPU memory consumption by 41\% and latency during the training process by 17\%. | 翻訳日:2024-04-24 13:22:34 公開日:2024-04-22 |
# 画像と予測:気象画像解析と予測通信におけるGPT-4Vの可能性
Pixels and Predictions: Potential of GPT-4V in Meteorological Imagery Analysis and Forecast Communication ( http://arxiv.org/abs/2404.15166v1 ) ライセンス: Link先を確認 | John R. Lawson, Montgomery L. Flora, Kevin H. Goebbert, Seth N. Lyman, Corey K. Potvin, David M. Schultz, Adam J. Stepanek, Joseph E. Trujillo-Falcón, | (参考訳) OpenAIのGPT-4V大規模言語モデルのような生成AIは、急速に主流の話題になってきた。
画像処理と自然言語通信の新しい機能により、既存の予測手法が強化される可能性がある。
大規模言語モデルは、様々なコミュニティや異なる言語に向けられたスタイルで、より良い気象リスクを伝える可能性も示している。
本研究は,GPT-4Vが気象図を解釈し,気象の危険性を利用者に適切に伝える能力を評価するものである。
1)気象チャートから厳しい天気予報を発生させ,自己評価を行い,ストーム予測センターの人為予測とよく一致する見通しを明らかにすること,2)気象チャートからスペイン語と英語の危険要約を生成すること,である。
しかし、スペイン語の応答は、英語からスペイン語への直接の(慣用的ではない)翻訳に似ているため、最適なコミュニケーションに必要な重要な慣用的精度を失うような、翻訳の少ない要約をもたらす。
我々の発見は、気象学におけるGPT-4Vのようなツールの慎重な統合を提唱し、人間の監視の必要性と信頼できる説明可能なAIの開発を裏付けるものである。
Generative AI, such as OpenAI's GPT-4V large-language model, has rapidly entered mainstream discourse. Novel capabilities in image processing and natural-language communication may augment existing forecasting methods. Large language models further display potential to better communicate weather hazards in a style honed for diverse communities and different languages. This study evaluates GPT-4V's ability to interpret meteorological charts and communicate weather hazards appropriately to the user, despite challenges of hallucinations, where generative AI delivers coherent, confident, but incorrect responses. We assess GPT-4V's competence via its web interface ChatGPT in two tasks: (1) generating a severe-weather outlook from weather-chart analysis and conducting self-evaluation, revealing an outlook that corresponds well with a Storm Prediction Center human-issued forecast; and (2) producing hazard summaries in Spanish and English from weather charts. Responses in Spanish, however, resemble direct (not idiomatic) translations from English to Spanish, yielding poorly translated summaries that lose critical idiomatic precision required for optimal communication. Our findings advocate for cautious integration of tools like GPT-4V in meteorology, underscoring the necessity of human oversight and development of trustworthy, explainable AI. | 翻訳日:2024-04-24 13:22:34 公開日:2024-04-22 |
# 近似ランダム化試験の漸近妥当性と有限サンプル特性
Asymptotic Validity and Finite-Sample Properties of Approximate Randomization Tests ( http://arxiv.org/abs/1908.04218v3 ) ライセンス: Link先を確認 | Panos Toulis, | (参考訳) ランダム化テストは単純なデータ変換に依存し、魅力的な堅牢性を持っている。
データ分布が変換の下で不変であるとき、有限サンプル有効であることに加えて、これらのテストは、たとえ不変が成り立たないとしても、テスト統計学の適切な生徒化の下で漸近的に有効である。
しかし、実践的な実装はしばしばノイズの多いデータに遭遇し、その結果、それほど堅牢でないような近似的なランダム化テストがもたらされる。
本稿では,ノイズレスデータを用いた近似乱数化テストと元の乱数化テストとの大きさの差に対する非漸近的境界について考察する。
これにより、データ不変条件下での近似ランダム化テストの有効性に関する新しい条件を導出できると同時に、不変条件が保たなければ、生徒化に基づく既存の結果を活用することができる。
我々は、線形回帰における有意性のテストを含むいくつかの例を通して、我々の理論を説明する。
我々の理論は、ランダム化テストが小さなサンプルでどのように機能するかの特定の側面を説明でき、以前の理論的結果の限界に対処できる。
Randomization tests rely on simple data transformations and possess an appealing robustness property. In addition to being finite-sample valid if the data distribution is invariant under the transformation, these tests can be asymptotically valid under a suitable studentization of the test statistic, even if the invariance does not hold. However, practical implementation often encounters noisy data, resulting in approximate randomization tests that may not be as robust. In this paper, our key theoretical contribution is a non-asymptotic bound on the discrepancy between the size of an approximate randomization test and the size of the original randomization test using noiseless data. This allows us to derive novel conditions for the validity of approximate randomization tests under data invariances, while being able to leverage existing results based on studentization if the invariance does not hold. We illustrate our theory through several examples, including tests of significance in linear regression. Our theory can explain certain aspects of how randomization tests perform in small samples, addressing limitations of prior theoretical results. | 翻訳日:2024-04-24 01:49:47 公開日:2024-04-22 |
# 量子ランダムオラクルモデルにおける計算・計算プログラムの量子コピー保護
Quantum copy-protection of compute-and-compare programs in the quantum random oracle model ( http://arxiv.org/abs/2009.13865v4 ) ライセンス: Link先を確認 | Andrea Coladangelo, Christian Majenz, Alexander Poremba, | (参考訳) コピー保護は、ソフトウェアディストリビュータが任意の入力で評価できるような方法でプログラムをエンコードすることを可能にする。
Aaronson (CCC 2009) は、量子コピー保護スキームの正式な研究を開始し、量子暗号が量子非閉化定理(英語版)によってこの問題への解決策を提供するかもしれないと推測した。
本研究では、より表現力のある点関数の一般化である「コンピュテーション・アンド・コンプリア・プログラム」と呼ばれる、大規模な回避関数に対する量子複写保護スキームを導入する。
compute-and-compare プログラム $\mathsf{CC}[f,y]$ はその範囲内で関数 $f$ と文字列 $y$ によって指定される: on input $x$, $\mathsf{CC}[f,y]$ outputs $1$, if $f(x) = y$, and $0$。
提案手法は,量子乱数オラクルモデル(QROM)における完全悪意のある敵に対する非自明なセキュリティを実現する。
補完的な結果として,Ananth と La Placa (eprint 2020) が最近導入した "Secure Software Leasing" という,ソフトウェア保護に関するより弱い概念が,QROM の標準的なセキュリティ境界,すなわち無視可能な敵の優位性を保証していることを示す。
最後に,3つ目のコントリビューションとして,複数ビットの出力点関数に対する暗号化不能とコピー保護の関係を明らかにする。
Copy-protection allows a software distributor to encode a program in such a way that it can be evaluated on any input, yet it cannot be "pirated" - a notion that is impossible to achieve in a classical setting. Aaronson (CCC 2009) initiated the formal study of quantum copy-protection schemes, and speculated that quantum cryptography could offer a solution to the problem thanks to the quantum no-cloning theorem. In this work, we introduce a quantum copy-protection scheme for a large class of evasive functions known as "compute-and-compare programs" - a more expressive generalization of point functions. A compute-and-compare program $\mathsf{CC}[f,y]$ is specified by a function $f$ and a string $y$ within its range: on input $x$, $\mathsf{CC}[f,y]$ outputs $1$, if $f(x) = y$, and $0$ otherwise. We prove that our scheme achieves non-trivial security against fully malicious adversaries in the quantum random oracle model (QROM), which makes it the first copy-protection scheme to enjoy any level of provable security in a standard cryptographic model. As a complementary result, we show that the same scheme fulfils a weaker notion of software protection, called "secure software leasing", introduced very recently by Ananth and La Placa (eprint 2020), with a standard security bound in the QROM, i.e. guaranteeing negligible adversarial advantage. Finally, as a third contribution, we elucidate the relationship between unclonable encryption and copy-protection for multi-bit output point functions. | 翻訳日:2024-04-24 01:49:47 公開日:2024-04-22 |
# 画像の作り直し:ディープ・イメージ・コンポジションに関する総合的な調査
Making Images Real Again: A Comprehensive Survey on Deep Image Composition ( http://arxiv.org/abs/2106.14490v5 ) ライセンス: Link先を確認 | Li Niu, Wenyan Cong, Liu Liu, Yan Hong, Bo Zhang, Jing Liang, Liqing Zhang, | (参考訳) 一般的な画像編集操作として、画像合成は、1つの画像ともう1つの背景画像から前景を合成することを目的としている。
しかし、合成画像が非現実的になるような問題は数多くある。
これらの問題は、外観の不整合(例えば、不整合照明)、幾何学的不整合(例、不合理サイズ)、意味的不整合(例、不整合意味文脈)を含む、前景と背景の矛盾として要約できる。
画像合成タスクは複数のサブタスクに分解され、各サブタスクが1つ以上の課題を目標とする。
具体的には、オブジェクト配置は、前景の適切なスケール、位置、形状を見つけることを目的としている。
画像ブレンディングは、前景と背景の間の不自然な境界に対処することを目的としている。
画像調和は、前景の照明統計を調整することを目的としている。
シャドージェネレーションは、フォアグラウンドのためのもっともらしいシャドーを生成することを目的としています。
これらのサブタスクを順次又は並列に実行して、現実的な合成画像を取得することができる。
我々の知る限りでは、画像合成に関する以前の調査はない。
本稿では,画像合成のサブタスクと組合せタスクについて包括的調査を行う。
それぞれについて、既存のメソッド、利用可能なデータセット、一般的な評価指標を要約する。
画像合成のためのデータセットとコードはhttps://github.com/bcmi/Awesome-Image-Compositionで要約されている。
libcom https://github.com/bcmi/libcom は10以上の画像合成関連関数(例えば、画像ブレンディング、画像調和、オブジェクト配置、影生成、生成合成)を組み立てるツールボックスである。
このツールボックスの最終的な目標は、単純な‘import libcom’でイメージコンポジションに関連するすべての問題を解決することだ。
As a common image editing operation, image composition aims to combine the foreground from one image and another background image, resulting in a composite image. However, there are many issues that could make the composite images unrealistic. These issues can be summarized as the inconsistency between foreground and background, which includes appearance inconsistency (e.g., incompatible illumination), geometry inconsistency (e.g., unreasonable size), and semantic inconsistency (e.g., mismatched semantic context). Image composition task could be decomposed into multiple sub-tasks, in which each sub-task targets at one or more issues. Specifically, object placement aims to find reasonable scale, location, and shape for the foreground. Image blending aims to address the unnatural boundary between foreground and background. Image harmonization aims to adjust the illumination statistics of foreground. Shadow generation aims to generate plausible shadow for the foreground. These sub-tasks can be executed sequentially or parallelly to acquire realistic composite images. To the best of our knowledge, there is no previous survey on image composition. In this paper, we conduct comprehensive survey over the sub-tasks and combinatorial task of image composition. For each one, we summarize the existing methods, available datasets, and common evaluation metrics. Datasets and codes for image composition are summarized at https://github.com/bcmi/Awesome-Image-Composition. We have also contributed the first image composition toolbox: libcom https://github.com/bcmi/libcom, which assembles 10+ image composition related functions (e.g., image blending, image harmonization, object placement, shadow generation, generative composition). The ultimate goal of this toolbox is solving all the problems related to image composition with simple `import libcom'. | 翻訳日:2024-04-24 01:49:47 公開日:2024-04-22 |
# オンラインキャリブレーションとコンフォーマル予測はベイズ最適化を改善する
Online Calibrated and Conformal Prediction Improves Bayesian Optimization ( http://arxiv.org/abs/2112.04620v4 ) ライセンス: Link先を確認 | Shachi Deshpande, Charles Marx, Volodymyr Kuleshov, | (参考訳) ベイズ最適化のような逐次モデルに基づく意思決定タスクでは、正確な不確実性推定が重要である。
しかし、これらの推定は、データがモデル(例えばガウス性)の仮定に違反している場合、不完全である。
モデルに基づく意思決定やベイズ最適化において不確実性が必要な研究を行い、不確実性はキャリブレーションの恩恵を受けることができる、すなわち80%の予測区間は真の結果の80%を含むべきであると論じる。
しかし、キャリブレーションの維持は、データが定常的ではなく、我々の行動に依存する場合、困難である。
我々は、オンライン学習に基づく単純なアルゴリズムを用いて、非I.D.データのキャリブレーションを確実に維持することを提案し、これらのアルゴリズムをベイズ最適化に最小限のオーバーヘッドで組み込む方法を示す。
実験により, ベイズ最適化の最適化精度が向上し, 標準ベンチマーク関数やハイパーパラメータ最適化タスクの性能が向上することが実証された。
Accurate uncertainty estimates are important in sequential model-based decision-making tasks such as Bayesian optimization. However, these estimates can be imperfect if the data violates assumptions made by the model (e.g., Gaussianity). This paper studies which uncertainties are needed in model-based decision-making and in Bayesian optimization, and argues that uncertainties can benefit from calibration -- i.e., an 80% predictive interval should contain the true outcome 80% of the time. Maintaining calibration, however, can be challenging when the data is non-stationary and depends on our actions. We propose using simple algorithms based on online learning to provably maintain calibration on non-i.i.d. data, and we show how to integrate these algorithms in Bayesian optimization with minimal overhead. Empirically, we find that calibrated Bayesian optimization converges to better optima in fewer steps, and we demonstrate improved performance on standard benchmark functions and hyperparameter optimization tasks. | 翻訳日:2024-04-24 01:49:47 公開日:2024-04-22 |
# 数学者のためのデータ倫理に関する非専門家の紹介
A Non-Expert's Introduction to Data Ethics for Mathematicians ( http://arxiv.org/abs/2201.07794v3 ) ライセンス: Link先を確認 | Mason A. Porter, | (参考訳) データ倫理について簡単に紹介します。
データ倫理に関する背景情報と社会的文脈から始めます。
次に、数理科学教育におけるデータ倫理について論じ、利用可能な教材を示す。
私は、データ倫理、社会、社会的善に関するいくつかの取り組みを、私の自宅や他の施設で簡単に強調します。
次に、研究におけるオープンデータ、研究の複製性、その他の倫理的な問題、プライバシとオープンデータとコードの緊張、そしていくつかの議論を呼んでいる研究と研究に対する反応について議論します。
次に、倫理原則、制度審査委員会、および人間のデータの科学的利用に関するいくつかの考察について論じる。
最後に、データ倫理とデータプライバシに関連するさまざまな研究や記事について、簡単に調査します。
簡単な要約で締めくくります。
私の関心は数学者ですが、この章が他の人にとっても役に立つことを願っています。
私はデータ倫理の専門家ではありません。
データ倫理、数学教育における役割、およびデータとデータ分析の社会的意味について、私が議論しているリソースについて、慎重に検討することをお勧めします。
データと技術が進化し続けるにつれて、このような慎重なリフレクションがあなたの人生を通して続くことを願っています。
I give a short introduction to data ethics. I begin with some background information and societal context for data ethics. I then discuss data ethics in mathematical-science education and indicate some available course material. I briefly highlight a few efforts -- at my home institution and elsewhere -- on data ethics, society, and social good. I then discuss open data in research, research replicability and some other ethical issues in research, and the tension between privacy and open data and code, and a few controversial studies and reactions to studies. I then discuss ethical principles, institutional review boards, and a few other considerations in the scientific use of human data. Finally, I briefly survey a variety of research and lay articles that are relevant to data ethics and data privacy. I conclude with a brief summary. My focal audience is mathematicians, but I hope that this chapter will also be useful to others. I am not an expert about data ethics, and this chapter provides only a starting point on this wide-ranging topic. I encourage you to examine the resources that I discuss and to reflect carefully on data ethics, its role in mathematics education, and the societal implications of data and data analysis. As data and technology continue to evolve, I hope that such careful reflection will continue throughout your life. | 翻訳日:2024-04-24 01:49:47 公開日:2024-04-22 |
# 圧縮比によるPCAの騒音抑制効果の把握
Capturing the Denoising Effect of PCA via Compression Ratio ( http://arxiv.org/abs/2204.10888v2 ) ライセンス: Link先を確認 | Chandra Sekhar Mukherjee, Nikhil Doerkar, Jiapeng Zhang, | (参考訳) 主成分分析(PCA)は機械学習において最も基本的なツールの1つであり、次元の減少と認知のためのツールとして広く利用されている。
後段では、PCAは部分空間の回復に有効であることが知られ、特定の設定でクラスタリングアルゴリズムを補助することが証明されているが、ノイズの多いデータの改善は一般的には十分に定量化されていない。
本稿では,PCAが高次元雑音データに与える影響を捉えるために,'emph{compression ratio'と呼ばれる新しい計量法を提案する。
そこで,PCAでは,コミュニティ間距離を相対的に小さくしながら,同一コミュニティに属するデータポイント間の距離を著しく削減できることを示す。
我々はこの現象を実世界のデータに関する理論的証明と実験の両方を通して説明する。
この新しい指標に基づいて、我々は、外れ値を検出するのに使える簡単なアルゴリズムを設計する。
大まかに言えば、圧縮比のより低い分散を持つ点は、他の点と共有しない(したがって外乱と見なすことができる)。
我々は,この単純な外乱検出アルゴリズムの理論的正当性を提供し,本手法が一般的な外乱検出ツールと競合することを示すためにシミュレーションを用いた。
最後に、実世界の高次元ノイズデータ(単一セルRNA-seq)を用いて実験を行い、アウトラヤ検出法によりこれらのデータセットから点を取り除くことにより、クラスタリングアルゴリズムの精度が向上することを示す。
我々の手法は、このタスクで一般的な外れ値検出ツールと非常に競合する。
Principal component analysis (PCA) is one of the most fundamental tools in machine learning with broad use as a dimensionality reduction and denoising tool. In the later setting, while PCA is known to be effective at subspace recovery and is proven to aid clustering algorithms in some specific settings, its improvement of noisy data is still not well quantified in general. In this paper, we propose a novel metric called \emph{compression ratio} to capture the effect of PCA on high-dimensional noisy data. We show that, for data with \emph{underlying community structure}, PCA significantly reduces the distance of data points belonging to the same community while reducing inter-community distance relatively mildly. We explain this phenomenon through both theoretical proofs and experiments on real-world data. Building on this new metric, we design a straightforward algorithm that could be used to detect outliers. Roughly speaking, we argue that points that have a \emph{lower variance of compression ratio} do not share a \emph{common signal} with others (hence could be considered outliers). We provide theoretical justification for this simple outlier detection algorithm and use simulations to demonstrate that our method is competitive with popular outlier detection tools. Finally, we run experiments on real-world high-dimension noisy data (single-cell RNA-seq) to show that removing points from these datasets via our outlier detection method improves the accuracy of clustering algorithms. Our method is very competitive with popular outlier detection tools in this task. | 翻訳日:2024-04-24 01:49:47 公開日:2024-04-22 |
# ランダムな時間変化グラフによる分散オンライン正規化学習
Decentralized Online Regularized Learning Over Random Time-Varying Graphs ( http://arxiv.org/abs/2206.03861v4 ) ライセンス: Link先を確認 | Xiwei Zhang, Tao Li, Xiaozheng Fu, | (参考訳) ランダムな時間変化グラフ上の分散オンライン正規化線形回帰アルゴリズムについて検討する。
各時点において、各ノードは、独自の新しい測定値を処理する革新項と、追加的かつ乗算的な通信ノイズを伴って、それ自身とその隣人の推定量の重み付けされた和をとるコンセンサス項と、過度な適合を防止する正規化項からなるオンライン推定アルゴリズムを実行する。
回帰行列とグラフは、相互独立、時空間独立、定常といった特別な統計的仮定を満たす必要はない。
推定誤差の非負スーパーマーチンゲール不等式を開発し、アルゴリズムが励起条件のサンプルパス時空間的持続性を共に満たすと、全てのノードの推定が未知の真のパラメータベクトルにほぼ確実に収束することを証明した。
特に、この条件は、グラフが一様連接で条件バランスが取れている場合、適切なアルゴリズムゲインを選択し、全てのノードの回帰モデルが一様連接可能で、アルゴリズムが平均二乗に収束し、ほぼ確実に収束する。
さらに、後悔の上界が$O(T^{1-\tau}\ln T)$であることを証明する。
We study the decentralized online regularized linear regression algorithm over random time-varying graphs. At each time step, every node runs an online estimation algorithm consisting of an innovation term processing its own new measurement, a consensus term taking a weighted sum of estimations of its own and its neighbors with additive and multiplicative communication noises and a regularization term preventing over-fitting. It is not required that the regression matrices and graphs satisfy special statistical assumptions such as mutual independence, spatio-temporal independence or stationarity. We develop the nonnegative supermartingale inequality of the estimation error, and prove that the estimations of all nodes converge to the unknown true parameter vector almost surely if the algorithm gains, graphs and regression matrices jointly satisfy the sample path spatio-temporal persistence of excitation condition. Especially, this condition holds by choosing appropriate algorithm gains if the graphs are uniformly conditionally jointly connected and conditionally balanced, and the regression models of all nodes are uniformly conditionally spatio-temporally jointly observable, under which the algorithm converges in mean square and almost surely. In addition, we prove that the regret upper bound is $O(T^{1-\tau}\ln T)$, where $\tau\in (0.5,1)$ is a constant depending on the algorithm gains. | 翻訳日:2024-04-24 01:49:47 公開日:2024-04-22 |
# 総変動流の教師なし学習
Unsupervised Learning of the Total Variation Flow ( http://arxiv.org/abs/2206.04406v2 ) ライセンス: Link先を確認 | Tamara G. Grossmann, Sören Dittmer, Yury Korolev, Carola-Bibiane Schönlieb, | (参考訳) 総変動(TV)フローは、TV機能に基づいた画像のスケール空間表現を生成する。
この勾配流は、シャープエッジなどの画像の望ましい特徴を観察し、スペクトル、スケール、テクスチャ解析を可能にする。
テレビの流れを解くことは困難であり、一つの理由は下級者の非特異性である。
テレビジョンフローの標準的な数値的アプローチでは、複数の非滑らかな最適化問題を解く必要がある。
最先端の凸最適化技術でさえ、これはしばしば高額であり、代替的で高速なアプローチの使用を強く動機付けている。
物理インフォームドニューラルネットワーク(PINN)の枠組みに着想を得て拡張し、初期画像とタイムインスタンスが与えられたTVフローの解を近似するために、教師なしニューラルネットワークアプローチであるTVflowNETを提案する。
TVflowNETは根拠となる真理データを必要としないが、むしろネットワークパラメータの最適化にPDEを利用している。
我々は、関連する微分項を学習することで、下級者の非特異性に関連する課題を回避する。
提案手法は計算時間を著しく短縮し,TVflowNETは画像サイズや画像の種類に応じて高い忠実度でTVフローソリューションを近似することを示した。
さらに、異なるネットワークアーキテクチャ設計の完全な比較と、アプローチの有効性を評価するためのトレーニング体制も提供します。
The total variation (TV) flow generates a scale-space representation of an image based on the TV functional. This gradient flow observes desirable features for images, such as sharp edges and enables spectral, scale, and texture analysis. Solving the TV flow is challenging; one reason is the the non-uniqueness of the subgradients. The standard numerical approach for TV flow requires solving multiple non-smooth optimisation problems. Even with state-of-the-art convex optimisation techniques, this is often prohibitively expensive and strongly motivates the use of alternative, faster approaches. Inspired by and extending the framework of physics-informed neural networks (PINNs), we propose the TVflowNET, an unsupervised neural network approach, to approximate the solution of the TV flow given an initial image and a time instance. The TVflowNET requires no ground truth data but rather makes use of the PDE for optimisation of the network parameters. We circumvent the challenges related to the non-uniqueness of the subgradients by additionally learning the related diffusivity term. Our approach significantly speeds up the computation time and we show that the TVflowNET approximates the TV flow solution with high fidelity for different image sizes and image types. Additionally, we give a full comparison of different network architecture designs as well as training regimes to underscore the effectiveness of our approach. | 翻訳日:2024-04-24 01:41:46 公開日:2024-04-22 |
# 正規化制約線形逆問題に対する多値幾何最適化
Multilevel Geometric Optimization for Regularised Constrained Linear Inverse Problems ( http://arxiv.org/abs/2207.04934v3 ) ライセンス: Link先を確認 | Sebastian Müller, Stefania Petra, Matthias Zisler, | (参考訳) ボックス制約をスムーズに組み込んだ幾何的マルチレベル最適化手法を提案する。
ボックス制約付き最適化問題を考えると、異なる離散化レベルを持つモデルの階層構造を考える。
ファイナモデルは正確だが計算に費用がかかるが、粗いモデルは正確ではなく計算に安価である。
細かなレベルで作業する場合、マルチレベル最適化は、細かなレベルで更新を高速化する粗いモデルに基づいて探索方向を計算する。
また、階層構造によって誘導される幾何を利用することにより、更新の可能性も維持される。
特に、我々のアプローチは制限や延長のような多重グリッド法の古典的成分を制約のリーマン構造に拡張する。
We present a geometric multilevel optimization approach that smoothly incorporates box constraints. Given a box constrained optimization problem, we consider a hierarchy of models with varying discretization levels. Finer models are accurate but expensive to compute, while coarser models are less accurate but cheaper to compute. When working at the fine level, multilevel optimisation computes the search direction based on a coarser model which speeds up updates at the fine level. Moreover, exploiting geometry induced by the hierarchy the feasibility of the updates is preserved. In particular, our approach extends classical components of multigrid methods like restriction and prolongation to the Riemannian structure of our constraints. | 翻訳日:2024-04-24 01:41:46 公開日:2024-04-22 |
# 自己管理型DRAM:自律的で効率的なDRAM操作を実現するための低コストフレームワーク
Self-Managing DRAM: A Low-Cost Framework for Enabling Autonomous and Efficient in-DRAM Operations ( http://arxiv.org/abs/2207.13358v6 ) ライセンス: Link先を確認 | Hasan Hassan, Ataberk Olgun, A. Giray Yaglikci, Haocong Luo, Onur Mutlu, | (参考訳) メモリコントローラは、現在のDRAMチップにおけるDRAM保守操作(例えば、リフレッシュ、RowHammer保護、メモリスクラブ)を管理する。
新しいメンテナンス操作を実装するには、しばしばDRAMインターフェース、メモリコントローラ、および潜在的に他のシステムコンポーネントの変更を必要とする。
このような変更は、開発に長い時間を要する新しいDRAM標準でのみ可能であり、DRAMシステムの進歩が遅くなる。
本稿では,本研究の目的について述べる。
1)新しいDRAM保守操作を可能にするプロセスを容易にし、加速する。
2) より効率的なDRAM内メンテナンス操作を実現する。
我々の考えは、メモリコントローラをDRAM保守の管理から解放することである。
そこで本研究では,DRAMインターフェースやメモリコントローラ,その他のシステムコンポーネントにさらなる変更を加えることなく,新たなDRAM保守機構の実装(あるいは古いものの変更)を可能にする,新しい低コストDRAMアーキテクチャであるSelf-Managing DRAM(SMD)を提案する。
我々は、SMDを使用して、3つのユースケースに対して新しいDRAM保守機構を実装します。
1) 定期更新。
2)RowHammer保護,及び
3) メモリスクラブ。
SMDは,従来のDDR4 DRAMに比べて信頼性が高く,システム性能とエネルギー効率を大幅に向上させる,効率的なメンテナンス機構の導入が容易であることを示す。
SMDベースのメンテナンス機構でリフレッシュ、RowHammer保護、メモリスクラブが7.6%のスピードアップを実現し、20のメモリ集約4コアワークロードで平均5.2%のDRAMエネルギーを消費する。
SMDのソースコードはhttps://github.com/CMU-SAFARI/SelfManagingDRAMで公開・公開しています。
The memory controller is in charge of managing DRAM maintenance operations (e.g., refresh, RowHammer protection, memory scrubbing) in current DRAM chips. Implementing new maintenance operations often necessitates modifications in the DRAM interface, memory controller, and potentially other system components. Such modifications are only possible with a new DRAM standard, which takes a long time to develop, leading to slow progress in DRAM systems. In this paper, our goal is to 1) ease, and thus accelerate, the process of enabling new DRAM maintenance operations and 2) enable more efficient in-DRAM maintenance operations. Our idea is to set the memory controller free from managing DRAM maintenance. To this end, we propose Self-Managing DRAM (SMD), a new low-cost DRAM architecture that enables implementing new in-DRAM maintenance mechanisms (or modifying old ones) with no further changes in the DRAM interface, memory controller, or other system components. We use SMD to implement new in-DRAM maintenance mechanisms for three use cases: 1) periodic refresh, 2) RowHammer protection, and 3) memory scrubbing. We show that SMD enables easy adoption of efficient maintenance mechanisms that significantly improve the system performance and energy efficiency while providing higher reliability compared to conventional DDR4 DRAM. A combination of SMD-based maintenance mechanisms that perform refresh, RowHammer protection, and memory scrubbing achieve 7.6% speedup and consume 5.2% less DRAM energy on average across 20 memory-intensive four-core workloads. We make SMD source code openly and freely available at https://github.com/CMU-SAFARI/SelfManagingDRAM. | 翻訳日:2024-04-24 01:41:46 公開日:2024-04-22 |
# 一般画面画像品質評価のための深部特徴統計マッピング
Deep Feature Statistics Mapping for Generalized Screen Content Image Quality Assessment ( http://arxiv.org/abs/2209.05321v4 ) ライセンス: Link先を確認 | Baoliang Chen, Hanwei Zhu, Lingyu Zhu, Shiqi Wang, Sam Kwong, | (参考訳) 自然画像の統計正則性は自然シーン統計と呼ばれ、非参照画像の品質評価において重要な役割を果たす。
しかし、通常コンピュータ生成されるスクリーンコンテンツ画像(SCI)はそのような統計を持っていないことが広く認識されている。
ここでは,SCIの質を効果的に決定できる指標に基づいて,SCIの統計を学習するための最初の試みを行う。
提案手法の基盤となるメカニズムは、物理的に取得されていないSCIが、学習方法で理解可能な統計に従うという軽微な仮定に基づいている。
本研究では, 統計的偏差が品質評価において有効に活用できることを実証的に示し, 異なる設定で評価した場合, 提案手法の方が優れていることを示す。
SCI品質評価モデル(DFSS-IQA)は、既存のNR-IQAモデルと比較して有望な性能を示し、データセット間設定において高い一般化能力を示す。
本手法の実装はhttps://github.com/Baoliang93/DFSS-IQAで公開されている。
The statistical regularities of natural images, referred to as natural scene statistics, play an important role in no-reference image quality assessment. However, it has been widely acknowledged that screen content images (SCIs), which are typically computer generated, do not hold such statistics. Here we make the first attempt to learn the statistics of SCIs, based upon which the quality of SCIs can be effectively determined. The underlying mechanism of the proposed approach is based upon the mild assumption that the SCIs, which are not physically acquired, still obey certain statistics that could be understood in a learning fashion. We empirically show that the statistics deviation could be effectively leveraged in quality assessment, and the proposed method is superior when evaluated in different settings. Extensive experimental results demonstrate the Deep Feature Statistics based SCI Quality Assessment (DFSS-IQA) model delivers promising performance compared with existing NR-IQA models and shows a high generalization capability in the cross-dataset settings. The implementation of our method is publicly available at https://github.com/Baoliang93/DFSS-IQA. | 翻訳日:2024-04-24 01:41:46 公開日:2024-04-22 |
# ライン間の読書:AI支援プログラミングにおけるユーザ行動とコストのモデリング
Reading Between the Lines: Modeling User Behavior and Costs in AI-Assisted Programming ( http://arxiv.org/abs/2210.14306v5 ) ライセンス: Link先を確認 | Hussein Mozannar, Gagan Bansal, Adam Fourney, Eric Horvitz, | (参考訳) CopilotやCodeWhispererのようなコード推奨システムは、コードの提案と自動補完によってプログラマの生産性を向上させる可能性がある。
しかし、その可能性を十分に実現するには、プログラマがこれらのシステムとどのように相互作用するかを理解し、その相互作用を改善する方法を特定する必要がある。
コードレコメンデーションシステムとの人間とAIのコラボレーションに関する洞察を得るために、GitHub Copilotを研究した。
Copilotと対話する際の共通プログラマ活動の分類であるCUPSを開発した。
プログラミングタスクを完了し、CUPSでセッションを振り返ってラベル付けした21人のプログラマを対象に、CUPSはプログラマがコード推奨システムとどのように相互作用するかを理解し、非効率性と時間的コストを明らかにするのに役立ちます。
私たちの洞察は、プログラマがCopilotとどのように相互作用し、新しいインターフェース設計とメトリクスを動機付けるかを明らかにします。
Code-recommendation systems, such as Copilot and CodeWhisperer, have the potential to improve programmer productivity by suggesting and auto-completing code. However, to fully realize their potential, we must understand how programmers interact with these systems and identify ways to improve that interaction. To seek insights about human-AI collaboration with code recommendations systems, we studied GitHub Copilot, a code-recommendation system used by millions of programmers daily. We developed CUPS, a taxonomy of common programmer activities when interacting with Copilot. Our study of 21 programmers, who completed coding tasks and retrospectively labeled their sessions with CUPS, showed that CUPS can help us understand how programmers interact with code-recommendation systems, revealing inefficiencies and time costs. Our insights reveal how programmers interact with Copilot and motivate new interface designs and metrics. | 翻訳日:2024-04-24 01:41:46 公開日:2024-04-22 |
# $k$EPR-pairsを$n$-partyのリソース状態から生成する
Generating $k$ EPR-pairs from an $n$-party resource state ( http://arxiv.org/abs/2211.06497v3 ) ライセンス: Link先を確認 | Sergey Bravyi, Yash Sharma, Mario Szegedy, Ronald de Wolf, | (参考訳) 古典的なチャネル上の量子ネットワークアプリケーションによってモチベーションを得て、LOCCプロトコルが任意の$k$非結合のパーティ間でEPRペアを作成できる$n$のパーティリソース状態の研究を開始する。
我々は、$k$が最適な$n/2$からそれほど遠くない状態の構成を与え、一方、個々のパーティは一定数の量子ビットしか持たなければならない。
各パーティが1量子ビットしか持たない特別なケースでは、$k=$\log n$に比例する$n$-qubit状態の族と、$k=2$と$k=3$の小さな数値的な例を記述します。
例えば、$k=n/2$ ならば、当事者は少なくとも$\Omega(\log\log n)$ qubits を持つ必要がある。
Motivated by quantum network applications over classical channels, we initiate the study of $n$-party resource states from which LOCC protocols can create EPR-pairs between any $k$ disjoint pairs of parties. We give constructions of such states where $k$ is not too far from the optimal $n/2$ while the individual parties need to hold only a constant number of qubits. In the special case when each party holds only one qubit, we describe a family of $n$-qubit states with $k$ proportional to $\log n$ based on Reed-Muller codes, as well as small numerically found examples for $k=2$ and $k=3$. We also prove some lower bounds, for example showing that if $k=n/2$ then the parties must have at least $\Omega(\log\log n)$ qubits each. | 翻訳日:2024-04-24 01:41:46 公開日:2024-04-22 |
# テキスト生成のための埋め込み空間上の拡散モデル
Empowering Diffusion Models on the Embedding Space for Text Generation ( http://arxiv.org/abs/2212.09412v3 ) ライセンス: Link先を確認 | Zhujin Gao, Junliang Guo, Xu Tan, Yongxin Zhu, Fang Zhang, Jiang Bian, Linli Xu, | (参考訳) 拡散モデルは、視覚的タスクとオーディオタスクの両方において最先端の合成品質を達成し、最近の研究は、埋め込み空間を拡散することによってテキストデータにさらに適応している。
本稿では, 埋め込み空間と復調モデルの両方で直面する最適化課題について, 慎重に検討されていない系統的研究を行う。
まず、データ分布は埋め込みについて学習可能であり、埋め込み空間の崩壊と不安定なトレーニングにつながる可能性がある。
この問題を軽減するために,従来の手法よりも効率的なアンカー損失という新たな目的を提案する。
第二に、従来のスケジュールの騒音レベルは、望ましい復調モデルの訓練には不十分であり、結果として様々な退化の度合いがもたらされる。
この課題に対処するために、ノイズリスケーリングと呼ばれる新しいフレームワークを提案する。
以上の解析に基づいて,Transformerに基づく埋め込み拡散モデルであるDifformerを提案する。
本手法の有効性と,従来の埋込拡散ベースラインよりもDifformerの方が優れていることを示す。
Diffusion models have achieved state-of-the-art synthesis quality on both visual and audio tasks, and recent works further adapt them to textual data by diffusing on the embedding space. In this paper, we conduct systematic studies of the optimization challenges encountered with both the embedding space and the denoising model, which have not been carefully explored. Firstly, the data distribution is learnable for embeddings, which may lead to the collapse of the embedding space and unstable training. To alleviate this problem, we propose a new objective called the anchor loss which is more efficient than previous methods. Secondly, we find the noise levels of conventional schedules are insufficient for training a desirable denoising model while introducing varying degrees of degeneration in consequence. To address this challenge, we propose a novel framework called noise rescaling. Based on the above analysis, we propose Difformer, an embedding diffusion model based on Transformer. Experiments on varieties of seminal text generation tasks show the effectiveness of the proposed methods and the superiority of Difformer over previous state-of-the-art embedding diffusion baselines. | 翻訳日:2024-04-24 01:41:46 公開日:2024-04-22 |
# 金融における高次元オプション価格設定のためのブラックスクールPDEの量子モンテカルロ法とその複雑性解析
Quantum Monte Carlo algorithm for solving Black-Scholes PDEs for high-dimensional option pricing in finance and its complexity analysis ( http://arxiv.org/abs/2301.09241v3 ) ライセンス: Link先を確認 | Jianjun Chen, Yongming Li, Ariel Neufeld, | (参考訳) 本稿では,高次元オプション価格の相関で高次元のブラックショルズPDEを解く量子モンテカルロアルゴリズムを提案する。
オプションの支払関数は一般的な形式であり、金融で使用される支払関数のほとんどをカバーする、連続的かつ断片的アフィン(CPWA)であることが要求される。
アルゴリズムの厳密な誤り解析と複雑性解析を行う。
特に、我々のアルゴリズムの計算複雑性は PDE の空間次元 $d$ と所定の精度 $\varepsilon$ の逆数において多項式的に有界であることが証明される。
さらに,有界なペイオフ関数に対しては,従来のモンテカルロ法と比較して,アルゴリズムが高速化されていることを示す。
さらに,ブラックスコールズモデルに対するCPWAオプションの価格設定に適したQiskitフレームワーク内で開発されたパッケージを用いて,1次元と2次元の数値シミュレーションを行い,数値シミュレーションの任意の空間次元への拡張の可能性について議論する。
In this paper we provide a quantum Monte Carlo algorithm to solve high-dimensional Black-Scholes PDEs with correlation for high-dimensional option pricing. The payoff function of the option is of general form and is only required to be continuous and piece-wise affine (CPWA), which covers most of the relevant payoff functions used in finance. We provide a rigorous error analysis and complexity analysis of our algorithm. In particular, we prove that the computational complexity of our algorithm is bounded polynomially in the space dimension $d$ of the PDE and the reciprocal of the prescribed accuracy $\varepsilon$. Moreover, we show that for payoff functions which are bounded, our algorithm indeed has a speed-up compared to classical Monte Carlo methods. Furthermore, we provide numerical simulations in one and two dimensions using our developed package within the Qiskit framework tailored to price CPWA options with respect to the Black-Scholes model, as well as discuss the potential extension of the numerical simulations to arbitrary space dimension. | 翻訳日:2024-04-24 01:32:01 公開日:2024-04-22 |
# データ蒸留のプライバシー保護のためのScatterNets(DP-KIP-ScatterNet)の機能を用いた異なるプライベートカーネル誘導ポイント
Differentially Private Kernel Inducing Points using features from ScatterNets (DP-KIP-ScatterNet) for Privacy Preserving Data Distillation ( http://arxiv.org/abs/2301.13389v2 ) ライセンス: Link先を確認 | Margarita Vinaroz, Mi Jung Park, | (参考訳) データ蒸留は、元のデータセット上で与えられた学習アルゴリズムのパフォーマンスを忠実に模倣する小さなデータセットを生成することを目的としている。
したがって、蒸留データセットは、その小さなデータサイズのおかげで、トレーニングプロセスを単純化するのに有用である。
しかし、蒸留されたデータサンプルは、一般的に人間には認識できないとしても、必ずしもプライバシーを保護しているとは限らない。
この制限に対処するために、プライバシ保存データ蒸留のための差分プライベートカーネル誘導点(DP-KIP)を導入する。
DP-SGDをKIPのフレームワークに適用するという当初の意図とは違って、無限大の畳み込みニューラルタンジェントカーネル(conv-NTK)を用いたKIPは、完全に接続されたNTKを用いたKIPよりも優れた性能を発揮する。
しかし、畳み込みとプーリング操作のため、conv-NTKを持つKIPは、数百のV100 GPUを訓練に並列に必要としており、そのような計算リソースは多くの人にアクセスできない。
この問題を克服するために、我々は、事前トレーニングを必要としない(プライバシーの喪失を避けるために)代替案を提案し、画像上の複雑な情報を、conv-NKTが行うように適切にキャプチャし、計算コストを単一のV100 GPUで管理する。
そこで本研究では,conv-NTKではなくScattering Network(ScatterNet)のウェーブレット機能を利用したDP-KIP-ScatterNetを提案する。
DP-KIP-ScatterNet を JAX で実装し,その有効性と優れた性能を示すために,差分プライバシー保証付き画像データ蒸留における最先端技術と比較した。
Data distillation aims to generate a small data set that closely mimics the performance of a given learning algorithm on the original data set. The distilled dataset is hence useful to simplify the training process thanks to its small data size. However, distilled data samples are not necessarily privacy-preserving, even if they are generally humanly indiscernible. To address this limitation, we introduce differentially private kernel inducing points (DP-KIP) for privacy-preserving data distillation. Unlike our original intention to simply apply DP-SGD to the framework of KIP, we find that KIP using infinitely-wide convolutional neural tangent kernels (conv-NTKs) performs better compared to KIP using fully-connected NTKs. However, KIP with conv-NTKs, due to its convolutional and pooling operations, introduces an unbearable computational complexity, requiring hundreds of V100 GPUs in parallel to train, which is impractical and more importantly, such computational resources are inaccessible to many. To overcome this issue, we propose an alternative that does not require pre-training (to avoid a privacy loss) and can well capture complex information on images, as those features from conv-NKTs do, while the computational cost is manageable by a single V100 GPU. To this end, we propose DP-KIP-ScatterNet, which uses the wavelet features from Scattering networks (ScatterNet) instead of those from conv-NTKs, to perform DP-KIP at a reasonable computational cost. We implement DP-KIP-ScatterNet in -- computationally efficient -- JAX and test on several popular image datasets to show its efficacy and its superior performance compared to state-of-the art methods in image data distillation with differential privacy guarantees. | 翻訳日:2024-04-24 01:32:01 公開日:2024-04-22 |
# セマンティックシーン完了のための相互相互作用の信頼性を考慮したブリッジングステレオ形状とBEV表現
Bridging Stereo Geometry and BEV Representation with Reliable Mutual Interaction for Semantic Scene Completion ( http://arxiv.org/abs/2303.13959v5 ) ライセンス: Link先を確認 | Bohan Li, Yasheng Sun, Zhujin Liang, Dalong Du, Zhuanghui Zhang, Xiaofeng Wang, Yunnan Wang, Xin Jin, Wenjun Zeng, | (参考訳) 3Dセマンティックシーン完了(SSC)は、限られた観測から密集した3Dシーンを推定する必要がある不適切な認識課題である。
従来のカメラベースの手法は、固有の幾何学的曖昧さと不完全な観察のため、正確なセマンティックシーンを予測するのに苦労した。
本稿では,SSCにおけるステレオマッチング手法と鳥眼ビュー(BEV)表現学習を利用して,そのような問題に対処する。
BEV表現は、グローバルな意味的文脈を持つ見えない領域の幻覚能力を高める一方で、ステレオマッチングは、エピポーラ制約による幾何学的曖昧さを緩和する。
しかし, 立体幾何学とBEVの特徴の相違により, SSCの密接な予測タスクのためにそれらを橋渡しすることは容易ではない。
そこで,この2つの表現を高密度な3Dボリュームで効果的にブリッジして,信頼性の高いセマンティックシーンを補完する,BRGSceneと呼ばれる統合占有型フレームワークをさらに発展させる。
具体的には、ステレオ幾何およびBEV特徴の画素レベルの信頼性の高いアグリゲーションのための新しい相互対話型アンサンブル(MIE)ブロックを設計する。
MIEブロック内では、信頼再重み付けにより強化された双方向信頼インタラクション(BRI)モジュールが、相互誘導によるきめ細かいインタラクションを促進するために使用される。
さらに、チャネルワイド・リカレーションとマルチグループ投票を通じて補完的な集約を容易にするために、DVE(Dual Volume Ensemble)モジュールが導入された。
本手法は,セマンティックKITTIのセマンティック・シーン・コンプリートにおける全カメラ・ベースの手法より優れる。
私たちのコードは \url{https://github.com/Arlo0o/StereoScene} で利用可能です。
3D semantic scene completion (SSC) is an ill-posed perception task that requires inferring a dense 3D scene from limited observations. Previous camera-based methods struggle to predict accurate semantic scenes due to inherent geometric ambiguity and incomplete observations. In this paper, we resort to stereo matching technique and bird's-eye-view (BEV) representation learning to address such issues in SSC. Complementary to each other, stereo matching mitigates geometric ambiguity with epipolar constraint while BEV representation enhances the hallucination ability for invisible regions with global semantic context. However, due to the inherent representation gap between stereo geometry and BEV features, it is non-trivial to bridge them for dense prediction task of SSC. Therefore, we further develop a unified occupancy-based framework dubbed BRGScene, which effectively bridges these two representations with dense 3D volumes for reliable semantic scene completion. Specifically, we design a novel Mutual Interactive Ensemble (MIE) block for pixel-level reliable aggregation of stereo geometry and BEV features. Within the MIE block, a Bi-directional Reliable Interaction (BRI) module, enhanced with confidence re-weighting, is employed to encourage fine-grained interaction through mutual guidance. Besides, a Dual Volume Ensemble (DVE) module is introduced to facilitate complementary aggregation through channel-wise recalibration and multi-group voting. Our method outperforms all published camera-based methods on SemanticKITTI for semantic scene completion. Our code is available on \url{https://github.com/Arlo0o/StereoScene}. | 翻訳日:2024-04-24 01:32:01 公開日:2024-04-22 |
# 量子可解非線形微分方程式
Quantum Solvable Nonlinear Differential Equations ( http://arxiv.org/abs/2305.00653v3 ) ライセンス: Link先を確認 | Yu Tanaka, Keisuke Fujii, | (参考訳) 量子コンピュータは、様々な産業や科学分野において重要な役割を果たす非線形常微分方程式(ODE)のシステムを効率的に解くことができる。
しかし、どの非線形ODEのシステムが、どの仮定の下で、量子コンピュータを用いて指数的スピードアップを達成できるかは定かではない。
本稿では、量子コンピュータ上で効率よく解ける量子可解ODE(quantum solvable ODE)と呼ばれる非線形ODEのシステムのクラスを紹介し、その効率は、$O(T {\rm log}(N) {\rm polylog}(1/\epsilon))$の計算複雑性を持つシステムを解くものとして定義される。
具体的には、非線形ODEの系をハミルトン力学に写像し、写像されたハミルトンのノルムが保存され、ハミルトンのノルムがスパースである条件を見つけるために、クープマン・フォン・ノイマン線型化を用いる。
これにより、量子可解ODEを$O({\rm log}(N))$オーバヘッドで解くのに最適なハミルトンシミュレーション技術を利用することができる。
さらに、量子可解ODEは非線形高調波発振器や短距離倉本モデルなど、幅広い非線形ODEの系を含むことを示す。
これは指数的量子スピードアップを伴う非線形ODEのシステムを解く最初の具体例であるため、これらの発見は非線形問題の解法における量子コンピュータの適用に大きく貢献する。
Quantum computers have the potential to efficiently solve a system of nonlinear ordinary differential equations (ODEs), which play a crucial role in various industries and scientific fields. However, it remains unclear which system of nonlinear ODEs, and under what assumptions, can achieve exponential speedup using a quantum computer. In this work, we introduce a class of systems of nonlinear ODEs, called quantum solvable ODEs, that can be efficiently solved on quantum computers, where the efficiency is defined as solving the system with computational complexity of $O(T {\rm log}(N) {\rm polylog}(1/\epsilon))$, where $T$ is the evolution time, $\epsilon$ is the allowed error, and $N$ is the number of variables in the system. Specifically, we employ Koopman-von Neumann linearization to map the system of nonlinear ODEs to Hamiltonian dynamics and find conditions where the norm of the mapped Hamiltonian is preserved and the Hamiltonian is sparse. This allows us to use the optimal Hamiltonian simulation technique for solving the quantum solvable ODEs with $O({\rm log}(N))$ overhead. Furthermore, we show that quantum solvable ODEs include a wide range of systems of nonlinear ODEs, such as the nonlinear harmonic oscillators and the short-range Kuramoto model. Since this is the first concrete example of solving systems of nonlinear ODEs with exponential quantum speedup, these findings contribute significantly to the application of quantum computers in solving nonlinear problems. | 翻訳日:2024-04-24 01:22:09 公開日:2024-04-22 |
# ボットか人間か? 単一質問によるチャットGPTインポスタの検出
Bot or Human? Detecting ChatGPT Imposters with A Single Question ( http://arxiv.org/abs/2305.06424v3 ) ライセンス: Link先を確認 | Hong Wang, Xuan Luo, Weizhi Wang, Xifeng Yan, | (参考訳) GPT-4のような大規模言語モデルは、最近、自然言語の理解と生成において印象的な能力を示し、翻訳、エッセイの執筆、チャットなど様々な応用を可能にした。
しかし、不正やサービス拒否攻撃など、悪意のある目的で悪用される可能性があるという懸念もある。
したがって、会話に関わる相手がボットか人間かを検出する方法を開発することが重要である。
本稿では,単一問合せと応答を用いた大規模言語モデル認証フレームワークFLAIRを提案し,対話型ボットをオンラインで検出する。
具体的には、人間のユーザーとボットを効果的に区別できる単一の質問シナリオをターゲットにしている。
質問は、人間にとって簡単だがボットにとって難しいもの(例:カウント、置換、ASCIIアート推論)と、ロボットにとって簡単だが人間にとっては難しいもの(例:記憶、計算)に分けられる。
弊社のアプローチは、これらの質問の長所をその有効性で示し、オンラインサービスプロバイダが悪質な活動から身を守るための新しい方法を提供する。
私たちはコードとデータセットをhttps://github.com/hongwang600/FLAIRでオープンソース化しました。
Large language models like GPT-4 have recently demonstrated impressive capabilities in natural language understanding and generation, enabling various applications including translation, essay writing, and chit-chatting. However, there is a concern that they can be misused for malicious purposes, such as fraud or denial-of-service attacks. Therefore, it is crucial to develop methods for detecting whether the party involved in a conversation is a bot or a human. In this paper, we propose a framework named FLAIR, Finding Large Language Model Authenticity via a Single Inquiry and Response, to detect conversational bots in an online manner. Specifically, we target a single question scenario that can effectively differentiate human users from bots. The questions are divided into two categories: those that are easy for humans but difficult for bots (e.g., counting, substitution, and ASCII art reasoning), and those that are easy for bots but difficult for humans (e.g., memorization and computation). Our approach shows different strengths of these questions in their effectiveness, providing a new way for online service providers to protect themselves against nefarious activities and ensure that they are serving real users. We open-sourced our code and dataset on https://github.com/hongwang600/FLAIR and welcome contributions from the community. | 翻訳日:2024-04-24 01:22:08 公開日:2024-04-22 |
# 貧弱なUTXOブロックチェーン上でのリッチスマートコントラクトのセキュアコンパイル
Secure compilation of rich smart contracts on poor UTXO blockchains ( http://arxiv.org/abs/2305.09545v3 ) ライセンス: Link先を確認 | Massimo Bartoletti, Riccardo Marchesin, Roberto Zunino, | (参考訳) Ethereum以降のほとんどのブロックチェーンプラットフォームは、スマートコントラクトをステートフルなリアクティブオブジェクトとしてレンダリングする。
この設計の欠点は、ユーザがトランザクションを提出しても、どの状態で実行されるかを予測できないことだ。
これは、トランザクションのブロックを構成する権限を持つ敵がスマートコントラクト(いわゆるMEV攻撃)から価値を抽出できるような、広範な種類の攻撃である。
UTXOモデルは、トランザクションにユニークな識別子があるため、再順序攻撃は非効率である。
現在、UTXOモデルに続くブロックチェーンは、限定された表現性(Bitcoin)を備えたコントラクトを提供するか、複雑なランタイム環境(Cardano)を必要とする。
UTXOモデルのための中間レベル言語 ILLUM を提案する。
ILLUMは、例えばDecentralized Financeにあるような、現実世界のスマートコントラクトを表現できる。
コンパイラをILLUMから、ループフリースクリプトでベアボーンのUTXOブロックチェーンに定義する。
私たちのコンパイルターゲットは、Bitcoin Scriptの最小限の拡張のみを必要としています。
コンパイルされたコントラクトをターゲットにした攻撃は、ILLUMレベルでも監視可能である。
したがって、コンパイラは、ソースのILLUMコントラクトに存在しない新しい脆弱性を導入しない。
ハイレベル言語のコンパイル対象として ILLUM の実用性を評価する。
この目的のために、Solidityからインスパイアされたコントラクト言語からILLUMへのコンパイラを実装し、それをベンチマークや実世界のスマートコントラクトに適用する。
Most blockchain platforms from Ethereum onwards render smart contracts as stateful reactive objects that update their state and transfer crypto-assets in response to transactions. A drawback of this design is that when users submit a transaction, they cannot predict in which state it will be executed. This exposes them to transaction-ordering attacks, a widespread class of attacks where adversaries with the power to construct blocks of transactions can extract value from smart contracts (the so-called MEV attacks). The UTXO model is an alternative blockchain design that thwarts these attacks by requiring new transactions to spend past ones: since transactions have unique identifiers, reordering attacks are ineffective. Currently, the blockchains following the UTXO model either provide contracts with limited expressiveness (Bitcoin), or require complex run-time environments (Cardano). We present ILLUM , an Intermediate-Level Language for the UTXO Model. ILLUM can express real-world smart contracts, e.g. those found in Decentralized Finance. We define a compiler from ILLUM to a bare-bone UTXO blockchain with loop-free scripts. Our compilation target only requires minimal extensions to Bitcoin Script: in particular, we exploit covenants, a mechanism for preserving scripts along chains of transactions. We prove the security of our compiler: namely, any attack targeting the compiled contract is also observable at the ILLUM level. Hence, the compiler does not introduce new vulnerabilities that were not already present in the source ILLUM contract. We evaluate the practicality of ILLUM as a compilation target for higher-level languages. To this purpose, we implement a compiler from a contract language inspired by Solidity to ILLUM, and we apply it to a benchmark or real-world smart contracts. | 翻訳日:2024-04-24 01:22:08 公開日:2024-04-22 |
# DermSynth3D:in-the-wild Annotated Dermatology画像の合成
DermSynth3D: Synthesis of in-the-wild Annotated Dermatology Images ( http://arxiv.org/abs/2305.12621v4 ) ライセンス: Link先を確認 | Ashish Sinha, Jeremy Kawahara, Arezou Pakzad, Kumar Abhishek, Matthieu Ruthven, Enjie Ghorbel, Anis Kacem, Djamila Aouada, Ghassan Hamarneh, | (参考訳) 近年, 深層学習(DL)は皮膚画像解析の分野で大きな可能性を秘めている。
しかし、この領域の既存のデータセットには、少数の画像サンプル、限られた疾患条件、不十分なアノテーション、標準化されていない画像取得など、重大な制限がある。
これらの欠点に対処するため,我々はDermSynth3Dという新しいフレームワークを提案する。
DermSynth3Dは、人体の3Dテクスチャメッシュに、微分可能なレンダラーを用いて皮膚の病気パターンをブレンドし、さまざまな背景条件下で選択された照明条件下で、様々なカメラ視点から2D画像を生成する。
筆者らの手法は、ブレンディングとレンダリングを制約するトップダウンルールに従属し、より有意義な結果が得られるように、肌の状態の2D画像を作成する。
本フレームワークは、皮膚、皮膚の状態、身体部分、病変周囲の境界ボックス、深度マップ、およびカメラ位置や照明条件などの他の3Dシーンパラメータを意味的セグメンテーションするための、フォトリアリスティックな2D皮膚鏡画像およびそれに対応する高密度アノテーションを生成する。
DermSynth3Dは、さまざまな皮膚科学タスクのためのカスタムデータセットを作成することができる。
本稿では,DermSynth3Dを用いて合成データ上でDLモデルを訓練し,実際の2次元皮膚画像を用いて各種皮膚学タスクで評価することにより,データの有効性を実証する。
コードをhttps://github.com/sfu-mial/DermSynth3Dで公開しています。
In recent years, deep learning (DL) has shown great potential in the field of dermatological image analysis. However, existing datasets in this domain have significant limitations, including a small number of image samples, limited disease conditions, insufficient annotations, and non-standardized image acquisitions. To address these shortcomings, we propose a novel framework called DermSynth3D. DermSynth3D blends skin disease patterns onto 3D textured meshes of human subjects using a differentiable renderer and generates 2D images from various camera viewpoints under chosen lighting conditions in diverse background scenes. Our method adheres to top-down rules that constrain the blending and rendering process to create 2D images with skin conditions that mimic in-the-wild acquisitions, ensuring more meaningful results. The framework generates photo-realistic 2D dermoscopy images and the corresponding dense annotations for semantic segmentation of the skin, skin conditions, body parts, bounding boxes around lesions, depth maps, and other 3D scene parameters, such as camera position and lighting conditions. DermSynth3D allows for the creation of custom datasets for various dermatology tasks. We demonstrate the effectiveness of data generated using DermSynth3D by training DL models on synthetic data and evaluating them on various dermatology tasks using real 2D dermatological images. We make our code publicly available at https://github.com/sfu-mial/DermSynth3D. | 翻訳日:2024-04-24 01:22:08 公開日:2024-04-22 |
# デバイス上での気象基礎モデルのためのフェデレーション・プロンプト学習
Federated Prompt Learning for Weather Foundation Models on Devices ( http://arxiv.org/abs/2305.14244v2 ) ライセンス: Link先を確認 | Shengchao Chen, Guodong Long, Tao Shen, Jing Jiang, Chengqi Zhang, | (参考訳) 天気予報のためのオンデバイスインテリジェンスは、ローカルなディープラーニングモデルを使用して、集中型クラウドコンピューティングを使わずに気象パターンを解析し、人間の活動をサポートする上で重要である。
フェデレートラーニング(Federated Learning)は、生データを共有せずに協調的なモデルトレーニングを可能にすることで、このような予測のための有望なソリューションである。
しかし,その信頼性を損なう主な課題は,(1)地理的な違いによるデバイス間のデータ不均一性,(2)個々のデバイス間のデータ均一性,(3)コラボレーションのための大きなモデルパラメータの送信による通信過負荷,の3つである。
これらの課題に対処するために,デバイス上の気象モデルのためのフェデレート・プロンプト・ラーニング(FedPoD)を提案する。
具体的には、我々のAdaptive Prompt Tuningは、より正確な予測を生成するために、軽量なプロンプトガイドフリーズ基盤モデルを活用するとともに、プロンプトベースのマルチレベル通信を行い、マルチソース知識の融合を促進し、最適化を調整する。
さらに、Dynamic Graph Modelingはプロンプトからグラフを構築し、類似したデータ分布を持つデバイス間の協調トレーニングを不均一性に対して優先順位付けする。
大規模な実験では、FedPoDが実際のデバイス上での天気予報データセットのさまざまな設定における最先端のベースラインのパフォーマンスを導いている。
On-device intelligence for weather forecasting uses local deep learning models to analyze weather patterns without centralized cloud computing, holds significance for supporting human activates. Federated Learning is a promising solution for such forecasting by enabling collaborative model training without sharing raw data. However, it faces three main challenges that hinder its reliability: (1) data heterogeneity among devices due to geographic differences; (2) data homogeneity within individual devices and (3) communication overload from sending large model parameters for collaboration. To address these challenges, this paper propose Federated Prompt Learning for Weather Foundation Models on Devices (FedPoD), which enables devices to obtain highly customized models while maintaining communication efficiency. Concretely, our Adaptive Prompt Tuning leverages lightweight prompts guide frozen foundation model to generate more precise predictions, also conducts prompt-based multi-level communication to encourage multi-source knowledge fusion and regulate optimization. Additionally, Dynamic Graph Modeling constructs graphs from prompts, prioritizing collaborative training among devices with similar data distributions to against heterogeneity. Extensive experiments demonstrates FedPoD leads the performance among state-of-the-art baselines across various setting in real-world on-device weather forecasting datasets. | 翻訳日:2024-04-24 01:22:08 公開日:2024-04-22 |
# 局所極小点探索のための2時間外勾配法
Two-timescale Extragradient for Finding Local Minimax Points ( http://arxiv.org/abs/2305.16242v2 ) ライセンス: Link先を確認 | Jiseok Chae, Kyuwon Kim, Donghwan Kim, | (参考訳) Minimaxの問題は最適化が難しいことで有名だ。
しかし, 2 時間スケールの指数勾配法は, 実現可能な解である可能性が示唆された。
力学系理論を利用して、局所極小点の2階必要条件を満たす点に収束することを示した。
この研究は、最大化変数に関するヘッセンが非退化であるという決定的な仮定を排除し、局所極小点を求める以前のすべての結果に対して証明的に改善する。
Minimax problems are notoriously challenging to optimize. However, we present that the two-timescale extragradient method can be a viable solution. By utilizing dynamical systems theory, we show that it converges to points that satisfy the second-order necessary condition of local minimax points, under mild conditions that the two-timescale gradient descent ascent fails to work. This work provably improves upon all previous results on finding local minimax points, by eliminating a crucial assumption that the Hessian with respect to the maximization variable is nondegenerate. | 翻訳日:2024-04-24 01:22:08 公開日:2024-04-22 |
# 機械学習とAIによる高リスク妊娠ケアのギャップの解消
Closing the Gap in High-Risk Pregnancy Care Using Machine Learning and Human-AI Collaboration ( http://arxiv.org/abs/2305.17261v3 ) ライセンス: Link先を確認 | Hussein Mozannar, Yuria Utsumi, Irene Y. Chen, Stephanie S. Gervasi, Michele Ewing, Aaron Smith-McLallen, David Sontag, | (参考訳) 高リスク妊娠(英: high-risk pregnant)は、母親や乳児の結果に悪影響を及ぼす要因によって複雑な妊娠である。
健康保険業者は、追加の臨床支援の恩恵を受けるメンバーを特定するためにアルゴリズムを使用する。
本研究は、合併症のリスクがある妊婦を識別するケアマネージャを支援する、現実のMLベースのシステムの実装を提案する。
本研究は,米国医療保険会社の請求データを用いて,患者が妊娠しているかどうかを予測し,標準分類器を訓練し,妊娠合併症を発症するかどうかを判定するハイブリッドML分類器を開発した。
これらのモデルは、ケアマネジメントチームと連携して開発され、看護師の説明を伴うユーザインタフェースに統合された。
提案モデルでは, 管理可能な偽陽性率を犠牲にして, 妊婦の身元確認のためのクレームコードよりも優れていた。
我々のリスク合併症分類器は、合併症のリスクによって、正確に患者をトリアージできることを示している。
我々のアプローチと評価は人間中心の設計によって導かれる。
看護婦とのユーザスタディでは、既存のアプローチよりも提案されたモデルが好まれていた。
A high-risk pregnancy is a pregnancy complicated by factors that can adversely affect the outcomes of the mother or the infant. Health insurers use algorithms to identify members who would benefit from additional clinical support. This work presents the implementation of a real-world ML-based system to assist care managers in identifying pregnant patients at risk of complications. In this retrospective evaluation study, we developed a novel hybrid-ML classifier to predict whether patients are pregnant and trained a standard classifier using claims data from a health insurance company in the US to predict whether a patient will develop pregnancy complications. These models were developed in cooperation with the care management team and integrated into a user interface with explanations for the nurses. The proposed models outperformed commonly used claim codes for the identification of pregnant patients at the expense of a manageable false positive rate. Our risk complication classifier shows that we can accurately triage patients by risk of complication. Our approach and evaluation are guided by human-centric design. In user studies with the nurses, they preferred the proposed models over existing approaches. | 翻訳日:2024-04-24 01:12:24 公開日:2024-04-22 |
# 物質量子定規を用いた関係重ね合わせ測定
Relational superposition measurements with a material quantum ruler ( http://arxiv.org/abs/2306.00347v4 ) ライセンス: Link先を確認 | Hui Wang, Flaminia Giacomini, Franco Nori, Miles P. Blencowe, | (参考訳) 物理学では、抽象量に物理的意味を与えるための操作的測定手順を特定することが重要である。
量子システムを使った時間の定義には多大な努力が払われているが、宇宙でも同じことが達成されていない。
量子系の位置に関する情報を得るための操作手順の開発は、時空の古典的な概念に頼らない一般相対性理論と量子論を組み合わせた理論にとって特に重要である。
ここでは、この目標に向けて第一歩を踏み出し、位置測定装置として機能する拡張材料量子システムを記述するモデルを導入する。
このような「量子定規」は、調和して相互作用する双極子から成り、別の量子系の位置に対する(量子)参照システムとして機能する。
我々は「位置の重畳」に対応する量子測定手順を定義でき、この測定を行うことで、量子系が整合的あるいは非整合的な重畳状態にあるときに、位置ベースで区別できることを示す。
モデルは完全にリレーショナルであり、唯一の有意な変数は定規と系の間の相対的な位置であり、測定値は測定装置と測定システムの間の相互作用によって表される。
In physics, it is crucial to identify operational measurement procedures to give physical meaning to abstract quantities. There has been significant effort to define time operationally using quantum systems, but the same has not been achieved for space. Developing an operational procedure to obtain information about the location of a quantum system is particularly important for a theory combining general relativity and quantum theory, which cannot rest on the classical notion of spacetime. Here, we take a first step towards this goal, and introduce a model to describe an extended material quantum system working as a position measurement device. Such a "quantum ruler" is composed of $N$ harmonically interacting dipoles and serves as a (quantum) reference system for the position of another quantum system. We show that we can define a quantum measurement procedure corresponding to the "superposition of positions", and that by performing this measurement we can distinguish when the quantum system is in a coherent or incoherent superposition in the position basis. The model is fully relational, because the only meaningful variables are the relative positions between the ruler and the system, and the measurement is expressed in terms of an interaction between the measurement device and the measured system. | 翻訳日:2024-04-24 01:12:24 公開日:2024-04-22 |
# Visible, Semantic, Sample-Specific, Compatible Trigger によるめまい性バックドアアタック
Versatile Backdoor Attack with Visible, Semantic, Sample-Specific, and Compatible Triggers ( http://arxiv.org/abs/2306.00816v3 ) ライセンス: Link先を確認 | Ruotong Wang, Hongrui Chen, Zihao Zhu, Li Liu, Baoyuan Wu, | (参考訳) ディープニューラルネットワーク(DNN)は、特定のトリガーパターンに露出した際の特定の振る舞いを、‘textit{backdoor attack’と呼ばれる良質なサンプルのパフォーマンスに影響を与えることなく、操作することができる。
現在、物理的なシナリオでバックドア攻撃を実装することは、依然として重大な課題に直面している。
身体的攻撃は労働集約的で時間を要するもので、引き金は手動とヒューリスティックな方法で選択される。
さらに、デジタルアタックを物理的なシナリオに拡張することは、視覚的歪みに対する感受性と現実の世界における相手の欠如により、多くの課題に直面している。
これらの課題に対処するために、我々は、有効でステルス的でロバストな(VSSC)トリガを同時に達成するために、 \textbf{V}isible, \textbf{S}emantic, \textbf{S}ample-Specific, \textbf{C}ompatible(VSSC)トリガと呼ばれる新しいトリガを定義し、対応するオブジェクトを使用して物理シナリオに効果的にデプロイすることができる。
VSSCトリガを実装するために,大規模言語モデルを利用した適切なトリガを体系的に識別するトリガ選択モジュール,生成モデルを用いた画像へのトリガのシームレスな統合を行うトリガ挿入モジュール,視覚言語モデルによるトリガの自然かつ成功的な挿入を保証する品質評価モジュールの3つのモジュールからなる自動パイプラインを提案する。
広範囲な実験結果と分析により、VSSCトリガの有効性、ステルス性、堅牢性が検証された。
視覚的な歪みの下で頑健さを維持するだけでなく、物理的なシナリオにおいて強力な実用性を示す。
提案されたVSSCトリガと実装アプローチが,バックドアアタックにおけるより実用的なトリガの設計に関する今後の研究を刺激することを期待しています。
Deep neural networks (DNNs) can be manipulated to exhibit specific behaviors when exposed to specific trigger patterns, without affecting their performance on benign samples, dubbed \textit{backdoor attack}. Currently, implementing backdoor attacks in physical scenarios still faces significant challenges. Physical attacks are labor-intensive and time-consuming, and the triggers are selected in a manual and heuristic way. Moreover, expanding digital attacks to physical scenarios faces many challenges due to their sensitivity to visual distortions and the absence of counterparts in the real world. To address these challenges, we define a novel trigger called the \textbf{V}isible, \textbf{S}emantic, \textbf{S}ample-Specific, and \textbf{C}ompatible (VSSC) trigger, to achieve effective, stealthy and robust simultaneously, which can also be effectively deployed in the physical scenario using corresponding objects. To implement the VSSC trigger, we propose an automated pipeline comprising three modules: a trigger selection module that systematically identifies suitable triggers leveraging large language models, a trigger insertion module that employs generative models to seamlessly integrate triggers into images, and a quality assessment module that ensures the natural and successful insertion of triggers through vision-language models. Extensive experimental results and analysis validate the effectiveness, stealthiness, and robustness of the VSSC trigger. It can not only maintain robustness under visual distortions but also demonstrates strong practicality in the physical scenario. We hope that the proposed VSSC trigger and implementation approach could inspire future studies on designing more practical triggers in backdoor attacks. | 翻訳日:2024-04-24 01:12:24 公開日:2024-04-22 |
# 提案をいつ提示するか?AI支援プログラミングにおける人間のフィードバックの統合
When to Show a Suggestion? Integrating Human Feedback in AI-Assisted Programming ( http://arxiv.org/abs/2306.04930v3 ) ライセンス: Link先を確認 | Hussein Mozannar, Gagan Bansal, Adam Fourney, Eric Horvitz, | (参考訳) CopilotやCodeWhispererといったAIによるコード推奨システムは、生産性向上を目的としたプログラマの環境(IDEなど)内のコード提案を提供する。
我々は、プログラマの受け入れやコード提案の拒否に関する信号を活用するメカニズムを追求し、レコメンデーションをガイドする。
数百万のプログラマが使用しているシステムであるGitHub Copilotとのインタラクションから引き出されたデータを活用して、プログラマの時間を節約できる介入を開発します。
我々は、表示を控えるよりも提示する提案について決定を下すためのユーティリティ理論フレームワークを導入する。
このアプローチは、人間のフィードバック(CDHF)からの条件付き提案表示であり、推奨コードが受け入れられる可能性を示すモデルのカスケードに依存している。
これらの可能性を利用して提案を選択的に隠蔽し、レイテンシとプログラマの検証時間を短縮する。
535人のプログラマのデータを用いて、CDHFの振り返り評価を行い、拒否されたであろう提案のかなりの部分の表示を回避できることを示します。
さらに,Ablationによる提案の提示時期の決定に,プログラマの潜伏状態が組み込まれることの重要性を実証する。
最後に,提案の表示を誘導する報奨信号として提案受理を用いると,品質が低下し,予期せぬ落とし穴が生じることを示す。
AI powered code-recommendation systems, such as Copilot and CodeWhisperer, provide code suggestions inside a programmer's environment (e.g., an IDE) with the aim of improving productivity. We pursue mechanisms for leveraging signals about programmers' acceptance and rejection of code suggestions to guide recommendations. We harness data drawn from interactions with GitHub Copilot, a system used by millions of programmers, to develop interventions that can save time for programmers. We introduce a utility-theoretic framework to drive decisions about suggestions to display versus withhold. The approach, conditional suggestion display from human feedback (CDHF), relies on a cascade of models that provide the likelihood that recommended code will be accepted. These likelihoods are used to selectively hide suggestions, reducing both latency and programmer verification time. Using data from 535 programmers, we perform a retrospective evaluation of CDHF and show that we can avoid displaying a significant fraction of suggestions that would have been rejected. We further demonstrate the importance of incorporating the programmer's latent unobserved state in decisions about when to display suggestions through an ablation study. Finally, we showcase how using suggestion acceptance as a reward signal for guiding the display of suggestions can lead to suggestions of reduced quality, indicating an unexpected pitfall. | 翻訳日:2024-04-24 01:12:24 公開日:2024-04-22 |
# インプットニューラル表現を用いたインプットと予測のための時系列連続モデリング
Time Series Continuous Modeling for Imputation and Forecasting with Implicit Neural Representations ( http://arxiv.org/abs/2306.05880v5 ) ライセンス: Link先を確認 | Etienne Le Naour, Louis Serrano, Léon Migus, Yuan Yin, Ghislain Agoua, Nicolas Baskiotis, Patrick Gallinari, Vincent Guigue, | (参考訳) 時系列計算と予測のための新しいモデリング手法を導入し、不規則なサンプル、欠落データ、複数のセンサからの非整合測定など、現実世界のデータで頻繁に発生する課題に対処する。
本手法はシリーズの進化力学の連続時間依存モデルに依存する。
シーケンシャルデータに対する条件付き暗黙のニューラル表現の適応を利用する。
メタラーニングアルゴリズムによって駆動される変調機構は、長期的な予測のために観察されたタイムウインドウを超えて、見知らぬサンプルや外挿に適応することができる。
このモデルは、幅広い挑戦的なシナリオにわたるタスクの計算と予測のための、非常に柔軟で統一されたフレームワークを提供する。
古典的なベンチマークで最先端のパフォーマンスを達成し、代替の時間連続モデルより優れています。
We introduce a novel modeling approach for time series imputation and forecasting, tailored to address the challenges often encountered in real-world data, such as irregular samples, missing data, or unaligned measurements from multiple sensors. Our method relies on a continuous-time-dependent model of the series' evolution dynamics. It leverages adaptations of conditional, implicit neural representations for sequential data. A modulation mechanism, driven by a meta-learning algorithm, allows adaptation to unseen samples and extrapolation beyond observed time-windows for long-term predictions. The model provides a highly flexible and unified framework for imputation and forecasting tasks across a wide range of challenging scenarios. It achieves state-of-the-art performance on classical benchmarks and outperforms alternative time-continuous models. | 翻訳日:2024-04-24 01:12:24 公開日:2024-04-22 |
# 大規模言語モデルを用いた分子キャプション翻訳のための分子探索の強化:ChatGPTの視点から
Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective ( http://arxiv.org/abs/2306.06615v2 ) ライセンス: Link先を確認 | Jiatong Li, Yunqing Liu, Wenqi Fan, Xiao-Yong Wei, Hui Liu, Jiliang Tang, Qing Li, | (参考訳) 分子発見は様々な科学分野において重要な役割を担い、調整された材料や薬物の設計を進めた。
しかし、既存の手法のほとんどはドメインの専門家に大きく依存し、過剰な計算コストを必要とするか、あるいは準最適性能に悩まされている。
一方、ChatGPTのようなLarge Language Models(LLM)は、自然言語理解、一般化、およびインコンテキスト学習(ICL)において、分子発見を前進させる前例のない機会を提供するため、様々なモーダルなタスクにおいて顕著な性能を示している。
LLMをこのタスクに適用しようとする以前の試みはいくつかあったが、ドメイン固有のコーパスの欠如と専門LLMの訓練の難しさは依然として課題である。
本研究では,分子カプセル翻訳のための新しいLCMベースのフレームワーク(MolReGPT)を提案する。そこでは,ChatGPTのようなLCMを用いて分子探索を行い,ドメイン固有の事前学習や微調整を行うことなく,コンテキスト内学習機能を実現するために,In-Context Few-Shot Molecule Learningパラダイムを導入する。
MolReGPTは、分子類似性の原理を利用して、類似した分子とそのテキスト記述をローカルデータベースから取得し、LLMがコンテキストの例からタスク知識を学習できるようにする。
分子理解とテキストベースの分子生成を含む分子キャプション翻訳におけるMollReGPTの有効性を評価する。
実験の結果, 微調整モデルと比較して, MolReGPT は MolT5 ベースより優れており, 追加のトレーニングを伴わずに MolT5 ベースに匹敵することがわかった。
私たちの知る限りでは、MollReGPTは分子の発見を促進するために分子キャプション翻訳における文脈内学習を通じてLLMを活用する最初の研究である。
我々の研究は、LLMアプリケーションの範囲を広げ、分子の発見と設計のための新しいパラダイムを提供する。
Molecule discovery plays a crucial role in various scientific fields, advancing the design of tailored materials and drugs. However, most of the existing methods heavily rely on domain experts, require excessive computational cost, or suffer from sub-optimal performance. On the other hand, Large Language Models (LLMs), like ChatGPT, have shown remarkable performance in various cross-modal tasks due to their powerful capabilities in natural language understanding, generalization, and in-context learning (ICL), which provides unprecedented opportunities to advance molecule discovery. Despite several previous works trying to apply LLMs in this task, the lack of domain-specific corpus and difficulties in training specialized LLMs still remain challenges. In this work, we propose a novel LLM-based framework (MolReGPT) for molecule-caption translation, where an In-Context Few-Shot Molecule Learning paradigm is introduced to empower molecule discovery with LLMs like ChatGPT to perform their in-context learning capability without domain-specific pre-training and fine-tuning. MolReGPT leverages the principle of molecular similarity to retrieve similar molecules and their text descriptions from a local database to enable LLMs to learn the task knowledge from context examples. We evaluate the effectiveness of MolReGPT on molecule-caption translation, including molecule understanding and text-based molecule generation. Experimental results show that compared to fine-tuned models, MolReGPT outperforms MolT5-base and is comparable to MolT5-large without additional training. To the best of our knowledge, MolReGPT is the first work to leverage LLMs via in-context learning in molecule-caption translation for advancing molecule discovery. Our work expands the scope of LLM applications, as well as providing a new paradigm for molecule discovery and design. | 翻訳日:2024-04-24 01:12:24 公開日:2024-04-22 |
# 陽子-陽子衝突におけるタウレプトンリアルタイム選択のための木対ニューラルネットワーク
Trees versus Neural Networks for enhancing tau lepton real-time selection in proton-proton collisions ( http://arxiv.org/abs/2306.06743v2 ) ライセンス: Link先を確認 | Maayan Yaary, Uriel Barron, Luis Pascual Domínguez, Boping Chen, Liron Barak, Erez Etzion, Raja Giryes, | (参考訳) 本稿では,陽子-陽子衝突器におけるハドロン崩壊したタウレプトンのリアルタイム選択(トリガリング)のための教師あり学習手法を紹介する。
古典的な機械学習決定木と、マルチ層パーセプトロンや残留ニューラルネットワークのような高度なディープラーニングモデルを実装することにより、標準的なしきい値タウトリガと比較して、パフォーマンスの目に見える改善が観察される。
その結果,低エネルギーのタウレプトンによって分類された陽子-陽子衝突における新しい現象の探索の感度を高めることに寄与している。
さらに、物理学の他の問題に関連する結論とともに、タウトリガーにニューラルネットワークと決定木を用いた方がよい時期を解析する。
This paper introduces supervised learning techniques for real-time selection (triggering) of hadronically decaying tau leptons in proton-proton colliders. By implementing classic machine learning decision trees and advanced deep learning models, such as Multi-Layer Perceptron or residual neural networks, visible improvements in performance compared to standard threshold tau triggers are observed. We show how such an implementation may lower selection energy thresholds, thus contributing to increasing the sensitivity of searches for new phenomena in proton-proton collisions classified by low-energy tau leptons. Moreover, we analyze when it is better to use neural networks versus decision trees for tau triggers with conclusions relevant to other problems in physics. | 翻訳日:2024-04-24 01:12:24 公開日:2024-04-22 |
# 分散量子コンピューティングシミュレーションのための設計フレームワーク
A Design Framework for the Simulation of Distributed Quantum Computing ( http://arxiv.org/abs/2306.11539v3 ) ライセンス: Link先を確認 | Davide Ferrari, Michele Amoretti, | (参考訳) 大規模量子コンピュータの需要が増大し、分散量子コンピューティング(DQC)の研究が進められている。
最近の実験的試みは、そのような設計のためのビルディングブロックのいくつかを実証している。
DQCシステムは量子ネットワーク基盤によって接続された量子処理ユニット(QPU)のクラスタである。
拡張範囲は、単一のボックスから地理的スケールまで様々である。
さらに、従来の高性能コンピューティングシステムと統合することができる。
DQCアーキテクチャのシミュレーションモデリングは、異なるWhat-ifシナリオをテストし、探索するための安全な方法を提供する。
多くのシミュレーションツールは、ハードウェア、プロトコル、アプリケーションを含む量子コンピュータおよび量子ネットワーク技術の設計および評価において研究コミュニティを支援するために開発されている。
しかし,DQCシミュレーションにおける計算面とネットワーク面に等しく重点を置くフレームワークはこれまでに提案されていない。
本稿では,DQCシミュレーションのコアコンポーネントとして,ネットワーク化された量子コンピュータ上でのDQCジョブのスケジューリングを行うExecution Managerを提案する。
QPUの利用率と量子ネットワークの利用率に対するジョブスケジューリングアルゴリズムの影響を評価するために,従来のメイスパンの概念を超える2つの指標が提案されている。
この議論は、DQCジョブスケジューリングの例で支持されており、提案された指標から2つの異なる戦略を比較している。
The growing demand for large-scale quantum computers is pushing research on Distributed Quantum Computing (DQC). Recent experimental efforts have demonstrated some of the building blocks for such a design. DQC systems are clusters of quantum processing units (QPUs) connected by means of quantum network infrastructures. Their extension ranges from the single box to the geographical scale. Furthermore, they can be integrated with classical High Performance Computing systems. Simulation modeling of DQC architectures provides a safe way to test and explore different what-if scenarios. Many simulation tools have been developed to support the research community in designing and evaluating quantum computer and quantum network technologies, including hardware, protocols, and applications. However, a framework for DQC simulation putting equal emphasis on computational and networking aspects has never been proposed, so far. In this paper, a design framework for DQC simulation is presented, whose core component is an Execution Manager that schedules DQC jobs for running on networked quantum computers. Two metrics are proposed for evaluating the impact of the job scheduling algorithms with respect to QPU utilization and quantum network utilization, beyond the traditional concept of makespan. The discussion is supported by a DQC job scheduling example, where two different strategies are compared in terms of the proposed metrics. | 翻訳日:2024-04-24 01:12:24 公開日:2024-04-22 |
# 側面情報を用いたフェデレーション学習における適応圧縮
Adaptive Compression in Federated Learning via Side Information ( http://arxiv.org/abs/2306.12625v3 ) ライセンス: Link先を確認 | Berivan Isik, Francesco Pase, Deniz Gunduz, Sanmi Koyejo, Tsachy Weissman, Michele Zorzi, | (参考訳) クライアントからサーバにモデル更新を送信する際の通信コストは、スケーラブルなフェデレーションラーニング(FL)にとって大きなボトルネックとなります。
クライアント$n$は、クライアントのみの確率分布$q_{\phi^{(n)}}$からサンプルを送り、サーバはこれらのサンプルを使用してクライアントの分布の平均を推定する。
しかしながら、これらの手法は、トレーニングプロセスを通してサーバがクライアントの分散である$q_{\phi^{(n)}}$ in Kullback-Leibler (KL) の分散に近いグローバルディストリビューション$p_{\theta}$のサイド情報を持つようなFLセットアップを完全には利用しない。
本稿では、クライアントのディストリビューションである$q_{\phi^{(n)}}$'sとサーバのサイド情報$p_{\theta}$の近さを利用して、約$D_{KL}(q_{\phi^{(n)}}|| p_{\theta})$ビットの通信を必要とするフレームワークを提案する。
我々は,提案手法を既存の確率的圧縮フレームワークに組み込んで,前処理の最大8,200ドル分のビットレートで同じ(高頻度で)テスト精度を達成できることを示し,圧縮全体の2,650倍に対応する。
The high communication cost of sending model updates from the clients to the server is a significant bottleneck for scalable federated learning (FL). Among existing approaches, state-of-the-art bitrate-accuracy tradeoffs have been achieved using stochastic compression methods -- in which the client $n$ sends a sample from a client-only probability distribution $q_{\phi^{(n)}}$, and the server estimates the mean of the clients' distributions using these samples. However, such methods do not take full advantage of the FL setup where the server, throughout the training process, has side information in the form of a global distribution $p_{\theta}$ that is close to the clients' distribution $q_{\phi^{(n)}}$ in Kullback-Leibler (KL) divergence. In this work, we exploit this closeness between the clients' distributions $q_{\phi^{(n)}}$'s and the side information $p_{\theta}$ at the server, and propose a framework that requires approximately $D_{KL}(q_{\phi^{(n)}}|| p_{\theta})$ bits of communication. We show that our method can be integrated into many existing stochastic compression frameworks to attain the same (and often higher) test accuracy with up to $82$ times smaller bitrate than the prior work -- corresponding to 2,650 times overall compression. | 翻訳日:2024-04-24 01:02:16 公開日:2024-04-22 |
# 両面置換反転問題について
On the Two-sided Permutation Inversion Problem ( http://arxiv.org/abs/2306.13729v2 ) ライセンス: Link先を確認 | Gorjan Alagic, Chen Bai, Alexander Poremba, Kaiyan Shi, | (参考訳) 置換反転問題において、タスクは、置換へのオラクルアクセスを与えられたチャレンジ値のプリイメージを見つけることである。
これはクエリの複雑さの根本的な問題であり、多くのコンテキスト、特に暗号に現れる。
本研究では,量子クエリが量子列の前方方向と逆方向の両方に許容されるような設定について検討する。
この設定の中で、逆アルゴリズムの2つの選択肢として、置換に関する量子アドバイスが得られるか、前置画像全体を生成する必要があるか(探索)、第1のビットのみを生成するか(決定)を考える。
逆問題の結果の変動の硬さを結合するいくつかの定理を証明し、多くの下界を確立する。
以上の結果から,逆問題自体を問合せできない場合,逆問題に対して逆数アクセスが与えられると,逆問題はかなり難しくなる可能性が示唆された。
In the permutation inversion problem, the task is to find the preimage of some challenge value, given oracle access to the permutation. This is a fundamental problem in query complexity, and appears in many contexts, particularly cryptography. In this work, we examine the setting in which the oracle allows for quantum queries to both the forward and the inverse direction of the permutation -- except that the challenge value cannot be submitted to the latter. Within that setting, we consider two options for the inversion algorithm: whether it can get quantum advice about the permutation, and whether it must produce the entire preimage (search) or only the first bit (decision). We prove several theorems connecting the hardness of the resulting variations of the inversion problem, and establish a number of lower bounds. Our results indicate that, perhaps surprisingly, the inversion problem does not become significantly easier when the adversary is granted oracle access to the inverse, provided it cannot query the challenge itself. | 翻訳日:2024-04-24 01:02:16 公開日:2024-04-22 |
# ストロークレベルバドミントンデータセットによるストローク予測のベンチマーク
Benchmarking Stroke Forecasting with Stroke-Level Badminton Dataset ( http://arxiv.org/abs/2306.15664v3 ) ライセンス: Link先を確認 | Wei-Yao Wang, Wei-Wei Du, Wen-Chih Peng, Tsi-Ui Ik, | (参考訳) 近年、人工知能の進歩とデータ収集の効率化により、バドミントン分析が注目されている。
プレイヤーのパフォーマンスを改善し、調査するための効果的なアプリケーションがありますが、バドミントンドメイン以外の研究者が使用可能なパブリックなバドミントンデータセットはごくわずかです。
既存のバドミントンシングルスデータセットは特定のマッチアップに焦点を当てているが、異なるプレイヤーや様々なマッチアップに関する包括的な研究は提供できない。
本稿では,2022年の上位試合から収集したバドミントンシングルスデータセットであるShuttleSet22を提案する。
ShuttleSet22は、トレーニングセットで30,172ストローク、トレーニングセットで2,888トローク、検証セットで450トロークで1,400トローク、テストセットで654トロークで2,040トローク、ラリーで詳細なストロークレベルのメタデータで構成されている。
CoachAI Badminton Challenge @IJCAI 2023では、研究者が革新的なアプローチを通じてこの現実世界の問題に取り組むことを奨励し、最先端のベースラインと改善された技術の間の洞察をまとめ、アイデアを交換する。
ベースラインコードとデータセットはhttps://github.com/wywyWang/CoachAI-Projects/tree/main/CoachAI-Challenge-IJCAI2023で公開されている。
In recent years, badminton analytics has drawn attention due to the advancement of artificial intelligence and the efficiency of data collection. While there is a line of effective applications to improve and investigate player performance, there are only a few public badminton datasets that can be used by researchers outside the badminton domain. Existing badminton singles datasets focus on specific matchups; however, they cannot provide comprehensive studies on different players and various matchups. In this paper, we provide a badminton singles dataset, ShuttleSet22, which is collected from high-ranking matches in 2022. ShuttleSet22 consists of 30,172 strokes in 2,888 rallies in the training set, 1,400 strokes in 450 rallies in the validation set, and 2,040 strokes in 654 rallies in the testing set, with detailed stroke-level metadata within a rally. To benchmark existing work with ShuttleSet22, we hold a challenge, Track 2: Forecasting Future Turn-Based Strokes in Badminton Rallies, at CoachAI Badminton Challenge @ IJCAI 2023, to encourage researchers to tackle this real-world problem through innovative approaches and to summarize insights between the state-of-the-art baseline and improved techniques, exchanging inspiring ideas. The baseline codes and the dataset are made available at https://github.com/wywyWang/CoachAI-Projects/tree/main/CoachAI-Challenge-IJCAI2023. | 翻訳日:2024-04-24 01:02:16 公開日:2024-04-22 |
# エンドツーエンドの自動運転 - 課題とフロンティア
End-to-end Autonomous Driving: Challenges and Frontiers ( http://arxiv.org/abs/2306.16927v2 ) ライセンス: Link先を確認 | Li Chen, Penghao Wu, Kashyap Chitta, Bernhard Jaeger, Andreas Geiger, Hongyang Li, | (参考訳) 自動運転車コミュニティは、検出やモーション予測といった個々のタスクに集中するのではなく、生のセンサー入力を使用して車両の動き計画を生成する、エンドツーエンドのアルゴリズムフレームワークを採用するアプローチの急速な成長を目撃している。
モジュールパイプラインと比較して、エンドツーエンドのシステムは、知覚と計画のための共同機能最適化の恩恵を受ける。
この分野は、大規模データセットの可用性、クローズドループ評価、そして挑戦的なシナリオで効果的に実行する自律運転アルゴリズムの必要性の増加により、繁栄している。
本調査では,270以上の論文を総合的に分析し,エンド・ツー・エンドの自動運転におけるモチベーション,ロードマップ,方法論,課題,今後の動向について考察する。
マルチモダリティ、解釈可能性、因果的混乱、堅牢性、世界モデルなど、いくつかの重要な課題を掘り下げます。
さらに、基礎モデルと視覚前訓練の現在の進歩と、これらの技術をエンドツーエンドの駆動フレームワークに組み込む方法について論じる。
私たちはhttps://github.com/OpenDriveLab/End-to-end-Autonomous-Driving.comで最新の文献とオープンソースプロジェクトを含むアクティブリポジトリを維持しています。
The autonomous driving community has witnessed a rapid growth in approaches that embrace an end-to-end algorithm framework, utilizing raw sensor input to generate vehicle motion plans, instead of concentrating on individual tasks such as detection and motion prediction. End-to-end systems, in comparison to modular pipelines, benefit from joint feature optimization for perception and planning. This field has flourished due to the availability of large-scale datasets, closed-loop evaluation, and the increasing need for autonomous driving algorithms to perform effectively in challenging scenarios. In this survey, we provide a comprehensive analysis of more than 270 papers, covering the motivation, roadmap, methodology, challenges, and future trends in end-to-end autonomous driving. We delve into several critical challenges, including multi-modality, interpretability, causal confusion, robustness, and world models, amongst others. Additionally, we discuss current advancements in foundation models and visual pre-training, as well as how to incorporate these techniques within the end-to-end driving framework. we maintain an active repository that contains up-to-date literature and open-source projects at https://github.com/OpenDriveLab/End-to-end-Autonomous-Driving. | 翻訳日:2024-04-24 01:02:16 公開日:2024-04-22 |
# Manga109Dialog:コミック話者検出のための大規模対話データセット
Manga109Dialog: A Large-scale Dialogue Dataset for Comics Speaker Detection ( http://arxiv.org/abs/2306.17469v2 ) ライセンス: Link先を確認 | Yingxuan Li, Kiyoharu Aizawa, Yusuke Matsui, | (参考訳) 電子コミックの市場は拡大し、漫画を自動分析する手法の開発への関心が高まっている。
漫画の理解を深めるためには、漫画中のテキストを単語を話す文字にリンクするための自動アプローチが必要である。
コミック話者検出研究は、オーディオブックの自動文字割り当て、文字の個性に応じた自動翻訳、文字関係と物語の推測など、実践的な応用がある。
話者からテキストへのアノテーションが不十分な問題に対処するため,Manga109に基づく新しいアノテーションデータセットManga109Dialogを作成しました。
Manga109Dialogは世界最大の漫画話者データセットデータセットであり、132,692対の話者対を含む。
さらに,話者検出手法をより適切に評価するために,予測困難によりデータセットを異なるレベルに分割した。
距離に基づく既存手法とは異なり,シーングラフ生成モデルを用いた深層学習手法を提案する。
漫画の特徴から,フレーム読取順序を考慮し,提案したモデルの性能を向上させる。
Manga109Dialogや他のデータセットを用いて実験を行った。
実験の結果,シーングラフによるアプローチは既存の手法よりも優れており,予測精度は75%以上であることがわかった。
The expanding market for e-comics has spurred interest in the development of automated methods to analyze comics. For further understanding of comics, an automated approach is needed to link text in comics to characters speaking the words. Comics speaker detection research has practical applications, such as automatic character assignment for audiobooks, automatic translation according to characters' personalities, and inference of character relationships and stories. To deal with the problem of insufficient speaker-to-text annotations, we created a new annotation dataset Manga109Dialog based on Manga109. Manga109Dialog is the world's largest comics speaker annotation dataset, containing 132,692 speaker-to-text pairs. We further divided our dataset into different levels by prediction difficulties to evaluate speaker detection methods more appropriately. Unlike existing methods mainly based on distances, we propose a deep learning-based method using scene graph generation models. Due to the unique features of comics, we enhance the performance of our proposed model by considering the frame reading order. We conducted experiments using Manga109Dialog and other datasets. Experimental results demonstrate that our scene-graph-based approach outperforms existing methods, achieving a prediction accuracy of over 75%. | 翻訳日:2024-04-24 01:02:16 公開日:2024-04-22 |
# 大規模言語モデル(LLM)時代のレコメンダシステム
Recommender Systems in the Era of Large Language Models (LLMs) ( http://arxiv.org/abs/2307.02046v5 ) ライセンス: Link先を確認 | Zihuai Zhao, Wenqi Fan, Jiatong Li, Yunqing Liu, Xiaowei Mei, Yiqi Wang, Zhen Wen, Fei Wang, Xiangyu Zhao, Jiliang Tang, Qing Li, | (参考訳) eコマースとWebアプリケーションの繁栄により、Recommender Systems(RecSys)は私たちの日常生活の重要なコンポーネントとなり、ユーザの好みに合わせてパーソナライズされた提案を提供しています。
ディープニューラルネットワーク(DNN)は、ユーザとイテムのインタラクションをモデル化し、テキスト側情報を取り入れることでレコメンダシステムの強化に大きく進歩しているが、DNNベースの手法は、ユーザの関心の理解の困難さやテキスト側情報の取得、さまざまなレコメンデーションシナリオの一般化の障害、予測の推論など、制限に直面している。
一方、ChatGPTやGPT4といった大規模言語モデル(LLM)の出現は、自然言語処理(NLP)と人工知能(AI)の分野に革命をもたらした。
その結果、最近の研究はレコメンダシステムを強化するためにLLMのパワーを活用しようと試みている。
推薦システムにおけるこの研究方向の急速な進化を考えると、既存のLLMを利用した推薦システムを要約した体系的な概要が必要である。
そこで本稿では, プレトレーニング, ファインチューニング, プロンプティングなど, LLMを活用したレコメンデータシステムの総合的なレビューを行う。
具体的には、まず、ユーザやアイテムの表現を学習するためのLLM(機能エンコーダ)のパワーを利用する代表的手法を紹介する。
次に,3つのパラダイム,すなわち事前学習,微調整,プロンプトからレコメンデーションシステムを強化するためのLLMの最近の技術について概説する。
最後に、この新興分野における今後の方向性を包括的に論じる。
With the prosperity of e-commerce and web applications, Recommender Systems (RecSys) have become an important component of our daily life, providing personalized suggestions that cater to user preferences. While Deep Neural Networks (DNNs) have made significant advancements in enhancing recommender systems by modeling user-item interactions and incorporating textual side information, DNN-based methods still face limitations, such as difficulties in understanding users' interests and capturing textual side information, inabilities in generalizing to various recommendation scenarios and reasoning on their predictions, etc. Meanwhile, the emergence of Large Language Models (LLMs), such as ChatGPT and GPT4, has revolutionized the fields of Natural Language Processing (NLP) and Artificial Intelligence (AI), due to their remarkable abilities in fundamental responsibilities of language understanding and generation, as well as impressive generalization and reasoning capabilities. As a result, recent studies have attempted to harness the power of LLMs to enhance recommender systems. Given the rapid evolution of this research direction in recommender systems, there is a pressing need for a systematic overview that summarizes existing LLM-empowered recommender systems, to provide researchers in relevant fields with an in-depth understanding. Therefore, in this paper, we conduct a comprehensive review of LLM-empowered recommender systems from various aspects including Pre-training, Fine-tuning, and Prompting. More specifically, we first introduce representative methods to harness the power of LLMs (as a feature encoder) for learning representations of users and items. Then, we review recent techniques of LLMs for enhancing recommender systems from three paradigms, namely pre-training, fine-tuning, and prompting. Finally, we comprehensively discuss future directions in this emerging field. | 翻訳日:2024-04-24 01:02:16 公開日:2024-04-22 |
# アナログ量子シミュレーションにおけるアルゴリズム誤差の最適化
Optimization of Algorithmic Errors in Analog Quantum Simulations ( http://arxiv.org/abs/2308.02642v3 ) ライセンス: Link先を確認 | Nikita A. Zemlevskiy, Henry F. Froland, Stephan Caspar, | (参考訳) アナログ量子シミュレーションは、多体リアルタイム力学のような古典的に到達不可能な物理学を明らかにする強力なツールとして登場しつつある。
現代のデバイス上でのシミュレーションを用いて正確な予測を行うためには,不確実性の完全定量化が必要である。
したがって、シミュレーションのパラメータに関するデバイス固有の物理的制限を理解する必要がある。
本分析では,実世界のデバイス制約による近似時間進化シミュレーションによる誤差の相互関係について検討する。
これらの誤差はイジング・ハミルトンによって記述されたアナログ量子デバイス上のハイゼンベルク型システムで研究される。
これらの誤差を定量化するための一般的なフレームワークが提案され、トロッターライクな手法やフロケエンジニアリングによる定数場アプローチなど、いくつかの時間発展手法に適用されている。
現行装置による時間発展法の精度の限界について論じる。
異なるエラーソースのコヒーレント効果のスケーリングのキャラクタリゼーションは、提示されたハミルトン工学手法を拡張して、今後のデバイス機能を活用する方法を提供する。
Analog quantum simulation is emerging as a powerful tool for uncovering classically unreachable physics such as many-body real-time dynamics. A complete quantification of uncertainties is necessary in order to make precise predictions using simulations on modern-day devices. Therefore, the inherent physical limitations of the device on the parameters of the simulation must be understood. This analysis examines the interplay of errors arising from simulation of approximate time evolution with those due to practical, real-world device constraints. These errors are studied in Heisenberg-type systems on analog quantum devices described by the Ising Hamiltonian. A general framework for quantifying these errors is introduced and applied to several proposed time evolution methods, including Trotter-like methods and Floquet-engineered constant-field approaches. The limitations placed on the accuracy of time evolution methods by current devices are discussed. Characterization of the scaling of coherent effects of different error sources provides a way to extend the presented Hamiltonian engineering methods to take advantage of forthcoming device capabilities. | 翻訳日:2024-04-24 01:02:16 公開日:2024-04-22 |
# 断熱的量子想像時間進化
Adiabatic quantum imaginary time evolution ( http://arxiv.org/abs/2308.03292v2 ) ライセンス: Link先を確認 | Kasra Hejazi, Mario Motta, Garnet Kin-Lic Chan, | (参考訳) 本稿では,ハミルトニアンの下での量子想像時間進化を実装した断熱的状態準備プロトコルを提案する。
元々の量子想像時間進化アルゴリズムとは異なり、断熱的量子想像時間進化はその実行中に量子状態トモグラフィを必要としない。
その代わりに、アルゴリズムは古典微分方程式を統合し、虚時進化状態軌跡に従うことを保証して、断熱的ハミルトン式を得る。
我々は、このプロトコルを限られたリソースを持つ量子アーキテクチャ上で実装できるヒューリスティックスを導入する。
1次元スピンモデルにおける古典的シミュレーションによるこのアルゴリズムの性能について検討し、そのコスト、性能、実装性を長期にわたって決定する重要な特徴を浮き彫りにして、基底状態の準備のためのオリジナルの量子想像時間進化と比較する。
より一般的に、我々のアルゴリズムは、単純な明示的なハミルトンの基底状態として表されるものを超えて、断熱的状態準備法にアクセスできる状態の範囲を広げる。
We introduce an adiabatic state preparation protocol which implements quantum imaginary time evolution under the Hamiltonian of the system. Unlike the original quantum imaginary time evolution algorithm, adiabatic quantum imaginary time evolution does not require quantum state tomography during its runtime, and unlike standard adiabatic state preparation, the final Hamiltonian is not the system Hamiltonian. Instead, the algorithm obtains the adiabatic Hamiltonian by integrating a classical differential equation that ensures that one follows the imaginary time evolution state trajectory. We introduce some heuristics that allow this protocol to be implemented on quantum architectures with limited resources. We explore the performance of this algorithm via classical simulations in a one-dimensional spin model and highlight essential features that determine its cost, performance, and implementability for longer times, and compare to the original quantum imaginary time evolution for ground-state preparation. More generally, our algorithm expands the range of states accessible to adiabatic state preparation methods beyond those that are expressed as ground-states of simple explicit Hamiltonians. | 翻訳日:2024-04-24 00:52:28 公開日:2024-04-22 |
# デジタル量子コンピュータにおける基底状態準備のためのスケーラブル回路:100Qubit上のSchwinger Model Vacuum
Scalable Circuits for Preparing Ground States on Digital Quantum Computers: The Schwinger Model Vacuum on 100 Qubits ( http://arxiv.org/abs/2308.04481v3 ) ライセンス: Link先を確認 | Roland C. Farrell, Marc Illa, Anthony N. Ciavarella, Martin J. Savage, | (参考訳) 格子シュウィンガーモデルの真空は、IBMのイーグルプロセッサ量子コンピュータの最大100キュービットで作られる。
量子コンピュータ上のギャップ付き翻訳不変系の基底状態を作成するための新しいアルゴリズムを提示し,これをスケーラブル回路 ADAPT-VQE (SC-ADAPT-VQE) と呼ぶ。
このアルゴリズムは、ADAPT-VQEとともに、基底状態の遠い領域間の相関関係の指数的減衰を利用して、任意に大きなシステムにスケールできる状態準備のための量子回路を構築する。
これらのスケーラブル回路は、量子コンピュータ上のパラメータ化回路を最適化する難しいタスクを避けるために、古典的なコンピュータを用いて決定することができる。
SC-ADAPT-VQEはシュウィンガーモデルに適用され、回路深さと指数的に収束する精度で体系的に即効性を示す。
回路の構造と準備された波動関数の偏差の両方が、空間的位置の個数($L$)に依存しないことが分かる。
これにより、小または中小のシステムを用いて決定される回路の制御外挿が可能となり、任意の大きさの$L$が得られる。
シュウィンガーモデルの回路は、カイスキットの古典的シミュレータによる格子上で決定され、その後、IBMの超伝導量子コンピュータ ibm_brisbane と ibm_cusco 上の$L=50$ (100 qubits) 真空を準備するためにスケールアップされた。
演算子デコヒーレンス再正規化(Operator Decoherence Renormalization)と呼ばれる改良された誤り軽減手法を導入すると、量子コンピュータから得られたカイラル縮合と電荷電荷相関器は、古典的行列積状態シミュレーションとよく一致していることがわかった。
The vacuum of the lattice Schwinger model is prepared on up to 100 qubits of IBM's Eagle-processor quantum computers. A new algorithm to prepare the ground state of a gapped translationally-invariant system on a quantum computer is presented, which we call Scalable Circuits ADAPT-VQE (SC-ADAPT-VQE). This algorithm uses the exponential decay of correlations between distant regions of the ground state, together with ADAPT-VQE, to construct quantum circuits for state preparation that can be scaled to arbitrarily large systems. These scalable circuits can be determined using classical computers, avoiding the challenging task of optimizing parameterized circuits on a quantum computer. SC-ADAPT-VQE is applied to the Schwinger model, and shown to be systematically improvable, with an accuracy that converges exponentially with circuit depth. Both the structure of the circuits and the deviations of prepared wavefunctions are found to become independent of the number of spatial sites, $L$. This allows for a controlled extrapolation of the circuits, determined using small or modest-sized systems, to arbitrarily large $L$. The circuits for the Schwinger model are determined on lattices up to $L=14$ (28 qubits) with the qiskit classical simulator, and subsequently scaled up to prepare the $L=50$ (100 qubits) vacuum on IBM's 127 superconducting-qubit quantum computers ibm_brisbane and ibm_cusco. After introducing an improved error-mitigation technique, which we call Operator Decoherence Renormalization, the chiral condensate and charge-charge correlators obtained from the quantum computers are found to be in good agreement with classical Matrix Product State simulations. | 翻訳日:2024-04-24 00:52:28 公開日:2024-04-22 |
# 二重スターク効果による波長可変高忠実光子源
Wavelength-tunable high-fidelity entangled photon sources enabled by dual Stark effects ( http://arxiv.org/abs/2308.04744v2 ) ライセンス: Link先を確認 | Chen Chen, Jun-Yong Yan, Hans-Georg Babin, Jiefei Wang, Xingqi Xu, Xing Lin, Qianqian Yu, Wei Fang, Run-Ze Liu, Yong-Heng Huo, Han Cai, Wei E. I. Sha, Jiaxiang Zhang, Christian Heyn, Andreas D. Wieck, Arne Ludwig, Da-Wei Wang, Chao-Yuan Jin, Feng Liu, | (参考訳) 大規模な量子インターネットの構築には、同じ波長の複数の絡み合った光子源を含む量子リピータが必要である。
半導体量子ドットは、高忠実度で決定的に絡み合った光子対を生成することができる。
しかし、波長整合量子ドットの絡み合った光子源を実現するには、放射波長の不均一性と励起子微細構造分割誘起忠実度低減の2つの困難に直面する。
通常、これらの2つの要因は独立して調整できないため、同時に改善することは困難である。
本研究は, 液滴エッチングGaAs量子ドットを用いた波長可変光子源について, 交流と量子集束スターク効果を組み合わせた実験を行った。
放射波長は、調整範囲全体で0.955(1)を超える絡み合い率fを保ちながら ~1 meV で調整することができる。
このハイブリッドチューニング方式に基づき、我々はついにf>0.919(3)で複数の波長整合光子源を実証し、量子インターネットと集積量子光学回路のための堅牢でスケーラブルなオンデマンド光子源への道を開いた。
The construction of a large-scale quantum internet requires quantum repeaters containing multiple entangled photon sources with identical wavelengths. Semiconductor quantum dots can generate entangled photon pairs deterministically with high fidelity. However, realizing wavelength-matched quantum-dot entangled photon sources faces two difficulties: the non-uniformity of emission wavelength and exciton fine-structure splitting induced fidelity reduction. Typically, these two factors are not independently tunable, making it challenging to achieve simultaneous improvement. In this work, we demonstrate wavelength-tunable entangled photon sources based on droplet-etched GaAs quantum dots through the combined use of AC and quantum-confined Stark effects. The emission wavelength can be tuned by ~1 meV while preserving an entanglement fidelity f exceeding 0.955(1) in the entire tuning range. Based on this hybrid tuning scheme, we finally demonstrate multiple wavelength-matched entangled photon sources with f>0.919(3), paving a way towards robust and scalable on-demand entangled photon sources for quantum internet and integrated quantum optical circuits. | 翻訳日:2024-04-24 00:52:28 公開日:2024-04-22 |
# 潜時空間歪みによるCreo-EMポース推定と3次元分類の改善
Improved cryo-EM Pose Estimation and 3D Classification through Latent-Space Disentanglement ( http://arxiv.org/abs/2308.04956v2 ) ライセンス: Link先を確認 | Weijie Chen, Yuhang Wang, Lin Yao, | (参考訳) 超低信号-雑音比(SNR)と低温電子顕微鏡(cryo-EM)実験における未知のポーズ(投影角度と画像シフト)のため、2D画像から3Dボリュームを再構成することは極めて困難である。
これらの課題に加えて、不均一なCryo-EM再構成にはコンフォメーション分類が必要である。
一般的なCryo-EM再構成アルゴリズムでは、入力されたCryo-EM画像毎に、ポーズとコンフォーメーションの分類ラベルを予測しなければならない。
新たなクラスのメソッドは、償却推論アプローチを採用した。
これらの方法では、ポーズとコンフォーメーションの推定のためにニューラルネットワークをトレーニングするためには、入力データセットのサブセットのみが必要である。
トレーニングが完了すると、これらのニューラルネットワークは、推論中にデータセット全体に対して、ポーズ/コンフォーメーション予測と3D再構成を低コストで行うことができる。
残念なことに、不均一な再構成タスクに直面している場合、現在の償却推論に基づく手法では、構造分布を効果的に推定し、絡み合った潜伏変数から引き起こすことは困難である。
本稿では,自己教師付き変分オートエンコーダアーキテクチャであるHetACUMNを提案する。
我々は,エンコーダ・デコーダの順序を逆転させ,コンフォーメーションの不整合を明示的に強制し,ポーズ予測を行うことにより,補助的条件付きポーズ予測タスクを採用した。
シミュレーションデータセットの結果,HetACUMNは,他のアモータイズ法や非アモータイズ法よりも正確なコンフォメーション分類が得られた。
さらに,HetACUMNは実実験データセットの異種3次元再構成を行うことができることを示す。
Due to the extremely low signal-to-noise ratio (SNR) and unknown poses (projection angles and image shifts) in cryo-electron microscopy (cryo-EM) experiments, reconstructing 3D volumes from 2D images is very challenging. In addition to these challenges, heterogeneous cryo-EM reconstruction requires conformational classification. In popular cryo-EM reconstruction algorithms, poses and conformation classification labels must be predicted for every input cryo-EM image, which can be computationally costly for large datasets. An emerging class of methods adopted the amortized inference approach. In these methods, only a subset of the input dataset is needed to train neural networks for the estimation of poses and conformations. Once trained, these neural networks can make pose/conformation predictions and 3D reconstructions at low cost for the entire dataset during inference. Unfortunately, when facing heterogeneous reconstruction tasks, it is hard for current amortized-inference-based methods to effectively estimate the conformational distribution and poses from entangled latent variables. Here, we propose a self-supervised variational autoencoder architecture called "HetACUMN" based on amortized inference. We employed an auxiliary conditional pose prediction task by inverting the order of encoder-decoder to explicitly enforce the disentanglement of conformation and pose predictions. Results on simulated datasets show that HetACUMN generated more accurate conformational classifications than other amortized or non-amortized methods. Furthermore, we show that HetACUMN is capable of performing heterogeneous 3D reconstructions of a real experimental dataset. | 翻訳日:2024-04-24 00:52:28 公開日:2024-04-22 |
# 量子ニューラルネットワークが独自の周波数を選択する
Let Quantum Neural Networks Choose Their Own Frequencies ( http://arxiv.org/abs/2309.03279v2 ) ライセンス: Link先を確認 | Ben Jaderberg, Antonio A. Gentile, Youssef Achari Berrada, Elvira Shishenina, Vincent E. Elfving, | (参考訳) 機械学習モデルとしてのパラメータ化量子回路は、典型的には入力特徴の部分フーリエ級数として表現され、特徴写像のジェネレータハミルトンにより周波数が一意に決定される。
通常、これらのデータエンコーディングジェネレータは事前に選択され、表現できる関数の空間を固定する。
この研究では、量子モデルをジェネレータにトレーニング可能なパラメータの集合を含むように一般化し、トレーニング可能な周波数(TF)量子モデルへと導く。
TFモデルでは,非正規空間周波数やフレキシブルスペクトルの富度など,手前の課題を解く上で望ましい特性を持つジェネレータを学習する方法を数値的に示す。
最後に,各符号化操作に1つのパラメータのみを付加したTFモデルを用いて,Navier-Stokes方程式の解法精度の向上を示す。
TFモデルは従来の固定周波数モデルを含むため、変分量子機械学習において妥当なデフォルト選択を提供することができる。
Parameterized quantum circuits as machine learning models are typically well described by their representation as a partial Fourier series of the input features, with frequencies uniquely determined by the feature map's generator Hamiltonians. Ordinarily, these data-encoding generators are chosen in advance, fixing the space of functions that can be represented. In this work we consider a generalization of quantum models to include a set of trainable parameters in the generator, leading to a trainable frequency (TF) quantum model. We numerically demonstrate how TF models can learn generators with desirable properties for solving the task at hand, including non-regularly spaced frequencies in their spectra and flexible spectral richness. Finally, we showcase the real-world effectiveness of our approach, demonstrating an improved accuracy in solving the Navier-Stokes equations using a TF model with only a single parameter added to each encoding operation. Since TF models encompass conventional fixed frequency models, they may offer a sensible default choice for variational quantum machine learning. | 翻訳日:2024-04-24 00:52:28 公開日:2024-04-22 |
# 心電図分類のためのマスク変圧器
Masked Transformer for Electrocardiogram Classification ( http://arxiv.org/abs/2309.07136v2 ) ライセンス: Link先を確認 | Ya Zhou, Xiaolin Diao, Yanni Huo, Yang Liu, Xiaohan Fan, Wei Zhao, | (参考訳) 心電図(ECG)は臨床応用において最も重要な診断ツールの一つである。
高度なアルゴリズムの出現に伴い、ECGタスクに様々なディープラーニングモデルが採用されている。
しかし、コンピュータビジョンや自然言語処理で広く成功したにもかかわらず、ECGデータに対するトランスフォーマーの可能性はまだ実現されていない。
本稿では、マスク付きオートエンコーダのECG時系列への応用を拡大する、MTECGと呼ばれるECG分類のための有用なマスク付きトランスフォーマー法を提案する。
220,251個の心電図記録を医療専門家が診断し,MTECGの特性を探索するデータセットを構築した。
提案したトレーニング戦略では、5.7Mパラメータの軽量モデルが幅広いマスキング比(5%-75%)で安定に機能する。
アブレーション研究は, 変動する再建目標, トレーニングスケジュール長, 層状LR崩壊およびDropPath速度の重要性を強調した。
プライベートなECGデータセットとパブリックなECGデータセットの両方の実験により、MTECG-TはECG分類における最近の最先端アルゴリズムよりも大幅に優れていることが示された。
Electrocardiogram (ECG) is one of the most important diagnostic tools in clinical applications. With the advent of advanced algorithms, various deep learning models have been adopted for ECG tasks. However, the potential of Transformers for ECG data is not yet realized, despite their widespread success in computer vision and natural language processing. In this work, we present a useful masked Transformer method for ECG classification referred to as MTECG, which expands the application of masked autoencoders to ECG time series. We construct a dataset comprising 220,251 ECG recordings with a broad range of diagnoses annoated by medical experts to explore the properties of MTECG. Under the proposed training strategies, a lightweight model with 5.7M parameters performs stably well on a broad range of masking ratios (5%-75%). The ablation studies highlight the importance of fluctuated reconstruction targets, training schedule length, layer-wise LR decay and DropPath rate. The experiments on both private and public ECG datasets demonstrate that MTECG-T significantly outperforms the recent state-of-the-art algorithms in ECG classification. | 翻訳日:2024-04-24 00:52:28 公開日:2024-04-22 |
# ヘックマン選択モデルにおける予測的特徴割り当てについて
On Prediction Feature Assignment in the Heckman Selection Model ( http://arxiv.org/abs/2309.08043v2 ) ライセンス: Link先を確認 | Huy Mai, Xintao Wu, | (参考訳) MNARサンプル選択バイアスが欠如している場合、予測モデルの性能は劣化することが多い。
本稿では,MNARサンプル選択バイアスの古典的な例に焦点をあてる。
ヘックマン選別モデルとその変種は、この種のサンプル選別バイアスを扱うためによく使われている。
ヘックマンモデルでは、2つの異なる方程式を用いてサンプルの予測と選択をモデル化する。
Heckmanモデルを使用する場合、予測機能は一連の選択機能から適切に選択されなければならない。
しかし、適切な予測機能を選択することは、Heckmanモデルにとって難しい課題である。
これは特に、選択機能の数が多い場合に当てはまる。
Heckmanモデルを使った既存のアプローチは、しばしば手動で選択された予測機能を提供する。
本稿では,Heckmanモデルの予測機能を得るための新しいデータ駆動フレームワークとして,Heckman-FAを提案する。
Heckman-FAはまず、選択特徴が予測特徴として割り当てられているか否かを決定する代入関数を訓練する。
学習した関数のパラメータを用いて、選択した予測特徴が与えられた予測モデルの良さと、予測方程式の雑音項と選択方程式との相関に基づいて、適切な予測特徴のセットを抽出する。
実世界のデータセットを用いた実験結果から,Heckman-FAはMNARサンプル選択バイアスの下で頑健な回帰モデルを生成することが示された。
Under missing-not-at-random (MNAR) sample selection bias, the performance of a prediction model is often degraded. This paper focuses on one classic instance of MNAR sample selection bias where a subset of samples have non-randomly missing outcomes. The Heckman selection model and its variants have commonly been used to handle this type of sample selection bias. The Heckman model uses two separate equations to model the prediction and selection of samples, where the selection features include all prediction features. When using the Heckman model, the prediction features must be properly chosen from the set of selection features. However, choosing the proper prediction features is a challenging task for the Heckman model. This is especially the case when the number of selection features is large. Existing approaches that use the Heckman model often provide a manually chosen set of prediction features. In this paper, we propose Heckman-FA as a novel data-driven framework for obtaining prediction features for the Heckman model. Heckman-FA first trains an assignment function that determines whether or not a selection feature is assigned as a prediction feature. Using the parameters of the trained function, the framework extracts a suitable set of prediction features based on the goodness-of-fit of the prediction model given the chosen prediction features and the correlation between noise terms of the prediction and selection equations. Experimental results on real-world datasets show that Heckman-FA produces a robust regression model under MNAR sample selection bias. | 翻訳日:2024-04-24 00:42:43 公開日:2024-04-22 |
# SCT:Salient Channelsを用いたパラメータ効率の良いファインチューニングのための簡易ベースライン
SCT: A Simple Baseline for Parameter-Efficient Fine-Tuning via Salient Channels ( http://arxiv.org/abs/2309.08513v4 ) ライセンス: Link先を確認 | Henry Hengyuan Zhao, Pichao Wang, Yuyang Zhao, Hao Luo, Fan Wang, Mike Zheng Shou, | (参考訳) 事前学習された視覚変換器は、様々な下流タスクに強力な表現上の利点がある。
近年,多くのパラメータ効率細調整法が提案されており,その実験により,低データのリソースシナリオにおいて,パラメータの1%しか調整できないことが示されている。
しかし、これらの手法は、様々な下流タスクを微調整する際、タスク固有の情報を見落としている。
本稿では,SCT(Salient Channel Tuning)と呼ばれる簡易かつ効果的な手法を提案する。タスクイメージをモデルに転送し,特徴マップ内の部分的なチャネルを選択することで,パラメータコストを大幅に低減する1/8チャネルのみをチューニングできる。
実験はVTAB-1Kベンチマークの19タスク中18タスクにおいて、完全な微調整よりも780倍少ないVT-Bの0.11Mパラメータを追加することで、完全な微調整を達成している。
さらに,パラメータコストの低い他のPEFT手法を超越した領域一般化と少数ショット学習の実験を行い,提案手法の高機能化と低データ方式の有効性を実証した。
Pre-trained vision transformers have strong representation benefits to various downstream tasks. Recently, many parameter-efficient fine-tuning (PEFT) methods have been proposed, and their experiments demonstrate that tuning only 1% of extra parameters could surpass full fine-tuning in low-data resource scenarios. However, these methods overlook the task-specific information when fine-tuning diverse downstream tasks. In this paper, we propose a simple yet effective method called "Salient Channel Tuning" (SCT) to leverage the task-specific information by forwarding the model with the task images to select partial channels in a feature map that enables us to tune only 1/8 channels leading to significantly lower parameter costs. Experiments outperform full fine-tuning on 18 out of 19 tasks in the VTAB-1K benchmark by adding only 0.11M parameters of the ViT-B, which is 780x fewer than its full fine-tuning counterpart. Furthermore, experiments on domain generalization and few-shot learning surpass other PEFT methods with lower parameter costs, demonstrating our proposed tuning technique's strong capability and effectiveness in the low-data regime. | 翻訳日:2024-04-24 00:42:43 公開日:2024-04-22 |
# 全量子ウェーブレット変換のための効率的な量子アルゴリズム
Efficient Quantum Algorithm for All Quantum Wavelet Transforms ( http://arxiv.org/abs/2309.09350v2 ) ライセンス: Link先を確認 | Mohsen Bagherimehrab, Alan Aspuru-Guzik, | (参考訳) ウェーブレット変換は科学や工学の様々な分野において、フーリエ変換によって無視される情報を明らかにする特徴を持つ数学的ツールとして広く使われている。
独自のフーリエ変換とは異なり、ウェーブレット変換は、使用するウェーブレットの種類と関連する数列と、シーケンスの長さを指定する順序パラメータによって指定される。
古典フーリエ変換の量子アナログである量子フーリエ変換は量子コンピューティングにおいて中心的な役割を担っているが、量子ウェーブレット変換~(QWT)に関する以前の研究は特定のウェーブレットの2階と4階に限られていた。
ここでは、量子コンピュータ上で任意のウェーブレット変換を実行するための、単純で効率的な量子アルゴリズムを開発する。
提案手法は,モジュール型量子演算によりコンパイル可能なユニタリ(LCU)の線形結合としてウェーブレット変換のカーネル行列を分解し,LCU手法を用いて確率的手順を構築し,QWTをtextit{known}成功確率で実装する。
次に、この手法を振幅増幅戦略の実行によって決定的にするためにウェーブレットの特性を用いる。
我々は、マルチレベルウェーブレット変換と一般化されたパケットウェーブレット変換にアプローチを拡張し、ウェーブレット次数$M$、変換行列の次元$N$、変換レベル$d$の3つのパラメータで計算複雑性を確立する。
コストは$N$で対数、$d$で線形、$M$で超線形であることを示す。
さらに,実用アプリケーションに対する費用は$M$とは無関係であることを示す。
提案した量子ウェーブレット変換は、確立された量子フーリエ変換と同様の方法で量子計算アルゴリズムで利用することができる。
Wavelet transforms are widely used in various fields of science and engineering as a mathematical tool with features that reveal information ignored by the Fourier transform. Unlike the Fourier transform, which is unique, a wavelet transform is specified by a sequence of numbers associated with the type of wavelet used and an order parameter specifying the length of the sequence. While the quantum Fourier transform, a quantum analog of the classical Fourier transform, has been pivotal in quantum computing, prior works on quantum wavelet transforms~(QWTs) were limited to the second and fourth order of a particular wavelet, the Daubechies wavelet. Here we develop a simple yet efficient quantum algorithm for executing any wavelet transform on a quantum computer. Our approach is to decompose the kernel matrix of a wavelet transform as a linear combination of unitaries (LCU) that are compilable by easy-to-implement modular quantum arithmetic operations and use the LCU technique to construct a probabilistic procedure to implement a QWT with a \textit{known} success probability. We then use properties of wavelets to make this approach deterministic by a few executions of the amplitude amplification strategy. We extend our approach to a multilevel wavelet transform and a generalized version, the packet wavelet transform, establishing computational complexities in terms of three parameters: the wavelet order $M$, the dimension $N$ of the transformation matrix, and the transformation level $d$. We show the cost is logarithmic in $N$, linear in $d$ and superlinear in $M$. Moreover, we show the cost is independent of $M$ for practical applications. Our proposed quantum wavelet transforms could be used in quantum computing algorithms in a similar manner to their well-established counterpart, the quantum Fourier transform. | 翻訳日:2024-04-24 00:42:43 公開日:2024-04-22 |
# 三元系QUBOの多項式時間解法とテンソルネットワークを用いたQUDO問題
Polynomial-time Solver of Tridiagonal QUBO and QUDO problems with Tensor Networks ( http://arxiv.org/abs/2309.10509v3 ) ライセンス: Link先を確認 | Alejandro Mata Ali, Iñigo Perez Delgado, Marina Ristol Roura, Aitor Moreno Fdez. de Leceta, | (参考訳) 本稿では, テンソルネットワークの量子インスピレーション技術を用いて, 三元対角非拘束二元最適化(QUBO)問題と準拘束非拘束離散最適化(QUDO)問題を解決するアルゴリズムを提案する。
本手法は, 仮想時間進化を適用し, 最大振幅状態を得るために一連の部分的トレースを行う量子状態のシミュレーションに基づく。
また、退化したケースに対処し、アルゴリズムの多項式複雑性をチェックする。
We present an algorithm for solving tridiagonal Quadratic Unconstrained Binary Optimization (QUBO) problems and Quadratic Unconstrained Discrete Optimization (QUDO) problems with one-neighbor interactions using the quantum-inspired technology of tensor networks. Our method is based on the simulation of a quantum state to which we will apply an imaginary time evolution and perform a series of partial traces to obtain the state of maximum amplitude, since it will be the optimal state. We will also deal with the degenerate case and check the polynomial complexity of the algorithm. | 翻訳日:2024-04-24 00:42:43 公開日:2024-04-22 |
# キャッシュタイムアタックを解決するランダムで安全なキャッシュアーキテクチャ
Random and Safe Cache Architecture to Defeat Cache Timing Attacks ( http://arxiv.org/abs/2309.16172v2 ) ライセンス: Link先を確認 | Guangyuan Hu, Ruby B. Lee, | (参考訳) キャッシュは、メモリアクセスの処理に要する時間が異なるため、秘密情報を漏洩するために悪用されている。
キャッシュタイミングアタックには、非投機的キャッシュサイドとシークレットチャネルアタック、キャッシュベースの投機的実行アタックが含まれる。
まず,攻撃・防御空間を体系的に把握し,既存の防御がすべてのキャッシュタイミング攻撃に対処していないことを示す。
我々はRandom and Safe(RaS)キャッシュアーキテクチャを提案する。
RaSはキャッシュに '`safe'' のキャッシュラインを埋める。
RaSは、投機的実行が解決され承認されると安全になるアクセスに対するキャッシュフィリングの制限を解除する。
キャッシュベースの投機的実行攻撃に対するRaS-Specの設計は、平均的なパフォーマンスオーバーヘッドが3.8%低い。
RaS+は投機的攻撃と非投機的攻撃の両方に対して7.9%から45.2%の平均オーバーヘッドのセキュリティ性能のトレードオフがある。
Caches have been exploited to leak secret information due to the different times they take to handle memory accesses. Cache timing attacks include non-speculative cache side and covert channel attacks and cache-based speculative execution attacks. We first present a systematic view of the attack and defense space and show that no existing defense has addressed all cache timing attacks, which we do in this paper. We propose Random and Safe (RaS) cache architectures to decorrelate cache state changes from memory requests. RaS fills the cache with ``safe'' cache lines that are likely to be used in the future, rather than with demand-fetched, security-sensitive lines. RaS lifts the restriction on cache fills for accesses that become safe when speculative execution is resolved and authorized. Our RaS-Spec design against cache-based speculative execution attacks has a low 3.8% average performance overhead. RaS+ variants against both speculative and non-speculative attacks have security-performance trade-offs ranging from 7.9% to 45.2% average overhead. | 翻訳日:2024-04-24 00:42:43 公開日:2024-04-22 |
# SemStamp: テキスト生成のためのパラフラスティックロバストネスを備えたセマンティックな透かし
SemStamp: A Semantic Watermark with Paraphrastic Robustness for Text Generation ( http://arxiv.org/abs/2310.03991v2 ) ライセンス: Link先を確認 | Abe Bohan Hou, Jingyu Zhang, Tianxing He, Yichen Wang, Yung-Sung Chuang, Hongwei Wang, Lingfeng Shen, Benjamin Van Durme, Daniel Khashabi, Yulia Tsvetkov, | (参考訳) 既存の透かしアルゴリズムはトークンレベルの設計のため、パラフレーズ攻撃に弱い。
この問題に対処するために,文の意味空間を分割する局所性感性ハッシュ(LSH)に基づく頑健な文レベルの意味的透かしアルゴリズムSemStampを提案する。
アルゴリズムは、LLMによって生成された候補文を符号化してLSH化し、サンプルされた文がセマンティック埋め込み空間のウォーターマークされたパーティションに落ちるまで文レベルの拒絶サンプリングを行う。
マージンベースの制約は、その堅牢性を高めるために使用される。
本アルゴリズムの利点を示すために,最少のビッグラムが元の文と重複するパラフレーズを用いた「ビグラム」パラフレーズ攻撃を提案する。
この攻撃は既存のトークンレベルの透かし法に対して有効であることが示されている。
実験結果から,本アルゴリズムは従来手法に比べて,従来手法よりも頑健であるだけでなく,生成品質の維持にも有効であることが示唆された。
Existing watermarking algorithms are vulnerable to paraphrase attacks because of their token-level design. To address this issue, we propose SemStamp, a robust sentence-level semantic watermarking algorithm based on locality-sensitive hashing (LSH), which partitions the semantic space of sentences. The algorithm encodes and LSH-hashes a candidate sentence generated by an LLM, and conducts sentence-level rejection sampling until the sampled sentence falls in watermarked partitions in the semantic embedding space. A margin-based constraint is used to enhance its robustness. To show the advantages of our algorithm, we propose a "bigram" paraphrase attack using the paraphrase that has the fewest bigram overlaps with the original sentence. This attack is shown to be effective against the existing token-level watermarking method. Experimental results show that our novel semantic watermark algorithm is not only more robust than the previous state-of-the-art method on both common and bigram paraphrase attacks, but also is better at preserving the quality of generation. | 翻訳日:2024-04-24 00:42:43 公開日:2024-04-22 |
# ベイジアンスパイク・アンド・スラブ前駆体と効率的なカーネルによる方程式発見
Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels ( http://arxiv.org/abs/2310.05387v2 ) ライセンス: Link先を確認 | Da Long, Wei W. Xing, Aditi S. Krishnapriyan, Robert M. Kirby, Shandian Zhe, Michael W. Mahoney, | (参考訳) データから支配方程式を発見することは、多くの科学的・工学的応用にとって重要である。
有望な成功にもかかわらず、既存の手法は、実際にはユビキタスなデータスパーシリティとノイズの問題によって、依然として挑戦されている。
さらに、最先端の手法には不確実な定量化が欠けており、訓練に費用がかかる。
これらの制約を克服するために,Kernel LearningとBAyesian Spike-and-Slab priors (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
効果的な演算子選択と不確実性定量化のために、ベイズ的スパイク・アンド・スラブ事前(理想的なベイズ的スパース分布)と組み合わせる。
我々は,効率的な後部推論と関数推定のためのEP-EMアルゴリズムを開発した。
カーネル回帰の計算課題を克服するため、関数値をメッシュ上に配置し、Kronecker積の構成を誘導し、テンソル代数を用いて効率的な計算と最適化を行う。
ベンチマークODEとPDE発見タスクのリストにKBASSの利点を示す。
Discovering governing equations from data is important to many scientific and engineering applications. Despite promising successes, existing methods are still challenged by data sparsity and noise issues, both of which are ubiquitous in practice. Moreover, state-of-the-art methods lack uncertainty quantification and/or are costly in training. To overcome these limitations, we propose a novel equation discovery method based on Kernel learning and BAyesian Spike-and-Slab priors (KBASS). We use kernel regression to estimate the target function, which is flexible, expressive, and more robust to data sparsity and noises. We combine it with a Bayesian spike-and-slab prior -- an ideal Bayesian sparse distribution -- for effective operator selection and uncertainty quantification. We develop an expectation-propagation expectation-maximization (EP-EM) algorithm for efficient posterior inference and function estimation. To overcome the computational challenge of kernel regression, we place the function values on a mesh and induce a Kronecker product construction, and we use tensor algebra to enable efficient computation and optimization. We show the advantages of KBASS on a list of benchmark ODE and PDE discovery tasks. | 翻訳日:2024-04-24 00:42:43 公開日:2024-04-22 |
# 最適輸送による変圧器核融合
Transformer Fusion with Optimal Transport ( http://arxiv.org/abs/2310.05719v3 ) ライセンス: Link先を確認 | Moritz Imfeld, Jacopo Graldi, Marco Giordano, Thomas Hofmann, Sotiris Anagnostidis, Sidak Pal Singh, | (参考訳) Fusionは、独立に訓練された複数のニューラルネットワークをマージして、それらの能力を組み合わせる技術である。
過去の試みは、完全接続、畳み込み、残余ネットワークの場合に限られてきた。
本稿では, トランスポートを利用した2つ以上のトランスフォーマーネットワークを (ソフト) に融合させる手法を提案する。
我々は、任意のアーキテクチャ(原則として)に一般化可能なレイヤアライメントの抽象化を具体化し、これをマルチヘッド自己アテンション、レイヤ正規化、残余接続といったトランスフォーマーのキーとなる要素に適用し、様々なアブレーション研究を通してそれらをどう扱うかについて議論する。
さらに, 異なるサイズのモデル(異種融合)を融合させることで, トランスフォーマーを圧縮するための新しい効率的な方法を提供する。
提案手法は、視覚変換器による画像分類タスクとBERTを用いた自然言語モデリングタスクの両方で評価される。
我々のアプローチはバニラ融合を一貫して上回り、驚くほど短い微調整の後、個々の収束親モデルも上回ります。
解析の結果,トランスフォーマーにおけるソフトアライメントの意義について興味深い知見が得られた。
本研究は,複数のトランスフォーマーを融合させる可能性を示し,モデル融合と組換えという新たなパラダイムにおいて,それらの専門知識を融合させるものである。
コードはhttps://github.com/graldij/transformer-fusion.comで入手できる。
Fusion is a technique for merging multiple independently-trained neural networks in order to combine their capabilities. Past attempts have been restricted to the case of fully-connected, convolutional, and residual networks. This paper presents a systematic approach for fusing two or more transformer-based networks exploiting Optimal Transport to (soft-)align the various architectural components. We flesh out an abstraction for layer alignment, that can generalize to arbitrary architectures - in principle - and we apply this to the key ingredients of Transformers such as multi-head self-attention, layer-normalization, and residual connections, and we discuss how to handle them via various ablation studies. Furthermore, our method allows the fusion of models of different sizes (heterogeneous fusion), providing a new and efficient way to compress Transformers. The proposed approach is evaluated on both image classification tasks via Vision Transformer and natural language modeling tasks using BERT. Our approach consistently outperforms vanilla fusion, and, after a surprisingly short finetuning, also outperforms the individual converged parent models. In our analysis, we uncover intriguing insights about the significant role of soft alignment in the case of Transformers. Our results showcase the potential of fusing multiple Transformers, thus compounding their expertise, in the budding paradigm of model fusion and recombination. Code is available at https://github.com/graldij/transformer-fusion. | 翻訳日:2024-04-24 00:42:43 公開日:2024-04-22 |
# 説明可能なAIを用いた健常成人の心電図変化の解明 - 専門的特徴から生信号まで-
Using explainable AI to investigate electrocardiogram changes during healthy aging -- from expert features to raw signals ( http://arxiv.org/abs/2310.07463v2 ) ライセンス: Link先を確認 | Gabriel Ott, Yannik Schaubelt, Juan Miguel Lopez Alcaraz, Wilhelm Haverkamp, Nils Strodthoff, | (参考訳) 心臓血管疾患が世界的な死因となっている。
年齢は、健康なコホートにおいて最も容易に研究され、前者と疾患関連の変化を適切に区別する重要な共変数である。
伝統的に、このような知見のほとんどは、心電図(ECG)の年齢変化の分析から得られたものである。
しかし、これらの機能は情報的ではあるが、潜在的なデータ関係が曖昧になる可能性がある。
本稿では,(1) 生信号と心電図の特徴形式の両方において, 年齢の異なる健康な個人の頑健なデータセットから心電図データを解析するために, ディープラーニングモデルとツリーベースモデルを用いる。
2) 年齢層別で最も差別的な心電図の特徴を特定するために, 説明可能なAI手法を用いる。
3) 木系分類器を用いた分析により, 推定呼吸速度の年齢関連低下が明らかとなり, SDANN値が高いことが高齢者の指標となり, 若年者と区別されることがわかった。
さらに, 深層学習モデルでは, 全年齢群における年齢予測におけるP波の役割が明らかになり, 年齢による異なるP波の分布の変化が示唆された。
これらの発見は、年齢に関するECGの変化に新たな光を当て、従来の機能ベースのアプローチを超越した洞察を与えました。
Cardiovascular diseases remain the leading global cause of mortality. Age is an important covariate whose effect is most easily investigated in a healthy cohort to properly distinguish the former from disease-related changes. Traditionally, most of such insights have been drawn from the analysis of electrocardiogram (ECG) feature changes in individuals as they age. However, these features, while informative, may potentially obscure underlying data relationships. In this paper we present the following contributions: (1) We employ a deep-learning model and a tree-based model to analyze ECG data from a robust dataset of healthy individuals across varying ages in both raw signals and ECG feature format. (2) We use explainable AI methods to identify the most discriminative ECG features across age groups.(3) Our analysis with tree-based classifiers reveals age-related declines in inferred breathing rates and identifies notably high SDANN values as indicative of elderly individuals, distinguishing them from younger adults. (4) Furthermore, the deep-learning model underscores the pivotal role of the P-wave in age predictions across all age groups, suggesting potential changes in the distribution of different P-wave types with age. These findings shed new light on age-related ECG changes, offering insights that transcend traditional feature-based approaches. | 翻訳日:2024-04-24 00:32:58 公開日:2024-04-22 |
# 中期の発見:多変量自己整合性は大規模言語モデルにおけるリストのランク付けを改善する
Found in the Middle: Permutation Self-Consistency Improves Listwise Ranking in Large Language Models ( http://arxiv.org/abs/2310.07712v2 ) ライセンス: Link先を確認 | Raphael Tang, Xinyu Zhang, Xueguang Ma, Jimmy Lin, Ferhan Ture, | (参考訳) 大規模言語モデル(LLM)は、文脈の使い方に位置バイアスを示し、特にリストワイズランキングを複雑にしている。
そこで我々は,ブラックボックスLLMのランキングリスト出力に対して,自己整合性(permutation self-consistency)という自己整合性(self-consistency)を提案する。
私たちのキーとなるアイデアは、位置バイアスの少ない注文非依存のランキングを生成するプロンプトにおいて、異なるリストの注文をマージすることです。
まず、入力プロンプトが与えられたら、プロンプト内のリストを何度もシャッフルして、命令を同じに保持しながらLSMに渡します。
次に、得られたランキングのサンプルを、それらすべてに最も近い中央ランクを計算して集約し、プロセスの即時順序バイアスを和らげる。
理論的には,提案手法の頑健さを証明し,ランダム摂動の存在下での真のランクへの収束を示す。
提案手法は, 5つのリストレベルデータセットにおいて, GPT-3.5で最大7-18%, LLaMA v2 (70B)で最大8-16%のスコアを, 従来の評価値から改善した。
私たちのコードはhttps://github.com/castorini/perm-sc.comです。
Large language models (LLMs) exhibit positional bias in how they use context, which especially complicates listwise ranking. To address this, we propose permutation self-consistency, a form of self-consistency over ranking list outputs of black-box LLMs. Our key idea is to marginalize out different list orders in the prompt to produce an order-independent ranking with less positional bias. First, given some input prompt, we repeatedly shuffle the list in the prompt and pass it through the LLM while holding the instructions the same. Next, we aggregate the resulting sample of rankings by computing the central ranking closest in distance to all of them, marginalizing out prompt order biases in the process. Theoretically, we prove the robustness of our method, showing convergence to the true ranking in the presence of random perturbations. Empirically, on five list-ranking datasets in sorting and passage reranking, our approach improves scores from conventional inference by up to 7-18% for GPT-3.5 and 8-16% for LLaMA v2 (70B), surpassing the previous state of the art in passage reranking. Our code is at https://github.com/castorini/perm-sc. | 翻訳日:2024-04-24 00:32:58 公開日:2024-04-22 |
# ゼロショット言語間知識伝達のための事前訓練された多言語言語モデルに関する実証的研究
Empirical study of pretrained multilingual language models for zero-shot cross-lingual knowledge transfer in generation ( http://arxiv.org/abs/2310.09917v3 ) ライセンス: Link先を確認 | Nadezhda Chirkova, Sheng Liang, Vassilina Nikoulina, | (参考訳) ゼロショットの言語間知識伝達により、ある言語でタスクを微調整し、他の言語でタスクの予測を行う多言語事前学習言語モデル(mPLM)が実現される。
自然言語理解タスクについて広く研究されている一方で、記述された設定は世代ごとに検討されている。
以前の作業では、間違った言語で頻繁に発生する問題に気付き、通常、mT5をバックボーンモデルとして使用して対処するためのアプローチを提案する。
本研究では,mBART や NLLB-200 などの代替 mPLM を,アダプタを用いた完全微調整およびパラメータ効率の高い微調整により検証する。
アダプタ付きmBARTはmT5と同じサイズで動作し,NLLB-200と競合する場合もある。
また、微調整に使用する学習率の調整の重要性も強調し、誤った言語で生成する問題を緩和するのに役立ちます。
Zero-shot cross-lingual knowledge transfer enables the multilingual pretrained language model (mPLM), finetuned on a task in one language, make predictions for this task in other languages. While being broadly studied for natural language understanding tasks, the described setting is understudied for generation. Previous works notice a frequent problem of generation in a wrong language and propose approaches to address it, usually using mT5 as a backbone model. In this work, we test alternative mPLMs, such as mBART and NLLB-200, considering full finetuning and parameter-efficient finetuning with adapters. We find that mBART with adapters performs similarly to mT5 of the same size, and NLLB-200 can be competitive in some cases. We also underline the importance of tuning learning rate used for finetuning, which helps to alleviate the problem of generation in the wrong language. | 翻訳日:2024-04-24 00:32:57 公開日:2024-04-22 |
# 時間的グーイ位相による時間的エルミート・ガウスモードの干渉的ソート
Interferometric sorting of temporal Hermite-Gauss modes via temporal Gouy phase ( http://arxiv.org/abs/2310.11918v2 ) ライセンス: Link先を確認 | Dmitri B. Horoshko, Mikhail I. Kolobov, | (参考訳) 我々は,マッハ・ツェンダー干渉計を$mで構成し,各モードで得られた時間的グーイ位相を調整し,第1次2^m$時間的エルマイト・ガウスモードのソートを実現する装置を提案する。
このモードオーダー依存位相シフトは、干渉計の腕の一方のタイムレンズによって実現された分数フーリエ変換によって達成される。
自発パラメトリックダウンコンバージョンで発生する光子対のシュミットモードを2つの干渉計でソートし、5.5%のクロストーク確率で理論的に低い結合を求める。
We propose a device consisting of $m$ Mach-Zehnder interferometers and realizing sorting of first $2^m$ temporal Hermite-Gauss modes of light passing though it by adjusting the accumulated temporal Gouy phase acquired by every mode. This mode-order-dependent phase shift is achieved by a fractional Fourier transform realized by a time lens in one of interferometer's arms. We consider application of such a sorter with just two interferometers to sorting the Schmidt modes of a photon pair generated in spontaneous parametric downconversion and find the theoretical lower bond on the cross-talk probability of 5.5%. | 翻訳日:2024-04-24 00:32:57 公開日:2024-04-22 |
# 知識グラフのコンテキスト強化型多様化勧告
Knowledge Graph Context-Enhanced Diversified Recommendation ( http://arxiv.org/abs/2310.13253v2 ) ライセンス: Link先を確認 | Xiaolong Liu, Liangwei Yang, Zhiwei Liu, Mingdai Yang, Chen Wang, Hao Peng, Philip S. Yu, | (参考訳) Recommender Systems(RecSys)の分野は、ユーザの過去のインタラクションを活用して精度を高めるために広く研究されている。
にもかかわらず、この絶え間ない精度の追求は、しばしば多様性を低下させ、よく認識される「エチョ・チェンバー」現象に終止符を打つ。
多様化されたRecSysは、正確さに匹敵する多様性を配置し、学術界や業界関係者から注目を浴びている。
本研究は知識グラフ(KG)の複雑な文脈における多角化RecSysの領域について考察する。
これらのKGは、エンティティやアイテムに関する相互接続された情報のリポジトリとして機能し、洞察に富んだコンテキスト情報の導入を通じて、推薦の多様性を増幅する提案的な手段を提供する。
私たちのコントリビューションには、革新的なメトリック、エンティティカバレッジ、KGドメイン内の多様性を効果的に定量化するリレーショナルカバレッジの導入が含まれています。
さらに,多様性を意識したユーザ表現を巧みに定式化するDELモジュールについても紹介する。
これに対応して,条件アライメントと統一性 (CAU) という新しい手法を導入する。
文脈整合性を維持しながら、KG項目の埋め込みを十分にエンコードする。
総合的に、我々の貢献は、KGインフォームドRecSysパラダイムの領域におけるレコメンデーションの多様性のパノラマを増大させるための大きな一歩を示している。
The field of Recommender Systems (RecSys) has been extensively studied to enhance accuracy by leveraging users' historical interactions. Nonetheless, this persistent pursuit of accuracy frequently engenders diminished diversity, culminating in the well-recognized "echo chamber" phenomenon. Diversified RecSys has emerged as a countermeasure, placing diversity on par with accuracy and garnering noteworthy attention from academic circles and industry practitioners. This research explores the realm of diversified RecSys within the intricate context of knowledge graphs (KG). These KGs act as repositories of interconnected information concerning entities and items, offering a propitious avenue to amplify recommendation diversity through the incorporation of insightful contextual information. Our contributions include introducing an innovative metric, Entity Coverage, and Relation Coverage, which effectively quantifies diversity within the KG domain. Additionally, we introduce the Diversified Embedding Learning (DEL) module, meticulously designed to formulate user representations that possess an innate awareness of diversity. In tandem with this, we introduce a novel technique named Conditional Alignment and Uniformity (CAU). It adeptly encodes KG item embeddings while preserving contextual integrity. Collectively, our contributions signify a substantial stride towards augmenting the panorama of recommendation diversity within the realm of KG-informed RecSys paradigms. | 翻訳日:2024-04-24 00:32:57 公開日:2024-04-22 |
# 前潜在的アプローチ: 正確に、準実在的で、合理的に拡張された可解量子系への統一的アプローチ
Prepotential Approach: a unified approach to exactly, quasi-exactly, and rationally extended solvable quantal systems ( http://arxiv.org/abs/2310.14272v2 ) ライセンス: Link先を確認 | Choon-Lin Ho, | (参考訳) 一次元シュリンガー方程式の正確な解法と準コンパクト解法の両方を扱うために、前ポテンシャルアプローチと呼ばれる単純で統一的な方法の簡単な概要を述べる。
これはベーテ・アンザッツ方程式と共に、前ポテンシャルに基づいている。
正解系に対する超対称性法や準特殊解問題に対するリー代数法とは異なり、このアプローチは系の下層の対称性に関する知識を一切必要としない。
準エクササイズと正確な解法の両方を同じ足場で扱う。
このアプローチでは、システムは2つの多項式とベーテ・アンザッツ方程式の集合の選択によって完全に定義される。
ポテンシャル、変数の変化、および固有関数と固有値は同じプロセスで決定される。
我々は、実エネルギーを持つエルミートおよび非エルミートハミルトンのいくつかのパラダイム的な例によるアプローチを説明する。
複素エネルギーを持つエルミート系も準正規モードと呼ばれる。
新たに発見された有理拡張モデルへのアプローチの拡張について概説する。
We give a brief overview of a simple and unified way, called the prepotential approach, to treat both exact and quasi-exact solvabilities of the one-dimensional Schr\"odinger equation. It is based on the prepotential together with Bethe ansatz equations. Unlike the the supersymmetric method for the exactly-solvable systems and the Lie-algebraic approach for the quasi-exactly solvable problems, this approach does not require any knowledge of the underlying symmetry of the system. It treats both quasi-exact and exact solvabilities on the same footing. In this approach the system is completely defined by the choice of two polynomials and a set of Bethe ansatz equations. The potential, the change of variables as well as the eigenfunctions and eigenvalues are determined in the same process. We illustrate the approach by several paradigmatic examples of Hermitian and non-Hermitian Hamiltonians with real energies. Hermitian systems with complex energies, called the quasinormal modes, are also presented. Extension of the approach to the newly discovered rationally extended models is briefly discussed. | 翻訳日:2024-04-24 00:32:57 公開日:2024-04-22 |
# ニューラルセルオートマタを用いた時空間パターンの学習
Learning spatio-temporal patterns with Neural Cellular Automata ( http://arxiv.org/abs/2310.14809v2 ) ライセンス: Link先を確認 | Alex D. Richardson, Tibor Antal, Richard A. Blythe, Linus J. Schumacher, | (参考訳) Neural Cellular Automata (NCA)は機械学習とメカニスティックモデリングの強力な組み合わせである。
我々はNAAを訓練し、時系列画像とPDE軌道から複雑な力学を学ぶ。
本手法は,大規模動的創発行動を管理する局所ルールの同定を目的としている。
NCAに関するこれまでの研究は、定常的な創発的な構造を与える学習規則に焦点を当てていた。
非線形偏微分方程式(PDE)におけるチューリングパターン形成のダイナミクスを捉える学習規則と同様に、同一システム内の過渡的構造と安定構造の両方を捉えるためにNAAを拡張した。
我々は、NAAがPDEトレーニングデータを超えて非常に一般化できることを実証し、NAAが与えられた対称性を尊重することをいかに制限するかを示し、関連するハイパーパラメータがモデルの性能と安定性に与える影響を考察する。
任意のダイナミクスを学べることによって、NAAはデータ駆動モデリングフレームワークとして、特に生物学的パターンの形成をモデル化するための大きな可能性を秘めている。
Neural Cellular Automata (NCA) are a powerful combination of machine learning and mechanistic modelling. We train NCA to learn complex dynamics from time series of images and PDE trajectories. Our method is designed to identify underlying local rules that govern large scale dynamic emergent behaviours. Previous work on NCA focuses on learning rules that give stationary emergent structures. We extend NCA to capture both transient and stable structures within the same system, as well as learning rules that capture the dynamics of Turing pattern formation in nonlinear Partial Differential Equations (PDEs). We demonstrate that NCA can generalise very well beyond their PDE training data, we show how to constrain NCA to respect given symmetries, and we explore the effects of associated hyperparameters on model performance and stability. Being able to learn arbitrary dynamics gives NCA great potential as a data driven modelling framework, especially for modelling biological pattern formation. | 翻訳日:2024-04-24 00:32:57 公開日:2024-04-22 |
# ソーシャルメディア物語における道徳的火花
Moral Sparks in Social Media Narratives ( http://arxiv.org/abs/2310.19268v3 ) ライセンス: Link先を確認 | Ruijie Xi, Munindar P. Singh, | (参考訳) 人工知能(AI)エージェントによる効果的なインタラクションを実現するために、道徳的推論の計算モデルを構築することへの関心が高まっている。
実生活における倫理的シナリオにおける人間の道徳的判断を理解するために,ソーシャルメディア上でのインタラクションを検討する。
具体的には、r/AmITheAssholeと呼ばれるRedditのサブレディット(サブコミュニティ)からの投稿を調べ、著者や評論家が、誰(すなわち、記述されたシナリオの参加者)が非難に値するかという道徳的判断を共有する。
道徳的判断に影響を及ぼす根底にある理由を調査するため、我々は、道徳的判断を動機づけるものを示すために、原文からモラル的火花(moral sparks)と呼ぶ抜粋に焦点を当てた。
この目的のために,(1)社会的コモンセンスを活性化する事象と(2)言語信号が認識されたモラルの火花とそのその後の判断にどのように影響するかを検討する。
24672以上の投稿と175988のコメントから、事象に関連する否定的特徴(例えば、未熟、無礼)が注意を引き、非難を刺激し、性格的特徴と道徳的価値の依存的関係を示唆することを発見した。
具体的には、社会的常識を活性化する事象(c-events)を含む因果グラフに焦点を当てる。
我々は, c-events が, 様々な情報度で知覚され, モラル・スパークや判断の割り当てに異なる影響を与えることを観察した。
この観察は、意味的に類似したc-eventを記述する言語的特徴を調べることで強化される。
さらに、コメンテーターの認知過程に影響を与える言語は、抜粋が道徳的火花になる確率を高める一方、事実的、具体的記述は、この効果を阻害する傾向にある。
There is increasing interest in building computational models of moral reasoning by people to enable effective interaction by Artificial Intelligence (AI) agents. We examine interactions on social media to understand human moral judgments in real-life ethical scenarios. Specifically, we examine posts from a popular Reddit subreddit (i.e., a subcommunity) called r/AmITheAsshole, where authors and commenters share their moral judgments on who (i.e., which participant of the described scenario) is blameworthy. To investigate the underlying reasoning influencing moral judgments, we focus on excerpts-which we term moral sparks-from original posts that some commenters include to indicate what motivates their judgments. To this end, we examine how (1) events activating social commonsense and (2) linguistic signals affect the identified moral sparks and their subsequent judgments. By examining over 24672 posts and 175988 comments, we find that event-related negative character traits (e.g., immature and rude) attract attention and stimulate blame, implying a dependent relationship between character traits and moral values. Specifically, we focus on causal graphs involving events (c-events) that activate social commonsense. We observe that c-events are perceived with varying levels of informativeness, influencing moral spark and judgment assignment in distinct ways. This observation is reinforced by examining linguistic features describing semantically similar c-events. Moreover, language influencing commenters' cognitive processes enhances the probability of an excerpt becoming a moral spark, while factual and concrete descriptions tend to inhibit this effect. | 翻訳日:2024-04-24 00:32:57 公開日:2024-04-22 |
# IterInv:Pixel-Level T2Iモデルの反復インバージョン
IterInv: Iterative Inversion for Pixel-Level T2I Models ( http://arxiv.org/abs/2310.19540v2 ) ライセンス: Link先を確認 | Chuanming Tang, Kai Wang, Joost van de Weijer, | (参考訳) 大規模テキスト画像拡散モデルは、入力テキストプロンプトに続く説得力のある画像を生成する上で、画期的な発展を遂げている。
画像編集研究の目的は、ユーザーがテキストプロンプトを変更することによって生成された画像を制御することである。
現在の画像編集技術はDDIMの逆変換を主にラテント拡散モデル(LDM)に根ざした慣行として用いている。
しかし、遅延空間で動作する大きな事前訓練されたT2Iモデルは、オートエンコーダ機構を備えた最初の圧縮段階によって詳細が失われることに悩まされる。
代わりに、ImagenやDeepFloyd-IFといった他の主流のT2Iパイプラインは、上記の問題を回避している。
一般的に複数のステージで構成されており、通常テキストから画像までのステージから始まり、いくつかの超解像度ステージが続く。
このパイプラインでは、DDIMのインバージョンは初期ノイズを見つけることができず、超解像拡散モデルがDDIM技術と互換性がないため、元の画像を生成する。
実験結果によると,ノイズ像を条件として反復的に結合することがこの問題の根源である。
本研究は,T2Iモデルのカテゴリに対するイテレーティブ・インバージョン(IterInv)手法を開発し,オープンソースのDeepFloyd-IFモデルを用いてIterInvを検証する。
第2段と第3段では,各段階の潜時変動を更新し,決定論的逆転トレースを見つけ,再構成プロセスを促進する。
一般的な画像編集手法と組み合わせることで、IterInvの応用可能性を証明する。
コードは受理時にリリースされます。
コードは \url{https://github.com/Tchuanm/IterInv.git} で公開されている。
Large-scale text-to-image diffusion models have been a ground-breaking development in generating convincing images following an input text prompt. The goal of image editing research is to give users control over the generated images by modifying the text prompt. Current image editing techniques predominantly hinge on DDIM inversion as a prevalent practice rooted in Latent Diffusion Models (LDM). However, the large pretrained T2I models working on the latent space suffer from losing details due to the first compression stage with an autoencoder mechanism. Instead, other mainstream T2I pipeline working on the pixel level, such as Imagen and DeepFloyd-IF, circumvents the above problem. They are commonly composed of multiple stages, typically starting with a text-to-image stage and followed by several super-resolution stages. In this pipeline, the DDIM inversion fails to find the initial noise and generate the original image given that the super-resolution diffusion models are not compatible with the DDIM technique. According to our experimental findings, iteratively concatenating the noisy image as the condition is the root of this problem. Based on this observation, we develop an iterative inversion (IterInv) technique for this category of T2I models and verify IterInv with the open-source DeepFloyd-IF model.Specifically, IterInv employ NTI as the inversion and reconstruction of low-resolution image generation. In stages 2 and 3, we update the latent variance at each timestep to find the deterministic inversion trace and promote the reconstruction process. By combining our method with a popular image editing method, we prove the application prospects of IterInv. The code will be released upon acceptance. The code is available at \url{https://github.com/Tchuanm/IterInv.git}. | 翻訳日:2024-04-24 00:23:13 公開日:2024-04-22 |
# 物理強化機械学習のスペクトルを語る : 構造力学の応用に関する調査
Discussing the Spectrum of Physics-Enhanced Machine Learning; a Survey on Structural Mechanics Applications ( http://arxiv.org/abs/2310.20425v3 ) ライセンス: Link先を確認 | Marcus Haywood-Alexander, Wei Liu, Kiran Bacsa, Zhilu Lai, Eleni Chatzi, | (参考訳) 物理と機械学習の交わりは、データや物理のみの手法の能力を向上し、個々の欠点を減らすことを目的として、物理学の強化された機械学習パラダイム(PEML)を生み出した。
本稿では、物理とデータの定義軸にまたがって表現される物理強化機械学習手法のスペクトルについて、その特性、使用法、モチベーションを包括的に探求することで論じる。
そこで我々は,PEML技術の最近の応用と開発について調査を行い,複雑な課題に対処する上でのPEMLの有用性を明らかにした。
さらに, 単自由度ダッフィング発振器の簡単な動作例にそのようなスキームを適用すれば, PEMLアプローチの異なる「ジャンル」の個々の特性とモチベーションを明らかにすることができる。
協調と透明性の促進と読者に実践的な例を提供するため,本論文とともにこれらの実例を生成するコードについて述べる。
基礎的な貢献として,科学・工学研究の境界を推し進めることにおけるPEMLの重要性を,物理的な洞察と機械学習能力の相乗効果に支えられている。
The intersection of physics and machine learning has given rise to the physics-enhanced machine learning (PEML) paradigm, aiming to improve the capabilities and reduce the individual shortcomings of data- or physics-only methods. In this paper, the spectrum of physics-enhanced machine learning methods, expressed across the defining axes of physics and data, is discussed by engaging in a comprehensive exploration of its characteristics, usage, and motivations. In doing so, we present a survey of recent applications and developments of PEML techniques, revealing the potency of PEML in addressing complex challenges. We further demonstrate application of select such schemes on the simple working example of a single degree-of-freedom Duffing oscillator, which allows to highlight the individual characteristics and motivations of different `genres' of PEML approaches. To promote collaboration and transparency, and to provide practical examples for the reader, the code generating these working examples is provided alongside this paper. As a foundational contribution, this paper underscores the significance of PEML in pushing the boundaries of scientific and engineering research, underpinned by the synergy of physical insights and machine learning capabilities. | 翻訳日:2024-04-24 00:23:13 公開日:2024-04-22 |
# 入力凸LSTM:高速モデル予測制御のための凸アプローチ
Input Convex LSTM: A Convex Approach for Fast Model Predictive Control ( http://arxiv.org/abs/2311.07202v4 ) ライセンス: Link先を確認 | Zihao Wang, Zhe Wu, | (参考訳) 入力凸ニューラルネットワーク(ICNN)を活用して、ICNNベースのモデル予測制御(MPC)は、MPCフレームワーク内の凸性を維持することで、グローバルに最適なソリューションを実現する。
しかし、現在のICNNアーキテクチャでは、複雑なタスクのためにディープニューラルネットワークとして機能する能力を制限する爆発的な勾配の問題に直面している。
さらに、従来のニューラルネットワークベースのMPCやICNNベースのMPCを含む現在のニューラルネットワークベースのMPCは、第一原理モデルに基づくMPCと比較して収束速度が遅い。
本研究では、ICNNの原理を活用し、現在のICNNにおける爆発的勾配問題を緩和し、NNベースのMPCの収束時間を短縮する、新しいMPC用入力凸LSTMを提案する。
非線形化学反応器のシミュレーション実験から, 収束時間を46.7%, 31.3%, 20.2%と, ベースラインの標準RNN, 標準LSTM, 入力凸RNNをそれぞれ減少させた。
Leveraging Input Convex Neural Networks (ICNNs), ICNN-based Model Predictive Control (MPC) successfully attains globally optimal solutions by upholding convexity within the MPC framework. However, current ICNN architectures encounter the issue of exploding gradients, which limits their ability to serve as deep neural networks for complex tasks. Additionally, the current neural network-based MPC, including conventional neural network-based MPC and ICNN-based MPC, faces slower convergence speed when compared to MPC based on first-principles models. In this study, we leverage the principles of ICNNs to propose a novel Input Convex LSTM for MPC, with the specific goals of mitigating the exploding gradient problems in current ICNNs and reducing convergence time for NN-based MPC. From a simulation study of a nonlinear chemical reactor, we observed a reduction in convergence time, with a percentage decrease of 46.7%, 31.3%, and 20.2% compared to baseline plain RNN, plain LSTM, and Input Convex RNN, respectively. | 翻訳日:2024-04-24 00:23:13 公開日:2024-04-22 |
# 量子ビットと置換を用いた簡単な量子ブロックモデリング
A Simple Quantum Blockmodeling with Qubits and Permutations ( http://arxiv.org/abs/2311.07726v2 ) ライセンス: Link先を確認 | Ammar Daskin, | (参考訳) 与えられた問題のブロックモデリングを$N\times N$ adjacency matrix で表し、行列の行と列(行列を左右に置換行列で乗算する)を交換することによって見つけることができる。
古典行列の置換は、行列の置換行(または列)に対してポインタをスワップすることで効率的に行うことができるが、行列順を変更することで、置換は行列要素の位置を変化させ、行列ベースのブロックモデリングにおけるグループのメンバシップを決定する。
したがって、要素のメンバシップを数えることのできる候補解に対する適合値の初期推定は、行(または列)の総和を通り抜ける必要がある。
同様に置換は量子コンピュータ、例えば量子ビット上のNOTゲートでも効率的に実装できる。
本稿では、置換行列と量子ビット測定を用いて、量子コンピュータにおけるブロックモデリングの解法を示す。
モデルでは、小さな量子ビットのグループの測定結果が、適合度値を示すためにマッピングされる。
しかし、検討されたグループ内のキュービットの数が$n=log(N)$よりはるかに少ない場合、$O(poly(log(N))$の状態トモグラフィーに基づいてフィットネス値を検索または更新することができる。
したがって、繰り返し回数が$log(N)$時間未満で、検討されたキュービット群のサイズが小さい場合には、解に非常に効率的に到達できることが示される。
Blockmodeling of a given problem represented by an $N\times N$ adjacency matrix can be found by swapping rows and columns of the matrix (i.e. multiplying matrix from left and right by a permutation matrix). Although classical matrix permutations can be efficiently done by swapping pointers for the permuted rows (or columns) of the matrix, by changing row-column order, a permutation changes the location of the matrix elements, which determines the membership of a group in the matrix based blockmodeling. Therefore, a brute force initial estimation of a fitness value for a candidate solution involving counting the memberships of the elements may require going through all the sum of the rows (or the columns). Similarly permutations can be also implemented efficiently on quantum computers, e.g. a NOT gate on a qubit. In this paper, using permutation matrices and qubit measurements, we show how to solve blockmodeling on quantum computers. In the model, the measurement outcomes of a small group of qubits are mapped to indicate the fitness value. However, if the number of qubits in the considered group is much less than $n=log(N)$, it is possible to find or update the fitness value based on the state tomography in $O(poly(log(N)))$. Therefore, when the number of iterations is less than $log(N)$ time and the size of the considered qubit group is small, we show that it may be possible to reach the solution very efficiently. | 翻訳日:2024-04-24 00:23:13 公開日:2024-04-22 |
# プラズマフォトニック結晶におけるトウィッグ境界による位相状態の制御
Topological States Decorated by Twig Boundary in Plasma Photonic Crystals ( http://arxiv.org/abs/2311.08733v2 ) ライセンス: Link先を確認 | Jianfei Li, Jingfeng Yao, Ying Wang, Zhongxiang Zhou, Zhihao Lan, Chengxun Yuan, | (参考訳) グラフェン様構造における小枝の縁状態は、ジグザグ、ひげを生やし、アームチェアと相補する4番目の状態と見なされる。
本研究では,ハニカム格子中のロッド・イン・プラズマ系を,外部磁場下でのトウィグエッジトランカチオンと格子スケーリングを用いて検討し,トウィグエッジ状態が量子ホール相,量子スピンホール相,絶縁相などの系の異なる相に存在することを示す。
負の誘電率背景における小枝縁状態は、後方散乱に免疫する堅牢な一方向伝達特性を示し、プラズマ通信ブラックアウト問題を解決するための新しい道を提供する。
さらに,トウィグエッジのオンサイト電位を変調することにより,角面と辺面の状態がシュランケン構造内に存在することを示す。
特に、キラルソースによって励起されるような擬似スピン・モーメント・ロックのユニークな特徴を持つヘリカルエッジ状態が、ツウィッチエッジで示される。
以上の結果から, トウィッグエッジとインタフェース工学は, より柔軟な電磁波操作の新たな機会をもたらす可能性が示唆された。
The twig edge states in graphene-like structures are viewed as the fourth states complementary to their zigzag, bearded, and armchair counterparts. In this work, we study a rod-in-plasma system in honeycomb lattice with twig edge truncation under external magnetic fields and lattice scaling and show that twig edge states can exist in different phases of the system, such as quantum Hall phase, quantum spin Hall phase and insulating phase. The twig edge states in the negative permittivity background exhibit robust one-way transmission property immune to backscattering and thus provide a novel avenue for solving the plasma communication blackout problem. Moreover, we demonstrate that corner and edge states can exist within the shrunken structure by modulating the on-site potential of the twig edges. Especially, helical edge states with the unique feature of pseudospin-momentum locking that could be excited by chiral sources are demonstrated at the twig edges. Our results show that the twig edges and interface engineering can bring new opportunities for more flexible manipulation of electromagnetic waves. | 翻訳日:2024-04-24 00:23:13 公開日:2024-04-22 |
# 強化学習エージェントの政策教師としての大規模言語モデル
Large Language Model as a Policy Teacher for Training Reinforcement Learning Agents ( http://arxiv.org/abs/2311.13373v5 ) ライセンス: Link先を確認 | Zihao Zhou, Bin Hu, Chenyang Zhao, Pu Zhang, Bin Liu, | (参考訳) 近年, 大規模言語モデル (LLM) が, 複雑な逐次的意思決定タスクに高レベルな指示を与えることで対処する可能性を明らかにしている。
しかし、LSMをベースとしたエージェントは、特にリアルタイムな動的環境において、特定のターゲット問題に対処する専門性を欠いている。
加えて、LCMベースのエージェントを実践的なシナリオにデプロイすることは、コストと時間の両方を要します。
一方、強化学習(RL)は、目標タスクを専門とする訓練エージェントにアプローチするが、サンプリング効率が低く、探索コストも高い。
本稿では,LLMベースの教師エージェントからの指示を用いて,より小規模で専門的なRLエージェントを訓練することで,これらの課題に対処する新しいフレームワークを提案する。
教師エージェントからの指導を取り入れることで、学生エージェントはLLMの事前知識を独自のモデルに抽出することができる。
これにより、学生エージェントは、大幅に少ないデータで訓練することができる。
さらに、環境フィードバックによるさらなるトレーニングを通じて、学生エージェントは、目標タスクを完了するための教師の能力を上回る。
我々は,AI研究の具体化を目的とした,MiniGridとHabitat環境の挑戦実験を行い,フレームワークの有効性を評価した。
その結果,本手法は強いベースライン法に比べて優れた性能を示した。
私たちのコードはhttps://github.com/ZJLAB-AMMI/LLM4Teach.comから入手可能です。
Recent studies have uncovered the potential of Large Language Models (LLMs) in addressing complex sequential decision-making tasks through the provision of high-level instructions. However, LLM-based agents lack specialization in tackling specific target problems, particularly in real-time dynamic environments. Additionally, deploying an LLM-based agent in practical scenarios can be both costly and time-consuming. On the other hand, reinforcement learning (RL) approaches train agents that specialize in the target task but often suffer from low sampling efficiency and high exploration costs. In this paper, we introduce a novel framework that addresses these challenges by training a smaller, specialized student RL agent using instructions from an LLM-based teacher agent. By incorporating the guidance from the teacher agent, the student agent can distill the prior knowledge of the LLM into its own model. Consequently, the student agent can be trained with significantly less data. Moreover, through further training with environment feedback, the student agent surpasses the capabilities of its teacher for completing the target task. We conducted experiments on challenging MiniGrid and Habitat environments, specifically designed for embodied AI research, to evaluate the effectiveness of our framework. The results clearly demonstrate that our approach achieves superior performance compared to strong baseline methods. Our code is available at https://github.com/ZJLAB-AMMI/LLM4Teach. | 翻訳日:2024-04-24 00:23:13 公開日:2024-04-22 |
# 拡散に基づく生成モデルとその誤差境界について:完全収束推定をもつ対数凹の場合
On diffusion-based generative models and their error bounds: The log-concave case with full convergence estimates ( http://arxiv.org/abs/2311.13584v3 ) ライセンス: Link先を確認 | Stefano Bruno, Ying Zhang, Dong-Young Lim, Ömer Deniz Akyildiz, Sotirios Sabanis, | (参考訳) リプシッツ連続関数を用いてスコア推定に使用する関数の近似クラスを近似しながら、強い対数凹データ分布を仮定して拡散に基づく生成モデルの収束挙動を理論的に完全に保証する。
我々は、モチベーションの例を通して、未知の平均を持つガウス分布からサンプリングし、我々のアプローチの強力さを実証する。
この場合、関連する最適化問題、すなわちスコア近似に対して明示的な推定値が与えられ、これらは対応する推定値と組み合わせられる。
その結果、データ分布(ガウス平均)とサンプリングアルゴリズムの間のワッサーシュタイン-2距離について、興味の量や収束率などの重要な値から、最もよく知られた上限推定値を得ることができた。
モチベーションの他に,様々な確率オプティマイザの使用を可能にするために,確率オプティマイザと,既知の情報のみを利用する新たな補助プロセスに対して,重要な期待のもとに形成される,$L^2$-精度のスコア推定仮定を用いて結果を示す。
この手法はサンプリングアルゴリズムにおいて最もよく知られた収束率をもたらす。
We provide full theoretical guarantees for the convergence behaviour of diffusion-based generative models under the assumption of strongly log-concave data distributions while our approximating class of functions used for score estimation is made of Lipschitz continuous functions. We demonstrate via a motivating example, sampling from a Gaussian distribution with unknown mean, the powerfulness of our approach. In this case, explicit estimates are provided for the associated optimization problem, i.e. score approximation, while these are combined with the corresponding sampling estimates. As a result, we obtain the best known upper bound estimates in terms of key quantities of interest, such as the dimension and rates of convergence, for the Wasserstein-2 distance between the data distribution (Gaussian with unknown mean) and our sampling algorithm. Beyond the motivating example and in order to allow for the use of a diverse range of stochastic optimizers, we present our results using an $L^2$-accurate score estimation assumption, which crucially is formed under an expectation with respect to the stochastic optimizer and our novel auxiliary process that uses only known information. This approach yields the best known convergence rate for our sampling algorithm. | 翻訳日:2024-04-24 00:23:13 公開日:2024-04-22 |
# 同時パルス法による5状態連鎖系における量子状態工学
Quantum state engineering in a five-state chainwise system by coincident pulse technique ( http://arxiv.org/abs/2311.15686v3 ) ライセンス: Link先を確認 | Jiahui Zhang, | (参考訳) 本稿では,5状態連鎖系におけるコヒーレント人口移動を実現し,任意のコヒーレント重ね合わせ状態を生成するための正確な解析解について述べる。
5状態連鎖系の解法は、4つのインシデントパルス間の関係の要求とともに、AE(adiabatic elimination)の仮定の下で最も単純な共振結合を持つ等価な3状態$\Lambda$-type 1に還元できることを示す。
この方法では、各ステップにおける4つの入射パルスは全て同じ時間依存性を持つが、特定の大きさを持つ。
その結果、適切なタイミングの入射パルスの列車を用いることで、全中間状態の人口を効果的に抑制しつつ、初期状態と最終状態の任意のコヒーレントな重ね合わせを作成することができることがわかった。
基礎となるメカニズムの完全な物理的説明が提示される。
この結果は、例えば、量子情報、原子光学、超低温分子の形成、空洞QED、核コヒーレント人口移動、導波路アレイにおける光移動など、高忠実な多状態量子制御が不可欠であるアプリケーションに潜在的に関心がある。
In this paper, an exact analytical solution is presented for achieving coherent population transfer and creating arbitrary coherent superposition states in a five-state chainwise system by a train of coincident pulses. We show that the solution of a five-state chainwise system can be reduced to an equivalent three-state $\Lambda$-type one with the simplest resonant coupling under the assumption of adiabatic elimination (AE) together with a requirement of the relation among the four incident pulses. In this method, all of four incident pulses at each step all have the same time dependence, but with specific magnitudes. The results show that, by using a train of appropriately coincident incident pulses, this technique enables complete population transfer, as well as the creation of arbitrary desired coherent superposition between initial and final states, while the population in all intermediate states is effectively suppressed. The complete physical explanation of the underlying mechanism is presented. The results are of potential interest in applications where high-fidelity multi-state quantum control is essential, e.g., quantum information, atom optics, formation of ultracold molecules, cavity QED, nuclear coherent population transfer, light transfer in waveguide arrays, etc. | 翻訳日:2024-04-24 00:13:26 公開日:2024-04-22 |
# 適応雑音低減技術と時間畳み込みネットワークに基づく風力発電所の超短時間多段階風速予測
Ultra-short-term multi-step wind speed prediction for wind farms based on adaptive noise reduction technology and temporal convolutional network ( http://arxiv.org/abs/2311.16198v2 ) ライセンス: Link先を確認 | Haojian Huang, | (参考訳) クリーンで再生可能な重要なエネルギーとして、風力発電はエネルギー危機や環境汚染に対処する上で重要な役割を果たしている。
しかし、風速のボラティリティと断続性は、風力の発達を制限する。
そこで本研究では,データノイズ低減技術,時間畳み込みネットワーク(TCN),ゲートリカレントユニット(GRU)に基づく風速予測モデルを提案する。
まず、特異スペクトル分析(SSA)とピアソン相関係数に基づいて、適応データノイズ低減アルゴリズムP-SSAを提案する。
元の風速はSSAによって複数のサブシーケンスに分解され、その後再構築される。
再構成されたシーケンスと元のシーケンスとのピアソン相関係数が0.99以上であれば、他のノイズ列を削除して、データをデノイングする。
そして、TNの因果畳み込み及び拡張畳み込みによりサンプルの受容場を拡大し、風速変化の特性を抽出する。
そして、シーケンスの時間特徴情報をGRUにより抽出し、風速を予測し、P-SSA-TCN-GRUの風速シーケンス予測モデルを形成する。
提案モデルは山東省の3つの風力発電所で検証された。
実験の結果,提案モデルの予測性能は従来のTNモデルや他のモデルよりも優れており,高精度で安定性の強い風力発電所の風速予測が実現された。
このモデルの風速予測は、風力発電の運用と管理を支援するデータになる可能性がある。
コードはhttps://github.com/JethroJames/Wind-Speed-Forecast-TCN_GRUで公開されている。
As an important clean and renewable kind of energy, wind power plays an important role in coping with energy crisis and environmental pollution. However, the volatility and intermittency of wind speed restrict the development of wind power. To improve the utilization of wind power, this study proposes a new wind speed prediction model based on data noise reduction technology, temporal convolutional network (TCN), and gated recurrent unit (GRU). Firstly, an adaptive data noise reduction algorithm P-SSA is proposed based on singular spectrum analysis (SSA) and Pearson correlation coefficient. The original wind speed is decomposed into multiple subsequences by SSA and then reconstructed. When the Pearson correlation coefficient between the reconstructed sequence and the original sequence is greater than 0.99, other noise subsequences are deleted to complete the data denoising. Then, the receptive field of the samples is expanded through the causal convolution and dilated convolution of TCN, and the characteristics of wind speed change are extracted. Then, the time feature information of the sequence is extracted by GRU, and then the wind speed is predicted to form the wind speed sequence prediction model of P-SSA-TCN-GRU. The proposed model was validated on three wind farms in Shandong Province. The experimental results show that the prediction performance of the proposed model is better than that of the traditional model and other models based on TCN, and the wind speed prediction of wind farms with high precision and strong stability is realized. The wind speed predictions of this model have the potential to become the data that support the operation and management of wind farms. The code is available at https://github.com/JethroJames/Wind-Speed-Forecast-TCN_GRU | 翻訳日:2024-04-24 00:13:26 公開日:2024-04-22 |
# LLM-State:大規模言語モデルを用いた長期タスク計画のためのオープンワールドステート表現
LLM-State: Open World State Representation for Long-horizon Task Planning with Large Language Model ( http://arxiv.org/abs/2311.17406v2 ) ライセンス: Link先を確認 | Siwei Chen, Anxing Xiao, David Hsu, | (参考訳) 本研究では,Large Language Model (LLM) を用いたオープンワールド家庭環境における長期タスクプランニングの問題に対処する。
既存の作業では、キーオブジェクトや属性を明示的に追跡することができないため、長い水平タスクの誤った決定や、高度にエンジニアリングされた状態機能やフィードバックに依存しているため、一般化はできない。
本研究では,LLMのコンテキスト理解と過去の行動推論機能から,オブジェクト属性の連続的な拡張と更新を提供するオープンステート表現を提案する。
提案した表現は、オブジェクトの属性と変更の包括的な記録を保持し、現在の状態につながるアクションのシーケンスの堅牢なリフレクションサマリを可能にする。
これにより、世界モデルを継続的に更新し、タスク計画における意思決定のコンテキスト理解を強化することができる。
シミュレーションおよび実世界のタスク計画シナリオにおける実験を通じてモデルを検証し、長い水平状態追跡と推論を必要とする様々なタスクにおいて、ベースラインメソッドよりも大幅に改善されていることを示す。
(ビデオ\footnote{Video demo: \url{https://youtu.be/QkN-8pxV3Mo})
)。
This work addresses the problem of long-horizon task planning with the Large Language Model (LLM) in an open-world household environment. Existing works fail to explicitly track key objects and attributes, leading to erroneous decisions in long-horizon tasks, or rely on highly engineered state features and feedback, which is not generalizable. We propose an open state representation that provides continuous expansion and updating of object attributes from the LLM's inherent capabilities for context understanding and historical action reasoning. Our proposed representation maintains a comprehensive record of an object's attributes and changes, enabling robust retrospective summary of the sequence of actions leading to the current state. This allows continuously updating world model to enhance context understanding for decision-making in task planning. We validate our model through experiments across simulated and real-world task planning scenarios, demonstrating significant improvements over baseline methods in a variety of tasks requiring long-horizon state tracking and reasoning. (Video\footnote{Video demonstration: \url{https://youtu.be/QkN-8pxV3Mo}.}) | 翻訳日:2024-04-24 00:13:26 公開日:2024-04-22 |
# 選択の前に考える:ドメインシフトによる医用画像分析のためのフェデレーション・エビデンシャル・アクティブ・ラーニング
Think Twice Before Selection: Federated Evidential Active Learning for Medical Image Analysis with Domain Shifts ( http://arxiv.org/abs/2312.02567v2 ) ライセンス: Link先を確認 | Jiayi Chen, Benteng Ma, Hengfei Cui, Yong Xia, | (参考訳) フェデレートラーニングは、データを集中化せずに複数の分散医療機関にまたがるグローバルモデルの協調学習を促進する。
それでも、ローカルクライアントに対するアノテーションの高価なコストは、ローカルデータを効果的に活用する上で障害となる。
この問題を解決するために、フェデレートされたアクティブラーニング手法は、局所的およびグローバルなモデル予測を利用して、比較的少量の情報的ローカルデータをアノテーションとして選択することを提案している。
しかし、既存のメソッドは、主に同じドメインからサンプリングされたすべてのローカルデータに焦点を当てており、異なるクライアント間のドメインシフトを伴う現実的な医療シナリオでは信頼できない。
本稿では,多様なドメインから派生したローカルデータの情報性を評価するための最初の試みを行い,ドメインシフト下でのデータ評価を校正するフェデレーション・エビデンシャル・アクティブ・ラーニング(FEAL)と呼ばれる新しい手法を提案する。
具体的には,局所モデルと大域モデルの両方においてディリクレ先行分布を導入し,この予測を確率的単純度上の分布として扱うとともに,ディリクレに基づく明らか性モデルを用いてアレータリックおよび疫学的不確かさを捉える。
そして, てんかん不確実性を用いて, 動脈不確実性を校正する。
その後、データの冗長性を低減し、データの多様性を維持するために、多様性緩和戦略を設計する。
5つの実マルチセンター医療画像データセットの大規模な実験と分析は、ドメインシフトを伴うフェデレーションシナリオにおける最先端のアクティブラーニング手法よりもFEALの方が優れていることを示す。
コードはhttps://github.com/JiayiChen815/FEAL.comから入手できる。
Federated learning facilitates the collaborative learning of a global model across multiple distributed medical institutions without centralizing data. Nevertheless, the expensive cost of annotation on local clients remains an obstacle to effectively utilizing local data. To mitigate this issue, federated active learning methods suggest leveraging local and global model predictions to select a relatively small amount of informative local data for annotation. However, existing methods mainly focus on all local data sampled from the same domain, making them unreliable in realistic medical scenarios with domain shifts among different clients. In this paper, we make the first attempt to assess the informativeness of local data derived from diverse domains and propose a novel methodology termed Federated Evidential Active Learning (FEAL) to calibrate the data evaluation under domain shift. Specifically, we introduce a Dirichlet prior distribution in both local and global models to treat the prediction as a distribution over the probability simplex and capture both aleatoric and epistemic uncertainties by using the Dirichlet-based evidential model. Then we employ the epistemic uncertainty to calibrate the aleatoric uncertainty. Afterward, we design a diversity relaxation strategy to reduce data redundancy and maintain data diversity. Extensive experiments and analysis on five real multi-center medical image datasets demonstrate the superiority of FEAL over the state-of-the-art active learning methods in federated scenarios with domain shifts. The code will be available at https://github.com/JiayiChen815/FEAL. | 翻訳日:2024-04-24 00:13:26 公開日:2024-04-22 |
# CoGS: 制御可能なガウススプラッティング
CoGS: Controllable Gaussian Splatting ( http://arxiv.org/abs/2312.05664v2 ) ライセンス: Link先を確認 | Heng Yu, Joel Julin, Zoltán Á. Milacski, Koichiro Niinuma, László A. Jeni, | (参考訳) 有声物体の3次元構造のキャプチャと再アニメーションは重要な障壁となる。
一方,広範に校正されたマルチビュー設定を必要とする手法は複雑で資源集約的であり,実用性に限界がある。
一方、シングルカメラのNeural Radiance Fields(NeRF)はより合理化されたアプローチを提供するが、過度のトレーニングとレンダリングコストがある。
3Dガウシアン・スプレイティングは2つの理由から、適切な代替手段となるだろう。
まず,3次元ダイナミックガウシアンのための既存の手法では,同期型マルチビューカメラが必要であり,また動的シナリオにおける制御性の欠如がある。
本稿では,シーン要素を直接操作し,事前に計算した制御信号の必要なしに動的シーンをリアルタイムに制御する,制御可能なガウス分割法CoGSを提案する。
我々はCoGSを、難易度が異なる動的オブジェクトを含む合成データセットと実世界のデータセットの両方を用いて評価した。
我々の評価では、CoGSは視覚的忠実度の観点から、既存の動的および制御可能なニューラル表現よりも一貫して優れていた。
Capturing and re-animating the 3D structure of articulated objects present significant barriers. On one hand, methods requiring extensively calibrated multi-view setups are prohibitively complex and resource-intensive, limiting their practical applicability. On the other hand, while single-camera Neural Radiance Fields (NeRFs) offer a more streamlined approach, they have excessive training and rendering costs. 3D Gaussian Splatting would be a suitable alternative but for two reasons. Firstly, existing methods for 3D dynamic Gaussians require synchronized multi-view cameras, and secondly, the lack of controllability in dynamic scenarios. We present CoGS, a method for Controllable Gaussian Splatting, that enables the direct manipulation of scene elements, offering real-time control of dynamic scenes without the prerequisite of pre-computing control signals. We evaluated CoGS using both synthetic and real-world datasets that include dynamic objects that differ in degree of difficulty. In our evaluations, CoGS consistently outperformed existing dynamic and controllable neural representations in terms of visual fidelity. | 翻訳日:2024-04-24 00:13:26 公開日:2024-04-22 |
# 不確実データを用いたニューラルネットワークのトレーニング-エキスパートアプローチの混合
Training of Neural Networks with Uncertain Data -- A Mixture of Experts Approach ( http://arxiv.org/abs/2312.08083v2 ) ライセンス: Link先を確認 | Lucas Luttner, | (参考訳) 本稿では、ニューラルネットワーク(NN)に基づく予測モデルにおけるアレラトリック不確実性に対処する新しいソリューションである「エキスパートの不確実性認識混合(uMoE)」を紹介する。
既存の方法論は主に推論中の不確実性を管理することに集中しているが、uMoEはトレーニングフェーズに不確実性を独自に埋め込む。
Divide and Conquer"戦略を用いて、uMoEは不確実な入力空間をより管理可能なサブ空間に戦略的に分割する。
エキスパートコンポーネントで構成され、それぞれのサブスペースの不確実性に基づいて個別にトレーニングされる。
ゲーティングユニットであるエキスパートを概観し、これらのサブスペースにまたがる不確実なインプットの分布に関する追加情報を活用し、重み付けを動的に調整し、地平からの偏差を最小限に抑える。
本研究は,データ不確実性を効果的に管理するために,ベースライン法よりもuMoEの方が優れていることを示す。
さらに, 包括的ロバスト性解析により, 種々の不確実性レベルへの適応性を示し, 最適しきい値パラメータを提案する。
この革新的なアプローチは、バイオメディカル信号処理、自律運転、生産品質管理など、様々なda-ta-drivenドメインに適用可能である。
This paper introduces the "Uncertainty-aware Mixture of Experts" (uMoE), a novel solution aimed at addressing aleatoric uncertainty within Neural Network (NN) based predictive models. While existing methodologies primarily concentrate on managing uncertainty during inference, uMoE uniquely embeds uncertainty into the training phase. Employing a "Divide and Conquer" strategy, uMoE strategically partitions the uncertain input space into more manageable subspaces. It comprises Expert components, individually trained on their respective subspace uncertainties. Overarching the Experts, a Gating Unit, leveraging additional information regarding the distribution of uncertain in-puts across these subspaces, dynamically adjusts the weighting to minimize deviations from ground truth. Our findings demonstrate the superior performance of uMoE over baseline methods in effectively managing data uncertainty. Furthermore, through a comprehensive robustness analysis, we showcase its adaptability to varying uncertainty levels and propose optimal threshold parameters. This innovative approach boasts broad applicability across diverse da-ta-driven domains, including but not limited to biomedical signal processing, autonomous driving, and production quality control. | 翻訳日:2024-04-24 00:03:25 公開日:2024-04-22 |
# グラフ上の一般化ニューラル拡散フレームワーク
A Generalized Neural Diffusion Framework on Graphs ( http://arxiv.org/abs/2312.08616v5 ) ライセンス: Link先を確認 | Yibo Li, Xiao Wang, Hongrui Liu, Chuan Shi, | (参考訳) 近年の研究では、GNNと拡散過程の関連が明らかにされており、多くの拡散に基づくGNNが提案されている。
しかしながら、これらの2つのメカニズムは密接に関連しているため、自然に1つの根本的な疑問が生じる: これらのGNNを正式に統一できる一般的な拡散フレームワークはあるか?
この質問に対する回答は、GNNの学習プロセスの理解を深めるだけでなく、より広いクラスのGNNを設計するための新たな扉を開くかもしれない。
本稿では, 拡散過程とより多くのGNNの関係を正式に確立する, 忠実度項付き一般拡散方程式フレームワークを提案する。
一方、この枠組みでは、グラフ拡散ネットワークの1つの特性、すなわち、現在の神経拡散過程は1次拡散方程式にのみ対応している。
しかし, 実験により, 高次隣人のラベルは実際にはモノフィリーな性質を示しており, 高次隣人のラベルに基づく類似性は, 一次隣人の類似性を必要としないことがわかった。
この発見の動機は、新しい高次隣り合う拡散方程式を設計し、フレームワークに基づいた新しいタイプのグラフ拡散ネットワーク(HiD-Net)を導出することにある。
高次拡散方程式では、HiD-Netは攻撃に対してより堅牢であり、ホモフィリーグラフとヘテロフィリーグラフの両方で作用する。
我々は,HiD-Netと高次ランダムウォークの関係を理論的に解析するだけでなく,理論的収束保証を提供する。
グラフ拡散ネットワークにおけるHiD-Netの有効性を実験的に検証した。
Recent studies reveal the connection between GNNs and the diffusion process, which motivates many diffusion-based GNNs to be proposed. However, since these two mechanisms are closely related, one fundamental question naturally arises: Is there a general diffusion framework that can formally unify these GNNs? The answer to this question can not only deepen our understanding of the learning process of GNNs, but also may open a new door to design a broad new class of GNNs. In this paper, we propose a general diffusion equation framework with the fidelity term, which formally establishes the relationship between the diffusion process with more GNNs. Meanwhile, with this framework, we identify one characteristic of graph diffusion networks, i.e., the current neural diffusion process only corresponds to the first-order diffusion equation. However, by an experimental investigation, we show that the labels of high-order neighbors actually exhibit monophily property, which induces the similarity based on labels among high-order neighbors without requiring the similarity among first-order neighbors. This discovery motives to design a new high-order neighbor-aware diffusion equation, and derive a new type of graph diffusion network (HiD-Net) based on the framework. With the high-order diffusion equation, HiD-Net is more robust against attacks and works on both homophily and heterophily graphs. We not only theoretically analyze the relation between HiD-Net with high-order random walk, but also provide a theoretical convergence guarantee. Extensive experimental results well demonstrate the effectiveness of HiD-Net over state-of-the-art graph diffusion networks. | 翻訳日:2024-04-24 00:03:25 公開日:2024-04-22 |
# NeLF-Pro:マルチスケール新規ビュー合成のためのニューラル光電場プローブ
NeLF-Pro: Neural Light Field Probes for Multi-Scale Novel View Synthesis ( http://arxiv.org/abs/2312.13328v2 ) ライセンス: Link先を確認 | Zinuo You, Andreas Geiger, Anpei Chen, | (参考訳) 自然界における光場をモデル化・再構成するための新しい表現であるNeLF-Proについて述べる。
グローバルな3Dシーンを表現した従来の高速な再構成手法とは対照的に、我々はシーンの光フィールドを局所的な光フィールド特徴プローブの集合としてモデル化し、位置とマルチチャネル2D特徴マップをパラメータ化した。
私たちの中心となる考え方は、シーンの光場を空間的に異なる学習可能な表現に焼き、カメラの近くにあるプローブの重み付けによってポイントの特徴を問合せ、ミップマップの表現とレンダリングを可能にします。
本稿では,光電場特徴プローブを局所特徴プローブ間で共有されるコアファクター(VM)の積として効果的に表現する新しいベクトル行列行列(VMM)因子化手法と,シーン内の内部関係やパターンを効率的に符号化するベースファクター(M)について紹介する。
実験により,NeLF-Proは特徴グリッドベース表現の性能を著しく向上させ,コンパクトなモデリングを維持しつつ,レンダリング品質を向上し,高速な再構成を実現することを示した。
プロジェクト Web ページ https://sinoyou.github.io/nelf-pro/
We present NeLF-Pro, a novel representation to model and reconstruct light fields in diverse natural scenes that vary in extent and spatial granularity. In contrast to previous fast reconstruction methods that represent the 3D scene globally, we model the light field of a scene as a set of local light field feature probes, parameterized with position and multi-channel 2D feature maps. Our central idea is to bake the scene's light field into spatially varying learnable representations and to query point features by weighted blending of probes close to the camera - allowing for mipmap representation and rendering. We introduce a novel vector-matrix-matrix (VMM) factorization technique that effectively represents the light field feature probes as products of core factors (i.e., VM) shared among local feature probes, and a basis factor (i.e., M) - efficiently encoding internal relationships and patterns within the scene. Experimentally, we demonstrate that NeLF-Pro significantly boosts the performance of feature grid-based representations, and achieves fast reconstruction with better rendering quality while maintaining compact modeling. Project webpage https://sinoyou.github.io/nelf-pro/. | 翻訳日:2024-04-24 00:03:25 公開日:2024-04-22 |
# 脳MRIにおけるSE(3)-equivariant and noise-invariant 3D Rigid Motion Tracking
SE(3)-Equivariant and Noise-Invariant 3D Rigid Motion Tracking in Brain MRI ( http://arxiv.org/abs/2312.13534v2 ) ライセンス: Link先を確認 | Benjamin Billot, Neel Dey, Daniel Moyer, Malte Hoffmann, Esra Abaci Turk, Borjan Gagoski, Ellen Grant, Polina Golland, | (参考訳) 剛体運動追跡は、運動を検出し、修正し、説明する必要がある多くの医療画像アプリケーションにおいて最重要である。
現代の戦略は畳み込みニューラルネットワーク(CNN)に依存しており、厳格な登録としてこの問題を提起している。
しかし、CNNはこのタスクにおいて自然な対称性を利用せず、翻訳(出力は入力とともに変化する)と同一であるが、回転には適用されない。
本稿では,動き追跡にSE(3)-equivariant CNN(E-CNN)を用いる最初の方法であるEquiTrackを提案する。
ステアブルなE-CNNは、さまざまなポーズで対応する特徴を抽出できるが、ノイズの多い医療画像でそれらをテストすると、ノイズ不変性を学ぶのに十分な学習能力がないことが分かる。
そこで,同変空間特徴の抽出から解剖学的に無関係な強度特徴の処理を分離するために,E-CNNとデノイザを結合するハイブリッドアーキテクチャを提案する。
剛体変換は閉形式で推定される。
EquiTrackは、成人脳MRIおよび胎児MRI時系列における運動追跡の最先端の学習および最適化方法より優れている。
私たちのコードはhttps://github.com/BBillot/EquiTrack.comから入手可能です。
Rigid motion tracking is paramount in many medical imaging applications where movements need to be detected, corrected, or accounted for. Modern strategies rely on convolutional neural networks (CNN) and pose this problem as rigid registration. Yet, CNNs do not exploit natural symmetries in this task, as they are equivariant to translations (their outputs shift with their inputs) but not to rotations. Here we propose EquiTrack, the first method that uses recent steerable SE(3)-equivariant CNNs (E-CNN) for motion tracking. While steerable E-CNNs can extract corresponding features across different poses, testing them on noisy medical images reveals that they do not have enough learning capacity to learn noise invariance. Thus, we introduce a hybrid architecture that pairs a denoiser with an E-CNN to decouple the processing of anatomically irrelevant intensity features from the extraction of equivariant spatial features. Rigid transforms are then estimated in closed-form. EquiTrack outperforms state-of-the-art learning and optimisation methods for motion tracking in adult brain MRI and fetal MRI time series. Our code is available at https://github.com/BBillot/EquiTrack. | 翻訳日:2024-04-24 00:03:25 公開日:2024-04-22 |
# GestaltMML: 顔画像と臨床テキストを組み合わせたマルチモーダル機械学習による希少な遺伝的疾患診断の強化
GestaltMML: Enhancing Rare Genetic Disease Diagnosis through Multimodal Machine Learning Combining Facial Images and Clinical Texts ( http://arxiv.org/abs/2312.15320v2 ) ライセンス: Link先を確認 | Da Wu, Jingye Yang, Cong Liu, Tzung-Chien Hsieh, Elaine Marchi, Justin Blair, Peter Krawitz, Chunhua Weng, Wendy Chung, Gholson J. Lyon, Ian D. Krantz, Jennifer M. Kalish, Kai Wang, | (参考訳) 稀な遺伝性疾患を疑う人は、長期間にわたって複数の臨床評価、画像研究、実験室試験、遺伝子検査を行いうる答えを見つける。
この「診断オデッセイ」に対処するためには、臨床、精神社会的、経済的利益がかなりある。
多くの稀な遺伝病は、人工知能アルゴリズムによって臨床診断の促進、検査検査や遺伝子アッセイによってさらに調べられる候補疾患の優先順位付け、あるいはゲノム・ゲノムシークエンシングデータの表現型駆動的再解釈を助けるために、特徴的な顔の特徴を有する。
従来の畳み込みニューラルネットワーク(CNN)をベースとして、顔画像のみに頼り、顔の表情の特徴や、正確な診断に不可欠な人口統計情報を捉えることができない。
本稿では,Transformerアーキテクチャのみに基づくマルチモーダル機械学習(MML)アプローチであるGestaltMMLを紹介する。
顔画像、人口統計情報(年齢、性別、民族)、臨床ノート(オプションとしてヒト現象型オントロジー用語のリスト)を統合して、予測精度を向上させる。
GestaltMMLは,GestaltMatcher Databaseの528の疾患,Beckwith-Wiedemann症候群(BWS),Sotos症候群(BWSと重複するオーバーグロース症候群),NAA10関連神経発達障害,Cornelia de Lange症候群(多重奇形症候群),KBG症候群(多重奇形症候群)など,多種多様なデータセットで評価した。
以上の結果から,GestaltMMLは複数のデータモダリティを効果的に組み込んで,稀な疾患の遺伝子診断の候補を著しく狭め,ゲノム・ゲノムシークエンシングデータの再解釈を容易にする可能性が示唆された。
Individuals with suspected rare genetic disorders often undergo multiple clinical evaluations, imaging studies, laboratory tests and genetic tests, to find a possible answer over a prolonged period of time. Addressing this "diagnostic odyssey" thus has substantial clinical, psychosocial, and economic benefits. Many rare genetic diseases have distinctive facial features, which can be used by artificial intelligence algorithms to facilitate clinical diagnosis, in prioritizing candidate diseases to be further examined by lab tests or genetic assays, or in helping the phenotype-driven reinterpretation of genome/exome sequencing data. Existing methods using frontal facial photos were built on conventional Convolutional Neural Networks (CNNs), rely exclusively on facial images, and cannot capture non-facial phenotypic traits and demographic information essential for guiding accurate diagnoses. Here we introduce GestaltMML, a multimodal machine learning (MML) approach solely based on the Transformer architecture. It integrates facial images, demographic information (age, sex, ethnicity), and clinical notes (optionally, a list of Human Phenotype Ontology terms) to improve prediction accuracy. Furthermore, we also evaluated GestaltMML on a diverse range of datasets, including 528 diseases from the GestaltMatcher Database, several in-house datasets of Beckwith-Wiedemann syndrome (BWS, over-growth syndrome with distinct facial features), Sotos syndrome (overgrowth syndrome with overlapping features with BWS), NAA10-related neurodevelopmental syndrome, Cornelia de Lange syndrome (multiple malformation syndrome), and KBG syndrome (multiple malformation syndrome). Our results suggest that GestaltMML effectively incorporates multiple modalities of data, greatly narrowing candidate genetic diagnoses of rare diseases and may facilitate the reinterpretation of genome/exome sequencing data. | 翻訳日:2024-04-24 00:03:25 公開日:2024-04-22 |
# ワンウェイ状態発電機とEFIの出力長に関する一考察
A Note on Output Length of One-Way State Generators and EFIs ( http://arxiv.org/abs/2312.16025v3 ) ライセンス: Link先を確認 | Minki Hhan, Tomoyuki Morimae, Takashi Yamakawa, | (参考訳) 本研究では,一方向状態発生器(OWSG)の出力長,より弱い変種,EFIの出力長について検討する。
-標準OWSG。
最近、Cavalar et al (arXiv:2312.08363) は、$m =omega(\log \lambda)$に対して$m$-qubit出力を持つ OWSG を与え、$\lambda$ はセキュリティパラメータであり、$O(\log \log \lambda)$-qubit出力を持つ OWSG が存在しないことを予想している。
我々は、それらの予想をより強い方法で証明し、$O(\log \lambda)$-qubit 出力を持つ OWSG が存在しないことを示す。
これは、それらの構成が出力長の点で最適であることを意味する。
-逆多項式アドバンテージOWSG。
例えば、$\epsilon$-OWSGs を OWSG のパラメータ化された変種とし、量子多項式時間反転の利点は最大$\epsilon$ である。
任意の定数 $c\in \mathbb{N}$ に対して、OWF の存在を仮定した $((c+1)\log \lambda+O(1))$-qubit 出力で $\lambda^{-c}$-OWSGs を構成する。
これは、少なくとも$(c\log \lambda-2)$-qubit出力を持つ$\lambda^{-c}$-OWSGが存在しないことを証明することで、ほぼ厳密であることを示す。
-定値アドバンテージOWSG。
任意の定数 $\epsilon>0$ に対して、サブ指数的にセキュアな OWF の存在を前提として $O(\log \log \lambda)$-qubit 出力で $\epsilon$-OWSGs を構築する。
これは、$(((\log \log \lambda)/2+O(1))$-qubit出力を持つ$O(1)$-OWSGが存在しないことを証明することで、ほぼ厳密であることを示す。
-OWSGを弱める。
1-1/\mathsf{poly}(\lambda))$-OWSG を弱い OWSG と呼ぶ。
線形展開を伴う指数的に安全な OWF の存在を前提として、弱 OWSG を$m$-qubit 出力で任意の $m=\omega(1)$ に対して構成する。
我々は、$O(1)$-qubit 出力を持つ弱い OWSG が存在しないことを証明することで、これは厳密であることを示す。
-EFI。
O(\log \lambda)$-qubit EFIは存在しない。
指数的にセキュアなPRGの存在を前提とした$\omega(\log \lambda)$-qubit EFIが存在することを証明することによって、これは厳密であることを示す。
We study the output length of one-way state generators (OWSGs), their weaker variants, and EFIs. - Standard OWSGs. Recently, Cavalar et al. (arXiv:2312.08363) give OWSGs with $m$-qubit outputs for any $m=\omega(\log \lambda)$, where $\lambda$ is the security parameter, and conjecture that there do not exist OWSGs with $O(\log \log \lambda)$-qubit outputs. We prove their conjecture in a stronger manner by showing that there do not exist OWSGs with $O(\log \lambda)$-qubit outputs. This means that their construction is optimal in terms of output length. - Inverse-polynomial-advantage OWSGs. Let $\epsilon$-OWSGs be a parameterized variant of OWSGs where a quantum polynomial-time adversary's advantage is at most $\epsilon$. For any constant $c\in \mathbb{N}$, we construct $\lambda^{-c}$-OWSGs with $((c+1)\log \lambda+O(1))$-qubit outputs assuming the existence of OWFs. We show that this is almost tight by proving that there do not exist $\lambda^{-c}$-OWSGs with at most $(c\log \lambda-2)$-qubit outputs. - Constant-advantage OWSGs. For any constant $\epsilon>0$, we construct $\epsilon$-OWSGs with $O(\log \log \lambda)$-qubit outputs assuming the existence of subexponentially secure OWFs. We show that this is almost tight by proving that there do not exist $O(1)$-OWSGs with $((\log \log \lambda)/2+O(1))$-qubit outputs. - Weak OWSGs. We refer to $(1-1/\mathsf{poly}(\lambda))$-OWSGs as weak OWSGs. We construct weak OWSGs with $m$-qubit outputs for any $m=\omega(1)$ assuming the existence of exponentially secure OWFs with linear expansion. We show that this is tight by proving that there do not exist weak OWSGs with $O(1)$-qubit outputs. - EFIs. We show that there do not exist $O(\log \lambda)$-qubit EFIs. We show that this is tight by proving that there exist $\omega(\log \lambda)$-qubit EFIs assuming the existence of exponentially secure PRGs. | 翻訳日:2024-04-24 00:03:25 公開日:2024-04-22 |
# 場の理論における量子ゆらぎの効果的なダイナミクス--宇宙論への応用
Effective dynamics of quantum fluctuations in field theory: with applications to cosmology ( http://arxiv.org/abs/2312.16295v2 ) ライセンス: Link先を確認 | Ding Ding, Zhao Yu, Yidun Wan, | (参考訳) 我々は、宇宙論の応用に焦点をあてて、場の理論における量子ゆらぎを記述するための新しい枠組みを開発する。
この方法は、古典変数、量子ゆらぎ、有効ハミルトニアンの体系的な処理に頼る代わりに、演算子/ヒルベルト空間形式の使用を一意に回避する。
我々のフレームワークは平坦な時空とデ・ジッター時空の標準形式と一致し、これはバックリアクションを前提とせず、$\varphi^3$-モデルを通して証明される。
不確実性原理と空間対称性は、初期条件を選択し、有効なポテンシャルを理解するための重要なツールとして現れる。
ハッブル地平線 \emph{do not} 内のモードは、一般的に仮定されるように、必ず最初のミンコフスキー真空を感じる。
我々の発見は、初期の宇宙の量子ゆらぎと、大規模CMB異常に対する潜在的な説明に新たな洞察を与える。
We develop a novel framework for describing quantum fluctuations in field theory, with a focus on cosmological applications. Our method uniquely circumvents the use of operator/Hilbert-space formalism, instead relying on a systematic treatment of classical variables, quantum fluctuations, and an effective Hamiltonian. Our framework not only aligns with standard formalisms in flat and de Sitter spacetimes, which assumes no backreaction, demonstrated through the $\varphi^3$-model, but also adeptly handles time-dependent backreaction in more general cases. The uncertainty principle and spatial symmetry emerge as critical tools for selecting initial conditions and understanding effective potentials. We discover that modes inside the Hubble horizon \emph{do not} necessarily feel an initial Minkowski vacuum, as is commonly assumed. Our findings offer fresh insights into the early universe's quantum fluctuations and potential explanations to large-scale CMB anomalies. | 翻訳日:2024-04-24 00:03:25 公開日:2024-04-22 |
# ドローンファームウェアの動的解析の問題点とその解決法
Difficulties in Dynamic Analysis of Drone Firmware and Its Solutions ( http://arxiv.org/abs/2312.16818v3 ) ライセンス: Link先を確認 | Yejun Kim, Kwangsoo Cho, Seungjoo Kim, | (参考訳) モノのインターネット(IoT)技術の進歩により、その応用は公共、工業、民間、軍事など様々な分野にまたがる。
特に、ドローン部門は商業目的と軍事目的の両方において大きな注目を集めている。
その結果、ドローンの脆弱性分析に焦点を当てた研究が急増した。
しかし、IoTデバイスに対する脅威を軽減するセキュリティ研究のほとんどは、主にネットワーク、ファームウェア、モバイルアプリケーションに焦点を当てている。
これらのうち、ファームウェアのセキュリティを解析するためにファジリングを使用するには、ファームウェアのエミュレーションが必要である。
しかし、ドローンファームウェアに関しては、エミュレーションや自動ファジィングツールが欠けている。
これは、入力インターフェースの制限、ファームウェアの暗号化、署名といった問題によることが多い。
既存のエミュレータやIoTデバイスの自動アナライザがドローンに適用できると仮定する傾向にあるが、実際的な応用が証明されている。
本稿では,ドローンファームウェアを動的に解析することの課題について論じ,潜在的な解決策を提案する。
さらに,最大市場シェアのDJIドローンに適用することで,提案手法の有効性を実証する。
With the advancement of Internet of Things (IoT) technology, its applications span various sectors such as public, industrial, private and military. In particular, the drone sector has gained significant attention for both commercial and military purposes. As a result, there has been a surge in research focused on vulnerability analysis of drones. However, most security research to mitigate threats to IoT devices has focused primarily on networks, firmware and mobile applications. Of these, the use of fuzzing to analyze the security of firmware requires emulation of the firmware. However, when it comes to drone firmware, the industry lacks emulation and automated fuzzing tools. This is largely due to challenges such as limited input interfaces, firmware encryption and signatures. While it may be tempting to assume that existing emulators and automated analyzers for IoT devices can be applied to drones, practical applications have proven otherwise. In this paper, we discuss the challenges of dynamically analyzing drone firmware and propose potential solutions. In addition, we demonstrate the effectiveness of our methodology by applying it to DJI drones, which have the largest market share. | 翻訳日:2024-04-24 00:03:25 公開日:2024-04-22 |
# ニューラル・コントロール:ニューラル・オードを用いた同時システム同定と制御学習
Neural Control: Concurrent System Identification and Control Learning with Neural ODE ( http://arxiv.org/abs/2401.01836v4 ) ライセンス: Link先を確認 | Cheng Chi, | (参考訳) 連続時間力学系の制御は、一般に2段階のプロセスである: まず、微分方程式で系の力学を識別またはモデル化し、次に、最適制御関数と最適状態軌道を達成するために制御目標を最小化する。
しかしながら、動的モデリングの不正確さは、結果として生じる制御関数の準最適性をもたらす。
そこで本研究では,ニューラルネットワークを用いた動的同定と最適制御学習を組み合わせた未知の力学系の制御手法であるニューラルコントロール(NC)を提案する。
結合型ニューラルODE構造における2つのニューラルネットワーク間の興味深い相互作用を通じて、我々のモデルは、ターゲット状態へ導く最適な制御だけでなく、システムのダイナミクスも同時に学習する。
実験では,未知の力学系の最適制御を学習するためのモデルの有効性を実証した。
https://github.com/chichengmessi/neural_ode_control/tree/mainで利用可能なコード
Controlling continuous-time dynamical systems is generally a two step process: first, identify or model the system dynamics with differential equations, then, minimize the control objectives to achieve optimal control function and optimal state trajectories. However, any inaccuracy in dynamics modeling will lead to sub-optimality in the resulting control function. To address this, we propose a neural ODE based method for controlling unknown dynamical systems, denoted as Neural Control (NC), which combines dynamics identification and optimal control learning using a coupled neural ODE. Through an intriguing interplay between the two neural networks in coupled neural ODE structure, our model concurrently learns system dynamics as well as optimal controls that guides towards target states. Our experiments demonstrate the effectiveness of our model for learning optimal control of unknown dynamical systems. Codes available at https://github.com/chichengmessi/neural_ode_control/tree/main | 翻訳日:2024-04-23 23:53:39 公開日:2024-04-22 |
# 3次元分子生成のための幾何差分分解拡散モデル
Geometric-Facilitated Denoising Diffusion Model for 3D Molecule Generation ( http://arxiv.org/abs/2401.02683v2 ) ライセンス: Link先を確認 | Can Xu, Haosen Wang, Weigang Wang, Pengfei Zheng, Hongyang Chen, | (参考訳) 拡散モデルのデノイングは、複数の研究領域において大きな可能性を示している。
既存の拡散に基づくデノボ3次元分子生成法は2つの大きな課題に直面している。
分子の大多数の重原子は単一結合を介して複数の原子との結合を許すため、分子のジオメトリーをモデル化するためのペアワイズ距離だけでは不十分である。
したがって、最初のものは、複雑な多体原子間関係をキャプチャし、高品質な特徴を学習することのできる、認知カーネルとして効果的なニューラルネットワークを提案することである。
グラフの離散性のため、分子の主流拡散に基づく手法は、事前に定義された規則に強く依存し、間接的にエッジを生成する。
第2の課題は、分子生成を拡散に調節し、結合の存在を正確に予測することである。
本研究では,拡散過程における分子配座の反復的更新法は分子動力学と一致し,新しい分子生成法であるGeometric-Facilitated Molecular Diffusion(GFMDiff)を導入する。
最初の課題として、グローバル空間関係を完全に抽出し、特徴量や測地量の正確な予測に寄与する高品質な表現を学習するためのDual-Track Transformer Network(DTN)を導入する。
第2の課題は、エッジを直接潜伏空間に埋め込むのではなく、トレーニング期間中に結合の形成に介入する幾何学的識別損失(GFLoss)を設計することである。
現在のベンチマークに関する総合的な実験は、GFMDiffの優位性を示している。
Denoising diffusion models have shown great potential in multiple research areas. Existing diffusion-based generative methods on de novo 3D molecule generation face two major challenges. Since majority heavy atoms in molecules allow connections to multiple atoms through single bonds, solely using pair-wise distance to model molecule geometries is insufficient. Therefore, the first one involves proposing an effective neural network as the denoising kernel that is capable to capture complex multi-body interatomic relationships and learn high-quality features. Due to the discrete nature of graphs, mainstream diffusion-based methods for molecules heavily rely on predefined rules and generate edges in an indirect manner. The second challenge involves accommodating molecule generation to diffusion and accurately predicting the existence of bonds. In our research, we view the iterative way of updating molecule conformations in diffusion process is consistent with molecular dynamics and introduce a novel molecule generation method named Geometric-Facilitated Molecular Diffusion (GFMDiff). For the first challenge, we introduce a Dual-Track Transformer Network (DTN) to fully excevate global spatial relationships and learn high quality representations which contribute to accurate predictions of features and geometries. As for the second challenge, we design Geometric-Facilitated Loss (GFLoss) which intervenes the formation of bonds during the training period, instead of directly embedding edges into the latent space. Comprehensive experiments on current benchmarks demonstrate the superiority of GFMDiff. | 翻訳日:2024-04-23 23:53:39 公開日:2024-04-22 |
# DrawTalking: スケッチと講演によるインタラクティブな世界の構築
DrawTalking: Building Interactive Worlds by Sketching and Speaking ( http://arxiv.org/abs/2401.05631v3 ) ライセンス: Link先を確認 | Karl Toby Rosenberg, Rubaiat Habib Kazi, Li-Yi Wei, Haijun Xia, Ken Perlin, | (参考訳) そこで我々はDrawTalkingを紹介した。DrawTalkingは、スケッチと音声による対話的世界の構築と制御のためのアプローチである。
ユーザコントロールと柔軟性を強調し、コードを必要としないプログラミングのような機能を提供する。
私たちはそれを実演するためにプロトタイプを作りました。
初期のオープンエンドの研究は、機械が共鳴し、多くの創造的・探索的なユースケースに適用できることを示している。
We introduce DrawTalking, an approach to building and controlling interactive worlds by sketching and speaking. It emphasizes user control and flexibility, and gives programming-like capability without requiring code. We built a prototype to demonstrate it. An early open-ended study shows the mechanics resonate and are applicable to many creative-exploratory use cases, with the potential to inspire and inform research in future natural interfaces for creative exploration and authoring. | 翻訳日:2024-04-23 23:53:39 公開日:2024-04-22 |
# 大規模言語モデルは時間的推論を学習できる
Large Language Models Can Learn Temporal Reasoning ( http://arxiv.org/abs/2401.06853v3 ) ライセンス: Link先を確認 | Siheng Xiong, Ali Payani, Ramana Kompella, Faramarz Fekri, | (参考訳) 大きな言語モデル(LLM)は顕著な推論能力を示しているが、欠陥や不正確さがないわけではない。
近年の研究では、これらの制限を緩和する様々な方法が紹介されている。
特に、時間的推論(TR)は、多種多様な時間的表現と複雑な時間的論理に依存しているため、LLMにとって重要な課題である。
本稿では,言語ベースTRに向けた新しいフレームワークであるTG-LLMを提案する。
元の文脈を推論する代わりに、TR学習を容易にする潜在表現である時間グラフ(TG)を採用する。
完全制御可能で最小限の監視を必要とする合成データセット(TGQA)は、このテキストからTGへの翻訳タスク上での微調整用として構築される。
実験では,データセット上で学習したTG翻訳の能力が,他のTRタスクやベンチマークに転送可能であることを確認した。
それに加えて、私たちはLLMに、Chain of Thought (CoT)ブートストラップとグラフデータ拡張を通じて、意図的にTGを推論するように教えています。
有用性と多様性のバランスを保っているこれらの戦略は,バニラのCoT蒸留よりも信頼性が高く,最終結果が得られた。
While large language models (LLMs) have demonstrated remarkable reasoning capabilities, they are not without their flaws and inaccuracies. Recent studies have introduced various methods to mitigate these limitations. Temporal reasoning (TR), in particular, presents a significant challenge for LLMs due to its reliance on diverse temporal expressions and intricate temporal logic. In this paper, we propose TG-LLM, a novel framework towards language-based TR. Instead of reasoning over the original context, we adopt a latent representation, temporal graph (TG) that facilitates the TR learning. A synthetic dataset (TGQA), which is fully controllable and requires minimal supervision, is constructed for fine-tuning LLMs on this text-to-TG translation task. We confirmed in experiments that the capability of TG translation learned on our dataset can be transferred to other TR tasks and benchmarks. On top of that, we teach LLM to perform deliberate reasoning over the TGs via Chain of Thought (CoT) bootstrapping and graph data augmentation. We observed that those strategies, which maintain a balance between usefulness and diversity, bring more reliable CoTs and final results than the vanilla CoT distillation. | 翻訳日:2024-04-23 23:53:39 公開日:2024-04-22 |
# 低ランクニューラルネットワークの学習におけるハネシング直交性
Harnessing Orthogonality to Train Low-Rank Neural Networks ( http://arxiv.org/abs/2401.08505v2 ) ライセンス: Link先を確認 | Daniel Coquelin, Katharina Flügel, Marie Weiel, Nicholas Kiefer, Charlotte Debus, Achim Streit, Markus Götz, | (参考訳) 本研究は,ニューラルネットワークの学習力学を,トレーニングを通じて重みの特異値分解(SVD)を分析することによって研究する。
本研究は,多次元重みのSVD表現における直交基底がトレーニング中に安定していることを明らかにする。
そこで我々は,ニューラルネットワークの固有直交性を利用した新しいトレーニング手法であるOrthogonality-Informed Adaptive Low-Rank(OIALR)トレーニングを紹介した。
OIALRは、さまざまなデータセットと確立されたネットワークアーキテクチャのベンチマークで示されているように、既存のトレーニングワークフローを最小限の精度でシームレスに統合する。
適切なハイパーパラメータチューニングによって、OIALRは最先端のモデルを含む従来のトレーニング設定を超えることができる。
This study explores the learning dynamics of neural networks by analyzing the singular value decomposition (SVD) of their weights throughout training. Our investigation reveals that an orthogonal basis within each multidimensional weight's SVD representation stabilizes during training. Building upon this, we introduce Orthogonality-Informed Adaptive Low-Rank (OIALR) training, a novel training method exploiting the intrinsic orthogonality of neural networks. OIALR seamlessly integrates into existing training workflows with minimal accuracy loss, as demonstrated by benchmarking on various datasets and well-established network architectures. With appropriate hyperparameter tuning, OIALR can surpass conventional training setups, including those of state-of-the-art models. | 翻訳日:2024-04-23 23:53:39 公開日:2024-04-22 |
# 周期的外部駆動を伴わないシステムにおける時間変換対称性の自発的破壊
Spontaneous breaking of time translation symmetry in a system without periodic external driving ( http://arxiv.org/abs/2401.08824v2 ) ライセンス: Link先を確認 | T. T. Sergeev, A. A. Zyablovsky, E. S. Andrianov, Yu. E. Lozovik, | (参考訳) 自然時間翻訳対称性の破れは、一定周期で周期的に駆動されるシステムで起こることが知られている。
我々は、外部駆動のない原子空洞系において、共振器の光バイパス時間によって時間スケールが決定される時間変換対称性の自発的な破壊を予測した。
共振器の2つのバイパス後にのみシステム状態が初期状態に戻るパラメータ範囲が存在することを示す。
我々は、予測された現象が、時間結晶場の新しい方向への道を開くと信じている。
It is known that the spontaneous time translation symmetry breaking can occur in systems periodically driven at a certain period. We predict a spontaneous breaking of time translation symmetry in an atom-cavity system without external driving, in which a time scale is determined by the time of light bypass of the resonator. We demonstrate that there is a parameter range, in which a system state returns to its initial state only after two bypasses of the resonator. We believe that the predicted phenomenon opens a way to a new direction in the time crystal field. | 翻訳日:2024-04-23 23:53:39 公開日:2024-04-22 |
# 初期の熱帯性サイクロンの増強に伴う3次元放射パターンの同定
Identifying Three-Dimensional Radiative Patterns Associated with Early Tropical Cyclone Intensification ( http://arxiv.org/abs/2401.09493v4 ) ライセンス: Link先を確認 | Frederick Iat-Hin Tam, Tom Beucler, James H. Ruppert Jr, | (参考訳) 雲の放射フィードバックは初期の熱帯性サイクロン(TC)の増強に影響を及ぼすが、既存の診断フレームワークの制限により、非対称または過渡的な放射熱の研究には適さない。
本稿では, 実数値シミュレーションTCの表面強度と放射の隠れ関係を学習するための線形変分エンコーダ(VED)を提案する。
VEDモデル入力の制限により、その不確実性を利用して、放射線が強度を高めるためにより重要となる期間を特定することができる。
抽出した3次元放射構造を綿密に調べたところ、内核深部対流と浅部雲からの長波放射強制力はともに強度に寄与し、深部対流は全体的に最も影響が大きいことが示唆された。
浅層雲の深い対流下風は、ハイヤンの激化に欠かせない。
我々の研究は、機械学習が軸対称的あるいは決定論的仮定に頼ることなく熱力学的関係を発見できることを示し、現実的な条件下でTCの強化につながるプロセスの客観的発見への道を開いた。
Cloud radiative feedback impacts early tropical cyclone (TC) intensification, but limitations in existing diagnostic frameworks make them unsuitable for studying asymmetric or transient radiative heating. We propose a linear Variational Encoder-Decoder (VED) to learn the hidden relationship between radiation and the surface intensification of realistic simulated TCs. Limiting VED model inputs enables using its uncertainty to identify periods when radiation has more importance for intensification. A close examination of the extracted 3D radiative structures suggests that longwave radiative forcing from inner core deep convection and shallow clouds both contribute to intensification, with the deep convection having the most impact overall. We find that deep convection downwind of the shallow clouds is critical to the intensification of Haiyan. Our work demonstrates that machine learning can discover thermodynamic-kinematic relationships without relying on axisymmetric or deterministic assumptions, paving the way towards the objective discovery of processes leading to TC intensification in realistic conditions. | 翻訳日:2024-04-23 23:53:39 公開日:2024-04-22 |
# Drop your Decoder:Dense Passage RetrievalのためのBag-of-Word予測による事前トレーニング
Drop your Decoder: Pre-training with Bag-of-Word Prediction for Dense Passage Retrieval ( http://arxiv.org/abs/2401.11248v2 ) ライセンス: Link先を確認 | Guangyuan Ma, Xing Wu, Zijia Lin, Songlin Hu, | (参考訳) マスケードオートエンコーダの事前学習は,高密度検索システムの初期化・拡張技術として広く普及している。
一般にトランスフォーマーデコーダブロックを使用して、持続可能な監視信号を提供し、コンテキスト情報を高密度な表現に圧縮する。
しかし、このような事前学習技術の有効性の根拠はいまだ不明である。
トランスフォーマーベースのデコーダのさらなる使用も、計算コストを大幅に上回っている。
本研究では,マスク付きオートエンコーダ(MAE)の事前学習により,高密度表現における入力トークンのカバレッジが,バニラBERTチェックポイントと比較して大幅に向上することを明らかにした。
この観測に基づいて,マスク付きオートエンコーダのデコーダを,完全に単純化されたBag-of-Word予測タスクに置き換えることで,従来のMAEの修正を提案する。
この修正により、教師なし事前学習により、語彙信号の高密度表現への効率的な圧縮が可能となる。
提案手法は,大規模検索ベンチマークにおいて,追加のパラメータを必要とせず,従来のマスク付きオートエンコーダに比較して67%の高速化を実現している。
Masked auto-encoder pre-training has emerged as a prevalent technique for initializing and enhancing dense retrieval systems. It generally utilizes additional Transformer decoder blocks to provide sustainable supervision signals and compress contextual information into dense representations. However, the underlying reasons for the effectiveness of such a pre-training technique remain unclear. The usage of additional Transformer-based decoders also incurs significant computational costs. In this study, we aim to shed light on this issue by revealing that masked auto-encoder (MAE) pre-training with enhanced decoding significantly improves the term coverage of input tokens in dense representations, compared to vanilla BERT checkpoints. Building upon this observation, we propose a modification to the traditional MAE by replacing the decoder of a masked auto-encoder with a completely simplified Bag-of-Word prediction task. This modification enables the efficient compression of lexical signals into dense representations through unsupervised pre-training. Remarkably, our proposed method achieves state-of-the-art retrieval performance on several large-scale retrieval benchmarks without requiring any additional parameters, which provides a 67% training speed-up compared to standard masked auto-encoder pre-training with enhanced decoding. | 翻訳日:2024-04-23 23:43:55 公開日:2024-04-22 |
# Redditの大規模な非プラットフォーム化作戦の効力と意図しない結果
The Great Ban: Efficacy and Unintended Consequences of a Massive Deplatforming Operation on Reddit ( http://arxiv.org/abs/2401.11254v4 ) ライセンス: Link先を確認 | Lorenzo Cima, Amaury Trujillo, Marco Avvenuti, Stefano Cresci, | (参考訳) オンラインの悪用や害の現場では、安全で包括的なオンライン空間を育むために効果的なコンテンツモデレーションが必要である。
しかし、多くのモデレーション介入の有効性はまだ不明である。
ここでは、Reddit上で2000近いコミュニティに影響を及ぼした大規模な非プラットフォーム運用であるThe Great Banの有効性を評価する。
14ヶ月の間に17万のユーザーが投稿した16万件のコメントを分析して、この禁止が望まれているか、その他のかたちで、詳細な結果を提供する。
主な発見は、影響を受けたユーザーの15.6%がRedditを離れ、その毒性を平均6.6%減らしたことである。
この禁止により、5%のユーザーがプレバンレベルの70%以上の毒性を増すことになった。
全体として、当社の多面的結果は、デプラットフォームの有効性に関する新たな洞察を与えてくれます。
このようなことから,今後のモデレーション介入の進展とオンラインプラットフォームに対する規制の進展が示唆される。
In the current landscape of online abuses and harms, effective content moderation is necessary to cultivate safe and inclusive online spaces. Yet, the effectiveness of many moderation interventions is still unclear. Here, we assess the effectiveness of The Great Ban, a massive deplatforming operation that affected nearly 2,000 communities on Reddit. By analyzing 16M comments posted by 17K users during 14 months, we provide nuanced results on the effects, both desired and otherwise, of the ban. Among our main findings is that 15.6% of the affected users left Reddit and that those who remained reduced their toxicity by 6.6% on average. The ban also caused 5% users to increase their toxicity by more than 70% of their pre-ban level. Overall, our multifaceted results provide new insights into the efficacy of deplatforming. As such, our findings can inform the development of future moderation interventions and the policing of online platforms. | 翻訳日:2024-04-23 23:43:55 公開日:2024-04-22 |
# 自律運転における画像ガイド深度補完のための高精度かつ高性能なネットワーク
A Concise but High-performing Network for Image Guided Depth Completion in Autonomous Driving ( http://arxiv.org/abs/2401.15902v2 ) ライセンス: Link先を確認 | Moyun Liu, Bing Chen, Youping Chen, Jingming Xie, Lei Yao, Yang Zhang, Joey Tianyi Zhou, | (参考訳) 深度完了は、スパース深度マップを深度予測に変換することを目的として、自律運転において重要な課題である。
潜在的にリッチなセマンティック情報のため、RGBイメージは、完了効果を高めるために一般的に融合される。
画像誘導深度補完には3つの課題がある。
1) 2つのモダリティを効果的に融合する方法
2) 深度情報の回復方法,及び
3)実用的な自動運転のリアルタイム予測を実現する方法。
上記の問題を解決するため,簡易でエレガントな構造で高速な深度補完を実現するため,CENetという簡潔で効率的なネットワークを提案する。
まず、カラー空間から抽出した豊富な補助的特徴を利用して、2つのセンサ特徴を融合させる高速誘導モジュールを用いる。
他の一般的な複雑なガイダンスモジュールとは異なり、我々のアプローチは直感的で低コストです。
さらに,観測された位置と観測されていない位置に対する最適化の不整合性問題を発見し解析し,問題を緩和するために疎結合深度予測ヘッドを提案する。
提案した疎結合ヘッドは、余分な推測時間が少なく、有効位置と無効位置の深さをより良く出力することができる。
デュアルエンコーダとシングルデコーダの単純な構造に基づいて、CENetは精度と効率のバランスが良くなる。
KITTIディープ・コンプリート・コンプリート・ベンチマークでは、CENetは最先端の手法と比較して競合性能と推論速度を達成している。
また,本手法の一般化を検証するため,室内のNYUv2データセットを用いて評価を行った。
この作業のコードはhttps://github.com/lmomoy/CHNet.comで公開される。
Depth completion is a crucial task in autonomous driving, aiming to convert a sparse depth map into a dense depth prediction. Due to its potentially rich semantic information, RGB image is commonly fused to enhance the completion effect. Image-guided depth completion involves three key challenges: 1) how to effectively fuse the two modalities; 2) how to better recover depth information; and 3) how to achieve real-time prediction for practical autonomous driving. To solve the above problems, we propose a concise but effective network, named CENet, to achieve high-performance depth completion with a simple and elegant structure. Firstly, we use a fast guidance module to fuse the two sensor features, utilizing abundant auxiliary features extracted from the color space. Unlike other commonly used complicated guidance modules, our approach is intuitive and low-cost. In addition, we find and analyze the optimization inconsistency problem for observed and unobserved positions, and a decoupled depth prediction head is proposed to alleviate the issue. The proposed decoupled head can better output the depth of valid and invalid positions with very few extra inference time. Based on the simple structure of dual-encoder and single-decoder, our CENet can achieve superior balance between accuracy and efficiency. In the KITTI depth completion benchmark, our CENet attains competitive performance and inference speed compared with the state-of-the-art methods. To validate the generalization of our method, we also evaluate on indoor NYUv2 dataset, and our CENet still achieve impressive results. The code of this work will be available at https://github.com/lmomoy/CHNet. | 翻訳日:2024-04-23 23:43:55 公開日:2024-04-22 |
# 不均一な待ち行列システムにおけるルーティングジョブの効率的な強化学習
Efficient Reinforcement Learning for Routing Jobs in Heterogeneous Queueing Systems ( http://arxiv.org/abs/2402.01147v2 ) ライセンス: Link先を確認 | Neharika Jali, Guannan Qu, Weina Wang, Gauri Joshi, | (参考訳) 本稿では,ジョブを中央キューからヘテロジニアスサーバのシステムに効率的にルーティングする問題を考察する。
均質なシステムとは異なり、キュー長が一定のしきい値を超えた場合、ジョブを遅いサーバにルーティングするしきい値ポリシーは、ワンファストワンスローの2サーバシステムに最適であることが知られている。
しかし、マルチサーバシステムに最適なポリシーは未知であり、見つからない。
強化学習(Reinforcement Learning, RL)はそのような場合, 学習方針に大きな可能性があることが認識されているが, この問題は指数関数的に大きな状態空間サイズを持ち, 標準のRLを非効率にする。
本稿では,低次元のソフトしきい値ポリシパラメータ化を用いた効率的なポリシ勾配に基づくアルゴリズムであるACHQを提案する。
一般の場合に対して定常点収束保証を提供し、低次元パラメータ化にも拘わらず、ACHQが2つのサーバの特別の場合の近似大域最適化に収束することを証明した。
シミュレーションでは、最も速いサーバにルートする欲張りポリシーよりも、最大で30%のレスポンス時間の改善が示されている。
We consider the problem of efficiently routing jobs that arrive into a central queue to a system of heterogeneous servers. Unlike homogeneous systems, a threshold policy, that routes jobs to the slow server(s) when the queue length exceeds a certain threshold, is known to be optimal for the one-fast-one-slow two-server system. But an optimal policy for the multi-server system is unknown and non-trivial to find. While Reinforcement Learning (RL) has been recognized to have great potential for learning policies in such cases, our problem has an exponentially large state space size, rendering standard RL inefficient. In this work, we propose ACHQ, an efficient policy gradient based algorithm with a low dimensional soft threshold policy parameterization that leverages the underlying queueing structure. We provide stationary-point convergence guarantees for the general case and despite the low-dimensional parameterization prove that ACHQ converges to an approximate global optimum for the special case of two servers. Simulations demonstrate an improvement in expected response time of up to ~30% over the greedy policy that routes to the fastest available server. | 翻訳日:2024-04-23 23:43:55 公開日:2024-04-22 |
# 自己整合性コンフォーマル予測
Self-Consistent Conformal Prediction ( http://arxiv.org/abs/2402.07307v2 ) ライセンス: Link先を確認 | Lars van der Laan, Ahmed M. Alaa, | (参考訳) 機械学習によって導かれる意思決定では、意思決定者は、同じ予測結果のコンテキストで同じ行動をとることができる。
コンフォーマルな予測は、意思決定者が結果のポイント予測の不確実性を定量化し、アクションのリスク管理を改善するのに役立つ。
この観点から,2つのポストホックアプローチ – Venn-Abersキャリブレーションとコンフォメーション予測 – を組み合わせることで,モデルの予測に有効な校正点予測と互換性のある予測間隔を提供する回帰式に対して,textit{Self-Consistent Conformal Prediction}を導入する。
提案手法は, ブラックボックスモデルに対して, 有限サンプル予測条件付き予測と推測を行うために, ポストホックで適用することができる。
数値実験により,本手法は区間効率と条件付き妥当性のバランスを示す。
In decision-making guided by machine learning, decision-makers may take identical actions in contexts with identical predicted outcomes. Conformal prediction helps decision-makers quantify uncertainty in point predictions of outcomes, allowing for better risk management for actions. Motivated by this perspective, we introduce \textit{Self-Consistent Conformal Prediction} for regression, which combines two post-hoc approaches -- Venn-Abers calibration and conformal prediction -- to provide calibrated point predictions and compatible prediction intervals that are valid conditional on model predictions. Our procedure can be applied post-hoc to any black-box model to provide predictions and inferences with finite-sample prediction-conditional guarantees. Numerical experiments show our approach strikes a balance between interval efficiency and conditional validity. | 翻訳日:2024-04-23 23:34:03 公開日:2024-04-22 |
# Walia-LLM:タスク特化および生成データセットの統合によるAmharic-LLaMAの強化
Walia-LLM: Enhancing Amharic-LLaMA by Integrating Task-Specific and Generative Datasets ( http://arxiv.org/abs/2402.08015v3 ) ライセンス: Link先を確認 | Israel Abebe Azime, Atnafu Lambebo Tonja, Tadesse Destaw Belay, Mitiku Yohannes Fuge, Aman Kassahun Wassie, Eyasu Shiferaw Jada, Yonas Chanie, Walelign Tewabe Sewunetie, Seid Muhie Yimam, | (参考訳) 大規模言語モデル (LLM) は自然言語処理 (NLP) 研究において、人間の言語を理解・生成する上での卓越した性能のため、多くの注目を集めている。
しかし、リソースが利用できないため、低リソースの言語は残されたままである。
本研究では,Amharicの言語モデル性能を向上させるために,タスク固有および生成データセットを統合することで,LLaMA-2-Amharicモデルの強化に焦点をあてる。
我々はAmharic命令の微調整データセットとLLaMA-2-Amharicモデルをコンパイルする。
微調整されたモデルは、異なるNLPタスクで有望な結果を示す。
我々は、これらのモデルに関する言語固有の研究を促進するために、データセット作成パイプライン、命令データセット、訓練済みモデル、評価アウトプットをオープンソース化した。
Large language models (LLMs) have received a lot of attention in natural language processing (NLP) research because of their exceptional performance in understanding and generating human languages. However, low-resource languages are left behind due to the unavailability of resources. In this work, we focus on enhancing the LLaMA-2-Amharic model by integrating task-specific and generative datasets to improve language model performance for Amharic. We compile an Amharic instruction fine-tuning dataset and fine-tuned LLaMA-2-Amharic model. The fine-tuned model shows promising results in different NLP tasks. We open-source our dataset creation pipeline, instruction datasets, trained models, and evaluation outputs to promote language-specific studies on these models. | 翻訳日:2024-04-23 23:34:03 公開日:2024-04-22 |
# 先行制約と時間制約を考慮した衝突探索による最適タスク割り当てと経路計画
Optimal Task Assignment and Path Planning using Conflict-Based Search with Precedence and Temporal Constraints ( http://arxiv.org/abs/2402.08772v3 ) ライセンス: Link先を確認 | Yu Quan Chong, Jiaoyang Li, Katia Sycara, | (参考訳) MAPF(Multi-Agent Path Finding)問題では、エージェントの集合に対する衝突のないパスを見つけ出し、開始時点から目標地点まで誘導する。
しかしMAPFは、いくつかの実践的なタスク関連の制約を考慮していない。
例えば、エージェントは特定の実行時間でゴール位置でアクションを実行し、所定の順序と時間枠に従う必要がある。
さらに、目標の割り当てはエージェントに対して事前に定義されず、最適化の目的には明確な定義が欠落する可能性がある。
本稿では,タスク割り当て,経路計画,ユーザ定義の目的を一貫性のあるフレームワークに組み込むため,TAPF-PTC問題について検討する。
RL(Regress Learning)におけるユーザ定義報酬関数の戻りによって定量化される目的を最大化することで,優先的制約と時間的制約に順応するタスク代入と衝突のない経路を同時に生成できるように,CBS(Conflict-Based Search)を強化した。
実験により,我々のアルゴリズムであるCBS-TA-PTCは,MARLや適応型TAPF(Target Assignment and Path Finding)法に対して,優先度と時間的制約を効率よく有する,高度に困難な爆弾処理タスクを解くことができることを示した。
The Multi-Agent Path Finding (MAPF) problem entails finding collision-free paths for a set of agents, guiding them from their start to goal locations. However, MAPF does not account for several practical task-related constraints. For example, agents may need to perform actions at goal locations with specific execution times, adhering to predetermined orders and timeframes. Moreover, goal assignments may not be predefined for agents, and the optimization objective may lack an explicit definition. To incorporate task assignment, path planning, and a user-defined objective into a coherent framework, this paper examines the Task Assignment and Path Finding with Precedence and Temporal Constraints (TAPF-PTC) problem. We augment Conflict-Based Search (CBS) to simultaneously generate task assignments and collision-free paths that adhere to precedence and temporal constraints, maximizing an objective quantified by the return from a user-defined reward function in reinforcement learning (RL). Experimentally, we demonstrate that our algorithm, CBS-TA-PTC, can solve highly challenging bomb-defusing tasks with precedence and temporal constraints efficiently relative to MARL and adapted Target Assignment and Path Finding (TAPF) methods. | 翻訳日:2024-04-23 23:34:03 公開日:2024-04-22 |
# All Trades, Master of Some, a Multi-Purpose Transformer Agent
Jack of All Trades, Master of Some, a Multi-Purpose Transformer Agent ( http://arxiv.org/abs/2402.09844v2 ) ライセンス: Link先を確認 | Quentin Gallouédec, Edward Beeching, Clément Romac, Emmanuel Dellandréa, | (参考訳) 複数のドメインにまたがってシームレスに動作する汎用モデルを探すことは、機械学習研究の重要な目標である。
強化学習(Reinforcement Learning, RL)の一般的な方法論は、モデルを一元的フレームワーク内のひとつのタスクに制限する。
本稿では、連続的な意思決定タスクやマルチモーダルデータ型を扱うために最適化されたユニークな設計のトランスフォーマーベースモデルであるJack of All Trades(JAT)を提案する。
JATモデルは、コンピュータビジョン(CV)と自然言語処理(NLP)タスクの有望な結果とともに、非常に異なるRLベンチマークで強力なパフォーマンスを達成することで、その堅牢性と汎用性を実証している。
JATモデルは、より一般的なクロスドメインAIモデル設計に向けた重要なステップであり、特に、そのタイプが完全にオープンソース化される最初のモデルである(https://huggingface.co/jat-project/jatを参照)。
The search for a general model that can operate seamlessly across multiple domains remains a key goal in machine learning research. The prevailing methodology in Reinforcement Learning (RL) typically limits models to a single task within a unimodal framework, a limitation that contrasts with the broader vision of a versatile, multi-domain model. In this paper, we present Jack of All Trades (JAT), a transformer-based model with a unique design optimized for handling sequential decision-making tasks and multimodal data types. The JAT model demonstrates its robust capabilities and versatility by achieving strong performance on very different RL benchmarks, along with promising results on Computer Vision (CV) and Natural Language Processing (NLP) tasks, all using a single set of weights. The JAT model marks a significant step towards more general, cross-domain AI model design, and notably, it is the first model of its kind to be fully open-sourced (see https://huggingface.co/jat-project/jat), including a pioneering general-purpose dataset. | 翻訳日:2024-04-23 23:34:03 公開日:2024-04-22 |
# FGeo-HyperGNet:形式記号システムとハイパーグラフニューラルネットワークを統合した幾何学的問題解決
FGeo-HyperGNet: Geometric Problem Solving Integrating Formal Symbolic System and Hypergraph Neural Network ( http://arxiv.org/abs/2402.11461v2 ) ライセンス: Link先を確認 | Xiaokai Zhang, Na Zhu, Cheng Qin, Yang Li, Zhenbing Zeng, Tuo Leng, | (参考訳) 幾何学的問題解決は、自動化推論と人工知能の分野における長年にわたる課題である。
人間のような幾何学的推論を自動的に行うニューラルシンボリックシステムを構築した。
記号部分(英: symbolic part)は、フォーマルジオ(英: FormalGeo)上に構築されたフォーマルシステムで、ジオメティックリレーショナル推論と代数的計算を自動的に実行し、解過程をハイパーツリーとして、ハイパーノードや定理をハイパーエッジとして条件付きで構成する。
HyperGNetと呼ばれるニューラルネットワークは、ハイパーツリーの構造的および意味的情報を効果的にエンコードするエンコーダと問題解決ガイダンスを提供するソルバを含む、アテンションメカニズムに基づくハイパーグラフニューラルネットワークである。
ニューラル部はハイパーツリーに従って定理を予測し、シンボリック部は定理を適用し、ハイパーツリーを更新する。
実験は、このニューラルシンボリックアーキテクチャの正しさと有効性を示す。
ステップワイズ精度87.65%、全体的な精度85.53%をフォーマルなgeo7kデータセットで達成しました。
Geometric problem solving has always been a long-standing challenge in the fields of automated reasoning and artificial intelligence. We built a neural-symbolic system to automatically perform human-like geometric deductive reasoning. The symbolic part is a formal system built on FormalGeo, which can automatically perform geomertic relational reasoning and algebraic calculations and organize the solving process into a solution hypertree with conditions as hypernodes and theorems as hyperedges. The neural part, called HyperGNet, is a hypergraph neural network based on the attention mechanism, including a encoder to effectively encode the structural and semantic information of the hypertree, and a solver to provide problem-solving guidance. The neural part predicts theorems according to the hypertree, and the symbolic part applies theorems and updates the hypertree, thus forming a predict-apply cycle to ultimately achieve readable and traceable automatic solving of geometric problems. Experiments demonstrate the correctness and effectiveness of this neural-symbolic architecture. We achieved a step-wised accuracy of 87.65% and an overall accuracy of 85.53% on the formalgeo7k datasets. | 翻訳日:2024-04-23 23:34:03 公開日:2024-04-22 |
# ニューロモルフィック・フェイス分析 : サーベイ
Neuromorphic Face Analysis: a Survey ( http://arxiv.org/abs/2402.11631v2 ) ライセンス: Link先を確認 | Federico Becattini, Lorenzo Berlincioni, Luca Cultrera, Alberto Del Bimbo, | (参考訳) イベントカメラ(英: event camera)またはニューロモルフィックセンサー(英: Neuromorphic sensor)は、生物学的視覚系の機能を模倣する撮像装置の一種である。
異なる間隔で固定画像をキャプチャする従来のフレームベースのカメラとは異なり、ニューロモルフィックセンサーは、高時間分解能と低レイテンシで視野内の光強度や動きの変化を表すイベントを連続的に生成する。
これらの特性は、有効性とプライバシー保護の観点から、人間の顔のモデリングにおいて興味深いことが証明されている。
しかし、ニューロモルフィック顔分析は依然として生で非構造的な研究分野であり、明確な基準やベンチマークを持たない様々なタスクに対処しようとする試みがいくつかある。
本稿では,ニューロモルフィック顔分析の領域における機能,課題,新たな応用について概説し,将来性のある方向性と課題を概説する。
ニューロモルフィック・ビジョンの基本的な動作原理を議論し、関連する研究の詳細な概要を提示した後、利用可能なデータ、標準データ表現、新たな課題、さらなる調査を必要とする限界について検討する。
本稿は、この発展途上の分野における最近のプロセスを明らかにすることを目的としており、経験豊富な研究者と新入生研究者の両方に、その問題点と欠点とともに、最先端技術の分析を全面的に行うことを目的としている。
Neuromorphic sensors, also known as event cameras, are a class of imaging devices mimicking the function of biological visual systems. Unlike traditional frame-based cameras, which capture fixed images at discrete intervals, neuromorphic sensors continuously generate events that represent changes in light intensity or motion in the visual field with high temporal resolution and low latency. These properties have proven to be interesting in modeling human faces, both from an effectiveness and a privacy-preserving point of view. Neuromorphic face analysis however is still a raw and unstructured field of research, with several attempts at addressing different tasks with no clear standard or benchmark. This survey paper presents a comprehensive overview of capabilities, challenges and emerging applications in the domain of neuromorphic face analysis, to outline promising directions and open issues. After discussing the fundamental working principles of neuromorphic vision and presenting an in-depth overview of the related research, we explore the current state of available data, standard data representations, emerging challenges, and limitations that require further investigation. This paper aims to highlight the recent process in this evolving field to provide to both experienced and newly come researchers an all-encompassing analysis of the state of the art along with its problems and shortcomings. | 翻訳日:2024-04-23 23:34:03 公開日:2024-04-22 |
# 生成タスクにおける効果的なゼロショット言語間知識伝達のための重要な要素
Key ingredients for effective zero-shot cross-lingual knowledge transfer in generative tasks ( http://arxiv.org/abs/2402.12279v2 ) ライセンス: Link先を確認 | Nadezhda Chirkova, Vassilina Nikoulina, | (参考訳) ゼロショットの言語間知識伝達により、ある言語でタスクを微調整し、他の言語でタスクの予測を行う多言語事前学習言語モデルが可能になる。
自然言語理解タスクについて広く研究されている一方で、記述された設定は世代ごとに検討されている。
以前の作業では、間違った言語で頻繁に発生する問題に気付き、通常、mT5をバックボーンモデルとして使用して対処するためのアプローチを提案する。
本研究では,mBARTやNLLB-200といった代替バックボーンモデルを含む,統一された設定で文献から提案されるさまざまなアプローチを比較した。
まず、ファインタニングに使用されるチューニング学習率の重要性について述べ、これは間違った言語における生成の問題を大幅に軽減するのに役立ちます。
そして、注意深い学習率チューニングにより、モデルの完全な微調整が非常に強力なベースラインとして機能し、代替アプローチは限界的な改善しかたらさないことを示す。
最後に,mBARTはmT5と同じサイズで動作し,NLLB-200と競合する場合もある。
最終ゼロショットモデルでは, ゼロショット・クロスランガル・トランスファーの上位ベースラインと見なされるデータ変換に基づく手法の性能が向上する。
Zero-shot cross-lingual knowledge transfer enables a multilingual pretrained language model, finetuned on a task in one language, make predictions for this task in other languages. While being broadly studied for natural language understanding tasks, the described setting is understudied for generation. Previous works notice a frequent problem of generation in a wrong language and propose approaches to address it, usually using mT5 as a backbone model. In this work we compare various approaches proposed from the literature in unified settings, also including alternative backbone models, namely mBART and NLLB-200. We first underline the importance of tuning learning rate used for finetuning, which helps to substantially alleviate the problem of generation in the wrong language. Then, we show that with careful learning rate tuning, the simple full finetuning of the model acts as a very strong baseline and alternative approaches bring only marginal improvements. Finally, we find that mBART performs similarly to mT5 of the same size, and NLLB-200 can be competitive in some cases. Our final zero-shot models reach the performance of the approach based on data translation which is usually considered as an upper baseline for zero-shot cross-lingual transfer in generation. | 翻訳日:2024-04-23 23:34:03 公開日:2024-04-22 |
# 事象識別モデルのロバスト性評価のための逆アプローチ
An Adversarial Approach to Evaluating the Robustness of Event Identification Models ( http://arxiv.org/abs/2402.12338v2 ) ライセンス: Link先を確認 | Obai Bahwal, Oliver Kosut, Lalitha Sankar, | (参考訳) インテリジェントな機械学習アプローチは、リアルタイムな状況認識を可能にするイベント検出と識別にアクティブな利用を見つけようとしている。
しかし、このような機械学習アルゴリズムは、受信したテレメトリデータに対する敵攻撃の影響を受けやすいことが示されている。
本稿では、イベント分類の特徴を抽出する物理に基づくモーダル分解法について考察し、ロジスティック回帰と勾配増強を含む解釈可能な分類器に着目し、負荷損失と生成損失の2つのタイプを区別する。
得られた分類器は、その堅牢性を評価するために、逆アルゴリズムに対してテストされる。
敵の攻撃は、攻撃者が分類モデルを正確に知っているホワイトボックス設定と、攻撃者が分類器の訓練に使われたのと同じネットワークから履歴データにアクセスするグレイボックス設定の2つの設定でテストされる。
合成サウスカロライナ500バスシステムに関する詳細な実験では、ロジスティック回帰のような比較的単純なモデルの方が、勾配の上昇よりも敵攻撃の影響を受けやすいことが示されている。
Intelligent machine learning approaches are finding active use for event detection and identification that allow real-time situational awareness. Yet, such machine learning algorithms have been shown to be susceptible to adversarial attacks on the incoming telemetry data. This paper considers a physics-based modal decomposition method to extract features for event classification and focuses on interpretable classifiers including logistic regression and gradient boosting to distinguish two types of events: load loss and generation loss. The resulting classifiers are then tested against an adversarial algorithm to evaluate their robustness. The adversarial attack is tested in two settings: the white box setting, wherein the attacker knows exactly the classification model; and the gray box setting, wherein the attacker has access to historical data from the same network as was used to train the classifier, but does not know the classification model. Thorough experiments on the synthetic South Carolina 500-bus system highlight that a relatively simpler model such as logistic regression is more susceptible to adversarial attacks than gradient boosting. | 翻訳日:2024-04-23 23:34:03 公開日:2024-04-22 |
# 大規模言語モデルの命令チューニングにおけるゼロショット言語間移動
Zero-shot cross-lingual transfer in instruction tuning of large language models ( http://arxiv.org/abs/2402.14778v2 ) ライセンス: Link先を確認 | Nadezhda Chirkova, Vassilina Nikoulina, | (参考訳) インストラクションチューニング(IT)は、任意の命令に従うために事前訓練された大規模言語モデル(LLM)を教えるために広く使われているが、多言語設定では過小評価されている。
本研究では,LLMを英語のみのデータに基づいて指導し,他の言語でユーザプロンプトでテストする場合に,ITにおけるゼロショット言語間移動の体系的研究を行う。
我々は,多言語指導におけるモデル応答の様々な側面を評価することの重要性を提唱し,異なるモデル構成選択の影響について検討する。
モデルトレーニングのすべての段階が英語中心であっても、ITにおいて言語間の移動は成功しますが、ハイパーパラメータチューニングと十分なITデータによって、多言語性が考慮される場合のみです。
英語で訓練されたLLMは、他の言語で正しい言語、包括的で有用な応答を生成することができるが、事実性が低いため、時々流布エラーが発生することがある。
Instruction tuning (IT) is widely used to teach pretrained large language models (LLMs) to follow arbitrary instructions, but is under-studied in multilingual settings. In this work, we conduct a systematic study of zero-shot cross-lingual transfer in IT, when an LLM is instruction-tuned on English-only data and then tested on user prompts in other languages. We advocate for the importance of evaluating various aspects of model responses in multilingual instruction following and investigate the influence of different model configuration choices. We find that cross-lingual transfer does happen successfully in IT even if all stages of model training are English-centric, but only if multiliguality is taken into account in hyperparameter tuning and with large enough IT data. English-trained LLMs are capable of generating correct-language, comprehensive and helpful responses in other languages, but suffer from low factuality and may occasionally have fluency errors. | 翻訳日:2024-04-23 23:34:03 公開日:2024-04-22 |
# SPINEPS -- マルチクラスセマンティック・インスタンスセマンティック・セマンティック・セマンティック・セマンティック・セマンティクスへの2相アプローチによるT2強調MR画像の自動全スピンセマンティクス
SPINEPS -- Automatic Whole Spine Segmentation of T2-weighted MR images using a Two-Phase Approach to Multi-class Semantic and Instance Segmentation ( http://arxiv.org/abs/2402.16368v2 ) ライセンス: Link先を確認 | Hendrik Möller, Robert Graf, Joachim Schmitt, Benjamin Keinert, Matan Atad, Anjany Sekuboyina, Felix Streckenbach, Hanna Schön, Florian Kofler, Thomas Kroencke, Stefanie Bette, Stefan Willich, Thomas Keil, Thoralf Niendorf, Tobias Pischon, Beate Endemann, Bjoern Menze, Daniel Rueckert, Jan S. Kirschke, | (参考訳) 目的。
SPINEPSは、T2w MRI全体における14の脊髄構造(椎体サブ構造、椎間板、脊髄、脊柱、仙骨)のセグメンテーションとインスタンスセグメンテーションのためのオープンソースの深層学習手法である。
メソッド。
HIPPA準拠の振り返り調査では,SPIDERデータセット(被験者218名,女性63%)とジャーマン・ナショナル・コーホート(被験者1423名,平均53名,女性49%)のサブセットをトレーニングと評価に利用した。
我々はCTとT2wセグメンテーションを組み合わせて、T2wサジタルスキャンにおいて14個の脊髄構造をセグメンテーションするモデルを訓練した。
性能評価指標は,Dice類似係数,平均対称表面距離,汎視的品質,セグメンテーション品質,認識品質であった。
統計学的意義はウィルコクソン符号ランク試験を用いて評価された。
社内データセットを用いて配布外サンプルを定性的に評価した。
結果。
公開データセットでは, 脊椎椎間板スコア0.929 vs. 0.907, p-value<0.001。
自動生成アノテーションのトレーニングとGNCによる手動修正試験データによる評価では、脊椎では0.900点、椎間板では0.960点、脊椎では0.947点が得られた。
トレーニング中にSPIDERデータセットを組み込んだ場合,これらのスコアはそれぞれ0.920,0.967,0.958となった。
結論。
提案したセグメンテーションアプローチは、脊髄、脊柱管、椎間板、エンドプレート、仙骨、椎骨を含む、T2w矢状体画像中の14個の脊髄構造の堅牢なセグメンテーションを提供する。
このアプローチはセマンティックマスクとインスタンスマスクの両方を出力とし、使いやすくする。
これは、矢状T2w MR画像における全脊椎分割のための最初の公開アルゴリズムである。
Purpose. To present SPINEPS, an open-source deep learning approach for semantic and instance segmentation of 14 spinal structures (ten vertebra substructures, intervertebral discs, spinal cord, spinal canal, and sacrum) in whole body T2w MRI. Methods. During this HIPPA-compliant, retrospective study, we utilized the public SPIDER dataset (218 subjects, 63% female) and a subset of the German National Cohort (1423 subjects, mean age 53, 49% female) for training and evaluation. We combined CT and T2w segmentations to train models that segment 14 spinal structures in T2w sagittal scans both semantically and instance-wise. Performance evaluation metrics included Dice similarity coefficient, average symmetrical surface distance, panoptic quality, segmentation quality, and recognition quality. Statistical significance was assessed using the Wilcoxon signed-rank test. An in-house dataset was used to qualitatively evaluate out-of-distribution samples. Results. On the public dataset, our approach outperformed the baseline (instance-wise vertebra dice score 0.929 vs. 0.907, p-value<0.001). Training on auto-generated annotations and evaluating on manually corrected test data from the GNC yielded global dice scores of 0.900 for vertebrae, 0.960 for intervertebral discs, and 0.947 for the spinal canal. Incorporating the SPIDER dataset during training increased these scores to 0.920, 0.967, 0.958, respectively. Conclusions. The proposed segmentation approach offers robust segmentation of 14 spinal structures in T2w sagittal images, including the spinal cord, spinal canal, intervertebral discs, endplate, sacrum, and vertebrae. The approach yields both a semantic and instance mask as output, thus being easy to utilize. This marks the first publicly available algorithm for whole spine segmentation in sagittal T2w MR imaging. | 翻訳日:2024-04-23 23:24:19 公開日:2024-04-22 |
# グラフニューラルネットワークによる地域文化の予測
Using Graph Neural Networks to Predict Local Culture ( http://arxiv.org/abs/2402.17905v3 ) ライセンス: Link先を確認 | Thiago H Silva, Daniel Silver, | (参考訳) 都市研究は長い間、近隣がダイナミックでリレーショナルであることを認識してきた。
しかし、データの欠如、方法論、コンピュータ処理能力の欠如は、近隣関係力学の形式的な定量化を妨げている。
本研究は, 周辺地域の内部特性, 過去の特徴, グループの流れに関する複数の情報ソースを結合し, 評価し, 予測モデルにおいて表現力を高めるグラフニューラルネットワーク(GNN)アプローチを提案する。
Yelpからパブリックな大規模データセットを探索することにより、地域文化の予測にあたり、近隣属性の予測における構造的結合性を考慮したアプローチの可能性を示す。
結果は現実的で方法論的に見れば有望である。
即ち、地域情報(例えば地域人口統計)やグループプロファイル(Yelpレビュアーの味)が地域文化の予測に最適であり、すべての研究ケースでほぼ同等であることがわかった。
グループプロファイルを探索することは、様々なオンラインデータから自動的に抽出できるため、特定の分野のローカル情報を見つけるのが困難である。
これにより、研究者や政策立案者が、他の地域情報が不足している場合に、様々なデータソースを使用することが可能になる。
Urban research has long recognized that neighbourhoods are dynamic and relational. However, lack of data, methodologies, and computer processing power have hampered a formal quantitative examination of neighbourhood relational dynamics. To make progress on this issue, this study proposes a graph neural network (GNN) approach that permits combining and evaluating multiple sources of information about internal characteristics of neighbourhoods, their past characteristics, and flows of groups among them, potentially providing greater expressive power in predictive models. By exploring a public large-scale dataset from Yelp, we show the potential of our approach for considering structural connectedness in predicting neighbourhood attributes, specifically to predict local culture. Results are promising from a substantive and methodologically point of view. Substantively, we find that either local area information (e.g. area demographics) or group profiles (tastes of Yelp reviewers) give the best results in predicting local culture, and they are nearly equivalent in all studied cases. Methodologically, exploring group profiles could be a helpful alternative where finding local information for specific areas is challenging, since they can be extracted automatically from many forms of online data. Thus, our approach could empower researchers and policy-makers to use a range of data sources when other local area information is lacking. | 翻訳日:2024-04-23 23:24:19 公開日:2024-04-22 |
# ヒューマンアテンションモデリングの現状と課題
Trends, Applications, and Challenges in Human Attention Modelling ( http://arxiv.org/abs/2402.18673v2 ) ライセンス: Link先を確認 | Giuseppe Cartella, Marcella Cornia, Vittorio Cuculo, Alessandro D'Amelio, Dario Zanca, Giuseppe Boccignone, Rita Cucchiara, | (参考訳) 近年の人間の注意モデリングは、視覚探索の基礎となる認知過程を理解するだけでなく、画像やビデオ処理、視覚・言語アプリケーション、言語モデリングなど、さまざまな領域の問題を解決することを目的とした人工知能モデルのサポートにも特に有用であることが証明されている。
この調査は、人間の注意機構を現代のディープラーニングモデルに統合し、今後の研究の方向性と課題について議論する最近の取り組みの概要を提供する。
現在進行中の研究の概要については、https://github.com/aimagelab/awesome-human-visual-attention.comで公開しています。
Human attention modelling has proven, in recent years, to be particularly useful not only for understanding the cognitive processes underlying visual exploration, but also for providing support to artificial intelligence models that aim to solve problems in various domains, including image and video processing, vision-and-language applications, and language modelling. This survey offers a reasoned overview of recent efforts to integrate human attention mechanisms into contemporary deep learning models and discusses future research directions and challenges. For a comprehensive overview on the ongoing research refer to our dedicated repository available at https://github.com/aimagelab/awesome-human-visual-attention. | 翻訳日:2024-04-23 23:24:19 公開日:2024-04-22 |
# 産業標準・先進半導体製造を用いた高コヒーレンス超伝導量子ビット
High-coherence superconducting qubits made using industry-standard, advanced semiconductor manufacturing ( http://arxiv.org/abs/2403.01312v2 ) ライセンス: Link先を確認 | Jacques Van Damme, Shana Massar, Rohith Acharya, Tsvetan Ivanov, Daniel Perez Lozano, Yann Canvel, Mael Demarets, Diziana Vangoidsenhoven, Yannick Hermans, Ju-Geng Lai, Vadiraj Rao, Massimo Mongillo, Danny Wan, Jo De Boeck, Anton Potocnik, Kristiaan De Greve, | (参考訳) 超伝導量子ビット技術の発展は、実用的な量子コンピュータの構築に大きな可能性を示している。
量子プロセッサの複雑さが増大し続ければ、厳密な製造耐性の必要性はますます重要になる。
先進的な工業的製造プロセスを利用することで、量子プロセッサの継続的なスケーリングをサポートするために必要な製造制御を促進することができる。
しかし、これらの産業プロセスは現在、高コヒーレンスデバイスを製造するために最適化されていないし、超伝導量子ビットを作るために一般的に使用されるアプローチと互換性がない。
本研究では,300mmCMOSパイロットラインで製造されたトランスモン量子ビットを産業的製造法を用いて初めて超伝導し,100マイクロ秒を超える緩和時間とコヒーレンス時間を実証する。
我々は,コヒーレンス,収量,変動性,老化など,我々のアプローチの妥当性を検証した大規模統計研究について述べる。
光学リソグラフィーと反応性イオンエッチングを用いた産業規模の製造プロセスは, 従来の金属リフトオフ, 角化蒸発, 電子ビーム印刷を利用した実験室式技術と同等の性能と収量を示した。
さらに、3次元の統合や、高度なメロロジーを使ったプロセス最適化、および処理パラメータと分割のジャディカルな選択を含むことで、さらなるアップスケーリングの可能性をもっている。
この結果により、超伝導量子コンピューティングプロセッサのより信頼性が高く、大規模で、真のCMOS互換な製造が誕生した。
The development of superconducting qubit technology has shown great potential for the construction of practical quantum computers. As the complexity of quantum processors continues to grow, the need for stringent fabrication tolerances becomes increasingly critical. Utilizing advanced industrial fabrication processes could facilitate the necessary level of fabrication control to support the continued scaling of quantum processors. However, these industrial processes are currently not optimized to produce high coherence devices, nor are they a priori compatible with the commonly used approaches to make superconducting qubits. In this work, we demonstrate for the first time superconducting transmon qubits manufactured in a 300 mm CMOS pilot line, using industrial fabrication methods, with resulting relaxation and coherence times already exceeding 100 microseconds. We show across-wafer, large-scale statistics studies of coherence, yield, variability, and aging that confirm the validity of our approach. The presented industry-scale fabrication process, using exclusively optical lithography and reactive ion etching, shows performance and yield similar to the conventional laboratory-style techniques utilizing metal lift-off, angled evaporation, and electron-beam writing. Moreover, it offers potential for further upscaling by including three-dimensional integration and additional process optimization using advanced metrology and judicious choice of processing parameters and splits. This result marks the advent of more reliable, large-scale, truly CMOS-compatible fabrication of superconducting quantum computing processors. | 翻訳日:2024-04-23 23:24:19 公開日:2024-04-22 |
# 水中画像強調のための変圧器を用いた物理認識拡散モデル学習
Learning A Physical-aware Diffusion Model Based on Transformer for Underwater Image Enhancement ( http://arxiv.org/abs/2403.01497v2 ) ライセンス: Link先を確認 | Chen Zhao, Chenyu Dong, Weiling Cai, | (参考訳) 水中視覚は様々な複雑な劣化を起こし、必然的に水中視覚タスクの効率に影響を与える。
近年,水中画像強調(UIE)タスクに拡散モデルが採用され,SOTA性能が向上した。
しかし、これらの手法は拡散過程における物理的特性や水中イメージング機構を考慮せず、拡散モデルの情報完成能力を制限する。
本稿では,拡散過程の導出に物理知識を活用するための新しいUIEフレームワークであるPA-Diffを紹介する。
PA-Diffは、物理優先生成(PPG)ブランチ、インプシットニューラルネットワーク再構築(INR)ブランチ、物理対応拡散変換(PDT)ブランチで構成されている。
我々の設計したPSGブランチは、物理学の以前の知識を創出することを目的としている。
拡散過程を導くための物理の事前知識を利用することで、PDTブランチは水中認識能力を獲得し、現実世界の水中シーンにおける複雑な分布をモデル化することができる。
INRブランチは、暗黙の神経表現を通じて多様な水中画像から堅牢な特徴表現を学習することができるため、PDTブランチの復元が困難になる。
大規模な実験により,本手法がUIEタスク上で最高の性能を発揮することが証明された。
Underwater visuals undergo various complex degradations, inevitably influencing the efficiency of underwater vision tasks. Recently, diffusion models were employed to underwater image enhancement (UIE) tasks, and gained SOTA performance. However, these methods fail to consider the physical properties and underwater imaging mechanisms in the diffusion process, limiting information completion capacity of diffusion models. In this paper, we introduce a novel UIE framework, named PA-Diff, designed to exploiting the knowledge of physics to guide the diffusion process. PA-Diff consists of Physics Prior Generation (PPG) Branch, Implicit Neural Reconstruction (INR) Branch, and Physics-aware Diffusion Transformer (PDT) Branch. Our designed PPG branch aims to produce the prior knowledge of physics. With utilizing the physics prior knowledge to guide the diffusion process, PDT branch can obtain underwater-aware ability and model the complex distribution in real-world underwater scenes. INR Branch can learn robust feature representations from diverse underwater image via implicit neural representation, which reduces the difficulty of restoration for PDT branch. Extensive experiments prove that our method achieves best performance on UIE tasks. | 翻訳日:2024-04-23 23:24:19 公開日:2024-04-22 |
# OccFusion: 3次元動作予測のためのストレートフォワードおよび有効マルチセンサフュージョンフレームワーク
OccFusion: A Straightforward and Effective Multi-Sensor Fusion Framework for 3D Occupancy Prediction ( http://arxiv.org/abs/2403.01644v3 ) ライセンス: Link先を確認 | Zhenxing Ming, Julie Stephany Berrio, Mao Shan, Stewart Worrall, | (参考訳) 本稿では,3次元占有率を予測するための簡易かつ効率的なセンサ融合フレームワークであるOccFusionを紹介する。
3Dシーンの包括的理解は自動運転において不可欠であり、近年の3Dセマンティック占有予測モデルでは、様々な形状やクラスを持つ現実世界のオブジェクトを記述するという課題に対処している。
しかし、既存の3D占有率予測法は周囲のカメラ画像に大きく依存しており、照明や気象条件の変化の影響を受けやすい。
ライダーやサラウンドビューレーダなどの付加センサの機能を統合することで、我々のフレームワークは占有率予測の精度と堅牢性を向上し、nuScenesベンチマークの上位層の性能が向上する。
さらに、夜間と雨季のシナリオを含むnuScenesデータセット上で行われた広範な実験により、センサー融合戦略の様々な知覚範囲における優れた性能が確認された。
このフレームワークのコードはhttps://github.com/DanielMing123/OCCFusionで公開される。
This paper introduces OccFusion, a straightforward and efficient sensor fusion framework for predicting 3D occupancy. A comprehensive understanding of 3D scenes is crucial in autonomous driving, and recent models for 3D semantic occupancy prediction have successfully addressed the challenge of describing real-world objects with varied shapes and classes. However, existing methods for 3D occupancy prediction heavily rely on surround-view camera images, making them susceptible to changes in lighting and weather conditions. By integrating features from additional sensors, such as lidar and surround view radars, our framework enhances the accuracy and robustness of occupancy prediction, resulting in top-tier performance on the nuScenes benchmark. Furthermore, extensive experiments conducted on the nuScenes dataset, including challenging night and rainy scenarios, confirm the superior performance of our sensor fusion strategy across various perception ranges. The code for this framework will be made available at https://github.com/DanielMing123/OCCFusion. | 翻訳日:2024-04-23 23:24:19 公開日:2024-04-22 |
# HanDiffuser:リアルな手触りでテキストから画像生成
HanDiffuser: Text-to-Image Generation With Realistic Hand Appearances ( http://arxiv.org/abs/2403.01693v2 ) ライセンス: Link先を確認 | Supreeth Narasimhaswamy, Uttaran Bhattacharya, Xiang Chen, Ishita Dasgupta, Saayan Mitra, Minh Hoai, | (参考訳) テキスト・ツー・イメージ生成モデルは高品質な人間を生み出すことができるが、現実主義は手を生成する際に失われる。
一般的なアーティファクトには、不規則な手ポーズ、形、不正確な指の数、物理的に不明瞭な指の向きなどがある。
現実的な手で画像を生成するために,HanDiffuserと呼ばれる新しい拡散型アーキテクチャを提案する。
HanDiffuserは、入力テキストプロンプトからSMPL-BodyとMANO-Handパラメータを生成するためのText-to-Hand-Params拡散モデルと、以前のコンポーネントが生成したプロンプトとハンドパラメータを条件に画像の合成を行うText-Guided Hand-Params-to-Image拡散モデルである。
3次元形状や関節レベルの指の位置,方向,調音など,手指表現の複数の側面を取り入れて,推論時の頑健な学習と信頼性向上を実現した。
そこで我々は,高品位手による画像生成において,広範に定量的かつ定性的な実験を行い,本手法の有効性を実証するためにユーザスタディを実施している。
Text-to-image generative models can generate high-quality humans, but realism is lost when generating hands. Common artifacts include irregular hand poses, shapes, incorrect numbers of fingers, and physically implausible finger orientations. To generate images with realistic hands, we propose a novel diffusion-based architecture called HanDiffuser that achieves realism by injecting hand embeddings in the generative process. HanDiffuser consists of two components: a Text-to-Hand-Params diffusion model to generate SMPL-Body and MANO-Hand parameters from input text prompts, and a Text-Guided Hand-Params-to-Image diffusion model to synthesize images by conditioning on the prompts and hand parameters generated by the previous component. We incorporate multiple aspects of hand representation, including 3D shapes and joint-level finger positions, orientations and articulations, for robust learning and reliable performance during inference. We conduct extensive quantitative and qualitative experiments and perform user studies to demonstrate the efficacy of our method in generating images with high-quality hands. | 翻訳日:2024-04-23 23:24:19 公開日:2024-04-22 |
# ソフト拘束型シュロディンガーブリッジ:確率制御アプローチ
Soft-constrained Schrodinger Bridge: a Stochastic Control Approach ( http://arxiv.org/abs/2403.01717v2 ) ライセンス: Link先を確認 | Jhanvi Garg, Xianyang Zhang, Quan Zhou, | (参考訳) Schr\"{o}dinger Bridgeは、端末分布が予め指定された目標分布と一致する最適な制御された拡散過程を見つけることを目標とする、連続時間確率的制御問題と見なすことができる。
本稿では,両分布間のKulback-Leiblerの相違を罰し,端末分布を目標と異なるものにすることで,この問題を一般化することを提案する。
我々は、この新たな制御問題をソフトコントラクトされたSchr\"{o}dinger Bridge (SSB) と呼ぶ。
この研究の主な貢献はSSBへの解の理論的導出であり、最適に制御されたプロセスの終端分布がターゲットと他の分布の幾何学的混合であることを示す。
この結果は、時系列設定にまで拡張される。
1つの応用は、堅牢な生成拡散モデルの開発である。
そこで本研究では,MNISTデータセットの数値例を用いて,幾何学的混合から抽出するスコアマッチングに基づくアルゴリズムを提案する。
Schr\"{o}dinger bridge can be viewed as a continuous-time stochastic control problem where the goal is to find an optimally controlled diffusion process whose terminal distribution coincides with a pre-specified target distribution. We propose to generalize this problem by allowing the terminal distribution to differ from the target but penalizing the Kullback-Leibler divergence between the two distributions. We call this new control problem soft-constrained Schr\"{o}dinger bridge (SSB). The main contribution of this work is a theoretical derivation of the solution to SSB, which shows that the terminal distribution of the optimally controlled process is a geometric mixture of the target and some other distribution. This result is further extended to a time series setting. One application is the development of robust generative diffusion models. We propose a score matching-based algorithm for sampling from geometric mixtures and showcase its use via a numerical example for the MNIST data set. | 翻訳日:2024-04-23 23:24:19 公開日:2024-04-22 |
# マルチピラミド変換器とコントラスト学習を用いた顕微鏡デフォーカスデブロの統一化
A Unified Framework for Microscopy Defocus Deblur with Multi-Pyramid Transformer and Contrastive Learning ( http://arxiv.org/abs/2403.02611v2 ) ライセンス: Link先を確認 | Yuelin Zhang, Pengyu Zheng, Wanquan Yan, Chengyu Fang, Shing Shin Cheng, | (参考訳) Defocus blurは、顕微鏡画像における永続的な問題であり、細胞顕微鏡および顕微鏡手術における病理学的解釈と医学的介入に害を与える。
この問題に対処するため,マルチピラミド変換器 (MPT) と拡張周波数コントラスト正規化 (EFCR) を含む統合フレームワークを提案し,顕微鏡設計における2つの課題に対処する。
MPTは、ネットワークの各段階で明示的なピラミッド構造を採用しており、長距離の空間的相互作用とグローバルなチャネルコンテキストを捉えるために、CSWA、ISCA、FEFNといった機能強化フィードフォワードネットワークを統合している。
EFCRは、異なる周波数帯域からの潜時遅延信号を探索することで、データ不足の問題に対処する。
また、余分なデータからドメイン間の情報を学習し、ラベル付きおよびラベルなしデータの遅延性能を向上させることができる。
大規模な実験とダウンストリームタスク検証は、フレームワークが複数のデータセットにわたって最先端のパフォーマンスを達成することを示している。
プロジェクトページ: https://github.com/PieceZhang/MPT-CataBlur.com
Defocus blur is a persistent problem in microscope imaging that poses harm to pathology interpretation and medical intervention in cell microscopy and microscope surgery. To address this problem, a unified framework including the multi-pyramid transformer (MPT) and extended frequency contrastive regularization (EFCR) is proposed to tackle two outstanding challenges in microscopy deblur: longer attention span and data deficiency. The MPT employs an explicit pyramid structure at each network stage that integrates the cross-scale window attention (CSWA), the intra-scale channel attention (ISCA), and the feature-enhancing feed-forward network (FEFN) to capture long-range cross-scale spatial interaction and global channel context. The EFCR addresses the data deficiency problem by exploring latent deblur signals from different frequency bands. It also enables deblur knowledge transfer to learn cross-domain information from extra data, improving deblur performance for labeled and unlabeled data. Extensive experiments and downstream task validation show the framework achieves state-of-the-art performance across multiple datasets. Project page: https://github.com/PieceZhang/MPT-CataBlur. | 翻訳日:2024-04-23 23:24:19 公開日:2024-04-22 |
# 視覚的人物認証のための動的クロスアテンション
Dynamic Cross Attention for Audio-Visual Person Verification ( http://arxiv.org/abs/2403.04661v3 ) ライセンス: Link先を確認 | R. Gnana Praveen, Jahangir Alam, | (参考訳) 個人や個人認証は顔や声などの個別のモダリティを用いて主に検討されてきたが、近年では音声と視覚の融合が一助的アプローチを上回る可能性を示している。
音声と視覚のモダリティは、しばしば強い相補関係を生じさせ、効果的な視覚融合において重要な役割を担っている。
しかし、必ずしも互いに強く補完するとは限らないし、補間関係が弱く、結果として音声・視覚的特徴表現が貧弱になることもある。
本稿では,音声と視覚の相補的関係に基づき,動的クロスアテンション(DCA)モデルを提案する。
特に、条件付きゲーティング層は、クロスアテンション機構の寄与を評価し、強い相補的関係を示す場合にのみクロスアテンション特徴を選択するように設計されている。
Voxceleb1データセットで大規模な実験を行い、提案モデルの堅牢性を実証した。
その結果,提案モデルでは,複数種類のクロスアテンションの性能が常に向上し,最先端の手法よりも優れていたことが示唆された。
Although person or identity verification has been predominantly explored using individual modalities such as face and voice, audio-visual fusion has recently shown immense potential to outperform unimodal approaches. Audio and visual modalities are often expected to pose strong complementary relationships, which plays a crucial role in effective audio-visual fusion. However, they may not always strongly complement each other, they may also exhibit weak complementary relationships, resulting in poor audio-visual feature representations. In this paper, we propose a Dynamic Cross-Attention (DCA) model that can dynamically select the cross-attended or unattended features on the fly based on the strong or weak complementary relationships, respectively, across audio and visual modalities. In particular, a conditional gating layer is designed to evaluate the contribution of the cross-attention mechanism and choose cross-attended features only when they exhibit strong complementary relationships, otherwise unattended features. Extensive experiments are conducted on the Voxceleb1 dataset to demonstrate the robustness of the proposed model. Results indicate that the proposed model consistently improves the performance on multiple variants of cross-attention while outperforming the state-of-the-art methods. | 翻訳日:2024-04-23 23:24:19 公開日:2024-04-22 |
# SAFDNet: 完全スパース3Dオブジェクト検出のためのシンプルで効果的なネットワーク
SAFDNet: A Simple and Effective Network for Fully Sparse 3D Object Detection ( http://arxiv.org/abs/2403.05817v2 ) ライセンス: Link先を確認 | Gang Zhang, Junnan Chen, Guohuan Gao, Jianmin Li, Si Liu, Xiaolin Hu, | (参考訳) LiDARベースの3Dオブジェクト検出は、自動運転において重要な役割を果たす。
既存の高性能な3Dオブジェクト検出器は通常、バックボーンネットワークと予測ヘッドに密度の高い特徴マップを構築する。
しかし、高密度特徴写像によって引き起こされる計算コストは、知覚範囲が大きくなるにつれて2次的に増大し、これらのモデルが長距離検出にスケールアップすることが困難になる。
いくつかの最近の研究は、この問題を解決するために完全なスパース検出器を構築しようとしたが、結果として得られたモデルは複雑な多段パイプラインに依存するか、劣った性能を示すかのいずれかであった。
本研究では,SAFDNetを提案する。SAFDNetは,完全スパースな3Dオブジェクト検出に適した,単純かつ高効率なアーキテクチャである。
SAFDNetでは、中心的特徴不足問題に対処するために適応的特徴拡散戦略が設計されている。
Waymo Open、nuScenes、Argoverse2データセットについて広範な実験を行った。
SAFDNetは、最初の2つのデータセットでは以前のSOTAよりもわずかに優れていたが、最後のデータセットでは、長距離検出を必要とするシナリオにおいて、SAFDNetの有効性を検証した。
特にArgoverse2では、SAFDNetは以前の最高のハイブリッド検出器であるHEDNetを2.1倍高速で2.6%上回り、以前の最高のスパース検出器であるFSDv2よりも2.1%上回った。
コードはhttps://github.com/zhanggang001/HEDNetで入手できる。
LiDAR-based 3D object detection plays an essential role in autonomous driving. Existing high-performing 3D object detectors usually build dense feature maps in the backbone network and prediction head. However, the computational costs introduced by the dense feature maps grow quadratically as the perception range increases, making these models hard to scale up to long-range detection. Some recent works have attempted to construct fully sparse detectors to solve this issue; nevertheless, the resulting models either rely on a complex multi-stage pipeline or exhibit inferior performance. In this work, we propose SAFDNet, a straightforward yet highly effective architecture, tailored for fully sparse 3D object detection. In SAFDNet, an adaptive feature diffusion strategy is designed to address the center feature missing problem. We conducted extensive experiments on Waymo Open, nuScenes, and Argoverse2 datasets. SAFDNet performed slightly better than the previous SOTA on the first two datasets but much better on the last dataset, which features long-range detection, verifying the efficacy of SAFDNet in scenarios where long-range detection is required. Notably, on Argoverse2, SAFDNet surpassed the previous best hybrid detector HEDNet by 2.6% mAP while being 2.1x faster, and yielded 2.1% mAP gains over the previous best sparse detector FSDv2 while being 1.3x faster. The code will be available at https://github.com/zhanggang001/HEDNet. | 翻訳日:2024-04-23 23:14:33 公開日:2024-04-22 |
# HL-HGATによるグラフニューラルネットワークの高度化:不均一グラフ構造化データのホッジラプラシアン・アテンション機構アプローチ
Advancing Graph Neural Networks with HL-HGAT: A Hodge-Laplacian and Attention Mechanism Approach for Heterogeneous Graph-Structured Data ( http://arxiv.org/abs/2403.06687v2 ) ライセンス: Link先を確認 | Jinghan Huang, Qiufeng Chen, Yijun Bian, Pengli Zhu, Nanguang Chen, Moo K. Chung, Anqi Qiu, | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ内のノード間の関係を捉えるのに有効であることが証明されている。
本研究では,ノード,エッジ,三角形,および$k$simplicesを包含し,任意の$k$simplices上のグラフ構造化データの定義を可能にする。
我々の貢献はHodge-Laplacian heterogeneous graph attention network (HL-HGAT) であり、$k$-simplicesで不均一な信号表現を学習するために設計されている。
HL-HGATには、HL畳み込みフィルタ(HL-filter)、simplicial projection(SP)、simplicial attention pooling(SAP)演算子($k$-simplices)の3つの重要なコンポーネントが含まれている。
HLフィルタは、Hodge-Laplacian (HL)演算子によって符号化された$k$-simplicesのユニークな位相を利用し、$k$-th HL演算子のスペクトル領域内で動作する。
計算問題に対処するため、HLフィルタの多項式近似を導入し、空間的局所化特性を示す。
さらに,複数次元の単純さにまたがる位相的相互干渉を捉えることで,自己注意機構とSP演算子による相互注意機構を組み合わさって,$k$-simplicesを疎結合するプーリング演算子を提案する。
HL-HGATは、NPハード問題、グラフマルチラベルと分類問題、ロジスティクス、コンピュータビジョン、生物学、化学、神経科学におけるグラフ回帰タスクなど、様々なグラフアプリケーションで包括的に評価されている。
この結果は、幅広いグラフベースのシナリオを扱う上で、モデルの有効性と汎用性を示すものである。
Graph neural networks (GNNs) have proven effective in capturing relationships among nodes in a graph. This study introduces a novel perspective by considering a graph as a simplicial complex, encompassing nodes, edges, triangles, and $k$-simplices, enabling the definition of graph-structured data on any $k$-simplices. Our contribution is the Hodge-Laplacian heterogeneous graph attention network (HL-HGAT), designed to learn heterogeneous signal representations across $k$-simplices. The HL-HGAT incorporates three key components: HL convolutional filters (HL-filters), simplicial projection (SP), and simplicial attention pooling (SAP) operators, applied to $k$-simplices. HL-filters leverage the unique topology of $k$-simplices encoded by the Hodge-Laplacian (HL) operator, operating within the spectral domain of the $k$-th HL operator. To address computation challenges, we introduce a polynomial approximation for HL-filters, exhibiting spatial localization properties. Additionally, we propose a pooling operator to coarsen $k$-simplices, combining features through simplicial attention mechanisms of self-attention and cross-attention via transformers and SP operators, capturing topological interconnections across multiple dimensions of simplices. The HL-HGAT is comprehensively evaluated across diverse graph applications, including NP-hard problems, graph multi-label and classification challenges, and graph regression tasks in logistics, computer vision, biology, chemistry, and neuroscience. The results demonstrate the model's efficacy and versatility in handling a wide range of graph-based scenarios. | 翻訳日:2024-04-23 23:14:33 公開日:2024-04-22 |
# 3次元形状再構成のためのベイズ拡散モデル
Bayesian Diffusion Models for 3D Shape Reconstruction ( http://arxiv.org/abs/2403.06973v2 ) ライセンス: Link先を確認 | Haiyang Xu, Yu Lei, Zeyuan Chen, Xiang Zhang, Yue Zhao, Yilin Wang, Zhuowen Tu, | (参考訳) 本稿では,BDM(Bayesian Diffusion Models)を提案する。BDM(Bayesian Diffusion Models)は,BDM(Bayesian Diffusion Models,BDM)とBDM(Bayesian Diffusion Models,BDM)を結合拡散法により,トップダウン情報とボトムアップ情報とを密結合させることにより,効果的なベイズ推定を行うアルゴリズムである。
3次元形状復元作業におけるBDMの有効性を示す。
ペア化された(教師付き)データラベル(例えば、イメージポイントクラウド)データセットでトレーニングされたプロトタイプ的なディープラーニングデータ駆動アプローチと比較して、私たちのBDMは、ボトムアップ3D再構築を改善するためにスタンドアロンラベル(例えば、ポイントクラウド)から豊富な事前情報をもたらします。
推論に明確な事前と可能性を必要とする標準的なベイズフレームワークとは対照的に、BDMは学習した勾配計算ネットワークと結合した拡散過程を介してシームレスな情報融合を行う。
当社のBDMの特長は、それぞれが拡散プロセスであるトップダウンおよびボトムアッププロセスのアクティブかつ効果的な情報交換と融合を行う能力にある。
我々は3次元形状復元のための合成および実世界のベンチマークで最先端の結果を示す。
We present Bayesian Diffusion Models (BDM), a prediction algorithm that performs effective Bayesian inference by tightly coupling the top-down (prior) information with the bottom-up (data-driven) procedure via joint diffusion processes. We show the effectiveness of BDM on the 3D shape reconstruction task. Compared to prototypical deep learning data-driven approaches trained on paired (supervised) data-labels (e.g. image-point clouds) datasets, our BDM brings in rich prior information from standalone labels (e.g. point clouds) to improve the bottom-up 3D reconstruction. As opposed to the standard Bayesian frameworks where explicit prior and likelihood are required for the inference, BDM performs seamless information fusion via coupled diffusion processes with learned gradient computation networks. The specialty of our BDM lies in its capability to engage the active and effective information exchange and fusion of the top-down and bottom-up processes where each itself is a diffusion process. We demonstrate state-of-the-art results on both synthetic and real-world benchmarks for 3D shape reconstruction. | 翻訳日:2024-04-23 23:14:33 公開日:2024-04-22 |
# 時間依存積公式による効率的なハミルトンシミュレーション
Efficient and practical Hamiltonian simulation from time-dependent product formulas ( http://arxiv.org/abs/2403.08729v2 ) ライセンス: Link先を確認 | Jan Lukas Bosse, Andrew M. Childs, Charles Derby, Filippo Maria Gambetta, Ashley Montanaro, Raul A. Santos, | (参考訳) 本研究では,製品公式を用いた量子システムの時間進化手法を提案する。
私たちが開発している量子アルゴリズムは、エネルギースケールの異なるハミルトン式(すなわち、一方が「大きい」、もう一方が「小さい」)によって進化が決定されるシステムに対して、よく知られたトロッターの公式の単純適用よりも、(ゲートの複雑さと回路深さの点で)確実に優れたスケーリングを持つ。
我々のアルゴリズムは、進化演算子を量子コンピュータ上で直接実装可能な単純なユニタリの積に分解する。
理論的スケーリングは最先端のアルゴリズム(例えば量子信号処理)と比較すると最適ではないが、我々が提案するアルゴリズムの性能は実際に非常に競争力がある。
いくつかのモデルに対する広範な数値シミュレーションを通してこれを解説する。
例えば、1次元横フィールドイジングモデルの強磁場状態において、我々のアルゴリズムは、標準的なトロッター式と比較して1000の任意の2ビットゲートの固定予算でシミュレートできるシステムサイズと進化時間の両方において、一桁の精度向上を実現している。
In this work we propose an approach for implementing time-evolution of a quantum system using product formulas. The quantum algorithms we develop have provably better scaling (in terms of gate complexity and circuit depth) than a naive application of well-known Trotter formulas, for systems where the evolution is determined by a Hamiltonian with different energy scales (i.e., one part is "large" and another part is "small"). Our algorithms generate a decomposition of the evolution operator into a product of simple unitaries that are directly implementable on a quantum computer. Although the theoretical scaling is suboptimal compared with state-of-the-art algorithms (e.g., quantum signal processing), the performance of the algorithms we propose is highly competitive in practice. We illustrate this via extensive numerical simulations for several models. For instance, in the strong-field regime of the 1D transverse-field Ising model, our algorithms achieve an improvement of one order of magnitude in both the system size and evolution time that can be simulated with a fixed budget of 1000 arbitrary 2-qubit gates, compared with standard Trotter formulas. | 翻訳日:2024-04-23 23:14:33 公開日:2024-04-22 |
# 量子コンピューティングと差分プライバシのブリッジ:量子コンピューティングプライバシに関する考察
Bridging Quantum Computing and Differential Privacy: Insights into Quantum Computing Privacy ( http://arxiv.org/abs/2403.09173v2 ) ライセンス: Link先を確認 | Yusheng Zhao, Hui Zhong, Xinyue Zhang, Yuqing Li, Chi Zhang, Miao Pan, | (参考訳) 量子コンピューティングは、データ駆動の分野で大きな可能性を秘めているが、量子アルゴリズムに関わる機密情報や貴重な情報のプライバシーの問題を考慮する必要がある。
古典的なシナリオで広く使われている基本的なプライバシツールである差分プライバシー(DP)は、量子ディファレンシャルプライバシ(QDP)と呼ばれる量子領域に拡張されている。
QDPは、従来のDPメカニズムと互換性があるだけでなく、ノイズの多い中規模量子(NISQ)デバイスで避けられない量子ノイズを利用してプライバシー保護を実現するため、プライバシ保存量子コンピューティングへの最も有望な道の1つである。
本稿では,QDPの様々な実装アプローチと,DP設定下でのプライバシパラメータの性能について概説する。
具体的には、QDP手法の分類法を提案し、内部あるいは外部のランダム化がQDPを実現するために使用されるか、量子アルゴリズムの各フェーズにどのように適用されるかに基づいて、既存の文献を分類した。
また,QDPの課題と今後の方向性についても論じる。
近年の進歩を要約することで、この分野を探求する研究者に対して、包括的で最新の調査を提供したいと思っています。
While quantum computing has a strong potential in data-driven fields, the privacy issue of sensitive or valuable information involved in the quantum algorithm should be considered. Differential privacy (DP), which is a fundamental privacy tool widely used in the classical scenario, has been extended to the quantum domain, i.e. quantum differential privacy (QDP). QDP may become one of the most promising avenues towards privacy-preserving quantum computing since it is not only compatible with the classical DP mechanisms but also achieves privacy protection by exploiting unavoidable quantum noise in noisy intermediate-scale quantum (NISQ) devices. This paper provides an overview of the various implementation approaches of QDP and their performance of privacy parameters under the DP setting. Concretely speaking, we propose a taxonomy of QDP techniques, categorized the existing literature based on whether internal or external randomization is used as a source to achieve QDP and how these approaches are applied to each phase of the quantum algorithm. We also discuss challenges and future directions for QDP. By summarizing recent advancements, we hope to provide a comprehensive, up-to-date survey for researchers venturing into this field. | 翻訳日:2024-04-23 23:14:33 公開日:2024-04-22 |
# Shake to Leak: 微調整拡散モデルによって生成するプライバシリスクが増幅される
Shake to Leak: Fine-tuning Diffusion Models Can Amplify the Generative Privacy Risk ( http://arxiv.org/abs/2403.09450v2 ) ライセンス: Link先を確認 | Zhangheng Li, Junyuan Hong, Bo Li, Zhangyang Wang, | (参考訳) 拡散モデルは最近、現実的なイメージの生成において顕著な進歩を見せていますが、プライバシのリスクも生じています。
本稿では,データ操作による事前学習モデルの微調整によって,既存のプライバシーリスクを増幅する新たなリスクであるShake-to-Leak(S2L)を明らかにする。
拡散モデルに対するS2Lは,概念注入法 (DreamBooth と Textual Inversion) やパラメータ効率法 (LoRA と Hypernetwork) など,様々な標準的な微調整手法で実現可能であることを実証した。
最悪の場合、S2Lは拡散モデル上での最先端の会員推論攻撃(MIA)を5.4\%(絶対差)のAUCで増幅し、抽出したサンプルを0ドル近いサンプルから15.8ドルのサンプルに増加させることができる。
この発見は、拡散モデルによるプライバシーリスクが、これまで認識されていたよりもさらに深刻であることを示している。
コードはhttps://github.com/VITA-Group/Shake-to-Leak.comで公開されている。
While diffusion models have recently demonstrated remarkable progress in generating realistic images, privacy risks also arise: published models or APIs could generate training images and thus leak privacy-sensitive training information. In this paper, we reveal a new risk, Shake-to-Leak (S2L), that fine-tuning the pre-trained models with manipulated data can amplify the existing privacy risks. We demonstrate that S2L could occur in various standard fine-tuning strategies for diffusion models, including concept-injection methods (DreamBooth and Textual Inversion) and parameter-efficient methods (LoRA and Hypernetwork), as well as their combinations. In the worst case, S2L can amplify the state-of-the-art membership inference attack (MIA) on diffusion models by $5.4\%$ (absolute difference) AUC and can increase extracted private samples from almost $0$ samples to $15.8$ samples on average per target domain. This discovery underscores that the privacy risk with diffusion models is even more severe than previously recognized. Codes are available at https://github.com/VITA-Group/Shake-to-Leak. | 翻訳日:2024-04-23 23:14:33 公開日:2024-04-22 |
# 意味的・視覚的対応のための変換器を用いた特徴量とコスト集約
Unifying Feature and Cost Aggregation with Transformers for Semantic and Visual Correspondence ( http://arxiv.org/abs/2403.11120v2 ) ライセンス: Link先を確認 | Sunghwan Hong, Seokju Cho, Seungryong Kim, Stephen Lin, | (参考訳) 本稿では,高密度マッチングタスク用に設計されたTransformerベースの積分機能とコスト集約ネットワークを提案する。
密マッチングの文脈において、多くの作品は、類似した特徴のアライメント(英語版)またはコストアグリゲーション(英語版)のアライメント(英語版)という、2つの形式のアグリゲーション(英語版)の恩恵を受ける。
本研究は,まず,特徴集約とコスト集約が異なる特徴を示すことを示し,双方の集約プロセスの司法的利用から生じる実質的な利益の可能性を明らかにする。
次に,本手法が機能集約とコスト集約を統一し,両手法の強みを効果的に活用することを示すために,自己と横断的なメカニズムを活用する,シンプルで効果的なアーキテクチャを導入する。
提案した注目層内では,特徴量とコスト容積が相補的であり,注目層は粗い設計によりインターリーブされ,正確な対応推定が促進される。
最後に,本ネットワークはマルチスケール予測を行い,信頼度を算出し,信頼度の高いフローを選択し,最終的な予測を行う。
本フレームワークは意味マッチングのための標準ベンチマークで評価され,また幾何マッチングにも適用された。
This paper introduces a Transformer-based integrative feature and cost aggregation network designed for dense matching tasks. In the context of dense matching, many works benefit from one of two forms of aggregation: feature aggregation, which pertains to the alignment of similar features, or cost aggregation, a procedure aimed at instilling coherence in the flow estimates across neighboring pixels. In this work, we first show that feature aggregation and cost aggregation exhibit distinct characteristics and reveal the potential for substantial benefits stemming from the judicious use of both aggregation processes. We then introduce a simple yet effective architecture that harnesses self- and cross-attention mechanisms to show that our approach unifies feature aggregation and cost aggregation and effectively harnesses the strengths of both techniques. Within the proposed attention layers, the features and cost volume both complement each other, and the attention layers are interleaved through a coarse-to-fine design to further promote accurate correspondence estimation. Finally at inference, our network produces multi-scale predictions, computes their confidence scores, and selects the most confident flow for final prediction. Our framework is evaluated on standard benchmarks for semantic matching, and also applied to geometric matching, where we show that our approach achieves significant improvements compared to existing methods. | 翻訳日:2024-04-23 23:14:33 公開日:2024-04-22 |
# モデル編集のための統一フレームワーク
A Unified Framework for Model Editing ( http://arxiv.org/abs/2403.14236v2 ) ライセンス: Link先を確認 | Akshat Gupta, Dev Sajnani, Gopala Anumanchipalli, | (参考訳) ROMEとMEMITという2つの主要な「位置と編集」モデル編集技術をひとつの概念的な傘の下に導入する統一フレームワークを導入し、同じ目標を最適化し、保存記憶の目的と呼ぶ。
ROMEは1回に1回の編集を行うために平等制約を使用するが、MEMITはバッチ編集を可能にするより柔軟な最小二乗制約を使用する。
保存記憶の目的に従えば、保存記憶の目的の等質制約版にクローズドフォームソリューションを利用する、トランスフォーマーのための等質制約付きマスモデル編集アルゴリズム(EMMET)や、新しいバッチメモリ編集アルゴリズム(EMMET)を提案する。
EMMET は ROME のバッチ変換であり、バッチ編集を複数の次元にわたる MEMIT と非常によく似た性能で10,000 のバッチサイズまで実行することができる。
EMMETにより、我々は「位置と編集」アルゴリズム内で対称性を統一し、達成し、両方の目的を用いたバッチ編集を可能にする。
We introduce a unifying framework that brings two leading "locate-and-edit" model editing techniques -- ROME and MEMIT -- under a single conceptual umbrella, optimizing for the same goal, which we call the preservation-memorization objective. ROME uses an equality constraint to perform one edit at a time, whereas MEMIT employs a more flexible least-square constraint that allows for batched edits. Following the preservation-memorization objective, we present Equality-constrained Mass Model Editing algorithm for Transformers or EMMET, a new batched memory-editing algorithm that uses a closed-form solution for the equality-constrained version of the preservation-memorization objective. EMMET is a batched-version of ROME and is able to perform batched-edits up to a batch-size of 10,000 with very similar performance to MEMIT across multiple dimensions. With EMMET, we unify and achieve symmetry within the "locate-and-edit" algorithms, allowing batched-editing using both objectives. | 翻訳日:2024-04-23 23:14:33 公開日:2024-04-22 |
# 大規模オープン量子系における最適制御--トランモン読み出しとリセットの場合
Optimal control in large open quantum systems: the case of transmon readout and reset ( http://arxiv.org/abs/2403.14765v2 ) ライセンス: Link先を確認 | Ronan Gautier, Élie Genois, Alexandre Blais, | (参考訳) 本稿では, 随伴状態法と逆時間バックプロパゲーションを組み合わせることで, 極めて大規模なオープンシステム量子制御問題を解く枠組みを提案する。
我々のアプローチは、リンドブラッドマスター方程式によって記述された大きな開量子系に完全に一般化された制御を施した任意のコスト関数の最適化を可能にする。
スケーラブルで、計算効率が良く、メモリフットプリントも低い。
超伝導量子ビットにおける2つの本質的に散逸する演算を、他のユニタリ演算に比べて忠実さと持続時間で遅れる2つの本質的に散逸する演算を最適化するために、本枠組みを適用した。
この結果から, 制御パルスの定式化により, 両操作の忠実度と持続時間の2倍の改善が期待できることがわかった。
我々の手法は、貯水池工学、自律型量子誤り訂正、漏れ低減ユニットなど、幅広い応用において量子制御の最適化に容易に適用できる。
We present a framework that combines the adjoint state method together with reverse-time back-propagation to solve prohibitively large open-system quantum control problems. Our approach enables the optimization of arbitrary cost functions with fully general controls applied on large open quantum systems described by a Lindblad master equation. It is scalable, computationally efficient, and has a low memory footprint. We apply this framework to optimize two inherently dissipative operations in superconducting qubits which lag behind in terms of fidelity and duration compared to other unitary operations: the dispersive readout and all-microwave reset of a transmon qubit. Our results show that, given a fixed set of system parameters, shaping the control pulses can yield 2x improvements in the fidelity and duration for both of these operations compared to standard strategies. Our approach can readily be applied to optimize quantum controls in a vast range of applications such as reservoir engineering, autonomous quantum error correction, and leakage-reduction units. | 翻訳日:2024-04-23 23:04:49 公開日:2024-04-22 |
# 脳電図を用いた対話教育におけるChatGPTの適用効果の検討
Investigation of the effectiveness of applying ChatGPT in Dialogic Teaching Using Electroencephalography ( http://arxiv.org/abs/2403.16687v3 ) ライセンス: Link先を確認 | Jiayue Zhang, Yiheng Liu, Wenqi Cai, Lanlan Wu, Yali Peng, Jingjing Yu, Senqing Qi, Taotao Long, Bao Ge, | (参考訳) 近年、人工知能技術の急速な発展、特にChatGPTのような大規模言語モデル(LLM)の出現は、教育分野への応用に大きな可能性を示している。
LLMは、知識を解釈し、質問に答え、文脈を考慮し、学生に対話的な教えを支援する能力を持っている。
したがって,LLMの指導的役割を効果的に果たす能力について検討し,対話型教育シナリオにおける人間教育者に似た学習を促進することは,非常に貴重な研究課題である。
この研究は、34人の大学生を参加者として募集し、ランダムに2つのグループに分けられた。
実験群はChatGPTを用いて対話型指導を行い,コントロール群は人間教師と対話した。
両グループは情報関連コースであるDigital Image Processingでヒストグラム等化単位を学習した。
調査の結果,保持試験における両群間に比較スコアが認められた。
しかし,ChatGPTとの対話に携わる学生は,移行試験において低い成績を示した。
脳波データによると、ChatGPTと相互作用する学生は認知活動のレベルが高く、ChatGPTが知識基盤の確立と認知活動の促進に役立つことが示唆された。
しかし、学生の育成に力を入れている。
知識の応用と創造性は 重要ではありません
研究結果から,ChatGPTは情報関連科目における対話指導における教科の遂行に全力を尽くすことができないことが明らかとなった。
ChatGPTと従来の人間の教師を組み合わせることが、より理想的なアプローチかもしれない。
両者のシナジスティックな利用は、生徒により包括的な学習支援を提供し、教育の質の向上に寄与する。
In recent years, the rapid development of artificial intelligence technology, especially the emergence of large language models (LLMs) such as ChatGPT, has presented significant prospects for application in the field of education. LLMs possess the capability to interpret knowledge, answer questions, and consider context, thus providing support for dialogic teaching to students. Therefore, an examination of the capacity of LLMs to effectively fulfill instructional roles, thereby facilitating student learning akin to human educators within dialogic teaching scenarios, is an exceptionally valuable research topic. This research recruited 34 undergraduate students as participants, who were randomly divided into two groups. The experimental group engaged in dialogic teaching using ChatGPT, while the control group interacted with human teachers. Both groups learned the histogram equalization unit in the information-related course "Digital Image Processing". The research findings show comparable scores between the two groups on the retention test. However, students who engaged in dialogue with ChatGPT exhibited lower performance on the transfer test. Electroencephalography data revealed that students who interacted with ChatGPT exhibited higher levels of cognitive activity, suggesting that ChatGPT could help students establish a knowledge foundation and stimulate cognitive activity. However, its strengths on promoting students. knowledge application and creativity were insignificant. Based upon the research findings, it is evident that ChatGPT cannot fully excel in fulfilling teaching tasks in the dialogue teaching in information related courses. Combining ChatGPT with traditional human teachers might be a more ideal approach. The synergistic use of both can provide students with more comprehensive learning support, thus contributing to enhancing the quality of teaching. | 翻訳日:2024-04-23 23:04:49 公開日:2024-04-22 |
# スピン-メカニカルハイブリッドインタフェースによるスピンアンサンブルの遠隔冷却
Remote Cooling of Spin-ensembles through a Spin-mechanical Hybrid Interface ( http://arxiv.org/abs/2403.16839v2 ) ライセンス: Link先を確認 | Yang Wang, Durga Bhaktavatsala Rao Dasari, Jörg Wrachtrup, | (参考訳) 本稿では, 単一プローブスピンとリモートスピンアンサンブルの中間子としてマクロ振動子が作用する三部体ハイブリッド量子系の基底状態冷却プロトコルを提案する。
スピンと発振器の間の弱い分散結合の存在下では、発振器とアンサンブルスピンの冷却は単一のプローブスピンの頻繁な測定からフィードバックを利用することで達成できる。
我々は, アンサンブル, 発振器, あるいはその熱基底状態に冷却するために必要なパラメータ機構を探究する。
この新しい冷却プロトコルは、分散結合が弱いにもかかわらず、単にプローブスピンを操作するだけでエネルギー移動のような効果が得られることを示している。
これらの結果は、大きなスピンアンサンブルを冷却・分極する実用的なソリューションの開発に寄与するだけでなく、ハイブリッドシステムの力学を比較的単純な方法でチューニングする手段にも貢献する。
提案した冷却プロトコルは、マクロ量子状態生成やリモートセンシングなど、様々な量子技術応用の進展に幅広い意味を持つ。
We present a protocol for the ground-state cooling of a tripartite hybrid quantum system, in which a macroscopic oscillator acts as a mediator between a single probe spin and a remote spin ensemble. In the presence of weak dispersive coupling between the spins and the oscillator, cooling of the oscillator and the ensemble spins can be achieved by exploiting the feedback from frequent measurements of the single probe spin. We explore the parameter regimes necessary to cool the ensemble, the oscillator, or both to their thermal ground states. This novel cooling protocol shows that, even with only weak dispersive coupling, energy transfer-like effects can be obtained by simply manipulating the probe spin. These results not only contribute to the development of a practical solution for cooling/polarizing large spin ensembles, but also provide a relatively simple means of tuning the dynamics of a hybrid system. The proposed cooling protocol thus has broader implications for advancing various quantum technology applications, such as macroscopic quantum state generation and remote sensing. | 翻訳日:2024-04-23 23:04:49 公開日:2024-04-22 |
# サブサハラ語文脈における多言語音声表現のためのアフリカ中心の自己教師付き事前学習
Africa-Centric Self-Supervised Pre-Training for Multilingual Speech Representation in a Sub-Saharan Context ( http://arxiv.org/abs/2404.02000v3 ) ライセンス: Link先を確認 | Antoine Caubrière, Elodie Gauthier, | (参考訳) アフリカ語のみに特化して訓練された最初の自己教師型多言語音声モデルを提案する。
このモデルは、サハラ以南のアフリカで話されている21の言語と方言で、6万時間近い未ラベルの音声セグメントから学習された。
FLEURS-102データセットのSSAサブセットでは,HuBERT$_{base}$ (0.09B)アーキテクチャに基づくアプローチが,FLEURSベンチマークで提案されたw2v-bert-51(0.6B)事前学習モデルと比較して,ASRダウンストリームタスクに対する競合結果を示している。
さらに,LIDダウンストリームタスクの文脈では,FLEURSの精度を22.5%以上向上させる。
We present the first self-supervised multilingual speech model trained exclusively on African speech. The model learned from nearly 60 000 hours of unlabeled speech segments in 21 languages and dialects spoken in sub-Saharan Africa. On the SSA subset of the FLEURS-102 dataset, our approach based on a HuBERT$_{base}$ (0.09B) architecture shows competitive results, for ASR downstream task, compared to the w2v-bert-51 (0.6B) pre-trained model proposed in the FLEURS benchmark, while being more efficient by using 7x less data and 6x less parameters. Furthermore, in the context of a LID downstream task, our approach outperforms FLEURS baselines accuracy by over 22\%. | 翻訳日:2024-04-23 23:04:49 公開日:2024-04-22 |
# EGGS: 放射界のためのエッジガイド型ガウス散乱
EGGS: Edge Guided Gaussian Splatting for Radiance Fields ( http://arxiv.org/abs/2404.09105v2 ) ライセンス: Link先を確認 | Yuanhao Gong, | (参考訳) ガウスの切り抜き法が人気を集めている。
しかし、損失関数には$\ell_1$ノルムとレンダリング画像と入力画像の間の構造的類似性しか含まれていない。
画像の端が重要な情報を提供することはよく知られている。
そこで本稿では,入力画像のエッジを利用するエッジガイドガウススティング(EGGS)手法を提案する。
より具体的には、エッジ領域は平坦領域よりも高い重量を与える。
このようなエッジ誘導により、結果として生じるガウス粒子は平坦な領域ではなく、エッジに集中する。
さらに、このようなエッジガイダンスは、トレーニングとレンダリングの段階で計算コストを損なうことはない。
実験により、これらの単純なエッジ重み付き損失関数は、いくつかの差分データセットにおいて、およそ1\sim2$ dB を改善することが確認された。
エッジガイダンスを単純にプラグインすることで,人間の頭部モデリングや3D再構築など,さまざまなシナリオにおけるガウススプラッティング法を改良することができる。
The Gaussian splatting methods are getting popular. However, their loss function only contains the $\ell_1$ norm and the structural similarity between the rendered and input images, without considering the edges in these images. It is well-known that the edges in an image provide important information. Therefore, in this paper, we propose an Edge Guided Gaussian Splatting (EGGS) method that leverages the edges in the input images. More specifically, we give the edge region a higher weight than the flat region. With such edge guidance, the resulting Gaussian particles focus more on the edges instead of the flat regions. Moreover, such edge guidance does not crease the computation cost during the training and rendering stage. The experiments confirm that such simple edge-weighted loss function indeed improves about $1\sim2$ dB on several difference data sets. With simply plugging in the edge guidance, the proposed method can improve all Gaussian splatting methods in different scenarios, such as human head modeling, building 3D reconstruction, etc. | 翻訳日:2024-04-23 23:04:49 公開日:2024-04-22 |
# GeoAI再現性と再現性:計算的・空間的視点
GeoAI Reproducibility and Replicability: a computational and spatial perspective ( http://arxiv.org/abs/2404.10108v2 ) ライセンス: Link先を確認 | Wenwen Li, Chia-Yu Hsu, Sizhe Wang, Peter Kedron, | (参考訳) GeoAIは、空間理論とデータを最先端のAIモデルと組み合わせて、新しいデータ駆動方式で地理空間問題に対処する、エキサイティングな学際研究分野として登場した。
GeoAI研究はGIScienceの文献で盛んに行われているが、その再現性と再現性(R&R)は、研究成果の再利用性、信頼性、科学的厳密性を決定する基本原則であり、ほとんど議論されていない。
本稿では,このトピックを計算的,空間的両面から詳細に分析することを目的とする。
まず,GeoAI研究を再現するための主要な目標,すなわち検証(再現性),類似あるいは新しい問題の解法(再現性)の学習と適応,研究成果の一般化可能性(再現性)について検討する。
それぞれの目標には、GeoAIのさまざまなレベルの理解と、その成功を保証するためのさまざまな方法が必要です。
次に,GeoAI研究におけるR&Rの欠如の原因となる要因について考察し,(1)トレーニングデータの選択と利用,(2)GeoAIモデル設計,トレーニング,展開,推論プロセスに存在する不確実性,(3)地理空間データとプロセスの本質的な空間的不均一性について考察する。
深層学習に基づく画像解析タスクを例に、異なる要因による結果の不確かさと空間的分散を実証する。
この知見は,GeoAI研究の空間的再現性を定量化するために,空間的自己相関と空間的不均一性を考慮した「再現性マップ」の作成とともに,知識共有の重要性を再考するものである。
GeoAI has emerged as an exciting interdisciplinary research area that combines spatial theories and data with cutting-edge AI models to address geospatial problems in a novel, data-driven manner. While GeoAI research has flourished in the GIScience literature, its reproducibility and replicability (R&R), fundamental principles that determine the reusability, reliability, and scientific rigor of research findings, have rarely been discussed. This paper aims to provide an in-depth analysis of this topic from both computational and spatial perspectives. We first categorize the major goals for reproducing GeoAI research, namely, validation (repeatability), learning and adapting the method for solving a similar or new problem (reproducibility), and examining the generalizability of the research findings (replicability). Each of these goals requires different levels of understanding of GeoAI, as well as different methods to ensure its success. We then discuss the factors that may cause the lack of R&R in GeoAI research, with an emphasis on (1) the selection and use of training data; (2) the uncertainty that resides in the GeoAI model design, training, deployment, and inference processes; and more importantly (3) the inherent spatial heterogeneity of geospatial data and processes. We use a deep learning-based image analysis task as an example to demonstrate the results' uncertainty and spatial variance caused by different factors. The findings reiterate the importance of knowledge sharing, as well as the generation of a "replicability map" that incorporates spatial autocorrelation and spatial heterogeneity into consideration in quantifying the spatial replicability of GeoAI research. | 翻訳日:2024-04-23 23:04:49 公開日:2024-04-22 |
# 量子化によるニューズベンダー問題の最適化
Quantum-Enhanced Simulation-Based Optimization for Newsvendor Problems ( http://arxiv.org/abs/2403.17389v2 ) ライセンス: Link先を確認 | Monit Sharma, Hoong Chuin Lau, Rudy Raymond, | (参考訳) シミュレーションに基づく最適化は確率的最適化問題を解決するために広く用いられている手法である。
本手法は,目的関数の期待値の最大化により最適解を同定することを目的とする。
しかし、計算複雑性のため、関数を直接的に評価することはできず、シミュレーションによって推定される。
古典モンテカルロシミュレーションと比較して量子振幅推定(QAE)の高効率化を図り、古典的なシミュレーションに基づく最適化をしばしば上回り、様々なシナリオにおいて顕著な性能向上をもたらす。
本研究では、シミュレーションに基づく最適化に量子拡張アルゴリズムを用い、NPハードであることが知られている古典的ニューズベンダー問題の変種を解くためにそれを適用する。
このような問題は、特にリスクや不確実性の下での在庫管理と調達最適化においてサプライチェーン管理のためのビルディングブロックを提供する。
Simulation-based optimization is a widely used method to solve stochastic optimization problems. This method aims to identify an optimal solution by maximizing the expected value of the objective function. However, due to its computational complexity, the function cannot be accurately evaluated directly, hence it is estimated through simulation. Exploiting the enhanced efficiency of Quantum Amplitude Estimation (QAE) compared to classical Monte Carlo simulation, it frequently outpaces classical simulation-based optimization, resulting in notable performance enhancements in various scenarios. In this work, we make use of a quantum-enhanced algorithm for simulation-based optimization and apply it to solve a variant of the classical Newsvendor problem which is known to be NP-hard. Such problems provide the building block for supply chain management, particularly in inventory management and procurement optimization under risks and uncertainty | 翻訳日:2024-04-23 22:55:04 公開日:2024-04-22 |
# 専門家アノテータ」:感情インテンシティ・モデリングのためのベスト・ワースト・スケーリング・アノテーション自動作成
"You are an expert annotator": Automatic Best-Worst-Scaling Annotations for Emotion Intensity Modeling ( http://arxiv.org/abs/2403.17612v2 ) ライセンス: Link先を確認 | Christopher Bagdon, Prathamesh Karmalker, Harsha Gurulingappa, Roman Klinger, | (参考訳) ラベル付けコーパスは、新しいタスクやドメインのモデルを作成するためにボトルネックとなる。
大規模な言語モデルは、特に分類的アノテーションにおいて、自動コーパスラベリング手法で問題を緩和する。
しかし、感情強度予測のようなNLPタスクはテキストの回帰を必要とするが、連続ラベル代入のためのアノテーションを自動化する作業は行われていない。
評価尺度から値を選択するように指示されたとき、人間がより悪いパフォーマンスをするという事実は、ベスト・ワースト・スケーリングを含む比較アノテーション手法につながる。
これは、大規模言語モデルに基づくアノテーション手法が類似したパターンを示すかどうかという問題を引き起こす。
そこで本研究では,感情の強度予測を自動化し,直接評価尺度の予測,ペアワイズ比較,ベストワーストスケーリングを比較した。
後者が最も信頼性が高いことが分かりました。
これらのデータに基づいて微調整されたトランスフォーマー回帰器は、オリジナルの手動アノテーションでトレーニングされたモデルとほぼ同等に動作する。
Labeling corpora constitutes a bottleneck to create models for new tasks or domains. Large language models mitigate the issue with automatic corpus labeling methods, particularly for categorical annotations. Some NLP tasks such as emotion intensity prediction, however, require text regression, but there is no work on automating annotations for continuous label assignments. Regression is considered more challenging than classification: The fact that humans perform worse when tasked to choose values from a rating scale lead to comparative annotation methods, including best-worst scaling. This raises the question if large language model-based annotation methods show similar patterns, namely that they perform worse on rating scale annotation tasks than on comparative annotation tasks. To study this, we automate emotion intensity predictions and compare direct rating scale predictions, pairwise comparisons and best-worst scaling. We find that the latter shows the highest reliability. A transformer regressor fine-tuned on these data performs nearly on par with a model trained on the original manual annotations. | 翻訳日:2024-04-23 22:55:04 公開日:2024-04-22 |
# 強化学習を用いたブラックボックス画像・ビデオ・ECG信号分類におけるロバストさと視覚的説明
Robustness and Visual Explanation for Black Box Image, Video, and ECG Signal Classification with Reinforcement Learning ( http://arxiv.org/abs/2403.18985v2 ) ライセンス: Link先を確認 | Soumyendu Sarkar, Ashwin Ramesh Babu, Sajad Mousavi, Vineet Gundecha, Avisek Naug, Sahand Ghorbanpour, | (参考訳) 本稿では,ECG信号解析(1D),画像分類(2D),映像分類(3D)など多種多様なモデルに対して,敵対的攻撃を行うために最適化された汎用強化学習(RL)フレームワークを提案する。
このフレームワークは、感度の高い領域を特定し、最小の歪みと様々な歪みタイプで誤分類を誘導することに焦点を当てている。
新規なRL法は3つの応用すべてに対して最先端の手法より優れており、その効率性が証明されている。
我々のRLアプローチは優れたローカライゼーションマスクを生成し、画像分類とECG分析モデルの解釈可能性を高める。
心電図解析などのアプリケーションでは,臨床医にとって重要な心電図セグメントが強調され,起立歪みに対するレジリエンスが確保される。
この包括的なツールは、さまざまなアプリケーションやデータタイプにわたる敵のトレーニングと透明性によるレジリエンスの強化を目標としている。
We present a generic Reinforcement Learning (RL) framework optimized for crafting adversarial attacks on different model types spanning from ECG signal analysis (1D), image classification (2D), and video classification (3D). The framework focuses on identifying sensitive regions and inducing misclassifications with minimal distortions and various distortion types. The novel RL method outperforms state-of-the-art methods for all three applications, proving its efficiency. Our RL approach produces superior localization masks, enhancing interpretability for image classification and ECG analysis models. For applications such as ECG analysis, our platform highlights critical ECG segments for clinicians while ensuring resilience against prevalent distortions. This comprehensive tool aims to bolster both resilience with adversarial training and transparency across varied applications and data types. | 翻訳日:2024-04-23 22:55:04 公開日:2024-04-22 |
# インクと個性: LLMの時代における個人化された物語づくり
Ink and Individuality: Crafting a Personalised Narrative in the Age of LLMs ( http://arxiv.org/abs/2404.00026v3 ) ライセンス: Link先を確認 | Azmine Toushik Wasi, Raima Islam, Mst Rafia Islam, | (参考訳) 個人性とパーソナライゼーションは、個々の作家をユニークにし、その言葉に影響を与えて、読者を効果的にエンゲージし、真偽を伝えていく特徴である。
しかし、LLMベースの筆記アシスタントへの依存度が高まると、創造性と個性は時とともに悪化する。
この傾向が創造性や独特性に悪影響を及ぼすのを、私たちはしばしば見落としています。
本研究は、様々な視点や概念を探求するための簡単な調査と、その地域の過去の研究と合わせて人々の視点を理解しようとする試みによって、これらの懸念を調査するものである。
これらの課題に対処することは、人間とコンピュータのインタラクションシステムを改善し、パーソナライズとパーソナライズのためのアシスタントを書くために不可欠である。
Individuality and personalization comprise the distinctive characteristics that make each writer unique and influence their words in order to effectively engage readers while conveying authenticity. However, our growing reliance on LLM-based writing assistants risks compromising our creativity and individuality over time. We often overlook the negative impacts of this trend on our creativity and uniqueness, despite the possible consequences. This study investigates these concerns by performing a brief survey to explore different perspectives and concepts, as well as trying to understand people's viewpoints, in conjunction with past studies in the area. Addressing these issues is essential for improving human-computer interaction systems and enhancing writing assistants for personalization and individuality. | 翻訳日:2024-04-23 22:55:04 公開日:2024-04-22 |
# LLMs as writing assistants: Exploring Perspectives on Sense of Ownership and Reasoning
LLMs as Writing Assistants: Exploring Perspectives on Sense of Ownership and Reasoning ( http://arxiv.org/abs/2404.00027v3 ) ライセンス: Link先を確認 | Azmine Toushik Wasi, Mst Rafia Islam, Raima Islam, | (参考訳) 執筆におけるオーナシップの感覚は、思考、時間、貢献の投資を制限し、アウトプットへのアタッチメントにつながります。
しかし、文章アシスタントを使うことは、いくつかのコンテンツが直接の創造ではないため、精神的なジレンマをもたらす。
例えば、すべてのタスクが同等であっても、創造的なタスクでは、LLM(Large Language Models)を信用する傾向があります。
加えて、私たちはLLM生成コンテンツの完全な所有権を主張しないかもしれないが、著者権は自由に主張する。
筆者らは,これらの問題を調査し,その基礎となる認知過程を理解して,筆記支援システムにおける人間とコンピュータの相互作用のより深い知識を得るための簡単な調査を行っている。
Sense of ownership in writing confines our investment of thoughts, time, and contribution, leading to attachment to the output. However, using writing assistants introduces a mental dilemma, as some content isn't directly our creation. For instance, we tend to credit Large Language Models (LLMs) more in creative tasks, even though all tasks are equal for them. Additionally, while we may not claim complete ownership of LLM-generated content, we freely claim authorship. We conduct a short survey to examine these issues and understand underlying cognitive processes in order to gain a better knowledge of human-computer interaction in writing and improve writing aid systems. | 翻訳日:2024-04-23 22:55:04 公開日:2024-04-22 |
# YOLOOC:新しいクラス発見によるオープンクラスインクリメンタルオブジェクト検出
YOLOOC: YOLO-based Open-Class Incremental Object Detection with Novel Class Discovery ( http://arxiv.org/abs/2404.00257v2 ) ライセンス: Link先を確認 | Qian Wan, Xiang Xiang, Qinhao Zhou, | (参考訳) 実際に使われているため、最近、オープンワールドオブジェクト検出(OWOD)が注目されている。
課題は、モデルが新しいクラスをどうやって検出し、以前に知られていたクラスを忘れずに段階的に学習するかである。
従来のアプローチでは、新しいクラス検出のための強力な教師付きまたは弱い教師付き新しいクラスデータにヒンジするが、実際のアプリケーションには適用されない可能性がある。
推論段階でのみ新しいクラスが遭遇する新しいベンチマークを構築した。
また, YOLOアーキテクチャをベースとした新しいOWOD検出器 YOLOOC を提案する。
ラベルスムーシングを導入し,新しいクラスを既知のクラスに過剰にマッピングするのを防ぐとともに,新しいクラスを発見できるようにする。
より現実的な設定で行った大規模な実験は、我々の新しいベンチマークで新しいクラスを見つけるための方法の有効性を実証する。
Because of its use in practice, open-world object detection (OWOD) has gotten a lot of attention recently. The challenge is how can a model detect novel classes and then incrementally learn them without forgetting previously known classes. Previous approaches hinge on strongly-supervised or weakly-supervised novel-class data for novel-class detection, which may not apply to real applications. We construct a new benchmark that novel classes are only encountered at the inference stage. And we propose a new OWOD detector YOLOOC, based on the YOLO architecture yet for the Open-Class setup. We introduce label smoothing to prevent the detector from over-confidently mapping novel classes to known classes and to discover novel classes. Extensive experiments conducted on our more realistic setup demonstrate the effectiveness of our method for discovering novel classes in our new benchmark. | 翻訳日:2024-04-23 22:55:04 公開日:2024-04-22 |
# AIと知識崩壊の問題
AI and the Problem of Knowledge Collapse ( http://arxiv.org/abs/2404.03502v2 ) ライセンス: Link先を確認 | Andrew J. Peterson, | (参考訳) 人工知能は膨大な量のデータを処理し、新たな洞察を生み出し、生産性を高める可能性があるが、その普及は予期せぬ結果を招く可能性がある。
特定の知識モードへのアクセスコストを削減することにより、AIが公衆の理解をパラドックス的に損なう可能性のある条件を特定する。
大規模言語モデルは大量の多様なデータに基づいて訓練されているが、分布の「中心」に向けて自然に出力を生成する。
これは一般的に有用だが、再帰的なAIシステムへの広範な依存は、私たちが"知識の崩壊"と定義するプロセスにつながる可能性がある。
しかし、トレーニング対象のデータを選択できないAIモデルとは異なり、人間は価値あると認識すれば、さまざまな種類の知識を戦略的に探すことができる。
これを調べるために、学習者やイノベーターのコミュニティが従来の手法を使うか、割引されたAI支援プロセスに頼るかを選択し、知識崩壊が起こる条件を特定するための簡単なモデルを提供する。
我々のデフォルトモデルでは、AI生成コンテンツに対する20%の割引は、ディスカウントがない場合よりも真実から2.3倍の信条を生成する。
LLM出力の分布を測定するための実証的なアプローチが理論的に提供され、異なるモデルにまたがる出力の多様性とプロンプトスタイルを比較した特定の例を通して説明される。
最後に,これらの結果に対処するためのさらなる研究の方向性を検討する。
While artificial intelligence has the potential to process vast amounts of data, generate new insights, and unlock greater productivity, its widespread adoption may entail unforeseen consequences. We identify conditions under which AI, by reducing the cost of access to certain modes of knowledge, can paradoxically harm public understanding. While large language models are trained on vast amounts of diverse data, they naturally generate output towards the 'center' of the distribution. This is generally useful, but widespread reliance on recursive AI systems could lead to a process we define as "knowledge collapse", and argue this could harm innovation and the richness of human understanding and culture. However, unlike AI models that cannot choose what data they are trained on, humans may strategically seek out diverse forms of knowledge if they perceive them to be worthwhile. To investigate this, we provide a simple model in which a community of learners or innovators choose to use traditional methods or to rely on a discounted AI-assisted process and identify conditions under which knowledge collapse occurs. In our default model, a 20% discount on AI-generated content generates public beliefs 2.3 times further from the truth than when there is no discount. An empirical approach to measuring the distribution of LLM outputs is provided in theoretical terms and illustrated through a specific example comparing the diversity of outputs across different models and prompting styles. Finally, based on the results, we consider further research directions to counteract such outcomes. | 翻訳日:2024-04-23 22:45:14 公開日:2024-04-22 |
# テンソルネットワークからの開放量子東ガラスモデルにおける動的不均一性と大きな偏差
Dynamical heterogeneity and large deviations in the open quantum East glass model from tensor networks ( http://arxiv.org/abs/2404.03750v2 ) ライセンス: Link先を確認 | Luke Causer, Mari Carmen Bañuls, Juan P. Garrahan, | (参考訳) 数値テンソルネットワークを用いた散逸量子東モデルの非平衡ダイナミクスについて検討する。
我々は行列積状態を用いて、正確な対角化にアクセスできるものを超える大きさの量子ジャンプなき大きさの進化を表現する。
これにより、古典的なガラス系で見られるものと類似して、動的不均一性が緩やかに緩和することを示すことができる。
さらに、変分行列積演算子を用いて、
(i)リンドブラディアンのスペクトルギャップを計算し、純古典の場合と比較して弱い量子ゆらぎの存在下でガラス性が向上していることを示し、
2)傾斜したリンドブラディアンの主固有ベクトルを計算し、一階の活性-非活性な動的相転移の明確な証拠を求めることにより、動的大偏差を求める。
また、大きな偏差に関連する希少な量子軌道を直接サンプリングする方法を示す。
We study the non-equilibrium dynamics of the dissipative quantum East model via numerical tensor networks. We use matrix product states to represent evolution under quantum-jump unravellings for sizes beyond those accessible to exact diagonalisation. This allows us to demonstrate that dynamical heterogeneity accompanies slow relaxation, in analogy with what is seen in classical glassy systems. Furthermore, using variational matrix product operators we: (i) compute the spectral gap of the Lindbladian, and show that glassiness is enhanced in the presence of weak quantum fluctuations compared to the pure classical case, and (ii) obtain the dynamical large deviations by calculating the leading eigenvector of the tilted Lindbladian, and find clear evidence for a first-order active-inactive dynamical phase transition. We also show how to directly sample the rare quantum trajectories associated to the large deviations. | 翻訳日:2024-04-23 22:45:14 公開日:2024-04-22 |
# ランダム置換集合論におけるランダムウォーク
Random Walk in Random Permutation Set Theory ( http://arxiv.org/abs/2404.03978v2 ) ライセンス: Link先を確認 | Jiefeng Zhou, Zhen Li, Yong Deng, | (参考訳) ランダムウォーク(英: Random walk)は、自然過程を分子レベルでモデル化するための説明可能なアプローチである。
ランダム置換集合論(RPST)は不確実性推論の枠組みとして機能し、デンプスター・シェーファー理論の適用性を拡張している。
最近の調査は、RPSTとランダムウォークとの有望な結びつきを示している。
本研究では,RPSTの特性に基づくランダムウォークモデルを構築し,モンテカルロによるランダムウォークのシミュレーションを行った。
その結果,RPSTによるランダムウォークはガウスのランダムウォークに類似した特性を示し,特定の制限スケーリング手順によってウィナーのプロセスに変換できることがわかった。
本研究は、RPSTとランダムウォーク理論の新たな関連性を確立し、RPSTの適用性を拡大するだけでなく、両アプローチの強みを組み合わせて問題解決能力を向上させる可能性を実証する。
Random walk is an explainable approach for modeling natural processes at the molecular level. The Random Permutation Set Theory (RPST) serves as a framework for uncertainty reasoning, extending the applicability of Dempster-Shafer Theory. Recent explorations indicate a promising link between RPST and random walk. In this study, we conduct an analysis and construct a random walk model based on the properties of RPST, with Monte Carlo simulations of such random walk. Our findings reveal that the random walk generated through RPST exhibits characteristics similar to those of a Gaussian random walk and can be transformed into a Wiener process through a specific limiting scaling procedure. This investigation establishes a novel connection between RPST and random walk theory, thereby not only expanding the applicability of RPST, but also demonstrating the potential for combining the strengths of both approaches to improve problem-solving abilities. | 翻訳日:2024-04-23 22:45:14 公開日:2024-04-22 |
# AIが学習していないもの(そしてなぜ) - ロボットのためのバイオインスパイアされた基礎モデル
What AIs are not Learning (and Why): Bio-Inspired Foundation Models for Robots ( http://arxiv.org/abs/2404.04267v5 ) ライセンス: Link先を確認 | Mark Stefik, | (参考訳) 有用なロボット(テレロボットを含む)を構築することは困難であり、堅牢で汎用的な自律ロボットを構築することは困難である。
現在のロボットは、手動プログラミング、数学的モデル、計画フレームワーク、強化学習を使って構築されている。
これらの手法は、ディープラーニング、生成AI、基礎モデル(FM)で見られるパフォーマンスと一般性の飛躍に繋がらない。
今日のロボットは、ホームケア、看護助手、家事などのサービスを確実に行うことを学ばない。
ロボットサービスアプリケーションの願望に応えるには、そこに到達するためのパスを改善する必要がある。
2足歩行ロボット(ボディ)の高コストは、研究と展開の両方において大きな障害となる。
より深い問題は、主流のFM(「ミンド」)が世界の感知と行動をサポートしないことである。
彼らは実験、コミュニケーション、協力するロボットを導いていない。
他者から学ぶロボットに繋がることはない。
それらは、サービスアプリケーションにデプロイするのに十分な知識を持つロボットにつながらない。
本稿では,サービスロボットが知るべきことに焦点を当てる。
サービスロボットのブートストラップのための経験的FMを開発することを推奨している。
It is hard to build robots (including telerobots) that are useful, and harder to build autonomous robots that are robust and general. Current robots are built using manual programming, mathematical models, planning frameworks, and reinforcement learning. These methods do not lead to the leaps in performance and generality seen with deep learning, generative AI, and foundation models (FMs). Today's robots do not learn to provide home care, to be nursing assistants, or to do household chores and other services reliably. Addressing the aspirational opportunities of robot service applications requires improving the path to get there. The high cost of bipedal multi-sensory robots ("bodies") is a significant obstacle for both research and deployment. A deeper issue is that mainstream FMs ("minds") do not support sensing and acting in the world. They do not lead to robots that experiment, communicate, or collaborate. They do not lead to robots that learn from and with others. They do not lead to robots that know enough to be deployed in service applications. This paper focuses on what service robots need to know. It recommends developing experiential FMs for bootstrapping service robots. | 翻訳日:2024-04-23 22:45:14 公開日:2024-04-22 |
# 文脈に富むインテリジェントアプリケーションのための自動ソフトウェア進化を実現するマルチモーダル・コンセプト・フレームワーク
A Data-to-Product Multimodal Conceptual Framework to Achieve Automated Software Evolution for Context-rich Intelligent Applications ( http://arxiv.org/abs/2404.04821v2 ) ライセンス: Link先を確認 | Songhui Yue, | (参考訳) AIはソフトウェア工学(SE)の分野を大きく変えつつあるが、SEはソフトウェア進化の自動化(ASEv)を促進するためのすべてのフェーズを総合的に検討するフレームワークを必要としている。
その複雑さは、インテリジェントなアプリケーションの複雑さ、データソースの不均一性、コンテキストにおける一定の変化による。
本研究では,ソフトウェアの自動進化を実現するための概念的枠組みを提案し,マルチモーダル学習の重要性を強調した。
Selective Sequential Scope Model (3S) Modelは概念的枠組みに基づいて開発されており、SEフェーズやマルチモーダル学習タスクをカバーする際に、既存の研究と将来の研究を分類することができる。
この研究は、高レベルのASEvの青写真に向けた予備的なステップである。
提案する概念的枠組みは,実践者がこの分野に飛び込むための実践的ガイドラインとして機能する。
この研究はインテリジェントなアプリケーションに関するものだが、フレームワークと分析方法は、AIが彼らのライフサイクルにより多くのインテリジェンスをもたらすため、他のタイプのソフトウェアに適用される可能性がある。
While AI is extensively transforming Software Engineering (SE) fields, SE is still in need of a framework to overall consider all phases to facilitate Automated Software Evolution (ASEv), particularly for intelligent applications that are context-rich, instead of conquering each division independently. Its complexity comes from the intricacy of the intelligent applications, the heterogeneity of the data sources, and the constant changes in the context. This study proposes a conceptual framework for achieving automated software evolution, emphasizing the importance of multimodality learning. A Selective Sequential Scope Model (3S) model is developed based on the conceptual framework, and it can be used to categorize existing and future research when it covers different SE phases and multimodal learning tasks. This research is a preliminary step toward the blueprint of a higher-level ASEv. The proposed conceptual framework can act as a practical guideline for practitioners to prepare themselves for diving into this area. Although the study is about intelligent applications, the framework and analysis methods may be adapted for other types of software as AI brings more intelligence into their life cycles. | 翻訳日:2024-04-23 22:45:14 公開日:2024-04-22 |
# コロンビアの地熱勾配予測 : 機械学習によるアプローチ
Predicting the Geothermal Gradient in Colombia: a Machine Learning Approach ( http://arxiv.org/abs/2404.05184v4 ) ライセンス: Link先を確認 | Juan C. Mejía-Fragoso, Manuel A. Florez, Rocío Bernal-Olaya, | (参考訳) 地熱勾配の正確な決定は、所定の地域の地熱エネルギーポテンシャルを評価するために重要である。
特に興味深いのは、豊富な地熱資源を持つコロンビアである。
活発な石油とガスの探査と生産の歴史は、掘削されたボーアホールを異なる地質環境に残し、地熱勾配を直接測定した。
残念なことに、地熱資源が存在する国ではそのような測定方法が欠如している。
間接的な物理測定は、地域規模で行うのに費用がかかり、困難である。
計算熱モデルを構築することもできるが、基礎となる地質について非常に詳細な知識と地下温度の均一なサンプリングが必要である。
我々は,地球規模の地球物理データセットとコース地質知識しか利用できない地域での地熱勾配を予測するために,教師付き機械学習と直接測定の最近の進歩を活用するアプローチを提案する。
グラディエントブースト回帰木アルゴリズムは最適な予測を行い、トレーニングされたモデルを広範囲に検証する。
我々は,本モデルの予測精度が 12 % 以内であり,他の著者による独立測定値が本モデルとよく一致していることを示す。
最後に,コロンビアの地熱勾配図で,深部探査とデータ収集を行うべき地域に焦点を当てた。
Accurate determination of the geothermal gradient is critical for assessing the geothermal energy potential of a given region. Of particular interest is the case of Colombia, a country with abundant geothermal resources. A history of active oil and gas exploration and production has left drilled boreholes in different geological settings, providing direct measurements of the geothermal gradient. Unfortunately, large regions of the country where geothermal resources might exist lack such measurements. Indirect geophysical measurements are costly and difficult to perform at regional scales. Computational thermal models could be constructed, but they require very detailed knowledge of the underlying geology and uniform sampling of subsurface temperatures to be well-constrained. We present an alternative approach that leverages recent advances in supervised machine learning and available direct measurements to predict the geothermal gradient in regions where only global-scale geophysical datasets and course geological knowledge are available. We find that a Gradient Boosted Regression Tree algorithm yields optimal predictions and extensively validate the trained model. We show that predictions of our model are within 12\% accuracy and that independent measurements performed by other authors agree well with our model. Finnally, we present a geothermal gradient map for Colombia that highlights regions where futher exploration and data collection should be performed. | 翻訳日:2024-04-23 22:45:14 公開日:2024-04-22 |
# ハイブリッドフレームワークを用いた原子力ライセンスイベントレポートからの因果性抽出
Causality Extraction from Nuclear Licensee Event Reports Using a Hybrid Framework ( http://arxiv.org/abs/2404.05656v2 ) ライセンス: Link先を確認 | Shahidur Rahoman Sohag, Sai Zhang, Min Xian, Shoukun Sun, Fei Xu, Zhegang Ma, | (参考訳) 産業規模の原子力プラント運用経験は、信頼性とリスクモデルにおいてパラメータ推定を行う上で重要な生データ源である。
多くの運用経験情報は、障害イベントに関連するもので、物語のような構造化されていないデータを含むレポートとして格納される。
イベントレポートは、多くの因果関係を含む、障害の開始と伝播の方法を理解するために不可欠である。
深層学習を用いた因果関係抽出は、自然言語処理(NLP)分野における重要なフロンティアであり、大量の記述情報に含まれる複雑な物語や接続の解釈を可能にするため重要である。
本稿では,核ライセンスイベントレポートからの因果検出と抽出のためのハイブリッドフレームワークを提案する。
主な貢献は,(1)原因分析のための20,129のテキストサンプルを用いたLERコーパスのコンパイル,(2)原因効果ペアのラベル付けのための対話ツールの開発,(3)因果関係検出のためのディープラーニングに基づくアプローチの構築,(4)知識に基づく原因効果抽出手法の開発である。
Industry-wide nuclear power plant operating experience is a critical source of raw data for performing parameter estimations in reliability and risk models. Much operating experience information pertains to failure events and is stored as reports containing unstructured data, such as narratives. Event reports are essential for understanding how failures are initiated and propagated, including the numerous causal relations involved. Causal relation extraction using deep learning represents a significant frontier in the field of natural language processing (NLP), and is crucial since it enables the interpretation of intricate narratives and connections contained within vast amounts of written information. This paper proposed a hybrid framework for causality detection and extraction from nuclear licensee event reports. The main contributions include: (1) we compiled an LER corpus with 20,129 text samples for causality analysis, (2) developed an interactive tool for labeling cause effect pairs, (3) built a deep-learning-based approach for causal relation detection, and (4) developed a knowledge based cause-effect extraction approach. | 翻訳日:2024-04-23 20:47:39 公開日:2024-04-22 |
# MiniCPM: スケーラブルなトレーニング戦略で小さな言語モデルの可能性を明らかにする
MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies ( http://arxiv.org/abs/2404.06395v2 ) ライセンス: Link先を確認 | Shengding Hu, Yuge Tu, Xu Han, Chaoqun He, Ganqu Cui, Xiang Long, Zhi Zheng, Yewei Fang, Yuxiang Huang, Weilin Zhao, Xinrong Zhang, Zheng Leng Thai, Kaihuo Zhang, Chongyi Wang, Yuan Yao, Chenyang Zhao, Jie Zhou, Jie Cai, Zhongwu Zhai, Ning Ding, Chao Jia, Guoyang Zeng, Dahai Li, Zhiyuan Liu, Maosong Sun, | (参考訳) 最大1兆のパラメータを持つLarge Language Models (LLMs) の開発への関心は、特に実験の膨大なコストを考慮すると、資源効率と実践的費用に関する懸念に直面している。
このシナリオは、リソース効率の代替手段としてのSLM(Small Language Models)の可能性を探ることの重要性を浮き彫りにしている。
この文脈では、MiniCPM、特に1.2Bと2.4Bの非埋め込みパラメータの変種を導入し、それぞれのカテゴリに優れるだけでなく、7B-13B LLMと同等の機能を示す。
SLMに着目しながら,本手法は将来のLSM研究におけるモデル次元およびデータ次元のスケーラビリティを示す。
モデルスケーリングについては、安定かつ最適なスケーリングのために、広範囲なモデル風洞実験を採用する。
データスケーリングには、継続的トレーニングとドメイン適応に寄与するWarmup-Stable-Decay(WSD)学習率スケジューラ(LRS)を導入する。
本稿では,WSD LRSで発生した興味深いトレーニングダイナミクスを詳細に分析する。
WSD LRSにより、モデル軸とデータ軸の広範な再トレーニング実験をすることなく、データモデルのスケーリング法則を効率的に研究することが可能となり、そこから、Chinchilla Optimalよりもはるかに高い計算最適データモデル比が導出されます。
さらに、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kを含むMiniCPMファミリーを導入し、多様なSLMアプリケーションにおけるMiniCPMの基盤をさらに強化した。
MiniCPMモデルはhttps://github.com/OpenBMB/MiniCPMで公開されている。
The burgeoning interest in developing Large Language Models (LLMs) with up to trillion parameters has been met with concerns regarding resource efficiency and practical expense, particularly given the immense cost of experimentation. This scenario underscores the importance of exploring the potential of Small Language Models (SLMs) as a resource-efficient alternative. In this context, we introduce MiniCPM, specifically the 1.2B and 2.4B non-embedding parameter variants, not only excel in their respective categories but also demonstrate capabilities on par with 7B-13B LLMs. While focusing on SLMs, our approach exhibits scalability in both model and data dimensions for future LLM research. Regarding model scaling, we employ extensive model wind tunnel experiments for stable and optimal scaling. For data scaling, we introduce a Warmup-Stable-Decay (WSD) learning rate scheduler (LRS), conducive to continuous training and domain adaptation. We present an in-depth analysis of the intriguing training dynamics that occurred in the WSD LRS. With WSD LRS, we are now able to efficiently study data-model scaling law without extensive retraining experiments on both axes of model and data, from which we derive the much higher compute optimal data-model ratio than Chinchilla Optimal. Additionally, we introduce MiniCPM family, including MiniCPM-DPO, MiniCPM-MoE and MiniCPM-128K, whose excellent performance further cementing MiniCPM's foundation in diverse SLM applications. MiniCPM models are available publicly at https://github.com/OpenBMB/MiniCPM . | 翻訳日:2024-04-23 20:47:39 公開日:2024-04-22 |
# 自己動機学習による言語モデル推論の改善
Improving Language Model Reasoning with Self-motivated Learning ( http://arxiv.org/abs/2404.07017v2 ) ライセンス: Link先を確認 | Yunlong Feng, Yang Xu, Libo Qin, Yasheng Wang, Wanxiang Che, | (参考訳) モデルの性能向上には,大規模で高品質なトレーニングデータが必要である。
合理的なデータ(推論ステップ)でトレーニングした後、モデルは推論能力を得る。
しかし、高いアノテーションコストのため、高品質な合理性を持つデータセットは比較的少ない。
この問題に対処するため,我々はtextit{Self-motivated Learning} フレームワークを提案する。
このフレームワークはモデル自体を動機付け、既存のデータセットで合理性を自動的に生成する。
複数の有理数にまたがる正しさから固有のランクに基づいて、モデルはより良い有理数を生成することを学び、より高い推論能力をもたらす。
具体的には,有理数の品質を評価するためにランク付き報酬モデルを訓練し,強化学習による推論性能の向上を図る。
複数の推論データセットに対するLlama2 7Bの実験結果から,本手法はモデルの推論能力を大幅に向上することが示された。
Large-scale high-quality training data is important for improving the performance of models. After trained with data that has rationales (reasoning steps), models gain reasoning capability. However, the dataset with high-quality rationales is relatively scarce due to the high annotation cost. To address this issue, we propose \textit{Self-motivated Learning} framework. The framework motivates the model itself to automatically generate rationales on existing datasets. Based on the inherent rank from correctness across multiple rationales, the model learns to generate better rationales, leading to higher reasoning capability. Specifically, we train a reward model with the rank to evaluate the quality of rationales, and improve the performance of reasoning through reinforcement learning. Experiment results of Llama2 7B on multiple reasoning datasets show that our method significantly improves the reasoning ability of models, even outperforming text-davinci-002 in some datasets. | 翻訳日:2024-04-23 20:47:39 公開日:2024-04-22 |
# BAMBOO:液体電解質開発のための予測および伝達可能な機械学習力場フレームワーク
BAMBOO: a predictive and transferable machine learning force field framework for liquid electrolyte development ( http://arxiv.org/abs/2404.07181v4 ) ライセンス: Link先を確認 | Sheng Gong, Yumin Zhang, Zhenliang Mu, Zhichen Pu, Hongyi Wang, Zhiao Yu, Mengyi Chen, Tianze Zheng, Zhi Wang, Lifei Chen, Xiaojie Wu, Shaochen Shi, Weihao Gao, Wen Yan, Liang Xiang, | (参考訳) 機械学習力場(MLFF)が固体や小分子に広く応用されているにもかかわらず、複雑な液体電解質にMLFFを適用する際には顕著なギャップがある。
本研究では,分子動力学(MD)シミュレーションのための新しいフレームワークであるBAMBOO(ByteDance AI Molecular Simulation Booster)を紹介する。
我々は、量子力学シミュレーションから学ぶため、BAMBOOのバックボーンとして、物理に着想を得たグラフ同変変変圧器アーキテクチャを設計する。
さらに,本手法をMLFFに適用し,MDシミュレーションの安定性向上を図る。
最後に,BAMBOOを実験値と整合させる密度アライメントアルゴリズムを提案する。
BAMBOOは、密度、粘性、および様々な溶媒と塩の組み合わせにおけるイオン伝導率などの主要な電解質特性を予測するための最先端の精度を示す。
現在のモデルでは15種以上の化学種で訓練し, 各種組成における平均密度誤差0.01g/cm$^3$を実験データと比較した。
さらに,本モデルでは,量子力学的データセットに含まれない分子への転移性を示す。
この研究は、一般的な有機液体の性質をシミュレートできる「ユニバーサルMLFF」への道を開くことを目的としている。
Despite the widespread applications of machine learning force field (MLFF) on solids and small molecules, there is a notable gap in applying MLFF to complex liquid electrolytes. In this work, we introduce BAMBOO (ByteDance AI Molecular Simulation Booster), a novel framework for molecular dynamics (MD) simulations, with a demonstration of its capabilities in the context of liquid electrolytes for lithium batteries. We design a physics-inspired graph equivariant transformer architecture as the backbone of BAMBOO to learn from quantum mechanical simulations. Additionally, we pioneer an ensemble knowledge distillation approach and apply it on MLFFs to improve the stability of MD simulations. Finally, we propose the density alignment algorithm to align BAMBOO with experimental measurements. BAMBOO demonstrates state-of-the-art accuracy in predicting key electrolyte properties such as density, viscosity, and ionic conductivity across various solvents and salt combinations. Our current model, trained on more than 15 chemical species, achieves the average density error of 0.01 g/cm$^3$ on various compositions compared with experimental data. Moreover, our model demonstrates transferability to molecules not included in the quantum mechanical dataset. We envision this work as paving the way to a "universal MLFF" capable of simulating properties of common organic liquids. | 翻訳日:2024-04-23 20:47:39 公開日:2024-04-22 |
# 拡散に基づく視覚知覚のための暗黙的・明示的言語指導
Implicit and Explicit Language Guidance for Diffusion-based Visual Perception ( http://arxiv.org/abs/2404.07600v2 ) ライセンス: Link先を確認 | Hefeng Wang, Jiale Cao, Jin Xie, Aiping Yang, Yanwei Pang, | (参考訳) テキストと画像の拡散モデルは条件付き画像合成に強力な能力を示している。
大規模視覚言語による事前学習により、拡散モデルは、異なるテキストプロンプトの下で、リッチなテクスチャと合理的な構造を持つ高品質な画像を生成することができる。
しかし、事前学習した拡散モデルを視覚知覚に適用することは、オープンな問題である。
本稿では,拡散に基づく知覚のための暗黙的かつ明示的な言語指導フレームワークIEDPを提案する。
当社のIEDPは暗黙の言語ガイダンスブランチと明示的な言語ガイダンスブランチで構成されています。
暗黙のブランチは凍結したCLIPイメージエンコーダを使用して、明示的なテキストプロンプトを使わずに拡散モデルに供給される暗黙のテキスト埋め込みを直接生成する。
明示分岐は、拡散モデルの条件特徴抽出にテキストプロンプトとして、対応する画像の接地木ラベルを利用する。
トレーニング中、これらの2つのブランチのモデル重みを共有することで、拡散モデルを共同で訓練する。
その結果、暗黙の枝と明示的な枝は、特徴学習を共同でガイドすることができる。
推測では,最終予測には暗黙の分岐のみを用いる。
セマンティックセグメンテーションと深さ推定を含む2つの典型的な知覚タスクで実験を行う。
当社のIEDPは両タスクで有望なパフォーマンスを実現しています。
セマンティックセグメンテーションのために、我々のIEDPは、AD20K検証セットのmIoU$^\text{ss}$スコア55.9%を持ち、ベースラインメソッドVPDを2.2%上回る。
深度推定では, ベースライン法VPDの相対利得が11.0%であった。
Text-to-image diffusion models have shown powerful ability on conditional image synthesis. With large-scale vision-language pre-training, diffusion models are able to generate high-quality images with rich texture and reasonable structure under different text prompts. However, it is an open problem to adapt the pre-trained diffusion model for visual perception. In this paper, we propose an implicit and explicit language guidance framework for diffusion-based perception, named IEDP. Our IEDP comprises an implicit language guidance branch and an explicit language guidance branch. The implicit branch employs frozen CLIP image encoder to directly generate implicit text embeddings that are fed to diffusion model, without using explicit text prompts. The explicit branch utilizes the ground-truth labels of corresponding images as text prompts to condition feature extraction of diffusion model. During training, we jointly train diffusion model by sharing the model weights of these two branches. As a result, implicit and explicit branches can jointly guide feature learning. During inference, we only employ implicit branch for final prediction, which does not require any ground-truth labels. Experiments are performed on two typical perception tasks, including semantic segmentation and depth estimation. Our IEDP achieves promising performance on both tasks. For semantic segmentation, our IEDP has the mIoU$^\text{ss}$ score of 55.9% on AD20K validation set, which outperforms the baseline method VPD by 2.2%. For depth estimation, our IEDP outperforms the baseline method VPD with a relative gain of 11.0%. | 翻訳日:2024-04-23 20:47:39 公開日:2024-04-22 |
# NeuroNCAP: 自動運転のための光リアルクローズドループ安全試験
NeuroNCAP: Photorealistic Closed-loop Safety Testing for Autonomous Driving ( http://arxiv.org/abs/2404.07762v3 ) ライセンス: Link先を確認 | William Ljungbergh, Adam Tonderski, Joakim Johnander, Holger Caesar, Kalle Åström, Michael Felsberg, Christoffer Petersson, | (参考訳) 我々は,センサリアルなクローズループ評価と安全クリティカルシナリオの作成に焦点をあてた,自律走行(AD)ソフトウェアシステムをテストする汎用的なNeRFベースのシミュレータを提案する。
シミュレータは実世界の駆動センサーデータのシーケンスから学習し、新しい、目に見えないシナリオの再構成とレンダリングを可能にする。
本研究では,欧州新車評価プログラム(Euro NCAP)に触発された安全クリティカルシナリオに対するADモデルの応答をシミュレータを用いて検証する。
我々の評価では、最先端のエンド・ツー・エンドのプランナーは、オープンループ設定で名目上の運転シナリオに優れているが、クローズドループ設定で安全クリティカルなシナリオをナビゲートする際には、重大な欠陥が現れる。
これは、エンド・ツー・エンド・プランナーの安全性と現実のユーザビリティの向上の必要性を強調している。
シミュレータとシナリオを簡単に実行可能な評価スイートとして公開することにより、研究コミュニティにADモデルを制御されながら、高度に構成可能で、困難なセンサー現実的な環境を探索し、洗練し、検証するよう呼びかけます。
コードと命令はhttps://github.com/atonderski/neuro-ncapで確認できる。
We present a versatile NeRF-based simulator for testing autonomous driving (AD) software systems, designed with a focus on sensor-realistic closed-loop evaluation and the creation of safety-critical scenarios. The simulator learns from sequences of real-world driving sensor data and enables reconfigurations and renderings of new, unseen scenarios. In this work, we use our simulator to test the responses of AD models to safety-critical scenarios inspired by the European New Car Assessment Programme (Euro NCAP). Our evaluation reveals that, while state-of-the-art end-to-end planners excel in nominal driving scenarios in an open-loop setting, they exhibit critical flaws when navigating our safety-critical scenarios in a closed-loop setting. This highlights the need for advancements in the safety and real-world usability of end-to-end planners. By publicly releasing our simulator and scenarios as an easy-to-run evaluation suite, we invite the research community to explore, refine, and validate their AD models in controlled, yet highly configurable and challenging sensor-realistic environments. Code and instructions can be found at https://github.com/atonderski/neuro-ncap | 翻訳日:2024-04-23 20:47:39 公開日:2024-04-22 |
# 暗黒でテキストを見る:アルゴリズムとベンチマーク
Seeing Text in the Dark: Algorithm and Benchmark ( http://arxiv.org/abs/2404.08965v2 ) ライセンス: Link先を確認 | Chengpei Xu, Hao Fu, Long Ma, Wenjing Jia, Chengqi Zhang, Feng Xia, Xiaoyu Ai, Binghao Li, Wenjie Zhang, | (参考訳) 低照度環境におけるテキストのローカライズは、視覚的劣化のため難しい。
簡単な解法は低照度画像強調(LLE)を最初のステップとして検出する2段階のパイプラインを含むが、LLEは主に機械ではなく人間の視覚用に設計されており、エラーを蓄積することができる。
そこで本研究では,LLEの必要性を回避するために,暗黒テキストのローカライズのための効率的かつ効果的な単一ステージアプローチを提案する。
テキスト検出器の訓練段階において,制約付き学習モジュールを補助機構として導入する。
このモジュールは、特徴マップリサイズ中のテキスト空間的特徴を保存するためのテキスト検出器のガイドとして設計されており、低照度の視覚的劣化下でのテキスト中の空間情報の損失を最小限に抑える。
具体的には、本モジュール内に空間的再構成と空間的意味制約を組み込んで、テキスト検出器が本質的な位置的・文脈的範囲の知識を取得することを保証する。
提案手法は,テキストの局所的トポロジ的特徴を動的ヘビ特徴ピラミッドネットワークを用いて同定し,新しい長方形累積法によるボトムアップ輪郭形成戦略を採用して,テキストの特徴を正確に記述する手法である。
さらに,様々な場面や言語を含む任意の字形テキストを対象とした包括的低照度データセットを提案する。
特に,本手法は,この低照度データセットの最先端結果を達成し,標準の標準照度データセットに匹敵する性能を示す。
コードとデータセットがリリースされる。
Localizing text in low-light environments is challenging due to visual degradations. Although a straightforward solution involves a two-stage pipeline with low-light image enhancement (LLE) as the initial step followed by detector, LLE is primarily designed for human vision instead of machine and can accumulate errors. In this work, we propose an efficient and effective single-stage approach for localizing text in dark that circumvents the need for LLE. We introduce a constrained learning module as an auxiliary mechanism during the training stage of the text detector. This module is designed to guide the text detector in preserving textual spatial features amidst feature map resizing, thus minimizing the loss of spatial information in texts under low-light visual degradations. Specifically, we incorporate spatial reconstruction and spatial semantic constraints within this module to ensure the text detector acquires essential positional and contextual range knowledge. Our approach enhances the original text detector's ability to identify text's local topological features using a dynamic snake feature pyramid network and adopts a bottom-up contour shaping strategy with a novel rectangular accumulation technique for accurate delineation of streamlined text features. In addition, we present a comprehensive low-light dataset for arbitrary-shaped text, encompassing diverse scenes and languages. Notably, our method achieves state-of-the-art results on this low-light dataset and exhibits comparable performance on standard normal light datasets. The code and dataset will be released. | 翻訳日:2024-04-23 20:47:39 公開日:2024-04-22 |
# 骨格運動自動評価におけるフィードバック生成の探索 : 概観
Exploring Feedback Generation in Automated Skeletal Movement Assessment: A Comprehensive Overview ( http://arxiv.org/abs/2404.09359v2 ) ライセンス: Link先を確認 | Tal Hakim, | (参考訳) 近年,スケルトンビデオからの運動評価への機械学習の応用が注目されている。
この進歩により、在宅でのリハビリテーションがより容易になり、2Dや3Dビデオから手頃な価格でポーズ検出や分析を行うための移動評価アルゴリズムが利用できるようになった。
自動評価タスクの主目的は運動を評価することであるが、重要な運動課題を強調したフィードバックの自動生成は、リハビリテーションプロセスを大幅に強化し、加速する可能性がある。
自動動作評価の分野では数多くの研究が存在しているが、アドレスフィードバック生成はごくわずかである。
本研究では, 生成可能なフィードバックの種類を説明し, 自動フィードバック生成のための既存のソリューションをレビューし, 今後の研究方向性について議論する。
我々の知る限り、骨格運動評価におけるフィードバック生成の総合的なレビューはこれが初めてである。
The application of machine-learning solutions to movement assessment from skeleton videos has attracted significant research attention in recent years. This advancement has made rehabilitation at home more accessible, utilizing movement assessment algorithms that can operate on affordable equipment for human pose detection and analysis from 2D or 3D videos. While the primary objective of automatic assessment tasks is to score movements, the automatic generation of feedback highlighting key movement issues has the potential to significantly enhance and accelerate the rehabilitation process. While numerous research works exist in the field of automatic movement assessment, only a handful address feedback generation. In this study, we explain the types of feedback that can be generated, review existing solutions for automatic feedback generation, and discuss future research directions. To our knowledge, this is the first comprehensive review of feedback generation in skeletal movement assessment. | 翻訳日:2024-04-23 20:47:39 公開日:2024-04-22 |
# 非階層型変圧器を用いたピアノ自動書き起こしのためのスコーリング間隔
Scoring Intervals using Non-Hierarchical Transformer For Automatic Piano Transcription ( http://arxiv.org/abs/2404.09466v3 ) ライセンス: Link先を確認 | Yujia Yan, Zhiyao Duan, | (参考訳) 半マルコフ条件ランダムフィールド(semi-CRF)フレームワークは、イベントベースのピアノの書き起こしを約束している。
このフレームワークでは、すべてのイベント(ノートまたはペダル)は特定のイベントタイプに結びついた閉じたインターバルとして表現される。
神経半CRFアプローチでは、各候補区間のスコアを割り当てるインターバルスコア行列が必要となる。
しかし、間隔を測るための効率的で表現力豊かなアーキテクチャを設計するのは簡単ではない。
本稿では,変圧器における注目スコアの仕方に類似したスケール内積演算を用いた簡易なスコアリング手法を提案する。
理論的には、重複しない区間を符号化する特別な構造のため、内部積演算は、正しい転写結果が得られる理想的なスコアリング行列を表現するのに十分である。
次に,低分解能特徴写像のみで動作するエンコーダのみの非階層トランスフォーマーバックボーンが,高精度かつ高精度にピアノ音符やペダルを転写可能であることを示す。
実験により,提案手法は,Maestroデータセット上のF1測度を用いて,すべてのサブタスクにまたがる新しい最先端性能を実現することを示す。
The neural semi-Markov Conditional Random Field (semi-CRF) framework has demonstrated promise for event-based piano transcription. In this framework, all events (notes or pedals) are represented as closed intervals tied to specific event types. The neural semi-CRF approach requires an interval scoring matrix that assigns a score for every candidate interval. However, designing an efficient and expressive architecture for scoring intervals is not trivial. In this paper, we introduce a simple method for scoring intervals using scaled inner product operations that resemble how attention scoring is done in transformers. We show theoretically that, due to the special structure from encoding the non-overlapping intervals, under a mild condition, the inner product operations are expressive enough to represent an ideal scoring matrix that can yield the correct transcription result. We then demonstrate that an encoder-only non-hierarchical transformer backbone, operating only on a low-time-resolution feature map, is capable of transcribing piano notes and pedals with high accuracy and time precision. The experiment shows that our approach achieves the new state-of-the-art performance across all subtasks in terms of the F1 measure on the Maestro dataset. | 翻訳日:2024-04-23 20:37:54 公開日:2024-04-22 |
# 量子コンピュータ, 量子コンピューティング, 量子熱力学
Quantum Computers, Quantum Computing and Quantum Thermodynamics ( http://arxiv.org/abs/2404.09663v2 ) ライセンス: Link先を確認 | Fabrizio Cleri, | (参考訳) 量子熱力学は、標準的な熱力学と非平衡統計物理学を、熱力学の限界よりはるかに低い大きさの系に拡張することを目的としている。
物理学の基礎の理解を変えつつ、ナノスケールで新しい熱力学技術や応用の発見を可能にする、急速に発展する研究分野である。
熱管理は、従来のデジタルコンピュータの限界を押し上げる上で大きな障害となり、量子コンピュータにとっても重要な問題となる可能性がある。
超伝導ループを持つ量子コンピュータの現実的な実現には、熱ノイズを除去するために極低温での作業が必要であり、イオントラップ量子ビットは衝突ノイズを最小化するために、低温だけでなく低温も必要である。
したがって、仕事と熱の量子再定義、量子状態の熱化とランダム化、量子および熱ゆらぎの重複など、多くの熱力学的疑問が中心となる。
この概要は、量子熱力学における現在のトレンドの選択とその量子コンピュータと量子コンピューティングへの影響に関する入門的な視点を提供し、異なる分野の大学院生や研究者にも言語がアクセス可能である。
Quantum thermodynamics aims at extending standard thermodynamics and non-equilibrium statistical physics to systems with sizes well below the thermodynamic limit. A rapidly evolving research field, which promises to change our understanding of the foundations of physics, while enabling the discovery of novel thermodynamic techniques and applications at the nanoscale. Thermal management has turned into a major obstacle in pushing the limits of conventional digital computers, and could likely represent a crucial issue also for quantum computers. The practical realization of quantum computers with superconducting loops requires working at cryogenic temperatures to eliminate thermal noise; ion-trap qubits need as well low temperatures to minimize collisional noise; in both cases, the sub-nanometric sizes also bring about thermal broadening of the quantum states; and even room-temperature photonic computers require cryogenic detectors. A number of thermal and thermodynamic questions therefore take center stage, such as quantum redefinitions of work and heat, thermalization and randomization of quantum states, the overlap of quantum and thermal fluctuations, and many other, even including a proper definition of temperature for the small open systems constantly out of equilibrium that are the qubits. This overview provides an introductory perspective on a selection of current trends in quantum thermodynamics and their impact on quantum computers and quantum computing, with a language accessible also to postgraduate students and researchers from different fields. | 翻訳日:2024-04-23 20:37:54 公開日:2024-04-22 |
# ニューラルネットワークの補間によるエンジニアリングソフトウェア2.0:トレーニング、問題解決、校正の統合
Engineering software 2.0 by interpolating neural networks: unifying training, solving, and calibration ( http://arxiv.org/abs/2404.10296v2 ) ライセンス: Link先を確認 | Chanwook Park, Sourav Saha, Jiachen Guo, Xiaoyu Xie, Satyajit Mojumder, Miguel A. Bessa, Dong Qian, Wei Chen, Gregory J. Wagner, Jian Cao, Wing Kam Liu, | (参考訳) 人工知能(AI)とニューラルネットワーク理論の進化は、ソフトウェアプログラムの方法に革命をもたらし、ハードコードされた一連のコードから巨大なニューラルネットワークへと移行した。
しかし、このエンジニアリングソフトウェアの移行は、データの不足、データの多要素性、モデルの精度の低下、推論の遅いといった問題に直面している。
本稿では、補間理論とテンソル分解に基づく新しいネットワーク、補間ニューラルネットワーク(INN)を提案する。
コンピュータ科学における一般的な概念であるトレーニングデータを補間する代わりに、INNは座標と値が訓練可能な物理空間の補間点を補間する。
また、補間点がトレーニングデータの範囲外にある場合、補間関数がより大きなサポートドメインを持つ場合、外挿することもできる。
INNは、トレーニング可能なパラメータを桁違いに少なくし、高速なトレーニング、メモリフットプリントを小さくし、フィードフォワードニューラルネットワーク(FFNN)や物理インフォームドニューラルネットワーク(PINN)と比較してモデル精度を高くする。
INNは、空間、時間、パラメータ、初期/境界条件のさまざまな領域にまたがる統一ニューラルネットワークであるEngineering Software 2.0の先駆けとなる。
これは以前、指数関数的にトレーニング可能なパラメータの数が増加し、1兆を超えるChatGPTのパラメータサイズを超えたため、計算的に禁じられていた。
INNは、テンソル分解とテンソル積を適応可能なネットワークアーキテクチャで活用することで、この問題に対処する。
The evolution of artificial intelligence (AI) and neural network theories has revolutionized the way software is programmed, shifting from a hard-coded series of codes to a vast neural network. However, this transition in engineering software has faced challenges such as data scarcity, multi-modality of data, low model accuracy, and slow inference. Here, we propose a new network based on interpolation theories and tensor decomposition, the interpolating neural network (INN). Instead of interpolating training data, a common notion in computer science, INN interpolates interpolation points in the physical space whose coordinates and values are trainable. It can also extrapolate if the interpolation points reside outside of the range of training data and the interpolation functions have a larger support domain. INN features orders of magnitude fewer trainable parameters, faster training, a smaller memory footprint, and higher model accuracy compared to feed-forward neural networks (FFNN) or physics-informed neural networks (PINN). INN is poised to usher in Engineering Software 2.0, a unified neural network that spans various domains of space, time, parameters, and initial/boundary conditions. This has previously been computationally prohibitive due to the exponentially growing number of trainable parameters, easily exceeding the parameter size of ChatGPT, which is over 1 trillion. INN addresses this challenge by leveraging tensor decomposition and tensor product, with adaptable network architecture. | 翻訳日:2024-04-23 20:37:54 公開日:2024-04-22 |
# 無線ネットワーク上でのフェデレーション学習のための適応的不均一クライアントサンプリング
Adaptive Heterogeneous Client Sampling for Federated Learning over Wireless Networks ( http://arxiv.org/abs/2404.13804v1 ) ライセンス: Link先を確認 | Bing Luo, Wenli Xiao, Shiqiang Wang, Jianwei Huang, Leandros Tassiulas, | (参考訳) フェデレートラーニング(FL)アルゴリズムは、通常、参加者数が大きく、サーバの通信帯域幅が限られている場合、各ラウンド(部分的な参加)に少数のクライアントをサンプリングする。
FLの収束解析に関する最近の研究は、不偏なクライアントサンプリング(例えば、ランダムにサンプリングする)に焦点を当てている。
本稿では,無線ネットワーク上でのFLの適応的クライアントサンプリングアルゴリズムを設計し,壁面収束時間を最小限に抑えることを目的とする。
任意のクライアントサンプリング確率を持つFLアルゴリズムに対して,新たなトラクタブル収束バウンダリを得る。
この境界に基づいて,適応帯域割り当て方式を用いて,全学習時間とサンプリング確率の関係を解析的に確立し,非凸最適化問題を導出する。
収束境界における未知パラメータを学習するための効率的なアルゴリズムを設計し,非凸問題の解法として低複雑性アルゴリズムを開発した。
提案手法は,システムおよび統計的不均一性パラメータが最適なクライアントサンプリング設計に与える影響を明らかにする。
さらに,本手法は,サンプリングクライアント数が増加するにつれて,まず総収束時間が減少し,さらに,サンプリング数が大きくなると収束ラウンド数が減少するが,無線帯域幅が限られているため,ラウンド当たりの待ち時間が長くなることを示す。
ハードウェアプロトタイプとシミュレーションの両方による実験結果から,本提案手法は,複数のベースラインサンプリング方式と比較して,コンバージェンス時間を著しく短縮することを示した。
Federated learning (FL) algorithms usually sample a fraction of clients in each round (partial participation) when the number of participants is large and the server's communication bandwidth is limited. Recent works on the convergence analysis of FL have focused on unbiased client sampling, e.g., sampling uniformly at random, which suffers from slow wall-clock time for convergence due to high degrees of system heterogeneity and statistical heterogeneity. This paper aims to design an adaptive client sampling algorithm for FL over wireless networks that tackles both system and statistical heterogeneity to minimize the wall-clock convergence time. We obtain a new tractable convergence bound for FL algorithms with arbitrary client sampling probability. Based on the bound, we analytically establish the relationship between the total learning time and sampling probability with an adaptive bandwidth allocation scheme, which results in a non-convex optimization problem. We design an efficient algorithm for learning the unknown parameters in the convergence bound and develop a low-complexity algorithm to approximately solve the non-convex problem. Our solution reveals the impact of system and statistical heterogeneity parameters on the optimal client sampling design. Moreover, our solution shows that as the number of sampled clients increases, the total convergence time first decreases and then increases because a larger sampling number reduces the number of rounds for convergence but results in a longer expected time per-round due to limited wireless bandwidth. Experimental results from both hardware prototype and simulation demonstrate that our proposed sampling scheme significantly reduces the convergence time compared to several baseline sampling schemes. | 翻訳日:2024-04-23 15:36:05 公開日:2024-04-22 |
# FaceFolds:動的顔の効率的なボリュームレンダリングのためのメッシュ型放射マニフォールド
FaceFolds: Meshed Radiance Manifolds for Efficient Volumetric Rendering of Dynamic Faces ( http://arxiv.org/abs/2404.13807v1 ) ライセンス: Link先を確認 | Safa C. Medin, Gengyan Li, Ruofei Du, Stephan Garbin, Philip Davidson, Gregory W. Wornell, Thabo Beeler, Abhimitra Meka, | (参考訳) ダイナミックフェースキャプチャの3Dレンダリングは難しい問題であり、いくつかの面で$\unicode{x2014}$photorealism、効率性、互換性、設定性の改善が必要である。
本稿では,コンピュータとメモリのフットプリントを最小限に抑えた,アクターの動的顔性能の高品質なボリュームレンダリングを実現する新しい表現を提案する。
これは、コモディティグラフィックスとハードウェアでネイティブに動作し、品質と効率を優雅にトレードオフすることができる。
提案手法は,近年のニューラルレンダリングの進歩,特に離散放射率多様体の学習を利用して,シーンのスパースサンプリングを行い,体積効果をモデル化する。
動的列全体の一組の多様体を学習し, 外観変化を時間的標準テクスチャとして暗黙的にモデル化することで, 効率的なモデリングを実現する。
MLを付加することなく、レガシなグラフィックレンダラーと互換性のある、単一の階層メッシュとビュー非依存のRGBAテクスチャビデオをエクスポートする。
我々は,ゲームエンジンにおけるリアルアクターの動的顔キャプチャーを,従来は見られなかったフレームレートで最先端のニューラルレンダリング技術に匹敵するフォトリアリズムでレンダリングすることで,その手法を実証する。
3D rendering of dynamic face captures is a challenging problem, and it demands improvements on several fronts$\unicode{x2014}$photorealism, efficiency, compatibility, and configurability. We present a novel representation that enables high-quality volumetric rendering of an actor's dynamic facial performances with minimal compute and memory footprint. It runs natively on commodity graphics soft- and hardware, and allows for a graceful trade-off between quality and efficiency. Our method utilizes recent advances in neural rendering, particularly learning discrete radiance manifolds to sparsely sample the scene to model volumetric effects. We achieve efficient modeling by learning a single set of manifolds for the entire dynamic sequence, while implicitly modeling appearance changes as temporal canonical texture. We export a single layered mesh and view-independent RGBA texture video that is compatible with legacy graphics renderers without additional ML integration. We demonstrate our method by rendering dynamic face captures of real actors in a game engine, at comparable photorealism to state-of-the-art neural rendering techniques at previously unseen frame rates. | 翻訳日:2024-04-23 15:36:05 公開日:2024-04-22 |
# コールドスタートコンテンツレコメンデーションのための一般的な項目表現学習
General Item Representation Learning for Cold-start Content Recommendations ( http://arxiv.org/abs/2404.13808v1 ) ライセンス: Link先を確認 | Jooeun Kim, Jinri Kim, Kwangeun Yeo, Eungi Kim, Kyoung-Woon On, Jonghwan Mun, Joonseok Lee, | (参考訳) コールドスタートアイテムレコメンデーションは、リコメンデーションシステムにおける長年の課題である。
一般的な治療法は、コンテンツベースのアプローチであるが、様々な形式の生コンテンツから得られる豊富な情報は、十分に活用されていない。
本稿では,Transformer ベースのアーキテクチャを応用して,様々な特徴のマルチモーダルアライメントを自然に備えた冷間開始推薦のためのドメイン/データに依存しない項目表現学習フレームワークを提案する。
提案モデルでは,分類ラベルから完全にエンドツーエンドの学習が可能であり,収集に費用がかかるだけでなく,推薦目的の表現学習にも最適である。
実世界の映画やニュースレコメンデーションのベンチマークに関する広範な実験から、我々のアプローチは最先端のベースラインよりもきめ細かなユーザ嗜好を保存し、大規模に複数のドメインに適用可能であることを検証した。
Cold-start item recommendation is a long-standing challenge in recommendation systems. A common remedy is to use a content-based approach, but rich information from raw contents in various forms has not been fully utilized. In this paper, we propose a domain/data-agnostic item representation learning framework for cold-start recommendations, naturally equipped with multimodal alignment among various features by adopting a Transformer-based architecture. Our proposed model is end-to-end trainable completely free from classification labels, not just costly to collect but suboptimal for recommendation-purpose representation learning. From extensive experiments on real-world movie and news recommendation benchmarks, we verify that our approach better preserves fine-grained user taste than state-of-the-art baselines, universally applicable to multiple domains at large scale. | 翻訳日:2024-04-23 15:36:05 公開日:2024-04-22 |
# データ拡張によるソーシャルネットワークの予測向上に関する比較研究
A Comparative Study on Enhancing Prediction in Social Network Advertisement through Data Augmentation ( http://arxiv.org/abs/2404.13812v1 ) ライセンス: Link先を確認 | Qikai Yang, Panfeng Li, Xinyu Shen, Zhicheng Ding, Wenjing Zhou, Yi Nian, Xinhe Xu, | (参考訳) ソーシャルネットワーク広告の世界では、予測モデルのパフォーマンスにおいて、データの量と正確さが重要な役割を担っている。
しかし、堅牢な予測アルゴリズムの開発は、しばしば実世界のデータセットに存在する限られたサイズと潜在的なバイアスによって妨げられる。
本研究では,ソーシャルネットワーク広告データの生成的拡張フレームワークを提示し,検討する。
本稿では,データ拡張のための生成モデルとして,GAN(Generative Adversarial Networks),VAE(VAE),Gaussian Mixture Models(GMM)の3つを検討した。
特徴空間の合成拡張を行うことにより,データ拡張により,様々な分類器の性能が定量的に向上したことがわかった。
さらに,各データ拡張手法がもたらす相対的な性能向上を比較し,モデル性能を向上させる適切なテクニックを選択するための洞察を提供する。
本稿では,ソーシャル・ネットワーク・広告分野において,合成データの増大により,小あるいは不均衡なデータセットによる制限が緩和されることを示すことによって文献に寄与する。
同時に、本論文は、異なるデータ拡張手法の実用性に関する比較視点も提供し、モデル性能を向上させるための適切なテクニックを実践者に選択するよう促す。
In the ever-evolving landscape of social network advertising, the volume and accuracy of data play a critical role in the performance of predictive models. However, the development of robust predictive algorithms is often hampered by the limited size and potential bias present in real-world datasets. This study presents and explores a generative augmentation framework of social network advertising data. Our framework explores three generative models for data augmentation - Generative Adversarial Networks (GANs), Variational Autoencoders (VAEs), and Gaussian Mixture Models (GMMs) - to enrich data availability and diversity in the context of social network advertising analytics effectiveness. By performing synthetic extensions of the feature space, we find that through data augmentation, the performance of various classifiers has been quantitatively improved. Furthermore, we compare the relative performance gains brought by each data augmentation technique, providing insights for practitioners to select appropriate techniques to enhance model performance. This paper contributes to the literature by showing that synthetic data augmentation alleviates the limitations imposed by small or imbalanced datasets in the field of social network advertising. At the same time, this article also provides a comparative perspective on the practicality of different data augmentation methods, thereby guiding practitioners to choose appropriate techniques to enhance model performance. | 翻訳日:2024-04-23 15:36:05 公開日:2024-04-22 |
# LLMからNMTへ - Claudeによる低リソース機械翻訳の改善
From LLM to NMT: Advancing Low-Resource Machine Translation with Claude ( http://arxiv.org/abs/2404.13813v1 ) ライセンス: Link先を確認 | Maxim Enis, Mark Hopkins, | (参考訳) 2024年3月にArthropicがリリースした大規模言語モデル(LLM)であるClaude 3 Opusは、他のLLMよりも強力な機械翻訳能力を示している。
FLORES-200上でClaudeによるデータ汚染の証拠を見いだすが、低リソース機械翻訳におけるClaudeの有効性を裏付ける新しいベンチマークを収集する。
Claude は際立った \textit{resource efficiency} -- 翻訳モデルの質が言語ペアのリソースレベルに依存する程度です。
最後に,LLM翻訳の進歩を従来のニューラルマシン翻訳(NMT)モデルに圧縮できることを示す。
クロードを用いて合成データを生成することにより, ヨルバ英語翻訳における知識蒸留が, NLLB-54BやGoogle Translateといった強力なベースラインに出会い, あるいは超越していることを示す。
We show that Claude 3 Opus, a large language model (LLM) released by Anthropic in March 2024, exhibits stronger machine translation competence than other LLMs. Though we find evidence of data contamination with Claude on FLORES-200, we curate new benchmarks that corroborate the effectiveness of Claude for low-resource machine translation into English. We find that Claude has remarkable \textit{resource efficiency} -- the degree to which the quality of the translation model depends on a language pair's resource level. Finally, we show that advancements in LLM translation can be compressed into traditional neural machine translation (NMT) models. Using Claude to generate synthetic data, we demonstrate that knowledge distillation advances the state-of-the-art in Yoruba-English translation, meeting or surpassing strong baselines like NLLB-54B and Google Translate. | 翻訳日:2024-04-23 15:36:05 公開日:2024-04-22 |
# 簡潔な相関に対する群ロバスト性の改善には精密な群推論が必要である
Improving Group Robustness on Spurious Correlation Requires Preciser Group Inference ( http://arxiv.org/abs/2404.13815v1 ) ライセンス: Link先を確認 | Yujin Han, Difan Zou, | (参考訳) 標準経験的リスク最小化(ERM)モデルは、スプリアス特徴と真のラベルの間の学習の急激な相関を優先し、これらの相関が持たないグループでは精度が低下する可能性がある。
この問題を緩和するには、しばしば高価なスプリアス属性(グループ)ラベルを必要とするか、あるいはグループ情報が利用できない場合にグループラベルを推測するために訓練されたEMMモデルに依存する。
しかし, 擬似グループラベルの使用とオラクルグループラベルの使用との間には, 最悪のグループ精度の差が顕著であり, 精度の高いグループ推論によるグループロバスト性の向上が期待できる。
そこで本研究では,グループラベルを正確に推測する新しい手法であるGICを提案する。
GICはスプリアス相関の2つの重要な特性に基づいてスプリアス属性分類器を訓練し、(1)スプリアス属性と真のラベルの高相関と(2)群分布の異なるデータセット間の相関のばらつきについて検討した。
複数のデータセットに関する実証的研究は、グループラベルの推論におけるGICの有効性を示し、GICと様々な下流不変学習手法を組み合わせることにより、最悪のグループ精度が向上し、その強力な柔軟性が示される。
さらに, GICの誤分類を解析することにより, セマンティック一貫性という興味深い現象を同定し, 突発的属性とラベルの関連性をよりよく分離し, 突発的相関を緩和する。
Standard empirical risk minimization (ERM) models may prioritize learning spurious correlations between spurious features and true labels, leading to poor accuracy on groups where these correlations do not hold. Mitigating this issue often requires expensive spurious attribute (group) labels or relies on trained ERM models to infer group labels when group information is unavailable. However, the significant performance gap in worst-group accuracy between using pseudo group labels and using oracle group labels inspires us to consider further improving group robustness through preciser group inference. Therefore, we propose GIC, a novel method that accurately infers group labels, resulting in improved worst-group performance. GIC trains a spurious attribute classifier based on two key properties of spurious correlations: (1) high correlation between spurious attributes and true labels, and (2) variability in this correlation between datasets with different group distributions. Empirical studies on multiple datasets demonstrate the effectiveness of GIC in inferring group labels, and combining GIC with various downstream invariant learning methods improves worst-group accuracy, showcasing its powerful flexibility. Additionally, through analyzing the misclassifications in GIC, we identify an interesting phenomenon called semantic consistency, which may contribute to better decoupling the association between spurious attributes and labels, thereby mitigating spurious correlation. | 翻訳日:2024-04-23 15:36:05 公開日:2024-04-22 |
# 自律走行におけるニューラル・ラジアンス・フィールド:サーベイ
Neural Radiance Field in Autonomous Driving: A Survey ( http://arxiv.org/abs/2404.13816v1 ) ライセンス: Link先を確認 | Lei He, Leheng Li, Wenchao Sun, Zeyu Han, Yichen Liu, Sifa Zheng, Jianqiang Wang, Keqiang Li, | (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、その固有の利点、特に暗黙の表現と新しいビュー合成能力によって、学術と産業の両方から大きな注目を集めている。
ディープラーニングの急速な進歩に伴い、自律運転(AD)分野におけるNeRFの潜在的な応用を探求する様々な手法が出現している。
しかし、現在の文献には明らかな空白がある。
このギャップを埋めるために,本論文では,AD の文脈における NeRF の応用を包括的に調査する。
本調査は,知覚,3次元再構成,同時局所化とマッピング(SLAM),シミュレーションなど,NeRFの自律運転(AD)への応用を分類するために構成されている。
我々は、詳細な分析を掘り下げ、各アプリケーションカテゴリの調査結果をまとめ、この分野の今後の方向性についての洞察と議論を提供することで結論付ける。
この論文が、この分野の研究者の包括的な参考になることを期待している。
私たちの知る限りでは、自動運転分野におけるNeRFの適用に特に焦点を絞った調査としては、これが初めてです。
Neural Radiance Field (NeRF) has garnered significant attention from both academia and industry due to its intrinsic advantages, particularly its implicit representation and novel view synthesis capabilities. With the rapid advancements in deep learning, a multitude of methods have emerged to explore the potential applications of NeRF in the domain of Autonomous Driving (AD). However, a conspicuous void is apparent within the current literature. To bridge this gap, this paper conducts a comprehensive survey of NeRF's applications in the context of AD. Our survey is structured to categorize NeRF's applications in Autonomous Driving (AD), specifically encompassing perception, 3D reconstruction, simultaneous localization and mapping (SLAM), and simulation. We delve into in-depth analysis and summarize the findings for each application category, and conclude by providing insights and discussions on future directions in this field. We hope this paper serves as a comprehensive reference for researchers in this domain. To the best of our knowledge, this is the first survey specifically focused on the applications of NeRF in the Autonomous Driving domain. | 翻訳日:2024-04-23 15:36:05 公開日:2024-04-22 |
# HOIST-Former: 野生におけるハンドヘルドオブジェクトの識別、セグメンテーション、追跡
HOIST-Former: Hand-held Objects Identification, Segmentation, and Tracking in the Wild ( http://arxiv.org/abs/2404.13819v1 ) ライセンス: Link先を確認 | Supreeth Narasimhaswamy, Huy Anh Nguyen, Lihan Huang, Minh Hoai, | (参考訳) 動作のセグメンテーションや性能評価といったアプリケーションにおいて,ハンドヘルドオブジェクトの識別,セグメンテーション,追跡といった課題に対処する。
この作業は、重い閉塞、急速な動き、そして物体が保持され、解放され、そして再び拾い上げられる物体の過渡的な性質のため、特に困難である。
これらの課題に対処するため,HOIST-Formerと呼ばれる新しいトランスフォーマーアーキテクチャを開発した。
HOIST-Formerは,手と物体の空間的・時間的セグメンテーションに適しており,それぞれの特徴を反復的にプールすることで,手動物体の識別,セグメンテーション,追跡のプロセスが手の位置と文脈的外観に依存することを保証している。
さらに,物体との接触領域に焦点をあてた接触損失を伴ってHOIST-Formerを改良する。
さらに,本研究では,有界ボックス,セグメンテーションマスク,ハンドヘルドオブジェクトのID追跡などを備えた4,125本の動画を収録するHOISTという動画データセットも寄贈した。
HOISTデータセットと2つの公開データセットの実験を通じて、手持ちのオブジェクトのセグメンテーションと追跡におけるHOIST-Formerの有効性を実証する。
We address the challenging task of identifying, segmenting, and tracking hand-held objects, which is crucial for applications such as human action segmentation and performance evaluation. This task is particularly challenging due to heavy occlusion, rapid motion, and the transitory nature of objects being hand-held, where an object may be held, released, and subsequently picked up again. To tackle these challenges, we have developed a novel transformer-based architecture called HOIST-Former. HOIST-Former is adept at spatially and temporally segmenting hands and objects by iteratively pooling features from each other, ensuring that the processes of identification, segmentation, and tracking of hand-held objects depend on the hands' positions and their contextual appearance. We further refine HOIST-Former with a contact loss that focuses on areas where hands are in contact with objects. Moreover, we also contribute an in-the-wild video dataset called HOIST, which comprises 4,125 videos complete with bounding boxes, segmentation masks, and tracking IDs for hand-held objects. Through experiments on the HOIST dataset and two additional public datasets, we demonstrate the efficacy of HOIST-Former in segmenting and tracking hand-held objects. | 翻訳日:2024-04-23 15:36:05 公開日:2024-04-22 |
# Prove Symbolic Regression is NP-hard by Symbol Graph
Prove Symbolic Regression is NP-hard by Symbol Graph ( http://arxiv.org/abs/2404.13820v1 ) ライセンス: Link先を確認 | Jinglu Song, Qiang Lu, Bozhou Tian, Jingwen Zhang, Jake Luo, Zhiguang Wang, | (参考訳) シンボリック回帰(シンボリックレグレッション、英: Symbolic regression、SR)は、数学的表現の空間から与えられたデータセットに適合するシンボリック表現を発見するタスクである。
SR問題にまつわる研究が豊富にあるにもかかわらず、NPのハードな性質を裏付ける研究は乏しい。
そこで本研究では,記号グラフの概念を数学的表現空間全体の包括的表現として導入し,SR問題のNPハード特性を効果的に説明する。
シンボルグラフを活用することで、SR問題と最適な等級制約付Steiner Arborescence(DCSAP)を識別するタスクとの接続を確立する。
NPハードであることが証明されたDCSAPの複雑さは、直接的に、SR問題のNPハードの性質を意味する。
Symbolic regression (SR) is the task of discovering a symbolic expression that fits a given data set from the space of mathematical expressions. Despite the abundance of research surrounding the SR problem, there's a scarcity of works that confirm its NP-hard nature. Therefore, this paper introduces the concept of a symbol graph as a comprehensive representation of the entire mathematical expression space, effectively illustrating the NP-hard characteristics of the SR problem. Leveraging the symbol graph, we establish a connection between the SR problem and the task of identifying an optimally fitted degree-constrained Steiner Arborescence (DCSAP). The complexity of DCSAP, which is proven to be NP-hard, directly implies the NP-hard nature of the SR problem. | 翻訳日:2024-04-23 15:36:05 公開日:2024-04-22 |
# Swap It Like The Hot: アイトラッキング画像に対するセグメンテーションベースのスプーフ攻撃
Swap It Like Its Hot: Segmentation-based spoof attacks on eye-tracking images ( http://arxiv.org/abs/2404.13827v1 ) ライセンス: Link先を確認 | Anish S. Narkar, Brendan David-John, | (参考訳) ビデオベースのアイトラッカーは虹彩の生体認証をキャプチャし、認証によってユーザのアイデンティティを確保できる。
しかし、生体認証は、物理的またはデジタルな操作によって、他人の身元を偽造するおそれがある。
目追跡センサーに対する物理的なスプーフィング攻撃を識別するための現在の標準は、ライブネス検出を使用する。
Liveness Detectionは、視線データをリアルまたはフェイクと分類し、物理的な表示攻撃を検出するのに十分である。
しかし、実際の眼画像入力をデジタル操作して他人の虹彩パターンを交換した場合、そのような防御は偽造攻撃を検出できない。
我々はアイリススワップを、視線に基づく生活度検出の新しい攻撃として提案する。
IrisSwapを使うと、攻撃者は被害者の虹彩パターンをセグメント化してデジタル交換して虹彩認証を騙すことができる。
オフラインとオンラインの両方の攻撃は、現在の最先端防衛モデルを最大58%の速度で欺いた視線データを生成し、アイトラッカーのより高度な認証方法を開発する必要性を動機付けている。
Video-based eye trackers capture the iris biometric and enable authentication to secure user identity. However, biometric authentication is susceptible to spoofing another user's identity through physical or digital manipulation. The current standard to identify physical spoofing attacks on eye-tracking sensors uses liveness detection. Liveness detection classifies gaze data as real or fake, which is sufficient to detect physical presentation attacks. However, such defenses cannot detect a spoofing attack when real eye image inputs are digitally manipulated to swap the iris pattern of another person. We propose IrisSwap as a novel attack on gaze-based liveness detection. IrisSwap allows attackers to segment and digitally swap in a victim's iris pattern to fool iris authentication. Both offline and online attacks produce gaze data that deceives the current state-of-the-art defense models at rates up to 58% and motivates the need to develop more advanced authentication methods for eye trackers. | 翻訳日:2024-04-23 15:26:21 公開日:2024-04-22 |
# 深層学習に基づくポイントクラウド登録に関する総合調査と分類
A Comprehensive Survey and Taxonomy on Point Cloud Registration Based on Deep Learning ( http://arxiv.org/abs/2404.13830v1 ) ライセンス: Link先を確認 | Yu-Xin Zhang, Jie Gui, Xiaofeng Cong, Xin Gong, Wenbing Tao, | (参考訳) ポイントクラウド登録(PCR)は、1つのポイントクラウドを別のポイントクラウドにアライメントする厳格な変換を決定することを伴う。
優れた深層学習(DL)ベースの登録法が提案されているにもかかわらず、DLベースのPCR技術に関する包括的で体系的な研究はいまだに不足している。
本稿では,最近提案されたPCR法に関する包括的調査と分類について述べる。
まず、よく利用されるデータセットと評価指標の分類を行う。
第2に、既存の研究を、教師なしと教師なしの登録の2つの主要なカテゴリに分類し、様々な影響力のあるPCRモデルのコア概念に関する洞察を提供する。
最後に、今後の研究に向けたオープンな課題と潜在的な方向性を強調します。
貴重なリソースのキュレートされたコレクションはhttps://github.com/yxzhang15/PCRで公開されている。
Point cloud registration (PCR) involves determining a rigid transformation that aligns one point cloud to another. Despite the plethora of outstanding deep learning (DL)-based registration methods proposed, comprehensive and systematic studies on DL-based PCR techniques are still lacking. In this paper, we present a comprehensive survey and taxonomy of recently proposed PCR methods. Firstly, we conduct a taxonomy of commonly utilized datasets and evaluation metrics. Secondly, we classify the existing research into two main categories: supervised and unsupervised registration, providing insights into the core concepts of various influential PCR models. Finally, we highlight open challenges and potential directions for future research. A curated collection of valuable resources is made available at https://github.com/yxzhang15/PCR. | 翻訳日:2024-04-23 15:26:21 公開日:2024-04-22 |
# 古典的および学習的最適化のためのデータ駆動型パフォーマンス保証
Data-Driven Performance Guarantees for Classical and Learned Optimizers ( http://arxiv.org/abs/2404.13831v1 ) ライセンス: Link先を確認 | Rajiv Sambharya, Bartolomeo Stellato, | (参考訳) 統計的学習理論から一般化保証を用いた連続最適化アルゴリズムの性能解析のためのデータ駆動型手法を提案する。
パラメトリック最適化問題のファミリーを解くために,古典的および学習的最適化法について研究する。
本稿では,古典最適化の一般化保証,サンプル収束バウンダリ,学習オプティマイザについて,確率的近似(PAC)-ベイズ(Bayes)フレームワークを用いて構築する。
学習したオプティマイザを訓練するために、勾配に基づくアルゴリズムを用いてPAC-Bayes上界を直接最小化する。
信号処理,制御,メタラーニングの数値実験により,古典的および学習的最適化の両面において,一定の予算のイテレーションを与えられた上で,強力な一般化保証を提供するフレームワークの能力を示した。
古典的なオプティマイザにとって、私たちの限界は最悪のケースで保証されるものよりもずっと厳格です。
学習したオプティマイザにとって、我々のバウンダリは非学習者で観察された経験的結果よりも優れています。
We introduce a data-driven approach to analyze the performance of continuous optimization algorithms using generalization guarantees from statistical learning theory. We study classical and learned optimizers to solve families of parametric optimization problems. We build generalization guarantees for classical optimizers, using a sample convergence bound, and for learned optimizers, using the Probably Approximately Correct (PAC)-Bayes framework. To train learned optimizers, we use a gradient-based algorithm to directly minimize the PAC-Bayes upper bound. Numerical experiments in signal processing, control, and meta-learning showcase the ability of our framework to provide strong generalization guarantees for both classical and learned optimizers given a fixed budget of iterations. For classical optimizers, our bounds are much tighter than those that worst-case guarantees provide. For learned optimizers, our bounds outperform the empirical outcomes observed in their non-learned counterparts. | 翻訳日:2024-04-23 15:26:21 公開日:2024-04-22 |
# C2F-SemiCD:高解像度リモートセンシング画像の一貫性規則化に基づく半監督半変化検出法
C2F-SemiCD: A Coarse-to-Fine Semi-Supervised Change Detection Method Based on Consistency Regularization in High-Resolution Remote Sensing Images ( http://arxiv.org/abs/2404.13838v1 ) ライセンス: Link先を確認 | Chengxi Han, Chen Wu, Meiqi Hu, Jiepan Li, Hongruixuan Chen, | (参考訳) 変化検出(CD)には,高精度な特徴抽出モデルが不可欠である。
これまで,多数のラベル付きバイテンポラルイメージから特徴パターンの認識を学習する深層学習ベースの教師付きCD手法が数多く存在するが,ラベル付きリモートセンシング画像は非常に高価であり,時間を要することが多いため,多スケールアテンション機構(C2FNet)と半教師付き更新方式を備えた粗大なCDネットワークを含む整合正規化(C2F-SemiCD)に基づく半教師付きCD手法を提案する。
C2FNetネットワークは, 粗粒度から細粒度への変化特徴の抽出を, マルチスケール機能融合, チャネルアテンション機構, 空間アテンション機構, グローバルコンテキストモジュール, 機能洗練モジュール, 初期アグリゲーションモジュール, 最終アグリゲーションモジュールを通じて徐々に完了させる。
半教師更新法は平均教師法を用いる。
指数移動平均 (EMA) 法を用いて, 生徒モデルのパラメータを教師モデルのパラメータに更新する。
3つのデータセットに関する広範な実験と、データセット間のクロスオーバー実験を含む綿密なアブレーション研究を通じて、提案手法の有効性と有効性を検証する。
コードは、https://github.com/ChengxiHAN/C2F-SemiCDand-C2FNetで公開される。
A high-precision feature extraction model is crucial for change detection (CD). In the past, many deep learning-based supervised CD methods learned to recognize change feature patterns from a large number of labelled bi-temporal images, whereas labelling bi-temporal remote sensing images is very expensive and often time-consuming; therefore, we propose a coarse-to-fine semi-supervised CD method based on consistency regularization (C2F-SemiCD), which includes a coarse-to-fine CD network with a multiscale attention mechanism (C2FNet) and a semi-supervised update method. Among them, the C2FNet network gradually completes the extraction of change features from coarse-grained to fine-grained through multiscale feature fusion, channel attention mechanism, spatial attention mechanism, global context module, feature refine module, initial aggregation module, and final aggregation module. The semi-supervised update method uses the mean teacher method. The parameters of the student model are updated to the parameters of the teacher Model by using the exponential moving average (EMA) method. Through extensive experiments on three datasets and meticulous ablation studies, including crossover experiments across datasets, we verify the significant effectiveness and efficiency of the proposed C2F-SemiCD method. The code will be open at: https://github.com/ChengxiHAN/C2F-SemiCDand-C2FNet. | 翻訳日:2024-04-23 15:26:21 公開日:2024-04-22 |
# フェデレーション学習における複数モデルの公正並行学習
Fair Concurrent Training of Multiple Models in Federated Learning ( http://arxiv.org/abs/2404.13841v1 ) ライセンス: Link先を確認 | Marie Siew, Haoran Zhang, Jong-Ik Park, Yuezhou Liu, Yichen Ruan, Lili Su, Stratis Ioannidis, Edmund Yeh, Carlee Joe-Wong, | (参考訳) フェデレートラーニング(FL)は、複数のクライアント間で協調学習を可能にする。
ほとんどのFL作業では、すべてのクライアントが単一の学習タスクをトレーニングします。
しかし、最近のFLアプリケーションの急増は、クライアントのコンピューティングとコミュニケーションリソースを共有するために複数のFLタスクを同時に訓練する必要性がますます高まっている。
現在のMMFLアルゴリズムでは、FLタスクが不均一な難易度を持つ場合、例えば、より大きなモデルを持つタスクが訓練により多くのラウンドとデータを必要とする場合、不公平なパフォーマンスをもたらすことができる平均ベースのクライアントタスク割り当てスキームを使用している。
不均一なリソースを必要とする汎用コンピューティングジョブにリソースを素直に割り当てることが不公平な結果をもたらすのと同じように、FLタスクへのクライアントの割り当てが不公平になる可能性がある。
さらに、FL設定では、通常、クライアントはトレーニングの労力に支払われないため、計算コストが高く、タスク間のトレーニング結果の不公平が悪化する可能性があるため、一部のクライアントが何らかのタスクをトレーニングする意思さえない、という課題に直面します。
まず、各トレーニングラウンドのタスクにクライアントを動的に割り当てる難易度認識アルゴリズムであるFedFairMMFLを設計する。
空調の保証とFedFairMMFLの収束率について述べる。
次に,クライアントに複数のタスクを学習させ,タスク間でクライアントのトレーニング作業を公平に分散させる,新しいオークションデザインを提案する。
フェアネスに基づく学習とインセンティブのメカニズムがトレーニングの収束にどのように影響するかを示し、最終的に実世界のデータセット上で学習タスクの複数セットを用いてアルゴリズムを評価する。
Federated learning (FL) enables collaborative learning across multiple clients. In most FL work, all clients train a single learning task. However, the recent proliferation of FL applications may increasingly require multiple FL tasks to be trained simultaneously, sharing clients' computing and communication resources, which we call Multiple-Model Federated Learning (MMFL). Current MMFL algorithms use naive average-based client-task allocation schemes that can lead to unfair performance when FL tasks have heterogeneous difficulty levels, e.g., tasks with larger models may need more rounds and data to train. Just as naively allocating resources to generic computing jobs with heterogeneous resource needs can lead to unfair outcomes, naive allocation of clients to FL tasks can lead to unfairness, with some tasks having excessively long training times, or lower converged accuracies. Furthermore, in the FL setting, since clients are typically not paid for their training effort, we face a further challenge that some clients may not even be willing to train some tasks, e.g., due to high computational costs, which may exacerbate unfairness in training outcomes across tasks. We address both challenges by firstly designing FedFairMMFL, a difficulty-aware algorithm that dynamically allocates clients to tasks in each training round. We provide guarantees on airness and FedFairMMFL's convergence rate. We then propose a novel auction design that incentivizes clients to train multiple tasks, so as to fairly distribute clients' training efforts across the tasks. We show how our fairness-based learning and incentive mechanisms impact training convergence and finally evaluate our algorithm with multiple sets of learning tasks on real world datasets. | 翻訳日:2024-04-23 15:26:21 公開日:2024-04-22 |
# クラスタ環境におけるポイントクラウドからの推論とシーン階層グラフ構築支援について
On Support Relations Inference and Scene Hierarchy Graph Construction from Point Cloud in Clustered Environments ( http://arxiv.org/abs/2404.13842v1 ) ライセンス: Link先を確認 | Gang Ma, Hui Wei, | (参考訳) 長年にわたり、シーン理解はコンピュータビジョンへの関心が高まり、ロボットが特定のタスクを自律的に完了するために必要な意味的および物理的なシーン情報を提供してきた。
3Dシーンでは、リッチな空間幾何学的・トポロジ的情報はしばしばRGBベースのシーン理解アプローチによって無視される。
本研究では,物体間の関係を推定する場面理解のためのボトムアップ手法を開発した。
本手法は,3つの主要なステップからなる平面対の空間的トポロジー情報を利用する。
1) 対空間構成の検出:原始対を局所的支持接続と局所的内部接続に分割すること
2)プリミティブ分類:プリミティブの分類に適用される組合せ最適化方法
3) 関係推論と階層グラフ構築のサポート: ボトムアップサポート関係推定とシーン階層グラフ構築には,プリミティブレベルとオブジェクトレベルが含まれている。
実験により,アルゴリズムは原始的分類において優れた性能を示し,関係推論を支援する。
さらに、シーン階層グラフは、オブジェクトの幾何学的および位相的情報を豊富に含み、シーン理解に優れたスケーラビリティを有することを示す。
Over the years, scene understanding has attracted a growing interest in computer vision, providing the semantic and physical scene information necessary for robots to complete some particular tasks autonomously. In 3D scenes, rich spatial geometric and topological information are often ignored by RGB-based approaches for scene understanding. In this study, we develop a bottom-up approach for scene understanding that infers support relations between objects from a point cloud. Our approach utilizes the spatial topology information of the plane pairs in the scene, consisting of three major steps. 1) Detection of pairwise spatial configuration: dividing primitive pairs into local support connection and local inner connection; 2) primitive classification: a combinatorial optimization method applied to classify primitives; and 3) support relations inference and hierarchy graph construction: bottom-up support relations inference and scene hierarchy graph construction containing primitive level and object level. Through experiments, we demonstrate that the algorithm achieves excellent performance in primitive classification and support relations inference. Additionally, we show that the scene hierarchy graph contains rich geometric and topological information of objects, and it possesses great scalability for scene understanding. | 翻訳日:2024-04-23 15:26:21 公開日:2024-04-22 |
# ColA: グラディエントラーニングによる協調的適応
ColA: Collaborative Adaptation with Gradient Learning ( http://arxiv.org/abs/2404.13844v1 ) ライセンス: Link先を確認 | Enmao Diao, Qi Le, Suya Wu, Xinran Wang, Ali Anwar, Jie Ding, Vahid Tarokh, | (参考訳) バックプロパゲーションの主要な機能は、隠れ表現の勾配と、勾配降下を伴う最適化のためのパラメータの両方を計算することである。
大規模モデルのトレーニングには,パラメータサイズが大きいため,高い計算コストが必要となる。
パラメータ効率の良いファインチューニング(PEFT)手法は、小さな補助モデルを訓練して計算スペースを節約することを目的としているが、特にFTaaS(Final-Tuning as a Service)では、計算オーバーヘッドが残っている。
パラメータフリーでモデルに依存しない微調整手法であるグラディエント・ラーニング(GL)を用いたColA(Colaborative Adaptation)を導入し、隠れ表現とパラメータの勾配の計算を分離する。
PEFT法と比較して、ColAは低コストデバイスに勾配の計算をオフロードすることで、よりコスト効率の良いFTaaSを容易にする。
また、ColAの理論的解析を行い、様々なベンチマークで既存のPEFT法よりもColAが同等以上の性能を発揮することを実験的に示す。
A primary function of back-propagation is to compute both the gradient of hidden representations and parameters for optimization with gradient descent. Training large models requires high computational costs due to their vast parameter sizes. While Parameter-Efficient Fine-Tuning (PEFT) methods aim to train smaller auxiliary models to save computational space, they still present computational overheads, especially in Fine-Tuning as a Service (FTaaS) for numerous users. We introduce Collaborative Adaptation (ColA) with Gradient Learning (GL), a parameter-free, model-agnostic fine-tuning approach that decouples the computation of the gradient of hidden representations and parameters. In comparison to PEFT methods, ColA facilitates more cost-effective FTaaS by offloading the computation of the gradient to low-cost devices. We also provide a theoretical analysis of ColA and experimentally demonstrate that ColA can perform on par or better than existing PEFT methods on various benchmarks. | 翻訳日:2024-04-23 15:26:21 公開日:2024-04-22 |
# フィルタ直接選好最適化
Filtered Direct Preference Optimization ( http://arxiv.org/abs/2404.13846v1 ) ライセンス: Link先を確認 | Tetsuro Morimura, Mitsuki Sakamoto, Yuu Jinnai, Kenshi Abe, Kaito Air, | (参考訳) 人間からのフィードバックからの強化学習(RLHF)は、言語モデルと人間の嗜好の整合において重要な役割を果たす。
データセットの品質の重要性は一般的に認識されているが、我々の知る限り、RLHFフレームワークにおけるその影響に関する明確な調査は限られている。
本稿では,報酬モデルのないRLHF法であるDPO(Direct Preference Optimization)に着目し,嗜好データセットにおけるテキスト品質の問題に対処する。
テキストの品質が報酬モデルに基づくRLHFよりもDPOで最適化されたモデルの性能に大きく影響することを確認する。
この知見に基づいて,フィルタ直接選好最適化(fDPO)と呼ばれるDPOの拡張を提案する。
fDPOはトレーニングされた報酬モデルを使用して、DPOトレーニング中の好みデータセット内のテキストの品質を監視する。
低品質のサンプルは、最適化されたモデルによって生成されたテキストとの比較に基づいて破棄されるため、より正確なデータセットが生成される。
実験結果から,fDPOは最終モデルの性能を向上させることが示された。
私たちのコードはhttps://github.com/CyberAgentAILab/filtered-dpo.comで公開されています。
Reinforcement learning from human feedback (RLHF) plays a crucial role in aligning language models with human preferences. While the significance of dataset quality is generally recognized, explicit investigations into its impact within the RLHF framework, to our knowledge, have been limited. This paper addresses the issue of text quality within the preference dataset by focusing on Direct Preference Optimization (DPO), an increasingly adopted reward-model-free RLHF method. We confirm that text quality significantly influences the performance of models optimized with DPO more than those optimized with reward-model-based RLHF. Building on this new insight, we propose an extension of DPO, termed filtered direct preference optimization (fDPO). fDPO uses a trained reward model to monitor the quality of texts within the preference dataset during DPO training. Samples of lower quality are discarded based on comparisons with texts generated by the model being optimized, resulting in a more accurate dataset. Experimental results demonstrate that fDPO enhances the final model performance. Our code is available at https://github.com/CyberAgentAILab/filtered-dpo. | 翻訳日:2024-04-23 15:26:21 公開日:2024-04-22 |
# EventLens: イベント認識事前トレーニングとクロスモーダルリンクを活用することで、ビジュアルコモンセンス推論を促進する
EventLens: Leveraging Event-Aware Pretraining and Cross-modal Linking Enhances Visual Commonsense Reasoning ( http://arxiv.org/abs/2404.13847v1 ) ライセンス: Link先を確認 | Mingjie Ma, Zhihuan Yu, Yichao Ma, Guohui Li, | (参考訳) ビジュアルコモンセンス推論(Visual Commonsense Reasoning, VCR)は、人間のコモンセンスを必要とする視覚的疑問に答え、その答えが正しい理由を説明するためのモデルである。
LLM(Large Language Models)が出現すると、VCRの適用性を探究することが自然で必須となる。
しかしながら、VCRタスクはその挑戦的な問題に取り組むためにより多くの外部知識を必要とし、LLMの常識推論能力を活性化するために特別な設計を必要とする。
また、既存のMultimodal LLMは入力画像全体の抽象化を採用しており、VCRのイメージ領域とテキスト間のユニークな参照タグの理解が困難であり、微粒なアライメントの難しさを浮き彫りにしている。
これらの問題に対処するために、Event-Aware PretrainingとCross-Modal LinkingとEnhanceS VCRを活用するEventLensを提案する。
まず、人間推論の認知過程をエミュレートすることにより、LLMの複雑なシナリオのグローバル理解をより活性化させるために、イベント認識事前学習補助タスクを導入する。
第二に、微調整の際には、両方のモダリティセマンティクスを保ちながら、参照タグを利用してRoI機能をテキストでブリッジする。
最後に、事前学習と微調整のギャップを狭めるためにインストラクションスタイルのプロンプトを使用し、タスク固有のアダプタを使用して、LLM固有の知識を新しいコモンセンスに統合する。
実験の結果,提案した補助課題の有効性ときめ細かいリンク戦略が示された。
Visual Commonsense Reasoning (VCR) is a cognitive task, challenging models to answer visual questions requiring human commonsense, and to provide rationales explaining why the answers are correct. With emergence of Large Language Models (LLMs), it is natural and imperative to explore their applicability to VCR. However, VCR task demands more external knowledge to tackle its challenging questions, necessitating special designs to activate LLMs' commonsense reasoning abilities. Also, most existing Multimodal LLMs adopted an abstraction of entire input image, which makes it difficult to comprehend VCR's unique co-reference tags between image regions and text, posing challenges for fine-grained alignment. To address these issues, we propose EventLens that leverages Event-Aware Pretraining and Cross-modal Linking and EnhanceS VCR. First, by emulating the cognitive process of human reasoning, an Event-Aware Pretraining auxiliary task is introduced to better activate LLM's global comprehension of intricate scenarios. Second, during fine-tuning, we further utilize reference tags to bridge RoI features with texts, while preserving both modality semantics. Finally, we use instruct-style prompts to narrow the gap between pretraining and fine-tuning, and task-specific adapters to better integrate LLM's inherent knowledge with new commonsense. Experimental results show the effectiveness of our proposed auxiliary task and fine-grained linking strategy. | 翻訳日:2024-04-23 15:26:21 公開日:2024-04-22 |
# DSDRNet:ドメイン一般化のための拡張表現と再構成ネットワーク
DSDRNet: Disentangling Representation and Reconstruct Network for Domain Generalization ( http://arxiv.org/abs/2404.13848v1 ) ライセンス: Link先を確認 | Juncheng Yang, Zuchao Li, Shuai Xie, Wei Yu, Shijun Li, | (参考訳) ドメインの一般化は、トレーニングとテストセット間の分散シフトと、目に見えないターゲットドメインの存在によって、課題に直面します。
一般的なソリューションとしては、ドメインアライメント、メタラーニング、データ拡張、アンサンブルラーニングなどがある。
本稿では,DSDRNetと呼ばれるデュアルストリーム分離再構成ネットワークを提案する。
これは、二重ストリーム融合を通じて、インスタンス間およびインスタンス内両方の特徴を統合する、アンタングルメント・リコンストラクションのアプローチである。
インスタンス間意味距離とインスタンス内類似性を組み合わせることで、新しい教師付き信号を導入する。
適応インスタンス正規化(AdaIN)を2段階の周期的再構成プロセスに組み込むことで、自己異方性再構成信号が強化され、モデル収束が促進される。
4つのベンチマークデータセットに対する大規模な実験により、DSDRNetはドメインの一般化能力において他の一般的な手法よりも優れていることが示された。
Domain generalization faces challenges due to the distribution shift between training and testing sets, and the presence of unseen target domains. Common solutions include domain alignment, meta-learning, data augmentation, or ensemble learning, all of which rely on domain labels or domain adversarial techniques. In this paper, we propose a Dual-Stream Separation and Reconstruction Network, dubbed DSDRNet. It is a disentanglement-reconstruction approach that integrates features of both inter-instance and intra-instance through dual-stream fusion. The method introduces novel supervised signals by combining inter-instance semantic distance and intra-instance similarity. Incorporating Adaptive Instance Normalization (AdaIN) into a two-stage cyclic reconstruction process enhances self-disentangled reconstruction signals to facilitate model convergence. Extensive experiments on four benchmark datasets demonstrate that DSDRNet outperforms other popular methods in terms of domain generalization capabilities. | 翻訳日:2024-04-23 15:26:21 公開日:2024-04-22 |
# ICST-DNET:交通速度予測のための解釈可能な因果拡散ネットワーク
ICST-DNET: An Interpretable Causal Spatio-Temporal Diffusion Network for Traffic Speed Prediction ( http://arxiv.org/abs/2404.13853v1 ) ライセンス: Link先を確認 | Yi Rong, Yingchi Mao, Yinqiu Liu, Ling Chen, Xiaoming He, Dusit Niyato, | (参考訳) 交通速度予測はインテリジェントナビゲーションと渋滞緩和に重要である。
しかし、正確な予測は3つの要因により困難である。
1) 交通拡散、すなわち、複数の隣接する道路の交通条件の間に存在する空間的・時間的因果関係
2)複雑な時空間相関による交通データの解釈可能性の低下,及び
3)午前や夕方のラッシュなど,交通速度の変動パターンは時間とともに変動する。
本稿では,これらの要因を共同で考慮し,ICST-DNET(Interpretable Causal Spatio-Temporal Diffusion Network)と呼ばれる,交通速度予測のための新しいアーキテクチャを提案する。
特にICST-DENTは、時空間因果学習(STCL)、因果グラフ生成(CGG)、速度変動パターン認識(SFPR)の3つの部分から構成される。
まず,道路ネットワーク内の交通拡散をモデル化するため,各道路の時間的因果関係と各道路の空間的因果関係の両方を捉えるためにSTCLモジュールを提案する。
CGGモジュールはSTCLに基づいて開発され、時間的・空間的視点からトラフィック拡散手順の解釈可能性を高める。
具体的には、各道路の歴史的および将来の交通条件間の時間的因果関係を説明するために、時間的因果行列を生成する。
空間因果関係において,道路対の拡散過程を可視化するために因果グラフを用いる。
最後に,異なるシナリオにおける交通速度変動に対応するために,交通速度変動パターンの学習に強い影響を与える歴史的時間ステップを選択するために,パーソナライズされたSFPRモジュールを設計する。
ICST-DNETは、より高い予測精度、因果関係を説明する能力、異なるシナリオへの適応性などによって証明されているように、既存のベースラインを全て上回ることができる。
Traffic speed prediction is significant for intelligent navigation and congestion alleviation. However, making accurate predictions is challenging due to three factors: 1) traffic diffusion, i.e., the spatial and temporal causality existing between the traffic conditions of multiple neighboring roads, 2) the poor interpretability of traffic data with complicated spatio-temporal correlations, and 3) the latent pattern of traffic speed fluctuations over time, such as morning and evening rush. Jointly considering these factors, in this paper, we present a novel architecture for traffic speed prediction, called Interpretable Causal Spatio-Temporal Diffusion Network (ICST-DNET). Specifically, ICST-DENT consists of three parts, namely the Spatio-Temporal Causality Learning (STCL), Causal Graph Generation (CGG), and Speed Fluctuation Pattern Recognition (SFPR) modules. First, to model the traffic diffusion within road networks, an STCL module is proposed to capture both the temporal causality on each individual road and the spatial causality in each road pair. The CGG module is then developed based on STCL to enhance the interpretability of the traffic diffusion procedure from the temporal and spatial perspectives. Specifically, a time causality matrix is generated to explain the temporal causality between each road's historical and future traffic conditions. For spatial causality, we utilize causal graphs to visualize the diffusion process in road pairs. Finally, to adapt to traffic speed fluctuations in different scenarios, we design a personalized SFPR module to select the historical timesteps with strong influences for learning the pattern of traffic speed fluctuations. Extensive experimental results prove that ICST-DNET can outperform all existing baselines, as evidenced by the higher prediction accuracy, ability to explain causality, and adaptability to different scenarios. | 翻訳日:2024-04-23 15:26:21 公開日:2024-04-22 |
# 暗黒における自己監督単眼深度推定:データ分布補償に向けて
Self-Supervised Monocular Depth Estimation in the Dark: Towards Data Distribution Compensation ( http://arxiv.org/abs/2404.13854v1 ) ライセンス: Link先を確認 | Haolin Yang, Chaoqiang Zhao, Lu Sheng, Yang Tang, | (参考訳) 近年,夜間自己監督型単眼深度推定が注目されている。
しかし、光度一貫性の仮定は複雑な照明条件下で撮影されたビデオには通常違反するため、自己超越のために夜間画像を使用することは信頼できない。
ドメイン適応や測光損失の修復であっても、トレーニング可能なネットワーク上での夜間画像の監視が不十分なため、パフォーマンスは依然として制限されている。
本稿では,トレーニング中に夜間画像を使用しない夜間単眼深度推定手法を提案する。
本フレームワークは, 日像を自己監督のための安定な情報源として利用し, 日中の重要な相違を補うために物理的事前(波動光学, リフレクションモデル, リードショットノイズモデル)を適用した。
日毎のデータ配信の補償によって、我々のフレームワークは効率的な1段階のセルフ教師方式で訓練することができる。
トレーニング中は夜間画像は考慮されていないが,定性的,定量的な結果から,既存の手法と比較して難易度の高いnuScenes-NightとRobotCar-NightのSoTA深度推定結果が得られた。
Nighttime self-supervised monocular depth estimation has received increasing attention in recent years. However, using night images for self-supervision is unreliable because the photometric consistency assumption is usually violated in the videos taken under complex lighting conditions. Even with domain adaptation or photometric loss repair, performance is still limited by the poor supervision of night images on trainable networks. In this paper, we propose a self-supervised nighttime monocular depth estimation method that does not use any night images during training. Our framework utilizes day images as a stable source for self-supervision and applies physical priors (e.g., wave optics, reflection model and read-shot noise model) to compensate for some key day-night differences. With day-to-night data distribution compensation, our framework can be trained in an efficient one-stage self-supervised manner. Though no nighttime images are considered during training, qualitative and quantitative results demonstrate that our method achieves SoTA depth estimating results on the challenging nuScenes-Night and RobotCar-Night compared with existing methods. | 翻訳日:2024-04-23 15:26:21 公開日:2024-04-22 |
# LLMの多言語行動におけるFFNの役割の解明
Understanding the role of FFNs in driving multilingual behaviour in LLMs ( http://arxiv.org/abs/2404.13855v1 ) ライセンス: Link先を確認 | Sunit Bhattacharya, Ondřej Bojar, | (参考訳) LLM(Large Language Models)における多言語主義(multilingualism in Large Language Models)は、まだ未発見の分野である。
本稿では,大規模言語モデルのファミリーの多言語機能の詳細な分析を行い,そのアーキテクチャ,アクティベーションパターン,言語間の処理機構について検討する。
異なるレイヤにおけるモデルの多言語的振る舞いを探索する新しいメトリクスを導入し、多言語処理におけるアーキテクチャ選択の影響について光を当てる。
そこで本研究では,フィードフォワードネットワークのサブレイヤにおけるマルチリンガル処理のパターンを明らかにした。
さらに,特定のモデル構成における「過層化」現象を明らかにし,他のパラメータに対する調整を伴わない層深さの増加がモデル性能を低下させる可能性がある。
言語間の比較を通じて、複数の言語で訓練されたLLMのモデルアーキテクチャ、層深度、多言語処理能力の相互作用を実演する。
Multilingualism in Large Language Models (LLMs) is an yet under-explored area. In this paper, we conduct an in-depth analysis of the multilingual capabilities of a family of a Large Language Model, examining its architecture, activation patterns, and processing mechanisms across languages. We introduce novel metrics to probe the model's multilingual behaviour at different layers and shed light on the impact of architectural choices on multilingual processing. Our findings reveal different patterns of multilinugal processing in the sublayers of Feed-Forward Networks of the models. Furthermore, we uncover the phenomenon of "over-layerization" in certain model configurations, where increasing layer depth without corresponding adjustments to other parameters may degrade model performance. Through comparisons within and across languages, we demonstrate the interplay between model architecture, layer depth, and multilingual processing capabilities of LLMs trained on multiple languages. | 翻訳日:2024-04-23 15:26:21 公開日:2024-04-22 |
# 知覚多様体の内在次元によるDNNの解離と緩和
Unveiling and Mitigating Generalized Biases of DNNs through the Intrinsic Dimensions of Perceptual Manifolds ( http://arxiv.org/abs/2404.13859v1 ) ライセンス: Link先を確認 | Yanbiao Ma, Licheng Jiao, Fang Liu, Lingling Li, Wenping Ma, Shuyuan Yang, Xu Liu, Puhua Chen, | (参考訳) 公正なディープニューラルネットワーク(DNN)の構築は、信頼できる人工知能を達成するための重要なステップである。
DNNの公平性に影響を与えるより深い要因を掘り下げることが最重要であり、モデルバイアスを軽減する基盤となっている。
しかし、現在の手法は、DNNバイアスを正確に予測し、トレーニングサンプルの数にのみ依存し、より正確な測定ツールが欠如している。
そこで我々は,DNNの公正性を分析する幾何学的視点を確立し,データセットの内在的幾何学的特徴,知覚多様体の内在的次元(ID),およびDNNの公正性に対するIDの影響を包括的に考察する。
複数の知見に基づいて,モデルの公正さと性能を向上する固有次元正規化(IDR)を提案し,簡潔かつIDバランスの取れたクラス知覚多様体の学習を促進する。
様々な画像認識ベンチマークテストにおいて、IDRはモデルバイアスを低減し、性能を向上する。
Building fair deep neural networks (DNNs) is a crucial step towards achieving trustworthy artificial intelligence. Delving into deeper factors that affect the fairness of DNNs is paramount and serves as the foundation for mitigating model biases. However, current methods are limited in accurately predicting DNN biases, relying solely on the number of training samples and lacking more precise measurement tools. Here, we establish a geometric perspective for analyzing the fairness of DNNs, comprehensively exploring how DNNs internally shape the intrinsic geometric characteristics of datasets-the intrinsic dimensions (IDs) of perceptual manifolds, and the impact of IDs on the fairness of DNNs. Based on multiple findings, we propose Intrinsic Dimension Regularization (IDR), which enhances the fairness and performance of models by promoting the learning of concise and ID-balanced class perceptual manifolds. In various image recognition benchmark tests, IDR significantly mitigates model bias while improving its performance. | 翻訳日:2024-04-23 15:26:21 公開日:2024-04-22 |
# マルチエージェント強化学習を用いた分散ブラックボックスモデルインバージョンアタック
Distributional Black-Box Model Inversion Attack with Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2404.13860v1 ) ライセンス: Link先を確認 | Huan Bao, Kaimin Wei, Yongdong Wu, Jin Qian, Robert H. Deng, | (参考訳) GAN(Generative Adversarial Networks)に基づくモデルインバージョン(MI)攻撃は、潜時空間のコード検索によって複雑なディープラーニングモデルからプライベートトレーニングデータを復元することを目的としている。
しかし、それらは単に決定論的潜在空間を探索するだけであり、発見された潜在コードは、通常、準最適である。
さらに、既存の分散MIスキームでは、攻撃者がターゲットモデルの構造やパラメータにアクセスできると仮定している。
上記の欠点を克服するために、ターゲットのプライバシーデータを検索する確率的潜在空間を構築することにより、新しい分散ブラックボックスモデルインバージョン(DBB-MI)攻撃を提案する。
具体的には、DBB-MIはターゲットモデルパラメータや特別なGANトレーニングを必要としない。
その代わりに、ターゲットモデルの出力とマルチエージェント強化学習技術を組み合わせることで、潜在確率分布を求める。
そして、プライベートデータを復元するための潜時確率分布から潜時符号をランダムに選択する。
潜在確率分布は、潜在空間におけるターゲットのプライバシデータと密接に一致しているため、回収されたデータは、ターゲットモデルのトレーニングサンプルのプライバシを著しくリークする。
多様なデータセットやネットワーク上で行った実験により,現在のDBB-MIは,攻撃精度,K-アレスト近傍の特徴距離,ピーク信号対雑音比よりも優れた性能を示した。
A Model Inversion (MI) attack based on Generative Adversarial Networks (GAN) aims to recover the private training data from complex deep learning models by searching codes in the latent space. However, they merely search a deterministic latent space such that the found latent code is usually suboptimal. In addition, the existing distributional MI schemes assume that an attacker can access the structures and parameters of the target model, which is not always viable in practice. To overcome the above shortcomings, this paper proposes a novel Distributional Black-Box Model Inversion (DBB-MI) attack by constructing the probabilistic latent space for searching the target privacy data. Specifically, DBB-MI does not need the target model parameters or specialized GAN training. Instead, it finds the latent probability distribution by combining the output of the target model with multi-agent reinforcement learning techniques. Then, it randomly chooses latent codes from the latent probability distribution for recovering the private data. As the latent probability distribution closely aligns with the target privacy data in latent space, the recovered data will leak the privacy of training samples of the target model significantly. Abundant experiments conducted on diverse datasets and networks show that the present DBB-MI has better performance than state-of-the-art in attack accuracy, K-nearest neighbor feature distance, and Peak Signal-to-Noise Ratio. | 翻訳日:2024-04-23 15:26:21 公開日:2024-04-22 |
# 人格を超えて:人格・説明責任・人格的倫理分析の限界
Beyond Personhood: Agency, Accountability, and the Limits of Anthropomorphic Ethical Analysis ( http://arxiv.org/abs/2404.13861v1 ) ライセンス: Link先を確認 | Jessica Dai, | (参考訳) エージェンシーとは何か、なぜ重要なのか?
この作品では、政治科学と哲学の文学から学び、それが(倫理的な)エージェントであることを示す2つの競合するビジョンを与えます。
メカニスティック(mechanistic)と呼ぶ最初の見解は、AI研究において一般的に暗黙的に仮定されるが、AIの倫理的特性を理解するための根本的に制限された手段である。
第2の見解では、AIはもはや倫理的エージェントとはみなせない。
まず、理想的なシステムがどのようなものになるべきか、次に、説明責任がどのように達成されるのか、という2つの重要な問いについて論じる。
この議論を踏まえて、倫理的に重要な行動の文脈では、AIはエージェントではなく、政治的プロセスの結果と見なされるべきである、と論じる。
What is agency, and why does it matter? In this work, we draw from the political science and philosophy literature and give two competing visions of what it means to be an (ethical) agent. The first view, which we term mechanistic, is commonly--and implicitly--assumed in AI research, yet it is a fundamentally limited means to understand the ethical characteristics of AI. Under the second view, which we term volitional, AI can no longer be considered an ethical agent. We discuss the implications of each of these views for two critical questions: first, what the ideal system ought to look like, and second, how accountability may be achieved. In light of this discussion, we ultimately argue that, in the context of ethically-significant behavior, AI should be viewed not as an agent but as the outcome of political processes. | 翻訳日:2024-04-23 15:16:29 公開日:2024-04-22 |
# PGAHum:高忠実アニマタブルな人体再構成のための事前ガイド付き幾何学と外観学習
PGAHum: Prior-Guided Geometry and Appearance Learning for High-Fidelity Animatable Human Reconstruction ( http://arxiv.org/abs/2404.13862v1 ) ライセンス: Link先を確認 | Hao Wang, Qingshan Xu, Hongyuan Chen, Rui Ma, | (参考訳) 暗黙的幾何表現学習とニューラルレンダリングの最近の技術は、スパースビデオ入力からの3次元人間の再構築に有望な結果を示している。
しかし、細かな表面形状を再構築することは依然として困難であり、アニメーションの人間のポーズでフォトリアリスティックなノベルビューを合成することはさらに困難である。
本研究では,PGAHumについて紹介する。PGAHumは,高忠実でアニマタブルな人体再構成のための幾何学的・外見的学習フレームワークである。
我々はPGAHumの3つの主要モジュールにおける3次元人体前駆体を徹底的に利用し、複雑な細部と見えないポーズのフォトリアリスティックなビュー合成による高品質な幾何再構成を実現する。
まず, 3次元平面ネットワークによって予測されるデルタSDFと, SMPLモデルから派生したベースSDFとを含む3次元人間の前向きの暗黙的幾何学的表現を提案し, 表面の細部と体形を非交互にモデル化する。
第2に、人間のポーズや身体の事前情報を十分に活用して、体表面内または体表面近傍の問合せ点をサンプリングする、新しい事前誘導サンプリング戦略を導入する。
空の3D空間で不要な学習を避けることで、ニューラルレンダリングはより詳細な外観を回復することができる。
最後に、観測空間における問合せ点の対応を段階的に見つけるために、新しい反復的後方変形戦略を提案する。
SMPLモデルによって提供される先行モデルに基づいてスキンウェイト予測モデルを学習し、反復的後方LBS変形を実現する。
各種データセットの定量的および定性的比較を行い,本フレームワークの優位性を実証した。
アブレーション研究は、幾何学と外見学習のための各スキームの有効性も検証している。
Recent techniques on implicit geometry representation learning and neural rendering have shown promising results for 3D clothed human reconstruction from sparse video inputs. However, it is still challenging to reconstruct detailed surface geometry and even more difficult to synthesize photorealistic novel views with animated human poses. In this work, we introduce PGAHum, a prior-guided geometry and appearance learning framework for high-fidelity animatable human reconstruction. We thoroughly exploit 3D human priors in three key modules of PGAHum to achieve high-quality geometry reconstruction with intricate details and photorealistic view synthesis on unseen poses. First, a prior-based implicit geometry representation of 3D human, which contains a delta SDF predicted by a tri-plane network and a base SDF derived from the prior SMPL model, is proposed to model the surface details and the body shape in a disentangled manner. Second, we introduce a novel prior-guided sampling strategy that fully leverages the prior information of the human pose and body to sample the query points within or near the body surface. By avoiding unnecessary learning in the empty 3D space, the neural rendering can recover more appearance details. Last, we propose a novel iterative backward deformation strategy to progressively find the correspondence for the query point in observation space. A skinning weights prediction model is learned based on the prior provided by the SMPL model to achieve the iterative backward LBS deformation. Extensive quantitative and qualitative comparisons on various datasets are conducted and the results demonstrate the superiority of our framework. Ablation studies also verify the effectiveness of each scheme for geometry and appearance learning. | 翻訳日:2024-04-23 15:16:29 公開日:2024-04-22 |
# PM-VIS: 高性能ボックススーパービジョンビデオインスタンスセグメンテーション
PM-VIS: High-Performance Box-Supervised Video Instance Segmentation ( http://arxiv.org/abs/2404.13863v1 ) ライセンス: Link先を確認 | Zhangjing Yang, Dun Liu, Wensheng Cheng, Jinqiao Wang, Yi Wu, | (参考訳) 動画にピクセル単位のオブジェクトマスクをラベル付けするのは、リソース集約的で退屈なプロセスです。
Box-supervised Video Instance Segmentation (VIS) メソッドは、労働集約的なアノテーションプロセスを緩和するための実行可能なソリューションとして登場した。
と。
現実的な応用では、2段階のアプローチはより柔軟であるだけでなく、高い認識精度を示す。
最近のSegment Anything Model(SAM)の成功に触発されて,複数の視点からインスタンスボックスアノテーションを活用することによって,高品質なインスタンス仮面を生成する新たなアプローチを導入し,インスタンスアノテーションに含まれる情報を強化する。
そこで,本研究では,HQ-SAMモデル,IDOL-BoxInstモデル,VOSモデル(DeAOT)の3種類の擬似マスクを作成する。
さらに,高品質な擬似マスクを用いた2つの地中構造データフィルタリング手法を導入し,トレーニングデータセットの品質をさらに向上し,完全教師付きVIS法の性能向上を図る。
得られた高品質なPseudo Maskをフルに活用するために,マスク損失をIDOL-BoxInstに統合する新しいアルゴリズムPM-VISを導入する。
我々のPM-VISモデルは、高品質な擬似マスクアノテーションで訓練され、インスタンスマスク予測において強力な能力を示し、YouTube-VIS 2019、YouTube-VIS 2021、OVIS検証セットで最先端のパフォーマンスを達成する。
Labeling pixel-wise object masks in videos is a resource-intensive and laborious process. Box-supervised Video Instance Segmentation (VIS) methods have emerged as a viable solution to mitigate the labor-intensive annotation process. . In practical applications, the two-step approach is not only more flexible but also exhibits a higher recognition accuracy. Inspired by the recent success of Segment Anything Model (SAM), we introduce a novel approach that aims at harnessing instance box annotations from multiple perspectives to generate high-quality instance pseudo masks, thus enriching the information contained in instance annotations. We leverage ground-truth boxes to create three types of pseudo masks using the HQ-SAM model, the box-supervised VIS model (IDOL-BoxInst), and the VOS model (DeAOT) separately, along with three corresponding optimization mechanisms. Additionally, we introduce two ground-truth data filtering methods, assisted by high-quality pseudo masks, to further enhance the training dataset quality and improve the performance of fully supervised VIS methods. To fully capitalize on the obtained high-quality Pseudo Masks, we introduce a novel algorithm, PM-VIS, to integrate mask losses into IDOL-BoxInst. Our PM-VIS model, trained with high-quality pseudo mask annotations, demonstrates strong ability in instance mask prediction, achieving state-of-the-art performance on the YouTube-VIS 2019, YouTube-VIS 2021, and OVIS validation sets, notably narrowing the gap between box-supervised and fully supervised VIS methods. | 翻訳日:2024-04-23 15:16:29 公開日:2024-04-22 |
# コンテクスト強化型言語モデルによる複数ページ共振器の生成
Context-Enhanced Language Models for Generating Multi-Paper Citations ( http://arxiv.org/abs/2404.13865v1 ) ライセンス: Link先を確認 | Avinash Anand, Kritarth Prasad, Ujjwal Goel, Mohit Gupta, Naman Lal, Astha Verma, Rajiv Ratn Shah, | (参考訳) 引用された論文の詳細な理解を求める科学文書間の関係を解明する上で,引用文は重要な役割を担っている。
引用の作成には時間を要することが多く、研究者は広い文献を掘り下げて、関連する内容を明確に述べる必要がある。
この課題に対処するため、引用テキスト生成(CTG)の分野が出現した。
しかし、従来の手法は主に単文引用の作成に重点を置いていたが、実際的なシナリオでは1段落内に複数の論文を引用する必要があることが多い。
このギャップを埋めるために,Large Language Models (LLM) を用いて多文文を生成する手法を提案する。
提案手法は,複数文の引用文を含むコヒーレントな段落に終止符を打つ,単一のソース・ペーパーと対象論文の集合を包含する。
さらに,計算機科学における英語の学術論文からなるMCG-S2ORCというキュレートデータセットを導入し,複数の引用事例を示す。
実験では,LLaMA,Alpaca,Vicunaの3つのLLMを評価し,この取り組みにおいて最も有効なモデルを確認した。
さらに,対象論文からの知識グラフを引用文生成のプロンプトに組み込むことにより,性能の向上を図っている。
この研究は、LLMを引用生成に活用する可能性を強調し、科学文書間の複雑な関係を探求するための魅力的な道を開く。
Citation text plays a pivotal role in elucidating the connection between scientific documents, demanding an in-depth comprehension of the cited paper. Constructing citations is often time-consuming, requiring researchers to delve into extensive literature and grapple with articulating relevant content. To address this challenge, the field of citation text generation (CTG) has emerged. However, while earlier methods have primarily centered on creating single-sentence citations, practical scenarios frequently necessitate citing multiple papers within a single paragraph. To bridge this gap, we propose a method that leverages Large Language Models (LLMs) to generate multi-citation sentences. Our approach involves a single source paper and a collection of target papers, culminating in a coherent paragraph containing multi-sentence citation text. Furthermore, we introduce a curated dataset named MCG-S2ORC, composed of English-language academic research papers in Computer Science, showcasing multiple citation instances. In our experiments, we evaluate three LLMs LLaMA, Alpaca, and Vicuna to ascertain the most effective model for this endeavor. Additionally, we exhibit enhanced performance by integrating knowledge graphs from target papers into the prompts for generating citation text. This research underscores the potential of harnessing LLMs for citation generation, opening a compelling avenue for exploring the intricate connections between scientific documents. | 翻訳日:2024-04-23 15:16:29 公開日:2024-04-22 |
# 確率微分方程式の観点からのプラグ・アンド・プレイアルゴリズムの収束解析
Plug-and-Play Algorithm Convergence Analysis From The Standpoint of Stochastic Differential Equation ( http://arxiv.org/abs/2404.13866v1 ) ライセンス: Link先を確認 | Zhongqi Wang, Bingnan Wang, Maosheng Xiang, | (参考訳) Plug-and-Play(PnP)アルゴリズムは、逆画像問題解決に人気がある。
しかし、このアルゴリズムはより先進的なプラグインデノイザによる収束の理論的な解析を欠いている。
離散的なPnP反復は連続確率微分方程式(SDE)によって記述できることを示す。
また、この変換はPnPのマルコフ過程の定式化によって達成できる。
次に、確率微分方程式からPnPアルゴリズムのより高い視点を捉え、対応するSDEの可解性条件に従ってPnPの収束性に関する統一的な枠組みを与える。
より弱い条件であるリプシッツ連続測定関数を持つ有界デノイザは、以前のリプシッツ連続デノイザ条件の代わりに収束を保証するのに十分であることを示した。
The Plug-and-Play (PnP) algorithm is popular for inverse image problem-solving. However, this algorithm lacks theoretical analysis of its convergence with more advanced plug-in denoisers. We demonstrate that discrete PnP iteration can be described by a continuous stochastic differential equation (SDE). We can also achieve this transformation through Markov process formulation of PnP. Then, we can take a higher standpoint of PnP algorithms from stochastic differential equations, and give a unified framework for the convergence property of PnP according to the solvability condition of its corresponding SDE. We reveal that a much weaker condition, bounded denoiser with Lipschitz continuous measurement function would be enough for its convergence guarantee, instead of previous Lipschitz continuous denoiser condition. | 翻訳日:2024-04-23 15:16:29 公開日:2024-04-22 |
# 基本量子極限における確率波形推定
Stochastic waveform estimation at the fundamental quantum limit ( http://arxiv.org/abs/2404.13867v1 ) ライセンス: Link先を確認 | James W. Gardner, Tuvia Gefen, Simon A. Haine, Joseph J. Hope, John Preskill, Yanbei Chen, Lee McCuller, | (参考訳) 弱い古典的な力の定性的な波形を測定することはよく研究されている問題であるが、確率的信号場のスペクトル密度などのランダムな波形を推定することは、実験物理学の最前線で広く行われているタスクであるにもかかわらず、はるかによく理解されていない。
ランダムな力の最先端の精密センサは、測定の根底にある量子の性質を考慮しなければならないが、そのような線形センサを問うための最適な量子プロトコルは分かっていない。
我々は、基本的な精度限界、拡張されたチャネル量子Cram\'er-Rao境界、それに到達する最適なプロトコルを導出する。
損失が支配的な実験的な状況下では、最適性には非ガウス状態の準備と測定が必要であることが証明される。
我々は、この非ガウス的プロトコルが量子重力、確率重力波、および軸イオンダークマターのシグネチャの探索を改善する方法について論じる。
Although measuring the deterministic waveform of a weak classical force is a well-studied problem, estimating a random waveform, such as the spectral density of a stochastic signal field, is much less well-understood despite it being a widespread task at the frontier of experimental physics. State-of-the-art precision sensors of random forces must account for the underlying quantum nature of the measurement, but the optimal quantum protocol for interrogating such linear sensors is not known. We derive the fundamental precision limit, the extended channel quantum Cram\'er-Rao bound, and the optimal protocol that attains it. In the experimentally relevant regime where losses dominate, we prove that non-Gaussian state preparation and measurements are required for optimality. We discuss how this non-Gaussian protocol could improve searches for signatures of quantum gravity, stochastic gravitational waves, and axionic dark matter. | 翻訳日:2024-04-23 15:16:29 公開日:2024-04-22 |
# TeamTrack: マルチスポーツマルチオブジェクトトラッキングのためのフルピッチビデオ用データセット
TeamTrack: A Dataset for Multi-Sport Multi-Object Tracking in Full-pitch Videos ( http://arxiv.org/abs/2404.13868v1 ) ライセンス: Link先を確認 | Atom Scott, Ikuma Uchida, Ning Ding, Rikuhei Umemoto, Rory Bunker, Ren Kobayashi, Takeshi Koyama, Masaki Onishi, Yoshinari Kameda, Keisuke Fujii, | (参考訳) マルチオブジェクトトラッキング(MOT)はコンピュータビジョンにおいて重要な課題であり、特にチームスポーツで見られるように、類似した外観だが多様な動きを持つ物体を含む状況においてである。
現在の手法は、オブジェクトの検出と外観に大きく依存しているが、そのような複雑なシナリオにおけるターゲットの追跡に失敗することが多い。
この制限は、スポーツピッチの全体像をカバーする包括的で多様なデータセットの欠如によってさらに悪化する。
これらの問題に対処するため,スポーツにおけるMOTに特化したベンチマークデータセットであるTeamTrackを紹介した。
TeamTrackは、サッカー、バスケットボール、ハンドボールなど、さまざまなスポーツのフルピッチビデオデータを集めたコレクションだ。
さらに、TeamTrackの実用性と潜在的な影響を評価するために、包括的な分析とベンチマークを実施しています。
私たちの仕事は、チームスポーツのような複雑なダイナミックな環境でのMOTの精度と有効性を高めることを約束する重要な一歩を示しています。
データセット、プロジェクトコード、コンペティションは、https://atomscott.github.io/TeamTrack/.comで公開されている。
Multi-object tracking (MOT) is a critical and challenging task in computer vision, particularly in situations involving objects with similar appearances but diverse movements, as seen in team sports. Current methods, largely reliant on object detection and appearance, often fail to track targets in such complex scenarios accurately. This limitation is further exacerbated by the lack of comprehensive and diverse datasets covering the full view of sports pitches. Addressing these issues, we introduce TeamTrack, a pioneering benchmark dataset specifically designed for MOT in sports. TeamTrack is an extensive collection of full-pitch video data from various sports, including soccer, basketball, and handball. Furthermore, we perform a comprehensive analysis and benchmarking effort to underscore TeamTrack's utility and potential impact. Our work signifies a crucial step forward, promising to elevate the precision and effectiveness of MOT in complex, dynamic settings such as team sports. The dataset, project code and competition is released at: https://atomscott.github.io/TeamTrack/. | 翻訳日:2024-04-23 15:16:29 公開日:2024-04-22 |
# FreqBlender: 周波数知識のブレンディングによるディープフェイク検出の強化
FreqBlender: Enhancing DeepFake Detection by Blending Frequency Knowledge ( http://arxiv.org/abs/2404.13872v1 ) ライセンス: Link先を確認 | Hanzhe Li, Jiaran Zhou, Bin Li, Junyu Dong, Yuezun Li, | (参考訳) 擬似フェイク顔と呼ばれる合成偽顔を生成することは、ディープフェイク検出の一般化を改善する効果的な方法である。
既存の方法では、色空間に実際の顔と偽の顔とを混ぜてこれらの顔を生成するのが一般的である。
これらの手法は将来性を示しているが、擬似フェイク顔における周波数分布のシミュレーションを見落とし、奥行きの一般的な偽跡の学習を制限する。
そこで本研究では,周波数知識をブレンドして擬似フェイク顔を生成する新しい手法である {\em FreqBlender} を紹介する。
具体的には、主要な周波数成分を調査し、フォージェリートレースに関連する周波数成分を適応的に分割する周波数パーシングネットワークを提案する。
そして、この周波数知識を偽の顔から実際の顔にブレンドし、偽の偽の顔を生成する。
周波数成分には基礎的な真理が存在しないため、異なる周波数知識の内的相関を利用して学習過程を指導することで、専用の学習戦略を記述する。
実験により,DeepFake検出の高速化に本手法の有効性が示され,他の手法のプラグ・アンド・プレイ戦略の可能性が確認された。
Generating synthetic fake faces, known as pseudo-fake faces, is an effective way to improve the generalization of DeepFake detection. Existing methods typically generate these faces by blending real or fake faces in color space. While these methods have shown promise, they overlook the simulation of frequency distribution in pseudo-fake faces, limiting the learning of generic forgery traces in-depth. To address this, this paper introduces {\em FreqBlender}, a new method that can generate pseudo-fake faces by blending frequency knowledge. Specifically, we investigate the major frequency components and propose a Frequency Parsing Network to adaptively partition frequency components related to forgery traces. Then we blend this frequency knowledge from fake faces into real faces to generate pseudo-fake faces. Since there is no ground truth for frequency components, we describe a dedicated training strategy by leveraging the inner correlations among different frequency knowledge to instruct the learning process. Experimental results demonstrate the effectiveness of our method in enhancing DeepFake detection, making it a potential plug-and-play strategy for other methods. | 翻訳日:2024-04-23 15:16:29 公開日:2024-04-22 |
# シークエンシャルディープフェイク検出のためのテクスチャ認識・形状誘導変換器
Texture-aware and Shape-guided Transformer for Sequential DeepFake Detection ( http://arxiv.org/abs/2404.13873v1 ) ライセンス: Link先を確認 | Yunfei Li, Jiaran Zhou, Xin Wang, Junyu Dong, Yuezun Li, | (参考訳) シークエンシャルディープフェイク検出は、順番に操作シーケンスを予測することを目的とした、新たなタスクである。
既存の手法ではイメージ・ツー・シーケンスの問題として定式化され、従来のTransformerアーキテクチャを用いて検出を行う。
しかし、これらの手法には専用の設計がなく、結果として性能が制限される。
本稿では,新しいテクスチャ認識型および形状誘導型トランスを提案し,検出性能を向上させる。
我々の方法には4つの大きな改善がある。
まず、Diversiform Pixel Difference Attentionモジュールで微妙な修正トレースを効果的にキャプチャするテクスチャ対応ブランチについて説明する。
次に,空間的特徴と逐次的特徴の間に深い相関関係を求める双方向インタラクション・クロスアテンション・モジュールを導入し,複雑な操作トレースを効果的にモデル化する。
クロスアテンションをさらに強化するため,形状誘導型ガウス写像戦略について述べる。
最後に、列における後者の操作が、先行するトレースに影響を及ぼす可能性があることを観察し、予測順序を前方から後方に反転させ、予想通り顕著な利得をもたらす。
実験結果から,本手法が他の手法よりも優れていることを示すとともに,本手法の優位性も明らかにした。
Sequential DeepFake detection is an emerging task that aims to predict the manipulation sequence in order. Existing methods typically formulate it as an image-to-sequence problem, employing conventional Transformer architectures for detection. However, these methods lack dedicated design and consequently result in limited performance. In this paper, we propose a novel Texture-aware and Shape-guided Transformer to enhance detection performance. Our method features four major improvements. Firstly, we describe a texture-aware branch that effectively captures subtle manipulation traces with the Diversiform Pixel Difference Attention module. Then we introduce a Bidirectional Interaction Cross-attention module that seeks deep correlations among spatial and sequential features, enabling effective modeling of complex manipulation traces. To further enhance the cross-attention, we describe a Shape-guided Gaussian mapping strategy, providing initial priors of the manipulation shape. Finally, observing that the latter manipulation in a sequence may influence traces left in the earlier one, we intriguingly invert the prediction order from forward to backward, leading to notable gains as expected. Extensive experimental results demonstrate that our method outperforms others by a large margin, highlighting the superiority of our method. | 翻訳日:2024-04-23 15:16:29 公開日:2024-04-22 |
# VALOR-EVAL:大規模視覚言語モデルの全体被覆と忠実度評価
VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models ( http://arxiv.org/abs/2404.13874v1 ) ライセンス: Link先を確認 | Haoyi Qiu, Wenbo Hu, Zi-Yi Dou, Nanyun Peng, | (参考訳) LVLM (Large Vision-Language Models) は幻覚に悩まされ、そのモデルが可聴音を生成するが、実際には誤出力を生成し、信頼性を損なう。
これらのモデルにおける幻覚の程度を同定し、理解するためには、包括的な定量的評価が必要である。
しかしながら、既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
さらに、現在の評価手法では、モデル出力と参照データとの微妙なセマンティックな区別と、幻覚と情報性のバランスを効果的に解決するのに苦労している。
これらの問題に対処するために, 対象, 属性, 関係性をカバーする多次元ベンチマークを導入する。
さらに,一般的なCHAIRメトリックを一般化し,忠実度と包括性の両方を評価に取り入れた,LLMに基づく2段階評価フレームワークを提案する。
確立された10のLVLMの実験では、人間の注釈付きベンチマークデータセットを評価する際に、既存の作業よりも評価指標がより包括的で人間との相関性が高いことが示されている。
我々の研究は、モデル出力の忠実さと包括性の間の重要なバランスを強調し、将来の研究がLVLMの幻覚に対処しつつ、アウトプットを情報的に保つことを奨励している。
Large Vision-Language Models (LVLMs) suffer from hallucination issues, wherein the models generate plausible-sounding but factually incorrect outputs, undermining their reliability. A comprehensive quantitative evaluation is necessary to identify and understand the extent of hallucinations in these models. However, existing benchmarks are often limited in scope, focusing mainly on object hallucinations. Furthermore, current evaluation methods struggle to effectively address the subtle semantic distinctions between model outputs and reference data, as well as the balance between hallucination and informativeness. To address these issues, we introduce a multi-dimensional benchmark covering objects, attributes, and relations, with challenging images selected based on associative biases. Moreover, we propose an large language model (LLM)-based two-stage evaluation framework that generalizes the popular CHAIR metric and incorporates both faithfulness and coverage into the evaluation. Experiments on 10 established LVLMs demonstrate that our evaluation metric is more comprehensive and better correlated with humans than existing work when evaluating on our challenging human annotated benchmark dataset. Our work also highlights the critical balance between faithfulness and coverage of model outputs, and encourages future works to address hallucinations in LVLMs while keeping their outputs informative. | 翻訳日:2024-04-23 15:16:29 公開日:2024-04-22 |
# 単一量子モンテカルロシミュレーションにおけるユニバーサルコーナーエンタングルメントエントロピーの抽出
Extract Universal Corner Entanglement Entropy in a Single Quantum Monte Carlo Simulation ( http://arxiv.org/abs/2404.13876v1 ) ライセンス: Link先を確認 | Yuan Da Liao, Menghan Song, Jiarui Zhao, Zi Yang Meng, | (参考訳) 量子臨界点(QCP)の普遍的な特性を明らかにするためには,エンタングルメントエントロピー(EE)における下位角対数補正が重要であるが,検出は困難である。
2+1)D量子多体系におけるEEの安定計算の最近の発展により、計算コストを下げてEEのコーナーコントリビューションを直接測定する新たな方法が開発されている。
提案手法の基盤は, 量子モンテカルロシミュレーションにおいて, 同じ境界長を持つ部分領域のEEとスムーズな角絡み境界との差として定義される減算角絡みエントロピー(SCEE)を測定することである。
改良された手法は,脳の領域法用語だけでなく,ゴールドストーンモードから生じる下降対数補正も本質的に排除し,ユニバーサルコーナーコントリビューションをSCEEの先駆的用語として残している。
この先進的手法を用いて,2+1)D O(3) QCPの角開口角が異なる正方格子およびハニカム格子上の2層ハイゼンベルクモデルのSCEEを計算し,対応する普遍角対数係数の正確な値を求める。
これらの発見は、この分野におけるさらなる理論的研究を促進するだろう。
The subleading corner logarithmic corrections in entanglement entropy (EE) are crucial for revealing universal characteristics of the quantum critical points (QCPs), but they are challenging to detect. Motivated by recent developments of stable computation of EE in (2+1)D quantum many body systems, we develop a new method for directly measuring the corner contribution in EE with less computational cost. The cornerstone of our approach is to measure the subtracted corner entanglement entropy (SCEE) defined as the difference between the EEs of subregions with the same boundary length for smooth and corner entanglement boundaries in \textit{a single} quantum Monte Carlo simulation. Our improved method inherently eliminates not only the area law term of EE but also the subleading log-corrections arising from Goldstone modes, leaving the universal corner contribution as the leading term of SCEE. Utilizing this advanced approach, we calculate the SCEE of the bilayer Heisenberg model on both square and honeycomb lattices across their (2+1)D O(3) QCPs with different corner opening angles and obtain the accurate values of the corresponding universal corner log-coefficients. These findings will encourage further theoretical investigations in this field. | 翻訳日:2024-04-23 15:16:29 公開日:2024-04-22 |
# 明示的なリプシッツ値推定は摂動に対する政策ロバスト性を高める
Explicit Lipschitz Value Estimation Enhances Policy Robustness Against Perturbation ( http://arxiv.org/abs/2404.13879v1 ) ライセンス: Link先を確認 | Xulin Chen, Ruipeng Liu, Garrett E. Katz, | (参考訳) ロボット制御タスクでは、シミュレーションにおいて強化学習(RL)によって訓練されたポリシーは、実世界のモデリングエラー、測定エラー、予測不可能な摂動により、物理ハードウェアにデプロイされた場合、しばしばパフォーマンス低下を経験する。
ロバストなRL法は、トレーニング中に最悪の値関数を近似することでこの問題に対処するが、それらは、値関数の近似誤差と、トレーニングが完了する前の勾配に敏感である。
本稿では,リプシッツ正則化が近似値関数勾配の条件付けに役立ち,訓練後のロバスト性の向上につながると仮定する。
リプシッツ正則化とFast Gradient Sign Methodを併用して,対向摂動下での値関数の評価において近似誤差を低減することにより,この仮説を検証した。
私たちの経験的な結果は、多くの継続的制御ベンチマークの事前作業よりも、このアプローチの利点を実証しています。
In robotic control tasks, policies trained by reinforcement learning (RL) in simulation often experience a performance drop when deployed on physical hardware, due to modeling error, measurement error, and unpredictable perturbations in the real world. Robust RL methods account for this issue by approximating a worst-case value function during training, but they can be sensitive to approximation errors in the value function and its gradient before training is complete. In this paper, we hypothesize that Lipschitz regularization can help condition the approximated value function gradients, leading to improved robustness after training. We test this hypothesis by combining Lipschitz regularization with an application of Fast Gradient Sign Method to reduce approximation errors when evaluating the value function under adversarial perturbations. Our empirical results demonstrate the benefits of this approach over prior work on a number of continuous control benchmarks. | 翻訳日:2024-04-23 15:16:29 公開日:2024-04-22 |
# 地域風と色移動
Regional Style and Color Transfer ( http://arxiv.org/abs/2404.13880v1 ) ライセンス: Link先を確認 | Zhicheng Ding, Panfeng Li, Qikai Yang, Xinyu Shen, Siyang Li, Qingtian Gong, | (参考訳) 本稿では,地域スタイル移行の分野への新たな貢献について述べる。
既存の手法は、画像全体にわたって均一にスタイルを適用するという欠点に悩まされることが多く、人物像などの前景要素を持つ画像に適用した場合、スタイル上の不整合や前景オブジェクトがねじれてしまう。
この制限に対処するために、セグメント化ネットワークを利用して入力画像内の前景オブジェクトを正確に分離する新しいアプローチを提案する。
その後、背景領域にのみスタイル転送が適用される。
分離されたフォアグラウンドオブジェクトは、慎重にスタイル変換された背景に再統合される。
前景と背景との視覚的コヒーレンスを高めるために、再法人化前の前景要素に色転写ステップを用いる。
最後に,羽ばたき技術を用いて,前景と背景のシームレスな融合を実現し,視覚的に統一され,美的な最終構成を実現する。
その結果,提案手法は従来の手法に比べて,より自然なスタイル変換をもたらすことがわかった。
This paper presents a novel contribution to the field of regional style transfer. Existing methods often suffer from the drawback of applying style homogeneously across the entire image, leading to stylistic inconsistencies or foreground object twisted when applied to image with foreground elements such as person figures. To address this limitation, we propose a new approach that leverages a segmentation network to precisely isolate foreground objects within the input image. Subsequently, style transfer is applied exclusively to the background region. The isolated foreground objects are then carefully reintegrated into the style-transferred background. To enhance the visual coherence between foreground and background, a color transfer step is employed on the foreground elements prior to their rein-corporation. Finally, we utilize feathering techniques to achieve a seamless amalgamation of foreground and background, resulting in a visually unified and aesthetically pleasing final composition. Extensive evaluations demonstrate that our proposed approach yields significantly more natural stylistic transformations compared to conventional methods. | 翻訳日:2024-04-23 15:16:29 公開日:2024-04-22 |
# 磁場中における荷電ブラウン粒子の脱コヒーレンス : 位置と運動量変数によるカップリングの役割の解析
Decoherence of a charged Brownian particle in a magnetic field : an analysis of the roles of coupling via position and momentum variables ( http://arxiv.org/abs/2404.13883v1 ) ライセンス: Link先を確認 | Suraka Bhattacharjee, Koushik Mandal, Suraka Bhattacharjee, | (参考訳) デコヒーレンスの研究は、量子から古典世界への遷移を理解する上で重要な役割を担っている。
典型的には、開放量子系のモデルを形成する外部浴に結合した系を考える。
研究の大部分はシステムと環境の間の位置結合に関するものであるが、運動量結合を伴い、異常な拡散モデルを引き起こすものもある。
ここでは、既存の研究を超えて、磁場の存在下で調和的に振動するブラウン粒子の量子ランゲヴィン力学を解析し、位置と運動量結合の両方を通してオーミック熱浴に結合した。
位置カップリングと運動量カップリングの両方の存在は環境との相互作用を強くし、位置カップリングのみが存在する状況に比べてコヒーレンスが失われる。
位置と運動量結合パラメータの相対強度を制御することにより、デコヒーレンス率を調整できる。
さらに、磁場は、システムと浴とのカップリングの性質に関係なく、システムからの情報の損失を遅くする。
本結果は, 適切なイオントラップを設計することで実験的に検証できる。
The study of decoherence plays a key role in our understanding of the transition from the quantum to the classical world. Typically, one considers a system coupled to an external bath which forms a model for an open quantum system. While most of the studies pertain to a position coupling between the system and the environment, some involve a momentum coupling, giving rise to an anomalous diffusive model. Here we have gone beyond existing studies and analysed the quantum Langevin dynamics of a harmonically oscillating charged Brownian particle in the presence of a magnetic field and coupled to an Ohmic heat bath via both position and momentum couplings. The presence of both position and momentum couplings leads to a stronger interaction with the environment, resulting in a faster loss of coherence compared to a situation where only position coupling is present. The rate of decoherence can be tuned by controlling the relative strengths of the position and momentum coupling parameters. In addition, the magnetic field results in the slowing down of the loss of information from the system, irrespective of the nature of coupling between the system and the bath. Our results can be experimentally verified by designing a suitable ion trap setup. | 翻訳日:2024-04-23 15:16:29 公開日:2024-04-22 |
# MambaUIE&SR:2.8 FLOPsで海の秘密を解き放つ
MambaUIE&SR: Unraveling the Ocean's Secrets with Only 2.8 FLOPs ( http://arxiv.org/abs/2404.13884v1 ) ライセンス: Link先を確認 | Zhihao Chen, Yiyuan Ge, | (参考訳) 水中画像強調(UIE)技術は,光吸収・散乱による水中画像劣化問題に対処することを目的としている。
近年、畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースの手法が広く研究されている。
さらに、CNNとTransformerを組み合わせることで、グローバルとローカルの情報を効果的に組み合わせて強化することができる。
しかし、このアプローチはTransformerの二次的な複雑さの影響を受けており、パフォーマンスを最大化することはできない。
近年,状態空間モデル(SSM)に基づくアーキテクチャであるMambaが提案されている。
本稿では、このSSMベースのUIEモデルの可能性について、効率性と有効性の両方の観点から検討する。
しかし, 画像強調に欠かせない局所的なきめ細かい特徴を十分に活用できないため, 直接マンバを施す性能は低い。
具体的には、効率的なUIEのためにMambaUIEアーキテクチャをカスタマイズする。
具体的には、ローカル情報をマイクロレベルでマイニングしながら、マクロレベルでグローバルなコンテキスト情報をキャプチャするために、視覚状態空間(VSS)ブロックを導入する。
また、これらの2種類の情報に対して、ブロック内特徴集約のための動的相互作用ブロック(DIB)と空間フィードフォワードネットワーク(SGFN)を提案する。
MambaUIEは、グローバルおよびローカル情報を効率的に合成することができ、非常に少数のパラメータを高い精度で保持する。
UIEBデータセットを用いた実験により,本手法はSOTA法と比較してGFLOPsを67.4%削減することがわかった。
我々の知る限りでは、これはSSMに基づいて構築された最初のUIEモデルであり、UIEの精度に関するFLOPの制限を破るものです。
MambaUIE at https://github.com/1024AILab/MambaUIE.com
Underwater Image Enhancement (UIE) techniques aim to address the problem of underwater image degradation due to light absorption and scattering. In recent years, both Convolution Neural Network (CNN)-based and Transformer-based methods have been widely explored. In addition, combining CNN and Transformer can effectively combine global and local information for enhancement. However, this approach is still affected by the secondary complexity of the Transformer and cannot maximize the performance. Recently, the state-space model (SSM) based architecture Mamba has been proposed, which excels in modeling long distances while maintaining linear complexity. This paper explores the potential of this SSM-based model for UIE from both efficiency and effectiveness perspectives. However, the performance of directly applying Mamba is poor because local fine-grained features, which are crucial for image enhancement, cannot be fully utilized. Specifically, we customize the MambaUIE architecture for efficient UIE. Specifically, we introduce visual state space (VSS) blocks to capture global contextual information at the macro level while mining local information at the micro level. Also, for these two kinds of information, we propose a Dynamic Interaction Block (DIB) and Spatial feed-forward Network (SGFN) for intra-block feature aggregation. MambaUIE is able to efficiently synthesize global and local information and maintains a very small number of parameters with high accuracy. Experiments on UIEB datasets show that our method reduces GFLOPs by 67.4% (2.715G) relative to the SOTA method. To the best of our knowledge, this is the first UIE model constructed based on SSM that breaks the limitation of FLOPs on accuracy in UIE. The official repository of MambaUIE at https://github.com/1024AILab/MambaUIE. | 翻訳日:2024-04-23 15:16:29 公開日:2024-04-22 |
# 大規模言語モデル間の位置合わせ調査V. 持続可能な開発目標に向けての人間
Surveying Attitudinal Alignment Between Large Language Models Vs. Humans Towards 17 Sustainable Development Goals ( http://arxiv.org/abs/2404.13885v1 ) ライセンス: Link先を確認 | Qingyang Wu, Ying Xu, Tingsong Xiao, Yunze Xiao, Yitong Li, Tianyang Wang, Yichi Zhang, Shanghai Zhong, Yuwei Zhang, Wei Lu, Yifan Yang, | (参考訳) 大規模言語モデル(LLM)は、国連の持続可能な開発目標(SDG)を推進するための強力なツールとして登場した。
しかし、これらの目標に向けてのLLMと人間間の微妙な相違は、重大な課題を引き起こす可能性がある。
本研究は, LLM の17 SDG に対する態度に関する文献の総合的なレビューと分析を行い, それぞれの目標に対する態度と支援の相違を強調した。
本研究は,理解と感情,文化的・地域的差異,課題目的の変化,意思決定プロセスにおいて考慮される要因など,潜在的な相違について検討する。
これらの格差は、LLMのトレーニングデータ、歴史的バイアス、品質問題、文脈的理解の欠如、および歪んだ倫理的価値観の不足から生じる。
この研究は、社会的不平等の悪化、人種差別、環境破壊、資源の浪費など、LSMのSDGに対する態度を無視して生じるリスクや害についても調査している。
これらの課題に対処するため,我々はLSMの適用の指針と規制,SDGの原則と目標との整合性を確保するための戦略と勧告を提案し,それによってよりシンプルで包括的で持続可能な未来を創出する。
Large Language Models (LLMs) have emerged as potent tools for advancing the United Nations' Sustainable Development Goals (SDGs). However, the attitudinal disparities between LLMs and humans towards these goals can pose significant challenges. This study conducts a comprehensive review and analysis of the existing literature on the attitudes of LLMs towards the 17 SDGs, emphasizing the comparison between their attitudes and support for each goal and those of humans. We examine the potential disparities, primarily focusing on aspects such as understanding and emotions, cultural and regional differences, task objective variations, and factors considered in the decision-making process. These disparities arise from the underrepresentation and imbalance in LLM training data, historical biases, quality issues, lack of contextual understanding, and skewed ethical values reflected. The study also investigates the risks and harms that may arise from neglecting the attitudes of LLMs towards the SDGs, including the exacerbation of social inequalities, racial discrimination, environmental destruction, and resource wastage. To address these challenges, we propose strategies and recommendations to guide and regulate the application of LLMs, ensuring their alignment with the principles and goals of the SDGs, and therefore creating a more just, inclusive, and sustainable future. | 翻訳日:2024-04-23 15:05:13 公開日:2024-04-22 |
# 最適オンラインミラーダイスによる重み付き対実レグレストの最小化
Minimizing Weighted Counterfactual Regret with Optimistic Online Mirror Descent ( http://arxiv.org/abs/2404.13891v1 ) ライセンス: Link先を確認 | Hang Xu, Kai Li, Bingyun Liu, Haobo Fu, Qiang Fu, Junliang Xing, Jian Cheng, | (参考訳) 反事実的後悔の最小化(英: Counterfactual regret minimization, CFR)は、不完全情報ゲーム(英語版)を効果的に解くアルゴリズムの一群である。
これは、Regret Matching (RM) や RM+ などの局所的後悔最小化アルゴリズムを利用して、全後悔を偽りの後悔に分解する。
近年の研究では、オンラインミラー蛍光(OMD)とRM+の関係を確立し、楽観的なPRM+とその拡張PCFR+への道を開いた。
しかし、PCFR+は、後悔を決定するときに各イテレーションに一様重みを割り当て、支配的な行動に直面した時にかなりの後悔をもたらす。
この研究は、楽観的な OMD による重み付き反事実的後悔の最小化を探求し、その結果、新しい CFR 変種 PDCFR+ が生み出された。
PCFR+ と Discounted CFR (DCFR) を原則的に統合し、支配的な行動の負の効果を迅速に緩和し、収束を加速する予測を一貫して活用する。
理論的解析により、PDCFR+はナッシュ平衡に収束し、特に後悔と平均戦略の異なる重み付けスキームの下にあることが証明された。
PDCFR+は不完全情報ゲームにおいて高速収束を示す実験結果が得られた。
コードはhttps://github.com/rpSebastian/PDCFRPlusで公開されている。
Counterfactual regret minimization (CFR) is a family of algorithms for effectively solving imperfect-information games. It decomposes the total regret into counterfactual regrets, utilizing local regret minimization algorithms, such as Regret Matching (RM) or RM+, to minimize them. Recent research establishes a connection between Online Mirror Descent (OMD) and RM+, paving the way for an optimistic variant PRM+ and its extension PCFR+. However, PCFR+ assigns uniform weights for each iteration when determining regrets, leading to substantial regrets when facing dominated actions. This work explores minimizing weighted counterfactual regret with optimistic OMD, resulting in a novel CFR variant PDCFR+. It integrates PCFR+ and Discounted CFR (DCFR) in a principled manner, swiftly mitigating negative effects of dominated actions and consistently leveraging predictions to accelerate convergence. Theoretical analyses prove that PDCFR+ converges to a Nash equilibrium, particularly under distinct weighting schemes for regrets and average strategies. Experimental results demonstrate PDCFR+'s fast convergence in common imperfect-information games. The code is available at https://github.com/rpSebastian/PDCFRPlus. | 翻訳日:2024-04-23 15:05:12 公開日:2024-04-22 |
# Retrieval-Augmented Audio Deepfake Detection
Retrieval-Augmented Audio Deepfake Detection ( http://arxiv.org/abs/2404.13892v1 ) ライセンス: Link先を確認 | Zuheng Kang, Yayun He, Botao Zhao, Xiaoyang Qu, Junqing Peng, Jing Xiao, Jianzong Wang, | (参考訳) テキスト音声合成(TTS)や音声変換(VC)システムなどの音声合成の進歩により、超現実的なオーディオディープフェイクの生成が可能になったため、その潜在的な誤用に対する懸念が高まっている。
しかし、ほとんどのディープフェイク(DF)検出方法は単一のモデルで学んだファジィな知識にのみ依存しており、結果としてパフォーマンスのボトルネックと透明性の問題が発生する。
検索拡張生成(RAG)に着想を得て,検索拡張検出(RAD)フレームワークを提案する。
また、マルチフュージョン注意分類器を拡張し、提案したRADフレームワークと統合する。
ASVspoof 2021 DF セットの最先端結果と2019 と 2021 LA セットの競争結果の達成により,提案した RAD フレームワークのベースライン法よりも優れた性能を示した。
さらなるサンプル分析により、検索者は、クエリ音声と高度に整合した音響特性を持つ同一話者から、ほぼ一貫してサンプルを検索し、検出性能を向上させることが示唆された。
With recent advances in speech synthesis including text-to-speech (TTS) and voice conversion (VC) systems enabling the generation of ultra-realistic audio deepfakes, there is growing concern about their potential misuse. However, most deepfake (DF) detection methods rely solely on the fuzzy knowledge learned by a single model, resulting in performance bottlenecks and transparency issues. Inspired by retrieval-augmented generation (RAG), we propose a retrieval-augmented detection (RAD) framework that augments test samples with similar retrieved samples for enhanced detection. We also extend the multi-fusion attentive classifier to integrate it with our proposed RAD framework. Extensive experiments show the superior performance of the proposed RAD framework over baseline methods, achieving state-of-the-art results on the ASVspoof 2021 DF set and competitive results on the 2019 and 2021 LA sets. Further sample analysis indicates that the retriever consistently retrieves samples mostly from the same speaker with acoustic characteristics highly consistent with the query audio, thereby improving detection performance. | 翻訳日:2024-04-23 15:05:12 公開日:2024-04-22 |
# フィードバックの最適設計
Optimal Design for Human Feedback ( http://arxiv.org/abs/2404.13895v1 ) ライセンス: Link先を確認 | Subhojyoti Mukherjee, Anusha Lalitha, Kousha Kalantari, Aniket Deshmukh, Ge Liu, Yifei Ma, Branislav Kveton, | (参考訳) 人間のフィードバックから好みモデルを学ぶことは、人工知能の最近の進歩の中心である。
この進歩と、高品質な人文アノテーションの入手コストに動機付けられ、学習嗜好モデルにおけるデータ収集の問題について検討する。
私たちの作業におけるキーとなる考え方は、効率的なデータロギングポリシーを計算するためのツールである最適な設計をランキングリストに一般化することです。
提案するアイデアの汎用性を示すため,リスト内の項目に対する絶対的および相対的フィードバックについて検討する。
設定と解析の両方に効率的なアルゴリズムを設計する。
選好モデル推定器は、より多くのデータで改善され、推定器のランク付け誤差も改善されることを実証する。
最後に、アルゴリズムの統計的効率を示すために、いくつかの合成および実世界のデータセットを実験した。
Learning of preference models from human feedback has been central to recent advances in artificial intelligence. Motivated by this progress, and the cost of obtaining high-quality human annotations, we study the problem of data collection for learning preference models. The key idea in our work is to generalize optimal designs, a tool for computing efficient data logging policies, to ranked lists. To show the generality of our ideas, we study both absolute and relative feedback on items in the list. We design efficient algorithms for both settings and analyze them. We prove that our preference model estimators improve with more data and so does the ranking error under the estimators. Finally, we experiment with several synthetic and real-world datasets to show the statistical efficiency of our algorithms. | 翻訳日:2024-04-23 15:05:12 公開日:2024-04-22 |
# CT-NeRF:増分最適化ニューラルラジアンス場と複雑な軌跡を持つ可能性
CT-NeRF: Incremental Optimizing Neural Radiance Field and Poses with Complex Trajectory ( http://arxiv.org/abs/2404.13896v1 ) ライセンス: Link先を確認 | Yunlong Ran, Yanxu Li, Qi Ye, Yuchi Huo, Zechun Bai, Jiahao Sun, Jiming Chen, | (参考訳) ニューラルレイディアンス場(NeRF)は高品質な3次元シーン再構成において顕著な成果を上げている。
しかし、NeRFは正確なカメラのポーズに大きく依存している。
BARFのような最近の研究は、NeRF内にカメラポーズ最適化を導入しているが、その適用性は単純な軌跡シーンに限られている。
既存の方法は、大きな回転を含む複雑な軌道に対処しながら苦労する。
この制限に対処するために,ポーズや深さの入力を伴わずにRGB画像のみを用いた逐次再構成最適化パイプラインであるCT-NeRFを提案する。
本稿では,まず,周辺フレームを接続するポーズグラフに基づいて,シーン構造との整合性のみによって生じる局所的なミニマから逃れるために,ポーズ間の整合性を確保することを提案する。
さらに、入力画像対間の画素レベルの対応から生じる幾何的画像距離制約として、ポーズ間の一貫性をインスタンス化する。
インクリメンタルな再構成により、CT-NeRFは、カメラポーズとシーン構造の両方の回復を可能にし、複雑な軌道でシーンを処理できる。
我々は,複雑な軌跡を持つ2つの実世界のデータセットであるNeRFBusterとFree-DatasetにおけるCT-NeRFの性能を評価する。
その結果、CT-NeRFは、新しいビュー合成法やポーズ推定精度において、既存の手法よりも優れていた。
Neural radiance field (NeRF) has achieved impressive results in high-quality 3D scene reconstruction. However, NeRF heavily relies on precise camera poses. While recent works like BARF have introduced camera pose optimization within NeRF, their applicability is limited to simple trajectory scenes. Existing methods struggle while tackling complex trajectories involving large rotations. To address this limitation, we propose CT-NeRF, an incremental reconstruction optimization pipeline using only RGB images without pose and depth input. In this pipeline, we first propose a local-global bundle adjustment under a pose graph connecting neighboring frames to enforce the consistency between poses to escape the local minima caused by only pose consistency with the scene structure. Further, we instantiate the consistency between poses as a reprojected geometric image distance constraint resulting from pixel-level correspondences between input image pairs. Through the incremental reconstruction, CT-NeRF enables the recovery of both camera poses and scene structure and is capable of handling scenes with complex trajectories. We evaluate the performance of CT-NeRF on two real-world datasets, NeRFBuster and Free-Dataset, which feature complex trajectories. Results show CT-NeRF outperforms existing methods in novel view synthesis and pose estimation accuracy. | 翻訳日:2024-04-23 15:05:12 公開日:2024-04-22 |
# 注意制御によるテキスト・画像のアライメント改善に向けて
Towards Better Text-to-Image Generation Alignment via Attention Modulation ( http://arxiv.org/abs/2404.13899v1 ) ライセンス: Link先を確認 | Yihang Wu, Xiao Cao, Kaixin Li, Zitan Chen, Haonan Wang, Lei Meng, Zhiyong Huang, | (参考訳) テキスト・画像生成タスクにおいて、拡散モデルの進歩は、生成された結果の忠実性を促進する。
しかし、これらのモデルでは、複数のエンティティや属性を含むテキストプロンプトを処理する際に問題が発生する。
不均一な注意分布は、エンティティの漏洩と属性の誤調整の問題を生じさせる。
この問題に対処するためには、スクラッチからトレーニングを行うには、多数のラベル付きデータが必要で、リソースを消費する。
そこで本研究では,拡散モデルに対する注意の変調による学習自由な位相ワイズ機構である属性焦点機構を提案する。
私たちの中核的なアイデアの1つは、異なるタイミングでプロンプトの対応する構文コンポーネントに集中するように、モデルを導くことです。
これを実現するために,自己保持モジュールの初期段階に温度制御機構を組み込んで,エンティティの漏洩問題を緩和する。
オブジェクト中心マスキング方式と位相方向の動的重み制御機構をクロスアテンションモジュールに統合し、モデルがエンティティ間のセマンティック情報の関連性をより効果的に識別できるようにする。
様々なアライメントシナリオにおける実験結果から,我々のモデルは最小の計算コストでより優れた画像テキストアライメントを実現することができた。
In text-to-image generation tasks, the advancements of diffusion models have facilitated the fidelity of generated results. However, these models encounter challenges when processing text prompts containing multiple entities and attributes. The uneven distribution of attention results in the issues of entity leakage and attribute misalignment. Training from scratch to address this issue requires numerous labeled data and is resource-consuming. Motivated by this, we propose an attribution-focusing mechanism, a training-free phase-wise mechanism by modulation of attention for diffusion model. One of our core ideas is to guide the model to concentrate on the corresponding syntactic components of the prompt at distinct timesteps. To achieve this, we incorporate a temperature control mechanism within the early phases of the self-attention modules to mitigate entity leakage issues. An object-focused masking scheme and a phase-wise dynamic weight control mechanism are integrated into the cross-attention modules, enabling the model to discern the affiliation of semantic information between entities more effectively. The experimental results in various alignment scenarios demonstrate that our model attain better image-text alignment with minimal additional computational cost. | 翻訳日:2024-04-23 15:05:12 公開日:2024-04-22 |
# サブパス線形近似モデルによる画像生成の高速化
Accelerating Image Generation with Sub-path Linear Approximation Model ( http://arxiv.org/abs/2404.13903v1 ) ライセンス: Link先を確認 | Chen Xu, Tianhui Song, Weixin Feng, Xubin Li, Tiezheng Ge, Bo Zheng, Limin Wang, | (参考訳) 拡散モデルは、画像、オーディオ、ビデオ生成タスクの最先端を著しく進歩させてきた。
しかし、実際のシナリオにおけるそれらの応用は、推論速度の遅さによって妨げられる。
一貫性モデルで利用される近似戦略からインスピレーションを得たサブパス線形近似モデル(SLAM)を提案し,高品質な画像生成を維持しながら拡散モデルを加速する。
SLAMは、PF-ODEサブパスをサンプルポイントで分割した一連のPF-ODEサブパスとして扱い、サブパス線形(SL)ODEを用いて個々のPF-ODEサブパスに沿って進行的かつ連続的なエラー推定を生成する。
このようなSL-ODEの最適化により、SLAMはより小さい累積近似誤差でデノナイジングマッピングを構築することができる。
また, 潜伏拡散モデルなど, より高度な拡散モデルの導入を容易にするため, 効率的な蒸留法も開発されている。
以上の結果から,SLAMは2段階から4段階の高速生成が可能な高品質な生成モデルを生成するのに6A100 GPU日しか必要とせず,効率のよいトレーニングレギュレーションを実現することが示された。
LAION、MS COCO 2014、MS COCO 2017データセットに関する総合的な評価は、SLAMが既存のアクセラレーションメソッドを数ステップ生成タスクで超越し、FIDと生成された画像の品質の両方で最先端のパフォーマンスを達成することを示している。
Diffusion models have significantly advanced the state of the art in image, audio, and video generation tasks. However, their applications in practical scenarios are hindered by slow inference speed. Drawing inspiration from the approximation strategies utilized in consistency models, we propose the Sub-path Linear Approximation Model (SLAM), which accelerates diffusion models while maintaining high-quality image generation. SLAM treats the PF-ODE trajectory as a series of PF-ODE sub-paths divided by sampled points, and harnesses sub-path linear (SL) ODEs to form a progressive and continuous error estimation along each individual PF-ODE sub-path. The optimization on such SL-ODEs allows SLAM to construct denoising mappings with smaller cumulative approximated errors. An efficient distillation method is also developed to facilitate the incorporation of more advanced diffusion models, such as latent diffusion models. Our extensive experimental results demonstrate that SLAM achieves an efficient training regimen, requiring only 6 A100 GPU days to produce a high-quality generative model capable of 2 to 4-step generation with high performance. Comprehensive evaluations on LAION, MS COCO 2014, and MS COCO 2017 datasets also illustrate that SLAM surpasses existing acceleration methods in few-step generation tasks, achieving state-of-the-art performance both on FID and the quality of the generated images. | 翻訳日:2024-04-23 15:05:12 公開日:2024-04-22 |
# トポロジーを用いた深部回帰表現学習
Deep Regression Representation Learning with Topology ( http://arxiv.org/abs/2404.13904v1 ) ライセンス: Link先を確認 | Shihao Zhang, kenji kawaguchi, Angela Yao, | (参考訳) 表現学習を研究するほとんどの研究は、分類と無視の回帰にのみ焦点をあてている。
しかし、学習目的と2つのタスクの表現トポロジは基本的に異なる:分類はクラス分離を目標とし、非連結表現につながる。
そこで我々は,回帰表現の有効性が,そのトポロジによってどのように影響されるのかを,インフォメーション・ボトルネック(IB)の原理に基づいて検討する。
IB原則は、有効性表現を学習するための原則を提供する重要なフレームワークである。
我々はそれと回帰表現のトポロジーの間に2つの関係を確立する。
第1の接続は、特徴空間の低い内在次元が表現 Z の複雑さの減少を意味することを明らかにし、この複雑さは、対象空間 Y 上の Z の条件エントロピーとして定量化することができ、一般化誤差の上界として機能する。
第二の接続は、対象空間と位相的に類似した特徴空間を学ぶことが、IB原理とよりよく一致することを示唆している。
これら2つの接続に基づいて,特徴空間の内在次元と対象空間の位相に一致する回帰に特有な正則化器PH-Regを導入する。
合成および実世界の回帰タスクの実験はPH-Regの利点を示している。
Most works studying representation learning focus only on classification and neglect regression. Yet, the learning objectives and therefore the representation topologies of the two tasks are fundamentally different: classification targets class separation, leading to disconnected representations, whereas regression requires ordinality with respect to the target, leading to continuous representations. We thus wonder how the effectiveness of a regression representation is influenced by its topology, with evaluation based on the Information Bottleneck (IB) principle. The IB principle is an important framework that provides principles for learning effectiveness representations. We establish two connections between it and the topology of regression representations. The first connection reveals that a lower intrinsic dimension of the feature space implies a reduced complexity of the representation Z. This complexity can be quantified as the conditional entropy of Z on the target space Y and serves as an upper bound on the generalization error. The second connection suggests learning a feature space that is topologically similar to the target space will better align with the IB principle. Based on these two connections, we introduce PH-Reg, a regularizer specific to regression that matches the intrinsic dimension and topology of the feature space with the target space. Experiments on synthetic and real-world regression tasks demonstrate the benefits of PH-Reg. | 翻訳日:2024-04-23 15:05:12 公開日:2024-04-22 |
# 顧客レビューから魅力と認証のコピーライティングを生成する
Generating Attractive and Authentic Copywriting from Customer Reviews ( http://arxiv.org/abs/2404.13906v1 ) ライセンス: Link先を確認 | Yu-Xiang Lin, Wei-Yun Ma, | (参考訳) 製品のコピーライティングの目的は、テキスト記述を通じて製品の機能を強調することによって、潜在的な購入者の関心を捉えることである。
eコマースプラットフォームが幅広いサービスを提供しているため、これらの自動生成記述のスタイルを動的に調整することが不可欠になっています。
コピーライティング生成の典型的なアプローチは、しばしば特定の製品属性にのみ依存し、退屈で反復的なコンテンツをもたらす。
この問題に対処するために,製品属性だけでなく,より豊富な情報ソースを提供する製品に対して,ユーザレビューに基づいて,手軽に実践的な体験を提供するコピーライティングを生成することを提案する。
我々は、情報に富んだ、魅力的で真正な複写書体を作成するために、強化学習により強化されたシーケンス・ツー・シーケンス・フレームワークを開発した。
我々のフレームワークは,LLaMA-2-chat-7B や GPT-3.5 など,既存のベースラインおよびゼロショットの大規模言語モデルにおいて,魅力と忠実さの両面で優れています。
さらに、この研究はアスペクトベースの要約コレクションや引数のアレーションアセスメントにLLMを使うことが特徴である。
マーケティングドメインコーパス構築における LLM の有効性を示す実験を行った。
コードとデータセットは、https://github.com/YuXiangLin1234/Copywriting-Generationで公開されている。
The goal of product copywriting is to capture the interest of potential buyers by emphasizing the features of products through text descriptions. As e-commerce platforms offer a wide range of services, it's becoming essential to dynamically adjust the styles of these auto-generated descriptions. Typical approaches to copywriting generation often rely solely on specified product attributes, which may result in dull and repetitive content. To tackle this issue, we propose to generate copywriting based on customer reviews, as they provide firsthand practical experiences with products, offering a richer source of information than just product attributes. We have developed a sequence-to-sequence framework, enhanced with reinforcement learning, to produce copywriting that is attractive, authentic, and rich in information. Our framework outperforms all existing baseline and zero-shot large language models, including LLaMA-2-chat-7B and GPT-3.5, in terms of both attractiveness and faithfulness. Furthermore, this work features the use of LLMs for aspect-based summaries collection and argument allure assessment. Experiments demonstrate the effectiveness of using LLMs for marketing domain corpus construction. The code and the dataset is publicly available at: https://github.com/YuXiangLin1234/Copywriting-Generation. | 翻訳日:2024-04-23 15:05:12 公開日:2024-04-22 |
# 統合グラディエント相関--データセットワイド属性法
Integrated Gradient Correlation: a Dataset-wise Attribution Method ( http://arxiv.org/abs/2404.13910v1 ) ライセンス: Link先を確認 | Pierre Lelièvre, Chien-Chung Chen, | (参考訳) 属性法は主に、個々のモデル予測に対する入力成分の寄与の分布を研究するために設計されている。
しかしながら、いくつかの研究アプリケーションは、精査されたモデルの解釈容易性を促進するために、データセット全体にわたる属性パターンの要約を必要とする。
本稿では,データセットの属性をモデル予測スコアに関連付け,関連するコンポーネントの直接和による領域固有解析を可能にする,IGC(Integrated Gradient correlation)と呼ばれる新しい手法を提案する。
本研究では,fMRI 神経信号から脳内の画像特徴表現とニューラル集団受容野推定(NSD データセット)を用いてスカラー予測を行い,手書き文字認識(MNIST データセット)を用いて分類的予測を行う。
結果として得られたIGC属性は選択的なパターンを示し、基礎となるモデル戦略がそれぞれの目的に忠実であることを明らかにする。
Attribution methods are primarily designed to study the distribution of input component contributions to individual model predictions. However, some research applications require a summary of attribution patterns across the entire dataset to facilitate the interpretability of the scrutinized models. In this paper, we present a new method called Integrated Gradient Correlation (IGC) that relates dataset-wise attributions to a model prediction score and enables region-specific analysis by a direct summation over associated components. We demonstrate our method on scalar predictions with the study of image feature representation in the brain from fMRI neural signals and the estimation of neural population receptive fields (NSD dataset), as well as on categorical predictions with the investigation of handwritten digit recognition (MNIST dataset). The resulting IGC attributions show selective patterns, revealing underlying model strategies coherent with their respective objectives. | 翻訳日:2024-04-23 15:05:12 公開日:2024-04-22 |
# グローバルなOpenBuildingMap - グローバルなビルの謎を解き明かす
Global OpenBuildingMap -- Unveiling the Mystery of Global Buildings ( http://arxiv.org/abs/2404.13911v1 ) ライセンス: Link先を確認 | Xiao Xiang Zhu, Qingyu Li, Yilei Shi, Yuanyuan Wang, Adam Stewart, Jonathan Prexl, | (参考訳) 世界中の建物がどのように分布しているかを理解することは、地球上の人間の足跡を明らかにする上で非常に重要です。
この構築された環境は、気候、地表面アルベド、資源分布など、健康や人間の健康に影響を及ぼす重要な要素に影響を及ぼす。
それにもかかわらず、世界中の建物の分布と特性に関する定量的かつ包括的なデータは欠落している。
この目的のために、ビッグデータ分析アプローチと80万近い衛星画像を使用することで、これまでに作成された最も高解像度かつ高精度なビルディングマップ、Global OpenBuildingMap(Global OBM)を生成しました。
ビルマップと太陽ポテンシャルの合同分析により、屋上太陽エネルギーは、合理的なコストで地球規模のエネルギー消費の需要を供給できることが示されている。
具体的には、すべての建物の屋根にソーラーパネルを設置すれば、2020年の世界のエネルギー消費は1.1~3.3倍となる。
また,建築領域と重要な社会経済変数との空間的相関を明確化し,グローバルな建築地図がグローバルな社会経済ニーズとドライバをモデル化するための重要なインプットとなることを示す。
Understanding how buildings are distributed globally is crucial to revealing the human footprint on our home planet. This built environment affects local climate, land surface albedo, resource distribution, and many other key factors that influence well-being and human health. Despite this, quantitative and comprehensive data on the distribution and properties of buildings worldwide is lacking. To this end, by using a big data analytics approach and nearly 800,000 satellite images, we generated the highest resolution and highest accuracy building map ever created: the Global OpenBuildingMap (Global OBM). A joint analysis of building maps and solar potentials indicates that rooftop solar energy can supply the global energy consumption need at a reasonable cost. Specifically, if solar panels were placed on the roofs of all buildings, they could supply 1.1-3.3 times -- depending on the efficiency of the solar device -- the global energy consumption in 2020, which is the year with the highest consumption on record. We also identified a clear geospatial correlation between building areas and key socioeconomic variables, which indicates our global building map can serve as an important input to modeling global socioeconomic needs and drivers. | 翻訳日:2024-04-23 15:05:12 公開日:2024-04-22 |
# 音声によるアンチスプーフィング検出:サーベイ
Audio Anti-Spoofing Detection: A Survey ( http://arxiv.org/abs/2404.13914v1 ) ライセンス: Link先を確認 | Menglu Li, Yasaman Ahmadiadli, Xiao-Ping Zhang, | (参考訳) スマートデバイスが利用可能になると、マルチメディアコンテンツが指数関数的に増加する。
しかし、ディープラーニングの急速な進歩により、Deepfakeとして知られるマルチメディアフェイクコンテンツの操作や作成が可能な高度なアルゴリズムが生まれている。
オーディオディープフェイクは、非常に現実的な声を生み出すことで重大な脅威となり、誤報の拡散を促進する。
この問題に対処するため, 防汚対策の開発を促進するため, 多数の防汚対策が計画されている。
本稿では,アルゴリズムアーキテクチャ,最適化手法,アプリケーション一般化性,評価指標,パフォーマンス比較,利用可能なデータセット,オープンソース可用性など,検出パイプライン内のすべてのコンポーネントについて,包括的なレビューを行う。
それぞれの側面において,近年の進歩を体系的に評価し,既存の課題について議論する。
さらに,部分的スプーフィング検出,クロスデータセット評価,対人攻撃防御など,音声のアンチ・スプーフィングに関する新たな研究課題についても検討するとともに,今後の研究に向けて有望な研究方向を提案する。
本研究は,将来的な実験のための強力なベースラインを確立するための現状を明らかにするだけでなく,音声のアンチ・スポーフィング検出機構の理解と向上のための明確な経路を将来の研究者に案内するものである。
The availability of smart devices leads to an exponential increase in multimedia content. However, the rapid advancements in deep learning have given rise to sophisticated algorithms capable of manipulating or creating multimedia fake content, known as Deepfake. Audio Deepfakes pose a significant threat by producing highly realistic voices, thus facilitating the spread of misinformation. To address this issue, numerous audio anti-spoofing detection challenges have been organized to foster the development of anti-spoofing countermeasures. This survey paper presents a comprehensive review of every component within the detection pipeline, including algorithm architectures, optimization techniques, application generalizability, evaluation metrics, performance comparisons, available datasets, and open-source availability. For each aspect, we conduct a systematic evaluation of the recent advancements, along with discussions on existing challenges. Additionally, we also explore emerging research topics on audio anti-spoofing, including partial spoofing detection, cross-dataset evaluation, and adversarial attack defence, while proposing some promising research directions for future work. This survey paper not only identifies the current state-of-the-art to establish strong baselines for future experiments but also guides future researchers on a clear path for understanding and enhancing the audio anti-spoofing detection mechanisms. | 翻訳日:2024-04-23 15:05:12 公開日:2024-04-22 |
# 文章の経路をナビゲートする:大規模言語モデルを用いたアウトラインガイド付きテキスト生成
Navigating the Path of Writing: Outline-guided Text Generation with Large Language Models ( http://arxiv.org/abs/2404.13919v1 ) ライセンス: Link先を確認 | Yukyung Lee, Soonwon Ka, Bokyung Son, Pilsung Kang, Jaewook Kang, | (参考訳) 大規模言語モデル(LLM)は執筆プロセスに大きな影響を与え、協調的なコンテンツ作成と生産性の向上を可能にしている。
しかし、高品質でユーザフレンドリーなテキストを生成することは依然として難しい。
本稿では,目標指向の高品質な書字作成において,LCMをガイドするためのアウトラインを明示的に活用するフレームワークである「書字パス」を提案する。
我々のアプローチは、構造化された記述計画と推論パスからインスピレーションを得て、書き込みプロセス全体を通してユーザの意図を捉え、反映することに重点を置いています。
構造化されていないブログ記事からベンチマーク作成のパフォーマンスまで,さまざまなデータセットを構築し,アウトラインと生成されたテキストの品質を評価する包括的な評価フレームワークを導入する。
GPT-3.5-turbo, GPT-4, HyperCLOVA Xによる評価は, LLMと人的評価の両面から文章の質を著しく向上させることを示した。
本研究は, LLM に記述特化技術を統合することで, 多様なユーザのニーズを満たす能力を高める可能性を明らかにするものである。
Large Language Models (LLMs) have significantly impacted the writing process, enabling collaborative content creation and enhancing productivity. However, generating high-quality, user-aligned text remains challenging. In this paper, we propose Writing Path, a framework that uses explicit outlines to guide LLMs in generating goal-oriented, high-quality pieces of writing. Our approach draws inspiration from structured writing planning and reasoning paths, focusing on capturing and reflecting user intentions throughout the writing process. We construct a diverse dataset from unstructured blog posts to benchmark writing performance and introduce a comprehensive evaluation framework assessing the quality of outlines and generated texts. Our evaluations with GPT-3.5-turbo, GPT-4, and HyperCLOVA X demonstrate that the Writing Path approach significantly enhances text quality according to both LLMs and human evaluations. This study highlights the potential of integrating writing-specific techniques into LLMs to enhance their ability to meet the diverse writing needs of users. | 翻訳日:2024-04-23 15:05:12 公開日:2024-04-22 |
# NeRF-DetS: 連続したNeRF表現のサンプリング適応ネットワークによる多視点3次元物体検出の実現
NeRF-DetS: Enhancing Multi-View 3D Object Detection with Sampling-adaptive Network of Continuous NeRF-based Representation ( http://arxiv.org/abs/2404.13921v1 ) ライセンス: Link先を確認 | Chi Huang, Xinyang Li, Shengchuan Zhang, Liujuan Cao, Rongrong Ji, | (参考訳) 予備的な作業として、NeRF-Detは、新しいビュー合成と3D知覚のタスクを統一し、知覚的タスクがNeRFのような新しいビュー合成手法の恩恵を受けることを示し、屋内のマルチビュー3Dオブジェクト検出の性能を大幅に向上させる。
NeRFの幾何学的MDPを用いて、検出ヘッドの注意を重要な部分に向け、新しいビューレンダリングからの自己監督的損失を取り入れることで、達成された改善に寄与する。
空間におけるニューラルレンダリングによる連続表現の顕著な利点を活用するために,新しい3次元知覚ネットワーク構造であるNeRF-DetSを導入する。
NeRF-DetSの鍵となるコンポーネントはマルチレベルサンプリング適応ネットワークであり、サンプリングプロセスを粗いものから細かいものへと適応させる。
また,マルチヘッド重み融合(Multi-head Weighted Fusion)と呼ばれる,優れた多視点情報融合手法を提案する。
この融合手法は計算コストを低く保ちながら算術平均を用いた場合の多視点情報を失うという課題を効果的に解決する。
NeRF-DetSは、それぞれmAP@.25とmAP@.50で+5.02%、+5.92%改善することで、ScanNetV2データセット上の競合するNeRF-Detを上回っている。
As a preliminary work, NeRF-Det unifies the tasks of novel view synthesis and 3D perception, demonstrating that perceptual tasks can benefit from novel view synthesis methods like NeRF, significantly improving the performance of indoor multi-view 3D object detection. Using the geometry MLP of NeRF to direct the attention of detection head to crucial parts and incorporating self-supervised loss from novel view rendering contribute to the achieved improvement. To better leverage the notable advantages of the continuous representation through neural rendering in space, we introduce a novel 3D perception network structure, NeRF-DetS. The key component of NeRF-DetS is the Multi-level Sampling-Adaptive Network, making the sampling process adaptively from coarse to fine. Also, we propose a superior multi-view information fusion method, known as Multi-head Weighted Fusion. This fusion approach efficiently addresses the challenge of losing multi-view information when using arithmetic mean, while keeping low computational costs. NeRF-DetS outperforms competitive NeRF-Det on the ScanNetV2 dataset, by achieving +5.02% and +5.92% improvement in mAP@.25 and mAP@.50, respectively. | 翻訳日:2024-04-23 15:05:12 公開日:2024-04-22 |
# MaterialSeg3D:Dense Materials from 2D Priors for 3D Assets (特集 バイオサイバネティックスとバイオサイバネティックス)
MaterialSeg3D: Segmenting Dense Materials from 2D Priors for 3D Assets ( http://arxiv.org/abs/2404.13923v1 ) ライセンス: Link先を確認 | Zeyu Li, Ruitong Gan, Chuanchen Luo, Yuxi Wang, Jiaheng Liu, Ziwei Zhu Man Zhang, Qing Li, Xucheng Yin, Zhaoxiang Zhang, Junran Peng, | (参考訳) 強力な画像拡散モデルによって駆動される最近の研究は、テキストや視覚的ガイダンスから3Dオブジェクトを自動生成することに成功した。
スコア蒸留サンプリング(SDS)を様々な視点で反復的に行うことにより、これらの手法は3次元空間に先立って2次元生成物を持ち上げることに成功している。
しかし、そのような2次元生成画像は、照明効果と影をテクスチャに焼き込む。
結果として、SDSによって最適化された材料マップは必然的に、相互に相関する成分を伴っている。
正確な物質定義がないため、新しいシーンで生成された資産を合理的にリライトすることは不可能であり、下流のシナリオでの応用を制限する。
対照的に、人間はこの曖昧さを、その外見や意味から物体の物質を引き出すことによって、力ずくで回避することができる。
そこで本研究では,2次元セマンティックから基礎となる物質を推定する3次元アセット・マテリアル生成フレームワークであるMaterialSeg3Dを提案する。
このような先行モデルに基づいて,材料を三次元空間で解析する機構を考案する。
われわれはUVスタックを維持しており、それぞれのマップは特定の視点から投影されていない。
すべての視点をトラバースした後、重み付けされた投票方式でスタックを融合し、領域統一を用いて対象部品のコヒーレンスを確保する。
セマンティクスの学習に先立って,多彩な画像,多様なカテゴリ,正確なアノテーションを特徴とするMIO(Materialized Individual Objects)という資料データセットを収集した。
定量的および定性的実験により,本手法の有効性を実証した。
Driven by powerful image diffusion models, recent research has achieved the automatic creation of 3D objects from textual or visual guidance. By performing score distillation sampling (SDS) iteratively across different views, these methods succeed in lifting 2D generative prior to the 3D space. However, such a 2D generative image prior bakes the effect of illumination and shadow into the texture. As a result, material maps optimized by SDS inevitably involve spurious correlated components. The absence of precise material definition makes it infeasible to relight the generated assets reasonably in novel scenes, which limits their application in downstream scenarios. In contrast, humans can effortlessly circumvent this ambiguity by deducing the material of the object from its appearance and semantics. Motivated by this insight, we propose MaterialSeg3D, a 3D asset material generation framework to infer underlying material from the 2D semantic prior. Based on such a prior model, we devise a mechanism to parse material in 3D space. We maintain a UV stack, each map of which is unprojected from a specific viewpoint. After traversing all viewpoints, we fuse the stack through a weighted voting scheme and then employ region unification to ensure the coherence of the object parts. To fuel the learning of semantics prior, we collect a material dataset, named Materialized Individual Objects (MIO), which features abundant images, diverse categories, and accurate annotations. Extensive quantitative and qualitative experiments demonstrate the effectiveness of our method. | 翻訳日:2024-04-23 15:05:12 公開日:2024-04-22 |
# MARIO Eval:Evaluate your Math LLM with your Math LLM--数学データセット評価ツールキット
MARIO Eval: Evaluate Your Math LLM with your Math LLM--A mathematical dataset evaluation toolkit ( http://arxiv.org/abs/2404.13925v1 ) ライセンス: Link先を確認 | Boning Zhang, Chengxi Li, Kai Fan, | (参考訳) 大規模言語モデル (LLM) は数学的問題の解法を含む様々な推論タスクにおいて研究されている。
各数学データセットは、通常、独自の特別に設計された評価スクリプトを含むが、意図された用途に適合するが、異なるデータセット間での一般化性に欠ける。
その結果、これらの評価ツールの更新と適応は、体系的に報告されることなく起こる傾向にあり、不整合や障害が研究全体で公平に比較される。
このギャップを埋めるために、我々は、ピソン計算機代数システム(CAS)をその数値精度に活用するだけでなく、その相当な自然言語処理能力で知られているオプションのLLMを統合する、包括的な数学的評価ツールキットを導入する。
ツールキットの有効性を検証するため、2つの異なるデータセットを手動でアノテートした。
実験により, LLMを使わずとも, 従来よりも頑健な評価結果が得られることを示した。
さらに、LDMが組み込まれた場合、顕著な拡張がある。
我々のメソッドのコードは \url{https://github.com/MARIO-Math-Reasoning/math_evaluation} で利用可能になる。
Large language models (LLMs) have been explored in a variety of reasoning tasks including solving of mathematical problems. Each math dataset typically includes its own specially designed evaluation script, which, while suitable for its intended use, lacks generalizability across different datasets. Consequently, updates and adaptations to these evaluation tools tend to occur without being systematically reported, leading to inconsistencies and obstacles to fair comparison across studies. To bridge this gap, we introduce a comprehensive mathematical evaluation toolkit that not only utilizes a python computer algebra system (CAS) for its numerical accuracy, but also integrates an optional LLM, known for its considerable natural language processing capabilities. To validate the effectiveness of our toolkit, we manually annotated two distinct datasets. Our experiments demonstrate that the toolkit yields more robust evaluation results compared to prior works, even without an LLM. Furthermore, when an LLM is incorporated, there is a notable enhancement. The code for our method will be made available at \url{https://github.com/MARIO-Math-Reasoning/math_evaluation}. | 翻訳日:2024-04-23 14:55:25 公開日:2024-04-22 |
# 拘束型衝突機による鐘の相関 -WからVへの経路-
Bell Correlations via Constrained Colliders -- a Path from W to V ( http://arxiv.org/abs/2404.13928v1 ) ライセンス: Link先を確認 | Huw Price, | (参考訳) Ken Wharton氏による以前の研究で、私はベル相関は特別な選択アーチファクトであり、組み合わせによって説明します。
(i)コライダーバイアスと
(ii)コライダー変数上の境界制約。
この仮説は光円錐の外側に直接的な因果的影響を必要としないため、ベル非局所性や相対性理論を再現する新しい方法を提供するかもしれない。
この記事は提案に対する新たな議論の概要である。
これは、遅延チョイスエンタングルメントスワップを含む特別な(W字型)ベル実験に対してどのように有効かを説明し、一般的な(V字型)ケースに拡張できると主張している。
In previous work with Ken Wharton, I have proposed that Bell correlations are a special sort of selection artefact, explained by a combination of (i) collider bias and (ii) a boundary constraint on the collider variable. This hypothesis requires no direct causal influence outside lightcones, and may hence offer a new way to reconcile Bell nonlocality and relativity. This piece outlines a new argument for the proposal. It explains how it is valid for a special class of (W-shaped) Bell experiments involving delayed-choice entanglement swapping, and argues that it can be extended to the general (V-shaped) case. | 翻訳日:2024-04-23 14:55:25 公開日:2024-04-22 |
# DCE-MRIにおける良性病変と悪性病変の分類のための運動曲線の探索
Exploring Kinetic Curves Features for the Classification of Benign and Malignant Breast Lesions in DCE-MRI ( http://arxiv.org/abs/2404.13929v1 ) ライセンス: Link先を確認 | Zixian Li, Yuming Zhong, Yi Wang, | (参考訳) 乳癌は女性に最も多い悪性腫瘍であり、癌関連死亡の2番目の原因である。
早期臨床診断はタイムリーな治療と予後に重要である。
ダイナミックコントラスト造影MRI(Dynamic contrast-enhanced magnetic resonance imaging, DCE-MRI)は, 乳腺病変の形態とダイナミックな特徴を反映し, 術前診断および治療効果の評価に有用であることを明らかにした。
しかし,DCE-MRIで良性病変と悪性病変を分類する際には,従来の放射線学的特徴のみを考慮すべきである。
本研究では, 胸部良性病変と悪性病変の分類精度を高めるために, 運動曲線と放射能特性の動的特性をフル活用することを提案する。
提案手法は,DCE-MRIの3次元特徴を直接解析し,完全自動解法である。
本手法は,200個のDCE-MRIスキャンと298個の乳腺腫瘍(172個の良性腫瘍と126個の悪性腫瘍を含む社内データセットを用いて評価し,曲線下領域(AUC)が0。
動的および放射線学的特徴を同時に考慮し,良性病変と悪性乳癌の鑑別を効果的に行うことが有用である。
Breast cancer is the most common malignant tumor among women and the second cause of cancer-related death. Early diagnosis in clinical practice is crucial for timely treatment and prognosis. Dynamic contrast-enhanced magnetic resonance imaging (DCE-MRI) has revealed great usability in the preoperative diagnosis and assessing therapy effects thanks to its capability to reflect the morphology and dynamic characteristics of breast lesions. However, most existing computer-assisted diagnosis algorithms only consider conventional radiomic features when classifying benign and malignant lesions in DCE-MRI. In this study, we propose to fully leverage the dynamic characteristics from the kinetic curves as well as the radiomic features to boost the classification accuracy of benign and malignant breast lesions. The proposed method is a fully automated solution by directly analyzing the 3D features from the DCE-MRI. The proposed method is evaluated on an in-house dataset including 200 DCE-MRI scans with 298 breast tumors (172 benign and 126 malignant tumors), achieving favorable classification accuracy with an area under curve (AUC) of 0.94. By simultaneously considering the dynamic and radiomic features, it is beneficial to effectively distinguish between benign and malignant breast lesions. | 翻訳日:2024-04-23 14:55:25 公開日:2024-04-22 |
# 大規模言語モデル評価のためのユーザ中心ベンチマーク
A User-Centric Benchmark for Evaluating Large Language Models ( http://arxiv.org/abs/2404.13940v1 ) ライセンス: Link先を確認 | Jiayin Wang, Fengran Mo, Weizhi Ma, Peijie Sun, Min Zhang, Jian-Yun Nie, | (参考訳) 大きな言語モデル(LLM)は、異なるタスクでユーザと協調するために必要なツールである。
実際のシナリオにおいて、ユーザのニーズを満たすためにパフォーマンスを評価することが重要です。
多くのベンチマークが作成されているが、主に定義された特定のモデル能力に焦点を当てている。
実際のユーザによる LLM の利用を意図した例はほとんどない。
そこで本研究では,データセット構築と評価設計の両方において,ユーザの視点からLCMをベンチマークする手法を提案する。
まず,23カ国712人を対象に,15 LLMで1863件の実世界のユースケースをユーザスタディから収集した。
これらの自己報告されたケースは、7つのユーザの意図を分類したUser Reported Scenarios(URS)データセットを構成する。
第2に、この認証されたマルチカルチャーデータセットにおいて、ユーザニーズを満たすための有効性について、10のLCMサービスをベンチマークする。
第3に、我々のベンチマークスコアは、多様な意図にまたがるLLMインタラクションにおけるユーザ報告された経験とよく一致していることを示し、どちらも主観的なシナリオの見落としを強調している。
本研究は,実際のユーザニーズを反映した評価を促進することを目的として,ユーザ中心の観点からLCMをベンチマークすることを提案する。
ベンチマークデータセットとコードはhttps://github.com/Alice1998/URSで公開されている。
Large Language Models (LLMs) are essential tools to collaborate with users on different tasks. Evaluating their performance to serve users' needs in real-world scenarios is important. While many benchmarks have been created, they mainly focus on specific predefined model abilities. Few have covered the intended utilization of LLMs by real users. To address this oversight, we propose benchmarking LLMs from a user perspective in both dataset construction and evaluation designs. We first collect 1863 real-world use cases with 15 LLMs from a user study with 712 participants from 23 countries. These self-reported cases form the User Reported Scenarios(URS) dataset with a categorization of 7 user intents. Secondly, on this authentic multi-cultural dataset, we benchmark 10 LLM services on their efficacy in satisfying user needs. Thirdly, we show that our benchmark scores align well with user-reported experience in LLM interactions across diverse intents, both of which emphasize the overlook of subjective scenarios. In conclusion, our study proposes to benchmark LLMs from a user-centric perspective, aiming to facilitate evaluations that better reflect real user needs. The benchmark dataset and code are available at https://github.com/Alice1998/URS. | 翻訳日:2024-04-23 14:55:25 公開日:2024-04-22 |
# 初期故障に対するオートエンコーダ支援機能アンサンブルネット
Autoencoder-assisted Feature Ensemble Net for Incipient Faults ( http://arxiv.org/abs/2404.13941v1 ) ライセンス: Link先を確認 | Mingxuan Gao, Min Wang, Maoyin Chen, | (参考訳) 深層学習は断層検出の分野で大きな力を示している。
しかし、振幅が小さい初期断層の場合、現在の深層学習ネットワーク(DLN)の検出性能は不十分である。
障害に関する事前情報が利用されたとしても、テネシー州イーストマンプロセス(TEP)では、DLNは障害3, 9, 15を検出することができません。
これらの断層は検出が難しいことで知られており、断層検出の分野では効果的な検出技術が欠如している。
本研究では、教師なしオートエンコーダを用いて機能変換を行うディープ機能アンサンブルフレームワークであるオートエンコーダ支援機能アンサンブルネット(AE-FENet)を提案する。
元々のFeature Ensemble Net(FENet)で採用されていた原則コンポーネント分析(PCA)技術と比較すると、オートエンコーダは初期故障に対してより正確な機能をマイニングできるため、AE-FENetの検出性能が向上する。
同じ種類の基本検出器を用いて、AE-FENetはTEPにおける断層3, 9, 15の96%以上の最先端の平均精度を達成し、他の手法と比較して性能が大幅に向上した。
DLNをこのアーキテクチャ内で効率的に活用できることを証明し、我々のフレームワークを拡張するために多くの実験が行われてきた。
Deep learning has shown the great power in the field of fault detection. However, for incipient faults with tiny amplitude, the detection performance of the current deep learning networks (DLNs) is not satisfactory. Even if prior information about the faults is utilized, DLNs can't successfully detect faults 3, 9 and 15 in Tennessee Eastman process (TEP). These faults are notoriously difficult to detect, lacking effective detection technologies in the field of fault detection. In this work, we propose Autoencoder-assisted Feature Ensemble Net (AE-FENet): a deep feature ensemble framework that uses the unsupervised autoencoder to conduct the feature transformation. Compared with the principle component analysis (PCA) technique adopted in the original Feature Ensemble Net (FENet), autoencoder can mine more exact features on incipient faults, which results in the better detection performance of AE-FENet. With same kinds of basic detectors, AE-FENet achieves a state-of-the-art average accuracy over 96% on faults 3, 9 and 15 in TEP, which represents a significant enhancement in performance compared to other methods. Plenty of experiments have been done to extend our framework, proving that DLNs can be utilized efficiently within this architecture. | 翻訳日:2024-04-23 14:55:25 公開日:2024-04-22 |
# Gorgeous:どんなアイデアからでも顔の顔を作る
Gorgeous: Create Your Desired Character Facial Makeup from Any Ideas ( http://arxiv.org/abs/2404.13944v1 ) ライセンス: Link先を確認 | Jia Wei Sii, Chee Seng Chan, | (参考訳) 現代の化粧の受け渡しは、主に顔から別の顔への化粧の複製に焦点を合わせ、視覚的なストーリーテリングに不可欠な多彩で創造的なキャラクターの化粧を作るのに使用をかなり制限した。
このような手法は通常、ユニークさと文脈的関連性の必要性に対処できず、特に参照画像の既存の顔の化粧に大きく依存するため、キャラクターやストーリーの設定と一致しない。
このアプローチはまた、完璧にマッチした顔のメイクスタイルを創り出そうとする際、テーマ、背景、必ずしも顔が特徴でないプロップといった様々なストーリー要素にインスパイアされたメイクデザインの作成をさらに複雑化する上で、重要な課題も示している。
この制限に対処するために、新しい拡散ベースのメイクアプリケーションである$Gorgeous$を紹介します。
従来のメソッドとは異なり、$Gorgeous$は参照イメージに顔の存在を必要としない。
その代わりに、最小限の3〜5枚の画像から芸術的なインスピレーションを受け取り、これらの要素を顔に直接、実用的なメイクアプリケーションに変換する。
我々の総合的な実験により、$Gorgeous$は、選択した主題参照画像にインスパイアされた特徴的な顔のメイクを効果的に生成できることが示されている。
このアプローチは、より広いストーリー要素をキャラクターメイクに統合する新たな可能性を開き、ストーリーテリングにおける物語の深さと視覚的影響を高める。
Contemporary makeup transfer methods primarily focus on replicating makeup from one face to another, considerably limiting their use in creating diverse and creative character makeup essential for visual storytelling. Such methods typically fail to address the need for uniqueness and contextual relevance, specifically aligning with character and story settings as they depend heavily on existing facial makeup in reference images. This approach also presents a significant challenge when attempting to source a perfectly matched facial makeup style, further complicating the creation of makeup designs inspired by various story elements, such as theme, background, and props that do not necessarily feature faces. To address these limitations, we introduce $Gorgeous$, a novel diffusion-based makeup application method that goes beyond simple transfer by innovatively crafting unique and thematic facial makeup. Unlike traditional methods, $Gorgeous$ does not require the presence of a face in the reference images. Instead, it draws artistic inspiration from a minimal set of three to five images, which can be of any type, and transforms these elements into practical makeup applications directly on the face. Our comprehensive experiments demonstrate that $Gorgeous$ can effectively generate distinctive character facial makeup inspired by the chosen thematic reference images. This approach opens up new possibilities for integrating broader story elements into character makeup, thereby enhancing the narrative depth and visual impact in storytelling. | 翻訳日:2024-04-23 14:55:25 公開日:2024-04-22 |
# 画像変異レンズによる視覚深層学習システムテストのためのマルチモーダルLCMのベンチマーク
Benchmarking Multi-Modal LLMs for Testing Visual Deep Learning Systems Through the Lens of Image Mutation ( http://arxiv.org/abs/2404.13945v1 ) ライセンス: Link先を確認 | Liwen Wang, Yuanyuan Yuan, Ao Sun, Zongjie Li, Pingchuan Ma, Daoyuan Wu, Shuai Wang, | (参考訳) ビジュアルディープラーニング(VDL)システムは、画像認識、オブジェクト検出、自律運転といった現実世界のアプリケーションで大きな成功を収めている。
VDLの信頼性を評価するために、主なアプローチはソフトウェアテストであり、画像意味論よりも多様で制御可能な突然変異を必要とする。
MLLM(Multi-modal large language model)の急速な開発により、命令駆動方式による画像突然変異の可能性も導入された。
ユーザーは自由に所望の突然変異を記述でき、MLLMは変異した画像を生成できる。
しかしながら、VDLテストにおけるMLLM生成テストインプットの品質はほとんど解明されていない。
本研究はMLLMの妥当性を評価するための最初の研究である。
1)MLLM変異画像の意味的妥当性
2)MLLM変更画像とテキスト指示(プロンプト)のアライメント
3)異なる突然変異がどのように意味を保ち続けるべきかの忠実さ、そして
4) VDL断層の検出の有効性について検討した。
大規模な人間の研究と定量的評価により、画像突然変異のカバードセマンティクスを拡大するMLLMの有望なポテンシャルを同定する。
特に、 SoTA MLLM (例: GPT-4V) は、画像の既存の意味論(回転のような伝統的な突然変異のように)の編集において、サポートや実行に失敗したが、彼らは、画像に余分な意味論をもたらす「セマンティック・アダプティブ(semantic-additive)」な突然変異(例: "dress a dog with clothes")を使用して、高品質なテストインプットを生成する。
したがって、MLLMベースの突然変異は従来の突然変異を補完する重要な要因であり、MLLMベースの手法と従来の画像突然変異を組み合わせて総合的かつ信頼性の高い検査を行うための将来的なVDLテストタスクを提唱する。
Visual deep learning (VDL) systems have shown significant success in real-world applications like image recognition, object detection, and autonomous driving. To evaluate the reliability of VDL, a mainstream approach is software testing, which requires diverse and controllable mutations over image semantics. The rapid development of multi-modal large language models (MLLMs) has introduced revolutionary image mutation potentials through instruction-driven methods. Users can now freely describe desired mutations and let MLLMs generate the mutated images. However, the quality of MLLM-produced test inputs in VDL testing remains largely unexplored. We present the first study, aiming to assess MLLMs' adequacy from 1) the semantic validity of MLLM mutated images, 2) the alignment of MLLM mutated images with their text instructions (prompts), 3) the faithfulness of how different mutations preserve semantics that are ought to remain unchanged, and 4) the effectiveness of detecting VDL faults. With large-scale human studies and quantitative evaluations, we identify MLLM's promising potentials in expanding the covered semantics of image mutations. Notably, while SoTA MLLMs (e.g., GPT-4V) fail to support or perform worse in editing existing semantics in images (as in traditional mutations like rotation), they generate high-quality test inputs using "semantic-additive" mutations (e.g., "dress a dog with clothes"), which bring extra semantics to images; these were infeasible for past approaches. Hence, we view MLLM-based mutations as a vital complement to traditional mutations, and advocate future VDL testing tasks to combine MLLM-based methods and traditional image mutations for comprehensive and reliable testing. | 翻訳日:2024-04-23 14:55:25 公開日:2024-04-22 |
# デュアルモデル置換:連邦学習に基づく視覚的マルチターゲットバックドアアタック
Dual Model Replacement:invisible Multi-target Backdoor Attack based on Federal Learning ( http://arxiv.org/abs/2404.13946v1 ) ライセンス: Link先を確認 | Rong Wang, Guichen Zhou, Mingjun Gao, Yunpeng Xiao, | (参考訳) 近年、連合学習モデルのパラメータに隠されたニューラルネットワークのバックドアは、大きなセキュリティリスクがあることが証明されている。
本稿では, バックドア攻撃におけるトリガ生成, データ中毒, モデル訓練の特徴を考慮し, フェデレート学習に基づくバックドア攻撃法を設計する。
まず、バックドアトリガの隠蔽を目的としたエンコーダ・デコーダ構造を持つトロイジャンガンステガノグラフィーモデルの設計を行う。
本モデルは,バックドアトリガの隠蔽やデータ変換を改善するバックドアトリガとして,特定の攻撃情報を目に見えないノイズとしてエンコードし,イメージにアタッチすることで,バックドアトリガーの隠蔽とデータ変換を改善する。
本手法は,複合トリガの多重化によるマルチバックドアトリガを実現し,バックドア攻撃の堅牢性を向上させる。
最後に, 局所学習機構がバックドア攻撃の成功率の低下につながる問題に対して, フェデレート学習に基づく二重モデル置換バックドア攻撃アルゴリズムを設計する。
この方法は、連合学習集約モデルの性能を維持しつつ、バックドア攻撃の成功率を向上させることができる。
実験により,本論文の攻撃戦略は,多目的攻撃において高いバックドアの隠蔽とトリガーフォームの多様化を達成できるだけでなく,優れた攻撃成功率を達成できることが示されている。
In recent years, the neural network backdoor hidden in the parameters of the federated learning model has been proved to have great security risks. Considering the characteristics of trigger generation, data poisoning and model training in backdoor attack, this paper designs a backdoor attack method based on federated learning. Firstly, aiming at the concealment of the backdoor trigger, a TrojanGan steganography model with encoder-decoder structure is designed. The model can encode specific attack information as invisible noise and attach it to the image as a backdoor trigger, which improves the concealment and data transformations of the backdoor trigger.Secondly, aiming at the problem of single backdoor trigger mode, an image poisoning attack method called combination trigger attack is proposed. This method realizes multi-backdoor triggering by multiplexing combined triggers and improves the robustness of backdoor attacks. Finally, aiming at the problem that the local training mechanism leads to the decrease of the success rate of backdoor attack, a dual model replacement backdoor attack algorithm based on federated learning is designed. This method can improve the success rate of backdoor attack while maintaining the performance of the federated learning aggregation model. Experiments show that the attack strategy in this paper can not only achieve high backdoor concealment and diversification of trigger forms under federated learning, but also achieve good attack success rate in multi-target attacks.door concealment and diversification of trigger forms but also achieve good results in multi-target attacks. | 翻訳日:2024-04-23 14:55:25 公開日:2024-04-22 |
# Boter:知識に基づくVQAのためのブートストラッピング知識選択と質問応答
Boter: Bootstrapping Knowledge Selection and Question Answering for Knowledge-based VQA ( http://arxiv.org/abs/2404.13947v1 ) ライセンス: Link先を確認 | Dongze Hao, Qunbo Wang, Longteng Guo, Jie Jiang, Jing Liu, | (参考訳) 知識に基づく視覚質問回答(VQA)は、視覚コンテンツに関する質問に答えるために外部知識を組み込むモデルを必要とする。
以前の手法は主に"検索と生成"のパラダイムに従っていた。
最初は、訓練済みのレトリバーを使用して、関連する知識文書を取得し、その後、回答を生成するためにそれらを利用する。
これらの手法では,(1)質問文と知識埋め込みの類似性のみに基づいて知識を取得するために独立した検索者を用いて,質問文が真に理解されているかどうかを判断せず,(2)画像をテキストに変換し,自然言語空間で検索・回答を行う。
このような制約に対処するために,MLLM(Multimodal Large Language Model)の頑健なマルチモーダル認識機能を活用することで,知識選択と質問応答をブートストラップする新しいフレームワークであるBoterを提案する。
Selector と Answerer は2つのモジュールから構成される: Selector と Answerer はどちらもMLLM によって初期化され、単純なサイクルでパラメータ非効率に微調整される: Selector を使って検索した知識文書のキー知識を見つけ、Answerer を微調整して回答を予測し、Answerer と弱い監視ラベルの予測に基づいてキー知識文書の擬似ラベルを取得する。
我々のフレームワークは、挑戦的なオープンドメイン知識ベースのVQAベンチマークOK-VQAのベースラインの性能を大幅に向上させ、62.83%の最先端精度を実現した。
Knowledge-based Visual Question Answering (VQA) requires models to incorporate external knowledge to respond to questions about visual content. Previous methods mostly follow the "retrieve and generate" paradigm. Initially, they utilize a pre-trained retriever to fetch relevant knowledge documents, subsequently employing them to generate answers. While these methods have demonstrated commendable performance in the task, they possess limitations: (1) they employ an independent retriever to acquire knowledge solely based on the similarity between the query and knowledge embeddings, without assessing whether the knowledge document is truly conducive to helping answer the question; (2) they convert the image into text and then conduct retrieval and answering in natural language space, which may not ensure comprehensive acquisition of all image information. To address these limitations, we propose Boter, a novel framework designed to bootstrap knowledge selection and question answering by leveraging the robust multimodal perception capabilities of the Multimodal Large Language Model (MLLM). The framework consists of two modules: Selector and Answerer, where both are initialized by the MLLM and parameter-efficiently finetuned in a simple cycle: find key knowledge in the retrieved knowledge documents using the Selector, and then use them to finetune the Answerer to predict answers; obtain the pseudo-labels of key knowledge documents based on the predictions of the Answerer and weak supervision labels, and then finetune the Selector to select key knowledge; repeat. Our framework significantly enhances the performance of the baseline on the challenging open-domain Knowledge-based VQA benchmark, OK-VQA, achieving a state-of-the-art accuracy of 62.83%. | 翻訳日:2024-04-23 14:55:25 公開日:2024-04-22 |
# 低レベルの摂動による野生の文書のシミュレーションによるRAGパイプラインの遺伝的攻撃
Typos that Broke the RAG's Back: Genetic Attack on RAG Pipeline by Simulating Documents in the Wild via Low-level Perturbations ( http://arxiv.org/abs/2404.13948v1 ) ライセンス: Link先を確認 | Sukmin Cho, Soyeong Jeong, Jeongyeon Seo, Taeho Hwang, Jong C. Park, | (参考訳) 最近のLarge Language Models(LLM)の堅牢性は、さまざまなドメインや実世界のアプリケーションに応用性を広げるにつれて、ますます重要になっている。
Retrieval-Augmented Generation (RAG) は LLM の限界に対処するための有望なソリューションであるが、RAG の堅牢性に関する既存の研究は、RAG コンポーネント間の相互関係や、小さなテキストエラーのような現実のデータベースで発生する潜在的な脅威をしばしば見落としている。
本研究では,RAGのロバスト性評価における2つの未解明点について検討する。
1)低レベルの摂動による騒々しい文書への脆弱性
2)RAG堅牢性の総合評価。
さらに,これらの側面を標的とした新たな攻撃手法であるRAG(\textit{GARAG})を導入する。
具体的には、GARAGは各コンポーネントの脆弱性を明らかにし、ノイズの多いドキュメントに対してシステム全体の機能をテストするように設計されている。
我々は、標準QAデータセットにtextit{GARAG}を適用し、多様なレトリバーとLLMを組み込んだRAGロバスト性を検証した。
実験の結果,GARAGは高い攻撃成功率を達成した。
また、各コンポーネントのパフォーマンスとその相乗効果を著しく破壊し、現実の世界におけるRAGシステムの破壊に小さなテキストの不正確さがもたらす重大なリスクを浮き彫りにした。
The robustness of recent Large Language Models (LLMs) has become increasingly crucial as their applicability expands across various domains and real-world applications. Retrieval-Augmented Generation (RAG) is a promising solution for addressing the limitations of LLMs, yet existing studies on the robustness of RAG often overlook the interconnected relationships between RAG components or the potential threats prevalent in real-world databases, such as minor textual errors. In this work, we investigate two underexplored aspects when assessing the robustness of RAG: 1) vulnerability to noisy documents through low-level perturbations and 2) a holistic evaluation of RAG robustness. Furthermore, we introduce a novel attack method, the Genetic Attack on RAG (\textit{GARAG}), which targets these aspects. Specifically, GARAG is designed to reveal vulnerabilities within each component and test the overall system functionality against noisy documents. We validate RAG robustness by applying our \textit{GARAG} to standard QA datasets, incorporating diverse retrievers and LLMs. The experimental results show that GARAG consistently achieves high attack success rates. Also, it significantly devastates the performance of each component and their synergy, highlighting the substantial risk that minor textual inaccuracies pose in disrupting RAG systems in the real world. | 翻訳日:2024-04-23 14:55:25 公開日:2024-04-22 |
# PeLiCal:共同視認性に制限のあるRGB-Dカメラの貫入線による無目標極端校正
PeLiCal: Targetless Extrinsic Calibration via Penetrating Lines for RGB-D Cameras with Limited Co-visibility ( http://arxiv.org/abs/2404.13949v1 ) ライセンス: Link先を確認 | Jaeho Shin, Seungsang Yun, Ayoung Kim, | (参考訳) RGB-Dカメラは、深度データを付加した画像を生成する能力を考えると、ロボットの知覚に不可欠である。
しかし、FOVは広い範囲をカバーするために複数のカメラを必要とすることが多い。
マルチカメラのRGB-Dセットアップでは、通常はカメラのオーバーラップを減らし、できるだけ少ないカメラで空間範囲を最適化する。
これらのシステムの外部キャリブレーションは、さらなる複雑さをもたらす。
既存のキャリブレーション法では、特定のツールを必要とするか、カメラモーション推定の精度に大きく依存する。
これらの問題に対処するために,RGB-Dカメラシステムのためのラインベースキャリブレーション手法であるPeLiCalを提案する。
提案手法は, 周辺環境からの長い線の特徴を活用し, 新たな収束投票アルゴリズムを用いて, 既存の手法と比較して, 目標のない, リアルタイム, アウトリア・ロバストな性能を実現する。
私たちは、その実装をオープンソースにしています。
RGB-D cameras are crucial in robotic perception, given their ability to produce images augmented with depth data. However, their limited FOV often requires multiple cameras to cover a broader area. In multi-camera RGB-D setups, the goal is typically to reduce camera overlap, optimizing spatial coverage with as few cameras as possible. The extrinsic calibration of these systems introduces additional complexities. Existing methods for extrinsic calibration either necessitate specific tools or highly depend on the accuracy of camera motion estimation. To address these issues, we present PeLiCal, a novel line-based calibration approach for RGB-D camera systems exhibiting limited overlap. Our method leverages long line features from surroundings, and filters out outliers with a novel convergence voting algorithm, achieving targetless, real-time, and outlier-robust performance compared to existing methods. We open source our implementation on \url{https://github.com/joomeok/PeLiCal.git}. | 翻訳日:2024-04-23 14:55:25 公開日:2024-04-22 |
# プログラム環境ファズリング
Program Environment Fuzzing ( http://arxiv.org/abs/2404.13951v1 ) ライセンス: Link先を確認 | Ruijie Meng, Gregory J. Duck, Abhik Roychoudhury, | (参考訳) プログラムは独立して実行されるのではなく、プログラムの振る舞いを駆動する実行環境と相互作用する。
これにより、ファイル、データベース、構成、ネットワークソケット、人間とユーザのインタラクションなど、複雑な環境相互作用の影響を捉える必要がある。
シンボリックな実行における環境キャプチャの従来のアプローチと、手作業を伴う環境モデリングを用いたモデルチェック。
本稿では,グレーボックスファジングの拡張に基づいて,異なるアプローチをとる。
プログラムが与えられた場合、カーネル/ユーザ/モード境界におけるすべての環境相互作用をシステムコールの形式で記録する。
次に、元の記録された相互作用の下でプログラムをリプレイするが、今回は選択的な突然変異を適用し、異なるプログラム環境の効果を得る。
ファジィキャンペーンの繰り返し(フィードバック駆動)変異によって、クラッシュする振る舞いを引き起こすプログラム環境を探すことができる。
私たちのEFuzzツールは、よく知られた現実世界のプロトコル実装とGUIアプリケーションで33のゼロデイバグを発見しました。
その多くはセキュリティ上の脆弱性であり、14のCVEが割り当てられている。
Computer programs are not executed in isolation, but rather interact with the execution environment which drives the program behaviours. Software validation and verification methods, such as greybox fuzzing, thus need to capture the effect of possibly complex environmental interactions, including files, databases, configurations, network sockets, human-user interactions, and more. Conventional approaches for environment capture in symbolic execution and model checking employ environment modelling, which involves manual effort. In this paper, we take a different approach based on an extension of greybox fuzzing. Given a program, we first record all observed environmental interactions at the kernel/user-mode boundary in the form of system calls. Next, we replay the program under the original recorded interactions, but this time with selective mutations applied, in order to get the effect of different program environments -- all without environment modelling. Via repeated (feedback-driven) mutations over a fuzzing campaign, we can search for program environments that induce crashing behaviour. Our EFuzz tool found 33 zero-day bugs in well-known real-world protocol implementations and GUI applications. Many of these are security vulnerabilities and 14 CVEs were assigned. | 翻訳日:2024-04-23 14:55:25 公開日:2024-04-22 |
# 360VOTS:全方向ビデオにおける視覚的オブジェクト追跡とセグメンテーション
360VOTS: Visual Object Tracking and Segmentation in Omnidirectional Videos ( http://arxiv.org/abs/2404.13953v1 ) ライセンス: Link先を確認 | Yinzhe Xu, Huajian Huang, Yingshu Chen, Sai-Kit Yeung, | (参考訳) 360{\deg}画像による視野の広さと球面歪みのため、全方位ビデオにおける物体追跡とセグメンテーションは困難である。
これらの問題を緩和するために,対象のローカライゼーションのための新しい表現,拡張境界視野(eBFoV)を導入し,全方向の視覚的物体追跡とセグメンテーションの両タスクに適用可能な一般的な360トラッキングフレームワークの基盤として利用する。
本研究は,全方向視覚オブジェクトトラッキング(360VOT)に関するこれまでの研究に基づいて,全方向ビデオオブジェクトセグメンテーション(360VOS)と呼ばれる新しいコンポーネントを組み込んだ包括的なデータセットとベンチマークを提案する。
360VOSデータセットは、高密度のピクセルワイドマスクを伴い、290のシーケンスを含み、幅広いターゲットカテゴリをカバーする。
この領域におけるアルゴリズムの開発と評価の両方をサポートするため、データセットを170のシーケンスを持つトレーニングサブセットと120のシーケンスを持つテストサブセットに分割する。
さらに,全方位追跡とセグメンテーションの両方の評価基準を調整し,厳密な評価を確実にする。
広範な実験を通じて、最先端のアプローチをベンチマークし、提案した360度トラッキングフレームワークとトレーニングデータセットの有効性を実証する。
ホームページ:https://360vots.hkustvgd.com/
Visual object tracking and segmentation in omnidirectional videos are challenging due to the wide field-of-view and large spherical distortion brought by 360{\deg} images. To alleviate these problems, we introduce a novel representation, extended bounding field-of-view (eBFoV), for target localization and use it as the foundation of a general 360 tracking framework which is applicable for both omnidirectional visual object tracking and segmentation tasks. Building upon our previous work on omnidirectional visual object tracking (360VOT), we propose a comprehensive dataset and benchmark that incorporates a new component called omnidirectional video object segmentation (360VOS). The 360VOS dataset includes 290 sequences accompanied by dense pixel-wise masks and covers a broader range of target categories. To support both the development and evaluation of algorithms in this domain, we divide the dataset into a training subset with 170 sequences and a testing subset with 120 sequences. Furthermore, we tailor evaluation metrics for both omnidirectional tracking and segmentation to ensure rigorous assessment. Through extensive experiments, we benchmark state-of-the-art approaches and demonstrate the effectiveness of our proposed 360 tracking framework and training dataset. Homepage: https://360vots.hkustvgd.com/ | 翻訳日:2024-04-23 14:55:25 公開日:2024-04-22 |
# 機械学習を用いた空気戦闘行動モデリングに関する調査研究
A survey of air combat behavior modeling using machine learning ( http://arxiv.org/abs/2404.13954v1 ) ライセンス: Link先を確認 | Patrick Ribu Gorton, Andreas Strand, Karsten Brathen, | (参考訳) 近年の機械学習の進歩により、模擬空戦で現実的に振る舞うエージェントが注目されている。
本研究は, シミュレーションに基づくパイロット訓練の強化を動機とした, 空気戦闘行動のモデル化のための機械学習技術の応用について検討する。
現在のシミュレートされたエンティティは現実的な振る舞いを欠く傾向にあり、従来の振る舞いモデリングは労働集約的であり、開発ステップ間で重要なドメイン知識を失う傾向があります。
強化学習と模倣学習アルゴリズムの進歩は、エージェントがデータから複雑な振る舞いを学ぶことを実証している。
しかし、戦術的な操作や武器やセンサーの操作が可能な適応エージェントを作ることは、依然として大きな課題となっている。
この調査では、応用、行動モデルタイプ、一般的な機械学習手法、適応的で現実的な行動エージェントの開発における技術的および人間的課題について調査している。
もうひとつの課題は、学習環境から軍事シミュレーションシステムへのエージェントの移動と、それに伴う標準化の要求である。
視覚範囲を超えたシナリオ、マルチエージェント機械学習と協調、階層的行動モデルの利用、標準化と研究協力のイニシアチブに重点を置く4つの主要な推奨事項が提示される。
これらの勧告は、現在の問題に対処し、より包括的で適応性があり、現実的な機械学習ベースの行動モデルの開発を航空戦闘用途に導くことを目的としている。
With the recent advances in machine learning, creating agents that behave realistically in simulated air combat has become a growing field of interest. This survey explores the application of machine learning techniques for modeling air combat behavior, motivated by the potential to enhance simulation-based pilot training. Current simulated entities tend to lack realistic behavior, and traditional behavior modeling is labor-intensive and prone to loss of essential domain knowledge between development steps. Advancements in reinforcement learning and imitation learning algorithms have demonstrated that agents may learn complex behavior from data, which could be faster and more scalable than manual methods. Yet, making adaptive agents capable of performing tactical maneuvers and operating weapons and sensors still poses a significant challenge. The survey examines applications, behavior model types, prevalent machine learning methods, and the technical and human challenges in developing adaptive and realistically behaving agents. Another challenge is the transfer of agents from learning environments to military simulation systems and the consequent demand for standardization. Four primary recommendations are presented regarding increased emphasis on beyond-visual-range scenarios, multi-agent machine learning and cooperation, utilization of hierarchical behavior models, and initiatives for standardization and research collaboration. These recommendations aim to address current issues and guide the development of more comprehensive, adaptable, and realistic machine learning-based behavior models for air combat applications. | 翻訳日:2024-04-23 14:55:25 公開日:2024-04-22 |
# LLMはいかにしてEchoを使えるか?ECHOによるAIチャットボットのロールプレイ能力の評価
How Well Can LLMs Echo Us? Evaluating AI Chatbots' Role-Play Ability with ECHO ( http://arxiv.org/abs/2404.13957v1 ) ライセンス: Link先を確認 | Man Tik Ng, Hui Tung Tse, Jen-tse Huang, Jingjing Li, Wenxuan Wang, Michael R. Lyu, | (参考訳) LLM(Large Language Models)のロールプレイ能力は、一般的な研究の方向性として現れている。
しかし、現存する研究は、一般市民をシミュレートする可能性を見越して、著名人や架空の人物を模倣することに焦点を当てている。
このような監視は、ビデオゲームにおけるデジタル人間クローンやノンプレイヤーキャラクターの進歩の可能性を制限している。
このギャップを埋めるために、チューリングテストに触発された評価フレームワークECHOを紹介します。
この枠組みは、人間と機械が生成した反応を区別するために、対象個人の知名度に係わる。
特に、我々のフレームワークは、歴史や架空の人物ではなく、平均的な個人をエミュレートすることに焦点を当てており、チューリングテストを適用する上でユニークな利点を示している。
GPT-3.5 と GPT-4 の3つのロールプレイング LLM を基盤モデルとして,OpenAI のオンラインアプリケーション GPT とともに評価した。
以上の結果から, GPT-4はヒト評価因子をより効果的に欺き, GPTは48.3%の成功率を達成した。
さらに,LLMが人間生成テキストと機械生成テキストを区別できるかどうかを検討した。
GPT-4は違いを識別できるが、どのテキストが人為的に生成されているかは特定できなかった。
ロールプレイング LLM を再現したコードと結果は https://github.com/CUHK-ARISE/ECHO で公開されている。
The role-play ability of Large Language Models (LLMs) has emerged as a popular research direction. However, existing studies focus on imitating well-known public figures or fictional characters, overlooking the potential for simulating ordinary individuals. Such an oversight limits the potential for advancements in digital human clones and non-player characters in video games. To bridge this gap, we introduce ECHO, an evaluative framework inspired by the Turing test. This framework engages the acquaintances of the target individuals to distinguish between human and machine-generated responses. Notably, our framework focuses on emulating average individuals rather than historical or fictional figures, presenting a unique advantage to apply the Turing Test. We evaluated three role-playing LLMs using ECHO, with GPT-3.5 and GPT-4 serving as foundational models, alongside the online application GPTs from OpenAI. Our results demonstrate that GPT-4 more effectively deceives human evaluators, and GPTs achieves a leading success rate of 48.3%. Furthermore, we investigated whether LLMs could discern between human-generated and machine-generated texts. While GPT-4 can identify differences, it could not determine which texts were human-produced. Our code and results of reproducing the role-playing LLMs are made publicly available via https://github.com/CUHK-ARISE/ECHO. | 翻訳日:2024-04-23 14:55:25 公開日:2024-04-22 |
# ジェネレーティブAIの著作権問題に対する経済的解決策
An Economic Solution to Copyright Challenges of Generative AI ( http://arxiv.org/abs/2404.13964v1 ) ライセンス: Link先を確認 | iachen T. Wang, Zhun Deng, Hiroaki Chiba-Okabe, Boaz Barak, Weijie J. Su, | (参考訳) 生成人工知能(AI)システムは、テキスト、画像、ビデオ、その他のメディアを生成するために、大規模なデータコーパスで訓練されている。
このようなシステムは、データコントリビュータのトレーニングに関する著作権権に侵害されるのではないか、という懸念が高まっている。
生成AIの著作権問題に対処するため、我々は、AI生成コンテンツ作成への貢献に比例して著作権所有者を補償する枠組みを提案する。
コントリビューションの計量は、現代の生成AIモデルの確率的性質を活用し、経済学における協調ゲーム理論の技法を用いて定量的に決定される。
このフレームワークは、AI開発者が高品質なトレーニングデータにアクセスすることで、モデルパフォーマンスを向上させるプラットフォームを可能にする。
一方、著作権所有者は公正な補償を受け、生成モデルトレーニングのための関連データの継続的な提供を推進している。
実験により,本フレームワークは,著作権所有者間の収益の公平かつ解釈可能な分配を確保するため,美術作品生成において最も関連性の高いデータソースの同定に成功していることが示された。
Generative artificial intelligence (AI) systems are trained on large data corpora to generate new pieces of text, images, videos, and other media. There is growing concern that such systems may infringe on the copyright interests of training data contributors. To address the copyright challenges of generative AI, we propose a framework that compensates copyright owners proportionally to their contributions to the creation of AI-generated content. The metric for contributions is quantitatively determined by leveraging the probabilistic nature of modern generative AI models and using techniques from cooperative game theory in economics. This framework enables a platform where AI developers benefit from access to high-quality training data, thus improving model performance. Meanwhile, copyright owners receive fair compensation, driving the continued provision of relevant data for generative model training. Experiments demonstrate that our framework successfully identifies the most relevant data sources used in artwork generation, ensuring a fair and interpretable distribution of revenues among copyright owners. | 翻訳日:2024-04-23 14:45:41 公開日:2024-04-22 |
# インフォメーション・ボトルネックでLLMを保護する
Protecting Your LLMs with Information Bottleneck ( http://arxiv.org/abs/2404.13968v1 ) ライセンス: Link先を確認 | Zichuan Liu, Zefan Wang, Linjie Xu, Jinyu Wang, Lei Song, Tianchun Wang, Chunlin Chen, Wei Cheng, Jiang Bian, | (参考訳) 大規模言語モデル(LLM)の出現は自然言語処理の分野に革命をもたらしたが、有害なコンテンツを生み出すために攻撃される可能性がある。
LLMを倫理的に整合させる努力にもかかわらず、これらはしばしば脆弱であり、最適化されたまたは手動の敵のプロンプトを通じてジェイルブレイク攻撃によって回避される。
そこで我々は,情報ボトルネック原理に基づく防御機構であるIBProtector(Information Bottleneck Protector)を導入する。
IBProtectorは、軽量で訓練可能な抽出器によって促進される、選択的に圧縮および摂動プロンプトを圧縮し、目標のLSMが期待する応答に応答するために必要な情報のみを保持する。
さらに,LLMと互換性のある勾配が見えない状況についても検討する。
実験により, IBProtectorは, 応答品質や推論速度に過度に影響を及ぼすことなく, ジェイルブレイクを緩和する現行の防御方法より優れていることが示された。
様々な攻撃方法と目標LLMに対する適応性は、基盤となるモデルの変更を必要とせず、LLMのセキュリティを増強する、新規で移動可能な防御技術としてのIBProtectorの可能性を強調している。
The advent of large language models (LLMs) has revolutionized the field of natural language processing, yet they might be attacked to produce harmful content. Despite efforts to ethically align LLMs, these are often fragile and can be circumvented by jailbreaking attacks through optimized or manual adversarial prompts. To address this, we introduce the Information Bottleneck Protector (IBProtector), a defense mechanism grounded in the information bottleneck principle, and we modify the objective to avoid trivial solutions. The IBProtector selectively compresses and perturbs prompts, facilitated by a lightweight and trainable extractor, preserving only essential information for the target LLMs to respond with the expected answer. Moreover, we further consider a situation where the gradient is not visible to be compatible with any LLM. Our empirical evaluations show that IBProtector outperforms current defense methods in mitigating jailbreak attempts, without overly affecting response quality or inference speed. Its effectiveness and adaptability across various attack methods and target LLMs underscore the potential of IBProtector as a novel, transferable defense that bolsters the security of LLMs without requiring modifications to the underlying models. | 翻訳日:2024-04-23 14:45:41 公開日:2024-04-22 |
# HamilToniQ: 量子コンピュータのためのオープンソースのベンチマークツールキット
HamilToniQ: An Open-Source Benchmark Toolkit for Quantum Computers ( http://arxiv.org/abs/2404.13971v1 ) ライセンス: Link先を確認 | Xiaotian Xu, Kuan-Cheng Chen, Robert Wille, | (参考訳) 本稿では,Quantum Processing Units (QPUs) の包括的な評価を行うための,オープンソースおよびアプリケーション指向ベンチマークツールキットであるHamilToniQを紹介する。
量子計算の複雑さをナビゲートするために設計されたHamilToniQは、QPUタイプ、トポロジ、マルチQPUシステムを評価する方法論のフレームワークを組み込んでいる。
このツールキットは、量子回路コンパイルやQEM(Quantum error mitigation)を含む複数のステップを通じて、各ステージに固有の戦略を統合することで、QPUの性能評価を容易にする。
HamilToniQの標準スコアであるH-Scoreは、QPUの忠実度と信頼性を定量化し、QPU性能の多次元的視点を提供する。
量子近似最適化アルゴリズム(QAOA)に焦点をあてて、このツールキットはQPUの直接的かつ同等な分析を可能にし、ベンチマークにおける透明性とエクイティを向上する。
この論文で実証されたHamilToniQは、様々なIBM QPUで検証され、その有効性と堅牢性を確認している。
全体として、HamilToniQは、正確で公平なベンチマーク指標を提供することで、量子コンピューティング分野の発展に大きく貢献している。
In this paper, we introduce HamilToniQ, an open-source, and application-oriented benchmarking toolkit for the comprehensive evaluation of Quantum Processing Units (QPUs). Designed to navigate the complexities of quantum computations, HamilToniQ incorporates a methodological framework assessing QPU types, topologies, and multi-QPU systems. The toolkit facilitates the evaluation of QPUs' performance through multiple steps including quantum circuit compilation and quantum error mitigation (QEM), integrating strategies that are unique to each stage. HamilToniQ's standardized score, H-Score, quantifies the fidelity and reliability of QPUs, providing a multidimensional perspective of QPU performance. With a focus on the Quantum Approximate Optimization Algorithm (QAOA), the toolkit enables direct, comparable analysis of QPUs, enhancing transparency and equity in benchmarking. Demonstrated in this paper, HamilToniQ has been validated on various IBM QPUs, affirming its effectiveness and robustness. Overall, HamilToniQ significantly contributes to the advancement of the quantum computing field by offering precise and equitable benchmarking metrics. | 翻訳日:2024-04-23 14:45:41 公開日:2024-04-22 |
# ニューロモルフィックシャッター制御による非均一露光イメージング
Non-Uniform Exposure Imaging via Neuromorphic Shutter Control ( http://arxiv.org/abs/2404.13972v1 ) ライセンス: Link先を確認 | Mingyuan Lin, Jian Liu, Chi Zhang, Zibo Zhao, Chu He, Lei Yu, | (参考訳) ぼやけたノイズのトレードオフを活用することで、一様でない露光による撮像は、厳しい環境下での画像取得の柔軟性を大きく広げる。
しかし,フレーム内ダイナミック情報を知覚する従来のカメラの限界は,リアルタイム適応カメラシャッター制御のための実世界のフレーム取得において,既存手法の実装を妨げている。
この課題に対処するために、動作のぼやけを回避し、瞬時ノイズを軽減する新しいニューロモルフィックシャッター制御(NSC)システムを提案する。
さらに、非一様露光時間による不整合信号-雑音比(SNR)の安定化を図るため、実世界のシーンにおける高品質な画像撮影のための人工的な監視信号を得るために、自己教師付き学習パラダイム(SEID)内で、画像ノイズの統計とイベントのフレーム間移動情報を探索するイベントベース画像復調ネットワークを提案する。
提案手法の有効性を説明するため,ハイブリッドカメラのプロトタイプシステムを構築し,異なるターゲットシーンや動作パターンの異なる様々なシナリオにおいて,適切に同期されたフレームやイベントを含む実世界のデータセットを収集する。
合成および実世界のデータセットに関する実験は、我々の手法が最先端のアプローチよりも優れていることを示す。
By leveraging the blur-noise trade-off, imaging with non-uniform exposures largely extends the image acquisition flexibility in harsh environments. However, the limitation of conventional cameras in perceiving intra-frame dynamic information prevents existing methods from being implemented in the real-world frame acquisition for real-time adaptive camera shutter control. To address this challenge, we propose a novel Neuromorphic Shutter Control (NSC) system to avoid motion blurs and alleviate instant noises, where the extremely low latency of events is leveraged to monitor the real-time motion and facilitate the scene-adaptive exposure. Furthermore, to stabilize the inconsistent Signal-to-Noise Ratio (SNR) caused by the non-uniform exposure times, we propose an event-based image denoising network within a self-supervised learning paradigm, i.e., SEID, exploring the statistics of image noises and inter-frame motion information of events to obtain artificial supervision signals for high-quality imaging in real-world scenes. To illustrate the effectiveness of the proposed NSC, we implement it in hardware by building a hybrid-camera imaging prototype system, with which we collect a real-world dataset containing well-synchronized frames and events in diverse scenarios with different target scenes and motion patterns. Experiments on the synthetic and real-world datasets demonstrate the superiority of our method over state-of-the-art approaches. | 翻訳日:2024-04-23 14:45:41 公開日:2024-04-22 |
# DEQ-MCL: 離散イベントキューベースのモンテカルロローカライゼーション
DEQ-MCL: Discrete-Event Queue-based Monte-Carlo Localization ( http://arxiv.org/abs/2404.13973v1 ) ライセンス: Link先を確認 | Akira Taniguchi, Ayako Fukawa, Hiroshi Yamakawa, | (参考訳) 海馬形成における空間認知は,ロボットの自己局在化技術の発展において重要な役割を担っていると考えられる。
本稿では,海馬形成における位相偏差に伴う離散イベントキュー仮説に基づく自己局在化手法DEQ-MCLを提案する。
本手法は,待ち行列として整理された過去,現在,将来の状態の両方を含む状態の後方分布を効果的に推定する。
このアプローチにより,過去の状態の後部分布の平滑化と将来の状態の実現可能性を考慮した共同分布の重み付けが可能となる。
提案手法は,屋内環境における自己局在化性能の向上に有効であることを示す。
Spatial cognition in hippocampal formation is posited to play a crucial role in the development of self-localization techniques for robots. In this paper, we propose a self-localization approach, DEQ-MCL, based on the discrete event queue hypothesis associated with phase precession within the hippocampal formation. Our method effectively estimates the posterior distribution of states, encompassing both past, present, and future states that are organized as a queue. This approach enables the smoothing of the posterior distribution of past states using current observations and the weighting of the joint distribution by considering the feasibility of future states. Our findings indicate that the proposed method holds promise for augmenting self-localization performance in indoor environments. | 翻訳日:2024-04-23 14:45:41 公開日:2024-04-22 |
# 専門用語の正規化 : TICEの多言語化と技術
Normalisation de terminologies multilingues pour les TICE : techniques et enjeux ( http://arxiv.org/abs/2404.13977v1 ) ライセンス: Link先を確認 | Mokhtar Ben Henda, Henri Hudrisier, | (参考訳) ターミノロジーとレキシコグラフィーの標準化は、多言語グローバリゼーションの時代、特に我々の立場から、ターミノロジーと翻訳の時代においてますます重要になってきている根本的な問題である。
多言語グローバル化とe-semanticsの課題は、"用語と他の言語およびコンテンツリソース"(ISO-TC37の称号)の標準の開発と展望 用語(または語彙)を開発するすべての標準化分野の開発と未来 開発の基礎として機能し、その参照として機能する。
講演の前半でまず,専門用語学,特に専門用語学における標準化の規範的側面を指摘する。
第2部では,用語標準化プロジェクトの概要とその理論的根拠を概説し,第3部ではICTEの具体的課題について論じる。
この分野での私たちの関与は、メソッドの仮定と価値に焦点をあてます。
理論的・技術的発展が進行中で、学術的なコミュニティとの協力の必要性で締めくくります。
Terminology and lexicography standardization is a fundamental issue that is becoming increasingly important in the era of multilingual globalization and particularly, from our standpoint, the era of terminotics and translation. The challenges of multilingual globalization and e-semantics directly impact standardization methods: Development and perspectives of standards for ''Terminology and other language and content resources'' (the title of ISO-TC37); Development and future of all standardization fields that develop terminology (or vocabulary) most often multilingual, serving as the basis for their development and acting as a reference totheir use. In the first part of our presentation, we will first point out the normative aspects of standardization in terminology and especially terminotics. In the second part, we will present a brief overview of terminology standardization projects and their rationale, In the third part, we will develop the specific issue of ICTE. We will focus on our involvement in this field, on our assumptions and values of methods. We will set out our theoretical and technical developments underway and will conclude with our needs for collaboration with your academic community. | 翻訳日:2024-04-23 14:45:41 公開日:2024-04-22 |
# Pour une interop{é}rabilit{é} s{é}mantique en {é}ducation : les mod{è}les normatifs de l'ISO/IEC JTC1 SC36
Pour une interop{é}rabilit{é} s{é}mantique en {é}ducation : les mod{è}les normatifs de l'ISO/IEC JTC1 SC36 ( http://arxiv.org/abs/2404.13978v1 ) ライセンス: Link先を確認 | Mokhtar Ben Henda, | (参考訳) コンテンツの意味論は、革新的な教育システムのモデルの本質的な構成要素の1つである。
技術産業、電気通信、IT、言語工学、情報科学文書等の分野において、さまざまなアクターが行う規範的取り組みに基づいて徐々に構築される。
ネットワークとデジタル情報システムのセマンティックスは、実際には、用語的作業が重要な部分を占めるデジタル情報を処理する長いプロセスにおける高度なリンクを表している。
このプロセスは、非常に高度な技術的、組織的、セマンティックな相互運用性を保証する幅広い規範と標準によって、非常に統合されています。
The semantics of content is one of the essential constituents of models of innovative educational systems. It is gradually built based on normative efforts carried out by different actors in the fields of the technological industry, telecommunications, IT, linguistic engineering, information sciences documentation, etc. Semantics in networks and digital information systems represent, in fact, an advanced link in a long process of processing digital information in which terminological work occupies an important part. This process is also very consolidated by a wide range of norms and standards which ensure very high levels of technical, organizational, and semantic interoperability. | 翻訳日:2024-04-23 14:45:41 公開日:2024-04-22 |
# GDPR準拠のためのモデリング手法:包括的解決に向けて
Modelling Technique for GDPR-compliance: Toward a Comprehensive Solution ( http://arxiv.org/abs/2404.13979v1 ) ライセンス: Link先を確認 | Naila Azam, Anna Lito Michala, Shuja Ansari, Nguyen Truong, | (参考訳) データ駆動型アプリケーションやサービスは、膨大な個人情報を収集し、集約し、さまざまなソースから集中化されたサーバで処理する医療や医療サービスなど、生活のあらゆる面でますます多くデプロイされている。
その結果、これらのアプリケーションのデータプライバシとセキュリティを維持することが最重要となる。
2018年5月以降、EU/UKの新たなデータ保護法、すなわちGDPR(General Data Protection Regulation)が施行され、GDPRの高度な要求を満たすための重要な必要性が求められている。
既存の脅威モデリング技術はGDPRコンプライアンスをモデル化するために設計されておらず、特に個人情報を収集、処理、操作、第三者と共有する複雑なシステムにおいてである。
本稿では、GDPR要件をベースラインとして、既存のセキュリティおよびプライバシモデリング技術(例えば、 \textit{STRIDE} と \textit{LINDDUN} )と組み合わせることで、非コンプライアンスの脅威に対処し、それらを緩和する脅威モデリング技術を開発するための、新しい総合的なソリューションを提案する。
そこで本研究では,GDPRの原則と統合された新たなデータフロー図を提案し,非準拠の脅威に対する知識ベースを開発し,知識ベースに対するGDPRの非準拠の脅威を推論するために推論エンジンを活用する。
最後に,遠隔医療システムにおける法的根拠と説明責任に不適合な脅威に対する解決策を示し,提案手法の有効性と有効性を示す。
Data-driven applications and services have been increasingly deployed in all aspects of life including healthcare and medical services in which a huge amount of personal data is collected, aggregated, and processed in a centralised server from various sources. As a consequence, preserving the data privacy and security of these applications is of paramount importance. Since May 2018, the new data protection legislation in the EU/UK, namely the General Data Protection Regulation (GDPR), has come into force and this has called for a critical need for modelling compliance with the GDPR's sophisticated requirements. Existing threat modelling techniques are not designed to model GDPR compliance, particularly in a complex system where personal data is collected, processed, manipulated, and shared with third parties. In this paper, we present a novel comprehensive solution for developing a threat modelling technique to address threats of non-compliance and mitigate them by taking GDPR requirements as the baseline and combining them with the existing security and privacy modelling techniques (i.e., \textit{STRIDE} and \textit{LINDDUN}, respectively). For this purpose, we propose a new data flow diagram integrated with the GDPR principles, develop a knowledge base for the non-compliance threats, and leverage an inference engine for reasoning the GDPR non-compliance threats over the knowledge base. Finally, we demonstrate our solution for threats of non-compliance with legal basis and accountability in a telehealth system to show the feasibility and effectiveness of the proposed solution. | 翻訳日:2024-04-23 14:45:41 公開日:2024-04-22 |
# 適応親和性グラフネットワークを用いた構造認識型人体再構成
Structure-Aware Human Body Reshaping with Adaptive Affinity-Graph Network ( http://arxiv.org/abs/2404.13983v1 ) ライセンス: Link先を確認 | Qiwen Deng, Yangcen Liu, Wen Li, Guoqing Wang, | (参考訳) 人体自動整形作業は、人体を美的体型に編集することを目的としている。
この技術はメディアで広く使われてきたため、主に体形を歪めるための光学フローの生成に焦点を当てたいくつかの手法が提案されている。
しかし、これらの以前の研究は、異なる身体部分(腕、胴体、脚)の局所的な変換のみを考慮し、世界的親和性を無視し、身体全体の一貫性と品質を確保する能力を制限するだけであった。
本稿では,各部位間の大域的親和性を抽出し,生成した光フローの品質を向上させる適応親和性グラフネットワーク(AAGN)を提案する。
具体的には,(1)完全連結グラフの特性を利用する適応親和性グラフブロック(AAG)を提案する。
AAGは、適応的な完全連結グラフのノードとして異なる身体の部分を表し、ノード間のすべての親和性をキャプチャして、グローバル親和性マップを得る。
この設計により、ボディ部品間の一貫性が向上する可能性がある。
2) 写真美学において高周波の詳細は不可欠であり, 身体形状識別器 (BSD) は高周波領域と空間領域の両方から情報を抽出するように設計されている。
特に、SRMフィルタを用いて高周波の詳細を抽出し、BSDへの入力として空間的特徴と組み合わせる。
この設計により、BSDはフロージェネレータ (FG) をガイドし、より厳密なピクセルレベルのフィッティングではなく、様々な細部に注意を払っている。
BR-5Kデータセットを用いて行った広範囲な実験により、我々のフレームワークは画像の美的魅力を著しく向上させ、すべての評価指標において最先端を達成するために、過去の全ての研究をわずかに上回る結果となった。
Given a source portrait, the automatic human body reshaping task aims at editing it to an aesthetic body shape. As the technology has been widely used in media, several methods have been proposed mainly focusing on generating optical flow to warp the body shape. However, those previous works only consider the local transformation of different body parts (arms, torso, and legs), ignoring the global affinity, and limiting the capacity to ensure consistency and quality across the entire body. In this paper, we propose a novel Adaptive Affinity-Graph Network (AAGN), which extracts the global affinity between different body parts to enhance the quality of the generated optical flow. Specifically, our AAGN primarily introduces the following designs: (1) we propose an Adaptive Affinity-Graph (AAG) Block that leverages the characteristic of a fully connected graph. AAG represents different body parts as nodes in an adaptive fully connected graph and captures all the affinities between nodes to obtain a global affinity map. The design could better improve the consistency between body parts. (2) Besides, for high-frequency details are crucial for photo aesthetics, a Body Shape Discriminator (BSD) is designed to extract information from both high-frequency and spatial domain. Particularly, an SRM filter is utilized to extract high-frequency details, which are combined with spatial features as input to the BSD. With this design, BSD guides the Flow Generator (FG) to pay attention to various fine details rather than rigid pixel-level fitting. Extensive experiments conducted on the BR-5K dataset demonstrate that our framework significantly enhances the aesthetic appeal of reshaped photos, marginally surpassing all previous work to achieve state-of-the-art in all evaluation metrics. | 翻訳日:2024-04-23 14:45:41 公開日:2024-04-22 |
# RHanDS:デカップリングされた構造とスタイル誘導を備えた画像のための不正なハンドの精製
RHanDS: Refining Malformed Hands for Generated Images with Decoupled Structure and Style Guidance ( http://arxiv.org/abs/2404.13984v1 ) ライセンス: Link先を確認 | Chengrui Wang, Pengfei Liu, Min Zhou, Ming Zeng, Xubin Li, Tiezheng Ge, Bo zheng, | (参考訳) 拡散モデルは高品質な人間の画像を生成することができるが、それらの応用は正しい構造を持つ手を生成する不安定性によって制限される。
従来の作業では、手の構造を考慮しながら、洗練された不正な手と他の画像領域間のスタイルの整合性を維持するのに苦労していたため、この問題を軽減するものもあった。
本稿では,手の構造とスタイルの整合性に関する問題を解決することを目的とする。
共役構造とスタイルガイダンスの助けを借りて手領域を洗練するための条件付き拡散型フレームワーク RHanDS を提案する。
特に、構造ガイダンスは、不正な手から再構成された手メッシュであり、手構造を補正するのに役立ちます。
スタイルガイドは、手の画像、例えば、不正な手そのものであり、手作りのスタイル参照を提供するために用いられる。
ハンドスタイルの参照時の構造漏洩を抑えるため,モデルの性能向上のためにハンドデータを有効に活用するために,マルチスタイルハンドデータセットを構築し,2段階のトレーニング戦略を導入する。
第1段階では、ペアハンドイメージをトレーニングに使用して、参照と同じスタイルで手を生成する。
第2段階では、人間のメッシュに基づいて生成されたさまざまなハンドイメージをトレーニングに使用して、モデルが手の構造を制御できるようにする。
提案するマルチスタイルハンドデータセットのテストデータセット上で,本手法とそれに対応する手法について検討する。
実験の結果,RHanDSは従来の手法と比較して手の構造とスタイルを効果的に洗練できることがわかった。
コードとデータセットは近く提供される。
Although diffusion models can generate high-quality human images, their applications are limited by the instability in generating hands with correct structures. Some previous works mitigate the problem by considering hand structure yet struggle to maintain style consistency between refined malformed hands and other image regions. In this paper, we aim to solve the problem of inconsistency regarding hand structure and style. We propose a conditional diffusion-based framework RHanDS to refine the hand region with the help of decoupled structure and style guidance. Specifically, the structure guidance is the hand mesh reconstructed from the malformed hand, serving to correct the hand structure. The style guidance is a hand image, e.g., the malformed hand itself, and is employed to furnish the style reference for hand refining. In order to suppress the structure leakage when referencing hand style and effectively utilize hand data to improve the capability of the model, we build a multi-style hand dataset and introduce a twostage training strategy. In the first stage, we use paired hand images for training to generate hands with the same style as the reference. In the second stage, various hand images generated based on the human mesh are used for training to enable the model to gain control over the hand structure. We evaluate our method and counterparts on the test dataset of the proposed multi-style hand dataset. The experimental results show that RHanDS can effectively refine hands structure- and style- correctly compared with previous methods. The codes and datasets will be available soon. | 翻訳日:2024-04-23 14:45:41 公開日:2024-04-22 |
# 大規模言語モデルにおける情報再編成による推論の改善
Information Re-Organization Improves Reasoning in Large Language Models ( http://arxiv.org/abs/2404.13985v1 ) ライセンス: Link先を確認 | Xiaoxia Cheng, Zeqi Tan, Weiming Lu, | (参考訳) 大きな言語モデル(LLM)の推論能力を改善することには、かなりの関心が寄せられている。
最近のアプローチは、より正確な最終回答を得るための推論プロセスの改善に重点を置いている。
しかしながら、文脈的に認識された推論を含むシナリオでは、これらの手法は、推論を進める前に、文脈から論理的関係を最初に識別することの重要性を無視する。
この監視は、表面的な理解とコンテキストとの相互作用をもたらし、推論結果の品質と信頼性を損なう可能性がある。
本稿では,LLMの推論能力を高めるために,情報再構成(InfoRE)手法を提案する。
まず、文脈内容、例えば文書や段落の再構成処理を行い、論理的関係を得る。
そして、推論過程において、再編成された情報を利用する。
これにより、LLMはこれらの論理的関係を明確に認識することで、文脈的内容の理解を深めることができる。
Llama2-70B, GPT-3.5, GPT-4 を用いて, 各種マルチホップ推論タスクにおいて, 提案手法の有効性を実証する。
ゼロショット設定のみを用いることで,全タスクの平均3倍の精度向上を実現し,LCMの推論性能向上の可能性を強調した。
ソースコードはhttps://github.com/hustcxx/InfoRE.comで公開されています。
Improving the reasoning capabilities of large language models (LLMs) has attracted considerable interest. Recent approaches primarily focus on improving the reasoning process to yield a more precise final answer. However, in scenarios involving contextually aware reasoning, these methods neglect the importance of first identifying logical relationships from the context before proceeding with the reasoning. This oversight could lead to a superficial understanding and interaction with the context, potentially undermining the quality and reliability of the reasoning outcomes. In this paper, we propose an information re-organization (InfoRE) method before proceeding with the reasoning to enhance the reasoning ability of LLMs. We first perform a re-organization processing of the contextual content, e.g., documents or paragraphs, to obtain logical relationships. Then, we utilize the re-organized information in the reasoning process. This enables LLMs to deeply understand the contextual content by clearly perceiving these logical relationships. To demonstrate the effectiveness of our approach in improving the reasoning ability, we conduct experiments using Llama2-70B, GPT-3.5, and GPT-4 on various contextually aware multi-hop reasoning tasks. Using only a zero-shot setting, our method achieves an average improvement of 3\% across all tasks, highlighting its potential to improve the reasoning performance of LLMs. Our source code is available at https://github.com/hustcxx/InfoRE. | 翻訳日:2024-04-23 14:45:41 公開日:2024-04-22 |
# QCore: 量子化モデルのためのデータ効率の良いオンデバイス連続キャリブレーション - 拡張バージョン
QCore: Data-Efficient, On-Device Continual Calibration for Quantized Models -- Extended Version ( http://arxiv.org/abs/2404.13990v1 ) ライセンス: Link先を確認 | David Campos, Bin Yang, Tung Kieu, Miao Zhang, Chenjuan Guo, Christian S. Jensen, | (参考訳) 私たちは、基盤となるプロセスに関する貴重な情報を含む可能性のあるストリーミングデータの増加を目撃しています。
したがって、最初に受信したデータをサーバに送信するのではなく、即座に決定を行うことができるように、センサーの近くのエッジデバイスに機械学習モデルをデプロイできることは魅力的である。
ストレージと計算能力に制限のあるエッジデバイスへのデプロイを可能にするため、標準モデルの完全精度パラメータを量子化してビット数を削減できる。
得られた量子化モデルは、正確性を確保するために、バックプロパゲーションとフルトレーニングデータを使用して校正される。
このワンタイムキャリブレーションは、静的環境のデプロイに有効である。
しかし、動的エッジ環境におけるモデル展開は、異なる分布を持つ可能性のある新しい入ってくるデータに適合するように、量子化されたモデルを適応的に調整するために連続的なキャリブレーションを要求する。
エッジ上で連続的なキャリブレーションを有効にする最初の難しさは、完全なトレーニングデータが大きすぎるため、エッジデバイスで常に利用できるとは限らないことである。
第2の難点は、繰り返しキャリブレーションにエッジにバックプロパゲーションを使用することが高価すぎることである。
エッジ上で連続的なキャリブレーションを可能にするためのQCoreを提案する。
まず、完全なトレーニングデータを小さなサブセットに圧縮し、異なるビット幅を持つ量子化モデルの効果的なキャリブレーションを可能にする。
また、既存のトレーニングデータを忘れずに、新しいストリーミングデータが到着して環境の変化を反映したサブセットを更新する方法を提案する。
第二に,サブセットと連携して量子化モデルパラメータを更新し,バックプロパゲーションを伴わない効率的な連続キャリブレーションを実現する小型ビットフリップネットワークを提案する。
実世界のデータを用いて連続的な学習環境で実験を行い、QCoreの特性に関する知見を提供し、強力なベースライン法より優れていることを示す。
We are witnessing an increasing availability of streaming data that may contain valuable information on the underlying processes. It is thus attractive to be able to deploy machine learning models on edge devices near sensors such that decisions can be made instantaneously, rather than first having to transmit incoming data to servers. To enable deployment on edge devices with limited storage and computational capabilities, the full-precision parameters in standard models can be quantized to use fewer bits. The resulting quantized models are then calibrated using back-propagation and full training data to ensure accuracy. This one-time calibration works for deployments in static environments. However, model deployment in dynamic edge environments call for continual calibration to adaptively adjust quantized models to fit new incoming data, which may have different distributions. The first difficulty in enabling continual calibration on the edge is that the full training data may be too large and thus not always available on edge devices. The second difficulty is that the use of back-propagation on the edge for repeated calibration is too expensive. We propose QCore to enable continual calibration on the edge. First, it compresses the full training data into a small subset to enable effective calibration of quantized models with different bit-widths. We also propose means of updating the subset when new streaming data arrives to reflect changes in the environment, while not forgetting earlier training data. Second, we propose a small bit-flipping network that works with the subset to update quantized model parameters, thus enabling efficient continual calibration without back-propagation. An experimental study, conducted with real-world data in a continual learning setting, offers insight into the properties of QCore and shows that it is capable of outperforming strong baseline methods. | 翻訳日:2024-04-23 14:45:41 公開日:2024-04-22 |
# 動的プロキシドメインは、より良いバイナリセグメンテーションによって群衆の局在を一般化する
Dynamic Proxy Domain Generalizes the Crowd Localization by Better Binary Segmentation ( http://arxiv.org/abs/2404.13992v1 ) ライセンス: Link先を確認 | Junyu Gao, Da Zhang, Xuelong Li, | (参考訳) 群衆のローカライゼーションは、イメージ内の各インスタンスの正確な位置を予測することを目的としている。
現在の先進的手法では, 歩行者頭部の予測信頼度を2項化して, 混雑予測に対処する画素ワイド二分法が提案されている。
観客シーンは内容、数、規模が極めて多様であるため、自信を持てる学習者は脆弱で、ドメイン知識の変化に遭遇しにくい。
さらに、ほとんどの場合、ターゲットドメインはトレーニングにおいて非依存である。
したがって、信頼閾値ロケータを潜在対象領域に一般化する方法を活用することが不可欠である。
本稿では,動的プロキシ・ドメイン(DPD)を用いて学習者のドメインシフトを一般化する手法を提案する。
具体的には,2値分類器に対する潜在対象領域上の一般化誤差上限に対する理論的解析に基づいて,一般化を容易にするために生成したプロキシドメインを提案する。
そして,この理論に基づいて,訓練パラダイムとプロキシドメインジェネレータによって構成されるDPDアルゴリズムを設計し,信頼性閾値学習者の領域一般化を強化する。
さらに,本手法は5種類のドメインシフトシナリオで実施し,クラウドローカライゼーションの一般化の有効性を実証する。
私たちのコードはhttps://github.com/zhangda1018/DPD.comで公開されます。
Crowd localization targets on predicting each instance precise location within an image. Current advanced methods propose the pixel-wise binary classification to tackle the congested prediction, in which the pixel-level thresholds binarize the prediction confidence of being the pedestrian head. Since the crowd scenes suffer from extremely varying contents, counts and scales, the confidence-threshold learner is fragile and under-generalized encountering domain knowledge shift. Moreover, at the most time, the target domain is agnostic in training. Hence, it is imperative to exploit how to enhance the generalization of confidence-threshold locator to the latent target domain. In this paper, we propose a Dynamic Proxy Domain (DPD) method to generalize the learner under domain shift. Concretely, based on the theoretical analysis to the generalization error risk upper bound on the latent target domain to a binary classifier, we propose to introduce a generated proxy domain to facilitate generalization. Then, based on the theory, we design a DPD algorithm which is composed by a training paradigm and proxy domain generator to enhance the domain generalization of the confidence-threshold learner. Besides, we conduct our method on five kinds of domain shift scenarios, demonstrating the effectiveness on generalizing the crowd localization. Our code will be available at https://github.com/zhangda1018/DPD. | 翻訳日:2024-04-23 14:45:41 公開日:2024-04-22 |
# 反復多モード核融合によるコミックのゼロショット文字同定と話者予測
Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion ( http://arxiv.org/abs/2404.13993v1 ) ライセンス: Link先を確認 | Yingxuan Li, Ryota Hinami, Kiyoharu Aizawa, Yusuke Matsui, | (参考訳) 文字の認識と対話の話者の予測は、音声生成や翻訳といった漫画処理作業に不可欠である。
しかし、キャラクターは漫画のタイトルによって異なるため、漫画のタイトルごとに特定のアノテーションを必要とする文字分類器の訓練のような教師あり学習アプローチは実現不可能である。
これにより、機械が文字を識別し、注釈のない漫画画像のみに基づいて話者名を予測できるゼロショット方式が提案される。
現実の応用において重要であるにもかかわらず、これらのタスクはストーリー理解とマルチモーダル統合の課題のために、ほとんど探索されていないままである。
近年の大規模言語モデル (LLM) はテキスト理解と推論に優れた能力を示し, マルチモーダルコンテンツ解析への応用は依然として未解決の課題である。
そこで本研究では,文字識別と話者予測の両方にマルチモーダル情報を用いた反復型マルチモーダルフレームワークを提案する。
提案手法の有効性を実証し,これらの課題に対するロバストなベースラインを確立する。
さらに,本手法ではトレーニングデータやアノテーションは必要としないため,どんなコミックシリーズでもそのまま使用することができる。
Recognizing characters and predicting speakers of dialogue are critical for comic processing tasks, such as voice generation or translation. However, because characters vary by comic title, supervised learning approaches like training character classifiers which require specific annotations for each comic title are infeasible. This motivates us to propose a novel zero-shot approach, allowing machines to identify characters and predict speaker names based solely on unannotated comic images. In spite of their importance in real-world applications, these task have largely remained unexplored due to challenges in story comprehension and multimodal integration. Recent large language models (LLMs) have shown great capability for text understanding and reasoning, while their application to multimodal content analysis is still an open problem. To address this problem, we propose an iterative multimodal framework, the first to employ multimodal information for both character identification and speaker prediction tasks. Our experiments demonstrate the effectiveness of the proposed framework, establishing a robust baseline for these tasks. Furthermore, since our method requires no training data or annotations, it can be used as-is on any comic series. | 翻訳日:2024-04-23 14:45:41 公開日:2024-04-22 |
# 自動・選択的プラントクリーニングの課題
Challenges in automatic and selective plant-clearing ( http://arxiv.org/abs/2404.13996v1 ) ライセンス: Link先を確認 | Fabrice Mayran de Chamisso, Loïc Cotten, Valentine Dhers, Thomas Lompech, Florian Seywert, Arnaud Susset, | (参考訳) マルチスペクトル画像とAIの出現に伴い、カウント、ピック、健康モニタリング、殺虫剤の局部的配信など、目的のための自動植物セグメンテーションに関する研究が数多く行われている。
本稿では, 持続的林業環境において, 自律型機械が特定の植物を検出・回避し, 栽培されている種と競合する雑草を除去する, 自動的・選択的プラントクリーニングの課題に対処する。
このような自律システムは、安価でメンテナンスが容易でありながら、気象条件、植物の多様性、地形、雑草に対する高い堅牢性を必要とする。
特に、スペクトル画像の堅牢性の欠如について論じ、参照データベースのサイズの影響を調査し、制御されていない環境で動作しているAIシステム特有の問題について論じる。
With the advent of multispectral imagery and AI, there have been numerous works on automatic plant segmentation for purposes such as counting, picking, health monitoring, localized pesticide delivery, etc. In this paper, we tackle the related problem of automatic and selective plant-clearing in a sustainable forestry context, where an autonomous machine has to detect and avoid specific plants while clearing any weeds which may compete with the species being cultivated. Such an autonomous system requires a high level of robustness to weather conditions, plant variability, terrain and weeds while remaining cheap and easy to maintain. We notably discuss the lack of robustness of spectral imagery, investigate the impact of the reference database's size and discuss issues specific to AI systems operating in uncontrolled environments. | 翻訳日:2024-04-23 14:45:41 公開日:2024-04-22 |
# SIGY:Intel SGXエンクレーブを悪質な例外と信号で破る
SIGY: Breaking Intel SGX Enclaves with Malicious Exceptions & Signals ( http://arxiv.org/abs/2404.13998v1 ) ライセンス: Link先を確認 | Supraja Sridhara, Andrin Bertschi, Benedict Schlüter, Shweta Shinde, | (参考訳) ユーザプログラムは、ハードウェア例外から回復し、そのようなイベントのために登録するカスタムハンドラを実行することで、信号に応答する。
我々は、Intel SGX上のこのプログラミングモデルを悪用して、エンクレーブの機密性と完全性を保証するSIGY攻撃を示す。
SIGYは信頼できないOSを使って、偽のハードウェアイベントを配信し、任意の時点で偽の信号をエンクレーブに注入する。
このような意図しないプログラム定義のハンドラをエンクレーブで実行することは、その状態を悪化させ、実行の完全性に反する。
7つのランタイムとライブラリOS(OpenEnclave, Gramine, Scone, Asylo, Teaclave, Occlum, EnclaveOS)はSIGYに脆弱性がある。
Intel SGXでサポートされている8つの言語には、SIGYに弱いプログラミング構造がある。
SIGYを使って、Webサーバ(Nginx、Node.js)上の4つの概念のエクスプロイトを実証し、さまざまな言語(CとJava)のシークレットとデータ分析ワークロードをリークして、実行の整合性を破ります。
User programs recover from hardware exceptions and respond to signals by executing custom handlers that they register specifically for such events. We present SIGY attack, which abuses this programming model on Intel SGX to break the confidentiality and integrity guarantees of enclaves. SIGY uses the untrusted OS to deliver fake hardware events and injects fake signals in an enclave at any point. Such unintended execution of benign program-defined handlers in an enclave corrupts its state and violates execution integrity. 7 runtimes and library OSes (OpenEnclave, Gramine, Scone, Asylo, Teaclave, Occlum, EnclaveOS) are vulnerable to SIGY. 8 languages supported in Intel SGX have programming constructs that are vulnerable to SIGY. We use SIGY to demonstrate 4 proof of concept exploits on webservers (Nginx, Node.js) to leak secrets and data analytics workloads in different languages (C and Java) to break execution integrity. | 翻訳日:2024-04-23 14:35:57 公開日:2024-04-22 |
# CoFInAl: 粗いインストラクションアライメントによる行動品質評価の強化
CoFInAl: Enhancing Action Quality Assessment with Coarse-to-Fine Instruction Alignment ( http://arxiv.org/abs/2404.13999v1 ) ライセンス: Link先を確認 | Kanglei Zhou, Junlin Li, Ruizhi Cai, Liyuan Wang, Xingxing Zhang, Xiaohui Liang, | (参考訳) アクション品質アセスメント(AQA)は、スポーツや医療といった分野におけるアクションの定量化に重要である。
既存の方法は、小さなAQAデータセットのパフォーマンスを高めるために、大規模なアクション認識データセットからトレーニング済みのバックボーンに依存することが多い。
しかし、この共通の戦略は、これらの背骨がAQAに不可欠な微妙な手がかりを捉えるために固有の闘争のために、最適以下の結果をもたらす。
さらに、小さなデータセットの微調整は、過度に適合するリスクがある。
これらの問題に対処するため、我々はCoFInAl(Coarse-to-Fine Instruction Alignment)を提案する。
大規模言語モデルチューニングの最近の進歩に触発されたCoFInAlは、粗い分類タスクとして再編成することで、AQAをより広範な事前訓練タスクと整合させる。
最初は粗い評価のためのグレードのプロトタイプを学習し、その後、きめ細かい評価のために固定されたサブグレードのプロトタイプを利用する。
この階層的なアプローチは判断プロセスを反映し、AQAフレームワーク内の解釈可能性を高めます。
2つの長期AQAデータセットの実験結果は、CoFInAlがそれぞれ5.49%と3.55%の相関関係を持つ最先端のパフォーマンスを達成することを示した。
私たちのコードはhttps://github.com/ZhouKanglei/CoFInAl_AQA.comで利用可能です。
Action Quality Assessment (AQA) is pivotal for quantifying actions across domains like sports and medical care. Existing methods often rely on pre-trained backbones from large-scale action recognition datasets to boost performance on smaller AQA datasets. However, this common strategy yields suboptimal results due to the inherent struggle of these backbones to capture the subtle cues essential for AQA. Moreover, fine-tuning on smaller datasets risks overfitting. To address these issues, we propose Coarse-to-Fine Instruction Alignment (CoFInAl). Inspired by recent advances in large language model tuning, CoFInAl aligns AQA with broader pre-trained tasks by reformulating it as a coarse-to-fine classification task. Initially, it learns grade prototypes for coarse assessment and then utilizes fixed sub-grade prototypes for fine-grained assessment. This hierarchical approach mirrors the judging process, enhancing interpretability within the AQA framework. Experimental results on two long-term AQA datasets demonstrate CoFInAl achieves state-of-the-art performance with significant correlation gains of 5.49% and 3.55% on Rhythmic Gymnastics and Fis-V, respectively. Our code is available at https://github.com/ZhouKanglei/CoFInAl_AQA. | 翻訳日:2024-04-23 14:35:57 公開日:2024-04-22 |
# 学生コース選択の革新 - ブロックチェーントークン投票技術の応用可能性と課題を探る
Revolutionizing student course selection: Exploring the application prospects and challenges of blockchain token voting technology ( http://arxiv.org/abs/2404.14000v1 ) ライセンス: Link先を確認 | Tiansu Hu, Yuzhao Song, Linjing Zhang, Xiaoya Zhou, | (参考訳) 本稿では,学生コース選択システムにおけるブロックチェーントークン投票技術の利用について検討する。
現在のコース選択システムは、ブロックチェーン技術の実装によって緩和されるさまざまな問題に直面している。
コンセンサスメカニズムやスマートコントラクトなど、ブロックチェーン技術のメリットについては、詳しく議論されている。
トークン投票機構についても,概念,トークン発行と配布,投票規則と手続きについても解説する。
システム設計は、システムアーキテクチャ、ユーザロールとパーミッション、ブロックチェーンに関するコース情報、学生コース選択投票プロセス、コース選択結果統計と公開表示を考慮している。
この技術は、透明性、公正性、データセキュリティ、プライバシ保護、システム効率の改善といった利点を提供する。
しかし、技術や規制上のハードルなど、いくつかの課題も生じている。
学生コース選択システムにおけるブロックチェーントークン投票技術の適用の可能性と,その他分野への影響について概説する。
全体として、学生コース選択システムにおけるブロックチェーントークン投票技術の利用は、将来有望な意味を持ち、教育セクターに革命をもたらす可能性がある。
This paper explores the utilization of blockchain token voting technology in student course selection systems. The current course selection systems face various issues, which can be mitigated through the implementation of blockchain technology. The advantages of blockchain technology, including consensus mechanisms and smart contracts, are discussed in detail. The token voting mechanism, encompassing concepts, token issuance and distribution, and voting rules and procedures, is also explained. The system design takes into account the system architecture, user roles and permissions, course information on the blockchain, student course selection voting process, and course selection result statistics and public display. The technology offers advantages such as transparency, fairness, data security and privacy protection, and system efficiency improvement. However, it also poses several challenges, such as technological and regulatory hurdles. The prospects for the application of blockchain token voting technology in student course selection systems and its potential impact on other fields are summarized. Overall, the utilization of blockchain token voting technology in student course selection systems holds promising future implications, which could revolutionize the education sector. | 翻訳日:2024-04-23 14:35:57 公開日:2024-04-22 |
# 逆勾配マッチングを用いた蒸留データモデル
Distilled Datamodel with Reverse Gradient Matching ( http://arxiv.org/abs/2404.14006v1 ) ライセンス: Link先を確認 | Jingwen Ye, Ruonan Yu, Songhua Liu, Xinchao Wang, | (参考訳) 大規模なデータセットでトレーニングされた大規模なAIモデルの拡散は、機械学習に革命をもたらした。
これらのモデルが様々なアプリケーションにおいてますます中心的な役割を担っているため、それらの振る舞いを理解し、解釈可能性を高める必要性が最重要である。
トレーニングデータの変化が事前学習モデルに与える影響を調査するために、一般的なアプローチはアウト・ワン・アウト・リトレーニングである。
これにより、トレーニングデータセットを体系的に変更し、特定のサンプルを取り除き、モデル内の変更を観測することが可能になる。
しかし、データセットの変動ごとにこの操作を実行する必要があることを考えると、変更されたデータセットごとにモデルをトレーニングすることは重大な計算上の課題となる。
本稿では,オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
オフライントレーニングフェーズでは, 逆勾配マッチング問題として定式化された蒸留シンセットを用いて, 目標モデルに対するトレーニングデータの影響を近似した。
オンライン評価では,このシンセットを用いて残余処理を高速化し,評価目的に基づいて帰属行列を計算した。
提案手法は,データ品質のトレーニング属性や評価を含む実験的な評価を行い,本手法が直接再学習法と比較して,プロセスの大幅な高速化を図りながら,同等のモデル行動評価を実現することを示した。
The proliferation of large-scale AI models trained on extensive datasets has revolutionized machine learning. With these models taking on increasingly central roles in various applications, the need to understand their behavior and enhance interpretability has become paramount. To investigate the impact of changes in training data on a pre-trained model, a common approach is leave-one-out retraining. This entails systematically altering the training dataset by removing specific samples to observe resulting changes within the model. However, retraining the model for each altered dataset presents a significant computational challenge, given the need to perform this operation for every dataset variation. In this paper, we introduce an efficient framework for assessing data impact, comprising offline training and online evaluation stages. During the offline training phase, we approximate the influence of training data on the target model through a distilled synset, formulated as a reversed gradient matching problem. For online evaluation, we expedite the leave-one-out process using the synset, which is then utilized to compute the attribution matrix based on the evaluation objective. Experimental evaluations, including training data attribution and assessments of data quality, demonstrate that our proposed method achieves comparable model behavior evaluation while significantly speeding up the process compared to the direct retraining method. | 翻訳日:2024-04-23 14:35:57 公開日:2024-04-22 |
# インフュージョン:オーバーフィッティングからカスタマイズされたテキストと画像の拡散を防ぐ
Infusion: Preventing Customized Text-to-Image Diffusion from Overfitting ( http://arxiv.org/abs/2404.14007v1 ) ライセンス: Link先を確認 | Weili Zeng, Yichao Yan, Qi Zhu, Zhuo Chen, Pengzhi Chu, Weiming Zhao, Xiaokang Yang, | (参考訳) Text-to-image (T2I) のカスタマイズは、テキスト記述に記述された特定の視覚概念を具現化したイメージを作成することを目的としている。
しかし、既存の作業は依然として大きな課題に直面しており、概念が過度に適合している。
この課題に取り組むために、我々はまずオーバーフィッティングを分析し、それを非カスタマイズ概念知識を損なう概念非依存オーバーフィッティングと、背景、レイアウト、スタイルといった限られたモダリティのカスタマイズに限定した概念固有のオーバーフィッティングに分類する。
オーバーフィッティングの度合いを評価するために,Latent Fisher divergence と Wasserstein という2つの指標を導入する。
そこで本研究では,T2I のカスタマイズ手法である Infusion を提案する。
注目すべきは、Infusionはこの成果を驚くべき効率で達成し、たった11KBのトレーニング済みパラメータを必要とすることだ。
また,本手法は,単一概念と複数概念のカスタマイズ生成において,最先端の手法よりも優れていることを示す。
Text-to-image (T2I) customization aims to create images that embody specific visual concepts delineated in textual descriptions. However, existing works still face a main challenge, concept overfitting. To tackle this challenge, we first analyze overfitting, categorizing it into concept-agnostic overfitting, which undermines non-customized concept knowledge, and concept-specific overfitting, which is confined to customize on limited modalities, i.e, backgrounds, layouts, styles. To evaluate the overfitting degree, we further introduce two metrics, i.e, Latent Fisher divergence and Wasserstein metric to measure the distribution changes of non-customized and customized concept respectively. Drawing from the analysis, we propose Infusion, a T2I customization method that enables the learning of target concepts to avoid being constrained by limited training modalities, while preserving non-customized knowledge. Remarkably, Infusion achieves this feat with remarkable efficiency, requiring a mere 11KB of trained parameters. Extensive experiments also demonstrate that our approach outperforms state-of-the-art methods in both single and multi-concept customized generation. | 翻訳日:2024-04-23 14:35:57 公開日:2024-04-22 |
# 一般化不可能な例
Ungeneralizable Examples ( http://arxiv.org/abs/2404.14016v1 ) ライセンス: Link先を確認 | Jingwen Ye, Xinchao Wang, | (参考訳) 現代のディープラーニングモデルのトレーニングは、公開データに大きく依存しており、オンラインデータへの不正アクセスのリスクを生じさせ、データのプライバシに関する懸念を高めている。
現在、学習不能なデータを作成するためのアプローチには、小さくて特別な設計のノイズが組み込まれているが、これらの手法はデータ使用性を厳密に制限し、承認されたシナリオでその潜在的な使用法を見落としている。
本稿では,学習不可能なデータの概念を条件付きデータ学習可能性に拡張し,その概念を UGE (textbf{U}n\textbf{G}eneralizable \textbf{E}xamples) に導入する。
UGEは認証されたユーザに対して学習性を示しながら、潜在的なハッカーに対する非学習性を維持している。
プロテクタは、認証されたネットワークを定義し、UGEを最適化し、元のデータとその一般化不可能なバージョンの勾配に適合させ、学習性を確保する。
非許可学習を防止するため、共通特徴空間において指定された距離損失を最大化してUGEを訓練する。
さらに,潜在的攻撃から認証側を更に保護するために,未蒸留の最適化も導入する。
複数のデータセットと各種ネットワークの実験結果から,提案するUGEフレームワークは,異なるタイプの攻撃であっても,ハッカーネットワーク上でのトレーニング性能を低下させながら,データのユーザビリティを損なうことを示した。
The training of contemporary deep learning models heavily relies on publicly available data, posing a risk of unauthorized access to online data and raising concerns about data privacy. Current approaches to creating unlearnable data involve incorporating small, specially designed noises, but these methods strictly limit data usability, overlooking its potential usage in authorized scenarios. In this paper, we extend the concept of unlearnable data to conditional data learnability and introduce \textbf{U}n\textbf{G}eneralizable \textbf{E}xamples (UGEs). UGEs exhibit learnability for authorized users while maintaining unlearnability for potential hackers. The protector defines the authorized network and optimizes UGEs to match the gradients of the original data and its ungeneralizable version, ensuring learnability. To prevent unauthorized learning, UGEs are trained by maximizing a designated distance loss in a common feature space. Additionally, to further safeguard the authorized side from potential attacks, we introduce additional undistillation optimization. Experimental results on multiple datasets and various networks demonstrate that the proposed UGEs framework preserves data usability while reducing training performance on hacker networks, even under different types of attacks. | 翻訳日:2024-04-23 14:35:57 公開日:2024-04-22 |
# ハイブリッドアンサンブルに基づく旅行モード予測
Hybrid Ensemble-Based Travel Mode Prediction ( http://arxiv.org/abs/2404.14017v1 ) ライセンス: Link先を確認 | Paweł Golik, Maciej Grzenda, Elżbieta Sienkiewicz, | (参考訳) トラベルモード選択(TMC)予測は、分類タスクとして定式化することができ、市民が個々の旅行に対して異なる移動モードを選択する理由を理解するのに役立つ。
これはまた、持続可能な輸送を促進するための大きな一歩でもある。
行動は時間とともに進化する可能性があるので、データ内の概念の漂流を検出するという問題にも直面する。
これは、潜在的な概念の漂流に対処するために適切な方法を使う必要がある。
特に、定期的に更新されたTMCモデルを開発するために、バッチまたはストリームマイニング手法を使用するかを決定する必要がある。
TMCモデルの開発における課題に対処するため,本研究では,データに含まれる可能性のあるドリフトの概念に旅行モード選択型分類器を適用することを目的とした,バッチ・ストリーム・モデルのインクリメンタル・アンサンブル(IEBSM)手法を提案する。
ドリフト検出器とバッチ学習とストリームマイニングモデルの組み合わせに依存している。
アクティブなドリフト検出に依存する手法を含む,バッチや漸進的な学習者と比較する。
都市レベルと国レベルの両方を表す様々な旅行モードデータセットを用いて実験したところ、IEBSM法はどちらも移動モードデータのドリフトを検出し、進行モード選択データにモデルを適用することに成功した。
この手法はバッチやストリーム学習者よりも高いランクを持つ。
Travel mode choice (TMC) prediction, which can be formulated as a classification task, helps in understanding what makes citizens choose different modes of transport for individual trips. This is also a major step towards fostering sustainable transportation. As behaviour may evolve over time, we also face the question of detecting concept drift in the data. This necessitates using appropriate methods to address potential concept drift. In particular, it is necessary to decide whether batch or stream mining methods should be used to develop periodically updated TMC models. To address the challenge of the development of TMC models, we propose the novel Incremental Ensemble of Batch and Stream Models (IEBSM) method aimed at adapting travel mode choice classifiers to concept drift possibly occurring in the data. It relies on the combination of drift detectors with batch learning and stream mining models. We compare it against batch and incremental learners, including methods relying on active drift detection. Experiments with varied travel mode data sets representing both city and country levels show that the IEBSM method both detects drift in travel mode data and successfully adapts the models to evolving travel mode choice data. The method has a higher rank than batch and stream learners. | 翻訳日:2024-04-23 14:35:57 公開日:2024-04-22 |
# CNN-Transformer Network を用いた不完全型脳腫瘍切除用マルチモーダル機能拡張法
A Multimodal Feature Distillation with CNN-Transformer Network for Brain Tumor Segmentation with Incomplete Modalities ( http://arxiv.org/abs/2404.14019v1 ) ライセンス: Link先を確認 | Ming Kang, Fung Fung Ting, Raphaël C. -W. Phan, Zongyuan Ge, Chee-Ming Ting, | (参考訳) 既存の脳腫瘍セグメンテーション法は、通常、脳腫瘍画像における複数の磁気共鳴イメージング(MRI)モダリティをセグメンテーションに利用し、セグメンテーション性能を向上させることができる。
しかし, 臨床応用においては, 資源制約によりいくつかのモダリティが欠落しており, 完全なモダリティセグメンテーションを適用した手法の性能が著しく低下している。
本稿では,CNN-Transformer Hybrid Network (MCTSeg) を用いたマルチモーダル特徴蒸留法を提案する。
まず,マルチモーダル特徴蒸留(MFD)モジュールを設計し,特徴レベルのマルチモーダル知識を一様性に蒸留し,完全なモーダル情報を抽出する。
さらに,グローバル情報とローカル情報の関係を意味的にモデル化するUnimodal Feature Enhancement (UFE)モジュールを開発した。
最後に、いくつかのモダリティが欠如している場合でも、異なるモダリティ間の大域的相関を明示的に整合させるクロスモーダル・フュージョン(CMF)モジュールを構築する。
異なるモジュール間の補完機能は、UFEモジュールとCMFモジュールの両方でCNN-Transformerハイブリッドアーキテクチャによって洗練され、ローカルとグローバル両方の依存関係がキャプチャされる。
CNN-Transformer ネットワークと Transformer の畳み込みブロックを併用して提案するモジュールの重要性について検討した。
BraTS2018とBraTS2020データセットの大規模な実験は、提案されたMCTSegフレームワークが、欠落したモダリティケースにおける最先端の手法よりも優れていることを示している。
私たちのコードは、https://github.com/mkang315/MCTSeg.comで利用可能です。
Existing brain tumor segmentation methods usually utilize multiple Magnetic Resonance Imaging (MRI) modalities in brain tumor images for segmentation, which can achieve better segmentation performance. However, in clinical applications, some modalities are missing due to resource constraints, leading to severe degradation in the performance of methods applying complete modality segmentation. In this paper, we propose a Multimodal feature distillation with Convolutional Neural Network (CNN)-Transformer hybrid network (MCTSeg) for accurate brain tumor segmentation with missing modalities. We first design a Multimodal Feature Distillation (MFD) module to distill feature-level multimodal knowledge into different unimodality to extract complete modality information. We further develop a Unimodal Feature Enhancement (UFE) module to model the relationship between global and local information semantically. Finally, we build a Cross-Modal Fusion (CMF) module to explicitly align the global correlations among different modalities even when some modalities are missing. Complementary features within and across different modalities are refined via the CNN-Transformer hybrid architectures in both the UFE and CMF modules, where local and global dependencies are both captured. Our ablation study demonstrates the importance of the proposed modules with CNN-Transformer networks and the convolutional blocks in Transformer for improving the performance of brain tumor segmentation with missing modalities. Extensive experiments on the BraTS2018 and BraTS2020 datasets show that the proposed MCTSeg framework outperforms the state-of-the-art methods in missing modalities cases. Our code is available at: https://github.com/mkang315/MCTSeg. | 翻訳日:2024-04-23 14:35:57 公開日:2024-04-22 |
# 自動運転における協調的知覚データセット:調査
Collaborative Perception Datasets in Autonomous Driving: A Survey ( http://arxiv.org/abs/2404.14022v1 ) ライセンス: Link先を確認 | Melih Yazgan, Mythra Varun Akkanapragada, J. Marius Zoellner, | (参考訳) この調査は、V2I、V2V、V2X、V2Xの文脈における協調認識データセットの総合的な検証を提供する。
自動運転車の認識タスクの進歩を加速する大規模なベンチマークの最新の展開を強調している。
この論文は様々なデータセットを体系的に分析し、多様性、センサーの設定、品質、公開可用性、下流タスクへの適用性といった側面に基づいて比較する。
また、ドメインシフト、センサー設定の制限、データセットの多様性と可用性のギャップなど、重要な課題を強調している。
データセット開発におけるプライバシとセキュリティの懸念に対処することの重要性は、データ共有とデータセット生成に関して強調されている。
この結論は、これらの課題を克服し、自動運転の可能性を完全に活用するために、包括的でグローバルにアクセス可能なデータセットと、技術コミュニティと研究コミュニティの協力的努力の必要性を強調している。
This survey offers a comprehensive examination of collaborative perception datasets in the context of Vehicle-to-Infrastructure (V2I), Vehicle-to-Vehicle (V2V), and Vehicle-to-Everything (V2X). It highlights the latest developments in large-scale benchmarks that accelerate advancements in perception tasks for autonomous vehicles. The paper systematically analyzes a variety of datasets, comparing them based on aspects such as diversity, sensor setup, quality, public availability, and their applicability to downstream tasks. It also highlights the key challenges such as domain shift, sensor setup limitations, and gaps in dataset diversity and availability. The importance of addressing privacy and security concerns in the development of datasets is emphasized, regarding data sharing and dataset creation. The conclusion underscores the necessity for comprehensive, globally accessible datasets and collaborative efforts from both technological and research communities to overcome these challenges and fully harness the potential of autonomous driving. | 翻訳日:2024-04-23 14:35:57 公開日:2024-04-22 |
# 代用勾配スパイクニューラルネットワークによる音声知覚中のニューラル振動の探索
Exploring neural oscillations during speech perception via surrogate gradient spiking neural networks ( http://arxiv.org/abs/2404.14024v1 ) ライセンス: Link先を確認 | Alexandre Bittar, Philip N. Garner, | (参考訳) 脳内の認知過程を理解するには、大規模に神経力学を複製できる洗練されたモデルが必要である。
本稿では、ディープラーニングフレームワークと互換性があり、スケーラブルな、生理学的にインスピレーションを受けた音声認識アーキテクチャを示し、エンドツーエンドの勾配降下トレーニングが中枢スパイクニューラルネットワークにおける神経振動の出現に繋がることを示す。
これらの振動を示唆する重要な周波数間結合は、音声処理中にネットワーク層内およびネットワーク層間で測定されるが、背景雑音入力を処理する際にはそのような相互作用は観測されない。
さらに,神経活動の調節と同期化において,スパイク周波数適応やリカレント接続などのフィードバック機構が重要な阻害的役割を担い,認識性能の向上に寄与することが示唆された。
全体として、人間の聴覚経路で顕著に観察される同期現象の理解を深める上で、我々のアーキテクチャは、ニューロモルフィック技術に関連して、動的かつ効率的な情報処理を示す。
Understanding cognitive processes in the brain demands sophisticated models capable of replicating neural dynamics at large scales. We present a physiologically inspired speech recognition architecture, compatible and scalable with deep learning frameworks, and demonstrate that end-to-end gradient descent training leads to the emergence of neural oscillations in the central spiking neural network. Significant cross-frequency couplings, indicative of these oscillations, are measured within and across network layers during speech processing, whereas no such interactions are observed when handling background noise inputs. Furthermore, our findings highlight the crucial inhibitory role of feedback mechanisms, such as spike frequency adaptation and recurrent connections, in regulating and synchronising neural activity to improve recognition performance. Overall, on top of developing our understanding of synchronisation phenomena notably observed in the human auditory pathway, our architecture exhibits dynamic and efficient information processing, with relevance to neuromorphic technology. | 翻訳日:2024-04-23 14:35:57 公開日:2024-04-22 |
# DHRNet:マルチパーソンポーズ推定のための二重パス階層型関係ネットワーク
DHRNet: A Dual-Path Hierarchical Relation Network for Multi-Person Pose Estimation ( http://arxiv.org/abs/2404.14025v1 ) ライセンス: Link先を確認 | Yonghao Dang, Jianqin Yin, Liyuan Liu, Yuan Sun, Yanzhu Hu, Pengxiang Ding, | (参考訳) マルチパーソンポーズ推定(MPPE)は、コンピュータビジョンにおいて非常に重要な課題である。
既存のほとんどのメソッドは、インスタンスまたはジョイント間の分離された相互作用に集中しており、インスタンスとジョイントの同時ローカライズを要求するシナリオには不十分である。
本稿では,Dual-path Hierarchical Relation Network (DHRNet) と呼ばれるCNNベースの新しい単一ステージ手法を提案する。
具体的には,2つの相補的な順序で相互の相互作用モデリングモジュールと相互の相互作用モデリングモジュールを戦略的に編成し,異なる相関モデリングブランチのメリットを統合することで相互作用情報を強化するデュアルパス相互作用モデリングモジュール(DIM)を設計する。
特に、DHRNetは、他のインスタンスやジョイントの情報を活用することで、ジョイントローカライズに優れています。
COCO、CrowdPose、OCHumanといった挑戦的なデータセットに対する大規模な評価は、DHRNetの最先端のパフォーマンスを示している。
コードはhttps://github.com/YHDang/dhrnet-multi-pose-estimationでリリースされる。
Multi-person pose estimation (MPPE) presents a formidable yet crucial challenge in computer vision. Most existing methods predominantly concentrate on isolated interaction either between instances or joints, which is inadequate for scenarios demanding concurrent localization of both instances and joints. This paper introduces a novel CNN-based single-stage method, named Dual-path Hierarchical Relation Network (DHRNet), to extract instance-to-joint and joint-to-instance interactions concurrently. Specifically, we design a dual-path interaction modeling module (DIM) that strategically organizes cross-instance and cross-joint interaction modeling modules in two complementary orders, enriching interaction information by integrating merits from different correlation modeling branches. Notably, DHRNet excels in joint localization by leveraging information from other instances and joints. Extensive evaluations on challenging datasets, including COCO, CrowdPose, and OCHuman datasets, showcase DHRNet's state-of-the-art performance. The code will be released at https://github.com/YHDang/dhrnet-multi-pose-estimation. | 翻訳日:2024-04-23 14:35:57 公開日:2024-04-22 |
# OccFeat: BEVセグメンテーションネットワークの事前学習のための自己管理型機能予測
OccFeat: Self-supervised Occupancy Feature Prediction for Pretraining BEV Segmentation Networks ( http://arxiv.org/abs/2404.14027v1 ) ライセンス: Link先を確認 | Sophia Sirko-Galouchenko, Alexandre Boulch, Spyros Gidaris, Andrei Bursuc, Antonin Vobecky, Patrick Pérez, Renaud Marlet, | (参考訳) 本稿では,カメラのみのBird's-Eye-View(BEV)セグメンテーションネットワークのための,OcFeatと呼ばれる自己教師付き事前学習手法を提案する。
OccFeatでは、占有率予測と特徴蒸留タスクを介して、BEVネットワークを事前訓練する。
アクシデント予測は、シーンをモデルに3次元の幾何学的理解を提供する。
しかし、学習した幾何学はクラスに依存しない。
そこで我々は, 自己教師付き事前学習画像基礎モデルからの蒸留を通じて, 3次元空間のモデルに意味情報を付加する。
本手法で事前訓練したモデルでは,特に低データシナリオにおいて,BEVセマンティックセマンティックセマンティクスの性能が向上した。
さらに, 予備訓練アプローチにおける特徴蒸留と3次元占有率予測の併用の有効性を実証的に確認した。
We introduce a self-supervised pretraining method, called OcFeat, for camera-only Bird's-Eye-View (BEV) segmentation networks. With OccFeat, we pretrain a BEV network via occupancy prediction and feature distillation tasks. Occupancy prediction provides a 3D geometric understanding of the scene to the model. However, the geometry learned is class-agnostic. Hence, we add semantic information to the model in the 3D space through distillation from a self-supervised pretrained image foundation model. Models pretrained with our method exhibit improved BEV semantic segmentation performance, particularly in low-data scenarios. Moreover, empirical results affirm the efficacy of integrating feature distillation with 3D occupancy prediction in our pretraining approach. | 翻訳日:2024-04-23 14:35:57 公開日:2024-04-22 |
# コンプライアンスアセスメントに焦点をあててスクラムを教える
Teaching Scrum with a focus on compliance assessment ( http://arxiv.org/abs/2404.14029v1 ) ライセンス: Link先を確認 | Marco Torchiano, Antonio Vetrò, Riccardo Coppola, | (参考訳) スクラムフレームワークは、コラボレーションと継続的改善に重点を置いて、業界で広く採用されています。
しかし、ソフトウェア工学(SE)のカリキュラムには同様の関連性はない。
本研究は、M.Sc内のSEコースの5つのエディションの経験を報告する。
専門は計算機工学。
コースの主な教育目的は、学生にスクラムでソフトウェア開発プロジェクトを管理するスキルを提供することです。
このコースは、チームプロジェクトの実行と、スクラムの適用を評価する質的で定量的な手段の定義に基づいています。
コースの5つのエディションの実施により、アジャイルの学生プロジェクトにおける時間予算やチーム構成について学んだいくつかの教訓と、そのフレームワークがソフトウェア開発コースに適用可能であることの証拠を特定できるようになりました。
The Scrum framework has gained widespread adoption in the industry for its emphasis on collaboration and continuous improvement. However, it has not reached a similar relevance in Software Engineering (SE) curricula. This work reports the experience of five editions of a SE course within an M.Sc. Degree in Computer Engineering. The course primary educational objective is to provide students with the skills to manage software development projects with Scrum. The course is based on the execution of a team project and on the definition of qualitative and quantitative means of assessment of the application of Scrum. The conduction of five editions of the course allowed us to identify several lessons learned about time budgeting and team compositions in agile student projects and its evidence of the applicability of the framework to software development courses. | 翻訳日:2024-04-23 14:35:57 公開日:2024-04-22 |
# 産業自動化制御における行動木の利用に向けて
Towards Using Behavior Trees in Industrial Automation Controllers ( http://arxiv.org/abs/2404.14030v1 ) ライセンス: Link先を確認 | Aleksandr Sidorenko, Mahdi Rezapour, Achim Wagner, Martin Ruskowski, | (参考訳) 産業4.0パラダイムは、大量カスタマイズとサイバー物理生産システム(CPPS)へのシフトを示し、制御プログラムのモジュール性、柔軟性、短期開発サイクルの観点から、産業自動化ソフトウェアに対する新たな要件を定めている。
プログラム可能な論理コントローラ(PLC)は汎用的で強力なエッジデバイスへと進化してきたが、PLCソフトウェアの柔軟性と低レベルのプログラムと高レベルのタスク指向制御フレームワークの統合は欠如している。
振舞い木(BT)は、モジュラー階層制御構造の迅速な設計を可能にする新しいフレームワークである。
モジュラリティの改善とコントロールロジックのシンプルで直感的な設計を組み合わせる。
本稿では,BTをPLCプログラムに統合し,ハードウェア関連機能を調整論理から分離することで,産業制御ソフトウェア設計を改善する手法を提案する。
BTをPLCに統合するためのいくつかの戦略が示されている。
最初の2つのBTはIEC 61131ベースのPLCと統合され、PLCopen Common Behavior Modelをベースとしている。
最後のものはイベントベースのBTを使用し、IEC 61499ベースのコントローラとの統合を示している。
アプリケーションの例は、このアプローチを示します。
この論文は以下の方法で貢献する。
まず,モジュール性を改善し,関心の分離を向上し,制御ソフトウェアの迅速な開発と再構成を可能にする新しいPLCソフトウェア設計を提案する。
次に, BT フレームワークを IEC 61131 と IEC 61499 ベースの PLC に統合し, 外部 BT ライブラリとの PLCopen 関数ブロックの統合について検討する。
これにより、低レベルのPLCコードとAIベースのタスク指向フレームワークとの統合性が向上する。
また、技術構成にBTを使用することで、PLCのスキルベースのプログラミングアプローチを改善している。
The Industry 4.0 paradigm manifests the shift towards mass customization and cyber-physical production systems (CPPS) and sets new requirements for industrial automation software in terms of modularity, flexibility, and short development cycles of control programs. Though programmable logical controllers (PLCs) have been evolving into versatile and powerful edge devices, there is a lack of PLC software flexibility and integration between low-level programs and high-level task-oriented control frameworks. Behavior trees (BTs) is a novel framework, which enables rapid design of modular hierarchical control structures. It combines improved modularity with a simple and intuitive design of control logic. This paper proposes an approach for improving the industrial control software design by integrating BTs into PLC programs and separating hardware related functionalities from the coordination logic. Several strategies for integration of BTs into PLCs are shown. The first two integrate BTs with the IEC 61131 based PLCs and are based on the use of the PLCopen Common Behavior Model. The last one utilized event-based BTs and shows the integration with the IEC 61499 based controllers. An application example demonstrates the approach. The paper contributes in the following ways. First, we propose a new PLC software design, which improves modularity, supports better separation of concerns, and enables rapid development and reconfiguration of the control software. Second, we show and evaluate the integration of the BT framework into both IEC 61131 and IEC 61499 based PLCs, as well as the integration of the PLCopen function blocks with the external BT library. This leads to better integration of the low-level PLC code and the AI-based task-oriented frameworks. It also improves the skill-based programming approach for PLCs by using BTs for skills composition. | 翻訳日:2024-04-23 14:35:57 公開日:2024-04-22 |
# 1st SkatingVerse Challengeへの第1位ソリューション
1st Place Solution to the 1st SkatingVerse Challenge ( http://arxiv.org/abs/2404.14032v1 ) ライセンス: Link先を確認 | Tao Sun, Yuanzi Fu, Kaicheng Yang, Jian Wu, Ziyong Feng, | (参考訳) 本稿では,第1回SkatingVerse Challengeの優勝ソリューションを提案する。
いくつかのステップを含む手法を提案する。
まず、DINOフレームワークを利用して、興味領域(ROI)を抽出し、生映像の正確なトリミングを行う。
その後、Unmasked Teacher、UniformerV2、InfoGCNという3つの異なるモデルを用いて、データのさまざまな側面をキャプチャする。
ログに基づいて予測結果をアンサンブルすることで、我々のソリューションは95.73%という印象的なリーダーボードスコアを得た。
This paper presents the winning solution for the 1st SkatingVerse Challenge. We propose a method that involves several steps. To begin, we leverage the DINO framework to extract the Region of Interest (ROI) and perform precise cropping of the raw video footage. Subsequently, we employ three distinct models, namely Unmasked Teacher, UniformerV2, and InfoGCN, to capture different aspects of the data. By ensembling the prediction results based on logits, our solution attains an impressive leaderboard score of 95.73%. | 翻訳日:2024-04-23 14:35:57 公開日:2024-04-22 |
# Apodotiko: 異種環境における効率的なサーバレスフェデレーション学習の実現
Apodotiko: Enabling Efficient Serverless Federated Learning in Heterogeneous Environments ( http://arxiv.org/abs/2404.14033v1 ) ライセンス: Link先を確認 | Mohak Chadha, Alexander Jensen, Jianfeng Gu, Osama Abboud, Michael Gerndt, | (参考訳) Federated Learning(FL)は、分散クライアント間で共有グローバルモデルの協調トレーニングを可能とし、データを分散化し続ける、新たな機械学習パラダイムである。
FLの効率的な設計システムに関する最近の研究は、サーバーレスコンピューティング技術、特にFLのFunction-as-a-Service(FaaS)を利用することで、リソース効率を向上し、トレーニングコストを削減し、データホルダの複雑なインフラストラクチャ管理負担を軽減することを示している。
しかしながら、現在のサーバレスFLシステムは依然として、トラグラーの存在、すなわち、協調トレーニングプロセスを妨げる遅いクライアントの存在に悩まされている。
これらのシステムにおけるストラグラーの緩和を目的とした戦略が提案されているが、FLクライアント間の多様なハードウェアリソース構成を見落としている。
この目的のために、サーバレスFL用に設計された新しい非同期トレーニング戦略であるApodotikoを紹介します。
我々の戦略は、各クライアントのハードウェア能力とデータセットサイズを評価して、トレーニングラウンド毎にクライアントをインテリジェントに優先順位付けし、選択し、システムパフォーマンスに対するストラグラーの影響を最小限に抑えるためのスコアリング機構を組み込んでいる。
我々は、CPUとGPUクライアントの混在を考慮して、さまざまなデータセットにわたってApodotikoを総合的に評価し、そのパフォーマンスを他の5つのFLトレーニング戦略と比較した。
実験の結果,Apodotikoは他のFLトレーニング戦略よりも優れており,平均速度は2.75倍,最大速度は7.03倍であることがわかった。
さらに、我々の戦略は、サーバーレス環境での適合性を実証し、平均して4倍のコールドスタートを著しく削減します。
Federated Learning (FL) is an emerging machine learning paradigm that enables the collaborative training of a shared global model across distributed clients while keeping the data decentralized. Recent works on designing systems for efficient FL have shown that utilizing serverless computing technologies, particularly Function-as-a-Service (FaaS) for FL, can enhance resource efficiency, reduce training costs, and alleviate the complex infrastructure management burden on data holders. However, current serverless FL systems still suffer from the presence of stragglers, i.e., slow clients that impede the collaborative training process. While strategies aimed at mitigating stragglers in these systems have been proposed, they overlook the diverse hardware resource configurations among FL clients. To this end, we present Apodotiko, a novel asynchronous training strategy designed for serverless FL. Our strategy incorporates a scoring mechanism that evaluates each client's hardware capacity and dataset size to intelligently prioritize and select clients for each training round, thereby minimizing the effects of stragglers on system performance. We comprehensively evaluate Apodotiko across diverse datasets, considering a mix of CPU and GPU clients, and compare its performance against five other FL training strategies. Results from our experiments demonstrate that Apodotiko outperforms other FL training strategies, achieving an average speedup of 2.75x and a maximum speedup of 7.03x. Furthermore, our strategy significantly reduces cold starts by a factor of four on average, demonstrating suitability in serverless environments. | 翻訳日:2024-04-23 14:26:08 公開日:2024-04-22 |
# PointDifformer: ニューラルディフュージョンとトランスフォーマーによるロバストポイントクラウド登録
PointDifformer: Robust Point Cloud Registration With Neural Diffusion and Transformer ( http://arxiv.org/abs/2404.14034v1 ) ライセンス: Link先を確認 | Rui She, Qiyu Kang, Sijie Wang, Wee Peng Tay, Kai Zhao, Yang Song, Tianyu Geng, Yi Xu, Diego Navarro Navarro, Andreas Hartmannsgruber, | (参考訳) ポイントクラウド登録は、3Dコンピュータビジョンにおける基本的な技術であり、グラフィック、自律運転、ロボット工学の応用がある。
しかし、ノイズや摂動が頻繁に発生する困難な条件下での登録作業は困難である。
本稿では,グラフニューラル偏微分方程式(PDE)と熱カーネルシグネチャを利用するロバストポイントクラウド登録手法を提案する。
提案手法はまず,3次元点近傍の情報を集約することにより,点雲から高次元特徴を抽出し,特徴表現の堅牢性を高める。
次に,熱カーネルシグネチャをアテンション機構に組み込んで,対応するキーポイントを効率よく取得する。
最後に、学習可能な重みを持つ特異値分解(SVD)モジュールを用いて、2点雲間の変換を予測する。
3Dポイントクラウドデータセットの実証実験により、我々のアプローチは、ポイントクラウド登録のための最先端のパフォーマンスを達成するだけでなく、付加的なノイズや3D形状の摂動に対してより堅牢性を示すことを示した。
Point cloud registration is a fundamental technique in 3-D computer vision with applications in graphics, autonomous driving, and robotics. However, registration tasks under challenging conditions, under which noise or perturbations are prevalent, can be difficult. We propose a robust point cloud registration approach that leverages graph neural partial differential equations (PDEs) and heat kernel signatures. Our method first uses graph neural PDE modules to extract high dimensional features from point clouds by aggregating information from the 3-D point neighborhood, thereby enhancing the robustness of the feature representations. Then, we incorporate heat kernel signatures into an attention mechanism to efficiently obtain corresponding keypoints. Finally, a singular value decomposition (SVD) module with learnable weights is used to predict the transformation between two point clouds. Empirical experiments on a 3-D point cloud dataset demonstrate that our approach not only achieves state-of-the-art performance for point cloud registration but also exhibits better robustness to additive noise or 3-D shape perturbations. | 翻訳日:2024-04-23 14:26:08 公開日:2024-04-22 |
# GaussianTalker: 3D Gaussian Splattingによる話者特異的トーキングヘッド合成
GaussianTalker: Speaker-specific Talking Head Synthesis via 3D Gaussian Splatting ( http://arxiv.org/abs/2404.14037v1 ) ライセンス: Link先を確認 | Hongyun Yu, Zhan Qu, Qihang Yu, Jianchuan Chen, Zhonghua Jiang, Zhiwen Chen, Shengyu Zhang, Jimin Xu, Fei Wu, Chengfei Lv, Gang Yu, | (参考訳) 近年,Neural Radiance Fields (NeRF) を用いた音声駆動音声頭合成の研究が目覚ましい成果を上げている。
しかし、NeRFの暗黙的表現によって引き起こされるポーズや表現制御が不十分なため、これらの手法には、アンシンクロナイズドや不自然な唇の動き、視覚ジッタや人工物など、いくつかの制限がある。
本稿では,3次元ガウススプラッティングに基づく音声駆動音声ヘッド合成手法であるガウス話者を提案する。
3次元ガウスの明示的な表現特性により、ガウスを3次元顔モデルに結合することで、顔の動きの直感的な制御が達成される。
GaussianTalkerは、話者固有のMotion TranslatorとDynamic Gaussian Rendererの2つのモジュールで構成されている。
話者固有のモーショントランスレータは、汎用音声特徴抽出とカスタマイズされた唇動作生成により、対象話者固有の正確な唇動作を実現する。
Dynamic Gaussian Rendererは、話者固有のBlendShapesを導入し、潜在ポーズを通じて顔の詳細表現を強化し、安定的でリアルなレンダリングビデオを提供する。
広汎な実験結果から,GaussianTalkerは,音声頭部合成における既存の最先端手法よりも優れ,正確な唇同期と例外的な視覚的品質を実現することが示唆された。
提案手法は,NVIDIA RTX4090 GPU上で130FPSのレンダリング速度を実現し,リアルタイムレンダリング性能のしきい値を大幅に上回り,他のハードウェアプラットフォームにデプロイする可能性がある。
Recent works on audio-driven talking head synthesis using Neural Radiance Fields (NeRF) have achieved impressive results. However, due to inadequate pose and expression control caused by NeRF implicit representation, these methods still have some limitations, such as unsynchronized or unnatural lip movements, and visual jitter and artifacts. In this paper, we propose GaussianTalker, a novel method for audio-driven talking head synthesis based on 3D Gaussian Splatting. With the explicit representation property of 3D Gaussians, intuitive control of the facial motion is achieved by binding Gaussians to 3D facial models. GaussianTalker consists of two modules, Speaker-specific Motion Translator and Dynamic Gaussian Renderer. Speaker-specific Motion Translator achieves accurate lip movements specific to the target speaker through universalized audio feature extraction and customized lip motion generation. Dynamic Gaussian Renderer introduces Speaker-specific BlendShapes to enhance facial detail representation via a latent pose, delivering stable and realistic rendered videos. Extensive experimental results suggest that GaussianTalker outperforms existing state-of-the-art methods in talking head synthesis, delivering precise lip synchronization and exceptional visual quality. Our method achieves rendering speeds of 130 FPS on NVIDIA RTX4090 GPU, significantly exceeding the threshold for real-time rendering performance, and can potentially be deployed on other hardware platforms. | 翻訳日:2024-04-23 14:26:08 公開日:2024-04-22 |
# 雑音耐性波動関数アンサッツを用いた中規模ノイズ量子コンピュータの高精度化学反応モデリング
Accurate Chemical Reaction Modeling on Noisy Intermediate-Scale Quantum Computers Using a Noise-Resilient Wavefunction Ansatz ( http://arxiv.org/abs/2404.14038v1 ) ライセンス: Link先を確認 | Xiongzhi Zeng, Huili Zhang, Shizheng Zhang, Pei Liu, Kehuan Linghu, Jiangyu Cui, Xiaoxia Cai, Jie Liu, Zhenyu Li, Jinlong Yang, | (参考訳) 量子コンピューティングは化学系のシミュレーションにとって大きな可能性を秘めている。
本研究では,ノイズのある中間規模量子(NISQ)デバイス上での正確な化学反応モデリングを可能にする,化学系の量子コンピュータシミュレーションの効率的なプロトコルを提案する。
本プロトコルでは、相関エネルギーに基づく能動軌道選択、駆動類似性正規化グループ(DSRG)法からの有効ハミルトニアン、雑音耐性波動関数アンサッツを組み合わせる。
このような組み合わせは、化学系を正確にシミュレートする量子資源効率の高い方法を与える。
このプロトコルのパワーは、最大10個の原子を持つ系の数値的な結果によって示される。
クラウドベースの超伝導量子コンピュータ上でもディールス・アルダー反応のモデリングを行う。
これらの結果は、NISQ時代の量子ユーティリティの実現における重要な一歩である。
Quantum computing is of great potential for chemical system simulations. In this study, we propose an efficient protocol of quantum computer based simulation of chemical systems which enables accurate chemical reaction modeling on noisy intermediate-scale quantum (NISQ) devices. In this protocol, we combine an correlation energy-based active orbital selection, an effective Hamiltonian from the driven similarity renormalization group (DSRG) method, and a noise-resilient wavefunction ansatz. Such a combination gives a quantum resource-efficient way to accurately simulate chemical systems. The power of this protocol is demonstrated by numerical results for systems with up to tens of atoms. Modeling of a Diels-Alder (DA) reaction is also performed on a cloud-based superconducting quantum computer. These results represent an important step forward in realizing quantum utility in the NISQ era. | 翻訳日:2024-04-23 14:26:08 公開日:2024-04-22 |
# 超伝導量子ビットにおける2レベル系検出のための2トン分光法
Two-tone spectroscopy for the detection of two-level systems in superconducting qubits ( http://arxiv.org/abs/2404.14039v1 ) ライセンス: Link先を確認 | Olli Mansikkamäki, Alexander Tyner, Alexander Bilmes, Ilya Drozdov, Alexander Balatsky, | (参考訳) 物理的起源が不明な2レベル系(TLS)は超伝導量子ビットにおけるデコヒーレンスの主要な要因である。
個々のTLSとキュービットの相互作用は様々な分光法で検出できるが、そのほとんどはキュービット周波数のチューニング性に依存している。
本稿では,マイクロ波駆動と分散読み出しのみを必要とする新しい手法を提案し,固定周波数キュービットも動作させる。
提案した2トーン分光法は、周波数と長さの異なるマイクロ波パルスで未知の周波数のTLSを励起し、次いでキュービット周波数で第2のパルスを励起する。
TLSパラメータは、第1パルス周波数と長さの関数として、クォービット集団から推定することができる。
Two-level systems (TLS) of unclear physical origin are a major contributor to decoherence in superconducting qubits. The interactions of individual TLS with a qubit can be detected via various spectroscopic methods, most of which have relied on the tunability of the qubit frequency. We propose a novel method that requires only a microwave drive and dispersive readout, and thus also works fixed-frequency qubits. The proposed two-tone spectroscopy involves a microwave pulse of varying frequency and length to excite TLSs of unknown frequencies, followed by a second pulse at the qubit frequency. TLS parameters can be estimated from the qubit population as a function of the first pulse frequency and length. | 翻訳日:2024-04-23 14:26:08 公開日:2024-04-22 |
# 外科用デSAM: ロボット手術における計測器のセグメンテーションのためのデカップリングSAM
Surgical-DeSAM: Decoupling SAM for Instrument Segmentation in Robotic Surgery ( http://arxiv.org/abs/2404.14040v1 ) ライセンス: Link先を確認 | Yuyang Sheng, Sophia Bano, Matthew J. Clarkson, Mobarakol Islam, | (参考訳) 目的: 最近のSegment Anything Model (SAM)は、様々なアプリケーションにおいて、ポイント、テキスト、バウンディングボックスプロンプトで印象的なパフォーマンスを示しています。
しかし、安全クリティカルな外科的作業では、プロンプトは不可能である。
i) 教師あり学習のためのフレーム単位のプロンプトの欠如。
(II)リアルタイムトラッキングアプリケーションにおいてフレーム単位でのプロンプトは非現実的であり、
三 オフラインアプリケーションの通知をアノテートするのは高価である。
方法: 実時間ロボット手術における計測器のセグメンテーションを得るために, SAMを分離するための自動バウンディングボックスプロンプトを生成する手術用デSAMを開発した。
一般的な検出アーキテクチャであるDETRを利用し、それを微調整して楽器のバウンディングボックスプロンプトを得る。
次に,画像エンコーダをDETRエンコーダとファインチューンプロンプトエンコーダとマスクデコーダに置き換えて,SAM(DeSAM)をデカップリングし,手術器具のサンプルセグメンテーションを得た。
検出性能を向上させるために,Swin-transformerを用いて特徴表現を改良した。
結果:本手法は,MICCAI手術器具セグメンテーションチャレンジであるEndoVis 2017と2018の2つの公開データセットで検証された。
また,SOTA計測器のセグメンテーション法と比較し,2017年と2018年のエンドビジョンでは89.62,90.70のダイス測定値で大幅に改善した。
結論:より広範な実験と検証により,他のSOTAセグメンテーション法より優れたプロンプトを伴わず,リアルタイムの計器セグメンテーションが可能であることを実証した。
Purpose: The recent Segment Anything Model (SAM) has demonstrated impressive performance with point, text or bounding box prompts, in various applications. However, in safety-critical surgical tasks, prompting is not possible due to (i) the lack of per-frame prompts for supervised learning, (ii) it is unrealistic to prompt frame-by-frame in a real-time tracking application, and (iii) it is expensive to annotate prompts for offline applications. Methods: We develop Surgical-DeSAM to generate automatic bounding box prompts for decoupling SAM to obtain instrument segmentation in real-time robotic surgery. We utilise a commonly used detection architecture, DETR, and fine-tuned it to obtain bounding box prompt for the instruments. We then empolyed decoupling SAM (DeSAM) by replacing the image encoder with DETR encoder and fine-tune prompt encoder and mask decoder to obtain instance segmentation for the surgical instruments. To improve detection performance, we adopted the Swin-transformer to better feature representation. Results: The proposed method has been validated on two publicly available datasets from the MICCAI surgical instruments segmentation challenge EndoVis 2017 and 2018. The performance of our method is also compared with SOTA instrument segmentation methods and demonstrated significant improvements with dice metrics of 89.62 and 90.70 for the EndoVis 2017 and 2018. Conclusion: Our extensive experiments and validations demonstrate that Surgical-DeSAM enables real-time instrument segmentation without any additional prompting and outperforms other SOTA segmentation methods. | 翻訳日:2024-04-23 14:26:08 公開日:2024-04-22 |
# CloudFort:空間分割とアンサンブル予測によるバックドア攻撃に対する3Dポイントクラウド分類のロバスト性向上
CloudFort: Enhancing Robustness of 3D Point Cloud Classification Against Backdoor Attacks via Spatial Partitioning and Ensemble Prediction ( http://arxiv.org/abs/2404.14042v1 ) ライセンス: Link先を確認 | Wenhao Lan, Yijun Yang, Haihua Shen, Shan Li, | (参考訳) 自動運転車やロボティクス、仮想現実など、さまざまなアプリケーションにおける3Dポイントクラウドデータの採用の増加は、オブジェクト認識とシーン理解に大きな進歩をもたらした。
しかし、この進歩には、特にバックドア攻撃の形で、新しいセキュリティ上の課題が伴う。
これらの攻撃には、悪意のある情報を機械学習モデルのトレーニングデータに挿入することが含まれる。
本稿では,バックドア攻撃に対する3Dポイントクラウド分類器の堅牢性向上を目的とした,新しい防御機構であるCloudFortを提案する。
CloudFortは空間分割とアンサンブル予測技術を活用して、モデルのパフォーマンスをクリーンデータに保ちながら、バックドアトリガの影響を効果的に緩和する。
我々は、大規模な実験を通じてCloudFortの有効性を評価し、ポイントクラウドバックドアアタック(PCBA)に対する強力なレジリエンスを実証した。
以上の結果から,CloudFortは,良質なサンプルの精度を損なうことなく,3Dポイントクラウド分類モデルのセキュリティを著しく向上させることがわかった。
さらに、CloudFortの限界について検討し、3Dポイントクラウドセキュリティの分野における今後の研究の道のりについて論じる。
提案する防衛機構は,現実世界のアプリケーションにおいて,ポイントクラウドベースのシステムの信頼性と信頼性を確保するための重要なステップである。
The increasing adoption of 3D point cloud data in various applications, such as autonomous vehicles, robotics, and virtual reality, has brought about significant advancements in object recognition and scene understanding. However, this progress is accompanied by new security challenges, particularly in the form of backdoor attacks. These attacks involve inserting malicious information into the training data of machine learning models, potentially compromising the model's behavior. In this paper, we propose CloudFort, a novel defense mechanism designed to enhance the robustness of 3D point cloud classifiers against backdoor attacks. CloudFort leverages spatial partitioning and ensemble prediction techniques to effectively mitigate the impact of backdoor triggers while preserving the model's performance on clean data. We evaluate the effectiveness of CloudFort through extensive experiments, demonstrating its strong resilience against the Point Cloud Backdoor Attack (PCBA). Our results show that CloudFort significantly enhances the security of 3D point cloud classification models without compromising their accuracy on benign samples. Furthermore, we explore the limitations of CloudFort and discuss potential avenues for future research in the field of 3D point cloud security. The proposed defense mechanism represents a significant step towards ensuring the trustworthiness and reliability of point-cloud-based systems in real-world applications. | 翻訳日:2024-04-23 14:26:08 公開日:2024-04-22 |
# LLMは必要なものを知る:検索機能強化に欠く情報ガイドフレームワークを活用する
LLMs Know What They Need: Leveraging a Missing Information Guided Framework to Empower Retrieval-Augmented Generation ( http://arxiv.org/abs/2404.14043v1 ) ライセンス: Link先を確認 | Keheng Wang, Feiyu Duan, Peiguang Li, Sirui Wang, Xunliang Cai, | (参考訳) Retrieval-Augmented Generation (RAG) は、古い知識や幻覚を、更新された関連する知識をLLMに提供することで緩和する上で大きな価値を示す。
しかし、複雑なマルチホップクエリの理解や関連文書の検索においてRAGにはまだいくつかの困難がある。
必要な情報を徐々に探す人間の推論プロセスにインスパイアされたLLMは、各推論ステップで欠落した情報に気づくかどうかを尋ねるのは当然である。
本研究はまず,LLMが情報抽出能力および行方不明者を知る能力について実験的に検証した。
上記の発見に基づいて、欠落情報の識別を利用して、その後の知識検索を行うターゲットクエリを生成するMIGRES(Missing Information Guided Retrieve-Extract-Solving paradigm)を提案する。
さらに,無関係なコンテンツを文書から抽出する文レベル再分類フィルタリング手法と,クリーンアップ文書から有用な情報を抽出するLLMの情報抽出機能を設計し,RAGの全体的な有効性を高める。
複数の公開データセットに対して行われた大規模な実験により,提案手法の優位性が明らかとなり,解析実験により提案手法の有効性が示された。
Retrieval-Augmented Generation (RAG) demonstrates great value in alleviating outdated knowledge or hallucination by supplying LLMs with updated and relevant knowledge. However, there are still several difficulties for RAG in understanding complex multi-hop query and retrieving relevant documents, which require LLMs to perform reasoning and retrieve step by step. Inspired by human's reasoning process in which they gradually search for the required information, it is natural to ask whether the LLMs could notice the missing information in each reasoning step. In this work, we first experimentally verified the ability of LLMs to extract information as well as to know the missing. Based on the above discovery, we propose a Missing Information Guided Retrieve-Extraction-Solving paradigm (MIGRES), where we leverage the identification of missing information to generate a targeted query that steers the subsequent knowledge retrieval. Besides, we design a sentence-level re-ranking filtering approach to filter the irrelevant content out from document, along with the information extraction capability of LLMs to extract useful information from cleaned-up documents, which in turn to bolster the overall efficacy of RAG. Extensive experiments conducted on multiple public datasets reveal the superiority of the proposed MIGRES method, and analytical experiments demonstrate the effectiveness of our proposed modules. | 翻訳日:2024-04-23 14:26:08 公開日:2024-04-22 |
# HashPoint: ニューラルレンダリングのための高速化されたポイント検索とサンプリング
HashPoint: Accelerated Point Searching and Sampling for Neural Rendering ( http://arxiv.org/abs/2404.14044v1 ) ライセンス: Link先を確認 | Jiahao Ma, Miaomiao Liu, David Ahmedt-Aristizaba, Chuong Nguyen, | (参考訳) 本稿では,ボリュームニューラルレンダリングにおける効率的な点探索とサンプリングの問題に対処する。
この領域では、ラスタ化とレイトレーシングの2つの典型的なアプローチが採用されている。
ラスタライズベースの手法により、メモリ増加と忠実度低下のコストでリアルタイムレンダリングが可能になる。
対照的に、レイトレーシングに基づく手法は優れた品質を得るが、より長いレンダリング時間を要求する。
本稿では,この2つの戦略を組み合わせたHashPoint法を用いて,効率的な点探索とサンプリングのためのラスタライズ,レンダリングのためのレイマーチングという手法を提案する。
本手法は,カメラビュー内の点をラスタライズし,ハッシュテーブルに整理し,高速検索を容易にする点探索を最適化する。
特に、光線に遭遇する一次表面の適応サンプリングによりレンダリング処理を高速化する。
提案手法は, 最先端のレイトレーシング手法の大幅な高速化を実現し, 合成および実検データセット間で等価あるいは優れた精度を維持する。
コードはhttps://jiahao-ma.github.io/hashpoint/.com/で入手できる。
In this paper, we address the problem of efficient point searching and sampling for volume neural rendering. Within this realm, two typical approaches are employed: rasterization and ray tracing. The rasterization-based methods enable real-time rendering at the cost of increased memory and lower fidelity. In contrast, the ray-tracing-based methods yield superior quality but demand longer rendering time. We solve this problem by our HashPoint method combining these two strategies, leveraging rasterization for efficient point searching and sampling, and ray marching for rendering. Our method optimizes point searching by rasterizing points within the camera's view, organizing them in a hash table, and facilitating rapid searches. Notably, we accelerate the rendering process by adaptive sampling on the primary surface encountered by the ray. Our approach yields substantial speed-up for a range of state-of-the-art ray-tracing-based methods, maintaining equivalent or superior accuracy across synthetic and real test datasets. The code will be available at https://jiahao-ma.github.io/hashpoint/. | 翻訳日:2024-04-23 14:26:08 公開日:2024-04-22 |
# 低ビット量子化LLaMA3モデルについて : 実証的研究
How Good Are Low-bit Quantized LLaMA3 Models? An Empirical Study ( http://arxiv.org/abs/2404.14047v1 ) ライセンス: Link先を確認 | Wei Huang, Xudong Ma, Haotong Qin, Xingyu Zheng, Chengtao Lv, Hong Chen, Jie Luo, Xiaojuan Qi, Xianglong Liu, Michele Magno, | (参考訳) MetaのLLaMAファミリーは、最も強力なオープンソースのLarge Language Model(LLM)シリーズの1つになった。
特に、LLaMA3モデルは、最近リリースされ、15T以上のデータに対する超大規模事前トレーニングによって、様々な種類の印象的なパフォーマンスを実現している。
資源制限シナリオにおけるLLMに対する低ビット量子化の広範な適用を考えると、LLaMA3の低ビット幅への量子化時の能力について検討する。
この探索は、特にLLM圧縮に苦しむ性能劣化問題に対処するために、LLaMA3や他のLLMの低ビット量子化の新しい洞察と課題を明らかにする可能性を秘めている。
具体的には,LLaMA3の1~8ビットおよび多種多様なデータセット上での学習後量子化とLLaMA3のLoRAファインタニングの10つの既存手法を評価し,LLaMA3の低ビット量子化性能を包括的に明らかにする。
実験結果から,LLaMA3はこれらのシナリオ,特に超低ビット幅において,まだ非負の劣化に悩まされていることが示唆された。
これは、将来の開発でブリッジする必要がある低ビット幅での大幅なパフォーマンスギャップを浮き彫りにする。
この実験的な研究は将来のモデルを進める上で有益であることが期待され、LLMをより精度の高いビット幅に推し進める。
我々のプロジェクトはhttps://github.com/Macaronlin/LLaMA3-Quantizationでリリースされ、量子化されたLLaMA3モデルはhttps://huggingface.co/LLMQでリリースされています。
Meta's LLaMA family has become one of the most powerful open-source Large Language Model (LLM) series. Notably, LLaMA3 models have recently been released and achieve impressive performance across various with super-large scale pre-training on over 15T tokens of data. Given the wide application of low-bit quantization for LLMs in resource-limited scenarios, we explore LLaMA3's capabilities when quantized to low bit-width. This exploration holds the potential to unveil new insights and challenges for low-bit quantization of LLaMA3 and other forthcoming LLMs, especially in addressing performance degradation problems that suffer in LLM compression. Specifically, we evaluate the 10 existing post-training quantization and LoRA-finetuning methods of LLaMA3 on 1-8 bits and diverse datasets to comprehensively reveal LLaMA3's low-bit quantization performance. Our experiment results indicate that LLaMA3 still suffers non-negligent degradation in these scenarios, especially in ultra-low bit-width. This highlights the significant performance gap under low bit-width that needs to be bridged in future developments. We expect that this empirical study will prove valuable in advancing future models, pushing the LLMs to lower bit-width with higher accuracy for being practical. Our project is released on https://github.com/Macaronlin/LLaMA3-Quantization and quantized LLaMA3 models are released in https://huggingface.co/LLMQ. | 翻訳日:2024-04-23 14:26:08 公開日:2024-04-22 |
# Unlawful Proxy Discrimination: Inherently Discriminatory Algorithms に適合するフレームワーク
Unlawful Proxy Discrimination: A Framework for Challenging Inherently Discriminatory Algorithms ( http://arxiv.org/abs/2404.14050v1 ) ライセンス: Link先を確認 | Hilde Weerts, Aislinn Kelly-Lyth, Reuben Binns, Jeremias Adams-Prassl, | (参考訳) 創発的な奨学金は、EUの法的概念である直接差別(保護された特徴に基づいて異なる扱いを受ける)が、様々なアルゴリズムによる意思決定の文脈に適用される可能性があることを示唆している。
これは重要な意味を持つ:間接的差別とは異なり、直接的差別フレームワークには一般に「客観的な正当化」段階が存在しない。
本稿では,アルゴリズム的文脈における直接識別の最も可能性の高い候補である固有直接識別に着目し,プロキシが保護された特性に本質的に関連付けられていることを示す。
計算機科学の文献から、アルゴリズムの文脈では、プロキシ能力とプロキシ利用の2つのステップで「根拠に基づく処理」を理解する必要があることを示唆する。
両方の要素が作成できる場合のみ、保護された特性の「根拠」として直接識別できる。
提案するプロキシ容量とプロキシ使用テストの法的条件を分析します。
この分析に基づいて、アルゴリズムによる意思決定において、固有の直接的差別を特定するために開発または適用できる技術的アプローチとメトリクスについて論じる。
Emerging scholarship suggests that the EU legal concept of direct discrimination - where a person is given different treatment on grounds of a protected characteristic - may apply to various algorithmic decision-making contexts. This has important implications: unlike indirect discrimination, there is generally no 'objective justification' stage in the direct discrimination framework, which means that the deployment of directly discriminatory algorithms will usually be unlawful per se. In this paper, we focus on the most likely candidate for direct discrimination in the algorithmic context, termed inherent direct discrimination, where a proxy is inextricably linked to a protected characteristic. We draw on computer science literature to suggest that, in the algorithmic context, 'treatment on the grounds of' needs to be understood in terms of two steps: proxy capacity and proxy use. Only where both elements can be made out can direct discrimination be said to be `on grounds of' a protected characteristic. We analyse the legal conditions of our proposed proxy capacity and proxy use tests. Based on this analysis, we discuss technical approaches and metrics that could be developed or applied to identify inherent direct discrimination in algorithmic decision-making. | 翻訳日:2024-04-23 14:26:08 公開日:2024-04-22 |
# 言語・認知科学における機械学習と統計的分析の差異
Differential contributions of machine learning and statistical analysis to language and cognitive sciences ( http://arxiv.org/abs/2404.14052v1 ) ライセンス: Link先を確認 | Kun Sun, Rong Wang, | (参考訳) データ駆動のアプローチは科学研究に革命をもたらした。
機械学習と統計分析は、この種の研究で一般的に利用されている。
広く使われているにもかかわらず、これらの手法は彼らの技術や目的に大きく異なる。
社会科学、特に言語と認知科学におけるこれらの違いを示すために、一貫したデータセットを利用する研究はほとんどない。
この研究は、Buckeye Speech Corpusを利用して、機械学習と統計分析の両方をデータ駆動型研究に適用して、異なる洞察を得る方法を説明する。
本研究は,データ駆動戦略における多様なアプローチの理解を深めるものである。
Data-driven approaches have revolutionized scientific research. Machine learning and statistical analysis are commonly utilized in this type of research. Despite their widespread use, these methodologies differ significantly in their techniques and objectives. Few studies have utilized a consistent dataset to demonstrate these differences within the social sciences, particularly in language and cognitive sciences. This study leverages the Buckeye Speech Corpus to illustrate how both machine learning and statistical analysis are applied in data-driven research to obtain distinct insights. This study significantly enhances our understanding of the diverse approaches employed in data-driven strategies. | 翻訳日:2024-04-23 14:26:08 公開日:2024-04-22 |
# ブロック符号化量子最適化器による組合せ最適化問題の解法
Solving Combinatorial Optimization Problems with a Block Encoding Quantum Optimizer ( http://arxiv.org/abs/2404.14054v1 ) ライセンス: Link先を確認 | Adelina Bärligea, Benedikt Poggel, Jeanette Miriam Lorenz, | (参考訳) 組合せ最適化問題に対する短期的な量子優位性を達成するために、量子近似最適化アルゴリズム (QAOA) と変分量子固有解法 (VQE) が重要な方法であるが、その実用性は未だ不明である。
したがって、代替変分量子アルゴリズムを開発し、評価する必要がある。
本研究では,ブロックエンコーディング量子最適化器 (BENQO) について検討した。
BENQOは離散最適化問題に普遍的に適用できるように設計されている。
最大カットを超えて, BENQOの実績を, より実践的な意味を持つトラベリングセールスパーソン問題という文脈で評価する。
以上の結果から,BENQOはQAOAよりも有意に優れた性能を示し,VQEと各種のパフォーマンス指標を比較検討した。
我々は、BENQOは将来有望なハイブリッド量子古典アルゴリズムであり、その潜在能力をさらに研究し、最適化する必要があると結論付けた。
In the pursuit of achieving near-term quantum advantage for combinatorial optimization problems, the Quantum Approximate Optimization Algorithm (QAOA) and the Variational Quantum Eigensolver (VQE) are the primary methods of interest, but their practical effectiveness remains uncertain. Therefore, there is a persistent need to develop and evaluate alternative variational quantum algorithms. This study presents an investigation of the Block ENcoding Quantum Optimizer (BENQO), a hybrid quantum solver that uses block encoding to represent the cost function. BENQO is designed to be universally applicable across discrete optimization problems. Beyond Maximum Cut, we evaluate BENQO's performance in the context of the Traveling Salesperson Problem, which is of greater practical relevance. Our findings confirm that BENQO performs significantly better than QAOA and competes with VQE across a variety of performance metrics. We conclude that BENQO is a promising novel hybrid quantum-classical algorithm that should be further investigated and optimized to realize its full potential. | 翻訳日:2024-04-23 14:26:08 公開日:2024-04-22 |
# RingID:マルチキー識別のためのツリーリング透かしの再検討
RingID: Rethinking Tree-Ring Watermarking for Enhanced Multi-Key Identification ( http://arxiv.org/abs/2404.14055v1 ) ライセンス: Link先を確認 | Hai Ci, Pei Yang, Yiren Song, Mike Zheng Shou, | (参考訳) 我々は,様々な攻撃に対して強い堅牢性を示す拡散モデル透かし法であるツリーリング透かしを再検討する。
本研究は,透かしパターンマッチングとは別に,透かし処理によって意図せず導入される分布変化が,その異常な強靭性に寄与することを明らかにする。
我々の調査は、元の設計に固有の欠陥、特に分散シフトが役に立たない複数の異なるキーを識別する能力をさらに明らかにしている。
これらの知見と分析に基づいて,マルチキー識別の強化を目的としたリングIDを提案する。
多様な透かしから顕著な長所をシームレスにアマルガメートするために設計された、新しい多チャンネル不均一透かしアプローチで構成されている。
RingIDは、提案された一連の拡張と合わせて、マルチキー識別の大幅な進歩を示している。
We revisit Tree-Ring Watermarking, a recent diffusion model watermarking method that demonstrates great robustness to various attacks. We conduct an in-depth study on it and reveal that the distribution shift unintentionally introduced by the watermarking process, apart from watermark pattern matching, contributes to its exceptional robustness. Our investigation further exposes inherent flaws in its original design, particularly in its ability to identify multiple distinct keys, where distribution shift offers no assistance. Based on these findings and analysis, we present RingID for enhanced multi-key identification. It consists of a novel multi-channel heterogeneous watermarking approach designed to seamlessly amalgamate distinctive advantages from diverse watermarks. Coupled with a series of suggested enhancements, RingID exhibits substantial advancements in multi-key identification. | 翻訳日:2024-04-23 14:26:08 公開日:2024-04-22 |
# 死へのボレドム:人工知能研究が自殺行動におけるボレドムの役割を明らかに
Bored to Death: Artificial Intelligence Research Reveals the Role of Boredom in Suicide Behavior ( http://arxiv.org/abs/2404.14057v1 ) ライセンス: Link先を確認 | Shir Lissak, Yaakov Ophir, Refael Tikochinski, Anat Brunstein Klomek, Itay Sisso, Eyal Fruchter, Roi Reichart, | (参考訳) 背景: 人工知能(AI)の最近の進歩は自殺評価に大きく貢献しているが, この複雑な行動に関する理論的理解はいまだに限られている。
目的: この研究は、自殺行為を誘発または悪化させる隠れた危険因子を明らかにするために、AI方法論を活用することを目的としている。
メソッド: 主要なデータセットは、228,052人のFacebook投稿で1006人のユーザーが参加し、ゴールドスタンダードのColumbia Suicide Severity Rating Scaleを完了した。
このデータセットは、予備仮説のないボトムアップ研究パイプラインを用いて分析され、新しいデータセットのトップダウン分析を用いてその結果が検証された。
このセカンダリデータセットには、同じ自殺尺度に対する1,062人の参加者の反応と、うつ病と退屈をよく測定した尺度が含まれていた。
結果: ほぼ完全に自動化されたAI誘導研究パイプラインは、自殺のリスクを予測するFacebookのトピック4つに結実した。
APA PsycInfoを用いた総合的な文献レビューでは、退屈は自殺のユニークな危険因子として認識されることは滅多にないことがわかった。
二次データセットの相補的なトップダウンパス解析により、うつ病を介する退屈と自殺の間接的関係が明らかになった。
メインのFacebookデータセットでも、同等の媒介関係が観察された。
しかし、ここでは、退屈と自殺リスクの直接的な関係も観察された。
結論: AIメソッドを統合することで、未調査の自殺リスクファクタの発見が可能になった。
この研究は、抑うつによらず自殺行為を引き起こす可能性のある、不適応な「不注意」として退屈を示唆している。
さらなる研究は、この重荷、時には実存的な経験に臨床医の注意を向けるよう推奨されている。
Background: Recent advancements in Artificial Intelligence (AI) contributed significantly to suicide assessment, however, our theoretical understanding of this complex behavior is still limited. Objective: This study aimed to harness AI methodologies to uncover hidden risk factors that trigger or aggravate suicide behaviors. Method: The primary dataset included 228,052 Facebook postings by 1,006 users who completed the gold-standard Columbia Suicide Severity Rating Scale. This dataset was analyzed using a bottom-up research pipeline without a-priory hypotheses and its findings were validated using a top-down analysis of a new dataset. This secondary dataset included responses by 1,062 participants to the same suicide scale as well as to well-validated scales measuring depression and boredom. Results: An almost fully automated, AI-guided research pipeline resulted in four Facebook topics that predicted the risk of suicide, of which the strongest predictor was boredom. A comprehensive literature review using APA PsycInfo revealed that boredom is rarely perceived as a unique risk factor of suicide. A complementing top-down path analysis of the secondary dataset uncovered an indirect relationship between boredom and suicide, which was mediated by depression. An equivalent mediated relationship was observed in the primary Facebook dataset as well. However, here, a direct relationship between boredom and suicide risk was also observed. Conclusions: Integrating AI methods allowed the discovery of an under-researched risk factor of suicide. The study signals boredom as a maladaptive 'ingredient' that might trigger suicide behaviors, regardless of depression. Further studies are recommended to direct clinicians' attention to this burdening, and sometimes existential experience. | 翻訳日:2024-04-23 14:26:08 公開日:2024-04-22 |
# FedTAD:グラフフェデレーション学習のためのトポロジ対応データフリー知識蒸留
FedTAD: Topology-aware Data-free Knowledge Distillation for Subgraph Federated Learning ( http://arxiv.org/abs/2404.14061v1 ) ライセンス: Link先を確認 | Yinlin Zhu, Xunkai Li, Zhengyu Wu, Di Wu, Miao Hu, Rong-Hua Li, | (参考訳) サブグラフフェデレーション学習(Subgraph Federated Learning, Subgraph-FL)は、グラフニューラルネットワーク(GNN)の多目的サブグラフによる協調トレーニングを容易にする新しい分散パラダイムである。
残念ながら、サブグラフFLの重大な課題は、ノードとトポロジの変動に起因するサブグラフの不均一性から生じ、グローバルGNNの性能を損なう。
様々な研究にもかかわらず、彼らはまだサブグラフの不均一性の影響メカニズムを徹底的に研究していない。
この目的のために、ノードとトポロジのばらつきを分離し、ラベル分布と構造ホモフィリーの違いに対応することを示した。
注目すべきは、これらのバリエーションは、複数の局所的なGNNのクラスレベルでの知識信頼性に大きな違いをもたらし、モデルの集約を様々な程度に誤解させる。
この知見に基づいて,局所モデルからグローバルモデルへの信頼性の高い知識伝達を向上するトポロジ対応データフリーな知識蒸留技術 (FedTAD) を提案する。
6つの公開データセットに対する大規模な実験は、最先端のベースラインよりもFedTADの方が優れていることを一貫して示している。
Subgraph federated learning (subgraph-FL) is a new distributed paradigm that facilitates the collaborative training of graph neural networks (GNNs) by multi-client subgraphs. Unfortunately, a significant challenge of subgraph-FL arises from subgraph heterogeneity, which stems from node and topology variation, causing the impaired performance of the global GNN. Despite various studies, they have not yet thoroughly investigated the impact mechanism of subgraph heterogeneity. To this end, we decouple node and topology variation, revealing that they correspond to differences in label distribution and structure homophily. Remarkably, these variations lead to significant differences in the class-wise knowledge reliability of multiple local GNNs, misguiding the model aggregation with varying degrees. Building on this insight, we propose topology-aware data-free knowledge distillation technology (FedTAD), enhancing reliable knowledge transfer from the local model to the global model. Extensive experiments on six public datasets consistently demonstrate the superiority of FedTAD over state-of-the-art baselines. | 翻訳日:2024-04-23 14:16:24 公開日:2024-04-22 |
# GatedLexiconNet: 総合的なエンドツーエンド手書きテキスト認識システム
GatedLexiconNet: A Comprehensive End-to-End Handwritten Paragraph Text Recognition System ( http://arxiv.org/abs/2404.14062v1 ) ライセンス: Link先を確認 | Lalita Kumari, Sukhdeep Singh, Vaibhav Varish Singh Rathore, Anuj Sharma, | (参考訳) 手書き文字認識問題は過去数十年、特にコンピュータビジョンの領域、パターン認識のサブドメインにおいて、研究者にとって課題となっている。
文字間のテキストのばらつき、カーシヴネス、そして歴史的テキスト画像の劣化を伴う手書きテキストのフォントスタイルの違いは、難しい問題である。
ニューラルネットワークベースのシステムでスキャンされた文書画像を認識するには、通常、セグメンテーションと認識という2段階のアプローチが必要となる。
しかし、この手法にはいくつかの欠点がある。
これらの欠点は、テキスト領域の特定、ページ内のレイアウトの多様性の分析、正確な真実のセグメンテーションの確立といった課題を含んでいる。
その結果、これらのプロセスはエラーを起こしやすいため、高い認識精度を達成する上でボトルネックとなる。
そこで本研究では,内部線分割とゲート畳み込み層に基づくエンコーダを組み込んだエンドツーエンドの段落認識システムを提案する。
ゲーティングは情報の流れを制御し、手書き文字認識モデルでより関連性の高い特徴を適応的に選択できるメカニズムである。
アテンションモジュールは、内部の行セグメンテーションを実行する上で重要な役割を担い、ページを1行ずつ処理できる。
復号化段階において,接続型時間分類に基づく単語ビーム検索デコーダを後処理ステップとして統合した。
本研究では,既存のディープニューラルネットワークのゲート畳み込み層を慎重に適用し,利用することにより,既存のLexiconNetを拡張した。
行とページレベルの結果も、新しいGatedLexiconNetを好んでいます。
本研究は、IAMで2.27%、RIMESで0.9%、READ-16で2.13%、IAMで5.73%、RIMESで2.76%、READ-2016で6.52%の文字誤り率を報告した。
The Handwritten Text Recognition problem has been a challenge for researchers for the last few decades, especially in the domain of computer vision, a subdomain of pattern recognition. Variability of texts amongst writers, cursiveness, and different font styles of handwritten texts with degradation of historical text images make it a challenging problem. Recognizing scanned document images in neural network-based systems typically involves a two-step approach: segmentation and recognition. However, this method has several drawbacks. These shortcomings encompass challenges in identifying text regions, analyzing layout diversity within pages, and establishing accurate ground truth segmentation. Consequently, these processes are prone to errors, leading to bottlenecks in achieving high recognition accuracies. Thus, in this study, we present an end-to-end paragraph recognition system that incorporates internal line segmentation and gated convolutional layers based encoder. The gating is a mechanism that controls the flow of information and allows to adaptively selection of the more relevant features in handwritten text recognition models. The attention module plays an important role in performing internal line segmentation, allowing the page to be processed line-by-line. During the decoding step, we have integrated a connectionist temporal classification-based word beam search decoder as a post-processing step. In this work, we have extended existing LexiconNet by carefully applying and utilizing gated convolutional layers in the existing deep neural network. Our results at line and page levels also favour our new GatedLexiconNet. This study reported character error rates of 2.27% on IAM, 0.9% on RIMES, and 2.13% on READ-16, and word error rates of 5.73% on IAM, 2.76% on RIMES, and 6.52% on READ-2016 datasets. | 翻訳日:2024-04-23 14:16:24 公開日:2024-04-22 |
# LVNS-RAVE: RAVEと潜在ベクトルノベルティ探索による分散オーディオ生成
LVNS-RAVE: Diversified audio generation with RAVE and Latent Vector Novelty Search ( http://arxiv.org/abs/2404.14063v1 ) ライセンス: Link先を確認 | Jinyue Guo, Anna-Maria Christodoulou, Balint Laczko, Kyrre Glette, | (参考訳) 進化的アルゴリズムと生成的ディープラーニングは、音生成タスクの最も強力なツールの1つです。
しかし、これらには制限がある:進化的アルゴリズムは複雑な設計を必要とする。
生成的ディープラーニングモデルはデータセットからコピーされ、クリエイティビティが欠如することが多い。
本稿では,進化的アルゴリズムと生成的深層学習を組み合わせて現実的で斬新な音を生成するLVNS-RAVEを提案する。
RAVEモデルを音響発生器とし,VGGishモデルを遅延ベクトルノベルティ探索(LVNS)アルゴリズムの新規性評価器として用いる。
報告された実験により, RAVEモデルを用いて, 異なる突然変異条件下で, 多様化した新しい音声サンプルを生成できることが確認された。
生成過程の特徴は変異パラメータで容易に制御できる。
提案するアルゴリズムは、サウンドアーティストやミュージシャンのための創造的なツールである。
Evolutionary Algorithms and Generative Deep Learning have been two of the most powerful tools for sound generation tasks. However, they have limitations: Evolutionary Algorithms require complicated designs, posing challenges in control and achieving realistic sound generation. Generative Deep Learning models often copy from the dataset and lack creativity. In this paper, we propose LVNS-RAVE, a method to combine Evolutionary Algorithms and Generative Deep Learning to produce realistic and novel sounds. We use the RAVE model as the sound generator and the VGGish model as a novelty evaluator in the Latent Vector Novelty Search (LVNS) algorithm. The reported experiments show that the method can successfully generate diversified, novel audio samples under different mutation setups using different pre-trained RAVE models. The characteristics of the generation process can be easily controlled with the mutation parameters. The proposed algorithm can be a creative tool for sound artists and musicians. | 翻訳日:2024-04-23 14:16:24 公開日:2024-04-22 |
# 複数のカメラを用いた強化学習のための多視点ディスタングル
Multi-view Disentanglement for Reinforcement Learning with Multiple Cameras ( http://arxiv.org/abs/2404.14064v1 ) ライセンス: Link先を確認 | Mhairi Dunion, Stefano V. Albrecht, | (参考訳) 画像ベース強化学習(RL)エージェントの性能は、撮像に使用されるカメラの位置によって異なる。
一人称自撮りカメラを含む複数のカメラを同時に訓練することで、異なるカメラの視点からの情報を活用してRLの性能を向上させることができる。
しかし、ハードウェアの制約により、現実のデプロイメントにおける複数のカメラの可用性が制限される可能性がある。
さらに、訓練中に使用した全てのカメラへのアクセスを防止するために、現実世界でカメラが損傷する可能性がある。
ハードウェアの制約を克服するために,複数のカメラを用いて,トレーニングセットから任意のカメラに対してゼロショットの一般化を実現するポリシーを学習するマルチビュー・ディスタングルメント(MVD)を提案する。
提案手法は、複数のカメラから不整合表現を学習するRLの自己教師型補助タスクであり、全カメラにまたがって一台のカメラへの一般化を可能にする共有表現と、カメラ固有のプライベート表現とを有する。
実験では,1台の第三者カメラで訓練したRLエージェントが,多数の制御タスクにおいて最適なポリシーを学習できないことを示すが,トレーニング中の複数のカメラの恩恵を受けながら,同一の第三者カメラのみを用いてタスクを解くことができる。
The performance of image-based Reinforcement Learning (RL) agents can vary depending on the position of the camera used to capture the images. Training on multiple cameras simultaneously, including a first-person egocentric camera, can leverage information from different camera perspectives to improve the performance of RL. However, hardware constraints may limit the availability of multiple cameras in real-world deployment. Additionally, cameras may become damaged in the real-world preventing access to all cameras that were used during training. To overcome these hardware constraints, we propose Multi-View Disentanglement (MVD), which uses multiple cameras to learn a policy that achieves zero-shot generalisation to any single camera from the training set. Our approach is a self-supervised auxiliary task for RL that learns a disentangled representation from multiple cameras, with a shared representation that is aligned across all cameras to allow generalisation to a single camera, and a private representation that is camera-specific. We show experimentally that an RL agent trained on a single third-person camera is unable to learn an optimal policy in many control tasks; but, our approach, benefiting from multiple cameras during training, is able to solve the task using only the same single third-person camera. | 翻訳日:2024-04-23 14:16:24 公開日:2024-04-22 |
# SHE-Net: 構文階層強化テキストビデオ検索
SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval ( http://arxiv.org/abs/2404.14066v1 ) ライセンス: Link先を確認 | Xuzheng Yu, Chen Jiang, Xingning Dong, Tian Gan, Ming Yang, Qingpei Guo, | (参考訳) 近年、ショートビデオアプリのユーザーベースは前例のない成長を遂げており、ビデオコンテンツ分析の需要が著しく高まっている。
特に、巨大なビデオコーパスからテキスト記述を与えられたトップマッチングビデオを見つけることを目的としたテキストビデオ検索は、重要な機能であり、その主な課題はモダリティギャップを埋めることである。
しかし、既存のほとんどのアプローチは、テキストを単に離散トークンとして扱い、構文構造を無視している。
さらに、ビデオの空間的および時間的手がかりは、テキストとの相互作用が欠如しているため、しばしば利用されない。
これらの課題に対処するために、ビデオ内の関連時間的フレームや空間的領域に焦点を合わせるためのガイダンスとしてテキストを使うことが有用である、と論じる。
本稿では,2つの視点からモダリティギャップを埋めるために,テキストの固有の意味的階層と構文的階層を利用する,SHE-Net(Syntax-Hierarchy-Enhanced Text-Video Search)を提案する。
まず、よりきめ細かい視覚コンテンツの統合を容易にするために、テキスト記述の文法構造を明らかにするテキスト構文階層を用いて、視覚表現のガイドを行う。
第2に、マルチモーダルな相互作用とアライメントをさらに強化するために、構文階層を利用して類似性計算を導出する。
MSR-VTT, MSVD, DiDeMo, ActivityNetの4つの公開テキストビデオ検索データセットについて検討した。
実験結果とアブレーション実験により,提案手法の利点が確認された。
The user base of short video apps has experienced unprecedented growth in recent years, resulting in a significant demand for video content analysis. In particular, text-video retrieval, which aims to find the top matching videos given text descriptions from a vast video corpus, is an essential function, the primary challenge of which is to bridge the modality gap. Nevertheless, most existing approaches treat texts merely as discrete tokens and neglect their syntax structures. Moreover, the abundant spatial and temporal clues in videos are often underutilized due to the lack of interaction with text. To address these issues, we argue that using texts as guidance to focus on relevant temporal frames and spatial regions within videos is beneficial. In this paper, we propose a novel Syntax-Hierarchy-Enhanced text-video retrieval method (SHE-Net) that exploits the inherent semantic and syntax hierarchy of texts to bridge the modality gap from two perspectives. First, to facilitate a more fine-grained integration of visual content, we employ the text syntax hierarchy, which reveals the grammatical structure of text descriptions, to guide the visual representations. Second, to further enhance the multi-modal interaction and alignment, we also utilize the syntax hierarchy to guide the similarity calculation. We evaluated our method on four public text-video retrieval datasets of MSR-VTT, MSVD, DiDeMo, and ActivityNet. The experimental results and ablation studies confirm the advantages of our proposed method. | 翻訳日:2024-04-23 14:16:24 公開日:2024-04-22 |
# 多体系の量子マスター方程式:リーブ・ロビンソン境界に基づく導出
Quantum master equation for many-body systems: Derivation based on the Lieb-Robinson bound ( http://arxiv.org/abs/2404.14067v1 ) ライセンス: Link先を確認 | Koki Shiraishi, Masaya Nakagawa, Takashi Mori, Masahito Ueda, | (参考訳) 局所ゴリニ-コサコフスキー-スダルシャン-リンドブラッド量子マスター方程式(GKSL)は、オープン量子多体系の研究のための強力なツールである。
しかし、多体系に適用可能な微視的導出は、弱い内部カップリングの限られた場合にのみ利用可能であり、局所的なGKSL方程式が有効であるような微視的条件下では、完全には理解されていない。
量子多体系における情報の伝播の上限を与えるリーブ-ロビンソン境界に基づいて局所GKSL方程式を導出する。
一次元強結合フェルミオン鎖に対する導出局所GKSL方程式の有効性を数値的に検証する。
The local Gorini-Kossakowski-Sudarshan-Lindblad (GKSL) quantum master equation is a powerful tool for the study of open quantum many-body systems. However, its microscopic derivation applicable to many-body systems is available only in limited cases of weak internal couplings, and it has yet to be fully understood under what microscopic conditions the local GKSL equation is valid. We derive the local GKSL equation on the basis of the Lieb-Robinson bound, which provides an upper bound of the propagation of information in quantum many-body systems. We numerically test the validity of the derived local GKSL equation for a one-dimensional tight-binding fermion chain. | 翻訳日:2024-04-23 14:16:23 公開日:2024-04-22 |
# 高度なAIモデルの安全性と責任評価
Holistic Safety and Responsibility Evaluations of Advanced AI Models ( http://arxiv.org/abs/2404.14068v1 ) ライセンス: Link先を確認 | Laura Weidinger, Joslyn Barnhart, Jenny Brennan, Christina Butterfield, Susie Young, Will Hawkins, Lisa Anne Hendricks, Ramona Comanescu, Oscar Chang, Mikel Rodriguez, Jennifer Beroshi, Dawn Bloxwich, Lev Proleev, Jilin Chen, Sebastian Farquhar, Lewis Ho, Iason Gabriel, Allan Dafoe, William Isaac, | (参考訳) 高度なAIモデルの安全性と責任評価は、研究と実践の重要な分野である。
Google DeepMindの高度なAIモデルの開発において、安全評価に幅広いアプローチを革新し、適用しました。
このレポートでは、進化するアプローチの要素を要約し、共有し、幅広い聴衆に学んだ教訓を共有します。
まず、理論的な基盤とフレームワークは、リスクドメイン、モダリティ、フォーム、メトリクス、目標の幅を整理するのに貴重なものです。
第2に、安全評価開発の理論と実践は、それぞれが目標、方法、課題を明確にし、異なる利害関係者と規律間の洞察の伝達を促進するために、協力から恩恵を受ける。
第3に、同様の重要な方法、レッスン、機関は、確立と新興の害を含む、責任と安全に関するさまざまな関心事に適用される。
このため、安全評価と安全研究のコミュニティに携わる幅広いアクターが協力して、サイロでの運用よりも、新しい評価アプローチやベストプラクティスを開発し、洗練し、実践することが重要である。
報告書は、評価の科学を迅速に発展させ、AIの開発とガバナンスに新たな評価を統合すること、科学的な基準と標準を確立すること、堅牢な評価エコシステムを促進することの必要性を明確にまとめて締めくくっている。
Safety and responsibility evaluations of advanced AI models are a critical but developing field of research and practice. In the development of Google DeepMind's advanced AI models, we innovated on and applied a broad set of approaches to safety evaluation. In this report, we summarise and share elements of our evolving approach as well as lessons learned for a broad audience. Key lessons learned include: First, theoretical underpinnings and frameworks are invaluable to organise the breadth of risk domains, modalities, forms, metrics, and goals. Second, theory and practice of safety evaluation development each benefit from collaboration to clarify goals, methods and challenges, and facilitate the transfer of insights between different stakeholders and disciplines. Third, similar key methods, lessons, and institutions apply across the range of concerns in responsibility and safety - including established and emerging harms. For this reason it is important that a wide range of actors working on safety evaluation and safety research communities work together to develop, refine and implement novel evaluation approaches and best practices, rather than operating in silos. The report concludes with outlining the clear need to rapidly advance the science of evaluations, to integrate new evaluations into the development and governance of AI, to establish scientifically-grounded norms and standards, and to promote a robust evaluation ecosystem. | 翻訳日:2024-04-23 14:16:23 公開日:2024-04-22 |
# 一般の倫理規範:人間ロボット心理学における倫理的考察
No General Code of Ethics for All: Ethical Considerations in Human-bot Psycho-counseling ( http://arxiv.org/abs/2404.14070v1 ) ライセンス: Link先を確認 | Lizhi Ma, Tong Zhao, Huachuan Qiu, Zhenzhong Lan, | (参考訳) AIアプリケーションの普及は、私たちの日常的な決定にますます影響を与えています。
しかし、AIに関連する倫理的課題は、従来の倫理と単一分野のアプローチを超越している。
本稿では,AIを活用したメンタルヘルスサービスが絶えず出現している時代に,人間ロボットの心理カウンセリングに特化した実証的倫理原則を提案する。
EVA2.0, GPT-3.5, GPT-4.0の反応を心理カウンセリングと精神健康調査の文脈で検討した。
本分析では, リスクアセスメント, 緊急サービスへの関与, 人的専門家への紹介など) と危機介入戦略(リスクアセスメント, 緊急サービスへの関与, 人的専門家への参照)に焦点をあてた。
その結果,大規模言語モデル (LLM) の発展に伴い, 規則的倫理規範の遵守が進んでいるものの, 危機状況に対処するモデルの能力は更なる改善が必要であることが示唆された。
さらに、生成した応答の言語的品質を評価し、誤解を招く応答がモデルによってまだ生成されていることを発見した。
さらに、LLMが個人のサイコ・カウンセリング・セッティングにおけるイントロスペクションを奨励する能力は未発達のままである。
The pervasive use of AI applications is increasingly influencing our everyday decisions. However, the ethical challenges associated with AI transcend conventional ethics and single-discipline approaches. In this paper, we propose aspirational ethical principles specifically tailored for human-bot psycho-counseling during an era when AI-powered mental health services are continually emerging. We examined the responses generated by EVA2.0, GPT-3.5, and GPT-4.0 in the context of psycho-counseling and mental health inquiries. Our analysis focused on standard psycho-counseling ethical codes (respect for autonomy, non-maleficence, beneficence, justice, and responsibility) as well as crisis intervention strategies (risk assessment, involvement of emergency services, and referral to human professionals). The results indicate that although there has been progress in adhering to regular ethical codes as large language models (LLMs) evolve, the models' capabilities in handling crisis situations need further improvement. Additionally, we assessed the linguistic quality of the generated responses and found that misleading responses are still produced by the models. Furthermore, the ability of LLMs to encourage individuals to introspect in the psycho-counseling setting remains underdeveloped. | 翻訳日:2024-04-23 14:16:23 公開日:2024-04-22 |
# ロバスト軌道表現に向けて:因果学習による環境共創者を孤立させる
Towards Robust Trajectory Representations: Isolating Environmental Confounders with Causal Learning ( http://arxiv.org/abs/2404.14073v1 ) ライセンス: Link先を確認 | Kang Luo, Yuanshao Zhu, Wei Chen, Kun Wang, Zhengyang Zhou, Sijie Ruan, Yuxuan Liang, | (参考訳) 軌道モデリング(英: Trajectory modeling)とは、移動パターンを理解するための重要なステップとして機能する人間の動きを特徴づけることである。
それにもかかわらず、既存の研究は地理空間的文脈の相反する効果を無視し、急激な相関と限定的な一般化能力の獲得につながった。
このギャップを埋めるために、まず最初に構造因果モデル(SCM)を定式化し、因果的観点から軌道表現学習過程を解読する。
さらに,SCMを基盤として,後方調整理論を介入ツールとして活用し,空間的文脈と軌跡間の素早い相関を解消するトラジェクトリ・モデリング・フレームワーク(TrajCL)を提案する。
2つの実世界のデータセットに対する大規模な実験により、TrajCLはより優れた一般化と解釈可能性を示しながら、軌跡分類タスクのパフォーマンスを著しく向上することを確認した。
Trajectory modeling refers to characterizing human movement behavior, serving as a pivotal step in understanding mobility patterns. Nevertheless, existing studies typically ignore the confounding effects of geospatial context, leading to the acquisition of spurious correlations and limited generalization capabilities. To bridge this gap, we initially formulate a Structural Causal Model (SCM) to decipher the trajectory representation learning process from a causal perspective. Building upon the SCM, we further present a Trajectory modeling framework (TrajCL) based on Causal Learning, which leverages the backdoor adjustment theory as an intervention tool to eliminate the spurious correlations between geospatial context and trajectories. Extensive experiments on two real-world datasets verify that TrajCL markedly enhances performance in trajectory classification tasks while showcasing superior generalization and interpretability. | 翻訳日:2024-04-23 14:16:23 公開日:2024-04-22 |
# EthereumにおけるNFTに基づくプロキシ・ステーク・アカウントの実現に向けて
Towards Proxy Staking Accounts Based on NFTs in Ethereum ( http://arxiv.org/abs/2404.14074v1 ) ライセンス: Link先を確認 | Viktor Valaštín, Roman Bitarovský, Kristián Košťál, Ivan Kotuliak, | (参考訳) ブロックチェーンはデータと資産を共有するのによく使われる技術です。
しかし、分散化されたエコシステムでは、ブロックチェーンベースのシステムは、単一責任、例えばマルチシグウォレットに関連する従来の障壁なしに、情報と資産を共有するために利用することができる。
本稿では,NFTAA(Non-fungible token)に基づくブロックチェーンネットワークに対する革新的なアプローチについて述べる。
この記事では、NFTAAを使用して、NFTのユニークな特性を活用して、オーナーシップをよりよく管理し、効果的に分離して、セキュリティ、透明性、さらには相互運用性の可能性を改善します。
さらに、アカウントベースのソリューションは、ステイキングや液状株式といった通常のユースケースをカバーする能力と柔軟性を提供するだけでなく、実用的な構成性も提供します。
この記事では、開発者と研究者が、あらゆるユースケースにおいて抽象表現を必要とするときに、ニーズに対して最適なソリューションを選択できるように、シンプルな実装を提供します。
Blockchain is a technology that is often used to share data and assets. However, in the decentralized ecosystem, blockchain-based systems can be utilized to share information and assets without the traditional barriers associated with solo responsibility, e.g., multi-sig wallets. This paper describes an innovative approach to blockchain networks based on a non-fungible token that behaves as an account (NFTAA). The key novelty of this article is using NFTAA to leverage the unique properties of NFTs to manage your ownership better and effectively isolate them to improve the security, transparency, and even interoperability possibilities. Additionally, the account-based solution gives us the ability and flexibility to cover regular use cases such as staking and liquid equities, but also practical composability. This article offers a simple implementation, which allows developers and researchers to choose the best solution for their needs in demand of abstract representation in any use case. | 翻訳日:2024-04-23 14:16:23 公開日:2024-04-22 |
# 条件付きモデルに対するソフトターゲットによるノイズコントラスト推定
Noise contrastive estimation with soft targets for conditional models ( http://arxiv.org/abs/2404.14076v1 ) ライセンス: Link先を確認 | Johannes Hugger, Virginie Uhlmann, | (参考訳) ソフトターゲットとクロスエントロピー損失を組み合わせることで、教師付き分類タスクにおけるディープニューラルネットワークの一般化性能を向上させることが示されている。
しかし、標準的なクロスエントロピー損失はデータが分類的に分散されることを前提としており、実際にはそうではないことが多い。
対照的にInfoNCEはそのような明示的な仮定に頼るのではなく、負のサンプリングによって真条件を暗黙的に推定する。
残念ながら、標準的な定式化ではソフトターゲットと組み合わせることはできないため、高度なトレーニング戦略と組み合わせることを妨げる。
本稿では,確率的目標に適合する原理的損失関数を提案することによって,この制限に対処する。
我々の新しいソフトターゲットInfoNCE損失は概念的にはシンプルで、計算に効率的であり、ノイズコントラスト推定の枠組みの中で導出することができる。
おもちゃの例を用いて,クロスエントロピーのカテゴリー分布仮定の欠点を示し,ソフト分布からのサンプリングがもたらす影響について議論する。
ソフトターゲットInfoNCEは、強力なソフトターゲットクロスエントロピーベースラインと同等に動作し、ImageNetを含む人気のあるベンチマークにおいて、ハードターゲットNLLとInfoNCEの損失を上回ります。
最後に、教師付き分類を指向し、クロスエントロピーで訓練された深層分類モデルと完全に互換性のある、損失の簡単な実装を提供する。
Soft targets combined with the cross-entropy loss have shown to improve generalization performance of deep neural networks on supervised classification tasks. The standard cross-entropy loss however assumes data to be categorically distributed, which may often not be the case in practice. In contrast, InfoNCE does not rely on such an explicit assumption but instead implicitly estimates the true conditional through negative sampling. Unfortunately, it cannot be combined with soft targets in its standard formulation, hindering its use in combination with sophisticated training strategies. In this paper, we address this limitation by proposing a principled loss function that is compatible with probabilistic targets. Our new soft target InfoNCE loss is conceptually simple, efficient to compute, and can be derived within the framework of noise contrastive estimation. Using a toy example, we demonstrate shortcomings of the categorical distribution assumption of cross-entropy, and discuss implications of sampling from soft distributions. We observe that soft target InfoNCE performs on par with strong soft target cross-entropy baselines and outperforms hard target NLL and InfoNCE losses on popular benchmarks, including ImageNet. Finally, we provide a simple implementation of our loss, geared towards supervised classification and fully compatible with deep classification model trained with cross-entropy. | 翻訳日:2024-04-23 14:16:23 公開日:2024-04-22 |
# 強化学習に基づくロボット経路計画に関する研究
Research on Robot Path Planning Based on Reinforcement Learning ( http://arxiv.org/abs/2404.14077v1 ) ライセンス: Link先を確認 | Wang Ruiqi, | (参考訳) 本研究は,視覚SLAMに基づくロボット経路計画に関する研究である。
このプロジェクトの主な成果は,(1) Visual SLAM システムの構築である。
Visual SLAMの基本的なアーキテクチャについて研究が進められている。
ORB-SLAM3システムに基づいて,高密度点雲マッピングを行うビジュアルSLAMシステムを開発した。
2)2次元経路計画に適した地図は,地図変換により得られる。
この部分は、Visual SLAMシステムによって得られた高密度点クラウドマップをオクトマップに変換し、グリッドマップへのプロジェクション変換を実行する。
地図変換は、大量の冗長マップ情報を含む高密度点クラウドマップを、経路計画に適した極めて軽量なグリッドマップに変換する。
(3)強化学習に基づく経路計画アルゴリズムに関する研究
本研究は、Q-learningアルゴリズム、DQNアルゴリズム、SARSAアルゴリズムの実験的比較を行い、DQNは高次元複素環境において最も高速な収束と最高の性能を持つアルゴリズムであることを示した。
本研究は,シミュレーション環境における視覚SLAMシステムの実験的検証を行った。
オープンソースデータセットと自己生成データセットに基づいて得られた実験結果は、設計したVisual SLAMシステムの有効性と有効性を証明する。
同時に,同実験条件下での3つの強化学習アルゴリズムの比較実験を行い,実験条件下での最適アルゴリズムについて検討した。
This project has conducted research on robot path planning based on Visual SLAM. The main work of this project is as follows: (1) Construction of Visual SLAM system. Research has been conducted on the basic architecture of Visual SLAM. A Visual SLAM system is developed based on ORB-SLAM3 system, which can conduct dense point cloud mapping. (2) The map suitable for two-dimensional path planning is obtained through map conversion. This part converts the dense point cloud map obtained by Visual SLAM system into an octomap and then performs projection transformation to the grid map. The map conversion converts the dense point cloud map containing a large amount of redundant map information into an extremely lightweight grid map suitable for path planning. (3) Research on path planning algorithm based on reinforcement learning. This project has conducted experimental comparisons between the Q-learning algorithm, the DQN algorithm, and the SARSA algorithm, and found that DQN is the algorithm with the fastest convergence and best performance in high-dimensional complex environments. This project has conducted experimental verification of the Visual SLAM system in a simulation environment. The experimental results obtained based on open-source dataset and self-made dataset prove the feasibility and effectiveness of the designed Visual SLAM system. At the same time, this project has also conducted comparative experiments on the three reinforcement learning algorithms under the same experimental condition to obtain the optimal algorithm under the experimental condition. | 翻訳日:2024-04-23 14:16:23 公開日:2024-04-22 |
# 弱いサブシステム間相互作用を持つ境界駆動系の非断熱的進化と熱力学
Nonadiabatic evolution and thermodynamics for a boundary-driven system with a weak intrasubsystem interaction ( http://arxiv.org/abs/2404.14081v1 ) ライセンス: Link先を確認 | Chao Jiang, Lei Shao, | (参考訳) サブシステムが互いに弱い相互作用をし、熱貯水池に局所的に接続する外部駆動系の時間依存マスター方程式を導出する。
ここで得られる非断熱方程式は局所マスター方程式の一般化と見なすことができ、境界駆動系の力学を記述するために既に広く使われている。
さらに,局所的および非断熱的マスター方程式によって生じる熱力学的不整合の根底にある基礎的理由について検討する。
この2つの方程式は、系が定常状態から遠く離れているときの熱力学の第二の法則と一致し、定常状態における矛盾を生じさせる。
最後に,2つのキュービットと2つの局所熱浴からなる玩具モデルについて検討し,その結果を数値的に検討した。
We derive a time-dependent master equation for an externally driven system whose subsystems weakly interact with each other and locally connect to the thermal reservoirs. The nonadiabatic equation obtained here can be viewed as a generalization of the local master equation, which has already been extensively used in describing the dynamics of a boundary-driven system. In addition, we investigate the fundamental reason underlying the thermodynamic inconsistency generated by the local and nonadiabatic master equations. We fnd that these two equations are consistent with the second law of thermodynamics when the system is far away from the steady state, while they give rise to the contradiction at the steady state. Finally, we numerically confrm our results by considering a toy model consisting of two qubits and two local heat baths. | 翻訳日:2024-04-23 14:16:23 公開日:2024-04-22 |
# AI安全のための機械的解釈可能性 - レビュー
Mechanistic Interpretability for AI Safety -- A Review ( http://arxiv.org/abs/2404.14082v1 ) ライセンス: Link先を確認 | Leonard Bereska, Efstratios Gavves, | (参考訳) AIシステムの内部動作を理解することは、価値の整合性と安全性を保証する上で重要である。
ニューラルネットワークが学習した計算機構と表現を、人間の理解可能なアルゴリズムや概念にリバースエンジニアリングして、きめ細かい因果的理解を提供する。
ニューラルアクティベーション内の知識を符号化する機能や,その表現と計算に関する仮説などの基礎概念を確立する。
本稿では,モデル行動の因果分解手法を調査し,機械的解釈可能性とAI安全性との関連性を評価する。
スケーラビリティ、自動化、包括的な解釈に関わる課題について検討する。
我々は、複雑なモデルや振る舞いを処理し、視覚や強化学習のような領域に拡張するための概念、標準の設定、スケーリング技術を明確にすることを提唱する。
機械的解釈性は、AIシステムがより強力で精査されるにつれて、破滅的な結果を防ぐのに役立つ。
Understanding AI systems' inner workings is critical for ensuring value alignment and safety. This review explores mechanistic interpretability: reverse-engineering the computational mechanisms and representations learned by neural networks into human-understandable algorithms and concepts to provide a granular, causal understanding. We establish foundational concepts such as features encoding knowledge within neural activations and hypotheses about their representation and computation. We survey methodologies for causally dissecting model behaviors and assess the relevance of mechanistic interpretability to AI safety. We investigate challenges surrounding scalability, automation, and comprehensive interpretation. We advocate for clarifying concepts, setting standards, and scaling techniques to handle complex models and behaviors and expand to domains such as vision and reinforcement learning. Mechanistic interpretability could help prevent catastrophic outcomes as AI systems become more powerful and inscrutable. | 翻訳日:2024-04-23 14:16:23 公開日:2024-04-22 |
# ダイヤモンドマイクロシスト内におけるNVアンサンブルを用いたオンチップ磁界バイアスを用いたマイクロスケールファイバ集積ベクトル磁力計
Microscale Fiber-Integrated Vector Magnetometer with On-Tip Field Biasing using NV Ensembles in Diamond Microcystals ( http://arxiv.org/abs/2404.14089v1 ) ライセンス: Link先を確認 | Jonas Homrighausen, Frederik Hoffmann, Jens Pogorzelski, Peter Glösekötter, Markus Gregor, | (参考訳) 磁場の量子センシングにおいて、ダイヤモンド中のNV中心のアンサンブルは、厳しい環境で動作しながら高い感度、高い帯域幅、空間分解能を提供する。
さらに、4つの結晶軸に沿った欠陥中心の配向は固有の座標系を形成し、単一のダイヤモンド結晶内のベクトル磁気学を可能にする。
多くのベクトル磁気センサは3次元の磁場情報の完全な回復のために既知のバイアス磁場に依存しているが、外部の3次元ヘルムホルツコイルや永久磁石を用いることで、装置の小型化を妨げている。
ここでは、ファイバー積分マイクロスケールコイルを繊維先端に利用し、局所化された一軸磁場を生成する新しいアプローチを提案する。
同じファイバチップコイルは、バイアスティー内の直流信号とマイクロ波信号を組み合わせることでスピン制御に並列に使用される。
一軸バイアス場を用いたベクトル磁気メトリーを実装するために、ダイヤモンド結晶の配向を事前に選択し、3つの回転平面で静的磁場を回転させることにより、それを完全に特徴づける。
フルソリッド角度におけるベクトル磁界の測定を、19.4\:\textrm{nT/Hz}^{1/2}$とマイクロスケール空間分解能で行うとともに、ファイバーセンサヘッドの断面を1\:\textrm{mm}^2.$以下にする。
In quantum sensing of magnetic fields, ensembles of NV centers in diamond offer high sensitivity, high bandwidth and outstanding spatial resolution while operating in harsh environments. Moreover, the orientation of defect centers along four crystal axes forms an intrinsic coordinate system, enabling vector magnetometry within a single diamond crystal. While most vector magnetometers rely on a known bias magnetic field for full recovery of three-dimensional field information, employing external 3D Helmholtz coils or permanent magnets results in bulky, laboratory-bound setups, impeding miniaturization of the device. Here, a novel approach is presented that utilizes a fiber-integrated microscale coil at the fiber tip to generate a localized uniaxial magnetic field. The same fiber-tip coil is used in parallel for spin control by combining DC and microwave signals in a bias tee. To implement vector magnetometry using a uniaxial bias field, we preselect the orientation of the diamond crystal and then fully characterize it by rotating a static magnetic field in three planes of rotation. We demonstrate the measurement of vector magnetic fields in the full solid angle with a shot-noise limited sensitivity of $19.4\:\textrm{nT/Hz}^{1/2}$ and microscale spatial resolution while achieving a cross section of the fiber sensor head below $1\:\textrm{mm}^2.$ | 翻訳日:2024-04-23 14:16:23 公開日:2024-04-22 |
# 量子情報によると、軌道上の相関は自然軌道において本質的に古典的である
Quantum Information reveals that orbital-wise correlation is essentially classical in Natural Orbitals ( http://arxiv.org/abs/2404.14093v1 ) ライセンス: Link先を確認 | Davide Materia, Leonardo Ratini, Celestino Angeli, Leonardo Guidoni, | (参考訳) 量子化学と量子コンピューティングの交わりは、分子エネルギーの効率的な計算に量子デバイスを使用する可能性を理解する上で大きな進歩をもたらした。
同時に、この交差点は量子コンピューティングと量子情報ツールを用いて量子化学特性の理解を深めている。
この論文は、この関係において重要な問題に取り組む: 現実的原始型の場合や量子の場合の波動関数における軌道方向の電子相関の性質は、古典的か量子的か?
我々は、古典的および量子情報理論とともに、シャノンとフォン・ノイマンのエントロピーを用いた分子波動関数の包括的検討を行った。
本研究では,分子系における古典的相互情報と量子的相互情報との相違をHartree-Fock標準軌道を用いて解析した。
しかし、この差は、天然軌道が参照として使用される場合、約100倍に劇的に減少する。
この発見は、適切な軌道基底を通して見れば、波動関数の相関は主に古典的であることを示唆している。
この知見は、量子化学における計算タスクが自然軌道を用いることで大幅に単純化されることを示している。
そこで本研究では,分子波動関数の相関を正確に評価し,過大評価を避けるために,自然軌道を用いたことの重要性を強調した。
以上の結果から, 量子化学における計算の単純化, 自然軌道の広範な採用, および, 量子化学における多体問題の実計算複雑性に関する疑問が提起された。
The intersection of Quantum Chemistry and Quantum Computing has led to significant advancements in understanding the potential of using quantum devices for the efficient calculation of molecular energies. Simultaneously, this intersection is enhancing the comprehension of quantum chemical properties through the use of quantum computing and quantum information tools. This paper tackles a key question in this relationship: Is the nature of the orbital-wise electron correlations in wavefunctions of realistic prototypical cases classical or quantum? We delve into this inquiry with a comprehensive examination of molecular wavefunctions using Shannon and von Neumann entropies, alongside classical and quantum information theory. Our analysis reveals a notable distinction between classical and quantum mutual information in molecular systems when analyzed with Hartree-Fock canonical orbitals. However, this difference decreases dramatically, by approximately 100-fold, when Natural Orbitals are used as reference. This finding suggests that wavefunction correlations, when viewed through the appropriate orbital basis, are predominantly classical. This insight indicates that computational tasks in quantum chemistry could be significantly simplified by employing Natural Orbitals. Consequently, our study underscores the importance of using Natural Orbitals to accurately assess molecular wavefunction correlations and to avoid their overestimation. In summary, our results suggest a promising path for computational simplification in quantum chemistry, advocating for the wider adoption of Natural Orbitals and raising questions about the actual computational complexity of the multi-body problem in quantum chemistry. | 翻訳日:2024-04-23 14:06:38 公開日:2024-04-22 |
# MMT: モデル変換によるJavaバイトコードの変異テスト -- 図示的なデモ
MMT: Mutation Testing of Java Bytecode with Model Transformation -- An Illustrative Demonstration ( http://arxiv.org/abs/2404.14097v1 ) ライセンス: Link先を確認 | Christoph Bockisch, Gabriele Taentzer, Daniel Neufeld, | (参考訳) ミューテーションテストは、テストスイートの堅牢性をチェックするアプローチである。
プログラムコードは、エラーを注入する突然変異によってわずかに変更される。
このようなエラーが見つかると、テストスイートは十分に堅牢になります。
突然変異テストツールは通常、算術演算子を交換するなど、突然変異演算子のセットを統合する。
この場合、突然変異は変更されたプログラムをロードして実行できるように定義されなければならない。
突然変異検査の結果は、起こりうる突然変異に直接依存する。
より高度な突然変異やドメイン固有の突然変異さえも、テストスイートに別の課題を引き起こす可能性がある。
従来のアプローチをより複雑な突然変異に拡張することは十分にサポートされておらず、困難であるため、モデル変換によってJavaバイトコードの突然変異を柔軟に定義できるモデル駆動アプローチを提案する。
MMTと呼ばれるツールは、オブジェクト指向構造、Java固有のプロパティ、APIのメソッド呼び出しを変更するための高度な突然変異演算子によって拡張され、このような突然変異をサポートするJavaバイトコードのための唯一の突然変異テストツールとなった。
Mutation testing is an approach to check the robustness of test suites. The program code is slightly changed by mutations to inject errors. A test suite is robust enough if it finds such errors. Tools for mutation testing usually integrate sets of mutation operators such as, for example, swapping arithmetic operators; modern tools typically work with compiled code such as Java bytecode. In this case, the mutations must be defined in such a way that the mutated program still can be loaded and executed. The results of mutation tests depend directly on the possible mutations. More advanced mutations and even domain-specific mutations can pose another challenge to the test suite. Since extending the classical approaches to more complex mutations is not well supported and is difficult, we propose a model-driven approach where mutations of Java bytecode can be flexibly defined by model transformation. The corresponding tool called MMT has been extended with advanced mutation operators for modifying object-oriented structures, Java-specific properties and method calls of APIs, making it the only mutation testing tool for Java bytecode that supports such mutations. | 翻訳日:2024-04-23 14:06:38 公開日:2024-04-22 |
# DynaMMo: 医用画像のための効率的な授業増分学習のための動的モデルマージ
DynaMMo: Dynamic Model Merging for Efficient Class Incremental Learning for Medical Images ( http://arxiv.org/abs/2404.14099v1 ) ライセンス: Link先を確認 | Mohammad Areeb Qazi, Ibrahim Almakky, Anees Ur Rehman Hashmi, Santosh Sanjeev, Mohammad Yaqub, | (参考訳) 継続学習は、学習した情報を保持しながら新しいデータから知識を得る能力であり、機械学習における根本的な課題である。
メモリリプレイ、知識蒸留、モデル正規化、動的ネットワーク拡張など、様々な手法が提案されている。
これまでのところ、動的ネットワーク拡張法は、計算オーバーヘッドを著しく増大させるコストで最先端の性能を実現している。
これは、追加のモデルバッファが必要であるためであり、特に医療領域において、リソース制約のある設定では実現不可能である。
この課題を克服するために、モデルトレーニングの異なる段階で複数のネットワークをマージし、より優れた計算効率を実現する方法であるDynamic Model Merging, DynaMMoを提案する。
具体的には、各タスクに軽量な学習可能なモジュールを使用し、計算オーバーヘッドを最小限に抑えるためにそれらを統一モデルに組み合わせる。
DynaMMoはパフォーマンスを損なうことなくこれを実現し、医療応用における継続的な学習のためのコスト効率の高いソリューションを提供する。
我々はDynaMMoを3つの公開データセット上で評価し、既存のアプローチと比較してその効果を実証した。
DynaMMoは、最先端の動的アプローチと比較して、GFLOPSを約10倍削減し、平均精度は2.76滴である。
この作業のコード実装は、https://github.com/BioMedIA-MBZUAI/DynaMMo.comでこの作業が受け入れられる。
Continual learning, the ability to acquire knowledge from new data while retaining previously learned information, is a fundamental challenge in machine learning. Various approaches, including memory replay, knowledge distillation, model regularization, and dynamic network expansion, have been proposed to address this issue. Thus far, dynamic network expansion methods have achieved state-of-the-art performance at the cost of incurring significant computational overhead. This is due to the need for additional model buffers, which makes it less feasible in resource-constrained settings, particularly in the medical domain. To overcome this challenge, we propose Dynamic Model Merging, DynaMMo, a method that merges multiple networks at different stages of model training to achieve better computational efficiency. Specifically, we employ lightweight learnable modules for each task and combine them into a unified model to minimize computational overhead. DynaMMo achieves this without compromising performance, offering a cost-effective solution for continual learning in medical applications. We evaluate DynaMMo on three publicly available datasets, demonstrating its effectiveness compared to existing approaches. DynaMMo offers around 10-fold reduction in GFLOPS with a small drop of 2.76 in average accuracy when compared to state-of-the-art dynamic-based approaches. The code implementation of this work will be available upon the acceptance of this work at https://github.com/BioMedIA-MBZUAI/DynaMMo. | 翻訳日:2024-04-23 14:06:38 公開日:2024-04-22 |
# 量子インスピレーションアルゴリズムによる効率的な分子配座生成
Efficient molecular conformation generation with quantum-inspired algorithm ( http://arxiv.org/abs/2404.14101v1 ) ライセンス: Link先を確認 | Yunting Li, Xiaopeng Cui, Zhaoping Xiong, Zuoheng Zou, Bowen Liu, Bi-Ying Wang, Runqiu Shu, Huangjun Zhu, Nan Qiao, Man-Hong Yung, | (参考訳) コンフォーメーション生成(コンフォーメーションジェネレーション、英: Conformation generation)または分子展開(英: molecular openfolding、MU)は、構造に基づく薬物設計において重要なステップであり、組合せ最適化の問題が残る。
量子アニール (QA) は、シミュレーションアニール (SA) のような従来の手法よりも、ある種の組合せ最適化問題を解く大きな可能性を示している。
しかし、最近の研究では、2000量子ビットのQAハードウェアは、MU問題でSAを上回りきれないことが示されている。
本稿では、従来のSAを超えるために、MU問題を解決するために量子インスパイアされたアルゴリズムを提案する。
本稿では,従来の1ホット符号化法と比較して指数関数的に表現空間を削減できる高コンパクト位相符号化法を提案する。
ベンチマークでは、密度汎関数理論(DFT)によって生成された公開QM9データセットに対して、この新しいアプローチを検証した。
我々のアプローチによって決定されたコンフォメーションとDFTの間のルート平均二乗差は(約0.5アングストロームを除いて)無視可能であり、我々のアプローチの有効性を裏付けるものである。
さらに、SAと比較して中央値の時間-目標距離を5倍に減らすことができる。
さらに、量子近似最適化アルゴリズム(QAOA)を用いて、MindQuantumによるシミュレーション実験を行い、最適な結果を得た。
これらの結果は,量子ハードウェアが成熟する以前にも,現実的な問題を解決するために量子インスパイアされたアルゴリズムが適用可能であることを示唆している。
Conformation generation, also known as molecular unfolding (MU), is a crucial step in structure-based drug design, remaining a challenging combinatorial optimization problem. Quantum annealing (QA) has shown great potential for solving certain combinatorial optimization problems over traditional classical methods such as simulated annealing (SA). However, a recent study showed that a 2000-qubit QA hardware was still unable to outperform SA for the MU problem. Here, we propose the use of quantum-inspired algorithm to solve the MU problem, in order to go beyond traditional SA. We introduce a highly-compact phase encoding method which can exponentially reduce the representation space, compared with the previous one-hot encoding method. For benchmarking, we tested this new approach on the public QM9 dataset generated by density functional theory (DFT). The root-mean-square deviation between the conformation determined by our approach and DFT is negligible (less than about 0.5 Angstrom), which underpins the validity of our approach. Furthermore, the median time-to-target metric can be reduced by a factor of five compared to SA. Additionally, we demonstrate a simulation experiment by MindQuantum using quantum approximate optimization algorithm (QAOA) to reach optimal results. These results indicate that quantum-inspired algorithms can be applied to solve practical problems even before quantum hardware become mature. | 翻訳日:2024-04-23 14:06:38 公開日:2024-04-22 |
# 熱方程式に対する動的量子アンサッツ木アプローチ
Dynamical quantum Ansatz tree approach for the heat equation ( http://arxiv.org/abs/2404.14102v1 ) ライセンス: Link先を確認 | N. M. Guseynov, W. V. Pogosov, A. V. Lebedev, | (参考訳) 量子コンピュータは数理物理学の様々な問題の解法に利用できる。
本稿では,熱方程式の離散化バージョンを検討し,その解を変分アンザット木アプローチ(ATA)を用いて量子コンピュータ上で処理する。
本手法を線形方程式系に拡張し, 実時間依存熱方程式に対処する。
私たちの方法の主な材料は
一 温度分布に熱源を加えるための特別確率量子回路
二 量子状態の準備において補助レジスタを制限すること。
(iii)アンザットツリー構造における繰り返しノードのロバストなクラスタを利用する。
我々は,時間依存熱方程式の場合の古典的アルゴリズムと比較して指数関数的な高速化が可能であることを示唆する。
Quantum computers can be used for the solution of various problems of mathematical physics. In the present paper, we consider a discretized version of the heat equation and address its solution on quantum computer using variational Anzats tree approach (ATA). We extend this method originally proposed for the system of linear equations to tackle full time dependent heat equation. The key ingredients of our method are (i) special probabilistic quantum circuit in order to add heat sources to temperature distribution, (ii) limiting auxiliary register in the preparation of quantum state, (iii) utilizing a robust cluster of repetitive nodes in the anzats tree structure. We suggest that our procedure provides an exponential speedup compared to the classical algorithms in the case of time dependent heat equation. | 翻訳日:2024-04-23 14:06:38 公開日:2024-04-22 |
# 量子技術との関わりにおけるフレームの効果
The effect of frames on engagement with quantum technology ( http://arxiv.org/abs/2404.14104v1 ) ライセンス: Link先を確認 | Aletta L. Meinsma, Casper J. Albers, Pieter Vermaas, Ionica Smeets, Julia Cramer, | (参考訳) 量子技術は、成熟すると社会に大きな影響を与えると予測されている。
この研究(n = 637人のオランダ人代表者)は、異なるフレームがエンゲージメント(特に情報探索、内部有効性、一般的な関心、認識された知識)に量子技術で与える影響を調査した。
異なるフレームは、エニグマティック、量子物理学、利益、リスク、バランスなどである。
その結果、フレーミング量子はエンゲージメントに影響を与えず、量子物理学の説明は一般の関心に肯定的な影響を及ぼすことが示された。
さらに、量子技術の利点を強調することは、参加者の内部効果を高める一方、量子技術の利点とリスクの両方を強調することは、認識される知識を減少させる。
これらの知見に基づき,研究分野における科学コミュニケーション者に対して実践的なアドバイスを行い,さらなる研究を提案する。
Quantum technology is predicted to have a significant impact on society once it matures. This study (n = 637 adults representative of the Dutch population) examined the effect of different frames on engagement - specifically, information seeking, internal efficacy, general interest and perceived knowledge - with quantum technology. The different frames were: enigmatic, explaining quantum physics, benefit, risk and balanced. Results indicated that framing quantum as enigmatic does not affect engagement, while explaining quantum physics positively influences general interest. Furthermore, emphasising a benefit of quantum technology increases participants' internal efficacy, whereas highlighting both a benefit and a risk of quantum technology decreases perceived knowledge. Based on these findings, we offer practical advice for science communicators in the field and suggest further research. | 翻訳日:2024-04-23 14:06:38 公開日:2024-04-22 |
# DPTraj-PM:プレフィックスツリーとマルコフプロセスを用いた微分プライベート軌道合成
DPTraj-PM: Differentially Private Trajectory Synthesis Using Prefix Tree and Markov Process ( http://arxiv.org/abs/2404.14106v1 ) ライセンス: Link先を確認 | Nana Wang, Mohan Kankanhalli, | (参考訳) GPS対応機器の利用の増加は、大量の軌跡データを生み出している。
これらのデータは、個人や人口の動きを理解する上で重要な洞察を与え、交通計画から疫病モデルまで幅広い応用に役立てる。
しかし、トラジェクトリデータの不適切なリリースは、個人のプライバシーに対する懸念を増している。
以前の試みでは、強力なプライバシー保証が欠如していたり、元のデータの基本的な特性を十分に保持できなかったりしていた。
本稿では,DPTraj-PMを提案する。DPTraj-PMは差分プライバシ(DP)フレームワークの下でトラジェクトリデータセットを合成する手法であり,高いデータ有効性を確保している。
DPTraj-PMは、個体の軌跡を主に最初の軌跡(出発点と初期方向を描写する)と次の位置で決定できるという仮定に基づいて、原軌跡を隣接する細胞に識別し、接頭木構造とm次マルコフ過程を組み合わせてモデル化する。
差分プライバシー下でモデルにノイズを加えた後、DPTraj-PMはノイズモデルから合成データセットを生成し、より広い範囲のデータマイニングとモデリングタスクを可能にする。
DPTraj-PMが作成した出力トレースは、個人の移動行動のパターンと変動性を保持するだけでなく、個人のプライバシーも保護している。
2つの実世界のデータセットの実験により、DPTraj-PMはデータユーティリティの観点から最先端技術よりも大幅に優れていることが示された。
私たちのコードはhttps://github.com/wnn5/DP-PrefixTreeMarkovで利用可能です。
The increasing use of GPS-enabled devices has generated a large amount of trajectory data. These data offer us vital insights to understand the movements of individuals and populations, benefiting a broad range of applications from transportation planning to epidemic modeling. However, improper release of trajectory data is increasing concerns on individual privacy. Previous attempts either lack strong privacy guarantees, or fail to preserve sufficient basic characteristics of the original data. In this paper, we propose DPTraj-PM, a method to synthesize trajectory dataset under the differential privacy (DP) framework while ensures high data utility. Based on the assumption that an individual's trajectory could be mainly determined by the initial trajectory segment (which depicts the starting point and the initial direction) and the next location point, DPTraj-PM discretizes the raw trajectories into neighboring cells, and models them by combining a prefix tree structure and an m-order Markov process. After adding noise to the model under differential privacy, DPTraj-PM generates a synthetic dataset from the noisy model to enable a wider spectrum of data mining and modeling tasks. The output traces crafted by DPTraj-PM not only preserves the patterns and variability in individuals' mobility behaviors, but also protects individual privacy. Experiments on two real-world datasets demonstrate that DPTraj-PM substantially outperforms the state-of-the-art techniques in terms of data utility. Our code is available at https://github.com/wnn5/DP-PrefixTreeMarkov. | 翻訳日:2024-04-23 14:06:38 公開日:2024-04-22 |
# 機械学習によるアルミニウムおよび銅合金のPGNAAスペクトル分類
PGNAA Spectral Classification of Aluminium and Copper Alloys with Machine Learning ( http://arxiv.org/abs/2404.14107v1 ) ライセンス: Link先を確認 | Henrik Folz, Joshua Henjes, Annika Heuer, Joscha Lahl, Philipp Olfert, Bjarne Seen, Sebastian Stabenau, Kai Krycki, Markus Lange-Hegermann, Helmand Shayan, | (参考訳) 本稿では, 銅合金とアルミニウム合金のリアルタイム分化に着目し, 金属リサイクルの最適化について検討する。
Prompt Gamma Neutron Activation Analysis (PGNAA)により得られたスペクトルデータを分類するために利用する。
この研究は2つの検出器、セリウムブロミド(CeBr$_{3}$)と高純度ゲルマニウム(HPGe)のデータを比較し、そのエネルギー分解能と感度を考慮に入れた。
各種データ生成, 事前処理, 分類手法を, 最大等式分類器 (MLC) と条件変分オートエンコーダ (CVAE) で検証し, 最適な結果を得た。
また、CeBr$_{3}$は短い測定時間に優れ、HPGeは長い測定時間に優れていた。
その結果,特定の応用要件に基づいて適切な検出器と方法論を選択することの重要性が示唆された。
In this paper, we explore the optimization of metal recycling with a focus on real-time differentiation between alloys of copper and aluminium. Spectral data, obtained through Prompt Gamma Neutron Activation Analysis (PGNAA), is utilized for classification. The study compares data from two detectors, cerium bromide (CeBr$_{3}$) and high purity germanium (HPGe), considering their energy resolution and sensitivity. We test various data generation, preprocessing, and classification methods, with Maximum Likelihood Classifier (MLC) and Conditional Variational Autoencoder (CVAE) yielding the best results. The study also highlights the impact of different detector types on classification accuracy, with CeBr$_{3}$ excelling in short measurement times and HPGe performing better in longer durations. The findings suggest the importance of selecting the appropriate detector and methodology based on specific application requirements. | 翻訳日:2024-04-23 14:06:38 公開日:2024-04-22 |
# CKD: サンプルの観点からの対照的な知識蒸留
CKD: Contrastive Knowledge Distillation from A Sample-wise Perspective ( http://arxiv.org/abs/2404.14109v1 ) ライセンス: Link先を確認 | Wencheng Zhu, Xin Zhou, Pengfei Zhu, Yu Wang, Qinghua Hu, | (参考訳) 本稿では, サンプル内およびサンプル間制約を伴うサンプルワイドアライメント問題として定式化できる, 単純かつ効果的な対照的な知識蒸留手法を提案する。
特徴の類似度を最大化したり、教師と学生の特徴のクラスワイドな意味的相関を保留する従来の知識蒸留法とは異なり、本手法はサンプルワイドの教師と学生のロジットを整列させることで「ダークナレッジ」を回復させようとする。
具体的には,本手法はまず,その数値を考慮し,サンプル内のロジット差を最小化し,サンプル内類似性を保存する。
次に、異なるサンプル間の相違を利用して意味の相違を橋渡しする。
サンプル間の類似性やサンプル間の相違性に対する制約は、新しく設計された正対と負のペアを持つ対照的な学習フレームワークに効率的かつ効果的に再構成できることに留意すべきである。
正の対は、同じサンプルから派生した教師の対と生徒の対で構成され、負の対は異なるサンプルの対を用いて形成される。
この定式化により、InfoNCEの最適化によるコントラスト学習の単純さと効率性が向上し、O(n^2)$よりはるかに少ない実行時の複雑性が得られる。
さらに,本手法は,特に温度パラメータやバッチサイズに大きな関連があるため,ハイパーパラメータチューニングの必要性を排除できる。
CIFAR-100, ImageNet-1K, MS COCOの3つのデータセットについて総合的な実験を行った。
実験により,提案手法が画像分類と物体検出の両方に有効であることを明らかにした。
ソースコードはhttps://github.com/wencheng-zhu/CKD.comで公開されます。
In this paper, we present a simple yet effective contrastive knowledge distillation approach, which can be formulated as a sample-wise alignment problem with intra- and inter-sample constraints. Unlike traditional knowledge distillation methods that concentrate on maximizing feature similarities or preserving class-wise semantic correlations between teacher and student features, our method attempts to recover the "dark knowledge" by aligning sample-wise teacher and student logits. Specifically, our method first minimizes logit differences within the same sample by considering their numerical values, thus preserving intra-sample similarities. Next, we bridge semantic disparities by leveraging dissimilarities across different samples. Note that constraints on intra-sample similarities and inter-sample dissimilarities can be efficiently and effectively reformulated into a contrastive learning framework with newly designed positive and negative pairs. The positive pair consists of the teacher's and student's logits derived from an identical sample, while the negative pairs are formed by using logits from different samples. With this formulation, our method benefits from the simplicity and efficiency of contrastive learning through the optimization of InfoNCE, yielding a run-time complexity that is far less than $O(n^2)$, where $n$ represents the total number of training samples. Furthermore, our method can eliminate the need for hyperparameter tuning, particularly related to temperature parameters and large batch sizes. We conduct comprehensive experiments on three datasets including CIFAR-100, ImageNet-1K, and MS COCO. Experimental results clearly confirm the effectiveness of the proposed method on both image classification and object detection tasks. Our source codes will be publicly available at https://github.com/wencheng-zhu/CKD. | 翻訳日:2024-04-23 14:06:38 公開日:2024-04-22 |
# 公衆衛生介入戦略のための匿名Torネットワーク上での児童性虐待資料の入手・検索・ユーザ調査
Investigating child sexual abuse material availability, searches, and users on the anonymous Tor network for a public health intervention strategy ( http://arxiv.org/abs/2404.14112v1 ) ライセンス: Link先を確認 | Juha Nurmi, Arttu Paju, Billy Bob Brumley, Tegan Insoll, Anna K. Ovaska, Valeriia Soloveva, Nina Vaaranen-Valkonen, Mikko Aaltonen, David Arroyo, | (参考訳) Torは匿名のオンラインサイトやタマネギのウェブサイトへのアクセスに広く利用されているが、残念ながらTorは違法な児童性的虐待材料(CSAM)の配布や視聴に人気がある。
2018年から2023年にかけて、私たちは176,683のタマネギドメインを分析し、その5分の1のシェアCSAMを見つけました。
CSAMは26の最もよく使われているTor検索エンジンのうち21つを使って簡単に利用することができる。
我々は、Ahmia.fi検索エンジンから110,133,715の検索セッションを分析し、11.1%がCSAMを求めていることを発見した。
年齢別では、40.5%が11歳未満、1.0%が12歳未満、8.2%が13歳未満、11.6%が14歳未満、10.9%が15歳未満、12.7%が16歳未満である。
我々は,検索エンジンの正確なフィルタリング,介入の導入,CSAMユーザに対するアンケート,11,470件の分析を行った。
CSAM利用者の65.3%が子どものころ初めてこの素材を見たが、回答者の半数は誤ってこの素材を目にし、CSAMが利用可能であることを実証した。
48.1%はCSAMの使用をやめたい。
Torで助けを求める人もいるし、セルフヘルプのウェブサイトも人気がある。
CSAM使用と中毒の共通点について調査した。
ヘルプシーキングは、視聴時間と頻度、抑うつ、不安、自傷的思考、罪悪感、恥と相関する。
しかし、援助希望者の73.9%は受け取れていない。
Tor is widely used for staying anonymous online and accessing onion websites; unfortunately, Tor is popular for distributing and viewing illicit child sexual abuse material (CSAM). From 2018 to 2023, we analyse 176,683 onion domains and find that one-fifth share CSAM. We find that CSAM is easily available using 21 out of the 26 most-used Tor search engines. We analyse 110,133,715 search sessions from the Ahmia.fi search engine and discover that 11.1% seek CSAM. When searching CSAM by age, 40.5% search for 11-year-olds and younger; 11.0% for 12-year-olds; 8.2% for 13-year-olds; 11.6% for 14-year-olds; 10.9% for 15-year-olds; and 12.7% for 16-year-olds. We demonstrate accurate filtering for search engines, introduce intervention, show a questionnaire for CSAM users, and analyse 11,470 responses. 65.3% of CSAM users first saw the material when they were children themselves, and half of the respondents first saw the material accidentally, demonstrating the availability of CSAM. 48.1% want to stop using CSAM. Some seek help through Tor, and self-help websites are popular. Our survey finds commonalities between CSAM use and addiction. Help-seeking correlates with increasing viewing duration and frequency, depression, anxiety, self-harming thoughts, guilt, and shame. Yet, 73.9% of help seekers have not been able to receive it. | 翻訳日:2024-04-23 14:06:38 公開日:2024-04-22 |
# 量子フーリエ変換による欧州コールの価格設定
Pricing of European Calls with the Quantum Fourier Transform ( http://arxiv.org/abs/2404.14115v1 ) ライセンス: Link先を確認 | Tom Ewen, | (参考訳) 金融デリバティブの正確な評価は金融業界において重要な役割を担っている。
ブラック・スコールズ・モデル(英語版)における欧州コール・アンド・パット・オプション(英語版)で例示されるような、特定のモデルやオプション・タイプに対して閉じた公式が利用できるが、より複雑なモデルまたはより洗練されたオプションを使用することは、そのような公式の存在を妨げ、代替的なアプローチを必要とする。
ほぼ全てのシナリオで有効な代替アプローチであるモンテカルロシミュレーションは、振幅推定を利用する量子コンピューティング技術によって既に挑戦されている。
理論的な約束にもかかわらず、このアプローチは現在、ノイズ中間スケール量子(NISQ)時代のハードウェアの制約のために制限に直面している。
本研究では,幅広い資産モデルにまたがって,欧州のコールオプションの価格設定のための量子アルゴリズムを導入,分析する。
この方法は、高速フーリエ変換(FFT)を利用した古典的アプローチを量子アルゴリズムに変換し、量子フーリエ変換(QFT)の効率性を活用する。
さらに、この新しいアルゴリズムと既存の量子アルゴリズムをオプション価格で比較する。
The accurate valuation of financial derivatives plays a pivotal role in the finance industry. Although closed formulas for pricing are available for certain models and option types, exemplified by the European Call and Put options in the Black-Scholes Model, the use of either more complex models or more sophisticated options precludes the existence of such formulas, thereby requiring alternative approaches. The Monte Carlo simulation, an alternative approach effective in nearly all scenarios, has already been challenged by quantum computing techniques that leverage Amplitude Estimation. Despite its theoretical promise, this approach currently faces limitations due to the constraints of hardware in the Noisy Intermediate-Scale Quantum (NISQ) era. In this study, we introduce and analyze a quantum algorithm for pricing European call options across a broad spectrum of asset models. This method transforms a classical approach, which utilizes the Fast Fourier Transform (FFT), into a quantum algorithm, leveraging the efficiency of the Quantum Fourier Transform (QFT). Furthermore, we compare this novel algorithm with existing quantum algorithms for option pricing. | 翻訳日:2024-04-23 14:06:38 公開日:2024-04-22 |
# パノラマビューと三重項損失関数による階層的局所化
Hierarchical localization with panoramic views and triplet loss functions ( http://arxiv.org/abs/2404.14117v1 ) ライセンス: Link先を確認 | Marcos Alfaro, Juan José Cabrera, Luis Miguel Jiménez, Óscar Reinoso, Luis Payá, | (参考訳) 本研究の目的は,三重項畳み込みニューラルネットワークによる移動ロボットの局所化問題に対処し,照明条件の変化に対して頑健性をテストすることである。
我々はパノラマ形式に変換された動的条件下で捉えた屋内環境からの全方位画像を用いた。
三重項ニューラルネットワークによる局所化に対処する2つの手法が提案されている。
まず、部屋検索タスクを含む粗い位置決めと、以前選択された部屋における画像検索により、微細な位置決めの2段階でロボットの位置を推定する階層的位置決めを行う。
第二に、グローバルなローカライゼーションは、地図全体におけるロボットの位置をユニークなステップで推定する。
さらに,ネットワーク学習プロセスにおける損失関数の影響について,網羅的研究を行った。
実験のセクションでは、三重項ニューラルネットワークが屋内環境における移動ロボットの局所化に対処するための効率的で堅牢なツールであることを実証している。
The main objective of this paper is to address the mobile robot localization problem with Triplet Convolutional Neural Networks and test their robustness against changes of the lighting conditions. We have used omnidirectional images from real indoor environments captured in dynamic conditions that have been converted to panoramic format. Two approaches are proposed to address localization by means of triplet neural networks. First, hierarchical localization, which consists in estimating the robot position in two stages: a coarse localization, which involves a room retrieval task, and a fine localization is addressed by means of image retrieval in the previously selected room. Second, global localization, which consists in estimating the position of the robot inside the entire map in a unique step. Besides, an exhaustive study of the loss function influence on the network learning process has been made. The experimental section proves that triplet neural networks are an efficient and robust tool to address the localization of mobile robots in indoor environments, considering real operation conditions. | 翻訳日:2024-04-23 14:06:38 公開日:2024-04-22 |
# 畳み込みニューラルネットワークを用いた粘弾性乱流流中の流れと弾性応力の予測
Prediction of flow and elastic stresses in a viscoelastic turbulent channel flow using convolutional neural networks ( http://arxiv.org/abs/2404.14121v1 ) ライセンス: Link先を確認 | Arivazhagan G. Balasubramanian, Ricardo Vinuesa, Outi Tammisola, | (参考訳) 粘弾性乱流における壁面近傍の瞬時流れの予測にはニューラルネットワークモデルが用いられている。
壁面上の数値シミュレーションデータを用いて3つの壁面正規位置における瞬時速度変動と高分子ストレス変動を予測する。
また, 冬眠時の速度変動の予測に加えて, ニューラルネットワークモデルを用いて, 所定の壁面正規位置における高分子せん断応力とポリマー応力のトレースを, 合理的に精度良く予測できることを示した。
これらの非侵入型センシングモデルは, 乱流中での高分子-応力場を構築するための実験環境に組み込むことが可能であり, それ以外の場合, 実験測定では直接的に定量化できない。
Neural-network models have been employed to predict the instantaneous flow close to the wall in a viscoelastic turbulent channel flow. The numerical simulation data at the wall is utilized to predict the instantaneous velocity fluctuations and polymeric-stress fluctuations at three different wall-normal positions. Apart from predicting the velocity fluctuations well in a hibernating flow, the neural-network models are also shown to predict the polymeric shear stress and the trace of the polymeric stresses at a given wall-normal location with reasonably good accuracy. These non-intrusive sensing models can be integrated in an experimental setting to construct the polymeric-stress field in turbulent flows, which otherwise may not be directly quantifiable in experimental measurements. | 翻訳日:2024-04-23 14:06:38 公開日:2024-04-22 |
# 翻訳のための微調整された大規模言語モデル: ミスアライズされた言語でノイズの多いデータのタッチは十分か?
Fine-Tuning Large Language Models to Translate: Will a Touch of Noisy Data in Misaligned Languages Suffice? ( http://arxiv.org/abs/2404.14122v1 ) ライセンス: Link先を確認 | Dawei Zhu, Pinzhen Chen, Miaoran Zhang, Barry Haddow, Xiaoyu Shen, Dietrich Klakow, | (参考訳) 伝統的に、多言語機械翻訳の成功は、大容量、多言語翻訳の方向、高品質の3つのトレーニングデータに起因している。
翻訳のための大規模言語モデル(LLM)を微調整する現在の実践では、これらすべての要素の重要性を再考する。
LLMは、32の訓練インスタンスで微調整された後、強い翻訳能力を示し、単一の翻訳方向の微調整により、LLMが複数の方向の翻訳を効果的に行えることを発見した。
しかし、方向の選択は重要であり、ターゲット側で英語を微調整すると、タスクの誤解釈が生じ、非英語言語への翻訳が妨げられる。
同様の問題は、特にLLMの事前学習においてターゲット言語が十分に表現されている場合に、並列データのターゲット側でノイズが導入されたときに発生する。
対照的に、表現不足言語の雑音は顕著な影響を受けない。
以上の結果から,アライメント・ヒンジの達成は,翻訳以外の誤バイアスの学習を回避し,モデルに「表層的」な焦点を集中させることに焦点が当てられていることが示唆された。
Traditionally, success in multilingual machine translation can be attributed to three key factors in training data: large volume, diverse translation directions, and high quality. In the current practice of fine-tuning large language models (LLMs) for translation, we revisit the importance of all these factors. We find that LLMs display strong translation capability after being fine-tuned on as few as 32 training instances, and that fine-tuning on a single translation direction effectively enables LLMs to translate in multiple directions. However, the choice of direction is critical: fine-tuning LLMs with English on the target side can lead to task misinterpretation, which hinders translations into non-English languages. A similar problem arises when noise is introduced into the target side of parallel data, especially when the target language is well-represented in the LLM's pre-training. In contrast, noise in an under-represented language has a less pronounced effect. Our findings suggest that attaining successful alignment hinges on teaching the model to maintain a "superficial" focus, thereby avoiding the learning of erroneous biases beyond translation. | 翻訳日:2024-04-23 14:06:38 公開日:2024-04-22 |
# CRNet:統合画像復元・拡張タスクのための詳細な保存ネットワーク
CRNet: A Detail-Preserving Network for Unified Image Restoration and Enhancement Task ( http://arxiv.org/abs/2404.14132v1 ) ライセンス: Link先を確認 | Kangzhen Yang, Tao Hu, Kexin Dai, Genggeng Chen, Yu Cao, Wei Dong, Peng Wu, Yanning Zhang, Qingsen Yan, | (参考訳) 現実のシナリオでは、撮影される画像はぼやけたり、ノイズ、その他の画像劣化に悩まされることが多く、センサーの制限により、通常は低ダイナミックレンジの画像しか取得できない。
高品質な画像を実現するために、研究者たちは、デノイング、デブロアリング、高ダイナミックレンジイメージングなど、様々な画像の復元と強化を試みてきた。
しかし、単に1種類の画像強調を行うだけでは、良好な画像を得ることはできない。
本稿では, 上記の課題に対処するために, 複数の露光画像を用いてこの問題に対処するコンポジット・リファインメント・ネットワーク(CRNet)を提案する。
情報豊富な多重露光入力を完全統合することにより、CRNetは統合された画像復元と拡張を行うことができる。
画像の細部の品質を向上させるため、CRNetは、これらの周波数を効果的に融合させるために特別に設計されたマルチブランチブロックを用いて、プール層を介して、高頻度と低周波の情報を明確に分離し、強化する。
受信フィールドを拡大し、入力機能を完全に統合するために、CRNetは、大きなカーネルの畳み込みと逆ボトルネックのConvFFNを含むHigh-Frequency Enhancement Moduleを使用している。
我々のモデルは、ブラケット画像復元・拡張チャレンジの第1トラックで第3位を獲得し、従来のSOTAモデルを上回った。
In real-world scenarios, images captured often suffer from blurring, noise, and other forms of image degradation, and due to sensor limitations, people usually can only obtain low dynamic range images. To achieve high-quality images, researchers have attempted various image restoration and enhancement operations on photographs, including denoising, deblurring, and high dynamic range imaging. However, merely performing a single type of image enhancement still cannot yield satisfactory images. In this paper, to deal with the challenge above, we propose the Composite Refinement Network (CRNet) to address this issue using multiple exposure images. By fully integrating information-rich multiple exposure inputs, CRNet can perform unified image restoration and enhancement. To improve the quality of image details, CRNet explicitly separates and strengthens high and low-frequency information through pooling layers, using specially designed Multi-Branch Blocks for effective fusion of these frequencies. To increase the receptive field and fully integrate input features, CRNet employs the High-Frequency Enhancement Module, which includes large kernel convolutions and an inverted bottleneck ConvFFN. Our model secured third place in the first track of the Bracketing Image Restoration and Enhancement Challenge, surpassing previous SOTA models in both testing metrics and visual quality. | 翻訳日:2024-04-23 14:06:38 公開日:2024-04-22 |
# AGILE宇宙ミッションデータにおけるガンマ線バースト検出のための量子畳み込みニューラルネットワーク
Quantum Convolutional Neural Networks for the detection of Gamma-Ray Bursts in the AGILE space mission data ( http://arxiv.org/abs/2404.14133v1 ) ライセンス: Link先を確認 | A. Rizzo, N. Parmiggiani, A. Bulgarelli, A. Macaluso, V. Fioretti, L. Castaldini, A. Di Piano, G. Panebianco, C. Pittori, M. Tavani, C. Sartori, C. Burigana, V. Cardone, F. Farsian, M. Meneghetti, G. Murante, R. Scaramella, F. Schillirò, V. Testa, T. Trombetti, | (参考訳) 量子コンピューティングは人工知能の最先端のフロンティアである。
これは、量子力学の原理を活用して、ディープラーニングの分類問題に異なるアプローチを適用できるようにするハイブリッド量子古典計算を利用する。
ここで提示された研究は、2007年にイタリア宇宙機関によって打ち上げられたAGILEの宇宙ミッションの文脈に該当する。
我々は、AGILEに搭載されている機器が取得したデータを分析し、スカイマップや光曲線からガンマ線バーストを検出するために、異なる量子畳み込みニューラルネットワーク(QCNN)を実装した。
TensorFlow-Quantum、Qiskit、PennyLaneといったフレームワークを使って量子コンピュータをシミュレートする。
我々はQCNNを用いたスカイマップで95.1%の精度を達成し、古典的手法では98.8%を同じデータで達成した。
Quantum computing represents a cutting-edge frontier in artificial intelligence. It makes use of hybrid quantum-classical computation which tries to leverage quantum mechanic principles that allow us to use a different approach to deep learning classification problems. The work presented here falls within the context of the AGILE space mission, launched in 2007 by the Italian Space Agency. We implement different Quantum Convolutional Neural Networks (QCNN) that analyze data acquired by the instruments onboard AGILE to detect Gamma-Ray Bursts from sky maps or light curves. We use several frameworks such as TensorFlow-Quantum, Qiskit and PennyLane to simulate a quantum computer. We achieved an accuracy of 95.1% on sky maps with QCNNs, while the classical counterpart achieved 98.8% on the same data, using however hundreds of thousands more parameters. | 翻訳日:2024-04-23 13:56:54 公開日:2024-04-22 |
# 暗黒のテキスト:極端に低照度なテキスト画像強調
Text in the Dark: Extremely Low-Light Text Image Enhancement ( http://arxiv.org/abs/2404.14135v1 ) ライセンス: Link先を確認 | Che-Tsung Lin, Chun Chet Ng, Zhi Qin Tan, Wan Jun Nah, Xinyu Wang, Jie Long Kew, Pohao Hsu, Shang Hong Lai, Chee Seng Chan, Christopher Zach, | (参考訳) 極めて低照度なテキストイメージは自然のシーンで一般的であり、シーンテキストの検出と認識が困難になる。
1つの解決策は、テキスト抽出の前に低照度画像強調法を用いてこれらの画像を強化することである。
しかし、従来の手法では、ダウンストリームシーンのテキストタスクにおける最適なパフォーマンスに欠かせない低レベル機能の重要性に特に対処しようとはしないことが多い。
さらなる研究は、非常に低照度なテキストデータセットの欠如にも妨げられている。
これらの制約に対処するため,強調中のシーンテキスト領域に注目するエッジ対応アテンションモジュールを備えた新しいエンコーダデコーダフレームワークを提案する。
提案手法は,新しいテキスト検出とエッジ再構成の損失を利用して,低レベルなシーンテキストの特徴を強調し,テキスト抽出に成功した。
さらに,ICDAR15 (IC15) などの公開シーンテキストデータセットに基づいて,超低照度画像の合成を行うスーパーバイザードディープカーブ推定(Supervised Deep Curve Estimation, Supervised-DCE)モデルを提案する。
また,SID(See In the Dark)とLOL(Low-Light)データセットにテキストをラベル付けし,シーンテキストタスクによる極めて低照度画像強調の客観的評価を可能にした。
広範に使われているLOL, SID, 合成IC15データセットにおいて, 画像品質とシーンテキストの指標の両面で, このモデルが最先端の手法より優れていることを示す。
コードとデータセットはhttps://github.com/chunchet-ng/Text-in-the-Dark.comで公開される。
Extremely low-light text images are common in natural scenes, making scene text detection and recognition challenging. One solution is to enhance these images using low-light image enhancement methods before text extraction. However, previous methods often do not try to particularly address the significance of low-level features, which are crucial for optimal performance on downstream scene text tasks. Further research is also hindered by the lack of extremely low-light text datasets. To address these limitations, we propose a novel encoder-decoder framework with an edge-aware attention module to focus on scene text regions during enhancement. Our proposed method uses novel text detection and edge reconstruction losses to emphasize low-level scene text features, leading to successful text extraction. Additionally, we present a Supervised Deep Curve Estimation (Supervised-DCE) model to synthesize extremely low-light images based on publicly available scene text datasets such as ICDAR15 (IC15). We also labeled texts in the extremely low-light See In the Dark (SID) and ordinary LOw-Light (LOL) datasets to allow for objective assessment of extremely low-light image enhancement through scene text tasks. Extensive experiments show that our model outperforms state-of-the-art methods in terms of both image quality and scene text metrics on the widely-used LOL, SID, and synthetic IC15 datasets. Code and dataset will be released publicly at https://github.com/chunchet-ng/Text-in-the-Dark. | 翻訳日:2024-04-23 13:56:54 公開日:2024-04-22 |
# 攻撃的AI: 言語モデルを用いたディレクタのブルート強制攻撃を強化する
Offensive AI: Enhancing Directory Brute-forcing Attack with the Use of Language Models ( http://arxiv.org/abs/2404.14138v1 ) ライセンス: Link先を確認 | Alberto Castagnaro, Mauro Conti, Luca Pajola, | (参考訳) Web Vulnerability Assessment and Peretration Testing (Web VAPT)は、Webアプリケーションの完全性を損なう可能性のある、さまざまな脆弱性を明らかにする包括的なサイバーセキュリティプロセスである。
VAPTでは、ターゲット Web サイトのアクセス可能なディレクトリの識別を目的とした \textit{Directory brute-forcing Attack} を実行するのが一般的である。
現在の商用ソリューションは、ワードリストを使用するブルート強制戦略に基づいており、少数の成功のために膨大な試行が行われるため、非効率である。
攻撃的AIは、サイバー攻撃にAIベースの技術を統合する最近のパラダイムである。
そこで本研究では,AIがディレクトリ列挙プロセスを強化し,新しい言語モデルベースのフレームワークを提案する。
実験は、異なるWebアプリケーションドメイン(大学、病院、政府、企業)から100万のURLからなるテストベッドで実施され、LMベースの攻撃の優位性を実証し、平均的なパフォーマンスは969%向上した。
Web Vulnerability Assessment and Penetration Testing (Web VAPT) is a comprehensive cybersecurity process that uncovers a range of vulnerabilities which, if exploited, could compromise the integrity of web applications. In a VAPT, it is common to perform a \textit{Directory brute-forcing Attack}, aiming at the identification of accessible directories of a target website. Current commercial solutions are inefficient as they are based on brute-forcing strategies that use wordlists, resulting in enormous quantities of trials for a small amount of success. Offensive AI is a recent paradigm that integrates AI-based technologies in cyber attacks. In this work, we explore whether AI can enhance the directory enumeration process and propose a novel Language Model-based framework. Our experiments -- conducted in a testbed consisting of 1 million URLs from different web application domains (universities, hospitals, government, companies) -- demonstrate the superiority of the LM-based attack, with an average performance increase of 969%. | 翻訳日:2024-04-23 13:56:54 公開日:2024-04-22 |
# 物理学に基づく顕微鏡による報酬駆動画像解析
Physics-based reward driven image analysis in microscopy ( http://arxiv.org/abs/2404.14146v1 ) ライセンス: Link先を確認 | Kamyar Barakati, Hui Yuan, Amit Goyal, Sergei V. Kalinin, | (参考訳) 電子顕微鏡の出現により、複雑な物質のナノメートルと原子分解画像を取得する能力が拡大した。
結果として得られる膨大なデータセットは、典型的には人間のオペレータによって分析される。複数の分析ステップと、それに対応する複雑な分析ワークフローの構築と最適化の必要性により、本質的に困難なプロセスである。
本稿では,ベイズ最適化と結合したリワード関数の概念に基づく手法を提案し,画像解析のワークフローを動的に最適化する。
Reward関数は実験目的やより広い文脈と密接に一致するように設計されており、分析が完了すると定量化される。
ここでは、イオン照射された(Y, \text{Dy})\text{Ba}_2\text{Cu}_3\text{O}_{7-\delta}薄膜の断面高角環状暗視野(HAADF)像をモデル系として用いた。
報酬関数は、期待される材料密度と原子間隔に基づいて形成され、古典的なラプラシアン・オブ・ガウス法(LoG)の多目的最適化に使用された。
これらの結果はDCNNセグメンテーションに対してベンチマークすることができる。
この最適化されたLoG*は、追加ノイズの存在下でDCNNと好意的に比較する。
さらに、偏った部分領域の同定に対する報酬関数のアプローチを拡張し、物理駆動の報酬関数と高次元クラスタリングのアクション空間を作成する。
提案手法は,従来のDCNNに基づく推論よりもはるかに高速で計算コストの低い複雑な解析ワークフローをリアルタイムに最適化し,精度と人間の定義した目的に整合した結果の達成を確実にするものである。
The rise of electron microscopy has expanded our ability to acquire nanometer and atomically resolved images of complex materials. The resulting vast datasets are typically analyzed by human operators, an intrinsically challenging process due to the multiple possible analysis steps and the corresponding need to build and optimize complex analysis workflows. We present a methodology based on the concept of a Reward Function coupled with Bayesian Optimization, to optimize image analysis workflows dynamically. The Reward Function is engineered to closely align with the experimental objectives and broader context and is quantifiable upon completion of the analysis. Here, cross-section, high-angle annular dark field (HAADF) images of ion-irradiated (Y, \text{Dy})\text{Ba}_2\text{Cu}_3\text{O}_{7-\delta} thin-films were used as a model system. The reward functions were formed based on the expected materials density and atomic spacings and used to drive multi-objective optimization of the classical Laplacian-of-Gaussian (LoG) method. These results can be benchmarked against the DCNN segmentation. This optimized LoG* compares favorably against DCNN in the presence of the additional noise. We further extend the reward function approach towards the identification of partially-disordered regions, creating a physics-driven reward function and action space of high-dimensional clustering. We pose that with correct definition, the reward function approach allows real-time optimization of complex analysis workflows at much higher speeds and lower computational costs than classical DCNN-based inference, ensuring the attainment of results that are both precise and aligned with the human-defined objectives. | 翻訳日:2024-04-23 13:56:54 公開日:2024-04-22 |
# 空洞強化近藤効果
Cavity-enhanced Kondo effect ( http://arxiv.org/abs/2404.14148v1 ) ライセンス: Link先を確認 | Jun Mochida, Yuto Ashida, | (参考訳) 磁性不純物を含む金属では、伝導電子が磁気不純物を遮蔽し、コンド効果、すなわち低温での電気抵抗の増強を誘導する。
空洞閉じ込めによる量子材料操作の最近の進歩に触発され,超強光物質結合が近藤効果にどのように影響するかを考察した。
我々は,超強結合が近藤温度を高め,空洞修飾近藤効果の普遍的スケーリング,光子占有数,空洞と電子間の絡み合いエントロピーなど,いくつかの顕著な現象を生じさせることを示した。
キャビティエンハンスメントの起源は、ポーラロン質量エンハンスメントに似たキャビティを介する非局所電子-電子相互作用による質量再正規化から理解することができる。
我々は、ユニタリ変換とガウス変分状態を組み合わせて、空洞に閉じ込められた量子不純物系を分析する。
我々の非摂動的枠組みは、構造化された量子電磁環境に影響される様々な量子不純物問題に適用できる。
In metals containing magnetic impurities, conduction electrons screen the magnetic impurities and induce the Kondo effect, i.e., the enhancement of the electrical resistance at low temperatures. Motivated by recent advances in manipulating quantum materials by cavity confinement, we study how the ultrastrong light-matter coupling can affect the Kondo effect. We show that the ultrastrong coupling can enhance the Kondo temperature and give rise to several notable phenomena, including universal scalings of the cavity-modified Kondo effect, the photon occupation number, and the entanglement entropy between the cavity and electrons. The origin of the cavity enhancement can be understood from the mass renormalization due to the cavity-mediated nonlocal electron-electron interaction, which is akin to the polaronic mass enhancement. We combine the unitary transformations and the Gaussian variational states to analyze the quantum impurity system confined in the cavity. Our nonperturbative framework can be applied to a variety of quantum impurity problems influenced by structured quantum electromagnetic environment. | 翻訳日:2024-04-23 13:56:54 公開日:2024-04-22 |
# 多次元補間材
Multidimensional Interpolants ( http://arxiv.org/abs/2404.14161v1 ) ライセンス: Link先を確認 | Dohoon Lee, Kyogu Lee, | (参考訳) 微分方程式に基づく生成モデル(英語版)の分野において、従来の手法は訓練と推論フェーズの両方において、補間係数として1次元スカラー値に依存することが多い。
本研究では,これらの係数を多次元に拡張する多次元補間器を初めて導入し,確率的補間器の枠組みを活用する。
さらに,多次元の推論軌道を適応的に決定するための経路最適化問題を,所定の微分方程式解法と一定数の関数評価を用いて提案する。
提案手法は,推論経路を最適化するために,シミュレーション力学と逆行訓練を併用する。
特に、訓練中に多次元補間剤を用いることで、経路最適化がなくても、モデルの推論性能が向上する。
最適化プロセスから導出される適応的多次元経路を用いると、固定されたソルバ構成であってもさらなる性能向上が得られる。
多次元補間剤の導入は、モデルの有効性を高めるだけでなく、訓練や推論の方法論を探求するための新しい領域も開き、多次元経路の可能性を未開拓のフロンティアとして強調する。
In the domain of differential equation-based generative modeling, conventional approaches often rely on single-dimensional scalar values as interpolation coefficients during both training and inference phases. In this work, we introduce, for the first time, a multidimensional interpolant that extends these coefficients into multiple dimensions, leveraging the stochastic interpolant framework. Additionally, we propose a novel path optimization problem tailored to adaptively determine multidimensional inference trajectories, with a predetermined differential equation solver and a fixed number of function evaluations. Our solution involves simulation dynamics coupled with adversarial training to optimize the inference path. Notably, employing a multidimensional interpolant during training improves the model's inference performance, even in the absence of path optimization. When the adaptive, multidimensional path derived from our optimization process is employed, it yields further performance gains, even with fixed solver configurations. The introduction of multidimensional interpolants not only enhances the efficacy of models but also opens up a new domain for exploration in training and inference methodologies, emphasizing the potential of multidimensional paths as an untapped frontier. | 翻訳日:2024-04-23 13:56:54 公開日:2024-04-22 |
# FLDM-VTON:仮想試行のための忠実潜在拡散モデル
FLDM-VTON: Faithful Latent Diffusion Model for Virtual Try-on ( http://arxiv.org/abs/2404.14162v1 ) ライセンス: Link先を確認 | Chenhui Wang, Tao Chen, Zhihao Chen, Zhizhong Huang, Taoran Jiang, Qi Wang, Hongming Shan, | (参考訳) 優れた生成性能にもかかわらず、潜伏拡散モデルに基づく仮想試行法(VTON)は、スタイル、パターン、テキストなどの衣服の重要な詳細に忠実さを欠いている。
拡散確率的性質と潜伏監視によるこれらの問題を緩和するために, FLDM-VTON と呼ばれる新しい VTON のFhithful Latent Diffusion Model を提案する。
FLDM-VTONは従来の潜伏拡散過程を3つの面で改善する。
まず, ゆがんだ衣服を出発点と局所状態の両方に取り入れ, 忠実な衣服をモデルとして提供することを提案する。
第2に、生成した試着画像を拘束する新しい衣服フラット化ネットワークを導入し、着物に一貫性のある忠実な監視を提供する。
第3に,忠実な推論のための衣服後サンプリングを考案し,従来の衣服非依存型ガウスサンプリングよりもモデル性能を向上する。
ベンチマークVITON-HDとDress Codeのデータセットによる大規模な実験結果から、FLDM-VTONは最先端のベースラインより優れており、忠実な衣服の詳細で写真リアルな試行画像を生成することができることが示された。
Despite their impressive generative performance, latent diffusion model-based virtual try-on (VTON) methods lack faithfulness to crucial details of the clothes, such as style, pattern, and text. To alleviate these issues caused by the diffusion stochastic nature and latent supervision, we propose a novel Faithful Latent Diffusion Model for VTON, termed FLDM-VTON. FLDM-VTON improves the conventional latent diffusion process in three major aspects. First, we propose incorporating warped clothes as both the starting point and local condition, supplying the model with faithful clothes priors. Second, we introduce a novel clothes flattening network to constrain generated try-on images, providing clothes-consistent faithful supervision. Third, we devise a clothes-posterior sampling for faithful inference, further enhancing the model performance over conventional clothes-agnostic Gaussian sampling. Extensive experimental results on the benchmark VITON-HD and Dress Code datasets demonstrate that our FLDM-VTON outperforms state-of-the-art baselines and is able to generate photo-realistic try-on images with faithful clothing details. | 翻訳日:2024-04-23 13:56:54 公開日:2024-04-22 |
# データコラボレーション分析のための一般化固有値問題に基づく新しい解法
New Solutions Based on the Generalized Eigenvalue Problem for the Data Collaboration Analysis ( http://arxiv.org/abs/2404.14164v1 ) ライセンス: Link先を確認 | Yuta Kawakami, Yuichi Takano, Akira Imakura, | (参考訳) 近年,複数の機関間でデータを共有し,機密情報を保護しながら分析精度を向上させる機密データ分析技術に注目が集まっている。
データコラボレーション分析(Data Collaboration Analysis, DCA)は、計算コストと通信負荷の点で効率が良く、機密情報を保護しながら、異なる機関間でのデータ共有と分析を容易にする。
しかしながら、必要となる協調関数を決定するための既存の最適化問題は、協調表現の最適解がゼロ行列であることや、解の導出過程を理解することの難しさなど、課題に直面している。
本研究では,行列を列ベクトルに分割することで最適化問題を定式化し,一般化固有値問題に基づく解法を提案する。
さらに、重み付けと特定の状況に適した効率的なアルゴリズムの選択により、より効率的に協調機能を構築する方法を示す。
実世界のデータセットを用いた実験により,協調関数最適化問題の定式化と解法が既存手法よりも優れた予測精度を実現することが示された。
In recent years, the accumulation of data across various institutions has garnered attention for the technology of confidential data analysis, which improves analytical accuracy by sharing data between multiple institutions while protecting sensitive information. Among these methods, Data Collaboration Analysis (DCA) is noted for its efficiency in terms of computational cost and communication load, facilitating data sharing and analysis across different institutions while safeguarding confidential information. However, existing optimization problems for determining the necessary collaborative functions have faced challenges, such as the optimal solution for the collaborative representation often being a zero matrix and the difficulty in understanding the process of deriving solutions. This research addresses these issues by formulating the optimization problem through the segmentation of matrices into column vectors and proposing a solution method based on the generalized eigenvalue problem. Additionally, we demonstrate methods for constructing collaborative functions more effectively through weighting and the selection of efficient algorithms suited to specific situations. Experiments using real-world datasets have shown that our proposed formulation and solution for the collaborative function optimization problem achieve superior predictive accuracy compared to existing methods. | 翻訳日:2024-04-23 13:56:54 公開日:2024-04-22 |
# 位相推定のための雑音のない線形増幅に基づくZiv-Zakai境界とその雑音シナリオにおけるハイゼンベルク誤差限界
Noiseless linear amplification-based quantum Ziv-Zakai bound for phase estimation and its Heisenberg error limits in noisy scenarios ( http://arxiv.org/abs/2404.14173v1 ) ライセンス: Link先を確認 | Wei Ye, Peng Xiao, Xiaofan Xu, Xiang Zhu, Yunbin Yan, Lu Wang, Jie Ren, Yuxuan Zhu, Ying Xia, Xuan Rao, Shoukang Chang, | (参考訳) 本研究では、未知パラメータの有効精度限界を効果的に見つける方法について、中心的な問題に対処する。
量子Ziv-Zakaiバウンダリ(QZZB)の枠組みでは、ノイズレス線形増幅(NLA)技術をプローブ状態として初期コヒーレント状態(CS)に適用し、光子損失と位相拡散のケースを含むノイズのシナリオにおいて位相推定性能が著しく向上するかどうかに焦点をあてる。
さらに、これらのノイズのシナリオでは、QZB と NLA ベースの CS の2種類のハイゼンベルク誤差限界も得られ、Margolus-Levitin (ML) 型境界と Mandelstam-Tamm (MT) 型境界を比較した。
解析の結果,光子損失や位相拡散の場合,NLAゲインファクタを増大させることでQZZBの位相推定性能を著しく向上できることがわかった。
特に、この改良は、深刻な光子損失でより顕著に発音される。
さらに、最小光子損失では、ハイゼンベルク誤差限界はML型およびMT型境界の場合よりもコンパクト性が高い。
我々の発見は、より複雑な量子情報処理タスクを達成するための有用なガイダンスを提供する。
In this work, we address the central problem about how to effectively find the available precision limit of unknown parameters. In the framework of the quantum Ziv-Zakai bound (QZZB), we employ noiseless linear amplification (NLA)techniques to an initial coherent state (CS) as the probe state, and focus on whether the phase estimation performance is improved significantly in noisy scenarios, involving the photon-loss and phase-diffusion cases. More importantly, we also obtain two kinds of Heisenberg error limits of the QZZB with the NLA-based CS in these noisy scenarios, making comparisons with both the Margolus-Levitin (ML) type bound and the Mandelstam-Tamm (MT) type bound. Our analytical results show that in cases of photon loss and phase diffusion, the phase estimation performance of the QZZB can be improved remarkably by increasing the NLA gain factor. Particularly, the improvement is more pronounced with severe photon losses. Furthermore in minimal photon losses, our Heisenberg error limit shows better compactness than the cases of the ML-type and MT-type bounds. Our findings will provide an useful guidance for accomplishing more complex quantum information processing tasks. | 翻訳日:2024-04-23 13:56:54 公開日:2024-04-22 |
# Face2Face:ラベル駆動の顔のリタッチ
Face2Face: Label-driven Facial Retouching Restoration ( http://arxiv.org/abs/2404.14177v1 ) ライセンス: Link先を確認 | Guanhua Zhao, Yu Gu, Xuhan Sheng, Yujie Hu, Jian Zhang, | (参考訳) InstagramやTikTokなどのソーシャルメディアプラットフォームの人気や、リタッチツールの普及と利便性により、顔写真の美化にこれらのツールを利用している人が増えている。
これは、アイデンティティ検証やソーシャルメディアなど、写真の真正性に高い要求を課す分野に課題を提起する。
顔画像を変更することで、ユーザは容易に偽画像を作成することができ、偽情報の拡散につながる。
これは、アイデンティティ認証システムやソーシャルメディアの信頼性に課題を生じさせ、さらにはオンライン詐欺にも繋がる可能性がある。
この問題に対処するため、一部の研究では化粧品の除去方法を提案しているが、リタッチによる幾何学的変形を含む画像の復元能力は依然として欠如している。
顔リタッチ修復の課題に対処するために,顔リタッチ検出器,FaceRという画像復元モデル,階層適応インスタンス正規化(H-AdaIN)と呼ばれる色補正モジュールの3つのコンポーネントからなるFace2Faceというフレームワークを提案する。
まず、顔リタッチ検出器は、3つの整数を含むリタッチラベルを予測し、リタッチ方法とその対応する度合いを示す。
そして、FaceRは予測されたリタッチラベルに基づいてリタッチされた画像を復元する。
最後に,H-AdaINを用いて拡散モデルから生じる色変化の問題に対処する。
大規模な実験は、我々のフレームワークと各モジュールの有効性を実証する。
With the popularity of social media platforms such as Instagram and TikTok, and the widespread availability and convenience of retouching tools, an increasing number of individuals are utilizing these tools to beautify their facial photographs. This poses challenges for fields that place high demands on the authenticity of photographs, such as identity verification and social media. By altering facial images, users can easily create deceptive images, leading to the dissemination of false information. This may pose challenges to the reliability of identity verification systems and social media, and even lead to online fraud. To address this issue, some work has proposed makeup removal methods, but they still lack the ability to restore images involving geometric deformations caused by retouching. To tackle the problem of facial retouching restoration, we propose a framework, dubbed Face2Face, which consists of three components: a facial retouching detector, an image restoration model named FaceR, and a color correction module called Hierarchical Adaptive Instance Normalization (H-AdaIN). Firstly, the facial retouching detector predicts a retouching label containing three integers, indicating the retouching methods and their corresponding degrees. Then FaceR restores the retouched image based on the predicted retouching label. Finally, H-AdaIN is applied to address the issue of color shift arising from diffusion models. Extensive experiments demonstrate the effectiveness of our framework and each module. | 翻訳日:2024-04-23 13:56:54 公開日:2024-04-22 |
# SemEval-2024 Task 8: Multi Domain, Multimodel and Multilingual Machine-Generated Text Detection
SemEval-2024 Task 8: Multidomain, Multimodel and Multilingual Machine-Generated Text Detection ( http://arxiv.org/abs/2404.14183v1 ) ライセンス: Link先を確認 | Yuxia Wang, Jonibek Mansurov, Petar Ivanov, Jinyan Su, Artem Shelmanov, Akim Tsvigun, Osama Mohammed Afzal, Tarek Mahmoud, Giovanni Puccetti, Thomas Arnold, Chenxi Whitehouse, Alham Fikri Aji, Nizar Habash, Iryna Gurevych, Preslav Nakov, | (参考訳) SemEval-2024 Task 8: Multigenerator, Multi Domain, and Multilingual Machine-Generated Text Detection。
タスクには3つのサブタスクがあった。
Subtask Aは、テキストが人間によって書かれたか、機械によって生成されたかを決定するバイナリ分類タスクである。
このサブタスクには、英語のテキストのみに焦点を当てたモノリンガルトラックと、多言語トラックの2つのトラックがある。
サブタスクBは、テキストの正確なソースを検出し、それが人間によって書かれたか、特定のLCMによって生成されたかを認識する。
Subtask Cは、著者が人間から機械へ遷移するテキスト内の変化点を特定することを目的としている。
このタスクには、サブタスクA単言語(126)、サブタスクA多言語(1259)、サブタスクB(70)、サブタスクC(30)の多数の参加者が集まった。
本稿では,タスクを提示し,結果を分析し,システムへの提案と使用方法について議論する。
すべてのサブタスクに対して、最高のシステムはLLMを使用した。
We present the results and the main findings of SemEval-2024 Task 8: Multigenerator, Multidomain, and Multilingual Machine-Generated Text Detection. The task featured three subtasks. Subtask A is a binary classification task determining whether a text is written by a human or generated by a machine. This subtask has two tracks: a monolingual track focused solely on English texts and a multilingual track. Subtask B is to detect the exact source of a text, discerning whether it is written by a human or generated by a specific LLM. Subtask C aims to identify the changing point within a text, at which the authorship transitions from human to machine. The task attracted a large number of participants: subtask A monolingual (126), subtask A multilingual (59), subtask B (70), and subtask C (30). In this paper, we present the task, analyze the results, and discuss the system submissions and the methods they used. For all subtasks, the best systems used LLMs. | 翻訳日:2024-04-23 13:56:54 公開日:2024-04-22 |
# エンド・ツー・エンド深層学習による単一平面波イメージングのための超音波ビームフォーミングの実験的検討
Experimental Validation of Ultrasound Beamforming with End-to-End Deep Learning for Single Plane Wave Imaging ( http://arxiv.org/abs/2404.14188v1 ) ライセンス: Link先を確認 | Ryan A. L. Schoop, Gijs Hendriks, Tristan van Leeuwen, Chris L. de Korte, Felix Lucka, | (参考訳) 超高速超音波イメージングは、多くの集束波ではなく、異なるビームステアリング角度で複数の平面波の1つまたは1つの組み合わせで媒体を照射する。
フレームレートははるかに高いが、画質を低下させるコストがかかることが多い。
深層学習アプローチは、特に単一平面波のイメージングにおいて、この欠点を軽減するために提案されている。
優先的に、画像から画像までの後処理ネットワークや、完全に学習されたデータから画像へのニューラルネットワークが使用される。
どちらも、純粋にデータ駆動のマッピングを構築し、優れたパフォーマンスを得るためには、表現力のあるネットワークと大量のトレーニングデータを必要とする。
対照的に、従来の画像形成手法をネットワークアーキテクチャの異なる層として組み込んだデータ・ツー・イメージ・ネットワークを考察する。
これにより、少量のトレーニングデータによるエンドツーエンドのトレーニングが可能になる。
本研究では,f-kマイグレーションを画像形成層として,実験データを用いて詳細に評価する。
我々は,現実的な乳房模倣ファントムと超音波校正ファントムを用いて,データ駆動型平面波イメージング手法のベンチマークのためのデータ収集を行った。
この評価は、大域的および局所的な画像類似度測定とコントラスト、解像度、病変検出可能性分析を考察する。
その結果,提案するネットワークアーキテクチャは,すべての評価指標に基づいて単一平面波画像の画質を向上させることができることがわかった。
さらに、これらの画質の改善は驚くほど少ないトレーニングデータで達成できる。
Ultrafast ultrasound imaging insonifies a medium with one or a combination of a few plane waves at different beam-steered angles instead of many focused waves. It can achieve much higher frame rates, but often at the cost of reduced image quality. Deep learning approaches have been proposed to mitigate this disadvantage, in particular for single plane wave imaging. Predominantly, image-to-image post-processing networks or fully learned data-to-image neural networks are used. Both construct their mapping purely data-driven and require expressive networks and large amounts of training data to perform well. In contrast, we consider data-to-image networks which incorporate a conventional image formation techniques as differentiable layers in the network architecture. This allows for end-to-end training with small amounts of training data. In this work, using f-k migration as an image formation layer is evaluated in-depth with experimental data. We acquired a data collection designed for benchmarking data-driven plane wave imaging approaches using a realistic breast mimicking phantom and an ultrasound calibration phantom. The evaluation considers global and local image similarity measures and contrast, resolution and lesion detectability analysis. The results show that the proposed network architecture is capable of improving the image quality of single plane wave images on all evaluation metrics. Furthermore, these image quality improvements can be achieved with surprisingly little amounts of training data. | 翻訳日:2024-04-23 13:56:54 公開日:2024-04-22 |
# アドマーウェア検出のための共通インターネットサービスの解体
Dismantling Common Internet Services for Ad-Malware Detection ( http://arxiv.org/abs/2404.14190v1 ) ライセンス: Link先を確認 | Florian Nettersheim, Stephan Arlt, Michael Rademacher, | (参考訳) オンライン広告は、出版社がWorld Wide Webでコンテンツに資金を供給するための主要な手段である。
残念なことに、Webバナーに隠された暗号鍵のような悪意のあるコンテンツ、あるいは信頼できるウェブサイトでも、かなりの数のオンライン広告がしばしば対応している。
インターネット利用者をこのようなオンライン脅威から守るため、アドマルウェアキャンペーンの徹底的な検出は、安全なWebにとって重要な役割を果たす。
VirusTotalのような一般的なインターネットサービスは、コントリビュータやWebコミュニティ全体からのフィードバックに基づいて、疑わしいコンテンツをラベル付けすることができる。
しかし、実際にAd-malwareがどの程度考慮されているか、そしてこれらのサービスの結果が一貫しているかは、明らかになっていない。
本稿では,インターネット上でのアドマルウェアの定義者を評価する。
最初のステップでは、大量のWebサイトをクロールして、これらのWebサイトの中ですべてのHTTPリクエスト(特にオンライン広告)を取得します。
次に、人気のあるフィルタリングDNSプロバイダと VirusTotalの両方に対して、これらのリクエストを問い合わせます。
その考え方は、コンテンツがどれほどの規模で脅威に晒されているかを検証することだ。
その結果、クローリング中に見つかったドメインの最大0.47%は、DNSプロバイダによって疑わしいとしてラベル付けされ、VirusTotalでは最大8.8%となっている。
さらに、これらのドメインの約0.7%から3.2%がアドマルウェアに分類されている。
使用済みのインターネットサービスからの全体的な反応は、異なるイメージを描いている: すべての考慮されたサービスは、疑わしいコンテンツの定義に対して異なる理解を持っている。
そこで本研究では,アドマルウェアの自動検出に向けた研究の可能性を概説する。
さらに、ウェブコミュニティにアドマルウェアの共通定義に関するオープンな疑問を提起する。
Online advertising represents a main instrument for publishers to fund content on the World Wide Web. Unfortunately, a significant number of online advertisements often accommodates potentially malicious content, such as cryptojacking hidden in web banners - even on reputable websites. In order to protect Internet users from such online threats, the thorough detection of ad-malware campaigns plays a crucial role for a safe Web. Today, common Internet services like VirusTotal can label suspicious content based on feedback from contributors and from the entire Web community. However, it is open to which extent ad-malware is actually taken into account and whether the results of these services are consistent. In this pre-study, we evaluate who defines ad-malware on the Internet. In a first step, we crawl a vast set of websites and fetch all HTTP requests (particularly to online advertisements) within these websites. Then we query these requests both against popular filtered DNS providers and VirusTotal. The idea is to validate, how much content is labeled as a potential threat. The results show that up to 0.47% of the domains found during crawling are labeled as suspicious by DNS providers and up to 8.8% by VirusTotal. Moreover, only about 0.7% to 3.2% of these domains are categorized as ad-malware. The overall responses from the used Internet services paint a divergent picture: All considered services have different understandings to the definition of suspicious content. Thus, we outline potential research efforts to the automated detection of ad-malware. We further bring up the open question of a common definition of ad-malware to the Web community. | 翻訳日:2024-04-23 13:56:54 公開日:2024-04-22 |
# 単語順変化におけるエントロピー最小化を超えるスワップ距離最小化
Swap distance minimization beyond entropy minimization in word order variation ( http://arxiv.org/abs/2404.14192v1 ) ライセンス: Link先を確認 | Víctor Franco-Sánchez, Arnau Martí-Llobet, Ramon Ferrer-i-Cancho, | (参考訳) 例えば、主語、直接目的語、動詞(n=3$)、または主語、直接目的語、間接目的語、動詞(n=4$)などである。
我々は$nの頻度を調べます!
可能な命令は2つの原則によって制限される。
まず、エントロピーの最小化(エントロピーの最小化)は、異なるレベルの組織で自然なコミュニケーションシステムを形成することが提案されている原則である。
第二に、スワップ距離の最小化(スワップ距離の最小化)、すなわちソースオーダーから生成される隣接要素のスワップを少なくするワードオーダーの好みである。
ここでは、スワップ距離最小化の研究のための新しいスコアである平均スワップ距離を提示し、その値の最小値と最大値、ダイリング実験における期待値、あるいは単語順の周波数がシャッフルされた場合の理論的分布について検討する。
エントロピーと平均スワップ距離は、対応する最小化原理と一致する$n=3$または$n=4$の異なる言語構造において著しく小さいかを検討する。
転がり実験に関してエントロピーの最小化とスワップ距離の最小化の強い証拠を見出した。
ポリア urn 過程に関するこれらの2つの力の証拠は、$n=4$に対して強いが、$n=3$ではより弱い。
単語順の周波数がシャッフルされた場合,スワップ距離最小化効果は,単語順エントロピーを最小化するために,圧力を超えていることを示す。
Here we consider the problem of all the possible orders of a linguistic structure formed by $n$ elements, for instance, subject, direct object and verb ($n=3$) or subject, direct object, indirect object and verb ($n=4$). We investigate if the frequency of the $n!$ possible orders is constrained by two principles. First, entropy minimization, a principle that has been suggested to shape natural communication systems at distinct levels of organization. Second, swap distance minimization, namely a preference for word orders that require fewer swaps of adjacent elements to be produced from a source order. Here we present average swap distance, a novel score for research on swap distance minimization, and investigate the theoretical distribution of that score for any $n$: its minimum and maximum values and its expected value in die rolling experiments or when the word order frequencies are shuffled. We investigate whether entropy and average swap distance are significantly small in distinct linguistic structures with $n=3$ or $n=4$ in agreement with the corresponding minimization principles. We find strong evidence of entropy minimization and swap distance minimization with respect to a die rolling experiment. The evidence of these two forces with respect to a Polya urn process is strong for $n=4$ but weaker for $n=3$. We still find evidence of swap distance minimization when word order frequencies are shuffled, indicating that swap distance minimization effects are beyond pressure to minimize word order entropy. | 翻訳日:2024-04-23 13:56:54 公開日:2024-04-22 |
# 最適マルチパラメータ・メトロロジー:量子コンパス法
Optimal Multiparameter Metrology: The Quantum Compass Solution ( http://arxiv.org/abs/2404.14194v1 ) ライセンス: Link先を確認 | Denis V. Vasilyev, Athreya Shankar, Raphael Kaubruegger, Peter Zoller, | (参考訳) 繰り返し測定による複数物理パラメータの最適量子センシングについて検討した。
このシナリオでは、フィッシャー情報フレームワークは、検知性能の基本的な限界を設定するが、これらの限界を達成するための最適な状態とそれに対応する測定は依然として発見されない。
これを解決するために、センサの2番目の最適性要件でフィッシャー情報アプローチを拡張し、未知のパラメータの明確な推定を行う。
本稿では,最適性基準の双方を満たす入力状態と測定値の組み合わせを同定するために,フィッシャー情報とベイズ的アプローチを統合した体系的手法を提案する。
具体的には, 最適センシング問題を漸近的ベイズコスト関数の最適化として, 数値的に, 多くの場合, 解析的に効率的に解けるように構成する。
得られた最適センサを「量子コンパス」解と呼び、これはグリーンベルガー・ホルン・ザイリンガー状態ベース干渉計と直交する直接マルチパラメータとして機能し、単パラメータ気象学においてハイゼンベルク限界を達成することで有名である。
SU(2)センサを用いて2パラメータと3パラメータを検知するパラダイム的マルチパラメータ問題に対して、正確な量子コンパスソリューションを提供する。
メロジカルコスト関数は、多繰り返しシナリオにおける最適センシング性能にアプローチする低深度量子回路を設計するための量子変分法への道を開く。
本研究では,ベクトル場に対するハイゼンベルク極限を実現するための単純な量子回路の構築と,閉じ込められたイオンプラットフォーム上で利用可能な限られたゲートセットを用いた3次元回転推定によりこれを実証する。
我々の研究は、量子センサーが未知のパラメータを正確に推定する究極の目標を念頭に置いて、最適性という現実的な概念をセンサに導入し、最適化する。
We study optimal quantum sensing of multiple physical parameters using repeated measurements. In this scenario, the Fisher information framework sets the fundamental limits on sensing performance, yet the optimal states and corresponding measurements that attain these limits remain to be discovered. To address this, we extend the Fisher information approach with a second optimality requirement for a sensor to provide unambiguous estimation of unknown parameters. We propose a systematic method integrating Fisher information and Bayesian approaches to quantum metrology to identify the combination of input states and measurements that satisfies both optimality criteria. Specifically, we frame the optimal sensing problem as an optimization of an asymptotic Bayesian cost function that can be efficiently solved numerically and, in many cases, analytically. We refer to the resulting optimal sensor as a `quantum compass' solution, which serves as a direct multiparameter counterpart to the Greenberger-Horne-Zeilinger state-based interferometer, renowned for achieving the Heisenberg limit in single-parameter metrology. We provide exact quantum compass solutions for paradigmatic multiparameter problem of sensing two and three parameters using an SU(2) sensor. Our metrological cost function opens avenues for quantum variational techniques to design low-depth quantum circuits approaching the optimal sensing performance in the many-repetition scenario. We demonstrate this by constructing simple quantum circuits that achieve the Heisenberg limit for vector field and 3D rotations estimation using a limited set of gates available on a trapped-ion platform. Our work introduces and optimizes sensors for a practical notion of optimality, keeping in mind the ultimate goal of quantum sensors to precisely estimate unknown parameters. | 翻訳日:2024-04-23 13:56:54 公開日:2024-04-22 |
# SOFTS: 直列核融合による高効率多変量時系列予測
SOFTS: Efficient Multivariate Time Series Forecasting with Series-Core Fusion ( http://arxiv.org/abs/2404.14197v1 ) ライセンス: Link先を確認 | Lu Han, Xu-Yang Chen, Han-Jia Ye, De-Chuan Zhan, | (参考訳) 多変量時系列予測は、金融、交通管理、エネルギー、医療など様々な分野で重要な役割を果たしている。
近年の研究では、チャネル独立の利点は分布のドリフトに抵抗するが、チャネル相関を無視し、さらなる拡張を制限している。
いくつかの手法では、注意やミキサーのようなメカニズムを利用してチャネルの相関を捉えるが、過度に複雑化するか、あるいは分布のドリフトにおいて、特に多数のチャネルで、十分な結果を得るために相関に強く依存する。
このギャップに対処するため,本研究では,新しいSTADモジュールを組み込んだ効率的なMLPモデルであるSeries-cOre Fused Time Series forecaster (SOFTS)を提案する。
例えば、分散構造を通してチャネルインタラクションを管理する従来のアプローチとは異なり、STADは集中型戦略を採用している。
全系列を集約してグローバルコア表現を形成し、個別の系列表現と融合してチャネルの相互作用を効果的に促進する。
SOFTSは、線形複雑度しか持たない既存の最先端手法よりも優れた性能を実現する。
様々な予測モデルにまたがるSTADモジュールの適用性も実証的に実証されている。
さらなる研究と開発のために、私たちはhttps://github.com/Secilia-Cxy/SOFTS.comでコードを公開しました。
Multivariate time series forecasting plays a crucial role in various fields such as finance, traffic management, energy, and healthcare. Recent studies have highlighted the advantages of channel independence to resist distribution drift but neglect channel correlations, limiting further enhancements. Several methods utilize mechanisms like attention or mixer to address this by capturing channel correlations, but they either introduce excessive complexity or rely too heavily on the correlation to achieve satisfactory results under distribution drifts, particularly with a large number of channels. Addressing this gap, this paper presents an efficient MLP-based model, the Series-cOre Fused Time Series forecaster (SOFTS), which incorporates a novel STar Aggregate-Dispatch (STAD) module. Unlike traditional approaches that manage channel interactions through distributed structures, e.g., attention, STAD employs a centralized strategy. It aggregates all series to form a global core representation, which is then dispatched and fused with individual series representations to facilitate channel interactions effectively. SOFTS achieves superior performance over existing state-of-the-art methods with only linear complexity. The broad applicability of the STAD module across different forecasting models is also demonstrated empirically. For further research and development, we have made our code publicly available at https://github.com/Secilia-Cxy/SOFTS. | 翻訳日:2024-04-23 13:47:08 公開日:2024-04-22 |
# BCFPL:低解像度画像を用いたConvNetに基づく高速駐車空間認識
BCFPL: Binary classification ConvNet based Fast Parking space recognition with Low resolution image ( http://arxiv.org/abs/2404.14198v1 ) ライセンス: Link先を確認 | Shuo Zhang, Xin Chen, Zixuan Wang, | (参考訳) 自動車は人類の経済活動、特にメトロポリスにおいて重要な役割を果たしている。
このような状況下では、利用可能な駐車場の迅速な検索の需要が自動車運転者にとって大きな関心事となっている。
一方、公共のプライバシー意識も目覚めており、画像に基づく駐車スペース認識手法はプライバシー保護の注意を欠いている。
本稿では,BCFPLという軽量な設計構造を持つ二元畳み込みニューラルネットワークを提案する。
駐車スペースの画像は、異なる天候、閉塞状態、様々なカメラアングルを含む様々な複雑な環境から収集された。
異なるデータセットと部分的なサブセットのトレーニングとテストを実施しました。
実験の結果、BCFPLの精度は元の解像度画像と直接比較しても低下せず、既存の主流手法の平均レベルに達することが判明した。
また、BCFPLはハードウェア要件が低く、プライバシー要件を満たす間に認識速度が速いため、インテリジェントな都市建設や自動運転分野にも応用できる可能性がある。
The automobile plays an important role in the economic activities of mankind, especially in the metropolis. Under the circumstances, the demand of quick search for available parking spaces has become a major concern for the automobile drivers. Meanwhile, the public sense of privacy is also awaking, the image-based parking space recognition methods lack the attention of privacy protection. In this paper, we proposed a binary convolutional neural network with lightweight design structure named BCFPL, which can be used to train with low-resolution parking space images and offer a reasonable recognition result. The images of parking space were collected from various complex environments, including different weather, occlusion conditions, and various camera angles. We conducted the training and testing progresses among different datasets and partial subsets. The experimental results show that the accuracy of BCFPL does not decrease compared with the original resolution image directly, and can reach the average level of the existing mainstream method. BCFPL also has low hardware requirements and fast recognition speed while meeting the privacy requirements, so it has application potential in intelligent city construction and automatic driving field. | 翻訳日:2024-04-23 13:47:08 公開日:2024-04-22 |
# 一般化可能なニューラル・ヒューマン・レンダー
Generalizable Neural Human Renderer ( http://arxiv.org/abs/2404.14199v1 ) ライセンス: Link先を確認 | Mana Masuda, Jinhyung Park, Shun Iwase, Rawal Khirodkar, Kris Kitani, | (参考訳) アニマタブルな人間のレンダリングの最近の進歩は目覚ましい成果を上げたが、実世界のアプリケーションにとって重要な制限となるような各主題に対するテスト時間最適化が必要である。
そこで本研究では,単眼ビデオからアニマタブルな人間を描画する手法であるGeneralizable Neural Human Renderer (GNH) を,テストタイムの最適化なしに学習する難題に対処する。
提案手法は, 明示的なボディー先行と多視点形状を利用して, 入力映像から出力画像面への外観情報を転送することに焦点を当てる。
被写体を意図したポーズでレンダリングするために、より一般的なレイサンプリングやラスタライズベースのレンダリングモジュールを前にして、簡単なCNNベースの画像レンダラーを使用する。
我々のGNHは、3段階のプロセスで、目に見えない被写体による驚くほど一般化され、フォトリアリスティックなレンダリングを実現している。
我々は、GNHが現在の最先端手法を著しく上回り、特にLPIPSの31.3%の改善を達成したことを定量的に、質的に証明した。
While recent advancements in animatable human rendering have achieved remarkable results, they require test-time optimization for each subject which can be a significant limitation for real-world applications. To address this, we tackle the challenging task of learning a Generalizable Neural Human Renderer (GNH), a novel method for rendering animatable humans from monocular video without any test-time optimization. Our core method focuses on transferring appearance information from the input video to the output image plane by utilizing explicit body priors and multi-view geometry. To render the subject in the intended pose, we utilize a straightforward CNN-based image renderer, foregoing the more common ray-sampling or rasterizing-based rendering modules. Our GNH achieves remarkable generalizable, photorealistic rendering with unseen subjects with a three-stage process. We quantitatively and qualitatively demonstrate that GNH significantly surpasses current state-of-the-art methods, notably achieving a 31.3% improvement in LPIPS. | 翻訳日:2024-04-23 13:47:08 公開日:2024-04-22 |
# 最悪のローティングを超えて無限に多腕のバンドを回転させる:適応的アプローチ
Rotting Infinitely Many-armed Bandits beyond the Worst-case Rotting: An Adaptive Approach ( http://arxiv.org/abs/2404.14202v1 ) ライセンス: Link先を確認 | Jung-hun Kim, Milan Vojnovic, Se-Young Yun, | (参考訳) 本研究では、ロッティング環境における無数の武装バンディット問題について検討し、各プルで腕の平均報酬が減少するが、それ以外は変化しない。
報奨の減衰に関する問題依存的な特徴をとらえるシナリオを2つ検討する。1つは、累積ローッティング量が、スローローッティングシナリオと呼ばれる$V_T$で、もう1つは、突然ローッティングシナリオと呼ばれる$S_T$で、またもう1つは、ローッティングインスタンスの数が、突発ローッティングシナリオと呼ばれる$S_T$で有界である。
ローティング報酬による課題に対処するため,ローッティング報酬によるバイアスと分散トレードオフを管理するために,適応的なスライディングウインドウを備えたUPBを利用するアルゴリズムを導入する。
提案アルゴリズムは, 遅い, 突然のローティングシナリオの双方に対して, 厳密な後悔境界を達成できる。
最後に,合成データセットを用いたアルゴリズムの性能を示す。
In this study, we consider the infinitely many armed bandit problems in rotting environments, where the mean reward of an arm may decrease with each pull, while otherwise, it remains unchanged. We explore two scenarios capturing problem-dependent characteristics regarding the decay of rewards: one in which the cumulative amount of rotting is bounded by $V_T$, referred to as the slow-rotting scenario, and the other in which the number of rotting instances is bounded by $S_T$, referred to as the abrupt-rotting scenario. To address the challenge posed by rotting rewards, we introduce an algorithm that utilizes UCB with an adaptive sliding window, designed to manage the bias and variance trade-off arising due to rotting rewards. Our proposed algorithm achieves tight regret bounds for both slow and abrupt rotting scenarios. Lastly, we demonstrate the performance of our algorithms using synthetic datasets. | 翻訳日:2024-04-23 13:47:08 公開日:2024-04-22 |
# EnzChemRED : リッチ酵素化学相関分析データセット
EnzChemRED, a rich enzyme chemistry relation extraction dataset ( http://arxiv.org/abs/2404.14209v1 ) ライセンス: Link先を確認 | Po-Ting Lai, Elisabeth Coudert, Lucila Aimo, Kristian Axelsen, Lionel Breuza, Edouard de Castro, Marc Feuermann, Anne Morgat, Lucille Pourcel, Ivo Pedruzzi, Sylvain Poux, Nicole Redaschi, Catherine Rivoire, Anastasia Sveshnikova, Chih-Hsuan Wei, Robert Leaman, Ling Luo, Zhiyong Lu, Alan Bridge, | (参考訳) 専門家のキュレーションは、FAIRのオープンナレッジベースにおける科学文献から酵素機能の知識を取得するのに不可欠であるが、新しい発見や新しい出版物の速度に追随することができない。
本研究では,酵素キュレーションを支援する自然言語処理(NLP)手法の開発を支援するために,酵素化学関係抽出データセット(Enzyme Chemistry Relation extract Dataset)を提案する。
EnzChemREDは1,210名の専門家によるPubMed抽象体から構成されており、酵素とそれらが触媒する化学反応はUniProt Knowledgebase(UniProtKB)の識別子とChEBI(ChEBI)のオントロジーを用いてアノテートされる。
本研究では,EnzChemREDを用いた微調整済み言語モデルにより,テキスト中のタンパク質や化学物質の言及(名前付きエンティティ認識,NER)を識別し,それらが関与する化学変換(Relation extract,RE)を抽出する能力が著しく向上し,化学変換ペアのF1スコアが86.30%,化学変換ペアのREが86.66%,化学変換ペアと結合酵素のREが83.79%であった。
テキストから知識を抽出するためのエンドツーエンドパイプラインを作成し,これをPubMedスケールで抽象化し,文献中の酵素機能のドラフトマップを作成し,UniProtKBとリアクション知識ベースRheaのキュレーションをガイドする。
EnzChemRED corpusはhttps://ftp.expasy.org/databases/rhea/nlp/で無料で利用できる。
Expert curation is essential to capture knowledge of enzyme functions from the scientific literature in FAIR open knowledgebases but cannot keep pace with the rate of new discoveries and new publications. In this work we present EnzChemRED, for Enzyme Chemistry Relation Extraction Dataset, a new training and benchmarking dataset to support the development of Natural Language Processing (NLP) methods such as (large) language models that can assist enzyme curation. EnzChemRED consists of 1,210 expert curated PubMed abstracts in which enzymes and the chemical reactions they catalyze are annotated using identifiers from the UniProt Knowledgebase (UniProtKB) and the ontology of Chemical Entities of Biological Interest (ChEBI). We show that fine-tuning pre-trained language models with EnzChemRED can significantly boost their ability to identify mentions of proteins and chemicals in text (Named Entity Recognition, or NER) and to extract the chemical conversions in which they participate (Relation Extraction, or RE), with average F1 score of 86.30% for NER, 86.66% for RE for chemical conversion pairs, and 83.79% for RE for chemical conversion pairs and linked enzymes. We combine the best performing methods after fine-tuning using EnzChemRED to create an end-to-end pipeline for knowledge extraction from text and apply this to abstracts at PubMed scale to create a draft map of enzyme functions in literature to guide curation efforts in UniProtKB and the reaction knowledgebase Rhea. The EnzChemRED corpus is freely available at https://ftp.expasy.org/databases/rhea/nlp/. | 翻訳日:2024-04-23 13:47:08 公開日:2024-04-22 |
# リカレントニューラルネットワークを用いた土地表面モデルにおける河川水のルーティングに向けて
Toward Routing River Water in Land Surface Models with Recurrent Neural Networks ( http://arxiv.org/abs/2404.14212v1 ) ライセンス: Link先を確認 | Mauricio Lima, Katherine Deck, Oliver R. A. Dunbar, Tapio Schneider, | (参考訳) 機械学習は、物理ベースのモデルを補う、または置き換えるなど、水文学においてますます重要な役割を担っている。
注目すべき例として、観測された降水量と地理的特性からストリームフローを予測するために、リカレントニューラルネットワーク(RNN)を使用することが挙げられる。
アメリカ合衆国大陸でのそのようなモデルの訓練は、独立した捕食者間で1組のモデルパラメータを使用できること、RNNが物理学に基づくモデルより優れていることを証明している。
本研究では,ランドサーフェスモデル(LSM)における河川ルーティングのためのRNNの性能について検討する。
観測された降水の代わりに、LSM-RNNは物理モデルから計算された瞬時流出を入力として使用する。
我々は、地球にまたがる河川流域のデータを用いてモデルを訓練し、流れのヒンドキャストでテストする。
このモデルは、盆地(目に見えないキャッチメントにおけるストリームフローの予測)と時間(トレーニングに使用されていない数年間のストリームフローの予測)をまたいだ一般化のスキルを示す。
LSM-RNNの予測と、類似したデータセットで校正された既存の物理モデルを比較し、LSM-RNNが物理モデルより優れていることを確認する。
以上の結果から,RNNはアウトオブインプットからグローバルなストリームフロー予測に有効であることを示すとともに,ネストしたサブバス接続を捕捉可能な完全なルーティングモデルの開発を動機付けている。
Machine learning is playing an increasing role in hydrology, supplementing or replacing physics-based models. One notable example is the use of recurrent neural networks (RNNs) for forecasting streamflow given observed precipitation and geographic characteristics. Training of such a model over the continental United States has demonstrated that a single set of model parameters can be used across independent catchments, and that RNNs can outperform physics-based models. In this work, we take a next step and study the performance of RNNs for river routing in land surface models (LSMs). Instead of observed precipitation, the LSM-RNN uses instantaneous runoff calculated from physics-based models as an input. We train the model with data from river basins spanning the globe and test it in streamflow hindcasts. The model demonstrates skill at generalization across basins (predicting streamflow in unseen catchments) and across time (predicting streamflow during years not used in training). We compare the predictions from the LSM-RNN to an existing physics-based model calibrated with a similar dataset and find that the LSM-RNN outperforms the physics-based model. Our results give further evidence that RNNs are effective for global streamflow prediction from runoff inputs and motivate the development of complete routing models that can capture nested sub-basis connections. | 翻訳日:2024-04-23 13:47:08 公開日:2024-04-22 |
# テキスト・タプル・テーブル:グローバル・タプル抽出によるテキスト・ツー・タブル生成における情報統合を目指して
Text-Tuple-Table: Towards Information Integration in Text-to-Table Generation via Global Tuple Extraction ( http://arxiv.org/abs/2404.14215v1 ) ライセンス: Link先を確認 | Zheye Deng, Chunkit Chan, Weiqi Wang, Yuxi Sun, Wei Fan, Tianshi Zheng, Yauwai Yim, Yangqiu Song, | (参考訳) 近年,大規模言語モデル(LLM)の出現と,テキスト要約やテキストマイニングといった下流タスクの潜在的なメリットにより,大量のテキスト情報を簡潔で構造化されたテーブルに集約する作業が注目されている。
現実のシナリオでは、テキストからテーブルへの生成は情報抽出、推論、統合を必要とするため、以前のアプローチでは、しばしばテキストから直接情報を複製し、より広い文脈で適用性を制限するテーブルを生成する。
しかし、このタスクにはデータセットと方法論の両方が欠けている。
本稿では,リアルタイムの注釈文に基づいて競合の要約表を生成するためのベンチマークデータセットLiveSumを紹介する。
我々は,このタスクにおける最先端LCMの性能を微調整とゼロショットの両方で評価し,さらに,その性能を改善するために,$T^3$(Text-Tuple-Table)と呼ばれる新しいパイプラインを提案する。
大規模な実験結果から,LLMは微調整後もまだこの課題に苦戦していることが明らかとなった。
さらに,本手法は,他のテキスト・ツー・テーブル・データセットに先行する手法を超越して,強力な一般化能力を示すことを示す。
私たちのコードとデータはhttps://github.com/HKUST-KnowComp/LiveSum-TTTで確認できます。
The task of condensing large chunks of textual information into concise and structured tables has gained attention recently due to the emergence of Large Language Models (LLMs) and their potential benefit for downstream tasks, such as text summarization and text mining. Previous approaches often generate tables that directly replicate information from the text, limiting their applicability in broader contexts, as text-to-table generation in real-life scenarios necessitates information extraction, reasoning, and integration. However, there is a lack of both datasets and methodologies towards this task. In this paper, we introduce LiveSum, a new benchmark dataset created for generating summary tables of competitions based on real-time commentary texts. We evaluate the performances of state-of-the-art LLMs on this task in both fine-tuning and zero-shot settings, and additionally propose a novel pipeline called $T^3$(Text-Tuple-Table) to improve their performances. Extensive experimental results demonstrate that LLMs still struggle with this task even after fine-tuning, while our approach can offer substantial performance gains without explicit training. Further analyses demonstrate that our method exhibits strong generalization abilities, surpassing previous approaches on several other text-to-table datasets. Our code and data can be found at https://github.com/HKUST-KnowComp/LiveSum-TTT. | 翻訳日:2024-04-23 13:47:08 公開日:2024-04-22 |
# 高速測定デバイス非依存量子鍵分布における時間変化能動符号化によるセキュリティ欠陥
Security flaws from time-varying active encoding in high-speed measurement-device-independent quantum key distribution ( http://arxiv.org/abs/2404.14216v1 ) ライセンス: Link先を確認 | Amita Gnanapandithan, Li Qian, Hoi-Kwong Lo, | (参考訳) 量子鍵分布(QKD)は、秘密鍵を原則として情報理論セキュリティで送信することができる。
しかし、実用機器における帯域幅制限は、高速(GHz)QKDシステムのセキュリティを脅かす。
能動符号化を用いた場合のサイドチャネルの提案と特徴付けを行う。
実例として、1GHzの偏光符号化のための電気光学位相変調に着目する。
このサイドチャネルは,デコイ状態の計測デバイスに依存しないQKDプロトコルにおいて,最大送信距離を50%以上削減できることを示す。
Quantum key distribution (QKD) can transmit secret keys with, in principle, information-theoretic security. However, bandwidth limitations in practical equipment threaten the security of high-speed (GHz) QKD systems. We propose and characterize a new side channel which arises when using active encoding. As an illustrative example, we focus on electro-optic phase modulation for polarization encoding at 1 GHz. We show that this side channel may reduce the maximum secure transmission distance by over 50% in a decoy state measurement-device-independent QKD protocol. | 翻訳日:2024-04-23 13:47:08 公開日:2024-04-22 |
# 不明瞭な光子の効率的な蒸留のための一般的なプロトコル
General protocols for the efficient distillation of indistinguishable photons ( http://arxiv.org/abs/2404.14217v1 ) ライセンス: Link先を確認 | Jason Saied, Jeffrey Marshall, Namit Anand, Eleanor G. Rieffel, | (参考訳) 高純度で識別不能な光子は、量子情報処理で使用するための前提条件である。
そこで本研究では, 従来よりも大幅に向上した未分化光子の蒸留プロトコルを導入し, 資源要求値が$n$に線形にスケールすることで, 識別可能性の誤差率を$n$に削減する。
本稿では,離散フーリエ変換とアダマール(シルヴェスター)行列に基づくプロトコルについて述べる。
我々は, これらの蒸留プロトコルの挙動を理解する上で, 抑制法則を規定する同じ対称性が重要であることを観察した。
また、アダマールの場合から、$n$1の素数を持つ$n$-光子離散フーリエ変換に対して、抑制法則は置換対称性に基づくよく知られたゼロ透過法則によって正確に特徴づけられることを証明した。
Highly pure and indistinguishable photons are a prerequisite for use in quantum information processing. We introduce protocols for the distillation of indistinguishable photons that offer a significant improvement over previous work, reducing distinguishability error rates by a factor of $n$, with resource requirements scaling linearly in $n$. We present the protocols, based on the discrete Fourier transform and Hadamard (Sylvester) matrices, then give both analytical and numerical results regarding their performance. We observe that the same symmetry properties governing suppression laws are instrumental in understanding the behavior of these distillation protocols. We also prove, adapting a result from the Hadamard case, that for the $n$-photon discrete Fourier transform with $n$ a prime power, the suppression laws are exactly characterized by the well-known Zero Transmission Law based on permutation symmetry. | 翻訳日:2024-04-23 13:47:08 公開日:2024-04-22 |
# Phi-3テクニカルレポート:スマートフォンでローカルに高機能な言語モデル
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone ( http://arxiv.org/abs/2404.14219v1 ) ライセンス: Link先を確認 | Marah Abdin, Sam Ade Jacobs, Ammar Ahmad Awan, Jyoti Aneja, Ahmed Awadallah, Hany Awadalla, Nguyen Bach, Amit Bahree, Arash Bakhtiari, Harkirat Behl, Alon Benhaim, Misha Bilenko, Johan Bjorck, Sébastien Bubeck, Martin Cai, Caio César Teodoro Mendes, Weizhu Chen, Vishrav Chaudhary, Parul Chopra, Allie Del Giorno, Gustavo de Rosa, Matthew Dixon, Ronen Eldan, Dan Iter, Abhishek Goswami, Suriya Gunasekar, Emman Haider, Junheng Hao, Russell J. Hewett, Jamie Huynh, Mojan Javaheripi, Xin Jin, Piero Kauffmann, Nikos Karampatziakis, Dongwoo Kim, Mahoud Khademi, Lev Kurilenko, James R. Lee, Yin Tat Lee, Yuanzhi Li, Chen Liang, Weishung Liu, Eric Lin, Zeqi Lin, Piyush Madan, Arindam Mitra, Hardik Modi, Anh Nguyen, Brandon Norick, Barun Patra, Daniel Perez-Becker, Thomas Portet, Reid Pryzant, Heyang Qin, Marko Radmilac, Corby Rosset, Sambudha Roy, Olli Saarikivi, Amin Saied, Adil Salim, Michael Santacroce, Shital Shah, Ning Shang, Hiteshi Sharma, Xia Song, Olatunji Ruwase, Xin Wang, Rachel Ward, Guanhua Wang, Philipp Witte, Michael Wyatt, Can Xu, Jiahang Xu, Sonali Yadav, Fan Yang, Ziyi Yang, Donghan Yu, Chengruidong Zhang, Cyril Zhang, Jianwen Zhang, Li Lyna Zhang, Yi Zhang, Yunan Zhang, Xiren Zhou, | (参考訳) 我々は、3.3兆のトークンでトレーニングされた3.8億のパラメータ言語モデルであるphi-3-miniを紹介し、その全体的な性能は、電話に展開できるほど小さいにもかかわらず、Mixtral 8x7BやGPT-3.5(例えば、phi-3-miniはMMLUで69%、MT-benchで8.38)のようなモデルに匹敵する。
このイノベーションは、十分にフィルタリングされたWebデータと合成データで構成されるphi-2のスケールアップバージョンである、トレーニングのためのデータセットに完全に含まれています。
モデルはさらに堅牢性、安全性、チャットフォーマットに整合している。
また,4.8Tトークンに対して訓練された7Bおよび14Bモデルであるphi-3-smallおよびphi-3-mediumを,それぞれMMLUで75%,78%,MT-benchで8.7,8.9)よりも有意に高いパラメータスケーリング結果を示した。
We introduce phi-3-mini, a 3.8 billion parameter language model trained on 3.3 trillion tokens, whose overall performance, as measured by both academic benchmarks and internal testing, rivals that of models such as Mixtral 8x7B and GPT-3.5 (e.g., phi-3-mini achieves 69% on MMLU and 8.38 on MT-bench), despite being small enough to be deployed on a phone. The innovation lies entirely in our dataset for training, a scaled-up version of the one used for phi-2, composed of heavily filtered web data and synthetic data. The model is also further aligned for robustness, safety, and chat format. We also provide some initial parameter-scaling results with a 7B and 14B models trained for 4.8T tokens, called phi-3-small and phi-3-medium, both significantly more capable than phi-3-mini (e.g., respectively 75% and 78% on MMLU, and 8.7 and 8.9 on MT-bench). | 翻訳日:2024-04-23 13:47:08 公開日:2024-04-22 |
# 分解に基づく進化的多目的最適化に関する調査研究 : その2 -- データサイエンスの視点から
A Survey of Decomposition-Based Evolutionary Multi-Objective Optimization: Part II -- A Data Science Perspective ( http://arxiv.org/abs/2404.14228v1 ) ライセンス: Link先を確認 | Mingyu Huang, Ke Li, | (参考訳) 本稿では、分解に基づく進化的多目的最適化に関する2部調査シリーズの第2部について、主に分解に基づく多目的進化アルゴリズム(MOEA/D)に関する文献について議論する。
まず第一に、我々は一連の先進的なデータマイニング手法を採用し、MOEA/D研究の巨大な景観の包括的解剖学を提供しています。
5,400以上の論文,10,000人の著者,400の会場,1600のMOEA/D研究機関をカプセル化した異種知識グラフを構築した。
分析は基本的な記述統計から始めます。
そして、MOEA/Dに関する顕著な研究・応用トピックを最先端のトピックモデリング技術を用いて探索し、その時空間的・二元的関係を問う。
また,MOEA/Dの協調と引用ネットワークを探索し,文学の成長の隠れパターンと研究者間のコラボレーションを明らかにした。
データマイニングの結果は、パートIのエキスパートレビューと合わせて、MOEA/D研究の全体像を提供し、データサイエンスの観点から科学的調査を行うためのエキサイティングな新しいパラダイムの可能性を実証しています。
This paper presents the second part of the two-part survey series on decomposition-based evolutionary multi-objective optimization where we mainly focus on discussing the literature related to multi-objective evolutionary algorithms based on decomposition (MOEA/D). Complementary to the first part, here we employ a series of advanced data mining approaches to provide a comprehensive anatomy of the enormous landscape of MOEA/D research, which is far beyond the capacity of classic manual literature review protocol. In doing so, we construct a heterogeneous knowledge graph that encapsulates more than 5,400 papers, 10,000 authors, 400 venues, and 1,600 institutions for MOEA/D research. We start our analysis with basic descriptive statistics. Then we delve into prominent research/application topics pertaining to MOEA/D with state-of-the-art topic modeling techniques and interrogate their sptial-temporal and bilateral relationships. We also explored the collaboration and citation networks of MOEA/D, uncovering hidden patterns in the growth of literature as well as collaboration between researchers. Our data mining results here, combined with the expert review in Part I, together offer a holistic view of the MOEA/D research, and demonstrate the potential of an exciting new paradigm for conducting scientific surveys from a data science perspective. | 翻訳日:2024-04-23 13:47:08 公開日:2024-04-22 |
# HCEyeに焦点を移す - 視覚的ハイライトと認知的負荷のダイナミクスがユーザの注意と満足度予測に与える影響を探求する
Shifting Focus with HCEye: Exploring the Dynamics of Visual Highlighting and Cognitive Load on User Attention and Saliency Prediction ( http://arxiv.org/abs/2404.14232v1 ) ライセンス: Link先を確認 | Anwesha Das, Zekun Wu, Iza Škrjanec, Anna Maria Feit, | (参考訳) ビジュアルハイライトは、複雑なインターフェイスでユーザーの注意を誘導する。
しかし、注意力の制限による効果は未発見である。
本稿では,視覚強調(永続的・動的)と両タスクによる認知負荷が視線行動に及ぼす影響について検討する。
150のユニークなWebページを見る27人の被験者の眼球運動データを用いて分析したところ、認知負荷の増加に伴い、参加者のUI要素への参加能力は低下するが、動的適応(ハイライト)は注意を引くままであることがわかった。
これらの要因の存在は、人々が出席するものと、従順なものを大きく変えます。
したがって, 認知負荷の異なる場合, 最先端の正当性モデルでは, 性能が向上することを示す。
私たちの経験的な洞察は、オープンに利用可能なデータセットとともに、さまざまな認知的(そして知覚的)負荷の下でUIの注意プロセスの理解を高め、マルチタスク中にユーザの注意を予測できる新しいモデルへの扉を開くのです。
Visual highlighting can guide user attention in complex interfaces. However, its effectiveness under limited attentional capacities is underexplored. This paper examines the joint impact of visual highlighting (permanent and dynamic) and dual-task-induced cognitive load on gaze behaviour. Our analysis, using eye-movement data from 27 participants viewing 150 unique webpages reveals that while participants' ability to attend to UI elements decreases with increasing cognitive load, dynamic adaptations (i.e., highlighting) remain attention-grabbing. The presence of these factors significantly alters what people attend to and thus what is salient. Accordingly, we show that state-of-the-art saliency models increase their performance when accounting for different cognitive loads. Our empirical insights, along with our openly available dataset, enhance our understanding of attentional processes in UIs under varying cognitive (and perceptual) loads and open the door for new models that can predict user attention while multitasking. | 翻訳日:2024-04-23 13:47:08 公開日:2024-04-22 |
# 微細粒度AIフィードバックによる大規模視覚言語モデルにおける幻覚の検出と緩和
Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback ( http://arxiv.org/abs/2404.14233v1 ) ライセンス: Link先を確認 | Wenyi Xiao, Ziwei Huang, Leilei Gan, Wanggui He, Haoyuan Li, Zhelun Yu, Hao Jiang, Fei Wu, Linchao Zhu, | (参考訳) 急速に発展しているLVLM(Large Vision Language Models)は、様々なマルチモーダルタスクにおいて顕著な機能を示しているが、生成したテキストが与えられたコンテキストと一致しない幻覚現象に直面しており、LVLMの使用を著しく制限している。
これまでのほとんどの研究は、粗いレベルで幻覚を検出し、緩和したり、高価なアノテーションを必要とする(プロプライエタリなモデルや人間の専門家によるラベル付けなど)。
これらの問題に対処するため,我々は微細なAIフィードバックによるLVLMの幻覚の検出と緩和を提案する。
基本的考え方は、プロプライエタリなモデルによる小規模の文レベルの幻覚アノテーションデータセットを生成し、そこで、文レベルの幻覚検出を行うことができる幻覚検出モデルを訓練し、第一の幻覚タイプ(オブジェクト、属性、関係性など)をカバーすることである。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
さらに,幻覚の重症度を識別し,幻覚の重症度を優先学習に組み込むことで,LVLMにおける幻覚の緩和を目的とした幻覚の重症度評価手法(HSA-DPO)を提案する。
大規模な実験により,本手法の有効性が示された。
The rapidly developing Large Vision Language Models (LVLMs) have shown notable capabilities on a range of multi-modal tasks, but still face the hallucination phenomena where the generated texts do not align with the given contexts, significantly restricting the usages of LVLMs. Most previous work detects and mitigates hallucination at the coarse-grained level or requires expensive annotation (e.g., labeling by proprietary models or human experts). To address these issues, we propose detecting and mitigating hallucinations in LVLMs via fine-grained AI feedback. The basic idea is that we generate a small-size sentence-level hallucination annotation dataset by proprietary models, whereby we train a hallucination detection model which can perform sentence-level hallucination detection, covering primary hallucination types (i.e., object, attribute, and relationship). Then, we propose a detect-then-rewrite pipeline to automatically construct preference dataset for training hallucination mitigating model. Furthermore, we propose differentiating the severity of hallucinations, and introducing a Hallucination Severity-Aware Direct Preference Optimization (HSA-DPO) for mitigating hallucination in LVLMs by incorporating the severity of hallucinations into preference learning. Extensive experiments demonstrate the effectiveness of our method. | 翻訳日:2024-04-23 13:47:08 公開日:2024-04-22 |
# Beyond the Edge: モバイルエッジコンピューティングのための強化学習の先進的な探索とその応用と今後の研究軌道
Beyond the Edge: An Advanced Exploration of Reinforcement Learning for Mobile Edge Computing, its Applications, and Future Research Trajectories ( http://arxiv.org/abs/2404.14238v1 ) ライセンス: Link先を確認 | Ning Yang, Shuo Chen, Haijun Zhang, Randall Berry, | (参考訳) Mobile Edge Computing (MEC)は、エッジノードをエンドデバイスに近づけることで、中央ネットワークを越えて計算とストレージの範囲を広げる。
この拡張により、エッジネットワーク内での大規模"コネクテッドモノ"の実装が容易になる。
リアルタイムで高品質なサービスを必要とするアプリケーションの出現は、低レイテンシ、高いデータレート、信頼性、効率性、セキュリティなど、さまざまな課題をもたらします。
MECネットワークにおける強化学習(RL)手法の導入は,モバイルユーザ行動やネットワークダイナミクスの理解を深め,コンピューティングや通信プロセスにおけるリソース利用を最適化する。
本稿では,MEC ネットワークにおける RL アプリケーションの概要を概観し,その基本原理から最新のフレームワークまでの概要を述べる。
さらに、MECネットワーク内のオフロード、キャッシュ、通信に使用される様々なRL戦略を概説する。
最後に、ソフトウェアとハードウェアプラットフォーム、表現、RL堅牢性、安全なRL、大規模スケジューリング、一般化、セキュリティ、プライバシに関連するオープンな問題について検討する。
本稿では,これらの問題を緩和する特定のRL手法を提案し,その実践的応用について考察する。
Mobile Edge Computing (MEC) broadens the scope of computation and storage beyond the central network, incorporating edge nodes close to end devices. This expansion facilitates the implementation of large-scale "connected things" within edge networks. The advent of applications necessitating real-time, high-quality service presents several challenges, such as low latency, high data rate, reliability, efficiency, and security, all of which demand resolution. The incorporation of reinforcement learning (RL) methodologies within MEC networks promotes a deeper understanding of mobile user behaviors and network dynamics, thereby optimizing resource use in computing and communication processes. This paper offers an exhaustive survey of RL applications in MEC networks, initially presenting an overview of RL from its fundamental principles to the latest advanced frameworks. Furthermore, it outlines various RL strategies employed in offloading, caching, and communication within MEC networks. Finally, it explores open issues linked with software and hardware platforms, representation, RL robustness, safe RL, large-scale scheduling, generalization, security, and privacy. The paper proposes specific RL techniques to mitigate these issues and provides insights into their practical applications. | 翻訳日:2024-04-23 13:47:08 公開日:2024-04-22 |
# MultiBooth: テキストからすべての概念を生成する
MultiBooth: Towards Generating All Your Concepts in an Image from Text ( http://arxiv.org/abs/2404.14239v1 ) ライセンス: Link先を確認 | Chenyang Zhu, Kai Li, Yue Ma, Chunming He, Li Xiu, | (参考訳) 本稿では,テキストからの画像生成において,マルチコンセプトをカスタマイズするための新しい,効率的な手法であるMultiBoothを紹介する。
カスタマイズされた生成手法、特に拡散モデルの成功にもかかわらず、既存の手法はコンセプトの忠実度が低く、推論コストが高いため、多概念シナリオに苦しむことが多い。
MultiBoothは、マルチコンセプト生成プロセスを、シングルコンセプト学習フェーズとマルチコンセプト統合フェーズの2つのフェーズに分割することで、これらの問題に対処する。
シングルコンセプト学習フェーズでは,マルチモーダル画像エンコーダと効率的な概念エンコーダを用いて,各概念の簡潔かつ識別的な表現を学習する。
多概念統合フェーズでは、有界ボックスを用いて、相互注意マップ内の各概念の生成領域を定義する。
本手法により,特定領域における個々の概念の作成が可能となり,マルチコンセプト画像の生成が容易になる。
この戦略は概念の忠実性を改善するだけでなく、追加の推論コストを削減する。
MultiBoothは質的評価と定量的評価の両方において様々なベースラインを超え、その優れた性能と計算効率を示している。
Project Page: https://multibooth.github.io/
This paper introduces MultiBooth, a novel and efficient technique for multi-concept customization in image generation from text. Despite the significant advancements in customized generation methods, particularly with the success of diffusion models, existing methods often struggle with multi-concept scenarios due to low concept fidelity and high inference cost. MultiBooth addresses these issues by dividing the multi-concept generation process into two phases: a single-concept learning phase and a multi-concept integration phase. During the single-concept learning phase, we employ a multi-modal image encoder and an efficient concept encoding technique to learn a concise and discriminative representation for each concept. In the multi-concept integration phase, we use bounding boxes to define the generation area for each concept within the cross-attention map. This method enables the creation of individual concepts within their specified regions, thereby facilitating the formation of multi-concept images. This strategy not only improves concept fidelity but also reduces additional inference cost. MultiBooth surpasses various baselines in both qualitative and quantitative evaluations, showcasing its superior performance and computational efficiency. Project Page: https://multibooth.github.io/ | 翻訳日:2024-04-23 13:47:08 公開日:2024-04-22 |
# 拡散モデルに基づく協調フィルタリング:高次接続性の可能性を探る
Collaborative Filtering Based on Diffusion Models: Unveiling the Potential of High-Order Connectivity ( http://arxiv.org/abs/2404.14240v1 ) ライセンス: Link先を確認 | Yu Hou, Jin-Duk Park, Won-Yong Shin, | (参考訳) 近年の研究では、拡散モデルがレコメンデータシステムにおけるユーザ・イテム相互作用の生成過程のモデル化に適していることが示されている。
しかし、既存の拡散モデルに基づくレコメンデーションシステムは、正確なレコメンデーションのために重要な協調信号を含む高次接続性を明示的に活用していない。
このギャップに対処するため, CF-Diffを提案する。CF-Diffは拡散モデルに基づく協調フィルタリング(CF)手法で, マルチホップ隣人とともに協調信号を完全に活用できる。
具体的には、前方拡散プロセスは、ユーザとイテムのインタラクションにランダムノイズを付加する一方、リバースデノベーションプロセスは、クロスアテンション誘導マルチホップオートエンコーダ(CAM-AE)と呼ばれる独自の学習モデルに対応し、元のユーザとイテムのインタラクションを徐々に回復させる。
CAM-AEは2つのコアモジュールから構成される。
1)注意支援型AEモジュールは、管理可能なレベルでモデルの複雑さを保ちながら、ユーザ・イテム相互作用の潜在表現を正確に学習する。
2)マルチホップ・クロスアテンションモジュールは,高次接続情報を利用して協調的な信号の収集を行う。
3つの実世界のデータセットに関する総合的な実験を通して、CF-Diffが証明される。
(a)スペリオル:ベンチマークレコメンデーション手法より優れており、最高の競合相手に比べて7.29%も顕著に向上している。
b)理論上の検証: 計算を削減しつつ、我々のモデルが生成した埋め込みを元のクロスアテンションから密接に近似させ、
(c) スケーラブル: ユーザ数や項目数と線形にスケールする計算効率を証明すること。
A recent study has shown that diffusion models are well-suited for modeling the generative process of user-item interactions in recommender systems due to their denoising nature. However, existing diffusion model-based recommender systems do not explicitly leverage high-order connectivities that contain crucial collaborative signals for accurate recommendations. Addressing this gap, we propose CF-Diff, a new diffusion model-based collaborative filtering (CF) method, which is capable of making full use of collaborative signals along with multi-hop neighbors. Specifically, the forward-diffusion process adds random noise to user-item interactions, while the reverse-denoising process accommodates our own learning model, named cross-attention-guided multi-hop autoencoder (CAM-AE), to gradually recover the original user-item interactions. CAM-AE consists of two core modules: 1) the attention-aided AE module, responsible for precisely learning latent representations of user-item interactions while preserving the model's complexity at manageable levels, and 2) the multi-hop cross-attention module, which judiciously harnesses high-order connectivity information to capture enhanced collaborative signals. Through comprehensive experiments on three real-world datasets, we demonstrate that CF-Diff is (a) Superior: outperforming benchmark recommendation methods, achieving remarkable gains up to 7.29% compared to the best competitor, (b) Theoretically-validated: reducing computations while ensuring that the embeddings generated by our model closely approximate those from the original cross-attention, and (c) Scalable: proving the computational efficiency that scales linearly with the number of users or items. | 翻訳日:2024-04-23 13:37:25 公開日:2024-04-22 |
# UrbanCross: クロスドメイン適応による衛星画像検索の強化
UrbanCross: Enhancing Satellite Image-Text Retrieval with Cross-Domain Adaptation ( http://arxiv.org/abs/2404.14241v1 ) ライセンス: Link先を確認 | Siru Zhong, Xixuan Hao, Yibo Yan, Ying Zhang, Yangqiu Song, Yuxuan Liang, | (参考訳) 都市化の課題は、都市化のための地理的意味論に富んだ特定の情報に迅速にアクセスできる効果的な衛星画像テキスト検索手法の必要性を浮き彫りにするものである。
しかし、既存の手法は、様々な都市景観にまたがる重要なドメインギャップを見落とし、主に単一のドメイン内での検索性能の向上に重点を置いている。
この問題に対処するため,我々は,クロスドメイン衛星画像テキスト検索のための新しいフレームワークであるUrbanCrossを提案する。
UrbanCrossは、ドメインの多様性を強調するために、3つの国の広範なジオタグで強化された高品質なクロスドメインデータセットを活用する。
テキストの洗練にはLarge Multimodal Model(LMM)、ビジュアル拡張にはSegment Anything Model(SAM)を採用し、画像、セグメント、テキストのきめ細かいアライメントを実現し、検索性能は10%向上した。
さらに、UrbanCrossは、適応型カリキュラムベースのソースサンプリングと重み付き対向型クロスドメイン微調整モジュールを組み込み、様々な領域にわたる適応性を徐々に改善している。
大規模な実験により、新しい都市環境への適応と検索において、アーバンクロスの優れた効率性が確認され、ドメイン適応機構を使わずに、そのバージョンの平均性能が15%向上し、ドメインギャップを効果的に埋めることを示した。
Urbanization challenges underscore the necessity for effective satellite image-text retrieval methods to swiftly access specific information enriched with geographic semantics for urban applications. However, existing methods often overlook significant domain gaps across diverse urban landscapes, primarily focusing on enhancing retrieval performance within single domains. To tackle this issue, we present UrbanCross, a new framework for cross-domain satellite image-text retrieval. UrbanCross leverages a high-quality, cross-domain dataset enriched with extensive geo-tags from three countries to highlight domain diversity. It employs the Large Multimodal Model (LMM) for textual refinement and the Segment Anything Model (SAM) for visual augmentation, achieving a fine-grained alignment of images, segments and texts, yielding a 10% improvement in retrieval performance. Additionally, UrbanCross incorporates an adaptive curriculum-based source sampler and a weighted adversarial cross-domain fine-tuning module, progressively enhancing adaptability across various domains. Extensive experiments confirm UrbanCross's superior efficiency in retrieval and adaptation to new urban environments, demonstrating an average performance increase of 15% over its version without domain adaptation mechanisms, effectively bridging the domain gap. | 翻訳日:2024-04-23 13:37:25 公開日:2024-04-22 |
# 高速レコメンデーションのためのTurbo-CF:行列分解フリーグラフフィルタ
Turbo-CF: Matrix Decomposition-Free Graph Filtering for Fast Recommendation ( http://arxiv.org/abs/2404.14243v1 ) ライセンス: Link先を確認 | Jin-Duk Park, Yong-Min Shin, Won-Yong Shin, | (参考訳) 一連のグラフフィルタリング(GF)に基づく協調フィルタリング(CF)は、トレーニングプロセスなしで低域フィルタ(LPF)を用いることで、推奨精度の最先端性能を示す。
しかし、従来の GF ベースの CF アプローチは、項目-項目類似性グラフ上で行列分解を行い、理想の LPF を実現し、非自明な計算コストをもたらすため、迅速なレコメンデーションが不可欠であるシナリオでは実用的でない。
本稿では,GFに基づくCF法であるTurbo-CFを提案する。
Turbo-CFは、高価な行列分解の問題を回避するために多項式グラフフィルタを使用し、現代のコンピュータハードウェアコンポーネント(GPU)をフル活用することができます。
特にTurbo-CFは、エッジウェイトが効果的に制御されるアイテム-イット類似性グラフを最初に構築する。
そして、我々の多項式LPFは、明らかな行列分解を伴わずに低周波信号のみを保持するように設計されている。
我々は、Turbo-CFは非常に高速で正確であり、実世界のベンチマークデータセットで1秒未満のランタイムを達成すると同時に、最高の競合相手に匹敵する推奨精度を達成することを実証した。
A series of graph filtering (GF)-based collaborative filtering (CF) showcases state-of-the-art performance on the recommendation accuracy by using a low-pass filter (LPF) without a training process. However, conventional GF-based CF approaches mostly perform matrix decomposition on the item-item similarity graph to realize the ideal LPF, which results in a non-trivial computational cost and thus makes them less practical in scenarios where rapid recommendations are essential. In this paper, we propose Turbo-CF, a GF-based CF method that is both training-free and matrix decomposition-free. Turbo-CF employs a polynomial graph filter to circumvent the issue of expensive matrix decompositions, enabling us to make full use of modern computer hardware components (i.e., GPU). Specifically, Turbo-CF first constructs an item-item similarity graph whose edge weights are effectively regulated. Then, our own polynomial LPFs are designed to retain only low-frequency signals without explicit matrix decompositions. We demonstrate that Turbo-CF is extremely fast yet accurate, achieving a runtime of less than 1 second on real-world benchmark datasets while achieving recommendation accuracies comparable to best competitors. | 翻訳日:2024-04-23 13:37:25 公開日:2024-04-22 |
# 現実世界のAI生成顔:Twitterプロフィール画像の大規模ケーススタディ
AI-Generated Faces in the Real World: A Large-Scale Case Study of Twitter Profile Images ( http://arxiv.org/abs/2404.14244v1 ) ライセンス: Link先を確認 | Jonas Ricker, Dennis Assenmacher, Thorsten Holz, Asja Fischer, Erwin Quiring, | (参考訳) 生成人工知能(AI)分野の最近の進歩は、真のコンテンツと機械生成コンテンツの境界を曖昧にしており、人間がそのようなメディアを区別することはほとんど不可能である。
顕著な結果のひとつは、ソーシャルメディア上のフェイクプロフィールにAI生成イメージを使用することだ。
これまでいくつかの偽情報キャンペーンや同様の事件が報告されてきたが、体系的な分析は乏しい。
本研究では,Twitter上でのAI生成プロフィール画像の普及状況について,大規模な調査を行った。
我々は,様々なデータソースを注意深く統合し,多段階検出パイプラインを設計することで,実世界の計測研究の課題に取り組む。
約1500万枚のTwitterプロフィール写真を分析したところ、0.052%が人工的に生成され、プラットフォーム上での存在が確認された。
我々はこれらのアカウントの特徴とそのつぶやき内容について包括的に検討し、協調した不正確な行動のパターンを明らかにする。
結果は、スパムや政治的増幅キャンペーンなど、いくつかの動機も明らかにしている。
我々の研究は、将来、生成AIの潜在的な負の効果に対処するための効果的な検出と緩和戦略の必要性を再確認する。
Recent advances in the field of generative artificial intelligence (AI) have blurred the lines between authentic and machine-generated content, making it almost impossible for humans to distinguish between such media. One notable consequence is the use of AI-generated images for fake profiles on social media. While several types of disinformation campaigns and similar incidents have been reported in the past, a systematic analysis has been lacking. In this work, we conduct the first large-scale investigation of the prevalence of AI-generated profile pictures on Twitter. We tackle the challenges of a real-world measurement study by carefully integrating various data sources and designing a multi-stage detection pipeline. Our analysis of nearly 15 million Twitter profile pictures shows that 0.052% were artificially generated, confirming their notable presence on the platform. We comprehensively examine the characteristics of these accounts and their tweet content, and uncover patterns of coordinated inauthentic behavior. The results also reveal several motives, including spamming and political amplification campaigns. Our research reaffirms the need for effective detection and mitigation strategies to cope with the potential negative effects of generative AI in the future. | 翻訳日:2024-04-23 13:37:25 公開日:2024-04-22 |
# 信頼の連鎖:コモン・クレーテリア認定商品の基準を明らかにする
Chain of trust: Unraveling the references among Common Criteria certified products ( http://arxiv.org/abs/2404.14246v1 ) ライセンス: Link先を確認 | Adam Janovsky, Łukasz Chmielewski, Petr Svenda, Jan Jancar, Vashek Matyas, | (参考訳) IT製品とシステムのセキュリティ証明書5394により、Common Criteria for Information Technology Security Evaluation(情報技術セキュリティ評価共通基準)は、認定された製品とさまざまな種類の関係に絡み合ったエコシステムを育んでいる。
しかし、Common Criteria認定製品における依存性の頻度と性質はほとんど解明されていない。
本研究は,Common Criteria認定商品間の参照グラフの構築,教師付き機械学習アルゴリズムによる参照の異なるコンテキストの決定,および,認定商品間の実際の依存度を計測する新しい手法を提案する。
この研究は、結果の参照グラフの助けを借りて、エコシステム全体の少なくとも10%が依存している認証済みのコンポーネントをわずか10個特定する。
それらの妥協の影響が評価され、アーカイブ製品への潜在的に問題のある参照が議論される。
With 5394 security certificates of IT products and systems, the Common Criteria for Information Technology Security Evaluation have bred an ecosystem entangled with various kind of relations between the certified products. Yet, the prevalence and nature of dependencies among Common Criteria certified products remains largely unexplored. This study devises a novel method for building the graph of references among the Common Criteria certified products, determining the different contexts of references with a supervised machine-learning algorithm, and measuring how often the references constitute actual dependencies between the certified products. With the help of the resulting reference graph, this work identifies just a dozen of certified components that are relied on by at least 10% of the whole ecosystem -- making them a prime target for malicious actors. The impact of their compromise is assessed and potentially problematic references to archived products are discussed. | 翻訳日:2024-04-23 13:37:25 公開日:2024-04-22 |
# モダリティからスタイルへ:不均一顔認識における領域ギャップの再考
From Modalities to Styles: Rethinking the Domain Gap in Heterogeneous Face Recognition ( http://arxiv.org/abs/2404.14247v1 ) ライセンス: Link先を確認 | Anjith George, Sebastien Marcel, | (参考訳) Heterogeneous Face Recognition (HFR)は、例えば熱画像から可視画像まで、さまざまな領域の顔のマッチングに焦点を当てており、顔認識(FR)システムは困難なシナリオに対してより汎用的である。
しかし、これらのドメインとターゲットHFRモダリティの限られた大規模データセットとのドメインギャップは、スクラッチから堅牢なHFRモデルを開発するのを困難にしている。
本研究では,異なるモダリティを異なるスタイルとみなし,対象のモダリティの特徴マップをドメインギャップに対処する手法を提案する。
本稿では、既存のFRネットワークにシームレスに適合し、それらをHFR対応システムに変換する、新しい条件適応インスタンス変調(CAIM)モジュールを提案する。
CAIMブロックは中間特徴写像を変調し、ソースモダリティのスタイルに効率よく適応し、ドメインギャップをブリッジする。
提案手法は,少数のペアサンプルを用いてエンドツーエンドのトレーニングを可能にする。
我々は,提案手法を様々な挑戦的HFRベンチマークで広く評価し,最先端の手法よりも優れていることを示す。
発見を再現するソースコードとプロトコルを公開する。
Heterogeneous Face Recognition (HFR) focuses on matching faces from different domains, for instance, thermal to visible images, making Face Recognition (FR) systems more versatile for challenging scenarios. However, the domain gap between these domains and the limited large-scale datasets in the target HFR modalities make it challenging to develop robust HFR models from scratch. In our work, we view different modalities as distinct styles and propose a method to modulate feature maps of the target modality to address the domain gap. We present a new Conditional Adaptive Instance Modulation (CAIM ) module that seamlessly fits into existing FR networks, turning them into HFR-ready systems. The CAIM block modulates intermediate feature maps, efficiently adapting to the style of the source modality and bridging the domain gap. Our method enables end-to-end training using a small set of paired samples. We extensively evaluate the proposed approach on various challenging HFR benchmarks, showing that it outperforms state-of-the-art methods. The source code and protocols for reproducing the findings will be made publicly available | 翻訳日:2024-04-23 13:37:25 公開日:2024-04-22 |
# NTIRE 2024 低照度画像強調への挑戦:方法と結果
NTIRE 2024 Challenge on Low Light Image Enhancement: Methods and Results ( http://arxiv.org/abs/2404.14248v1 ) ライセンス: Link先を確認 | Xiaoning Liu, Zongwei Wu, Ao Li, Florin-Alexandru Vasluianu, Yulun Zhang, Shuhang Gu, Le Zhang, Ce Zhu, Radu Timofte, Zhi Jin, Hongjun Wu, Chenxi Wang, Haitao Ling, Yuanhao Cai, Hao Bian, Yuxin Zheng, Jing Lin, Alan Yuille, Ben Shao, Jin Guo, Tianli Liu, Mohao Wu, Yixu Feng, Shuo Hou, Haotian Lin, Yu Zhu, Peng Wu, Wei Dong, Jinqiu Sun, Yanning Zhang, Qingsen Yan, Wenbin Zou, Weipeng Yang, Yunxiang Li, Qiaomu Wei, Tian Ye, Sixiang Chen, Zhao Zhang, Suiyi Zhao, Bo Wang, Yan Luo, Zhichao Zuo, Mingshen Wang, Junhu Wang, Yanyan Wei, Xiaopeng Sun, Yu Gao, Jiancheng Huang, Hongming Chen, Xiang Chen, Hui Tang, Yuanbin Chen, Yuanbo Zhou, Xinwei Dai, Xintao Qiu, Wei Deng, Qinquan Gao, Tong Tong, Mingjia Li, Jin Hu, Xinyu He, Xiaojie Guo, Sabarinathan, K Uma, A Sasithradevi, B Sathya Bama, S. Mohamed Mansoor Roomi, V. Srivatsav, Jinjuan Wang, Long Sun, Qiuying Chen, Jiahong Shao, Yizhi Zhang, Marcos V. Conde, Daniel Feijoo, Juan C. Benito, Alvaro García, Jaeho Lee, Seongwan Kim, Sharif S M A, Nodirkhuja Khujaev, Roman Tsoy, Ali Murtaza, Uswah Khairuddin, Ahmad 'Athif Mohd Faudzi, Sampada Malagi, Amogh Joshi, Nikhil Akalwadi, Chaitra Desai, Ramesh Ashok Tabib, Uma Mudenagudi, Wenyi Lian, Wenjing Lian, Jagadeesh Kalyanshetti, Vijayalaxmi Ashok Aralikatti, Palani Yashaswini, Nitish Upasi, Dikshit Hegde, Ujwala Patil, Sujata C, Xingzhuo Yan, Wei Hao, Minghan Fu, Pooja choksy, Anjali Sarvaiya, Kishor Upla, Kiran Raja, Hailong Yan, Yunkai Zhang, Baiang Li, Jingyi Zhang, Huan Zheng, | (参考訳) 本稿では,NTIRE 2024低照度画像強調課題について概説し,提案手法と結果について述べる。
この課題の目的は、超高解像度(4K以上)、非均一照明、バックライト、極暗、夜景など、様々な条件を扱う際に、より明るく透明で視覚的にアピールできる効果的なネットワーク設計やソリューションを見つけることである。
参加者は428人であり、22チームが最終的に有効な応募を行った。
本論文は、低照度画像の高精細化における最先端の進歩を慎重に評価し、この分野における顕著な進歩と創造性を反映したものである。
This paper reviews the NTIRE 2024 low light image enhancement challenge, highlighting the proposed solutions and results. The aim of this challenge is to discover an effective network design or solution capable of generating brighter, clearer, and visually appealing results when dealing with a variety of conditions, including ultra-high resolution (4K and beyond), non-uniform illumination, backlighting, extreme darkness, and night scenes. A notable total of 428 participants registered for the challenge, with 22 teams ultimately making valid submissions. This paper meticulously evaluates the state-of-the-art advancements in enhancing low-light images, reflecting the significant progress and creativity in this field. | 翻訳日:2024-04-23 13:37:25 公開日:2024-04-22 |
# CLIP-GS:CLIP-Informed Gaussian Splatting for Real-time and View-Consistent 3D Semantic Understanding
CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding ( http://arxiv.org/abs/2404.14249v1 ) ライセンス: Link先を確認 | Guibiao Liao, Jiankun Li, Zhenyu Bao, Xiaoqing Ye, Jingdong Wang, Qing Li, Kanglin Liu, | (参考訳) 最近の3Dガウススプラッティング(GS)では、3Dシーンにおける新しいビューの高品質かつリアルタイムな合成が示されている。
現在は主に幾何学と外観モデリングに焦点を合わせているが、シーンの意味的な理解は欠如している。
このギャップを埋めるため,CLIP-GSを提案する。CLIP(Contrastive Language- Image Pre-Training)のセマンティクスをガウス・スプレイティングに統合し,注釈付きセマンティクスデータなしで3D環境を効率的に理解する。
具体的には,効率を著しく低下させる3次元ガウスの高次元意味的特徴を直接学習・描画するのではなく,セマンティック属性コンパクト性(SAC)アプローチを提案する。
SACはオブジェクト内の固有の統一意味論を利用して、3Dガウスのコンパクトで効果的な意味表現を学習し、高効率なレンダリングを可能にする(>100 FPS)。
さらに、ビュー一貫性のない2D CLIPセマンティクスを利用してガウシアンを監督することによるセマンティクスの曖昧さに対処するため、3Dモデルから派生した多視点一貫性を利用して、3Dコヒーレント自己学習(3DCS)戦略を導入する。
3DCSは、訓練された3次元ガウスモデルから派生した洗練された自己予測された擬似ラベルを活用することで、横断的な意味整合性制約を課し、精度と視点整合性セグメンテーション結果を向上する。
この手法は,ReplicaとScanNetのデータセットにおけるmIoUの17.29%と20.81%の改善を実現し,リアルタイムレンダリング速度を維持しながら,既存の最先端手法を著しく上回ることを示した。
さらに,本手法のロバスト性を検証し,スパース入力データにおいても優れた性能を示す。
The recent 3D Gaussian Splatting (GS) exhibits high-quality and real-time synthesis of novel views in 3D scenes. Currently, it primarily focuses on geometry and appearance modeling, while lacking the semantic understanding of scenes. To bridge this gap, we present CLIP-GS, which integrates semantics from Contrastive Language-Image Pre-Training (CLIP) into Gaussian Splatting to efficiently comprehend 3D environments without annotated semantic data. In specific, rather than straightforwardly learning and rendering high-dimensional semantic features of 3D Gaussians, which significantly diminishes the efficiency, we propose a Semantic Attribute Compactness (SAC) approach. SAC exploits the inherent unified semantics within objects to learn compact yet effective semantic representations of 3D Gaussians, enabling highly efficient rendering (>100 FPS). Additionally, to address the semantic ambiguity, caused by utilizing view-inconsistent 2D CLIP semantics to supervise Gaussians, we introduce a 3D Coherent Self-training (3DCS) strategy, resorting to the multi-view consistency originated from the 3D model. 3DCS imposes cross-view semantic consistency constraints by leveraging refined, self-predicted pseudo-labels derived from the trained 3D Gaussian model, thereby enhancing precise and view-consistent segmentation results. Extensive experiments demonstrate that our method remarkably outperforms existing state-of-the-art approaches, achieving improvements of 17.29% and 20.81% in mIoU metric on Replica and ScanNet datasets, respectively, while maintaining real-time rendering speed. Furthermore, our approach exhibits superior performance even with sparse input data, verifying the robustness of our method. | 翻訳日:2024-04-23 13:37:25 公開日:2024-04-22 |
# ßMACHによるマイクロサービスの定義
Microservices a Definition Analyzed by ßMACH ( http://arxiv.org/abs/2404.14251v1 ) ライセンス: Link先を確認 | Marcus Hilbrich, Ninon De Mecquenem, | (参考訳) ソフトウェアアーティファクトの管理は、コンピュータ科学の最も重要な側面の1つである。
エンジニアのような方法でソフトウェアを開発し、運用し、保守することができる。
そのため、多くの具体的な戦略、方法、ベストプラクティス、概念が利用可能である。
このような手法の組み合わせは、具体的なプロジェクトにとって適切で、効率的で、適用可能で、有効でなければならない。
言うまでもなく、開発者、マネージャ、テスターはカオスを避けるためにそれを理解すべきです。
したがって、ソフトウェアガイダンスを提供する {\ss}MACH 法を例示する。
このメソッドは、マネジメントの欠如(例えば、Vモデルがソフトウェア操作に使用できない)を指摘し、知識伝達の問題(例えば、要求にどう責任を持つか)を特定し、理解可能な管理記述(例えば、開発者が何をしているかを記述するなど)を提供する。
この方法は、すべてのソフトウェア管理戦略に適用可能な、統一された知識ベースの記述戦略を提供する。
最小限の完全な記述を生成する方法を提供する。
本稿では,マイクロサービスの概念に {\ss}MACHを適用して,適用性と利点を両立させる。
Managing software artifacts is one of the most essential aspects of computer science. It enables to develop, operate, and maintain software in an engineer-like manner. Therefore, numerous concrete strategies, methods, best practices, and concepts are available. A combination of such methods must be adequate, efficient, applicable, and effective for a concrete project. Eelsewise, the developers, managers, and testers should understand it to avoid chaos. Therefore, we exemplify the {\ss}MACH method that provides software guidance. The method can point out missing management aspects (e.g., the V-model is not usable for software operation), identify problems of knowledge transfer (e.g., how is responsible for requirements), provide an understandable management description (e.g., the developers describe what they do), and some more. The method provides a unified, knowledge-based description strategy applicable to all software management strategies. It provides a method to create a minimal but complete description. In this paper, we apply {\ss}MACH to the microservice concept to explain both and to test the applicability and the advantages of {\ss}MACH. | 翻訳日:2024-04-23 13:37:25 公開日:2024-04-22 |
# 量子強化ニューラル交換相関関数
Quantum-Enhanced Neural Exchange-Correlation Functionals ( http://arxiv.org/abs/2404.14258v1 ) ライセンス: Link先を確認 | Igor O. Sokolov, Gert-Jan Both, Art D. Bochevarov, Pavel A. Dub, Daniel S. Levine, Christopher T. Brown, Shaheen Acheche, Panagiotis Kl. Barkoutsos, Vincent E. Elfving, | (参考訳) コーン・シャム密度汎関数理論(KS-DFT)は、分子の正確な基底状態エネルギーと電子密度を提供し、非既知の普遍交換相関(XC)関数に基づいている。
近年の研究では、ニューラルネットワークが、その機能に対する近似を表現するために効率的に学習できることが示されており、トレーニングプロセス中に存在しない分子に正確な一般化を提供する。
量子強化機械学習(ML)の最近の進歩により、量子ニューラルネットワーク(QNN)モデルがMLアプリケーションにメリットをもたらす証拠が増えている。
本研究では,XC関数の表現にQNNを用い,それらを古典的ML手法と比較する。
我々は、様々なアーキテクチャで実装されたKS-DFTにおけるXCの量子(ハイブリッド)モデルとして、微分可能量子回路(DQC)に基づくQNNを提案する。
1Dおよび3Dシステム上での性能を評価する。
そこで我々は,既存の微分可能なKS-DFTフレームワークを拡張し,これらの機能を効率的に訓練するための戦略を提案する。
我々のQNNに基づくXC関数は、基準DMRGとFCI/6-31Gからそれぞれ1mHa以下で逸脱するH$_2$と平面H$_4$のエネルギープロファイルを得る。
さらに、トレーニングデータセットには存在しないH$_2$H$_2$というシステムの化学的精度に到達し、わずかな変動パラメータしか使用しない。
この研究は量子モデルのKS-DFTへの統合の基礎を築き、それによってXC関数を微分可能な方法で表現し、様々な性質の計算を容易にするための新たな道を開く。
Kohn-Sham Density Functional Theory (KS-DFT) provides the exact ground state energy and electron density of a molecule, contingent on the as-yet-unknown universal exchange-correlation (XC) functional. Recent research has demonstrated that neural networks can efficiently learn to represent approximations to that functional, offering accurate generalizations to molecules not present during the training process. With the latest advancements in quantum-enhanced machine learning (ML), evidence is growing that Quantum Neural Network (QNN) models may offer advantages in ML applications. In this work, we explore the use of QNNs for representing XC functionals, enhancing and comparing them to classical ML techniques. We present QNNs based on differentiable quantum circuits (DQCs) as quantum (hybrid) models for XC in KS-DFT, implemented across various architectures. We assess their performance on 1D and 3D systems. To that end, we expand existing differentiable KS-DFT frameworks and propose strategies for efficient training of such functionals, highlighting the importance of fractional orbital occupation for accurate results. Our best QNN-based XC functional yields energy profiles of the H$_2$ and planar H$_4$ molecules that deviate by no more than 1 mHa from the reference DMRG and FCI/6-31G results, respectively. Moreover, they reach chemical precision on a system, H$_2$H$_2$, not present in the training dataset, using only a few variational parameters. This work lays the foundation for the integration of quantum models in KS-DFT, thereby opening new avenues for expressing XC functionals in a differentiable way and facilitating computations of various properties. | 翻訳日:2024-04-23 13:37:25 公開日:2024-04-22 |
# 絡み合った攻撃者に対する連続可変量子位置検証
Continuous-variable Quantum Position Verification secure against entangled attackers ( http://arxiv.org/abs/2404.14261v1 ) ライセンス: Link先を確認 | Rene Allerstorfer, Llorenç Escolà-Farràs, Arpan Akash Ray, Boris Skoric, Florian Speelman, | (参考訳) コヒーレント状態が実用的な利点をもたらす可能性があるという事実により、最近になって、コヒーレント状態を用いた連続可変(CV)量子位置検証(QPV)プロトコルが、攻撃者が絡み合いを事前に共有していない場合に限り、安全に実装できることが示されている。
このプロトコルの離散可変(DV)アナログにおいて、検証者から証明者への古典的な入力情報の送信方法を変更することにより、量子攻撃のリソース要求が好適にスケールできることが示されている。
本研究では,CV-QPVについても同様の結論を導出できることを示す。
CV-QPVプロトコルに$n$の古典的情報を加えることで、たとえ量子情報が任意に遅いとしても、コヒーレントな状態と古典的な情報を使用するプロトコルは、光子数で線形($n$)カットオフを持つCV(絡み合った)状態の攻撃者に対して、安全であることを示す。
このプロトコルは、特定の減衰と余剰ノイズに対して安全であることを示す。
Motivated by the fact that coherent states may offer practical advantages it was recently shown that a continuous-variable (CV) quantum position verification (QPV) protocol using coherent states could be securely implemented if and only if attackers do not pre-share any entanglement. In the discrete-variable (DV) analogue of that protocol it was shown that modifying how the classical input information is sent from the verifiers to the prover leads to a favourable scaling in the resource requirements for a quantum attack. In this work, we show that similar conclusions can be drawn for CV-QPV. By adding extra classical information of size $n$ to a CV-QPV protocol, we show that the protocol, which uses a coherent state and classical information, remains secure, even if the quantum information travels arbitrarily slow, against attackers who pre-share CV (entangled) states with a linear (in $n$) cutoff at the photon number. We show that the protocol remains secure for certain attenuation and excess noise. | 翻訳日:2024-04-23 13:37:25 公開日:2024-04-22 |
# 多光子フーリエ干渉に基づく資源コスト低減型光子蒸留法
Photon distillation schemes with reduced resource costs based on multiphoton Fourier interference ( http://arxiv.org/abs/2404.14262v1 ) ライセンス: Link先を確認 | F. H. B. Somhorst, B. K. Sauër, S. N. van den Hoven, J. J. Renema, | (参考訳) 単一光子の区別不能性を改善することは、大規模なフォトニック量子計算を実現するための重要な前提条件である。
光子蒸留は量子干渉を利用して単一光子の質を高め、複数の光子を犠牲にして1つの光子を生成する。
フーリエ行列における多光子干渉の研究により、最先端の手法と比較して、光子を減らして非識別性の向上を達成できる光子蒸留方式が見つかる。
これらの結果は、大規模フォトニック量子コンピュータのコンポーネントとして応用できるかもしれない。
Improving the indistinguishability of single photons is a crucial prerequisite for achieving large-scale photonic quantum computation. Photon distillation uses quantum interference to enhance the quality of single photons, sacrificing multiple photons to generate one photon with enhanced indistinguishability. By studying multiphoton interference in Fourier matrices, we find photon distillation schemes that require fewer photons to achieve the same improvement in indistinguishability, compared to the state of the art. These results may find application as a component in large-scale photonic quantum computers. | 翻訳日:2024-04-23 13:37:25 公開日:2024-04-22 |
# リッチフローとしてのディープラーニング
Deep Learning as Ricci Flow ( http://arxiv.org/abs/2404.14265v1 ) ライセンス: Link先を確認 | Anthony Baptista, Alessandro Barp, Tapabrata Chakraborti, Chris Harbron, Ben D. MacArthur, Christopher R. S. Banerji, | (参考訳) ディープニューラルネットワーク(DNN)は、複雑なデータの分布を近似する強力なツールである。
訓練されたDNN分類器を通過するデータは、幾何的およびトポロジカルな単純化を施すことが知られている。
スムーズなアクティベーション関数を持つニューラルネットワークにおけるこれらの変換を理解するために、いくつかの進歩がなされているが、より一般的な非滑らかなアクティベーション関数の理解が必要である。
本稿では,DNNが分類タスク中に行う幾何変換は,ハミルトンのリッチフローの下で期待されるものと平行なものであり,その位相を識別するために曲率を滑らかにすることによって多様体を進化させる微分幾何学のツールである。
この考え方を説明するために、DNNの連続する層を通過するときに発生する幾何学的変化を定量化する計算フレームワークを提案し、このフレームワークを用いて、DNNが複雑なデータジオメトリをアンタングルして分類問題を解く能力を評価することができる「グローバル・リッチ・ネットワーク・フロー」の概念を動機づける。
合成および実世界のデータに異なる幅と深さの1500ドル以上のDNN分類器をトレーニングすることにより、グローバルなRicciネットワークフローのような挙動の強さは、深さ、幅、データセットに関わらず、よく訓練されたDNNの精度と相関していることを示す。
本研究の成果は, 微分幾何学や離散幾何学から, 深層学習における説明可能性の問題まで, ツールの利用を動機づけるものである。
Deep neural networks (DNNs) are powerful tools for approximating the distribution of complex data. It is known that data passing through a trained DNN classifier undergoes a series of geometric and topological simplifications. While some progress has been made toward understanding these transformations in neural networks with smooth activation functions, an understanding in the more general setting of non-smooth activation functions, such as the rectified linear unit (ReLU), which tend to perform better, is required. Here we propose that the geometric transformations performed by DNNs during classification tasks have parallels to those expected under Hamilton's Ricci flow - a tool from differential geometry that evolves a manifold by smoothing its curvature, in order to identify its topology. To illustrate this idea, we present a computational framework to quantify the geometric changes that occur as data passes through successive layers of a DNN, and use this framework to motivate a notion of `global Ricci network flow' that can be used to assess a DNN's ability to disentangle complex data geometries to solve classification problems. By training more than $1,500$ DNN classifiers of different widths and depths on synthetic and real-world data, we show that the strength of global Ricci network flow-like behaviour correlates with accuracy for well-trained DNNs, independently of depth, width and data set. Our findings motivate the use of tools from differential and discrete geometry to the problem of explainability in deep learning. | 翻訳日:2024-04-23 13:37:25 公開日:2024-04-22 |
# 高エネルギー物理と重力における超振動
Superoscillations in High Energy Physics and Gravity ( http://arxiv.org/abs/2404.14266v1 ) ライセンス: Link先を確認 | Andrea Addazi, Qingyu Gan, | (参考訳) 古典的および量子場理論の文脈における超振動を探求し、クライン=ゴルドン、ディラック、マクスウェル、アインシュタインの方程式に対する新しい解を提示する。
特に、場の第二量子化の手順と超振動状態を含むフォック空間の構築方法について説明する。
さらに、超振動の量子トンネル、散乱、粒子の混合、圧縮状態、レーザー干渉計の潜在的な進歩への応用を拡大し、量子重力効果の実験実験のための新たな道を開いた。
ホーキング放射やブラックホール(BH)情報,ファイアウォールパラドックスなどの超振動と現象の関係を探索することにより,BH事象地平線を横断する情報伝達の代替メカニズムを提案する。
We explore superoscillations within the context of classical and quantum field theories, presenting novel solutions to Klein-Gordon's, Dirac's, Maxwell's and Einstein's equations. In particular, we illustrate a procedure of second quantization of fields and how to construct a Fock space which encompasses Superoscillating states. Furthermore, we extend the application of superoscillations to quantum tunnelings, scatterings and mixings of particles, squeezed states and potential advancements in laser interferometry, which could open new avenues for experimental tests of Quantum Gravity effects. By delving into the relationship among superoscillations and phenomena such as Hawking radiation, the Black Hole (BH) information and the Firewall paradox, we propose an alternative mechanism for information transfer across the BH event horizon. | 翻訳日:2024-04-23 13:37:25 公開日:2024-04-22 |
# トランスフォーマーは政府について何を知っているのか?
What do Transformers Know about Government? ( http://arxiv.org/abs/2404.14270v1 ) ライセンス: Link先を確認 | Jue Hou, Anisia Katinskaia, Lari Kotilainen, Sathianpong Trangcasanchai, Anh-Duc Vu, Roman Yangarber, | (参考訳) 本稿では,トランスフォーマー言語モデルにおけるエンコーディングから,言語の特徴と自然言語の構造に関する知識がどのような意味を持つのかを考察し,特に文中の構成要素間の政府関係をBERTでエンコードする方法を考察する。
いくつかの探索分類器と2つの形態学的にリッチな言語からのデータを使用します。
我々の実験は、政府に関する情報がトランスフォーマーのすべての層にエンコードされていることを示しているが、主にモデルの初期段階にある。
どちらの言語も、官庁関係に関する十分な情報をコード化して、これまで知られていなかった新しいタイプの政府を発見できる分類器の訓練を可能にしている。
現在、文法的な構造に取り組む研究コミュニティ、特に政府にはデータが不足している。
私たちは、実験で言語における数千のレムマに関する政府関係を定義するデータセットであるGovernment Bankをリリースします。
This paper investigates what insights about linguistic features and what knowledge about the structure of natural language can be obtained from the encodings in transformer language models.In particular, we explore how BERT encodes the government relation between constituents in a sentence. We use several probing classifiers, and data from two morphologically rich languages. Our experiments show that information about government is encoded across all transformer layers, but predominantly in the early layers of the model. We find that, for both languages, a small number of attention heads encode enough information about the government relations to enable us to train a classifier capable of discovering new, previously unknown types of government, never seen in the training data. Currently, data is lacking for the research community working on grammatical constructions, and government in particular. We release the Government Bank -- a dataset defining the government relations for thousands of lemmas in the languages in our experiments. | 翻訳日:2024-04-23 13:37:25 公開日:2024-04-22 |
# Pruned Layer-Wise Relevance Propagationを用いたニューラルネットワークのスパース説明
Sparse Explanations of Neural Networks Using Pruned Layer-Wise Relevance Propagation ( http://arxiv.org/abs/2404.14271v1 ) ライセンス: Link先を確認 | Paulo Yanez Sarmiento, Simon Witzke, Nadja Klein, Bernhard Y. Renard, | (参考訳) 説明可能性(Explainability)は、ディープニューラルネットワーク(DNN)を含む多くのアプリケーションにおいて重要なコンポーネントである。
しかし、DNNの現在の説明法は、しばしば人間の観察者に委ねられ、関連する説明と突発的な雑音を区別する。
これは、画像のような容易にアクセス可能なデータからゲノム配列のようなより複雑なデータに移行する際には、もはや実現不可能である。
このような複雑なデータからのDNN出力のアクセシビリティを容易にし、説明可能性を高めるために、我々は広く使われている説明手法のレイヤーワイド関連伝搬を改良する。
提案手法は,各レイヤの関連伝搬を解析することにより,空間性を直接的に適用する。
これにより、入力特徴と中間層に対するスペーサー関連属性が達成される。
関連性伝播は入力固有であるため、基礎となるモデルアーキテクチャよりも関連性伝播を創出することを目指している。
これにより、異なる入力のために異なるニューロンをプルークすることができるため、説明法の局所的な性質により適している可能性がある。
本手法の有効性を示すため,画像とゲノム配列の2種類のデータを用いて評価を行った。
この修正によってノイズの低減と,ベースラインと比較して重要な特徴の集中がもたらされることが示される。
Explainability is a key component in many applications involving deep neural networks (DNNs). However, current explanation methods for DNNs commonly leave it to the human observer to distinguish relevant explanations from spurious noise. This is not feasible anymore when going from easily human-accessible data such as images to more complex data such as genome sequences. To facilitate the accessibility of DNN outputs from such complex data and to increase explainability, we present a modification of the widely used explanation method layer-wise relevance propagation. Our approach enforces sparsity directly by pruning the relevance propagation for the different layers. Thereby, we achieve sparser relevance attributions for the input features as well as for the intermediate layers. As the relevance propagation is input-specific, we aim to prune the relevance propagation rather than the underlying model architecture. This allows to prune different neurons for different inputs and hence, might be more appropriate to the local nature of explanation methods. To demonstrate the efficacy of our method, we evaluate it on two types of data, images and genomic sequences. We show that our modification indeed leads to noise reduction and concentrates relevance on the most important features compared to the baseline. | 翻訳日:2024-04-23 13:27:39 公開日:2024-04-22 |
# VAMP: マイクロサービスパフォーマンスのためのビジュアルアナリティクス
VAMP: Visual Analytics for Microservices Performance ( http://arxiv.org/abs/2404.14273v1 ) ライセンス: Link先を確認 | Luca Traini, Jessica Leone, Giovanni Stilo, Antinisca Di Marco, | (参考訳) マイクロサービスのパフォーマンスの分析は、これらのシステムの多面的な性質のため、かなり難しい作業である。
マイクロサービスシステムへの各リクエストは、異なるサーバやコンテナにデプロイされたサービスに対して、複数のリモートプロシージャコール(RPC)を発生させる可能性がある。
既存の分散トレースツールは、マイクロサービスのパフォーマンス分析をサポートする主要な手段として、スイムレーン視覚化を活用している。
これらの視覚化は、個々のエンドツーエンド要求のパフォーマンス動作を調べる必要がある場合、特に効果的である。
それでも、システム全体のパフォーマンストレンドを理解する必要がある場合のように、より複雑な分析が必要な場合、それらは大幅に制限される。
この制限を克服するために、マイクロサービスシステムの複数のエンドツーエンド要求のパフォーマンス分析を可能にする革新的なビジュアル分析ツールであるVampを紹介します。
Vampは、広範囲のインタラクティブな可視化を行うことで、要求の繰り返し特性と、その関係性、すなわちエンドツーエンドのパフォーマンス挙動の分析が容易になるという考えに基づいて構築された。
確立されたオープンソースのマイクロサービスシステムから33のデータセットの評価を通じて、VampがRPCの実行時間逸脱を識別し、エンドツーエンドのパフォーマンスに大きな影響を与えることを実証する。
さらに、Vampはエンドツーエンド要求における有意義な構造パターンと、マイクロサービスのパフォーマンス行動との関係を特定できることを示す。
Analysis of microservices' performance is a considerably challenging task due to the multifaceted nature of these systems. Each request to a microservices system might raise several Remote Procedure Calls (RPCs) to services deployed on different servers and/or containers. Existing distributed tracing tools leverage swimlane visualizations as the primary means to support performance analysis of microservices. These visualizations are particularly effective when it is needed to investigate individual end-to-end requests' performance behaviors. Still, they are substantially limited when more complex analyses are required, as when understanding the system-wide performance trends is needed. To overcome this limitation, we introduce vamp, an innovative visual analytics tool that enables, at once, the performance analysis of multiple end-to-end requests of a microservices system. Vamp was built around the idea that having a wide set of interactive visualizations facilitates the analyses of the recurrent characteristics of requests and their relation w.r.t. the end-to-end performance behavior. Through an evaluation of 33 datasets from an established open-source microservices system, we demonstrate how vamp aids in identifying RPC execution time deviations with significant impact on end-to-end performance. Additionally, we show that vamp can support in pinpointing meaningful structural patterns in end-to-end requests and their relationship with microservice performance behaviors. | 翻訳日:2024-04-23 13:27:39 公開日:2024-04-22 |
# テレマティック自動車保険政策における運転行動調査の優先順位付けのためのベイズ的アプローチ
A Bayesian Approach for Prioritising Driving Behaviour Investigations in Telematic Auto Insurance Policies ( http://arxiv.org/abs/2404.14276v1 ) ライセンス: Link先を確認 | Mark McLeod, Bernardo Perez-Orozco, Nika Lee, Davide Zilli, | (参考訳) 自動車保険会社は、保険車に搭載されたブラックボックスレコーダーを介して、テレマティック情報にアクセスしやすくなり、リスクの増加や保険のない活動を示す望ましくない行動を特定したいと願っている。
しかし、そのような振る舞いを機械学習で識別することは簡単ではなく、その結果は完璧には程遠いため、疑わしいケースの検証には人間による調査が必要である。
GPSデータの自動解析によって生成される適切な優先度スコアにより、アンダーライターはより効率的に時間を利用でき、調査中の行動の検出を改善することができる。
このような行動の例として、民間の保険を受けた車両が、食事や小包の配達などの商業目的に使用されることがある。
まずGPSと加速度計のデータを用いて地理空間情報を用いて、トリップ毎の運転に不完全な分類器を訓練する。
本研究では,ベータ・バイノミカルの混合分布を用いて政策保持者の旅行の妥当性をモデル化し,まれなハイスコア群か一般のロースコア群のいずれかから抽出された正の分類を導出し,MCMCを用いてこのモデルのパラメータを学習する。
このモデルにより、あらゆるポリシーホルダーが、何回ものトリップとアラートを考慮に入れば、定期的な自動アラート生成器になる、後続の確率が得られます。
この後続確率は優先順位スコアに変換され、手動による調査において最も価値のある候補を選択するために使用された。
1年間の試験では、週ごとに商業運転の可能性が評価された。
上位0.9%は執筆時点で少なくとも1回はアンダーライターによってレビューされ、99.4%は正しく確認されている。
Automotive insurers increasingly have access to telematic information via black-box recorders installed in the insured vehicle, and wish to identify undesirable behaviour which may signify increased risk or uninsured activities. However, identification of such behaviour with machine learning is non-trivial, and results are far from perfect, requiring human investigation to verify suspected cases. An appropriately formed priority score, generated by automated analysis of GPS data, allows underwriters to make more efficient use of their time, improving detection of the behaviour under investigation. An example of such behaviour is the use of a privately insured vehicle for commercial purposes, such as delivering meals and parcels. We first make use of trip GPS and accelerometer data, augmented by geospatial information, to train an imperfect classifier for delivery driving on a per-trip basis. We make use of a mixture of Beta-Binomial distributions to model the propensity of a policyholder to undertake trips which result in a positive classification as being drawn from either a rare high-scoring or common low-scoring group, and learn the parameters of this model using MCMC. This model provides us with a posterior probability that any policyholder will be a regular generator of automated alerts given any number of trips and alerts. This posterior probability is converted to a priority score, which was used to select the most valuable candidates for manual investigation. Testing over a 1-year period ranked policyholders by likelihood of commercial driving activity on a weekly basis. The top 0.9% have been reviewed at least once by the underwriters at the time of writing, and of those 99.4% have been confirmed as correctly identified, showing the approach has achieved a significant improvement in efficiency of human resource allocation compared to manual searching. | 翻訳日:2024-04-23 13:27:39 公開日:2024-04-22 |
# サブマニフォールドスパースCNNを用いたサブミリ秒レイテンシイベントベースアイトラッキングシステムの設計
Co-designing a Sub-millisecond Latency Event-based Eye Tracking System with Submanifold Sparse CNN ( http://arxiv.org/abs/2404.14279v1 ) ライセンス: Link先を確認 | Baoheng Zhang, Yizhao Gao, Jingyuan Li, Hayden Kwok-Hay So, | (参考訳) アイトラッキング技術は多くの消費者向けエレクトロニクスアプリケーション、特に仮想現実と拡張現実(VR/AR)の領域において不可欠である。
これらのアプリケーションは、低レイテンシ、低消費電力、精度の3つの重要な側面で優れているソリューションを要求する。
しかし、これらすべての面で最適なパフォーマンスを達成するには、洗練されたアルゴリズムと効率的なバックエンドハードウェア実装のバランスを必要とする、非常に難しい課題があります。
本研究では,システムとイベントカメラの協調設計により,この課題に対処する。
イベントベースの入力データの本質的な空間性を活用することで、サブマニフォールドスパース畳み込みニューラルネットワーク(SCNN)用にカスタマイズされた、新しいスパースFPGAデータフローアクセラレータを統合する。
アクセラレータに実装されたSCNNは、非ゼロアクティベーションのみを処理することにより、イベントスライスの各表現から埋め込み特徴ベクトルを効率的に抽出することができる。
その後、これらのベクトルは、ゲートリカレントユニット(GRU)とホストCPU上の完全に接続された層によってさらに処理され、アイセンタが生成される。
システムのデプロイと評価により,優れたパフォーマンス指標が明らかとなった。
Event-based Eye-Tracking-AIS2024データセットでは、このシステムは81%のp5精度、99.5%のp10精度、および3.71の平均ユークリッド距離を0.7msのレイテンシで達成し、1推論あたり2.29mJしか消費しない。
特に、我々のソリューションは将来の視線追跡システムにチャンスをもたらす。
コードはhttps://github.com/CASR-HKU/ESDA/tree/eye_trackingで公開されている。
Eye-tracking technology is integral to numerous consumer electronics applications, particularly in the realm of virtual and augmented reality (VR/AR). These applications demand solutions that excel in three crucial aspects: low-latency, low-power consumption, and precision. Yet, achieving optimal performance across all these fronts presents a formidable challenge, necessitating a balance between sophisticated algorithms and efficient backend hardware implementations. In this study, we tackle this challenge through a synergistic software/hardware co-design of the system with an event camera. Leveraging the inherent sparsity of event-based input data, we integrate a novel sparse FPGA dataflow accelerator customized for submanifold sparse convolution neural networks (SCNN). The SCNN implemented on the accelerator can efficiently extract the embedding feature vector from each representation of event slices by only processing the non-zero activations. Subsequently, these vectors undergo further processing by a gated recurrent unit (GRU) and a fully connected layer on the host CPU to generate the eye centers. Deployment and evaluation of our system reveal outstanding performance metrics. On the Event-based Eye-Tracking-AIS2024 dataset, our system achieves 81% p5 accuracy, 99.5% p10 accuracy, and 3.71 Mean Euclidean Distance with 0.7 ms latency while only consuming 2.29 mJ per inference. Notably, our solution opens up opportunities for future eye-tracking systems. Code is available at https://github.com/CASR-HKU/ESDA/tree/eye_tracking. | 翻訳日:2024-04-23 13:27:39 公開日:2024-04-22 |
# RESFM: モーションからのロバストな等価なマルチビュー構造
RESFM: Robust Equivariant Multiview Structure from Motion ( http://arxiv.org/abs/2404.14280v1 ) ライセンス: Link先を確認 | Fadi Khatib, Yoni Kasten, Dror Moran, Meirav Galun, Ronen Basri, | (参考訳) マルチビュー・ストラクチャー・オブ・モーション(Multiview Structure from Motion)は、コンピュータビジョンの基本的な問題である。
近年,大規模な画像コレクションからカメラポーズと3次元シーン構造を同時復元するために,行列同変アーキテクチャを用いたディープベース手法が提案されている。
しかし、この研究は入力として与えられた点線が外れ値の清浄であるという非現実的な仮定を導いた。
本稿では,モデル同値を尊重するイリヤ/イリヤ分類モジュールの追加と,ロバストなバンドル調整ステップの追加により,外れ値を扱うのに適したアーキテクチャを提案する。
実験により,本手法は,一般的なヒューリスティックで抽出された大量の画像収集やポイントトラックを含む現実的な設定にうまく適用でき,多くの外れ値を含むことを示す。
Multiview Structure from Motion is a fundamental and challenging computer vision problem. A recent deep-based approach was proposed utilizing matrix equivariant architectures for the simultaneous recovery of camera pose and 3D scene structure from large image collections. This work however made the unrealistic assumption that the point tracks given as input are clean of outliers. Here we propose an architecture suited to dealing with outliers by adding an inlier/outlier classifying module that respects the model equivariance and by adding a robust bundle adjustment step. Experiments demonstrate that our method can be successfully applied in realistic settings that include large image collections and point tracks extracted with common heuristics and include many outliers. | 翻訳日:2024-04-23 13:27:39 公開日:2024-04-22 |
# スパースLiDARスキャンの高速・ロバスト正規化
Fast and Robust Normal Estimation for Sparse LiDAR Scans ( http://arxiv.org/abs/2404.14281v1 ) ライセンス: Link先を確認 | Igor Bogoslavskyi, Konstantinos Zampogiannis, Raymond Phan, | (参考訳) Light Detection and Ranging (LiDAR)技術は多くのロボティクスシステムにおいて重要な部分であることが証明されている。
LiDARデータから推定される表面の正規化は、そのようなシステムにおける様々なタスクに一般的に使用される。
今日の機械式LiDARセンサーのほとんどはスパースデータを生成するため、単一のスキャンから正常を頑健な方法で推定することは困難である。
本稿では,高曲率領域における正規化の典型的な問題を回避するために,疎LiDARデータの正規化を推定する問題に対処する。
メカニカルLiDARは、厳格に装着されたレーザーの集合を回転させる。
このようなレーザーの1つの発射は、スキャナの既知の発火パターンのために、各点の近傍が知られている点の配列を生成する。
この知識を使ってこれらの点を隣人と接続し、それらの点を接続する線の角度を使ってラベル付けします。
これらの点で正規性を推定するとき、我々は隣人と同じラベルを持つ点のみを考える。
これにより、高い曲率領域における正規値の推定を回避できる。
我々は,各種の疎LiDARセンサを用いて,自己記録と公開の両方で得られた各種データに対するアプローチを評価した。
本手法は, 高い曲率を持つ領域において, より頑健な正規分布を導出し, 高品質な写像を導出することを示す。
また,本手法は,軽量なベースライン正規推定法に対して,定数係数ランタイムのオーバーヘッドしか発生せず,計算負荷の高い環境での演算に適していることを示す。
Light Detection and Ranging (LiDAR) technology has proven to be an important part of many robotics systems. Surface normals estimated from LiDAR data are commonly used for a variety of tasks in such systems. As most of the today's mechanical LiDAR sensors produce sparse data, estimating normals from a single scan in a robust manner poses difficulties. In this paper, we address the problem of estimating normals for sparse LiDAR data avoiding the typical issues of smoothing out the normals in high curvature areas. Mechanical LiDARs rotate a set of rigidly mounted lasers. One firing of such a set of lasers produces an array of points where each point's neighbor is known due to the known firing pattern of the scanner. We use this knowledge to connect these points to their neighbors and label them using the angles of the lines connecting them. When estimating normals at these points, we only consider points with the same label as neighbors. This allows us to avoid estimating normals in high curvature areas. We evaluate our approach on various data, both self-recorded and publicly available, acquired using various sparse LiDAR sensors. We show that using our method for normal estimation leads to normals that are more robust in areas with high curvature which leads to maps of higher quality. We also show that our method only incurs a constant factor runtime overhead with respect to a lightweight baseline normal estimation procedure and is therefore suited for operation in computationally demanding environments. | 翻訳日:2024-04-23 13:27:39 公開日:2024-04-22 |
# LLM-Personalize:ハウスキーピングロボットのための強化自己訓練によるLLMプランナと人間の嗜好の調整
LLM-Personalize: Aligning LLM Planners with Human Preferences via Reinforced Self-Training for Housekeeping Robots ( http://arxiv.org/abs/2404.14285v1 ) ライセンス: Link先を確認 | Dongge Han, Trevor McInroe, Adam Jelley, Stefano V. Albrecht, Peter Bell, Amos Storkey, | (参考訳) 大規模言語モデル(LLM)は、ロボット工学、特にタスク計画において、言語理解とテキスト生成能力を活用することで、大きな可能性を示している。
しかし、家庭用ロボティクスなどの応用においては、これらのモデルの個人化において重要なギャップが残っている。
LLMプランナを家庭用ロボティクス向けにパーソナライズするための最適化パイプラインを備えた新しいフレームワークであるLLM-Personalizeを紹介した。
LLM-Personalize フレームワークは,マルチルームで部分的に観測可能な家庭シナリオで反復計画を行う LLM プランナを特徴とし,局所観測で構築したシーングラフを利用する。
生成されたプランは、その後コントローラによって実行されるハイレベルなアクションのシーケンスで構成される。
LLMプランナをパーソナライズするために、模倣学習と反復的自己学習を組み合わせた最適化パイプラインが私たちのアプローチの中心です。
特に、模擬学習フェーズは、デモから初期のLCMアライメントを実行し、モデルをブートストラップして効果的な反復的自己学習を促進する。
LLM-Personalize on Housekeep, a challenge simulated real-world 3D benchmark for household rearrangement, and show that LLM-Personalize achieve a30% 以上の成功率を達成することを示し、人間の嗜好との整合性を大幅に向上させることを示した。
プロジェクトページ: https://donggehan.github.io/projectllmpersonalize/。
Large language models (LLMs) have shown significant potential for robotics applications, particularly task planning, by harnessing their language comprehension and text generation capabilities. However, in applications such as household robotics, a critical gap remains in the personalization of these models to individual user preferences. We introduce LLM-Personalize, a novel framework with an optimization pipeline designed to personalize LLM planners for household robotics. Our LLM-Personalize framework features an LLM planner that performs iterative planning in multi-room, partially-observable household scenarios, making use of a scene graph constructed with local observations. The generated plan consists of a sequence of high-level actions which are subsequently executed by a controller. Central to our approach is the optimization pipeline, which combines imitation learning and iterative self-training to personalize the LLM planner. In particular, the imitation learning phase performs initial LLM alignment from demonstrations, and bootstraps the model to facilitate effective iterative self-training, which further explores and aligns the model to user preferences. We evaluate LLM-Personalize on Housekeep, a challenging simulated real-world 3D benchmark for household rearrangements, and show that LLM-Personalize achieves more than a 30 percent increase in success rate over existing LLM planners, showcasing significantly improved alignment with human preferences. Project page: https://donggehan.github.io/projectllmpersonalize/. | 翻訳日:2024-04-23 13:27:39 公開日:2024-04-22 |
# 大規模言語モデルの効率的な推論に関する一検討
A Survey on Efficient Inference for Large Language Models ( http://arxiv.org/abs/2404.14294v1 ) ライセンス: Link先を確認 | Zixuan Zhou, Xuefei Ning, Ke Hong, Tianyu Fu, Jiaming Xu, Shiyao Li, Yuming Lou, Luning Wang, Zhihang Yuan, Xiuhong Li, Shengen Yan, Guohao Dai, Xiao-Ping Zhang, Yuhan Dong, Yu Wang, | (参考訳) 大きな言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスのために、広く注目を集めている。
しかし、LLM推論のかなりの計算とメモリ要件は、リソース制約のあるシナリオへの展開に困難をもたらす。
この分野における取り組みは、LLM推論の効率向上を目的とした技術開発に向けられている。
本稿では,LLMの効率的な推論について,既存の文献を包括的に調査する。
まず、非効率なLLM推論の主な原因、すなわち、大モデルサイズ、二次複雑度注意操作、自動回帰復号法を解析することから始める。
そして、現在の文献をデータレベル、モデルレベル、システムレベルの最適化に整理する包括的な分類法を導入する。
さらに, 臨界サブフィールドにおける代表法の比較実験を行い, 定量的知見を得た。
最後に、いくつかの知識概要を提供し、今後の研究の方向性について論じる。
Large Language Models (LLMs) have attracted extensive attention due to their remarkable performance across various tasks. However, the substantial computational and memory requirements of LLM inference pose challenges for deployment in resource-constrained scenarios. Efforts within the field have been directed towards developing techniques aimed at enhancing the efficiency of LLM inference. This paper presents a comprehensive survey of the existing literature on efficient LLM inference. We start by analyzing the primary causes of the inefficient LLM inference, i.e., the large model size, the quadratic-complexity attention operation, and the auto-regressive decoding approach. Then, we introduce a comprehensive taxonomy that organizes the current literature into data-level, model-level, and system-level optimization. Moreover, the paper includes comparative experiments on representative methods within critical sub-fields to provide quantitative insights. Last but not least, we provide some knowledge summary and discuss future research directions. | 翻訳日:2024-04-23 13:27:39 公開日:2024-04-22 |
# あなたのニューラルコード補完モデルは私のコードを使うか? : メンバーシップ推論アプローチ
Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach ( http://arxiv.org/abs/2404.14296v1 ) ライセンス: Link先を確認 | Yao Wan, Guanghua Wan, Shijie Zhang, Hongyu Zhang, Yulei Sui, Pan Zhou, Hai Jin, Lichao Sun, | (参考訳) 近年、自動コード補完のためのディープラーニングベースのモデルの開発が著しい進展を見せている。
GitHubでのソースコードの使用は、コード補完のためにディープラーニングベースのモデルをトレーニングする一般的な慣行であるが、著作権侵害のような法的および倫理的な問題を誘発する可能性がある。
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について,次のような質問に答える。 私のコードは,あなたのニューラルコード補完モデルのトレーニングに使用されているか?
この目的のために、私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を、コード補完のより難しいタスクに調整します。
特に、対象のコード補完モデルは不透明なブラックボックスとして機能し、トレーニングデータやパラメータへのアクセスを防止するため、動作を模倣するために複数のシャドウモデルをトレーニングする。
これらのシャドウモデルから取得した後部はその後、メンバーシップ分類器を訓練するために使用される。
その後、会員分類器を有効活用して、対象コード完了モデルの出力に基づいて、所定のコードサンプルの会員ステータスを推定することができる。
我々は、多種多様なニューラルネットワーク補完モデル(LSTMベース、CodeGPT、CodeGen、StarCoder)において、この適応されたアプローチの有効性を包括的に評価する。
実験の結果,LSTMモデルとCodeGPTモデルは,それぞれ0.842,0.730の精度で,提案したメンバシップ推論手法により容易に検出できる,メンバシップリーク問題に悩まされていることが明らかとなった。
興味深いことに、我々の実験は、現在の大規模言語モデルであるCodeGenやStarCoderのデータメンバシップを検出するのが難しく、さらなる改善のためにアンペアスペースを残していることも示しています。
最後に,モデル記憶の観点から,その知見を説明する。
Recent years have witnessed significant progress in developing deep learning-based models for automated code completion. Although using source code in GitHub has been a common practice for training deep-learning-based models for code completion, it may induce some legal and ethical issues such as copyright infringement. In this paper, we investigate the legal and ethical issues of current neural code completion models by answering the following question: Is my code used to train your neural code completion model? To this end, we tailor a membership inference approach (termed CodeMI) that was originally crafted for classification tasks to a more challenging task of code completion. In particular, since the target code completion models perform as opaque black boxes, preventing access to their training data and parameters, we opt to train multiple shadow models to mimic their behavior. The acquired posteriors from these shadow models are subsequently employed to train a membership classifier. Subsequently, the membership classifier can be effectively employed to deduce the membership status of a given code sample based on the output of a target code completion model. We comprehensively evaluate the effectiveness of this adapted approach across a diverse array of neural code completion models, (i.e., LSTM-based, CodeGPT, CodeGen, and StarCoder). Experimental results reveal that the LSTM-based and CodeGPT models suffer the membership leakage issue, which can be easily detected by our proposed membership inference approach with an accuracy of 0.842, and 0.730, respectively. Interestingly, our experiments also show that the data membership of current large language models of code, e.g., CodeGen and StarCoder, is difficult to detect, leaving amper space for further improvement. Finally, we also try to explain the findings from the perspective of model memorization. | 翻訳日:2024-04-23 13:27:39 公開日:2024-04-22 |
# 量子中間表現のためのクロスプラットフォーム実行エンジン
A Cross-Platform Execution Engine for the Quantum Intermediate Representation ( http://arxiv.org/abs/2404.14299v1 ) ライセンス: Link先を確認 | Elaine Wong, Vicente Leyton Ortega, Daniel Claudino, Seth Johnson, Sharmin Afrose, Meenambika Gowrishankar, Anthony M. Cabrera, Travis S. Humble, | (参考訳) 量子中間表現 (Quantum Intermediate Representation, QIR) のようなハイブリッド言語は、量子と従来の計算モデルを混合するプログラミングシステムには不可欠である。
本稿では,複数のハードウェアプラットフォーム上でQIRを解析,解釈,実行するためのQIR実行エンジン(QIR-EE)について述べる。
QIR-EEはLLVMを使用して、量子プログラムを指定するハイブリッド命令を実行し、設計上、カスタマイズされたランタイムとハードウェア環境をサポートする拡張ポイントを提示する。
我々は,XACC量子ハードウェアアクセラレータライブラリを用いて,異なる商用量子プラットフォームおよび数値シミュレータ上でのプロトタイプ量子プログラムのディスパッチを実現し,IonQ HarmonyおよびQuantinuum H1-1ハードウェア上でのQIR-EEの実行を検証する。
その結果,混合命令の処理,混合データの管理,およびクロスプラットフォーム実行を実現するための量子コンピューティングフレームワークの統合など,ハイブリッド実行アーキテクチャの効率性を強調した。
Hybrid languages like the Quantum Intermediate Representation (QIR) are essential for programming systems that mix quantum and conventional computing models, while execution of these programs is often deferred to a system-specific implementation. Here, we describe and demonstrate the QIR Execution Engine (QIR-EE) for parsing, interpreting, and executing QIR across multiple hardware platforms. QIR-EE uses LLVM to execute hybrid instructions specifying quantum programs and, by design, presents extension points that support customized runtime and hardware environments. We demonstrate an implementation that uses the XACC quantum hardware-accelerator library to dispatch prototypical quantum programs on different commercial quantum platforms and numerical simulators, and we validate execution of QIR-EE on the IonQ Harmony and Quantinuum H1-1 hardware. Our results highlight the efficiency of hybrid executable architectures for handling mixed instructions, managing mixed data, and integrating with quantum computing frameworks to realize cross-platform execution. | 翻訳日:2024-04-23 13:27:39 公開日:2024-04-22 |
# Marking: ハイライトエラーとアノテーションの欠落によるビジュアルグレーディング
Marking: Visual Grading with Highlighting Errors and Annotating Missing Bits ( http://arxiv.org/abs/2404.14301v1 ) ライセンス: Link先を確認 | Shashank Sonkar, Naiming Liu, Debshila B. Mallick, Richard G. Baraniuk, | (参考訳) 本稿では,学生の反応の詳細な分析を行い,学生に視覚的ハイライトを提供することにより,自動階調システムを強化する新しい階調タスクである「マーキング」を紹介する。
二進的なスコアを提供する従来のシステムとは異なり、"marking"は学生の反応のセグメントを正しい、間違って、あるいは無関係であると識別し、金の答えから欠落を検出する。
本稿では,この課題に特化して,主観的課題エキスパートが慎重にキュレートした新しいデータセットを提案する。
我々は、自然言語処理の分野で広く研究されている自然言語推論(NLI)タスクの拡張として「マーキング」の枠組みを定めている。
金の回答と学生の反応はそれぞれNLIにおける前提と仮説の役割を担っている。
我々はその後、NLIのような学生の反応と、金の答えから欠落を識別する追加の次元から、関係性、矛盾、中立性を識別するために言語モデルを訓練する。
実験では,変換モデル,特にBERTとRoBERTaの使用,およびe-SNLIデータセットを用いたインテリジェントなトレーニングステップについて検討した。
本稿では,「マーキング」課題の複雑さを浮き彫りにして,今後の研究の軌跡を明確にする広範なベースライン結果を示す。
私たちの研究は、AIを活用した教育アセスメントツールの研究のための新たな道を開くだけでなく、教育コミュニティにおけるAIが将来的に取り組み、改善するための貴重なベンチマークも提供します。
コードとデータセットはhttps://github.com/luffycodes/marking.orgにある。
In this paper, we introduce "Marking", a novel grading task that enhances automated grading systems by performing an in-depth analysis of student responses and providing students with visual highlights. Unlike traditional systems that provide binary scores, "marking" identifies and categorizes segments of the student response as correct, incorrect, or irrelevant and detects omissions from gold answers. We introduce a new dataset meticulously curated by Subject Matter Experts specifically for this task. We frame "Marking" as an extension of the Natural Language Inference (NLI) task, which is extensively explored in the field of Natural Language Processing. The gold answer and the student response play the roles of premise and hypothesis in NLI, respectively. We subsequently train language models to identify entailment, contradiction, and neutrality from student response, akin to NLI, and with the added dimension of identifying omissions from gold answers. Our experimental setup involves the use of transformer models, specifically BERT and RoBERTa, and an intelligent training step using the e-SNLI dataset. We present extensive baseline results highlighting the complexity of the "Marking" task, which sets a clear trajectory for the upcoming study. Our work not only opens up new avenues for research in AI-powered educational assessment tools, but also provides a valuable benchmark for the AI in education community to engage with and improve upon in the future. The code and dataset can be found at https://github.com/luffycodes/marking. | 翻訳日:2024-04-23 13:27:39 公開日:2024-04-22 |
# 主張の強さを説明する:攻撃と支援の役割を解明する(技術報告)
Explaining Arguments' Strength: Unveiling the Role of Attacks and Supports (Technical Report) ( http://arxiv.org/abs/2404.14304v1 ) ライセンス: Link先を確認 | Xiang Yin, Potyka Nico, Francesca Toni, | (参考訳) 漸進的意味論に基づく議論の強さを定量的に説明すると、近年注目を集めている。
具体的には、文献におけるいくつかの研究は、議論の帰属スコアを計算することによって定量的な説明を提供する。
これらの研究は、議論の強みを説明する際に重要な役割を果たすにもかかわらず、攻撃と支援の重要性を無視している。
本稿では,ゲーム理論からShapley値を適用して,攻撃の役割を詳細に把握し,議論の強みを得るための量的双極的議論を支援する,関係属性説明(RAEs)の新たな理論を提案する。
RAEがいくつかの望ましい性質を満たすことを示す。
また,RAEを効率的に近似する確率的アルゴリズムを提案する。
最後に、不正検出および大規模言語モデルケーススタディにおけるRAEの応用価値を示す。
Quantitatively explaining the strength of arguments under gradual semantics has recently received increasing attention. Specifically, several works in the literature provide quantitative explanations by computing the attribution scores of arguments. These works disregard the importance of attacks and supports, even though they play an essential role when explaining arguments' strength. In this paper, we propose a novel theory of Relation Attribution Explanations (RAEs), adapting Shapley values from game theory to offer fine-grained insights into the role of attacks and supports in quantitative bipolar argumentation towards obtaining the arguments' strength. We show that RAEs satisfy several desirable properties. We also propose a probabilistic algorithm to approximate RAEs efficiently. Finally, we show the application value of RAEs in fraud detection and large language models case studies. | 翻訳日:2024-04-23 13:27:39 公開日:2024-04-22 |
# 対人拡散訓練によるより良い対人浄化に向けて
Towards Better Adversarial Purification via Adversarial Denoising Diffusion Training ( http://arxiv.org/abs/2404.14309v1 ) ライセンス: Link先を確認 | Yiming Liu, Kezhao Liu, Yao Xiao, Ziyi Dong, Xiaogang Xu, Pengxu Wei, Liang Lin, | (参考訳) 近年, 拡散型浄化法(DBP)は, 敵対的攻撃に対する防御手段として有望なアプローチとして浮上している。
しかし、従来の研究ではDBPモデルのロバスト性を評価するために疑わしい手法が用いられており、DBPのロバスト性に関する説明も実験的な支援を欠いている。
精度勾配を用いたDBPロバスト性の再検討を行い,DBPロバスト性に対する確率性の影響について検討した。
DBPのロバスト性をよりよく説明するために、新しい攻撃条件、決定論的ホワイトボックス、およびピンポイント確率性をDBPロバスト性の主要な要因として評価する。
以上の結果から,DBPモデルは対向的摂動に逆らうのではなく,最も効果的な攻撃方向を避けるために確率に依存することが示唆された。
DBPモデルのロバスト性を改善するため,Adversarial Denoising Diffusion Training (ADDT)を提案する。
この手法は、CGPO(Classifier-Guided Perturbation Optimization)を用いて、事前訓練された分類器からの誘導により、対向摂動を生成するとともに、ランクベースガウスマッピング(RBGM)を用いて、対向の摂動を正規のガウス分布に変換する。
実験の結果,ADDTはDBPモデルのロバスト性を向上させることがわかった。
さらなる実験により、ADDTはDBPモデルと直接対向摂動に対処する能力を備えていることが確認された。
Recently, diffusion-based purification (DBP) has emerged as a promising approach for defending against adversarial attacks. However, previous studies have used questionable methods to evaluate the robustness of DBP models, their explanations of DBP robustness also lack experimental support. We re-examine DBP robustness using precise gradient, and discuss the impact of stochasticity on DBP robustness. To better explain DBP robustness, we assess DBP robustness under a novel attack setting, Deterministic White-box, and pinpoint stochasticity as the main factor in DBP robustness. Our results suggest that DBP models rely on stochasticity to evade the most effective attack direction, rather than directly countering adversarial perturbations. To improve the robustness of DBP models, we propose Adversarial Denoising Diffusion Training (ADDT). This technique uses Classifier-Guided Perturbation Optimization (CGPO) to generate adversarial perturbation through guidance from a pre-trained classifier, and uses Rank-Based Gaussian Mapping (RBGM) to convert adversarial pertubation into a normal Gaussian distribution. Empirical results show that ADDT improves the robustness of DBP models. Further experiments confirm that ADDT equips DBP models with the ability to directly counter adversarial perturbations. | 翻訳日:2024-04-23 13:27:39 公開日:2024-04-22 |
# ボルツマンモーメント系の正規化エントロピーに基づく閉鎖のための構造保存ニューラルネットワーク
Structure-preserving neural networks for the regularzied entropy-based closure of the Boltzmann moment system ( http://arxiv.org/abs/2404.14312v1 ) ライセンス: Link先を確認 | Steffen Schotthöfer, M. Paul Laiu, Martin Frank, Cory D. Hauck, | (参考訳) 放射輸送の大規模数値シミュレーションの主な課題は、運動方程式の離散化法における高いメモリと計算時間要件である。
本研究では,低メモリフットプリントと競合計算時間で多次元モーメントシステムの解を正確に計算するために,エントロピー閉包法に対するニューラルネットワークに基づく近似を導出し,検討する。
我々は、標準的なエントロピーベースのクロージャのために開発された手法を、正規化されたエントロピーベースのクロージャの文脈に拡張する。
主な考え方は、正規化エントロピー閉包の構造保存ニューラルネットワーク近似を、元のエントロピー閉包の2段階近似として解釈することである。
この近似の数値解析を行い、最適パラメータ選択について検討する。
本手法のメモリフットプリントは,従来の計算時間とシミュレーション精度を比較検討した。
コードとトレーニングされたネットワークはすべて、GitHub\footnote{\url{https://github.com/ScSteffen/neuralEntropyClosures}}$^,$\footnote{\url{https://github.com/CSMMLab/KiT-RT}}で提供されている。
The main challenge of large-scale numerical simulation of radiation transport is the high memory and computation time requirements of discretization methods for kinetic equations. In this work, we derive and investigate a neural network-based approximation to the entropy closure method to accurately compute the solution of the multi-dimensional moment system with a low memory footprint and competitive computational time. We extend methods developed for the standard entropy-based closure to the context of regularized entropy-based closures. The main idea is to interpret structure-preserving neural network approximations of the regularized entropy closure as a two-stage approximation to the original entropy closure. We conduct a numerical analysis of this approximation and investigate optimal parameter choices. Our numerical experiments demonstrate that the method has a much lower memory footprint than traditional methods with competitive computation times and simulation accuracy. The code and all trained networks are provided on GitHub\footnote{\url{https://github.com/ScSteffen/neuralEntropyClosures}}$^,$\footnote{\url{https://github.com/CSMMLab/KiT-RT}}. | 翻訳日:2024-04-23 13:27:39 公開日:2024-04-22 |
# 相互情報を用いた自己監督的アライメント:優先ラベルなしで原則に従うことを学ぶ
Self-Supervised Alignment with Mutual Information: Learning to Follow Principles without Preference Labels ( http://arxiv.org/abs/2404.14313v1 ) ライセンス: Link先を確認 | Jan-Philipp Fränken, Eric Zelikman, Rafael Rafailov, Kanishk Gandhi, Tobias Gerstenberg, Noah D. Goodman, | (参考訳) 言語モデル(LM)を促す場合、ユーザは、有害な言語や偏見のある言語を避けながら、洞察力のあるコンテンツを生成するなど、さまざまなタスクにわたる行動原則のセットに従うことをしばしば期待する。
このような原則をモデルに組み込むことは、リソース集約的で技術的に困難であり、一般的には人間の好みラベルや例を必要とする。
SAMIは、事前学習したLMに、選好ラベルやデモンストレーションを必要としない行動原理に従うように教える手法である。
SAMIは、事前訓練されたLMを微調整して、データから与えられたクエリの条件付き相互情報と自己生成応答を増大させる反復アルゴリズムである。
シングルターンダイアログと要約では、SAMI訓練ミストラル7bが66%から77%の勝利率で最初の事前学習モデルを上回っている。
厳密に言えば、シングルターンダイアログで55%から57%の勝利率で、命令を微調整したベースライン(mistral-7b-instruct)を上回ります。
SAMIには「基本書き手」モデルが必要であり、より強いモデルへの依存を避けるため、弱い命令細粒度モデル(mistral-7b-instruct)で書かれた構成を用いて、強い事前訓練されたモデル(mixtral-8x7b)の整合性をさらに評価する。
SAMIで訓練されたmixtral-8x7bは、初期モデルと命令精細モデルの両方を上回り、総和で65%の勝利率を達成する。
この結果から,事前学習したLMは,優先ラベルや実演,人間の監視を使わずに,構成に従うことを学べることが示唆された。
When prompting a language model (LM), users frequently expect the model to adhere to a set of behavioral principles across diverse tasks, such as producing insightful content while avoiding harmful or biased language. Instilling such principles into a model can be resource-intensive and technically challenging, generally requiring human preference labels or examples. We introduce SAMI, a method for teaching a pretrained LM to follow behavioral principles that does not require any preference labels or demonstrations. SAMI is an iterative algorithm that finetunes a pretrained LM to increase the conditional mutual information between constitutions and self-generated responses given queries from a datasest. On single-turn dialogue and summarization, a SAMI-trained mistral-7b outperforms the initial pretrained model, with win rates between 66% and 77%. Strikingly, it also surpasses an instruction-finetuned baseline (mistral-7b-instruct) with win rates between 55% and 57% on single-turn dialogue. SAMI requires a "principle writer" model; to avoid dependence on stronger models, we further evaluate aligning a strong pretrained model (mixtral-8x7b) using constitutions written by a weak instruction-finetuned model (mistral-7b-instruct). The SAMI-trained mixtral-8x7b outperforms both the initial model and the instruction-finetuned model, achieving a 65% win rate on summarization. Our results indicate that a pretrained LM can learn to follow constitutions without using preference labels, demonstrations, or human oversight. | 翻訳日:2024-04-23 13:27:39 公開日:2024-04-22 |
# ライスケムデータセットを用いた長解像の自動解析
Automated Long Answer Grading with RiceChem Dataset ( http://arxiv.org/abs/2404.14316v1 ) ライセンス: Link先を確認 | Shashank Sonkar, Kangqi Ni, Lesa Tran Lu, Kristi Kincaid, John S. Hutchinson, Richard G. Baraniuk, | (参考訳) 本稿では,ALAG(Automated Long Answer Grading)という教育用自然言語処理分野の新たな分野について紹介する。
ALAGはASAG (Automated Short Answer Grading) とAEG (Automated Essay Grading) から切り離され、事実に基づく長い回答の複雑さと多面的な性質のために、ユニークな課題を提示している。
ALAG を研究するために,大学化学コースから派生したデータセットである RiceChem を紹介した。
そこで本稿では, ALAG に対する新たなアプローチとして, 自然言語推論モデルを用いて, ルーリックな項目で表現された各基準が, 学生の反応に対処されているかどうかを検証し, ルーリックな包含問題として定式化することを提案する。
この定式化により、転送学習にMNLIを効果的に利用することができ、LiceChemデータセットのモデルの性能を大幅に改善する。
ALAGにおけるルーブリックに基づく定式化の重要性を実証し、学生の反応のニュアンスを捉える上で、従来のスコアベースのアプローチよりも優れていることを示す。
また、コールドスタートシナリオにおけるモデルの性能についても検討し、教育環境における実践的なデプロイメントの考察について貴重な洞察を提供する。
最後に,LiceChem上で最先端のオープンソースLarge Language Models (LLMs) をベンチマークし,その結果をGPTモデルと比較し,ASAGと比較してALAGの複雑さが増大していることを強調した。
ルーリックベースのアプローチとMNLIからの移行学習の利点を生かしたにもかかわらず、ライスケムにおけるLCMの低い性能は、ALAGタスクによって引き起こされる重大な難しさを浮き彫りにした。
この研究により、我々は、長い事実に基づく回答をグラデーションする新たな視点を提供し、この重要な領域におけるさらなる研究を促進するために、新しいデータセットを導入します。
コード: \url{https://github.com/luffycodes/Automated-Long-Answer-Grading}。
We introduce a new area of study in the field of educational Natural Language Processing: Automated Long Answer Grading (ALAG). Distinguishing itself from Automated Short Answer Grading (ASAG) and Automated Essay Grading (AEG), ALAG presents unique challenges due to the complexity and multifaceted nature of fact-based long answers. To study ALAG, we introduce RiceChem, a dataset derived from a college chemistry course, featuring real student responses to long-answer questions with an average word count notably higher than typical ASAG datasets. We propose a novel approach to ALAG by formulating it as a rubric entailment problem, employing natural language inference models to verify whether each criterion, represented by a rubric item, is addressed in the student's response. This formulation enables the effective use of MNLI for transfer learning, significantly improving the performance of models on the RiceChem dataset. We demonstrate the importance of rubric-based formulation in ALAG, showcasing its superiority over traditional score-based approaches in capturing the nuances of student responses. We also investigate the performance of models in cold start scenarios, providing valuable insights into the practical deployment considerations in educational settings. Lastly, we benchmark state-of-the-art open-sourced Large Language Models (LLMs) on RiceChem and compare their results to GPT models, highlighting the increased complexity of ALAG compared to ASAG. Despite leveraging the benefits of a rubric-based approach and transfer learning from MNLI, the lower performance of LLMs on RiceChem underscores the significant difficulty posed by the ALAG task. With this work, we offer a fresh perspective on grading long, fact-based answers and introduce a new dataset to stimulate further research in this important area. Code: \url{https://github.com/luffycodes/Automated-Long-Answer-Grading}. | 翻訳日:2024-04-23 13:17:55 公開日:2024-04-22 |
# CRNにおける結合SS-DSAのためのマルチエージェントハイブリッドSAC
Multi-Agent Hybrid SAC for Joint SS-DSA in CRNs ( http://arxiv.org/abs/2404.14319v1 ) ライセンス: Link先を確認 | David R. Nickel, Anindya Bijoy Das, David J. Love, Christopher G. Brinton, | (参考訳) 機会論的スペクトルアクセスは、認知無線ネットワーク(CRN)におけるスペクトル利用の効率を高める可能性がある。
CRNでは、スペクトルセンシングとリソースアロケーション(SSRA)の両方がシステムスループットの最大化に不可欠であり、プライマリネットワークとのセカンダリユーザの衝突を最小限に抑えている。
しかし、ダイナミックスペクトルアクセスにおける多くの研究は、ミス検出チャネルのような不完全な検知情報の影響を考慮していない。
本研究では,チャネルセンシング,チャネルアクセス,送信電力の制約を受けるCRNの通信速度を最大化する最適化として共同SSRAを検討する。
この問題の非自明な性質を考えると、我々はマルチエージェント強化学習を活用し、二次利用者のネットワークが、スペクトルセンシングのエネルギー検出パラダイムの下で定式化されたローカルテスト統計のみを介して、非占有スペクトルに動的にアクセスできるようにする。
そこで本研究では,QMIX混合方式に基づくハイブリッドソフトアクター批評家MHSACのマルチエージェント実装を開発した。
実験により、我々のSSRAアルゴリズムであるHySSRAは、CRNのスペクトル資源の利用を最大化するとともに、一次ネットワークへの干渉を制限し、現在の最先端技術よりも広いマージンで優れていることがわかった。
また,コヒーレンス時間などの無線変動がシステムの有効性に与える影響についても検討する。
Opportunistic spectrum access has the potential to increase the efficiency of spectrum utilization in cognitive radio networks (CRNs). In CRNs, both spectrum sensing and resource allocation (SSRA) are critical to maximizing system throughput while minimizing collisions of secondary users with the primary network. However, many works in dynamic spectrum access do not consider the impact of imperfect sensing information such as mis-detected channels, which the additional information available in joint SSRA can help remediate. In this work, we examine joint SSRA as an optimization which seeks to maximize a CRN's net communication rate subject to constraints on channel sensing, channel access, and transmit power. Given the non-trivial nature of the problem, we leverage multi-agent reinforcement learning to enable a network of secondary users to dynamically access unoccupied spectrum via only local test statistics, formulated under the energy detection paradigm of spectrum sensing. In doing so, we develop a novel multi-agent implementation of hybrid soft actor critic, MHSAC, based on the QMIX mixing scheme. Through experiments, we find that our SSRA algorithm, HySSRA, is successful in maximizing the CRN's utilization of spectrum resources while also limiting its interference with the primary network, and outperforms the current state-of-the-art by a wide margin. We also explore the impact of wireless variations such as coherence time on the efficacy of the system. | 翻訳日:2024-04-23 13:17:55 公開日:2024-04-22 |
# U-net と Modified Convolutional Block Attention Module を用いた胸部X線肺分画の新しいアプローチ
A Novel Approach to Chest X-ray Lung Segmentation Using U-net and Modified Convolutional Block Attention Module ( http://arxiv.org/abs/2404.14322v1 ) ライセンス: Link先を確認 | Mohammad Ali Labbaf Khaniki, Mohammad Manthouri, | (参考訳) 胸部X線像における肺分画は,様々な肺疾患の診断と治療において重要な役割を担っている。
本稿では,胸部X線像におけるU-netと注意機構を統合した肺分画の新しいアプローチを提案する。
提案手法は, チャネルアテンション, 空間アテンション, ピクセルアテンションの3つの異なるアテンション機構を統一したCBAM (Convolutional Block Attention Module) を組み込むことにより, U-net アーキテクチャを強化する。
チャネルアテンション機構により、モデルは様々なチャネルにまたがる最も情報性の高い特徴に集中することができる。
空間的注意機構は、重要な空間的位置に着目して、モデルの局所化における精度を高める。
最後に、画素アテンション機構により、モデルを個々のピクセルに集中させ、モデルのフォーカスをさらに洗練し、セグメンテーションの精度を向上させる。
CBAMとU-netアーキテクチャの併用は医療画像の分野で大きな進歩を遂げ、診断精度の向上や患者の予後向上に寄与する可能性が示唆された。
本手法の有効性は現代の最先端技術に対して検証され,セグメンテーション性能の優位性を示す。
Lung segmentation in chest X-ray images is of paramount importance as it plays a crucial role in the diagnosis and treatment of various lung diseases. This paper presents a novel approach for lung segmentation in chest X-ray images by integrating U-net with attention mechanisms. The proposed method enhances the U-net architecture by incorporating a Convolutional Block Attention Module (CBAM), which unifies three distinct attention mechanisms: channel attention, spatial attention, and pixel attention. The channel attention mechanism enables the model to concentrate on the most informative features across various channels. The spatial attention mechanism enhances the model's precision in localization by focusing on significant spatial locations. Lastly, the pixel attention mechanism empowers the model to focus on individual pixels, further refining the model's focus and thereby improving the accuracy of segmentation. The adoption of the proposed CBAM in conjunction with the U-net architecture marks a significant advancement in the field of medical imaging, with potential implications for improving diagnostic precision and patient outcomes. The efficacy of this method is validated against contemporary state-of-the-art techniques, showcasing its superiority in segmentation performance. | 翻訳日:2024-04-23 13:17:55 公開日:2024-04-22 |
# 量子コヒーレンスと識別可能性:波動-粒子二重性に関する資源論的視点
Quantum Coherence and Distinguishability: A Resource-Theoretic Perspective on Wave-Particle Duality ( http://arxiv.org/abs/2404.14323v1 ) ライセンス: Link先を確認 | Zhiping Liu, Chengkai Zhu, Hualei Yin, Xin Wang, | (参考訳) 波動-粒子双対性(英語版)は量子力学の基礎であり、量子系の2つの相補的な側面の間の重要なトレードオフを示している。
ボーアの相補性原理により、波動-粒子二重性関係は、マルチパス干渉計における完全経路の識別が干渉パターンを消し去ることを示し、またその逆も示している。
本研究では、コヒーレンス資源操作の観点から、相互直交純状態のアンサンブルにおける量子コヒーレンスと区別可能性の間の新しい双対関係を明らかにする。
完全識別から抽出した「コビット」, 識別後に保存されたコヒーレンス, および古典的ビットの和が有界であることを示す。
すべての古典情報を同時に抽出し、一貫性を保つことはできない。
このような双対関係は、量子コヒーレンスと古典的識別可能性資源の間に固有のトレードオフを露呈する。
我々の発見は、量子資源と古典資源の本質的な相補的関係について、新たな視点を与え、理解を深めるものである。
Wave-particle duality, the cornerstone of quantum mechanics, illustrates essential trade-offs between two complementary aspects of quantum systems. Captured by Bohr's complementarity principle, the wave-particle duality relation indicates that perfect path discrimination in a multipath interferometer obliterates interference patterns and vice versa. In this work, from the perspective of coherence resource manipulation, we uncover a novel duality relation between quantum coherence and distinguishability in ensembles of mutually orthogonal pure states. We demonstrate the sum of `co-bits', coherence preserved after discrimination, and classical bits, distinguishability extracted through perfect discrimination is bounded. One cannot simultaneously extract all classical information and preserve coherence. Such duality relation exposes an inherent trade-off between quantum coherence and classical distinguishability resources. Our findings offer a fresh perspective and advance our understanding of the intrinsic complementary relationship between quantum and classical resources. | 翻訳日:2024-04-23 13:17:55 公開日:2024-04-22 |
# 時間に適応する:なぜ自然は多様なニューロン群を進化させたのか
Adapting to time: why nature evolved a diverse set of neurons ( http://arxiv.org/abs/2404.14325v1 ) ライセンス: Link先を確認 | Karim G. Habashy, Benjamin D. Evans, Dan F. M. Goodman, Jeffrey S. Bowers, | (参考訳) 進化は、時間情報の処理に影響を及ぼす様々な形態と生理学的特性を持つ多様なニューロンの集合を生み出した。
さらに、スパイクタイミングが神経計算において重要な要素であることは実証的に知られている。
しかしながら、これらの2つの観測にもかかわらず、ほとんどのニューラルネットワークモデルは、重みやバイアスといったパラメータの変動を制限しながら、同期時間ステップで空間的に構造化された入力を扱う。
本研究では、時空間スパイクパターンをマッピングするフィードフォワードネットワークにおいて、時間定数や遅延などの時間的パラメータを適用することの関連性について検討する。
この文脈では、よりリッチなポテンシャル力学を持つネットワークは、時間的構造を持つタスクをより簡単かつ堅牢に学習できることが示される。
実際、適応が重みに制限されたとき、ネットワークはほとんどの問題を解決することができなかった。
また,様々なパラメータ間の強い相互作用と,入力や重みのノイズに対処する際の時間的パラメータの利点も示し,ニューロモルフィックなハードウェア設計において有用であることを示した。
Evolution has yielded a diverse set of neurons with varying morphologies and physiological properties that impact their processing of temporal information. In addition, it is known empirically that spike timing is a significant factor in neural computations. However, despite these two observations, most neural network models deal with spatially structured inputs with synchronous time steps, while restricting variation to parameters like weights and biases. In this study, we investigate the relevance of adapting temporal parameters, like time constants and delays, in feedforward networks that map spatio-temporal spike patterns. In this context, we show that networks with richer potential dynamics are able to more easily and robustly learn tasks with temporal structure. Indeed, when adaptation was restricted to weights, networks were unable to solve most problems. We also show strong interactions between the various parameters and the advantages of adapting temporal parameters when dealing with noise in inputs and weights, which might prove useful in neuromorphic hardware design. | 翻訳日:2024-04-23 13:17:55 公開日:2024-04-22 |
# 拡大スケールにおけるMRIデータ処理のための機械学習技術
Machine Learning Techniques for MRI Data Processing at Expanding Scale ( http://arxiv.org/abs/2404.14326v1 ) ライセンス: Link先を確認 | Taro Langner, | (参考訳) 世界中のイメージングサイトは、より多用途で手頃な価格のテクノロジーで、より多くの医療スキャンデータを生成する。
大規模な研究は、ライフスタイルのアンケートから生化学的測定、遺伝子解析まで、何万人もの参加者のMRIを取得する。
これらの大規模なデータセットは人間の健康に関する情報をエンコードし、機械学習のトレーニングと分析にかなりの可能性を秘めている。
本章は、現在進行中の大規模研究と、それら間の分散シフトの課題について考察する。
このようなシフトを克服するためのトランスファーラーニングと、複数の機関で安全に保持された分散トレーニングデータへの安全なアクセスのためのフェデレーションラーニングについて論じる。
最後に,マルチモーダル入力形式における抽象的関係を表現する埋め込みを符号化する手法として表現学習について検討する。
Imaging sites around the world generate growing amounts of medical scan data with ever more versatile and affordable technology. Large-scale studies acquire MRI for tens of thousands of participants, together with metadata ranging from lifestyle questionnaires to biochemical assays, genetic analyses and more. These large datasets encode substantial information about human health and hold considerable potential for machine learning training and analysis. This chapter examines ongoing large-scale studies and the challenge of distribution shifts between them. Transfer learning for overcoming such shifts is discussed, together with federated learning for safe access to distributed training data securely held at multiple institutions. Finally, representation learning is reviewed as a methodology for encoding embeddings that express abstract relationships in multi-modal input formats. | 翻訳日:2024-04-23 13:17:55 公開日:2024-04-22 |
# アンサンブルフィルタ法における線形不変量の保存
Preserving linear invariants in ensemble filtering methods ( http://arxiv.org/abs/2404.14328v1 ) ライセンス: Link先を確認 | Mathieu Le Provost, Jan Glaubitz, Youssef Marzouk, | (参考訳) 物理現象の力学モデルを定式化することは、異なるメカニズム間の相互作用を理解し、物理的状態の進化を予測するのに不可欠である。
しかし、モデルエラーや不確実性に悩まされるため、力学モデルだけではこれらの基本的な問題に対処できないことが多い。
一般的な治療法の1つは、状態推定が真のシステムの観測によって更新されるデータ同化に依存することである。
アンサンブルフィルタは、時間の経過とともにサンプルの集合を更新することによって、観測を順次同化する。
それらは、各サンプルを動的モデルを通して伝播させる予測ステップと、試料を受信した観測で更新する分析ステップの2つのステップで機能する。
力学系の正確かつ堅牢な予測のために、離散解はその臨界不変量を保存する必要がある。
現代の数値解法はこれらの不変量を満たすが、既存の不変保存解析ステップはガウスの設定に限られており、アンサンブルフィルタ、例えばインフレーション、共分散テーパリングの古典的な正規化技術と互換性がないことが多い。
本研究は, 質量, 化学種の化学平衡, 電荷などの線形不変量の保存に焦点をあてる。
測定輸送理論(Spantini et al , 2022, SIAM Review)のツールを用いて, 非ガウスフィルタ問題において, 所望の線形不変量を自動的に保存する非線形アンサンブルフィルタの一般クラスを導入する。
この枠組みをガウス的設定に特殊化することにより、カルマンフィルタの制約付き定式化を復元する。
次に、アンサンブル・カルマンフィルタ(Evensen, 1994, J. Geophys. Res.)の既存の正規化手法と線形不変量の保存方法を示す。
最後に、アンサンブルカルマンフィルタと非線形アンサンブルフィルタの線形不変量保存の利点を評価する。
Formulating dynamical models for physical phenomena is essential for understanding the interplay between the different mechanisms and predicting the evolution of physical states. However, a dynamical model alone is often insufficient to address these fundamental tasks, as it suffers from model errors and uncertainties. One common remedy is to rely on data assimilation, where the state estimate is updated with observations of the true system. Ensemble filters sequentially assimilate observations by updating a set of samples over time. They operate in two steps: a forecast step that propagates each sample through the dynamical model and an analysis step that updates the samples with incoming observations. For accurate and robust predictions of dynamical systems, discrete solutions must preserve their critical invariants. While modern numerical solvers satisfy these invariants, existing invariant-preserving analysis steps are limited to Gaussian settings and are often not compatible with classical regularization techniques of ensemble filters, e.g., inflation and covariance tapering. The present work focuses on preserving linear invariants, such as mass, stoichiometric balance of chemical species, and electrical charges. Using tools from measure transport theory (Spantini et al., 2022, SIAM Review), we introduce a generic class of nonlinear ensemble filters that automatically preserve desired linear invariants in non-Gaussian filtering problems. By specializing this framework to the Gaussian setting, we recover a constrained formulation of the Kalman filter. Then, we show how to combine existing regularization techniques for the ensemble Kalman filter (Evensen, 1994, J. Geophys. Res.) with the preservation of the linear invariants. Finally, we assess the benefits of preserving linear invariants for the ensemble Kalman filter and nonlinear ensemble filters. | 翻訳日:2024-04-23 13:17:55 公開日:2024-04-22 |
# X線: 生成のための連続した3D表現
X-Ray: A Sequential 3D Representation for Generation ( http://arxiv.org/abs/2404.14329v1 ) ライセンス: Link先を確認 | Tao Hu, Wenhang Ge, Yuyang Zhao, Gim Hee Lee, | (参考訳) 本稿では,オブジェクトの外部特徴と内部特徴の両方を的確に捉えるために,X線スキャンの深度低減機能からインスピレーションを得て,新しい逐次表現を用いた3次元生成の革新的アプローチであるX線を紹介する。
本手法の中心となるのは, カメラの視点から得られたレイキャスト技術を利用して, 交差するすべての面で発生する幾何学的, テクスチャ的詳細を正確に記録することである。
このプロセスは、完全なオブジェクトやシーンを、ビデオのように、効率的にマルチフレームフォーマットに凝縮する。
このような構造は、3D表現が臨界表面情報のみで構成されていることを保証する。
我々は,X線表現の実用性と適応性を強調し,映像拡散モデルと類似したネットワークアーキテクチャを用いて,3Dオブジェクトの合成におけるその有用性を示す。
これらの結果から,3次元合成の精度と効率の両立を図り,現在進行中の研究と実用化に向けての新たな方向性を示唆した。
In this paper, we introduce X-Ray, an innovative approach to 3D generation that employs a new sequential representation, drawing inspiration from the depth-revealing capabilities of X-Ray scans to meticulously capture both the external and internal features of objects. Central to our method is the utilization of ray casting techniques originating from the camera's viewpoint, meticulously recording the geometric and textural details encountered across all intersected surfaces. This process efficiently condenses complete objects or scenes into a multi-frame format, just like videos. Such a structure ensures the 3D representation is composed solely of critical surface information. Highlighting the practicality and adaptability of our X-Ray representation, we showcase its utility in synthesizing 3D objects, employing a network architecture akin to that used in video diffusion models. The outcomes reveal our representation's superior performance in enhancing both the accuracy and efficiency of 3D synthesis, heralding new directions for ongoing research and practical implementations in the field. | 翻訳日:2024-04-23 13:17:55 公開日:2024-04-22 |
# 可変長変分拡散による全事象レベル展開
Full Event Particle-Level Unfolding with Variable-Length Latent Variational Diffusion ( http://arxiv.org/abs/2404.14332v1 ) ライセンス: Link先を確認 | Alexander Shmakov, Kevin Greif, Michael James Fenton, Aishik Ghosh, Pierre Baldi, Daniel Whiteson, | (参考訳) 粒子物理学の実験によって行われた測定は、相互作用を観測するために使われる検出器の不完全な応答を考慮しなければならない。
1つのアプローチ、展開は、検出器効果の実験データを統計的に調整する。
近年、生成機械学習モデルは、多数の次元でアンバインド・アンフォールディングを実行することを約束している。
しかし、現在の生成的アプローチは、固定された可観測物の集合を展開させることに限られており、コライダーデータの可変次元環境において完全な展開を行うことができない。
変分潜在拡散モデル(VLD)による生成的展開へのアプローチを新たに改良し,高次元および可変次元の特徴空間の展開を可能にする。
この手法の性能は、大型ハドロン衝突型加速器における半レプトニックトップクォーク対生成の文脈で評価される。
The measurements performed by particle physics experiments must account for the imperfect response of the detectors used to observe the interactions. One approach, unfolding, statistically adjusts the experimental data for detector effects. Recently, generative machine learning models have shown promise for performing unbinned unfolding in a high number of dimensions. However, all current generative approaches are limited to unfolding a fixed set of observables, making them unable to perform full-event unfolding in the variable dimensional environment of collider data. A novel modification to the variational latent diffusion model (VLD) approach to generative unfolding is presented, which allows for unfolding of high- and variable-dimensional feature spaces. The performance of this method is evaluated in the context of semi-leptonic top quark pair production at the Large Hadron Collider. | 翻訳日:2024-04-23 13:17:55 公開日:2024-04-22 |
# 逆言語適応によるゼロショット言語間スタンス検出
Zero-shot Cross-lingual Stance Detection via Adversarial Language Adaptation ( http://arxiv.org/abs/2404.14339v1 ) ライセンス: Link先を確認 | Bharathi A, Arkaitz Zubiaga, | (参考訳) スタンス検出は、ソーシャルメディア投稿がワクチンに対するサポートのような特定の問題に対して、ポジティブ、ネガティブ、中立であるかどうかを決定するタスクとして広く研究されている。
しかし、スタンス検出の研究は単一の言語に限られることが多く、複数の言語が研究されているところでは、ゼロショットの言語間スタンス検出モデルを開発する際の課題を見越して、少数のショット設定に焦点を当てている。
本稿では,対象言語に対する明示的な訓練データがない場合に,言語間分類器の性能を高めることを目的とした,ゼロショット言語間スタンス検出のための新しいアプローチであるMTAB(Multilingual Translation-Augmented BERT)を提案する。
本手法では,ゼロショット性能を向上させるために翻訳拡張を用い,モデルの有効性をさらに向上するために,対角学習と組み合わせる。
データセットの実験を通じて、英語、ドイツ語、フランス語、イタリア語の4つの言語でのワクチンに対するスタンスをラベル付けした。
提案手法の有効性を実証し,強力なベースラインモデルと改良されたモデルとの比較を行った。
実験では,モデルの性能向上のために,モデルコンポーネント,特に翻訳強化データ,および逆学習コンポーネントの有効性を実証した。
ソースコードをGitHubでアクセス可能にしました。
Stance detection has been widely studied as the task of determining if a social media post is positive, negative or neutral towards a specific issue, such as support towards vaccines. Research in stance detection has however often been limited to a single language and, where more than one language has been studied, research has focused on few-shot settings, overlooking the challenges of developing a zero-shot cross-lingual stance detection model. This paper makes the first such effort by introducing a novel approach to zero-shot cross-lingual stance detection, Multilingual Translation-Augmented BERT (MTAB), aiming to enhance the performance of a cross-lingual classifier in the absence of explicit training data for target languages. Our technique employs translation augmentation to improve zero-shot performance and pairs it with adversarial learning to further boost model efficacy. Through experiments on datasets labeled for stance towards vaccines in four languages English, German, French, Italian. We demonstrate the effectiveness of our proposed approach, showcasing improved results in comparison to a strong baseline model as well as ablated versions of our model. Our experiments demonstrate the effectiveness of model components, not least the translation-augmented data as well as the adversarial learning component, to the improved performance of the model. We have made our source code accessible on GitHub. | 翻訳日:2024-04-23 13:17:55 公開日:2024-04-22 |
# ドメイン不変単位を用いた不均一顔認証
Heterogeneous Face Recognition Using Domain Invariant Units ( http://arxiv.org/abs/2404.14343v1 ) ライセンス: Link先を確認 | Anjith George, Sebastien Marcel, | (参考訳) Heterogeneous Face Recognition (HFR) は、顔認識(FR)システムの適用性を挑戦シナリオに拡張することを目的としており、熱画像と可視スペクトルとのマッチングなど、さまざまな領域にわたる顔画像のマッチングを可能にする。
しかし、HFRシステムの開発は、モダリティと大規模ペアリングマルチチャネルデータの可用性の欠如の間に大きなドメインギャップがあるため、困難である。
本研究では,教師ネットワークとして事前訓練された顔認識モデルを用いて,ドメイン不変ユニット(Domain-Invariant Units,DIU)と呼ばれるドメイン不変ネットワーク層を学習し,ドメインギャップを低減する。
提案したDIUは、対照的な蒸留フレームワークを用いて、限られた量のペアトレーニングデータでも効果的に訓練することができる。
提案手法は、事前訓練されたモデルを強化する可能性があり、より広い範囲のデータに適応できる。
我々は、複数の挑戦的ベンチマークに対する我々のアプローチを広く評価し、最先端の手法と比較して優れた性能を示した。
Heterogeneous Face Recognition (HFR) aims to expand the applicability of Face Recognition (FR) systems to challenging scenarios, enabling the matching of face images across different domains, such as matching thermal images to visible spectra. However, the development of HFR systems is challenging because of the significant domain gap between modalities and the lack of availability of large-scale paired multi-channel data. In this work, we leverage a pretrained face recognition model as a teacher network to learn domaininvariant network layers called Domain-Invariant Units (DIU) to reduce the domain gap. The proposed DIU can be trained effectively even with a limited amount of paired training data, in a contrastive distillation framework. This proposed approach has the potential to enhance pretrained models, making them more adaptable to a wider range of variations in data. We extensively evaluate our approach on multiple challenging benchmarks, demonstrating superior performance compared to state-of-the-art methods. | 翻訳日:2024-04-23 13:17:55 公開日:2024-04-22 |
# 高速ビデオラベリングのためのオンザフライポイントアノテーション
On-the-Fly Point Annotation for Fast Medical Video Labeling ( http://arxiv.org/abs/2404.14344v1 ) ライセンス: Link先を確認 | Meyer Adrien, Mazellier Jean-Paul, Jeremy Dana, Nicolas Padoy, | (参考訳) 目的: 医学研究において、ディープラーニングモデルは高品質な注釈付きデータに依存している。
これは、バウンディングボックスアノテーションが必要なタスクを検出するために特に当てはまります。
2つのコーナーを調整する必要があるため、プロセスは本質的にフレーム単位で行われる。
専門家の時間不足を考えると、臨床医に適した効果的なアノテーション手法が必要である。
方法: アノテーション効率を向上させるために, ライブビデオアノテーションのオンザフライ方式を提案する。
このアプローチでは、オブジェクトのカーソルをライブビデオに保持し、従来のアノテーションメソッドに固有の退屈な一時停止と反復的なナビゲーションの必要性を軽減することで、連続的な単一ポイントアノテーションが維持される。
この新しいアノテーションパラダイムは、ポイントツーボックスの教師モデルを用いて擬似ラベルを生成するポイントアノテーションの能力を継承する。
提案手法は,データセットの開発とオンザフライアノテーション時間の比較により,従来のアノテーション手法と比較することによって実証的に評価する。
結果: 従来のアノテーション手法よりも3.2倍高速であった。
我々は、従来の手法よりも6.51+-0.98 AP@50の平均的な改善を、開発したデータセットで同等のアノテーション予算で達成した。
結論: ベルとホイッスルがなければ、私たちのアプローチはアノテーションタスクの大幅なスピードアップを提供します。
ビデオベースの医学研究におけるディープラーニングの統合を加速するために、どんなアノテーションプラットフォームでも容易に実装できる。
Purpose: In medical research, deep learning models rely on high-quality annotated data, a process often laborious and timeconsuming. This is particularly true for detection tasks where bounding box annotations are required. The need to adjust two corners makes the process inherently frame-by-frame. Given the scarcity of experts' time, efficient annotation methods suitable for clinicians are needed. Methods: We propose an on-the-fly method for live video annotation to enhance the annotation efficiency. In this approach, a continuous single-point annotation is maintained by keeping the cursor on the object in a live video, mitigating the need for tedious pausing and repetitive navigation inherent in traditional annotation methods. This novel annotation paradigm inherits the point annotation's ability to generate pseudo-labels using a point-to-box teacher model. We empirically evaluate this approach by developing a dataset and comparing on-the-fly annotation time against traditional annotation method. Results: Using our method, annotation speed was 3.2x faster than the traditional annotation technique. We achieved a mean improvement of 6.51 +- 0.98 AP@50 over conventional method at equivalent annotation budgets on the developed dataset. Conclusion: Without bells and whistles, our approach offers a significant speed-up in annotation tasks. It can be easily implemented on any annotation platform to accelerate the integration of deep learning in video-based medical research. | 翻訳日:2024-04-23 13:17:55 公開日:2024-04-22 |
# レーザーによる微小チャネル原子磁気センサ
Laser-written micro-channel atomic magnetometer ( http://arxiv.org/abs/2404.14345v1 ) ライセンス: Link先を確認 | Andrea Zanoni, Kostas Mouloudakis, Michael C. D. Tayler, Giacomo Corrielli, Roberto Osellame, Morgan W. Mitchell, Vito Giovanni Lucivero, | (参考訳) フェムト秒レーザーライティングおよび化学エッチングにより掘削したサブmm幅センシングチャネルにおいて,ルビジウム蒸気と0.75mgの窒素緩衝ガスを用いた高感度光ポンピング磁気センサを実証した。
流路は溶かされたシリカのホスト材の表面より1mmも下方に埋もれており、貯水室やマイクロストリナー接続も備えており、クリーンな光学環境を維持している。
ゼロ場共鳴磁気メトリーと2.25 mm$^3$のセンシング体積を用いて、$\approx$ 1 $\mathrm{pT}/\sqrt{\mathrm{Hz}}$ at 10$ Hz の感度を示す。
このデバイスは、フォトニック構造や3D汎用性を備えたマイクロ流体チャネルと統合することができる。
その感度、帯域幅、スタンドオフ距離により、磁性ナノ粒子や \mul NMRサンプルから局所的な磁場を検出することができる。
We demonstrate a sensitive optically-pumped magnetometer using rubidium vapor and 0.75 amg of nitrogen buffer gas in a sub-mm-width sensing channel excavated by femtosecond laser writing followed by chemical etching. The channel is buried less than 1 mm below the surface of its fused silica host material, which also includes reservoir chambers and micro-strainer connections, to preserve a clean optical environment. Using a zero-field-resonance magnetometry strategy and a sensing volume of 2.25 mm$^3$, we demonstrate a sensitivity of $\approx$ 1 $\mathrm{pT}/\sqrt{\mathrm{Hz}}$ at $10$ Hz. The device can be integrated with photonic structures and microfluidic channels with 3D versatility. Its sensitivity, bandwidth and stand-off distance will enable detection of localized fields from magnetic nanoparticles and \mul NMR samples. | 翻訳日:2024-04-23 13:17:55 公開日:2024-04-22 |
# 視覚回路の自動発見
Automatic Discovery of Visual Circuits ( http://arxiv.org/abs/2404.14349v1 ) ライセンス: Link先を確認 | Achyuta Rajaram, Neil Chowdhury, Antonio Torralba, Jacob Andreas, Sarah Schwettmann, | (参考訳) これまで、ディープビジョンモデルで人間の解釈可能な計算を実装するネットワークサブコンポーネントの発見のほとんどは、単一ユニットと大量の人的労働の綿密な研究に関わってきた。
本稿では,視覚モデルにおける視覚的概念の認識の基盤となる計算グラフのサブグラフを抽出するスケーラブルな手法について検討する。
本稿では,これらのサブグラフを識別する新しい手法を提案する。いくつかの例を用いて視覚概念を指定した後,層間におけるニューロン活性化の相互依存性,あるいはそれらの機能的接続をトレースする。
提案手法は, モデル出力に因果的に影響を及ぼす回路を抽出し, これらの回路を編集することで, 敵攻撃から大きな事前学習モデルを守ることができることがわかった。
To date, most discoveries of network subcomponents that implement human-interpretable computations in deep vision models have involved close study of single units and large amounts of human labor. We explore scalable methods for extracting the subgraph of a vision model's computational graph that underlies recognition of a specific visual concept. We introduce a new method for identifying these subgraphs: specifying a visual concept using a few examples, and then tracing the interdependence of neuron activations across layers, or their functional connectivity. We find that our approach extracts circuits that causally affect model output, and that editing these circuits can defend large pretrained models from adversarial attacks. | 翻訳日:2024-04-23 13:17:55 公開日:2024-04-22 |
# シーンコーディネート再構築:再ローカライザの漸進的学習による画像収集の可能性
Scene Coordinate Reconstruction: Posing of Image Collections via Incremental Learning of a Relocalizer ( http://arxiv.org/abs/2404.14351v1 ) ライセンス: Link先を確認 | Eric Brachmann, Jamie Wynn, Shuai Chen, Tommaso Cavallari, Áron Monszpart, Daniyar Turmukhambetov, Victor Adrian Prisacariu, | (参考訳) シーンを描写した画像からカメラパラメータを推定するタスクに対処する。
SfM(Structure-from-motion)ツールは、スパース3Dポイントの三角測量を繰り返し、スパースポイントクラウドにより多くのカメラビューを登録することで、このタスクを段階的に再構築することで解決する。
我々は,視覚的再ローカライザの反復的応用,すなわち,新たなビューを現在のリコンストラクション状態に登録する手法として,インクリメンタル構造を運動から再解釈する。
この観点から、局所的な特徴マッチングに根付いていない視覚的再ローカライザを探索することができる。
学習に基づく再ローカライズ手法であるシーン座標回帰により、未提示画像から暗黙的なニューラルシーン表現を構築することができることを示す。
他の学習に基づく再構築方法と異なり、ポーズ先やシーケンシャルな入力は必要とせず、何千もの画像に対して効率的に最適化する。
提案手法であるACE0 (ACE Zero) は,新規なビュー合成によって示される特徴ベースのSfMに匹敵する精度でカメラのポーズを推定する。
プロジェクトページ: https://nianticlabs.github.io/acezero/
We address the task of estimating camera parameters from a set of images depicting a scene. Popular feature-based structure-from-motion (SfM) tools solve this task by incremental reconstruction: they repeat triangulation of sparse 3D points and registration of more camera views to the sparse point cloud. We re-interpret incremental structure-from-motion as an iterated application and refinement of a visual relocalizer, that is, of a method that registers new views to the current state of the reconstruction. This perspective allows us to investigate alternative visual relocalizers that are not rooted in local feature matching. We show that scene coordinate regression, a learning-based relocalization approach, allows us to build implicit, neural scene representations from unposed images. Different from other learning-based reconstruction methods, we do not require pose priors nor sequential inputs, and we optimize efficiently over thousands of images. Our method, ACE0 (ACE Zero), estimates camera poses to an accuracy comparable to feature-based SfM, as demonstrated by novel view synthesis. Project page: https://nianticlabs.github.io/acezero/ | 翻訳日:2024-04-23 13:17:55 公開日:2024-04-22 |
# Calc-CMU at SemEval-2024 Task 7: Pre-Calc -- 計算機を使って言語モデルの数値性を改善することを学ぶ
Calc-CMU at SemEval-2024 Task 7: Pre-Calc -- Learning to Use the Calculator Improves Numeracy in Language Models ( http://arxiv.org/abs/2404.14355v1 ) ライセンス: Link先を確認 | Vishruth Veerendranath, Vishwa Shah, Kshitish Ghate, | (参考訳) 言語における量的および数値的理解は、教育や金融など多くの分野で重要な課題であるが、それでも言語モデルにとって難しい課題である。
ツールと電卓の使用は、大規模な事前訓練されたデコーダのみの言語モデルで数学的推論を改善するのに有用であるが、エンコーダを持つより小さな言語モデルでは、まだ探索されていない。
本稿では,計算機をエンコーダのみのアーキテクチャとエンコーダデコーダアーキテクチャの両方に使用するために,プリカルク(Pre-Calc)を提案する。
我々は,MAWPS,SVAMP,AsDiv-Aデータセットに対して,識別計算機用BERTとRoBERTaをプレトレーニングし,数値的な理解を必要とする下流タスクの性能を向上させる。
私たちのコードとデータはhttps://github.com/calc-cmu/pre-calc.comで公開されています。
Quantitative and numerical comprehension in language is an important task in many fields like education and finance, but still remains a challenging task for language models. While tool and calculator usage has shown to be helpful to improve mathematical reasoning in large pretrained decoder-only language models, this remains unexplored for smaller language models with encoders. In this paper, we propose Pre-Calc, a simple pre-finetuning objective of learning to use the calculator for both encoder-only and encoder-decoder architectures, formulated as a discriminative and generative task respectively. We pre-train BERT and RoBERTa for discriminative calculator use and Flan-T5 for generative calculator use on the MAWPS, SVAMP, and AsDiv-A datasets, which improves performance on downstream tasks that require numerical understanding. Our code and data are available at https://github.com/calc-cmu/pre-calc. | 翻訳日:2024-04-23 13:08:10 公開日:2024-04-22 |
# 法的なコンプライアンス自動化を再考する - 大規模言語モデルによる機会
Rethinking Legal Compliance Automation: Opportunities with Large Language Models ( http://arxiv.org/abs/2404.14356v1 ) ライセンス: Link先を確認 | Shabnam Hassani, Mehrdad Sabetzadeh, Daniel Amyot, Jain Liao, | (参考訳) ソフトウェア集約型システムは、法律や規則に準拠する圧力が高まっているため、コンプライアンス分析の自動サポートが最重要になっている。
法的コンプライアンス分析に関するRequireements Engineering (RE)コミュニティの進歩にもかかわらず、正確で一般化可能なコンプライアンス自動化ソリューションを開発する上で重要な障害は依然として残っている。
本稿では、現在のアプローチのいくつかの観察された制限を強調し、Large Language Models(LLM)を利用した新しい自動化戦略を採用することで、これらの欠点に対処し、新たな機会を開花させる方法について検討する。
具体的には、(テキスト)法的アーティファクトの検証は、まず、過去の研究において分析の単位として広く用いられてきた文よりも広い文脈で行うべきであると論じる。
第二に、法的アーティファクトによる分析のモードは、分類と情報抽出から、正確であるだけでなく、説明と正当化を提供することのできる、よりエンドツーエンドの戦略に移行する必要がある。
これらの制約に対処するために,コンプライアンス分析手法を提案する。
さらに,本手法の評価計画を概説するとともに,一般データ保護規則(GDPR)に従わなければならないデータ処理協定(DPA)に基づく予備評価結果について述べる。
我々の最初の発見は、我々のアプローチが相当な精度の向上をもたらすことを示唆し、同時にコンプライアンス決定の正当性を提供する。
As software-intensive systems face growing pressure to comply with laws and regulations, providing automated support for compliance analysis has become paramount. Despite advances in the Requirements Engineering (RE) community on legal compliance analysis, important obstacles remain in developing accurate and generalizable compliance automation solutions. This paper highlights some observed limitations of current approaches and examines how adopting new automation strategies that leverage Large Language Models (LLMs) can help address these shortcomings and open up fresh opportunities. Specifically, we argue that the examination of (textual) legal artifacts should, first, employ a broader context than sentences, which have widely been used as the units of analysis in past research. Second, the mode of analysis with legal artifacts needs to shift from classification and information extraction to more end-to-end strategies that are not only accurate but also capable of providing explanation and justification. We present a compliance analysis approach designed to address these limitations. We further outline our evaluation plan for the approach and provide preliminary evaluation results based on data processing agreements (DPAs) that must comply with the General Data Protection Regulation (GDPR). Our initial findings suggest that our approach yields substantial accuracy improvements and, at the same time, provides justification for compliance decisions. | 翻訳日:2024-04-23 13:08:10 公開日:2024-04-22 |
# 確率ADMMとその変数の一般連続時間定式化
A General Continuous-Time Formulation of Stochastic ADMM and Its Variants ( http://arxiv.org/abs/2404.14358v1 ) ライセンス: Link先を確認 | Chris Junchi Li, | (参考訳) 乗算器の交互方向法(ADMM)の確率的バージョンとその変種は、多くの現代の大規模機械学習問題において重要な役割を果たす。
本研究では,一般化確率ADMM(Generalized Stochastic ADMM)と呼ばれる統合アルゴリズムフレームワークを導入し,その連続時間解析について検討する。
一般化されたフレームワークは、標準、線形化、勾配に基づくADMMのような多くの確率的ADMM変種を含む。
連続時間解析により確率微分方程式と変分に関する新たな知見が得られ、ある適切なスケーリングの下では、確率微分方程式の軌道が小さな雑音を持つ確率微分方程式の解に弱収束することを厳密に証明する。
我々の分析はまた、緩和パラメータが 0 から 2 の間で選択されるべき理由を理論的に説明する。
Stochastic versions of the alternating direction method of multiplier (ADMM) and its variants play a key role in many modern large-scale machine learning problems. In this work, we introduce a unified algorithmic framework called generalized stochastic ADMM and investigate their continuous-time analysis. The generalized framework widely includes many stochastic ADMM variants such as standard, linearized and gradient-based ADMM. Our continuous-time analysis provides us with new insights into stochastic ADMM and variants, and we rigorously prove that under some proper scaling, the trajectory of stochastic ADMM weakly converges to the solution of a stochastic differential equation with small noise. Our analysis also provides a theoretical explanation of why the relaxation parameter should be chosen between 0 and 2. | 翻訳日:2024-04-23 13:08:10 公開日:2024-04-22 |
# 既存のデータセットの検索と変換によるより良い合成データ
Better Synthetic Data by Retrieving and Transforming Existing Datasets ( http://arxiv.org/abs/2404.14361v1 ) ライセンス: Link先を確認 | Saumya Gandhi, Ritu Gala, Vijay Viswanathan, Tongshuang Wu, Graham Neubig, | (参考訳) 近年の大規模言語モデルの発展にもかかわらず、信頼性が高くデプロイ可能なNLPモデルの構築には、多くの高品質なトレーニングデータが必要である。
しかし、多くのユースケースでタスク固有のデータは利用できず、手作業でタスク固有のデータをキュレートするのは労働集約的です。
近年の研究では、大規模言語モデルを用いたプロンプト駆動合成データ生成について研究されているが、これらのデータセットは複雑さと多様性に欠ける傾向がある。
これらの制限に対処するために、既存の公開データセットをよりよく活用して自動データセット生成を改善するために、‘textit{DataTune}’というメソッドを導入する。
DataTuneはデータセット変換を実行することで、公開されているデータセットを、ターゲットタスクの特定の要件と直接整合したフォーマットに再利用することが可能になる。
BIG-Benchベンチマークから得られた多種多様な言語ベースのタスクでは、DataTuneによる微調整言語モデルは、ベースラインを49倍に改善し、合成または検索したトレーニングデータを使用する既存のメソッドを34倍改善する。
データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
DataTuneをオープンソースリポジトリに統合して,このメソッドをコミュニティに公開しています。
Despite recent advances in large language models, building dependable and deployable NLP models typically requires abundant, high-quality training data. However, task-specific data is not available for many use cases, and manually curating task-specific data is labor-intensive. Recent work has studied prompt-driven synthetic data generation using large language models, but these generated datasets tend to lack complexity and diversity. To address these limitations, we introduce a method, \textit{DataTune}, to make better use of existing, publicly available datasets to improve automatic dataset generation. DataTune performs dataset transformation, enabling the repurposing of publicly available datasets into a format that is directly aligned with the specific requirements of target tasks. On a diverse set of language-based tasks from the BIG-Bench benchmark, we find that finetuning language models via DataTune improves over a few-shot prompting baseline by 49\% and improves over existing methods that use synthetic or retrieved training data by 34\%. We find that dataset transformation significantly increases the diversity and difficulty of generated data on many tasks. We integrate DataTune into an open-source repository to make this method accessible to the community: https://github.com/neulab/prompt2model. | 翻訳日:2024-04-23 13:08:10 公開日:2024-04-22 |
# 研究ソフトウェアカテゴリへ向けて
Toward Research Software Categories ( http://arxiv.org/abs/2404.14364v1 ) ライセンス: Link先を確認 | Wilhelm Hasselbring, Stephan Druskat, Jan Bernoth, Philine Betker, Michael Felderer, Stephan Ferenz, Anna-Lena Lamprecht, Jan Linxweiler, Bernhard Rumpe, | (参考訳) 研究ソフトウェアは、異なる目標を達成するために、異なるコンテキストに分類されている。
まず、研究ソフトウェアカテゴリの目的について議論する前に、研究ソフトウェアとは何かを見てみます。
研究ソフトウェアの多次元分類を提案する。
このようなカテゴリを特徴付けるテンプレートを提案する。
選択された次元として、提案した役割ベース、開発者ベース、成熟度ベースのカテゴリを提示する。
本研究は,研究ソフトウェアを分類する様々な取り組みに触発されて以来,関連研究として議論されている。
我々はこれらすべてのカテゴリを、以前に導入されたテンプレートを通じて特徴付け、体系的な比較を可能にする。
Research software has been categorized in different contexts to serve different goals. We start with a look at what research software is, before we discuss the purpose of research software categories. We propose a multi-dimensional categorization of research software. We present a template for characterizing such categories. As selected dimensions, we present our proposed role-based, developer-based, and maturity-based categories. Since our work has been inspired by various previous efforts to categorize research software, we discuss them as related works. We characterize all these categories via the previously introduced template, to enable a systematic comparison. | 翻訳日:2024-04-23 13:08:10 公開日:2024-04-22 |
# 信頼できるAIと基本的人権評価を実現するために学んだ教訓
Lessons Learned in Performing a Trustworthy AI and Fundamental Rights Assessment ( http://arxiv.org/abs/2404.14366v1 ) ライセンス: Link先を確認 | Marjolein Boonstra, Frédérick Bruneault, Subrata Chakraborty, Tjitske Faber, Alessio Gallucci, Eleanore Hickman, Gerard Kema, Heejin Kim, Jaap Kooiker, Elisabeth Hildt, Annegret Lamadé, Emilie Wiinblad Mathez, Florian Möslein, Genien Pathuis, Giovanni Sartor, Marijke Steege, Alice Stocco, Willy Tadema, Jarno Tuimala, Isabel van Vledder, Dennis Vetter, Jana Vetter, Magnus Westerlund, Roberto V. Zicari, | (参考訳) 本報告では、Friesland省、オランダ内国関係省(BZK)のRijks ICT Gilde-part、およびZ-Inspection$^{\small{\circledR}}$ Initiativeとの協力のもと、パイロットプロジェクト「AIの責任利用」の実施で得られた経験、成果、教訓を共有する。
試験飛行は2022年5月から2023年1月まで行われた。
パイロット期間中、Fr\^yslan県からのディープラーニングアルゴリズムの実践的応用が評価された。
AIは、自然保護区を監視するために衛星画像を用いて草地をマッピングする。
環境モニタリングは、飲料水に関する基準の維持から、特定の州や地域のCO2排出量の定量化まで、様々な目的で社会が行う重要な活動の1つである。
衛星画像と機械学習を使って意思決定を支援することは、環境モニタリングの重要な部分になりつつある。
このレポートの主な焦点は、Z-Inspection$^{\small{\circledR}}のプロセスとTrustworthy AIのEUフレームワークを使用して、信頼できるAIアセスメントの実行から学んだ経験、成果、教訓を共有し、オランダ政府によるAIアルゴリズムの使用を推奨する基本的権利アセスメント(FRAIA)を使用して、基本的権利アセスメントと組み合わせることである。
This report shares the experiences, results and lessons learned in conducting a pilot project ``Responsible use of AI'' in cooperation with the Province of Friesland, Rijks ICT Gilde-part of the Ministry of the Interior and Kingdom Relations (BZK) (both in The Netherlands) and a group of members of the Z-Inspection$^{\small{\circledR}}$ Initiative. The pilot project took place from May 2022 through January 2023. During the pilot, the practical application of a deep learning algorithm from the province of Fr\^yslan was assessed. The AI maps heathland grassland by means of satellite images for monitoring nature reserves. Environmental monitoring is one of the crucial activities carried on by society for several purposes ranging from maintaining standards on drinkable water to quantifying the CO2 emissions of a particular state or region. Using satellite imagery and machine learning to support decisions is becoming an important part of environmental monitoring. The main focus of this report is to share the experiences, results and lessons learned from performing both a Trustworthy AI assessment using the Z-Inspection$^{\small{\circledR}}$ process and the EU framework for Trustworthy AI, and combining it with a Fundamental Rights assessment using the Fundamental Rights and Algorithms Impact Assessment (FRAIA) as recommended by the Dutch government for the use of AI algorithms by the Dutch public authorities. | 翻訳日:2024-04-23 13:08:10 公開日:2024-04-22 |
# 最適・オン・ポリティクスデータを活用するLLMの選好微調整
Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data ( http://arxiv.org/abs/2404.14367v1 ) ライセンス: Link先を確認 | Fahim Tajwar, Anikait Singh, Archit Sharma, Rafael Rafailov, Jeff Schneider, Tengyang Xie, Stefano Ermon, Chelsea Finn, Aviral Kumar, | (参考訳) 好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
異なる手法は異なる実装のトレードオフと性能の違いを持ち、既存の経験的発見は異なる結論を示し、例えば、オンラインRLが優れた微調整結果を得るために非常に重要であることを示す結果もある。
好みのデータを使って微調整する上で,どのようなアプローチが重要であるのか?
本稿では, ドクティックおよびフルスケールLLM問題における多数の微調整手法を厳密に分析することにより, この問題に対処する。
我々の主な発見は、一般に、オンラインサンプリングを使用するアプローチや、特定の応答(すなわち、"負の勾配"を採用する)に対する可能性を押し下げようとするアプローチが、オフラインおよび最大可能性目標を上回っていることである。
我々は, カテゴリー分布のモード探索目標という概念の下で, オンラインサンプリングや負の勾配を利用する手法を概念化し, 統一する。
モード探索の目的は、カテゴリー分布の特定のビンの確率質量を最大確率よりも速い速度で変化させることで、ビンをまたいでより効率的に質量を移動させることができる。
本分析では,LLMの選好微調整に関する実用的な知見を定式化し,最大改善のためのデータ収集方法について報告する。
Learning from preference labels plays a crucial role in fine-tuning large language models. There are several distinct approaches for preference fine-tuning, including supervised learning, on-policy reinforcement learning (RL), and contrastive learning. Different methods come with different implementation tradeoffs and performance differences, and existing empirical findings present different conclusions, for instance, some results show that online RL is quite important to attain good fine-tuning results, while others find (offline) contrastive or even purely supervised methods sufficient. This raises a natural question: what kind of approaches are important for fine-tuning with preference data and why? In this paper, we answer this question by performing a rigorous analysis of a number of fine-tuning techniques on didactic and full-scale LLM problems. Our main finding is that, in general, approaches that use on-policy sampling or attempt to push down the likelihood on certain responses (i.e., employ a "negative gradient") outperform offline and maximum likelihood objectives. We conceptualize our insights and unify methods that use on-policy sampling or negative gradient under a notion of mode-seeking objectives for categorical distributions. Mode-seeking objectives are able to alter probability mass on specific bins of a categorical distribution at a fast rate compared to maximum likelihood, allowing them to relocate masses across bins more effectively. Our analysis prescribes actionable insights for preference fine-tuning of LLMs and informs how data should be collected for maximal improvement. | 翻訳日:2024-04-23 13:08:10 公開日:2024-04-22 |
# 大規模マルチモーダルモデルによるグラフ設計
Graphic Design with Large Multimodal Model ( http://arxiv.org/abs/2404.14368v1 ) ライセンス: Link先を確認 | Yutao Cheng, Zhao Zhang, Maoke Yang, Hui Nie, Chunyuan Li, Xinglong Wu, Jie Shao, | (参考訳) グラフィックデザインの分野では、デザイン要素を凝集性の多層アートワークに統合する自動化が生産性を向上するだけでなく、グラフィックデザインの民主化の道を開く。
既存のプラクティスのひとつにGraphic Layout Generation (GLG)がある。
事前に定義された正しいレイヤシーケンスが必要であり、それによって創造的なポテンシャルが制限され、ユーザのワークロードが増加します。
本稿では、階層レイアウト生成(HLG)をより柔軟で実用的な設定とし、未順序設計要素の集合から図形合成を生成する。
HLGタスクに取り組むために,大規模なマルチモーダルモデルに基づく最初のレイアウト生成モデルであるGraphistを導入する。
グラフは、RGB-Aイメージを入力として利用し、HLGをシーケンス生成問題として効率的に再構成し、各要素の座標、サイズ、順序を示すJSONドラフトプロトコルを出力する。
我々はHLGの新しい評価指標を開発した。
グラディストは先行芸術より優れており、この分野の強力なベースラインを確立している。
プロジェクトホームページ:https://github.com/graphic-design-ai/graphist
In the field of graphic design, automating the integration of design elements into a cohesive multi-layered artwork not only boosts productivity but also paves the way for the democratization of graphic design. One existing practice is Graphic Layout Generation (GLG), which aims to layout sequential design elements. It has been constrained by the necessity for a predefined correct sequence of layers, thus limiting creative potential and increasing user workload. In this paper, we present Hierarchical Layout Generation (HLG) as a more flexible and pragmatic setup, which creates graphic composition from unordered sets of design elements. To tackle the HLG task, we introduce Graphist, the first layout generation model based on large multimodal models. Graphist efficiently reframes the HLG as a sequence generation problem, utilizing RGB-A images as input, outputs a JSON draft protocol, indicating the coordinates, size, and order of each element. We develop new evaluation metrics for HLG. Graphist outperforms prior arts and establishes a strong baseline for this field. Project homepage: https://github.com/graphic-design-ai/graphist | 翻訳日:2024-04-23 13:08:10 公開日:2024-04-22 |
# UMLに基づくコード生成におけるGPT-4-Visionの能力評価
Assessing GPT-4-Vision's Capabilities in UML-Based Code Generation ( http://arxiv.org/abs/2404.14370v1 ) ライセンス: Link先を確認 | Gábor Antal, Richárd Vozár, Rudolf Ferenc, | (参考訳) 高度なニューラルネットワークの出現は、概念モデルから自動コード生成の新しい方法を開き、ソフトウェア開発プロセスを強化することを約束している。
本稿では、最先端のディープラーニングモデルであるGPT-4-Visionの予備評価と、Unified Modeling Language(UML)クラス図を完全なJavaクラスファイルに変換する機能について述べる。
そこで本研究では,10のシングルクラス図と8のマルチクラス図からなる18のクラス図のエクスポート画像を用いた。
入力毎に3つの異なるプロンプトを使い、手動で結果を評価しました。
ソースコード内のダイアグラムに現れる要素をスコアリングするシステムを作成しました。
平均して、このモデルは図に示す要素の88%のソースコードを生成することができた。
以上の結果から,GPT-4-Visionは単一クラスUML図の処理能力を示し,それらを構文的に正しいクラスファイルに変換することに成功した。
しかし、マルチクラスのUMLダイアグラムの場合、モデルの性能はシングルクラスのダイアグラムよりも弱い。
要約すると、モデルの可能性を完全に活用するには、さらなる調査が必要である。
The emergence of advanced neural networks has opened up new ways in automated code generation from conceptual models, promising to enhance software development processes. This paper presents a preliminary evaluation of GPT-4-Vision, a state-of-the-art deep learning model, and its capabilities in transforming Unified Modeling Language (UML) class diagrams into fully operating Java class files. In our study, we used exported images of 18 class diagrams comprising 10 single-class and 8 multi-class diagrams. We used 3 different prompts for each input, and we manually evaluated the results. We created a scoring system in which we scored the occurrence of elements found in the diagram within the source code. On average, the model was able to generate source code for 88% of the elements shown in the diagrams. Our results indicate that GPT-4-Vision exhibits proficiency in handling single-class UML diagrams, successfully transforming them into syntactically correct class files. However, for multi-class UML diagrams, the model's performance is weaker compared to single-class diagrams. In summary, further investigations are necessary to exploit the model's potential completely. | 翻訳日:2024-04-23 13:08:10 公開日:2024-04-22 |
# Beyond Scaling: ドメイン固有のきめ細かいクレーム依存グラフによる特許承認の予測
Beyond Scaling: Predicting Patent Approval with Domain-specific Fine-grained Claim Dependency Graph ( http://arxiv.org/abs/2404.14372v1 ) ライセンス: Link先を確認 | Xiaochen Kev Gao, Feng Yao, Kewen Zhao, Beilei He, Animesh Kumar, Vish Krishnan, Jingbo Shang, | (参考訳) 大規模言語モデル(LLM)の成功により、モデルスケーリングは多くの言語タスクのデフォルトの選択肢になりつつある。
しかし、単純なカスタマイズされたメソッドが優れている特定のシナリオでは不足する可能性がある。
本稿では,特許承認前の課題を掘り下げ,特許データ内の本質的な依存関係を用いて,ドメイン固有グラフ法がモデルの拡張に優れていることを明らかにする。
具体的には、まず、オープンソースのLSMのさまざまなサイズでバックボーンモデルをスケールアップし、プロプライエタリなLSMの潜在能力を活用するためのプロンプトベースの手法を探りながら、ランダムな推測に近い最良の結果を見つけ、モデルスケーリングの非効率性を裏付ける。
そこで,本論文では,特許データ解析を巧みに行い,特許テキストのセグメント間の依存関係を抽出し,より詳細なcLAim depeNdency (FLAN)グラフを提案する。
モデルに依存しないので、FLANグラフに費用効率の良いグラフモデルを適用し、承認予測のための表現を得る。
広範囲な実験と詳細な分析により、様々なグラフモデルを通してFLANグラフを組み込むことで、全てのLLMベースラインを大幅に上回っていることが証明された。
我々は,本論文における観察と分析が,この課題により多くの注意を向け,LLMの限界についてさらなる研究を促進できることを期待している。
ソースコードとデータセットはhttp://github.com/ShangDataLab/FLAN-Graphから取得できます。
Model scaling is becoming the default choice for many language tasks due to the success of large language models (LLMs). However, it can fall short in specific scenarios where simple customized methods excel. In this paper, we delve into the patent approval pre-diction task and unveil that simple domain-specific graph methods outperform enlarging the model, using the intrinsic dependencies within the patent data. Specifically, we first extend the embedding-based state-of-the-art (SOTA) by scaling up its backbone model with various sizes of open-source LLMs, then explore prompt-based methods to harness proprietary LLMs' potential, but find the best results close to random guessing, underlining the ineffectiveness of model scaling-up. Hence, we propose a novel Fine-grained cLAim depeNdency (FLAN) Graph through meticulous patent data analyses, capturing the inherent dependencies across segments of the patent text. As it is model-agnostic, we apply cost-effective graph models to our FLAN Graph to obtain representations for approval prediction. Extensive experiments and detailed analyses prove that incorporating FLAN Graph via various graph models consistently outperforms all LLM baselines significantly. We hope that our observations and analyses in this paper can bring more attention to this challenging task and prompt further research into the limitations of LLMs. Our source code and dataset can be obtained from http://github.com/ShangDataLab/FLAN-Graph. | 翻訳日:2024-04-23 13:08:10 公開日:2024-04-22 |
# 測定による2成分クリフォード回路の時間エンタングルメントプロファイル
Temporal Entanglement Profiles in Dual-Unitary Clifford Circuits with Measurements ( http://arxiv.org/abs/2404.14374v1 ) ライセンス: Link先を確認 | Jiangtian Yao, Pieter W. Claeys, | (参考訳) 本研究では,空間的ユニタリティを保った確率的測定により,両単位クリフォード回路の時間的絡みについて検討した。
我々は,無測定状態における時間的絡み合い障壁を正確に特徴付け,弾道的成長と崩壊と容積法的なピークを示す。
その結果,浴槽サイズによる時間的絡み合いの初期弾道的成長は拡散的に変化し,永続的ランダムウォークモデルへのマッピングによって理解できることが判明した。
時間的絡み合い障壁のピーク値は、すべての測定速度に対して体積-法則スケーリングを示す。
さらに, 空間移動行列法により記述した指数減衰に対する時間的絡み合いを解消し, 弾道崩壊を「完全脱相限界」に修正する。
空間力学は非エルミートホッピングモデルにより説明され、臨界測定率$p=1/2$でPT破断遷移を示す。
We study temporal entanglement in dual-unitary Clifford circuits with probabilistic measurements preserving spatial unitarity. We exactly characterize the temporal entanglement barrier in the measurement-free regime, exhibiting ballistic growth and decay and a volume-law peak. In the presence of measurements, we show that the initial ballistic growth of temporal entanglement with bath size is modified to diffusive, which can be understood through a mapping to a persistent random walk model. The peak value of the temporal entanglement barrier exhibits volume-law scaling for all measurement rates. Additionally, measurements modify the ballistic decay to the ``perfect dephaser limit" with vanishing temporal entanglement to an exponential decay, which we describe through a spatial transfer matrix method. The spatial dynamics is shown to be described by a non-Hermitian hopping model, exhibiting a PT-breaking transition at a critical measurement rate $p=1/2$. | 翻訳日:2024-04-23 13:08:10 公開日:2024-04-22 |
# TAVGBench: テキストを可聴ビデオ生成にベンチマークする
TAVGBench: Benchmarking Text to Audible-Video Generation ( http://arxiv.org/abs/2404.14381v1 ) ライセンス: Link先を確認 | Yuxin Mao, Xuyang Shen, Jing Zhang, Zhen Qin, Jinxing Zhou, Mochu Xiang, Yiran Zhong, Yuchao Dai, | (参考訳) Text to Audible-Video Generation (TAVG) タスクでは、テキスト記述に基づいて、付随する音声でビデオを生成する。
これを実現するには、オーディオ要素とビデオ要素の両方を巧みにアライメントする必要がある。
この分野での研究を支援するために、我々は、合計11.8000時間のクリップを170万本以上含む総合的な音声ビデオ生成ベンチマーク(TAVGBench)を開発した。
本稿では,音声と映像の両方のコンテンツについて,各ビデオが詳細な記述を確実にするための自動アノテーションパイプラインを提案する。
また、オーディオ・ビジュアル・ハーモニスコア(AVHScore)を導入し、生成されたオーディオとビデオのモダリティのアライメントを定量的に測定する。
さらに,TAVDiffusionと呼ばれるTAVGのベースラインモデルを提案する。
我々は,クロスアテンションとコントラスト学習を用いて,音声と映像のアライメントを実現する。
TAVGBenchに関する広範な実験と評価を通じて,提案手法の有効性を従来手法と提案手法の両方で実証した。
The Text to Audible-Video Generation (TAVG) task involves generating videos with accompanying audio based on text descriptions. Achieving this requires skillful alignment of both audio and video elements. To support research in this field, we have developed a comprehensive Text to Audible-Video Generation Benchmark (TAVGBench), which contains over 1.7 million clips with a total duration of 11.8 thousand hours. We propose an automatic annotation pipeline to ensure each audible video has detailed descriptions for both its audio and video contents. We also introduce the Audio-Visual Harmoni score (AVHScore) to provide a quantitative measure of the alignment between the generated audio and video modalities. Additionally, we present a baseline model for TAVG called TAVDiffusion, which uses a two-stream latent diffusion model to provide a fundamental starting point for further research in this area. We achieve the alignment of audio and video by employing cross-attention and contrastive learning. Through extensive experiments and evaluations on TAVGBench, we demonstrate the effectiveness of our proposed model under both conventional metrics and our proposed metrics. | 翻訳日:2024-04-23 13:08:10 公開日:2024-04-22 |
# ラムゼー時計によるトンネル時間統一理論
A unified theory of tunneling times promoted by Ramsey clocks ( http://arxiv.org/abs/2404.14382v1 ) ライセンス: Link先を確認 | Patrik Schach, Enno Giese, | (参考訳) 量子トンネルのあと、時計は何時にわかるか?
予測と間接測定は、特定の実験と経過時間の正確な定義によって、超微粒子または瞬時トンネルから有限期間まで様々である。
提案と実装はこの遅延を定義するために原子運動を利用するが、原子の本質的な量子的性質は非局在化を示し、古典的な軌跡とは対照的である。
ここでは、内部状態のコヒーレントな重ね合わせで原子を準備し、古典的な軌道や速度の概念を使わずにトンネルの後にラムゼー列を通して読み上げられる時間を研究する。
運用の枠組み
(a)1つのアプローチにおいてトンネル遅延の定義を統一すること。
b) 時間と従来の原子時計で与えられる周波数標準を接続し、差分光シフトによって押し上げることができる。
(c)超音速トンネルや即時トンネルは存在しないことを強調する。
What time does a clock tell after quantum tunneling? Predictions and indirect measurements range from superluminal or instantaneous tunneling to finite durations, depending on the specific experiment and the precise definition of the elapsed time. Proposals and implementations utilize the atomic motion to define this delay, even though the inherent quantum nature of atoms implies a delocalization and is in sharp contrast to classical trajectories. Here, we rely on an operational approach: we prepare atoms in a coherent superposition of internal states and study the time read off via a Ramsey sequence after the tunneling process without the notion of classical trajectories or velocities. Our operational framework (a) unifies definitions of tunneling delay within one approach; (b) connects the time to a frequency standard given by a conventional atomic clock which can be boosted by differential light shifts; and (c) highlights that there exists no superluminal or instantaneous tunneling. | 翻訳日:2024-04-23 13:08:10 公開日:2024-04-22 |
# マルチコントラルトフォリ量子回路設計のための新しい最適化モデル
A New Optimization Model for Multiple-Control Toffoli Quantum Circuit Design ( http://arxiv.org/abs/2404.14384v1 ) ライセンス: Link先を確認 | Jihye Jung, Kevin Dalmeijer, Pascal Van Hentenryck, | (参考訳) 量子技術が進歩するにつれて、量子回路の効率的な設計が重要な研究領域となっている。
本稿では,従来の量子コンピューティングの背景を前提とせずに,可逆ブール関数に対するMCT量子回路設計問題を紹介する。
これはよく研究されている問題であるが、真の目的を最小化する最適化モデルは近年研究されているばかりである。
本稿では,制約プログラミングの解法を用いる場合と比較して,解時間を最大2桁改善する新しい最適化モデルと対称性破り制約を提案する。
最大7量子ビットと最大15個の量子ゲートを使った実験は、よく知られたベンチマークのためのいくつかの新しい最もよく知られた回路をもたらす。
最後に、他のアプローチと比較して、最適化モデルはより多くの時間を必要とするが、最適性を保証する優れた回路を提供することができることを示している。
As quantum technology is advancing, the efficient design of quantum circuits has become an important area of research. This paper provides an introduction to the MCT quantum circuit design problem for reversible Boolean functions without assuming a prior background in quantum computing. While this is a well-studied problem, optimization models that minimize the true objective have only been explored recently. This paper introduces a new optimization model and symmetry-breaking constraints that improve solving time by up to two orders of magnitude compared to earlier work when a Constraint Programming solver is used. Experiments with up to seven qubits and using up to 15 quantum gates result in several new best-known circuits for well-known benchmarks. Finally, an extensive comparison with other approaches shows that optimization models may require more time but can provide superior circuits with optimality guarantees. | 翻訳日:2024-04-23 13:08:10 公開日:2024-04-22 |
# 大規模言語モデルの自己進化に関する調査
A Survey on Self-Evolution of Large Language Models ( http://arxiv.org/abs/2404.14387v1 ) ライセンス: Link先を確認 | Zhengwei Tao, Ting-En Lin, Xiancai Chen, Hangyu Li, Yuchuan Wu, Yongbin Li, Zhi Jin, Fei Huang, Dacheng Tao, Jingren Zhou, | (参考訳) 大規模言語モデル(LLM)は、様々な分野やインテリジェントエージェントアプリケーションにおいて大きく進歩している。
しかしながら、人間や外部モデルから学習する現在のLLMはコストがかかり、タスクの複雑さと多様性が増大するにつれてパフォーマンスの天井に直面する可能性がある。
この問題に対処するために、LLMが自律的に獲得し、洗練し、モデル自身によって生成された経験から学ぶことができる自己進化的アプローチが急速に成長している。
人間の経験的学習プロセスにインスパイアされたこの新しいトレーニングパラダイムは、LLMを超知能に拡張する可能性を提供します。
本研究では,LLMにおける自己進化的アプローチの包括的調査を行う。
まず, 自己進化のための概念的枠組みを提案し, 経験獲得, 経験改善, 更新, 評価の4段階からなる反復サイクルとして, 進化過程を概説する。
次に, LLM と LLM をベースとしたエージェントの進化目標を分類し, 文献を要約し, 各モジュールの分類と知見を提供する。
最後に、既存の課題を指摘し、自己進化の枠組みを改善するための今後の方向性を提案し、研究者に重要な洞察を与え、自己進化型LCMの開発を迅速に追跡する。
Large language models (LLMs) have significantly advanced in various fields and intelligent agent applications. However, current LLMs that learn from human or external model supervision are costly and may face performance ceilings as task complexity and diversity increase. To address this issue, self-evolution approaches that enable LLM to autonomously acquire, refine, and learn from experiences generated by the model itself are rapidly growing. This new training paradigm inspired by the human experiential learning process offers the potential to scale LLMs towards superintelligence. In this work, we present a comprehensive survey of self-evolution approaches in LLMs. We first propose a conceptual framework for self-evolution and outline the evolving process as iterative cycles composed of four phases: experience acquisition, experience refinement, updating, and evaluation. Second, we categorize the evolution objectives of LLMs and LLM-based agents; then, we summarize the literature and provide taxonomy and insights for each module. Lastly, we pinpoint existing challenges and propose future directions to improve self-evolution frameworks, equipping researchers with critical insights to fast-track the development of self-evolving LLMs. | 翻訳日:2024-04-23 13:08:10 公開日:2024-04-22 |
# STROOBnet Optimization by GPU-Accelerated Proximal Recurrence Strategies
STROOBnet Optimization via GPU-Accelerated Proximal Recurrence Strategies ( http://arxiv.org/abs/2404.14388v1 ) ライセンス: Link先を確認 | Ted Edward Holmberg, Mahdi Abdelguerfi, Elias Ioup, | (参考訳) 時空間ネットワークの観測能力は、複数の分野にわたる正確なデータ収集と情報決定に不可欠である。
本研究では、観測ノード(例えば監視カメラ)を地理的に定義された領域内のイベントにリンクし、効率的な監視を可能にする、時空間レンジオブザーバ・オブザーバブル・バイパートイトネットワーク(STROOBnet)に焦点を当てる。
ニューオーリンズのRTCC(Real-Time Crime Camera)システムとCFS(Calls for Service)のデータを使用。
観察効果の均一化を目的として, 近位再帰法を提案する。
k平均やDBSCANのような従来のクラスタリング手法では、全体的な事象頻度と空間的考慮を提供し、観測範囲を拡大することで性能を向上した。
Spatiotemporal networks' observational capabilities are crucial for accurate data gathering and informed decisions across multiple sectors. This study focuses on the Spatiotemporal Ranged Observer-Observable Bipartite Network (STROOBnet), linking observational nodes (e.g., surveillance cameras) to events within defined geographical regions, enabling efficient monitoring. Using data from Real-Time Crime Camera (RTCC) systems and Calls for Service (CFS) in New Orleans, where RTCC combats rising crime amidst reduced police presence, we address the network's initial observational imbalances. Aiming for uniform observational efficacy, we propose the Proximal Recurrence approach. It outperformed traditional clustering methods like k-means and DBSCAN by offering holistic event frequency and spatial consideration, enhancing observational coverage. | 翻訳日:2024-04-23 12:58:23 公開日:2024-04-22 |
# フェデレーション学習による無線交通予測に対する攻撃
Poisoning Attacks on Federated Learning-based Wireless Traffic Prediction ( http://arxiv.org/abs/2404.14389v1 ) ライセンス: Link先を確認 | Zifan Zhang, Minghong Fang, Jiayuan Huang, Yuchen Liu, | (参考訳) Federated Learning(FL)は、ローカルネットワークデータのプライバシを損なうことなく、複数のベースステーションにわたるグローバルコントロールモデルをトレーニングする分散フレームワークを提供する。
これは、無線トラフィック予測(WTP)のようなアプリケーションにとって理想的であり、ネットワークリソースの最適化、積極的なトラフィックフロー管理の実現、IoTデバイスや自動運転車、産業自動化システムといった下流通信支援アプリケーションの信頼性向上など、重要な役割を担っている。
FLベースの分散無線システムのセキュリティ面、特に回帰ベースのWTP問題については、その約束にもかかわらず、不適切な調査が続けられている。
本稿では,FLベースのWTPシステムに対して,最小限の知識で構築されたトラフィック分布を注入することにより,新たな偽トラフィック注入(FTI)攻撃を導入する。
さらに,グローバル局所不整合検出(GLID)と呼ばれる防衛機構を提案し,各次元の統計的手法により推定される特定のパーセンタイル範囲を超える異常モデルパラメータを戦略的に除去する。
実世界の無線トラフィックデータセット上で行われた大規模な実験的評価は、我々の攻撃戦略と防衛戦略の両方が既存のベースラインを大幅に上回っていることを実証している。
Federated Learning (FL) offers a distributed framework to train a global control model across multiple base stations without compromising the privacy of their local network data. This makes it ideal for applications like wireless traffic prediction (WTP), which plays a crucial role in optimizing network resources, enabling proactive traffic flow management, and enhancing the reliability of downstream communication-aided applications, such as IoT devices, autonomous vehicles, and industrial automation systems. Despite its promise, the security aspects of FL-based distributed wireless systems, particularly in regression-based WTP problems, remain inadequately investigated. In this paper, we introduce a novel fake traffic injection (FTI) attack, designed to undermine the FL-based WTP system by injecting fabricated traffic distributions with minimal knowledge. We further propose a defense mechanism, termed global-local inconsistency detection (GLID), which strategically removes abnormal model parameters that deviate beyond a specific percentile range estimated through statistical methods in each dimension. Extensive experimental evaluations, performed on real-world wireless traffic datasets, demonstrate that both our attack and defense strategies significantly outperform existing baselines. | 翻訳日:2024-04-23 12:58:23 公開日:2024-04-22 |
# マルチモーダル・オートマチック・インタプリタビリティー・エージェント
A Multimodal Automated Interpretability Agent ( http://arxiv.org/abs/2404.14394v1 ) ライセンス: Link先を確認 | Tamar Rott Shaham, Sarah Schwettmann, Franklin Wang, Achyuta Rajaram, Evan Hernandez, Jacob Andreas, Antonio Torralba, | (参考訳) 本稿では,マルチモーダル・オートマチック・インタプリタビリティ・エージェントであるMAIAについて述べる。
MAIAは、ニューラルモデルを使用して、機能解釈や障害モード発見などのニューラルモデル理解タスクを自動化するシステムである。
事前学習された視覚言語モデルに、他のモデルのサブコンポーネント上で反復的な実験をサポートし、それらの振る舞いを説明する一連のツールを装備する。
インプットの合成と編集、現実世界のデータセットから経験を最大限に活性化する計算、実験結果の要約と記述などである。
MAIAによって提案された解釈可能性実験は、システム動作の説明と説明のためのツールを構成する。
コンピュータビジョンモデルに対するMAIAの適用性を評価する。
まず、画像の学習表現における(ニューロンレベルの)特徴を記述できるMAIAの能力を特徴付ける。
いくつかの訓練されたモデルと、ペアの接地真実記述を持つ合成視覚ニューロンの新たなデータセットにより、MAIAは、専門家の人間の実験者が生成したものと同等の記述を生成する。
次に、MAIAは、刺激的な特徴に対する感度の低下と、誤分類される可能性のある入力を自動的に識別する2つの追加の解釈可能性タスクに役立てることができることを示す。
This paper describes MAIA, a Multimodal Automated Interpretability Agent. MAIA is a system that uses neural models to automate neural model understanding tasks like feature interpretation and failure mode discovery. It equips a pre-trained vision-language model with a set of tools that support iterative experimentation on subcomponents of other models to explain their behavior. These include tools commonly used by human interpretability researchers: for synthesizing and editing inputs, computing maximally activating exemplars from real-world datasets, and summarizing and describing experimental results. Interpretability experiments proposed by MAIA compose these tools to describe and explain system behavior. We evaluate applications of MAIA to computer vision models. We first characterize MAIA's ability to describe (neuron-level) features in learned representations of images. Across several trained models and a novel dataset of synthetic vision neurons with paired ground-truth descriptions, MAIA produces descriptions comparable to those generated by expert human experimenters. We then show that MAIA can aid in two additional interpretability tasks: reducing sensitivity to spurious features, and automatically identifying inputs likely to be mis-classified. | 翻訳日:2024-04-23 12:58:23 公開日:2024-04-22 |
# PARAMANU-GANITA:数学的能力を持つ言語モデル
PARAMANU-GANITA: Language Model with Mathematical Capabilities ( http://arxiv.org/abs/2404.14395v1 ) ライセンス: Link先を確認 | Mitodru Niyogi, Arnab Bhattacharya, | (参考訳) 本稿では,2億8800万件のパラメータ小説「Auto Regressive (AR) Decoder based language model on mathematics」を紹介する。
このモデルは, 計算した混合数学的コーパス上で, 4096 の文脈サイズでゼロから事前学習される。
我々は,数値計算とGSM8kの2つの数学ベンチマークを用いて,モデルの評価を行った。
7B LLMの35倍小さいにもかかわらず、LLaMa-1 7Bの28.4%、LLaMa-2 7Bの27.6%、ファルコン7Bの32.6%、PaLM 8Bの35.3%、ミネルバ8Bの23.2%、LLEMMA-7Bの3.0%といった計算用LSMよりも優れていた。
パラマヌ・ガニータは、PALM 62Bの6.4%、ファルコン40Bの19.8%、LLaMa-1 33Bの3.8%、ヴィクナ13Bの11.8%といった巨大なLLMをそれぞれ上回った。
既存の LLM と比較して,我々の算数モデルの性能が大幅に向上したことは,言語モデルの推論能力は,パラメータ数の多い LLM に限ったものではないことを示唆している。
パラマヌ・ガニータはA100訓練146時間、数学専門のLLEMMA 7BはA100訓練23,000時間で訓練された。
したがって、ドメイン適応のためのスクラッチから強力なドメイン特化言語モデルを事前訓練するアプローチは、ドメイン適応のためのLLMの継続的なトレーニングよりもはるかにコスト効率が高い。
したがって、言語モデルの強力な数学的推論能力のために、我々は巨大なLLMや巨大な計算能力は必要としない。
結局のところ、我々はパラマヌ・ガニータを数学的コーパスの一部だけにしか訓練していないことを指摘し、我々のモデルの全潜在能力を探求していない。
In this paper, we present Paramanu-Ganita, a 208 million parameter novel Auto Regressive (AR) decoder based language model on mathematics. The model is pretrained from scratch at context size of 4096 on our curated mixed mathematical corpus. We evaluate our model on both perplexity metric and GSM8k mathematical benchmark. Paramanu-Ganita despite being 35 times smaller than 7B LLMs, outperformed generalist LLMs such as LLaMa-1 7B by 28.4% points, LLaMa-2 7B by 27.6% points, Falcon 7B by 32.6% points, PaLM 8B by 35.3% points, and math specialised LLMs such as Minerva 8B by 23.2% points, and LLEMMA-7B by 3.0% points in GSM8k test accuracy metric respectively. Paramanu-Ganita also outperformed giant LLMs like PaLM 62B by 6.4% points, Falcon 40B by 19.8% points, LLaMa-1 33B by 3.8% points and Vicuna 13B by 11.8% points respectively. The large significant margin improvement in performance of our math model over the existing LLMs signifies that reasoning capabilities of language model are just not restricted to LLMs with humongous number of parameters. Paramanu-Ganita took 146 hours of A100 training whereas math specialised LLM, LLEMMA 7B, was trained for 23,000 A100 hours of training equivalent. Thus, our approach of pretraining powerful domain specialised language models from scratch for domain adaptation is much more cost-effective than performing continual training of LLMs for domain adaptation. Hence, we conclude that for strong mathematical reasoning abilities of language model, we do not need giant LLMs and immense computing power to our end. In the end, we want to point out that we have only trained Paramanu-Ganita only on a part of our entire mathematical corpus and yet to explore the full potential of our model. | 翻訳日:2024-04-23 12:58:23 公開日:2024-04-22 |
# SEED-X:統一された多粒度理解と生成を伴うマルチモーダルモデル
SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation ( http://arxiv.org/abs/2404.14396v1 ) ライセンス: Link先を確認 | Yuying Ge, Sijie Zhao, Jinguo Zhu, Yixiao Ge, Kun Yi, Lin Song, Chen Li, Xiaohan Ding, Ying Shan, | (参考訳) マルチモーダル基礎モデルの急速な進化は、視覚言語理解と生成において、例えば、我々の以前のSEED-LLaMAのような大きな進歩を示している。
しかし、その能力と現実の応用性の間には、主にモデルが様々なユーザ命令に効果的に対応し、多様な視覚データと対話する能力に制限があるため、ギャップが残っている。
本研究では,(1)任意の大きさと比率の画像を解釈し,(2)多彩度画像生成を可能にする2つの機能を統合することにより,このギャップを埋めることに集中する。
我々は,多粒度視覚的意味論を理解・生成タスクのためにモデル化可能な,統一的で汎用的な基礎モデルSEED-Xを提案する。
公開ベンチマークの競合結果に加えて、SEED-Xは命令チューニング後の様々な領域にわたる実世界のアプリケーション処理の有効性を示す。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
モデル、コード、データセットはhttps://github.com/AILab-CVC/SEED-Xで公開される。
The rapid evolution of multimodal foundation model has demonstrated significant progresses in vision-language understanding and generation, e.g., our previous work SEED-LLaMA. However, there remains a gap between its capability and the real-world applicability, primarily due to the model's limited capacity to effectively respond to various user instructions and interact with diverse visual data. In this work, we focus on bridging this gap through integrating two enhanced features: (1) comprehending images of arbitrary sizes and ratios, and (2) enabling multi-granularity image generation. We present a unified and versatile foundation model, namely, SEED-X, which is able to model multi-granularity visual semantics for comprehension and generation tasks. Besides the competitive results on public benchmarks, SEED-X demonstrates its effectiveness in handling real-world applications across various domains after instruction tuning. We hope that our work will inspire future research into what can be achieved by versatile multimodal foundation models in real-world applications. The models, codes, and datasets will be released in https://github.com/AILab-CVC/SEED-X. | 翻訳日:2024-04-23 12:58:23 公開日:2024-04-22 |
# RTP-LX:LLMは多言語シナリオにおける毒性を評価することができるか?
RTP-LX: Can LLMs Evaluate Toxicity in Multilingual Scenarios? ( http://arxiv.org/abs/2404.14397v1 ) ライセンス: Link先を確認 | Adrian de Wynter, Ishaan Watts, Nektar Ege Altıntoprak, Tua Wongsangaroonsri, Minghui Zhang, Noura Farra, Lena Baur, Samantha Claudet, Pavel Gajdusek, Can Gören, Qilong Gu, Anna Kaminska, Tomasz Kaminski, Ruby Kuo, Akiko Kyuba, Jongho Lee, Kartik Mathur, Petter Merok, Ivana Milovanović, Nani Paananen, Vesa-Matti Paananen, Anna Pavlenko, Bruno Pereira Vidal, Luciano Strika, Yueh Tsao, Davide Turcato, Oleksandr Vakhno, Judit Velcsov, Anna Vickers, Stéphanie Visser, Herdyan Widarmanto, Andrey Zaikin, Si-Qing Chen, | (参考訳) 大きな言語モデル(LLM)と小さな言語モデル(SLM)は目覚ましいスピードで採用されているが、その安全性は依然として深刻な懸念である。
マルチリンガルS/LLMの出現により、現在ではスケールの問題となっている。これらのモデルのマルチリンガル安全性評価を、それらが展開されるのと同じ速度で拡張できるだろうか?
RTP-LXは28言語で有毒なプロンプトとアウトプットのコーパスである。
RTP-LXは参加型デザインの慣行に従っており、コーパスの一部は特に文化的に特異的な有毒な言語を検出するように設計されている。
文化的に感受性のある多言語シナリオで有害な内容を検出する能力について7つのS/LLMを評価した。
一般的には精度で評価されるが、プロンプトの毒性を均等に判断する際、人間の判断とはあまり一致せず、文脈に依存したシナリオ、特に微妙なyet-harmfulコンテンツ(例えばマイクロアグレッション、バイアス)では害を見分けるのが困難である。
このデータセットは、これらのモデルの有害な使用をさらに削減し、安全なデプロイメントを改善するのに役立ちます。
Large language models (LLMs) and small language models (SLMs) are being adopted at remarkable speed, although their safety still remains a serious concern. With the advent of multilingual S/LLMs, the question now becomes a matter of scale: can we expand multilingual safety evaluations of these models with the same velocity at which they are deployed? To this end we introduce RTP-LX, a human-transcreated and human-annotated corpus of toxic prompts and outputs in 28 languages. RTP-LX follows participatory design practices, and a portion of the corpus is especially designed to detect culturally-specific toxic language. We evaluate seven S/LLMs on their ability to detect toxic content in a culturally-sensitive, multilingual scenario. We find that, although they typically score acceptably in terms of accuracy, they have low agreement with human judges when judging holistically the toxicity of a prompt, and have difficulty discerning harm in context-dependent scenarios, particularly with subtle-yet-harmful content (e.g. microagressions, bias). We release of this dataset to contribute to further reduce harmful uses of these models and improve their safe deployment. | 翻訳日:2024-04-23 12:58:23 公開日:2024-04-22 |
# MLQAOA: グラフ学習によるハイブリッド量子-古典的マルチレベルQAOA
MLQAOA: Graph Learning Accelerated Hybrid Quantum-Classical Multilevel QAOA ( http://arxiv.org/abs/2404.14399v1 ) ライセンス: Link先を確認 | Bao Bach, Jose Falla, Ilya Safro, | (参考訳) 複数のレベルの粗度で問題構造を学習し、分解に基づくハイブリッド量子古典的組合せ最適化器を知らせることは、変分アプローチのスケールアップに有望なアプローチである。
スペクトルグラフ表現学習型加速器で強化されたマルチレベルアルゴリズムを導入し、大規模グラフの最大カットインスタンスに対処し、量子近似最適化アルゴリズム(QAOA)とQAOAにインスパイアされたアルゴリズムの複数バージョンを融合する。
グラフ表現学習モデルは,QAOA変動パラメータ濃度の考え方を利用して,QAOAの性能を大幅に向上させる。
より高速な時間で高品質なソリューションを実現することにより,多段階のQAOAと,非常に大きなグラフに対する表現学習に基づくアプローチの可能性を実証する。
\\ Reproducibility: 私たちのソースコードと結果は、 \url{https://github.com/bachbao/MLQAOA} で利用可能です。
Learning the problem structure at multiple levels of coarseness to inform the decomposition-based hybrid quantum-classical combinatorial optimization solvers is a promising approach to scaling up variational approaches. We introduce a multilevel algorithm reinforced with the spectral graph representation learning-based accelerator to tackle large-scale graph maximum cut instances and fused with several versions of the quantum approximate optimization algorithm (QAOA) and QAOA-inspired algorithms. The graph representation learning model utilizes the idea of QAOA variational parameters concentration and substantially improves the performance of QAOA. We demonstrate the potential of using multilevel QAOA and representation learning-based approaches on very large graphs by achieving high-quality solutions in a much faster time.\\ Reproducibility: Our source code and results are available at \url{https://github.com/bachbao/MLQAOA} | 翻訳日:2024-04-23 12:58:23 公開日:2024-04-22 |
# Gross-Pitaevskii方程式に対するPython GPU加速解法と多体空洞QEDへの応用
A Python GPU-accelerated solver for the Gross-Pitaevskii equation and applications to many-body cavity QED ( http://arxiv.org/abs/2404.14401v1 ) ライセンス: Link先を確認 | Lorenzo Fioroni, Luca Gravina, Justyna Stefaniak, Alexander Baumgärtner, Fabian Finger, Davide Dreon, Tobias Donner, | (参考訳) TorchGPEはGross-Pitaevskii方程式(GPE)を解くために開発された汎用Pythonパッケージである。
この解法は線形ポテンシャルと非線形ポテンシャルのスペクトルにわたって波動関数を統合するように設計されている。
TorchGPEの特異な側面はモジュラーアプローチであり、任意の自己整合性および時間依存ポテンシャル、例えば多体空洞QEDモデルに関係のあるポテンシャルを組み込むことができる。
このパッケージは、実時間と虚時間の両方で有効である対称分割ステップフーリエ伝搬法を用いている。
本稿では,GPUの計算能力を活用することにより,計算効率の大幅な向上を実証する。
後者の技術の統合により、TorchGPEは従来のCPUベースの手法に比べて大幅にスピードアップし、この分野の研究範囲と可能性を大きく広げる。
TorchGPE is a general-purpose Python package developed for solving the Gross-Pitaevskii equation (GPE). This solver is designed to integrate wave functions across a spectrum of linear and non-linear potentials. A distinctive aspect of TorchGPE is its modular approach, which allows the incorporation of arbitrary self-consistent and time-dependent potentials, e.g., those relevant in many-body cavity QED models. The package employs a symmetric split-step Fourier propagation method, effective in both real and imaginary time. In our work, we demonstrate a significant improvement in computational efficiency by leveraging GPU computing capabilities. With the integration of the latter technology, TorchGPE achieves a substantial speed-up with respect to conventional CPU-based methods, greatly expanding the scope and potential of research in this field. | 翻訳日:2024-04-23 12:58:23 公開日:2024-04-22 |
# 対向訓練における平均曲率流
A mean curvature flow arising in adversarial training ( http://arxiv.org/abs/2404.14402v1 ) ライセンス: Link先を確認 | Leon Bungert, Tim Laux, Kerrek Stinson, | (参考訳) 我々は、二項分類のための対角訓練を、決定境界に対する幾何学的進化方程式に結びつける。
正規化問題としての逆行訓練をリキャストする観点から、非局所周辺関数の最小化運動スキームを構成する改良型トレーニングスキームを導入する。
このスキームが単調で一貫したものであることを証明し、敵の予算が消滅し、周辺が局所化することを証明し、その結果、このスキームが重み付き平均曲率フローに近似することを厳密に示す。
このことは、対人訓練の有効性は、決定境界の長さを局所的に最小化することによる可能性があることを強調している。
本分析では,超局所的非局所的全変量とその正則性について,そのサブディファレンシャルを扱うための様々なツールを紹介した。
We connect adversarial training for binary classification to a geometric evolution equation for the decision boundary. Relying on a perspective that recasts adversarial training as a regularization problem, we introduce a modified training scheme that constitutes a minimizing movements scheme for a nonlocal perimeter functional. We prove that the scheme is monotone and consistent as the adversarial budget vanishes and the perimeter localizes, and as a consequence we rigorously show that the scheme approximates a weighted mean curvature flow. This highlights that the efficacy of adversarial training may be due to locally minimizing the length of the decision boundary. In our analysis, we introduce a variety of tools for working with the subdifferential of a supremal-type nonlocal total variation and its regularity properties. | 翻訳日:2024-04-23 12:58:23 公開日:2024-04-22 |
# GeoDiffuser:拡散モデルを用いた幾何学的画像編集
GeoDiffuser: Geometry-Based Image Editing with Diffusion Models ( http://arxiv.org/abs/2404.14403v1 ) ライセンス: Link先を確認 | Rahul Sajnani, Jeroen Vanbaar, Jie Min, Kapil Katyal, Srinath Sridhar, | (参考訳) 画像生成モデルの成功により、テキストや他のユーザ入力に基づいて画像を編集する手法の構築が可能になった。
しかし、これらの手法は難解で不正確であり、追加情報を必要とするか、2D画像編集に限られる。
一般的な2Dおよび3D画像に基づくオブジェクト編集機能を1つの方法に統合するゼロショット最適化方式であるGeoDiffuserを提案する。
私たちの重要な洞察は、画像編集操作を幾何学的変換として見ることです。
これらの変換は拡散モデルの注意層に直接組み込むことができ、暗黙的に編集操作を行うことができる。
トレーニング不要な最適化手法では,オブジェクトスタイルの保存や,正確な照明や影などの可視画像の生成を目的とした客観的関数を用いる。
また、被写体が元々位置していた画像の一部も塗装する。
自然画像とユーザ入力が与えられた場合、SAMを用いて前景オブジェクトを分割し、編集に最適化手法を用いて対応する変換を推定する。
GeoDiffuserは、オブジェクト翻訳、3Dローテーション、削除などの一般的な2Dおよび3D編集を実行することができる。
我々は,既存の手法よりもアプローチがいかに優れているかを示す,知覚研究を含む定量的な結果を示す。
詳細はhttps://ivl.cs.brown.edu/research/geodiffuser.htmlを参照。
The success of image generative models has enabled us to build methods that can edit images based on text or other user input. However, these methods are bespoke, imprecise, require additional information, or are limited to only 2D image edits. We present GeoDiffuser, a zero-shot optimization-based method that unifies common 2D and 3D image-based object editing capabilities into a single method. Our key insight is to view image editing operations as geometric transformations. We show that these transformations can be directly incorporated into the attention layers in diffusion models to implicitly perform editing operations. Our training-free optimization method uses an objective function that seeks to preserve object style but generate plausible images, for instance with accurate lighting and shadows. It also inpaints disoccluded parts of the image where the object was originally located. Given a natural image and user input, we segment the foreground object using SAM and estimate a corresponding transform which is used by our optimization approach for editing. GeoDiffuser can perform common 2D and 3D edits like object translation, 3D rotation, and removal. We present quantitative results, including a perceptual study, that shows how our approach is better than existing methods. Visit https://ivl.cs.brown.edu/research/geodiffuser.html for more information. | 翻訳日:2024-04-23 12:58:23 公開日:2024-04-22 |
# Hyp-OC:顔アンチスプーフィングのための高ボリックワンクラス分類
Hyp-OC: Hyperbolic One Class Classification for Face Anti-Spoofing ( http://arxiv.org/abs/2404.14406v1 ) ライセンス: Link先を確認 | Kartik Narayan, Vishal M. Patel, | (参考訳) 顔認識技術は、現代のセキュリティシステムとユーザ認証プロセスの不可欠な部分となっている。
しかし、これらのシステムは攻撃に対して脆弱であり、容易に回避できる。
フェース・アンチ・スプーフ(FAS)の最も以前の研究は、モデルが実際のサンプルや既知のスプーフ攻撃に基づいて訓練され、未知のスプーフ攻撃のパフォーマンスを検出するためにテストされる2段階の分類タスクとしてアプローチしている。
しかし、実際には、FASは訓練中、スプーフサンプルに関する知識を前提としない一級分類タスクとして扱われるべきである。
本稿では,一級視点から顔の偽造防止タスクを再構築し,新しい双曲型一級分類フレームワークを提案する。
ネットワークのトレーニングには,ガウス分布からサンプリングした擬陰性クラスを重み付きランニング平均で使用し,(1)Hyp-PC:Hyperbolic Pairwise Confusion loss,(2)Hyp-CE:Hyperbolic Cross Entropy lossという2つの新しい損失関数を提案する。
さらに,双曲空間のトレーニングを安定させるために,ユークリッド特徴クリッピングと勾配クリッピングを用いる。
我々の知る限りでは、これは顔の反偽造に対する双曲的埋め込みを一流の方法で拡張する最初の作品である。
Rose-Youtu, MSU-MFSD, CASIA-MFSD, Idiap Replay-Attack, OULU-NPU の5つのベンチマークデータセットに対する広範な実験により,本手法が最先端のスプーフ検出性能を大幅に上回ることを示した。
Face recognition technology has become an integral part of modern security systems and user authentication processes. However, these systems are vulnerable to spoofing attacks and can easily be circumvented. Most prior research in face anti-spoofing (FAS) approaches it as a two-class classification task where models are trained on real samples and known spoof attacks and tested for detection performance on unknown spoof attacks. However, in practice, FAS should be treated as a one-class classification task where, while training, one cannot assume any knowledge regarding the spoof samples a priori. In this paper, we reformulate the face anti-spoofing task from a one-class perspective and propose a novel hyperbolic one-class classification framework. To train our network, we use a pseudo-negative class sampled from the Gaussian distribution with a weighted running mean and propose two novel loss functions: (1) Hyp-PC: Hyperbolic Pairwise Confusion loss, and (2) Hyp-CE: Hyperbolic Cross Entropy loss, which operate in the hyperbolic space. Additionally, we employ Euclidean feature clipping and gradient clipping to stabilize the training in the hyperbolic space. To the best of our knowledge, this is the first work extending hyperbolic embeddings for face anti-spoofing in a one-class manner. With extensive experiments on five benchmark datasets: Rose-Youtu, MSU-MFSD, CASIA-MFSD, Idiap Replay-Attack, and OULU-NPU, we demonstrate that our method significantly outperforms the state-of-the-art, achieving better spoof detection performance. | 翻訳日:2024-04-23 12:58:23 公開日:2024-04-22 |
# SpaceByte: 大規模言語モデリングからトークン化を削除する
SpaceByte: Towards Deleting Tokenization from Large Language Modeling ( http://arxiv.org/abs/2404.14408v1 ) ライセンス: Link先を確認 | Kevin Slagle, | (参考訳) トークン化は、パフォーマンスが大幅に向上するため、大きな言語モデルで広く使用されている。
しかし、トークン化は性能バイアス、敵の脆弱性の増加、文字レベルのモデリング性能の低下、モデリングの複雑さの増大など、いくつかの欠点を課している。
性能を犠牲にすることなく、これらの欠点に対処するために、我々は、バイトレベルとサブワード自動回帰言語モデリングの間のパフォーマンスギャップを埋める新しいバイトレベルデコーダアーキテクチャであるSpaceByteを提案する。
SpaceByteはバイトレベルのTransformerモデルで構成されているが、レイヤの中央にさらに大きなTransformerブロックが挿入されている。
単語境界を表す空間文字のような特定のバイトの後にのみ、これらの大きなブロックを適用することで、性能が大幅に向上することを発見した。
実験の結果,固定トレーニングおよび推論計算予算では,SpaceByteは他のバイトレベルのアーキテクチャよりも優れており,トークン化トランスフォーマーアーキテクチャの性能とほぼ一致していることがわかった。
Tokenization is widely used in large language models because it significantly improves performance. However, tokenization imposes several disadvantages, such as performance biases, increased adversarial vulnerability, decreased character-level modeling performance, and increased modeling complexity. To address these disadvantages without sacrificing performance, we propose SpaceByte, a novel byte-level decoder architecture that closes the performance gap between byte-level and subword autoregressive language modeling. SpaceByte consists of a byte-level Transformer model, but with extra larger transformer blocks inserted in the middle of the layers. We find that performance is significantly improved by applying these larger blocks only after certain bytes, such as space characters, which typically denote word boundaries. Our experiments show that for a fixed training and inference compute budget, SpaceByte outperforms other byte-level architectures and roughly matches the performance of tokenized Transformer architectures. | 翻訳日:2024-04-23 12:58:23 公開日:2024-04-22 |
# CrossScore: マルチビューイメージ評価とスコーリングを目指して
CrossScore: Towards Multi-View Image Evaluation and Scoring ( http://arxiv.org/abs/2404.14409v1 ) ライセンス: Link先を確認 | Zirui Wang, Wenjing Bian, Omkar Parkhi, Yuheng Ren, Victor Adrian Prisacariu, | (参考訳) 本稿では,画像評価環境のギャップを効果的に埋める新しいクロスリファレンス画像品質評価手法を提案する。SSIMなどの全参照指標,NIQEなどのノン参照指標,FIDなどの一般参照指標,CLIPScoreなどのマルチモーダル参照指標など,確立された評価スキームの配列を補完する。
ニューラルネットワークをNVS最適化のクロスアテンション機構とユニークなデータ収集パイプラインで利用することにより,地上の真理参照を必要とせず,正確な画像品質評価を可能にする。
クエリ画像を同一シーンの複数のビューと比較することにより、新しいビュー合成(NVS)における既存のメトリクスの限界と、直接参照画像が利用できないようなタスクに対処する。
実験結果から,本手法は実測値SSIMと密接に相関するが,真理参照は不要であることがわかった。
We introduce a novel cross-reference image quality assessment method that effectively fills the gap in the image assessment landscape, complementing the array of established evaluation schemes -- ranging from full-reference metrics like SSIM, no-reference metrics such as NIQE, to general-reference metrics including FID, and Multi-modal-reference metrics, e.g., CLIPScore. Utilising a neural network with the cross-attention mechanism and a unique data collection pipeline from NVS optimisation, our method enables accurate image quality assessment without requiring ground truth references. By comparing a query image against multiple views of the same scene, our method addresses the limitations of existing metrics in novel view synthesis (NVS) and similar tasks where direct reference images are unavailable. Experimental results show that our method is closely correlated to the full-reference metric SSIM, while not requiring ground truth references. | 翻訳日:2024-04-23 12:58:23 公開日:2024-04-22 |
# 2Dグリップからダイナミックな3Dシーンを再現するGuess The Unseen
Guess The Unseen: Dynamic 3D Scene Reconstruction from Partial 2D Glimpses ( http://arxiv.org/abs/2404.14410v1 ) ライセンス: Link先を確認 | Inhee Lee, Byungjun Kim, Hanbyul Joo, | (参考訳) 本稿では,モノクロ映像から世界と複数の動的人間を3次元に再構成する手法を提案する。
キーとなるアイデアとして、最近登場した3Dガウス・スプレイティング(3D-GS)表現を通じて世界と複数の人間の両方を表現し、便利かつ効率的に構成し、それらをまとめることを可能にする。
特に,現実世界で遭遇する一般的な課題である3次元の人体再構成において,厳密に制限された,まばらな観察を施したシナリオに対処する。
この課題に対処するために、我々は、共通空間にスパースキューを融合させることにより、標準空間における3D-GS表現を最適化するための新しいアプローチを導入し、そこでは、事前学習された2D拡散モデルを用いて、観察された2Dの外観との整合性を維持しながら、見えないビューを合成する。
提案手法は, 閉塞, 画像作物, 少数ショット, 極めてまばらな観察など, 様々な困難な事例において, 高品質なアニマタブルな3次元人間を再構築することができることを示す。
再建後, 任意のタイミングでシーンをレンダリングするだけでなく, 個々の人間を除去したり, 人ごとに異なる動作を施したりして3Dシーンを編集することができる。
様々な実験を通じて,提案手法の既存手法に対する品質と効率性を実証した。
In this paper, we present a method to reconstruct the world and multiple dynamic humans in 3D from a monocular video input. As a key idea, we represent both the world and multiple humans via the recently emerging 3D Gaussian Splatting (3D-GS) representation, enabling to conveniently and efficiently compose and render them together. In particular, we address the scenarios with severely limited and sparse observations in 3D human reconstruction, a common challenge encountered in the real world. To tackle this challenge, we introduce a novel approach to optimize the 3D-GS representation in a canonical space by fusing the sparse cues in the common space, where we leverage a pre-trained 2D diffusion model to synthesize unseen views while keeping the consistency with the observed 2D appearances. We demonstrate our method can reconstruct high-quality animatable 3D humans in various challenging examples, in the presence of occlusion, image crops, few-shot, and extremely sparse observations. After reconstruction, our method is capable of not only rendering the scene in any novel views at arbitrary time instances, but also editing the 3D scene by removing individual humans or applying different motions for each human. Through various experiments, we demonstrate the quality and efficiency of our methods over alternative existing approaches. | 翻訳日:2024-04-23 12:58:23 公開日:2024-04-22 |
# AutoAD III:「Prequel」から「Pixels」へ
AutoAD III: The Prequel -- Back to the Pixels ( http://arxiv.org/abs/2404.14412v1 ) ライセンス: Link先を確認 | Tengda Han, Max Bain, Arsha Nagrani, Gül Varol, Weidi Xie, Andrew Zisserman, | (参考訳) 映画のための音声記述(AD)の生成は、細かい視覚的理解とキャラクターとその名前の認識を必要とする課題である。
現在、AD生成のための視覚言語モデルは、適切なトレーニングデータの欠如によって制限されており、ADドメインに特化していないパフォーマンス指標を使用することで、その評価を妨げている。
本稿では,3つのコントリビューションについて述べる。
(i)映像データを用いたADデータセット構築のための2つの手法と,これを用いたトレーニングと評価データセットの構築を提案する。
これらのデータセットは、公開されます。
(II)凍結した事前学習されたビジュアルエンコーダと大規模言語モデルを用いて生動画を取り込み、ADを生成するQ-former-based architectureを開発する。
(3)人間のパフォーマンスによく適合したAD品質をベンチマークするための新しい評価指標を提供する。
一体となって、AD生成の最先端を改善します。
Generating Audio Description (AD) for movies is a challenging task that requires fine-grained visual understanding and an awareness of the characters and their names. Currently, visual language models for AD generation are limited by a lack of suitable training data, and also their evaluation is hampered by using performance measures not specialized to the AD domain. In this paper, we make three contributions: (i) We propose two approaches for constructing AD datasets with aligned video data, and build training and evaluation datasets using these. These datasets will be publicly released; (ii) We develop a Q-former-based architecture which ingests raw video and generates AD, using frozen pre-trained visual encoders and large language models; and (iii) We provide new evaluation metrics to benchmark AD quality that are well-matched to human performance. Taken together, we improve the state of the art on AD generation. | 翻訳日:2024-04-23 12:58:23 公開日:2024-04-22 |
# GhostNetV3: コンパクトモデルのためのトレーニング戦略を探る
GhostNetV3: Exploring the Training Strategies for Compact Models ( http://arxiv.org/abs/2404.11202v2 ) ライセンス: Link先を確認 | Zhenhua Liu, Zhiwei Hao, Kai Han, Yehui Tang, Yunhe Wang, | (参考訳) コンパクトニューラルネットワークは、推論速度が速いが控えめなパフォーマンスを持つエッジデバイス上での応用に特化して設計されている。
しかし, コンパクトモデルの学習戦略は, モデルキャパシティの違いを無視し, コンパクトモデルの性能を損なうおそれがあるため, 従来のモデルから借用されている。
本稿では,異なるトレーニング要素の影響を体系的に調査することにより,コンパクトモデルに対する強力なトレーニング戦略を提案する。
従来のモデル(MixupやCutMixなど)のトレーニングによく使われるデータ拡張は、性能が悪化する一方、高性能なコンパクトモデルのトレーニングには、再パラメータ化と知識蒸留の適切な設計が不可欠であることがわかった。
ImageNet-1Kデータセットを用いた実験により,GhostNetV2,MobileNetV2,ShuffleNetV2など,コンパクトモデルの特別なトレーニング戦略が,さまざまなアーキテクチャに適用可能であることが示された。
具体的には、GhostNetV3 1.3$\times$は269MのFLOPと14.46msのレイテンシでトップ1の精度79.1%を達成する。
さらに、我々の観測はオブジェクト検出のシナリオにも拡張できる。
PyTorchのコードとチェックポイントはhttps://github.com/huawei-noah/Efficient-AI-Backbones/tree/master/ghostnetv3_pytorchにある。
Compact neural networks are specially designed for applications on edge devices with faster inference speed yet modest performance. However, training strategies of compact models are borrowed from that of conventional models at present, which ignores their difference in model capacity and thus may impede the performance of compact models. In this paper, by systematically investigating the impact of different training ingredients, we introduce a strong training strategy for compact models. We find that the appropriate designs of re-parameterization and knowledge distillation are crucial for training high-performance compact models, while some commonly used data augmentations for training conventional models, such as Mixup and CutMix, lead to worse performance. Our experiments on ImageNet-1K dataset demonstrate that our specialized training strategy for compact models is applicable to various architectures, including GhostNetV2, MobileNetV2 and ShuffleNetV2. Specifically, equipped with our strategy, GhostNetV3 1.3$\times$ achieves a top-1 accuracy of 79.1% with only 269M FLOPs and a latency of 14.46ms on mobile devices, surpassing its ordinarily trained counterpart by a large margin. Moreover, our observation can also be extended to object detection scenarios. PyTorch code and checkpoints can be found at https://github.com/huawei-noah/Efficient-AI-Backbones/tree/master/ghostnetv3_pytorch. | 翻訳日:2024-04-23 12:48:38 公開日:2024-04-22 |
# Processing-in-Memory 操作による主記憶型タイミングカバーとサイドチャネルの増幅
Amplifying Main Memory-Based Timing Covert and Side Channels using Processing-in-Memory Operations ( http://arxiv.org/abs/2404.11284v2 ) ライセンス: Link先を確認 | Konstantinos Kanellopoulos, F. Nisa Bostanci, Ataberk Olgun, A. Giray Yaglikci, Ismail Emir Yuksel, Nika Mansouri Ghiasi, Zulal Bingol, Mohammad Sadrosadati, Onur Mutlu, | (参考訳) プロセス・イン・メモリ(PiM)アーキテクチャの採用は、データ移動ボトルネックを緩和することで、高いパフォーマンスと低エネルギー消費を提供するため、勢いを増している。
しかし、そのようなアーキテクチャのセキュリティは十分に調査されていない。
PiMソリューションの採用により、メインメモリに直接アクセスする新たな方法が提供される。
この新たなメインメモリアクセス方式は、性能上のオーバーヘッドを伴わずに軽減し難い高スループットタイミング攻撃ベクトルの機会を開放することを示す。
本稿では,ハイスループットな主メモリベースのタイミングアタックであるIMPACTを導入し,PiMアーキテクチャの特性を活用して秘密チャネルとサイドチャネルを確立する。
IMPACTは、高スループット通信とプライベート情報漏洩を可能にする。
これを実現するためにIMPACT
i)プロセッサ中心のメインメモリとキャッシュベースのタイミングアタックに必要な、高価なキャッシュバイパスステップを排除する。
(ii) PiM 演算の本質的な並列性を利用する。
まず、ホストCPU上で動作し、PiMアーキテクチャを活用して、メインメモリへの直接的かつ高速なアクセスと、高スループットの通信秘密チャネルを確立する2つのシークレットチャネル攻撃変種を紹介する。
第2に、PiM操作を利用して、ユーザのサンプルゲノムのプライベートな特性をリークするDNAシークエンス解析アプリケーションに対するサイドチャネル攻撃を示す。
私たちの結果は
(i)我々の秘密チャネルは14.16Mb/sの通信スループットを実現しており、これは最先端のメインメモリベースの秘密チャネルの6.38倍高速である。
i) サイドチャネル攻撃により, 試料ゲノムの特性を, 96%の精度で7.5Mb/sのスループットで決定できる。
我々は、セキュアで堅牢なPiMアーキテクチャを実現するためのIMPACTのいくつかの対策を議論し、評価する。
The adoption of processing-in-memory (PiM) architectures has been gaining momentum because they provide high performance and low energy consumption by alleviating the data movement bottleneck. Yet, the security of such architectures has not been thoroughly explored. The adoption of PiM solutions provides a new way to directly access main memory, which can be potentially exploited by malicious user applications. We show that this new way to access main memory opens opportunities for high-throughput timing attack vectors that are hard-to-mitigate without significant performance overhead. We introduce IMPACT, a set of high-throughput main memory-based timing attacks that leverage characteristics of PiM architectures to establish covert and side channels. IMPACT enables high-throughput communication and private information leakage. To achieve this, IMPACT (i) eliminates expensive cache bypassing steps required by processor-centric main memory and cache-based timing attacks and (ii) leverages the intrinsic parallelism of PiM operations. First, we showcase two covert-channel attack variants that run on the host CPU and leverage PiM architectures to gain direct and fast access to main memory and establish high-throughput communication covert channels. Second, we showcase a side-channel attack on a DNA sequence analysis application that leaks the private characteristics of a user's sample genome by leveraging PiM operations. Our results demonstrate that (i) our covert channels achieve up to 14.16 Mb/s communication throughput, which is 6.38x faster than the state-of-the-art main memory-based covert channels, and (ii) our side-channel attack allows the attacker to determine the properties of a sample genome at a throughput of 7.5 Mb/s with 96% accuracy. We discuss and evaluate several countermeasures for IMPACT to enable secure and robust PiM architectures. | 翻訳日:2024-04-23 12:48:38 公開日:2024-04-22 |
# 注意誘導型リカレントニューラルネットワークに基づく短期風速予測モデルと誤差補正戦略
Short-term wind speed forecasting model based on an attention-gated recurrent neural network and error correction strategy ( http://arxiv.org/abs/2404.11422v2 ) ライセンス: Link先を確認 | Haojian Huang, | (参考訳) 正確な風速シリーズ予測は、グリッドディスパッチのセキュリティと風力発電の適用に非常に重要である。
しかし、その非線形性や非定常性を考慮すると、短期的な予測は非常に難しい。
したがって、この論文は、改良されたゲートリカレントニューラルネットワーク(AtGRU)と誤り訂正の戦術により、注意の基盤として1つの短期風速予測パターンを提起する。
このモデルは予備予測器としてAtGRUモデルを使用し、エラー修正器としてGRUモデルを使用する。
当初、SSA (singular spectrum analysis) は、ノイズを低減するために以前の風速シリーズで採用されていた。
その後、過去の風速シリーズが予測器の訓練に使用される。
この過程において、予測は特定の誤りを犯す可能性がある。
変分モード分解(VMD)によって処理されるこれらのエラーのシーケンスは、誤りの修正を訓練するために使用される。
最終的な予測結果は、単に予測器予測とエラー修正器の合計である。
提案したSSA-AtGRU-VMD-GRUモデルは、ウッドバーン、セントトーマス、サンタクルーズの3つのケーススタディにおいて比較モデルより優れている。
このモデルにより風速予測の精度が向上することが示唆された。
The accurate wind speed series forecast is very pivotal to security of grid dispatching and the application of wind power. Nevertheless, on account of their nonlinear and non-stationary nature, their short-term forecast is extremely challenging. Therefore, this dissertation raises one short-term wind speed forecast pattern on the foundation of attention with an improved gated recurrent neural network (AtGRU) and a tactic of error correction. That model uses the AtGRU model as the preliminary predictor and the GRU model as the error corrector. At the beginning, SSA (singular spectrum analysis) is employed in previous wind speed series for lessening the noise. Subsequently, historical wind speed series is going to be used for the predictor training. During this process, the prediction can have certain errors. The sequence of these errors processed by variational modal decomposition (VMD) is used to train the corrector of error. The eventual forecast consequence is just the sum of predictor forecast and error corrector. The proposed SSA-AtGRU-VMD-GRU model outperforms the compared models in three case studies on Woodburn, St. Thomas, and Santa Cruz. It is indicated that the model evidently enhances the correction of the wind speed forecast. | 翻訳日:2024-04-23 12:48:38 公開日:2024-04-22 |
# AccidentBlip2:Multi-View MotionBlip2による事故検出
AccidentBlip2: Accident Detection With Multi-View MotionBlip2 ( http://arxiv.org/abs/2404.12149v3 ) ライセンス: Link先を確認 | Yihua Shao, Hongyi Cai, Xinwei Long, Weiyi Lang, Zhe Wang, Haoran Wu, Yan Wang, Jiayi Yin, Yang Yang, Zhen Lei, | (参考訳) インテリジェントな車両は多くの輸送シナリオにおいて優れた能力を示してきたが、複雑なオンボードセンサーとオンボードニューラルネットワークの推論能力は、複雑な輸送システムにおける事故検出のためのインテリジェントな車両の精度を制限している。
本稿では,純粋視覚に基づく多モード大規模Blip2事故検出手法であるAccidentBlip2を提案する。
提案手法はまず,マルチビューをViT-14gで処理し,マルチビュー機能をQformerのクロスアテンション層に入力する。一方,自動設計のMotion Qformerでは,Blip2のQformerの自己アテンション層をIn推論プロセスのテンポラルアテンション層に置き換え,前フレームで生成されたクエリをテンポラルアテンション層に入力し,時間情報の推論を実現する。
そして,MLPに入力されたクエリに対して自己回帰推論を行うことにより,周辺環境に事故があるかどうかを検出する。
我々はまた、各車両にMotion Qformerを配置し、自動回帰推論のためにMLPに推論生成クエリを同時に入力することで、マルチ車両協調システムへのアプローチを拡張した。
提案手法は,既存のビデオ大言語モデルの精度を検知し,マルチ車両システムにも適応し,インテリジェントな輸送シナリオに適用可能である。
Intelligent vehicles have demonstrated excellent capabilities in many transportation scenarios, but the complex on-board sensors and the inference capabilities of on-board neural networks limit the accuracy of intelligent vehicles for accident detection in complex transportation systems. In this paper, we present AccidentBlip2, a pure vision-based multimodal large model Blip2 accident detection method. Our method first processes the multi-view through ViT-14g and inputs the multi-view features into the cross attention layer of the Qformer, while our self-designed Motion Qformer replaces the self-attention layer in Blip2's Qformer with the Temporal Attention layer in the In the inference process, the query generated in the previous frame is input into the Temporal Attention layer to realize the inference for temporal information. Then we detect whether there is an accident in the surrounding environment by performing autoregressive inference on the query input to the MLP. We also extend our approach to a multi-vehicle cooperative system by deploying Motion Qformer on each vehicle and simultaneously inputting the inference-generated query into the MLP for autoregressive inference. Our approach detects the accuracy of existing video large language models and also adapts to multi-vehicle systems, making it more applicable to intelligent transportation scenarios. | 翻訳日:2024-04-23 12:38:52 公開日:2024-04-22 |
# ダイナミックガウスメッシュ:モノクロビデオからの一貫性のあるメッシュ再構成
Dynamic Gaussians Mesh: Consistent Mesh Reconstruction from Monocular Videos ( http://arxiv.org/abs/2404.12379v2 ) ライセンス: Link先を確認 | Isabella Liu, Hao Su, Xiaolong Wang, | (参考訳) 現代の3Dエンジンとグラフィックスパイプラインは、効率的なレンダリング、幾何処理、テクスチャ編集、その他多くの下流操作を可能にするメモリ効率のよい表現としてメッシュを必要とする。
しかし、単眼の視覚的観察から構造や細部の観点からは、高品質なメッシュを得ることは依然として困難である。
動的なシーンやオブジェクトでは、この問題はさらに難しくなります。
この目的のために、単一のモノクロビデオから高忠実かつ時間一貫性のあるメッシュを再構築するフレームワークであるDynamic Gaussians Mesh (DG-Mesh)を紹介した。
我々の研究は、最近の3Dガウススプラッティングの進歩を活用して、ビデオから時間的一貫性のあるメッシュシーケンスを構築する。
この表現の上に構築されたDG-Meshは、ガウス点から高品質なメッシュを復元し、時間とともにメッシュ頂点を追跡することができるため、動的オブジェクトのテクスチャ編集などのアプリケーションが可能になる。
メッシュガイドによる密度化と変形したガウスへのプルーニングによるメッシュ再構築を実現するため,均等に分散したガウスアンを奨励するガウス・メシュアンチョリングを導入する。
正準空間と変形空間の間のサイクル一貫性の変形を適用することにより、固定されたガウスを正準空間に投影し、すべての時間フレームにわたってガウスを最適化することができる。
異なるデータセットの評価の間、DG-Meshはベースラインよりもはるかに優れたメッシュ再構成とレンダリングを提供する。
プロジェクトページ: https://www.liuisabella.com/DG-Mesh/
Modern 3D engines and graphics pipelines require mesh as a memory-efficient representation, which allows efficient rendering, geometry processing, texture editing, and many other downstream operations. However, it is still highly difficult to obtain high-quality mesh in terms of structure and detail from monocular visual observations. The problem becomes even more challenging for dynamic scenes and objects. To this end, we introduce Dynamic Gaussians Mesh (DG-Mesh), a framework to reconstruct a high-fidelity and time-consistent mesh given a single monocular video. Our work leverages the recent advancement in 3D Gaussian Splatting to construct the mesh sequence with temporal consistency from a video. Building on top of this representation, DG-Mesh recovers high-quality meshes from the Gaussian points and can track the mesh vertices over time, which enables applications such as texture editing on dynamic objects. We introduce the Gaussian-Mesh Anchoring, which encourages evenly distributed Gaussians, resulting better mesh reconstruction through mesh-guided densification and pruning on the deformed Gaussians. By applying cycle-consistent deformation between the canonical and the deformed space, we can project the anchored Gaussian back to the canonical space and optimize Gaussians across all time frames. During the evaluation on different datasets, DG-Mesh provides significantly better mesh reconstruction and rendering than baselines. Project page: https://www.liuisabella.com/DG-Mesh/ | 翻訳日:2024-04-23 12:38:52 公開日:2024-04-22 |
# ガウススティングはSFM初期化を必要とするか?
Does Gaussian Splatting need SFM Initialization? ( http://arxiv.org/abs/2404.12547v2 ) ライセンス: Link先を確認 | Yalda Foroutan, Daniel Rebain, Kwang Moo Yi, Andrea Tagliasacchi, | (参考訳) 3Dガウススプラッティングは, 高品質な結果とハードウェアのラスタ化との整合性から, シーン再構成と新しいビュー合成の汎用的で効果的な手法として近年採用されている。
その利点にも拘わらず、Structure-from-Motion (SFM)アルゴリズムによる高品質の点雲初期化への依存は克服すべき重要な限界である。
そこで我々は, ニューラルレイディアンスフィールド(NeRF)からの体積再構成を用いて, SFMデータへの依存を回避し, ガウシアン・スティングの様々な初期化戦略について検討した。
提案手法は, 改良された初期化戦略と低コストNeRFモデルによる構造蒸留を組み合わせることで, SFMの初期化結果と同等, あるいはそれ以上に優れた結果が得られることを示した。
3D Gaussian Splatting has recently been embraced as a versatile and effective method for scene reconstruction and novel view synthesis, owing to its high-quality results and compatibility with hardware rasterization. Despite its advantages, Gaussian Splatting's reliance on high-quality point cloud initialization by Structure-from-Motion (SFM) algorithms is a significant limitation to be overcome. To this end, we investigate various initialization strategies for Gaussian Splatting and delve into how volumetric reconstructions from Neural Radiance Fields (NeRF) can be utilized to bypass the dependency on SFM data. Our findings demonstrate that random initialization can perform much better if carefully designed and that by employing a combination of improved initialization strategies and structure distillation from low-cost NeRF models, it is possible to achieve equivalent results, or at times even superior, to those obtained from SFM initialization. | 翻訳日:2024-04-23 12:38:52 公開日:2024-04-22 |
# LLMによるプログラム修復のための多目的ファインチューニング
Multi-Objective Fine-Tuning for Enhanced Program Repair with LLMs ( http://arxiv.org/abs/2404.12636v2 ) ライセンス: Link先を確認 | Boyang Yang, Haoye Tian, Jiadong Ren, Hongyu Zhang, Jacques Klein, Tegawendé F. Bissyandé, Claire Le Goues, Shunfu Jin, | (参考訳) 大規模言語モデル(LLM)は、幅広い下流タスクにおいて顕著な機能を示した。
ソフトウェアエンジニアリングの領域内では、プログラムの修復、ユニークな課題の提示、最先端のパフォーマンスのアンロックのための微調整が必要である。
LLMのプログラム修復タスクに関する文献で提案されている微調整アプローチは、一般的に、データの構文パターンを超えて、コード変更の背後にあるロジックを推論する必要性を見落としている。
高性能な微調整実験も、通常非常に高い計算コストで行われる。
MORepairでは、プログラム修復のためのLLM微調整の学習焦点に関する新たな視点を提案し、LLMパラメータをコード変換のタスクの構文的ニュアンス(オブジェクト1)に適応させるだけでなく、トレーニングデータにおけるコード変更の背後にある論理的理由(オブジェクト2)に関して、特にLLMを微調整する。
このような多目的微調整は、LCMに高品質なパッチを生成するよう指示する。
我々はMORepairを、サイズやアーキテクチャの異なる4つのオープンソースLCMの微調整に応用する。
C++とJavaの修復ベンチマークの実験結果によると、実装された微調整により、トップ10の修理提案でLLMの修理性能が7.6%から10%向上した。
さらに, プログラム修復, ファインチューンCoT, 補修LLaMAのファインチューンモデルにおいて, 既存の最先端モデルに比べて優れた性能を示すことを示す。
Large language models (LLMs) have demonstrated remarkable capabilities on a broad spectrum of downstream tasks. Within the realm of software engineering, specialized tasks on code, such as program repair, present unique challenges, necessitating fine-tuning to unlock state-of-the-art performance. Fine-tuning approaches proposed in the literature for LLMs on program repair tasks are however generally overlooking the need to reason about the logic behind code changes, beyond syntactic patterns in the data. High-performing fine-tuning experiments also usually come at very high computational costs. With MORepair, we propose a novel perspective on the learning focus of LLM fine-tuning for program repair: we not only adapt the LLM parameters to the syntactic nuances of the task of code transformation (objective 1), but we also specifically fine-tune the LLM with respect to the logical reason behind the code change in the training data (objective 2). Such a multi-objective fine-tuning will instruct LLMs to generate high-quality patches. We apply MORepair to fine-tune four open-source LLMs with different sizes and architectures. Experimental results on C++ and Java repair benchmarks show that the implemented fine-tuning effectively boosts LLM repair performance by 7.6% to 10% in Top-10 repair suggestions. We further show that our fine-tuning strategy yields superior performance compared to the incumbent state-of-the-art in fine-tuned models for program repair, Fine-tune-CoT and RepairLLaMA. | 翻訳日:2024-04-23 12:38:52 公開日:2024-04-22 |
# DLoRA-TrOCR:変換器を用いた混合テキストモード光文字認識
DLoRA-TrOCR: Mixed Text Mode Optical Character Recognition Based On Transformer ( http://arxiv.org/abs/2404.12734v2 ) ライセンス: Link先を確認 | Da Chang, Yu Li, | (参考訳) OCR技術の継続的な発展とアプリケーション分野の拡大により、複雑な場面におけるテキスト認識は重要な課題となっている。
複数のフォント、混合シーン、複雑なレイアウトなどの要因は、従来のOCRモデルの認識精度に深刻な影響を及ぼす。
近年、ディープラーニングに基づくOCRモデルは特定の分野や類似のデータセットでよく機能しているが、複数のシーンを持つ複雑な環境に直面する場合、モデルの一般化能力と堅牢性は依然として大きな課題である。
さらに、すべてのパラメータのスクラッチや微調整からOCRモデルをトレーニングすることは、コンピューティングリソースと推論時間に非常に要求されるため、アプリケーションの柔軟性が制限される。
本研究は、上記課題に対応する混合テキスト認識の基本的側面に焦点を当て、様々な下流タスクにおける例外的な性能を示すために、事前学習された基本OCRモデルを効果的に微調整することを含む。
そこで本研究では,事前学習したOCR変換器,すなわちDLoRA-TrOCRに基づくパラメータ効率の良い混合テキスト認識手法を提案する。
この方法は、DRAを画像エンコーダとLoRAをテキストデコーダの内部構造に埋め込むことで、下流タスクの効率的なパラメータの微調整を可能にする。
実験結果から, DLoRA-TrOCR はパラメータの最小値であり, 性能が向上していることがわかった。
複雑なシーンデータセット上で、手書き、印刷、ストリートビューの混在したテキストの同時認識を含む最先端のパフォーマンスを実現することができる。
With the continuous development of OCR technology and the expansion of application fields, text recognition in complex scenes has become a key challenge. Factors such as multiple fonts, mixed scenes and complex layouts seriously affect the recognition accuracy of traditional OCR models. Although OCR models based on deep learning have performed well in specific fields or similar datasets in recent years, the generalization ability and robustness of the model are still a big challenge when facing complex environments with multiple scenes. Furthermore, training an OCR model from scratch or fine-tuning all parameters is very demanding on computing resources and inference time, which limits the flexibility of its application. This study focuses on a fundamental aspect of mixed text recognition in response to the challenges mentioned above, which involves effectively fine-tuning the pre-trained basic OCR model to demonstrate exceptional performance across various downstream tasks. To this end, we propose a parameter-efficient mixed text recognition method based on pre-trained OCR Transformer, namely DLoRA-TrOCR. This method embeds DoRA into the image encoder and LoRA into the internal structure of the text decoder, enabling efficient parameter fine-tuning for downstream tasks. Experimental results show that compared to similar parameter adjustment methods, our model DLoRA-TrOCR has the smallest number of parameters and performs better. It can achieve state-of-the-art performance on complex scene datasets involving simultaneous recognition of mixed handwritten, printed and street view texts. | 翻訳日:2024-04-23 12:38:52 公開日:2024-04-22 |
# 高次ランゲヴィンダイナミクスを用いた生成モデリング
Generative Modelling with High-Order Langevin Dynamics ( http://arxiv.org/abs/2404.12814v2 ) ライセンス: Link先を確認 | Ziqiang Shi, Rujie Liu, | (参考訳) スコアマッチングを伴う確率微分方程式(SDE)に基づく拡散生成モデル(DGM)は、データ生成において前例のない結果を得た。
本稿では,スコアマッチングを用いた高次ランゲヴィンダイナミクス(HOLD)に基づく高速な高品質生成モデルを提案する。
この動機は、三階ランゲヴィン力学によって証明される。
単一データ可変プロセスに対する従来のSDE、eg分散爆発または分散保存SDEを増大させることにより、HOLDは同時に位置、速度、加速度をモデル化し、同時にデータ生成の品質と速度を向上させることができる。
HOLDは、Ornstein-Uhlenbeck過程と2つのハミルトニアンプロセスから成り、混合時間を2桁に短縮する。
公開データセットCIFAR-10とCelebA-HQの非条件画像生成の実験実験により、この効果はFrechet開始距離(FID)と負の対数類似度の両方において有意であり、CIFAR-10における1.85の最先端FIDを実現する。
Diffusion generative modelling (DGM) based on stochastic differential equations (SDEs) with score matching has achieved unprecedented results in data generation. In this paper, we propose a novel fast high-quality generative modelling method based on high-order Langevin dynamics (HOLD) with score matching. This motive is proved by third-order Langevin dynamics. By augmenting the previous SDEs, e.g. variance exploding or variance preserving SDEs for single-data variable processes, HOLD can simultaneously model position, velocity, and acceleration, thereby improving the quality and speed of the data generation at the same time. HOLD is composed of one Ornstein-Uhlenbeck process and two Hamiltonians, which reduce the mixing time by two orders of magnitude. Empirical experiments for unconditional image generation on the public data set CIFAR-10 and CelebA-HQ show that the effect is significant in both Frechet inception distance (FID) and negative log-likelihood, and achieves the state-of-the-art FID of 1.85 on CIFAR-10. | 翻訳日:2024-04-23 12:38:52 公開日:2024-04-22 |
# 非エルミートキラル量子光学系における非相互PT対称相転移
Nonreciprocal PT-symmetric phase transition in a non-Hermitian chiral quantum optical system ( http://arxiv.org/abs/2404.12860v2 ) ライセンス: Link先を確認 | Miao Cai, Jiang-Shan Tang, Ming-Yuan Chen, Keyu Xia, | (参考訳) 相転移、非調和性、非相互性は基礎物理学において中心的な役割を果たす。
しかし、これらの3つの場の3つの相互作用は量子領域に欠けている。
ここでは,方向系散逸に起因する非エルミートキラル量子電磁力学系において,非相互パリティ-時対称相転移を示す。
前述した非相互相転移とは対照的に、原子-共振器結合が相互結合である場合でも、非相互パリティ-時対称相が現れる。
非相相領域において非相反光子遮断を得る。
これらの結果は、非相互および非エルミート量子物理学の基本的な洞察を深め、また非伝統的な量子操作のための新しい扉を開くかもしれない。
Phase transitions, non-Hermiticity and nonreciprocity play central roles in fundamental physics. However, the triple interplay of these three fields is of lack in the quantum domain. Here, we show nonreciprocal parity-time-symmetric phase transition in a non-Hermitian chiral quantum electrodynamical system, caused by the directional system dissipation. In remarkable contrast to previously reported nonreciprocal phase transitions, the nonreciprocal parity-time-symmetric phases appear even when the atom-resonator coupling is reciprocal. Nonreciprocal photon blockade is obtained in the nonreciprocal phase region. These results may deepen the fundamental insight of nonreciprocal and non-Hermitian quantum physics, and also open a new door for unconventional quantum manipulation. | 翻訳日:2024-04-23 12:38:52 公開日:2024-04-22 |
# ステートメントチューニングによるエンコーダモデル上での自然ゼロショットプロンプトの実現
Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning ( http://arxiv.org/abs/2404.12897v2 ) ライセンス: Link先を確認 | Ahmed Elshabrawy, Yongxin Huang, Iryna Gurevych, Alham Fikri Aji, | (参考訳) 大規模言語モデル(LLM)はゼロショットと少数ショットのシナリオにおいて顕著な能力を示すが、計算的に禁止されたサイズを必要とすることが多い。
逆に、BERT や RoBERTa のような小さな Masked Language Model (MLMs) は、微調整によって最先端の結果を得るが、アーキテクチャ上の制約のため、ほとんどショットやゼロショットの設定にまで拡張することは困難である。
そこで本稿では,有限文の集合として識別的タスクをモデル化し,潜在的な文を識別してラベルを決定するエンコーダモデルを訓練する手法であるステートメント・チューニングを提案する。
複数のタスクをステートメントチューニングして、クロスタスクの一般化を実現します。
実験結果から,ステートメントチューニングは,パラメータが著しく少ない最先端のLLMと比較して,競争性能が向上することが示された。
さらに、本研究では、いくつかの設計選択が少数ショットおよびゼロショットの一般化に与える影響を調査し、ステートメントチューニングが、控えめなトレーニングデータとタスクとステートメントの多様性から、見えないタスクの一般化性に対する十分なパフォーマンスを達成できることを明らかにした。
While Large Language Models (LLMs) exhibit remarkable capabilities in zero-shot and few-shot scenarios, they often require computationally prohibitive sizes. Conversely, smaller Masked Language Models (MLMs) like BERT and RoBERTa achieve state-of-the-art results through fine-tuning but struggle with extending to few-shot and zero-shot settings due to their architectural constraints. Hence, we propose Statement-Tuning, a technique that models discriminative tasks as a set of finite statements and trains an Encoder model to discriminate between the potential statements to determine the label. We do Statement-Tuning on multiple tasks to enable cross-task generalization. Experimental results demonstrate that Statement Tuning achieves competitive performance compared to state-of-the-art LLMs with significantly fewer parameters. Moreover, the study investigates the impact of several design choices on few-shot and zero-shot generalization, revealing that Statement Tuning can achieve sufficient performance with modest training data and benefits from task and statement diversity for unseen task generalizability. | 翻訳日:2024-04-23 12:38:52 公開日:2024-04-22 |
# 身体的バックドアアタックはビジョンラージ言語モデルで運転を危険にさらす
Physical Backdoor Attack can Jeopardize Driving with Vision-Large-Language Models ( http://arxiv.org/abs/2404.12916v2 ) ライセンス: Link先を確認 | Zhenyang Ni, Rui Ye, Yuxi Wei, Zhen Xiang, Yanfeng Wang, Siheng Chen, | (参考訳) VLM(Vision-Large-Language-models)は、自律運転において大きな応用可能性を持っている。
VLMの複雑なシナリオにおける理解と意思決定能力にもかかわらず、安全クリティカルな自動運転システムへの統合は深刻なセキュリティリスクをもたらす。
本稿では,物理的物体を用いて実際に起動可能な自律運転用VLMに対する最初のバックドア攻撃であるBadVLMDriverを提案する。
デジタル修正に依存する既存のVLMに対するバックドア攻撃とは異なり、BadVLMDriverは、赤い風船のような一般的な物理的アイテムを使用して、急激な加速のような安全でない行動を誘発し、自動運転車の安全性に対する現実的な脅威を強調している。
BadVLMDriverを実行するために、自然言語命令を利用した自動パイプラインを開発し、悪意のある振る舞いを組み込んだバックドアトレーニングサンプルを生成する。
このアプローチはフレキシブルなトリガーと振る舞いの選択を可能にし、さまざまなシナリオにおける攻撃のステルス性と実用性を高める。
我々は,BadVLMDriverを2つの代表的なVLM,5つの異なるトリガーオブジェクト,および2種類の悪質なバックドア動作に対して評価する広範囲な実験を行った。
BadVLMDriverは、赤い風船を持った歩行者に突如、加速を誘導する攻撃の成功率を92%達成する。
このように、BadVLMDriverは重要なセキュリティリスクを示すだけでなく、自律運転技術におけるこのような脆弱性から保護するための堅牢な防御メカニズムを開発する緊急の必要性も強調している。
Vision-Large-Language-models(VLMs) have great application prospects in autonomous driving. Despite the ability of VLMs to comprehend and make decisions in complex scenarios, their integration into safety-critical autonomous driving systems poses serious security risks. In this paper, we propose BadVLMDriver, the first backdoor attack against VLMs for autonomous driving that can be launched in practice using physical objects. Unlike existing backdoor attacks against VLMs that rely on digital modifications, BadVLMDriver uses common physical items, such as a red balloon, to induce unsafe actions like sudden acceleration, highlighting a significant real-world threat to autonomous vehicle safety. To execute BadVLMDriver, we develop an automated pipeline utilizing natural language instructions to generate backdoor training samples with embedded malicious behaviors. This approach allows for flexible trigger and behavior selection, enhancing the stealth and practicality of the attack in diverse scenarios. We conduct extensive experiments to evaluate BadVLMDriver for two representative VLMs, five different trigger objects, and two types of malicious backdoor behaviors. BadVLMDriver achieves a 92% attack success rate in inducing a sudden acceleration when coming across a pedestrian holding a red balloon. Thus, BadVLMDriver not only demonstrates a critical security risk but also emphasizes the urgent need for developing robust defense mechanisms to protect against such vulnerabilities in autonomous driving technologies. | 翻訳日:2024-04-23 12:38:52 公開日:2024-04-22 |